ES2316786T3 - Metodo, aparato y programa de ordenador para sintesis de voz. - Google Patents

Metodo, aparato y programa de ordenador para sintesis de voz. Download PDF

Info

Publication number
ES2316786T3
ES2316786T3 ES03746418T ES03746418T ES2316786T3 ES 2316786 T3 ES2316786 T3 ES 2316786T3 ES 03746418 T ES03746418 T ES 03746418T ES 03746418 T ES03746418 T ES 03746418T ES 2316786 T3 ES2316786 T3 ES 2316786T3
Authority
ES
Spain
Prior art keywords
voice
change
text
synthetic
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03746418T
Other languages
English (en)
Inventor
Masahiro; c/o CANON KABUSHIKI KAISHA MUTSUNO
Toshiaki; c/o CANON KABUSHIKI KAISHA FUKADA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Application granted granted Critical
Publication of ES2316786T3 publication Critical patent/ES2316786T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

Método de síntesis de voz para sintetizar una forma de onda de voz para cambiar de manera continua un rasgo de una voz sintética de una sección asignada a un identificador predeterminado incluido en un texto de entrada al generar la voz sintética correspondiente al texto, caracterizado por comprender: una etapa de ajuste (S103) para ajustar una sección deseada del texto que va a ser generado, en la que el rasgo de la voz sintética se va a cambiar de manera continua utilizando un identificador predeterminado que comprende la información de atributo que representa un modo de cambio del rasgo de la voz sintética tanto en la posición de inicio como en la posición de fin de la sección dispuesta por el identificador; una etapa de reconocimiento (S302) para reconocer el identificador predeterminado y un tipo de información de atributo contenida en el identificador predeterminado del texto con el identificador, que se dispone en dicha etapa de ajuste; y una etapa de síntesis de voz (S320) para sintetizar una forma de onda de voz, que tiene un rasgo de voz sintética que cambia de manera continua según la información del atributo contenida en el identificador predeterminado, interpolando la voz sintética correspondiente al texto dentro de la sección deseada del texto con el identificador según un resultado de reconocimiento de dicha etapa de reconocimiento, en el que el modo de cambio del rasgo de la voz sintética comprende al menos un cambio en la velocidad de emisión, un cambio en el volumen, un cambio en el hablante, un cambio en el dispositivo de salida, un cambio en el número de hablantes y un cambio de la emoción.

Description

Método, aparato y programa de ordenador para síntesis de voz.
Campo técnico
La presente invención se refiere al sector de los aparatos de síntesis de voz que genera una frase de entrada (texto) como voz sintética a partir de un altavoz.
\vskip1.000000\baselineskip
Técnica anterior
Convencionalmente, se ha propuesto un aparato de síntesis de voz que genera una frase de entrada (texto) como voz sintética (sonido sintético, habla sintética) a partir de un altavoz.
A efectos de generar voz sintética altamente expresiva a partir de texto utilizando dicho aparato, se debe proporcionar la información de control de potencia, velocidad, tono y similares, de manera que el usuario, como oyente, lo pueda escuchar como si fuera voz natural.
Para este propósito, incluso cuando la voz sintética se genera en base a una regla predeterminada contenida en una cadena de caracteres del texto, se intenta añadir la información de lenguaje deseada en dicho texto.
En este caso, la información adicional proporcionada al texto utiliza un formato que limita la información adicional mediante etiquetas expresadas por "< >" como las utilizadas en el llamado HTML (lenguaje de marcas de hipertexto) y se propone un método de control de los tonos de la voz sintética correspondiente al texto de entrada utilizando dichas etiquetas.
No obstante, en dicho método de etiquetado convencional, dado que el etiquetado se lleva a cabo en las respectivas unidades discretas tales como frases, palabras y similar para disponer un valor fijo predeterminado, la voz sintética que va a ser de hecho generada es sometida únicamente a cambios discretos, aunque dicho método pretenda generar una voz sintética correspondiente a diferentes caracteres y palabras en el texto de entrada mientras cambia de manera continua una prosodia adecuada, dando como resultado una voz sintética no natural para el oyente.
Como técnica para cambiar de manera continua cierta prosodia de la voz, se propone un método de transformación de voz de la patente japonesa abierta a inspección número 9-244693.
No obstante, con este método, únicamente se puede interpolar el patrón de tono.
Además, con estos métodos, cuando la voz sintética de una parte limitada por etiquetas en el texto de entrada va a ser cambiada de manera continua, se deben asignar las etiquetas adecuadamente a los puntos de cambio de la voz sintética.
Por tanto, la operación de etiquetado es difícil y, en consecuencia, únicamente se puede obtener un cambio discreto.
El lector puede ser adicionalmente informado en relación al estado de la técnica mediante referencia a la publicación identificada en este documento como EP 0880127. Brevemente, el documento EP 0880127 da a conocer un lenguaje de descripción de tres capas para el control prosódico utilizado para insertar instrucciones de control del rasgo prosódico en un texto en las posiciones de los caracteres o de la cadena de caracteres que van a ser dotados de información no verbal. El lenguaje de descripción de tres capas para el control prosódico está compuesto por: una capa semántica (capa S) que tiene como instrucciones de control del rasgo prosódico instrucciones de control que están representadas cada una de ellas mediante una palabra indicativa del significado de la información no verbal; una capa de interpretación (capa I) que tiene instrucciones de control del rasgo prosódico que interpretan las instrucciones de control del rasgo prosódico de la capa S y especifican el control de los parámetros prosódicos del habla y una capa de parámetros (capa P) que tiene los parámetros prosódicos que son objetos de control de las instrucciones de control del rasgo prosódico de la capa I. El texto se convierte en una cadena de parámetros prosódicos mediante una síntesis basada en reglas. Los parámetros prosódicos correspondientes a los caracteres o cadena de caracteres que van a ser corregidos son corregidos mediante las instrucciones de control del rasgo prosódico de la capa I y el habla se sintetiza a partir de una cadena de parámetros que contiene los parámetros prosódicos corregidos.
\vskip1.000000\baselineskip
Características de la invención
La presente invención se ha propuesto para resolver los problemas convencionales y tiene como objetivo cambiar fácilmente y de manera continua un rasgo de la voz sintética de una sección deseada.
En consecuencia, un primer aspecto de la presente invención da a conocer un método de síntesis de voz para sintetizar una forma de onda de voz para cambiar de manera continua un rasgo de una voz sintética según la reivindicación 1.
Según un segundo aspecto de la presente invención se da a conocer un aparato de síntesis de voz según la reivindicación 2.
Otras características y ventajas de la presente invención serán evidentes a partir de la siguiente descripción tomada conjuntamente con los dibujos adjuntos en los que caracteres de referencia similares designan las mismas partes o partes similares en todas las figuras de la misma.
Breve descripción de los dibujos
Los dibujos adjuntos, que se incorporan y forman parte de la descripción, muestran realizaciones de la invención y, conjuntamente con la descripción, sirven para explicar los principios de la invención.
La figura 1 es un diagrama de bloques de un aparato de síntesis de voz según la primera realización;
la figura 2 muestra un ejemplo de las etiquetas asignadas al texto;
las figuras 3A y 3B son diagramas de flujo que muestran el proceso de control del aparato de síntesis de voz de la primera realización;
la figura 4 es un gráfico para explicar un ejemplo de la interpolación de una velocidad de emisión en la generación de la voz sintética;
la figura 5 es un gráfico para explicar un ejemplo de la interpolación de un volumen en la generación de la voz sintética;
la figura 6 es un gráfico para explicar un ejemplo de la interpolación del número de hablantes en la generación de la voz sintética;
la figura 7 muestra un ejemplo de las etiquetas asignadas al texto en la segunda realización;
la figura 8 muestra un ejemplo de las etiquetas asignadas al texto en la tercera realización;
la figura 9 es un diagrama de flujo que muestra el proceso de control de un aparato de síntesis de voz según la tercera realización;
la figura 10 muestra un ejemplo de las etiquetas asignadas al texto en la cuarta realización;
la figura 11 muestra un ejemplo de las etiquetas asignadas al texto en la quinta realización;
la figura 12 es un gráfico para explicar un cambio en el rasgo de la voz sintética en la generación de la voz sintética en la quinta realización; y
la figura 13 muestra un ejemplo de las etiquetas asignadas al texto en la sexta realización.
Mejor modo de llevar a cabo la invención
A continuación se describirán en detalle las realizaciones de la presente invención según los dibujos adjuntos.
\vskip1.000000\baselineskip
Primera realización
La disposición de un aparato de síntesis de voz según esta realización se explicará brevemente en primer lugar con referencia a la figura 1.
La figura 1 es un diagrama de bloques de un aparato de síntesis de voz de la primera realización. Con respecto al hardware que se puede utilizar, se puede adoptar un aparato de tipo general de procesamiento de la información, tal como un ordenador personal o similar.
Haciendo referencia a la figura 1, el aparato comprende un módulo (101) de generación de texto para generar un cuerpo de texto, y un módulo (102) de generación de etiquetas para generar el texto etiquetado (103), insertando las etiquetas predeterminadas en las posiciones deseadas en dicho texto y también atributos en dichas etiquetas asociados con la generación del texto etiquetado que va a ser generado como voz. El módulo (101) de generación de texto genera texto en base a diversas fuentes de información tales como mensajes de correo, artículos de noticias, revistas, libros impresos y similares. En este caso, el software de edición utilizado para escribir las etiquetas y el texto no está particularmente limitado.
Se debe observar que un módulo indica una unidad funcional de un programa de software ejecutado por el hardware del aparato de síntesis de voz según esta realización.
Se debe observar que el módulo (101) de generación de texto y el módulo (102) de generación de etiquetas pueden ser tanto módulos externos como módulos internos del mismo aparato de síntesis de voz.
El texto etiquetado (103) es introducido a un módulo (104) de entrada de texto a través de una línea de comunicación o un medio de almacenamiento portátil (CD-R o similar). Una parte de texto del texto etiquetado (103) introducido al módulo (104) de entrada de texto es analizado por un módulo (105) de análisis de texto y su parte de etiqueta es analizada por un módulo (106) de análisis de etiquetas. Además, en esta realización, la información del atributo contenida en una etiqueta es analizada por un módulo (107) de análisis del atributo de la etiqueta (los detalles se explicarán más adelante).
Un módulo (108) de procesamiento del lenguaje procesa la información del lenguaje (es decir, el acento y similares) necesarios para la generación de voz con referencia a un diccionario de lenguaje (110) que almacena previamente información del lenguaje. Un módulo (109) de síntesis de voz genera una forma de onda sintética que expresa la voz que va a ser de hecho generada con referencia a un diccionario (111) de forma de onda/modelo prosódicos que almacena previamente fonemas prosódicos y similares, y genera la voz sintética a partir de un altavoz (no mostrado) en base a dicha forma de onda sintética.
Las disposiciones como un rasgo característico de esta realización se explicarán a continuación.
El módulo (102) de generación de etiquetas inserta las etiquetas y los atributos predeterminados en el texto generado por el módulo (101) de generación de texto. En este caso, las etiquetas se pueden insertar en las posiciones elegidas por el usuario y pueden ser asignadas a una sección en la que un rasgo de la voz sintética se va a cambiar suavemente como en la llamada transformación ("morphing") en un proceso de imagen. En cada etiqueta, se puede escribir información adicional llamada atributo (información de atributo). Más específicamente, las etiquetas predeterminadas "<morphing...>" y "</morphing>" se asignan a los puntos de inicio y de fin de una sección en la que se debe cambiar suavemente un rasgo de la voz sintética del texto en el que se alinean los caracteres y las palabras, y la información de atributo que representa un objeto cuyo rasgo de la voz sintética se va a cambiar de manera continua, en otras palabras, en cada etiqueta se escribe un patrón de cambio para cambiar de manera continua el rasgo de la voz sintética.
En esta realización, el cambio del rasgo de la voz sintética comprende no sólo la llamada prosodia de la voz sino también por ejemplo el hablante, el número de hablantes, la emoción y similares.
Se debe observar que el usuario escribe la información de atributo al generar el texto. También, el usuario dispone las etiquetas y los diversos atributos en las etiquetas. Se debe observar que las etiquetas y los valores de los atributos se pueden disponer automáticamente o semiautomáticamente mediante un editor multifunción o similar.
La información de atributos incorporada a cada etiqueta es información que representa el rasgo de la voz sintética asociado, por ejemplo, con un volumen, un hablante, un dispositivo de salida, el número de hablantes, una emoción, una velocidad de emisión, la frecuencia fundamental y similares. Además, se pueden utilizar otros eventos que se pueden cambiar de manera continua al generar la voz sintética (referidos como "transformación" ("morphing") en esta realización).
Las etiquetas de inicio y de fin dispuestas en el texto pueden tener los mismos o diferentes tipos de información de atributo. Cuando los puntos de inicio y de fin tienen la misma información de atributo, se genera la voz según la información del atributo dispuesta por la etiqueta del punto de inicio sin cambiar ningún rasgo de la voz sintética asociada con dicha información del atributo en la generación real de la voz sintética.
Un valor correspondiente a la información de atributo incorporada en cada etiqueta es un valor numérico si un atributo es el volumen. Si un atributo es un hablante se puede designar un hombre o una mujer o un número de identificación (ID) del hablante.
La figura 2 muestra un ejemplo de las etiquetas asignadas al texto. En este ejemplo, una sección en la que un rasgo de la voz sintética se va a cambiar de manera continua corresponde a una sección limitada por una etiqueta de inicio "<morphing...>" y una etiqueta de fin "</morphing>". Los atributos en la etiqueta de inicio "<morphing...>" describen una emoción (emotion) como un objeto cuyo rasgo de la voz sintética se va a cambiar de manera continua, una emoción (happy) "(feliz)" en el punto de inicio (start) y una emoción (angry) "(enfadado)" en el punto de fin (end). Por tanto, cuando de hecho se genera la voz sintética de este texto, se emite una frase limitada por las etiquetas mientras su voz cambia gradualmente de una voz feliz a una voz enfadada.
El módulo (104) de entrada de texto del aparato de síntesis de voz según esta realización recibe el texto etiquetado (103) asignado con las etiquetas, tal como se ha descrito anteriormente, y el módulo (105) de análisis de texto adquiere la información asociada con el tipo, contenidos y similares del texto en base al formato del texto etiquetado de entrada (103) y la información en el campo de cabecera del texto.
El módulo (106) de análisis de la etiqueta determina los tipos de etiquetas incorporadas en el texto etiquetado de entrada (103). El módulo (107) de análisis del atributo de la etiqueta analiza los atributos y los valores del atributo descritos en las etiquetas.
El módulo (108) de procesamiento de lenguaje y el módulo (109) de síntesis de voz generan una forma de onda de voz que va a ser generada procesando los datos que se leen del diccionario (111) de forma de onda/modelo prosódicos, como fonemas correspondientes al texto analizado por el módulo (105) de análisis de texto en base a los valores del atributo adquiridos por el módulo (107) de análisis del atributo de la etiqueta, y genera la voz sintética según dicha forma de onda de voz (se debe observar que el procesamiento basado en los valores del atributo se explicará más adelante).
Un método de extracción de los valores del atributo en las etiquetas "<morphing> ... </morphing>" mediante el módulo (106) de análisis de la etiqueta se explicará a continuación utilizando las figuras 3A y 3B.
Las figuras 3A y 3B son diagramas de flujo que muestran el proceso de control del aparato de síntesis de voz de la primera realización, es decir, la secuencia de procesos que van a ser ejecutados por la CPU (no mostrada) del aparato.
Haciendo referencia a las figuras 3A y 3B, el texto etiquetado (103) introducido por el módulo (104) de entrada de texto es sometido a análisis de texto, análisis de etiqueta y análisis del atributo de la etiqueta por parte del módulo (105) de análisis de texto, el módulo (106) de análisis de la etiqueta y al análisis (107) del atributo de la etiqueta (etapas S301 a S303).
Se comprueba si la etiqueta de inicio "<morphing...>" comprende objetos y puntos de inicio y de fin (etapa S304). Se comprueba en primer lugar si se incluye un valor del atributo a transformar. Si no se encuentra ningún valor del atributo a transformar, se leen en voz alta los caracteres y palabras limitados por las etiquetas de inicio y de fin de acuerdo con la voz que ha estado leyendo en voz alta la frase anterior a dicha etiqueta (etapa S305). Por otra parte, si se encuentra un valor del atributo a transformar, se comprueba si se encuentra uno de los atributos de los puntos de inicio y de fin (etapa S306).
Si ninguno de los puntos de inicio y de fin tienen atributos, los caracteres y las palabras limitados por las etiquetas de inicio y de fin se leen en voz alta utilizando un tono sintético de acuerdo con un valor por defecto del atributo a transformar que se fija con antelación (etapa S307). Por otra parte, si bien el punto de inicio o el de fin tiene un valor de atributo, se comprueba si es un valor de atributo del punto de inicio (etapa S308). Si no es un valor de atributo del punto de inicio, se determina si el valor de atributo del punto de fin y el valor de atributo a transformar son válidos (sí concuerdan), comprobando si éstos valores concuerdan (etapa S309). Si los dos valores concuerdan, se utiliza el valor del atributo del punto de fin (etapa S311). En la etapa S309, por ejemplo, si un objeto a transformar es un volumen, se comprueba si el valor del atributo del punto de fin es un valor de volumen y, si concuerdan, los caracteres y las palabras limitados por las etiquetas de inicio y de fin se leen en voz alta basándose en la información del punto de fin; si no concuerdan, los caracteres y las palabras limitados por las etiquetas de inicio y de fin se leen en voz alta utilizando un tono sintético por defecto que se prepara con antelación de acuerdo con el valor del atributo del objeto (etapa S310).
Si se determina en la etapa S308 que el punto de inicio tiene un valor de atributo y si el punto de fin no tiene ningún valor de atributo, el texto se lee en voz alta de acuerdo al valor de atributo del punto de inicio (etapa S312, etapa S315). En este caso, se comprueba de manera similar la validez con un objeto y si los dos valores concuerdan, el texto se lee en voz alta de acuerdo con el valor de atributo del punto de inicio (etapa S313, etapa S314).
Si tanto el punto de inicio como el de fin tienen valores de atributo y sus valores para el objeto son válidos (concuerdan), se genera un tono sintético tras la interpolación basándose en los valores del atributo (etapa S316, S320). Es decir, si el objeto es un volumen, se determina que los valores del atributo de los puntos de inicio y de fin son válidos únicamente en el caso en que tanto el punto de inicio con el de fin adoptan valores de volumen. Por ejemplo, si los valores del atributo de los puntos de inicio y de fin son diferentes (por ejemplo, el punto de inicio es un valor de volumen y el punto de fin es una emoción), se utiliza el valor de atributo que concuerda con el objeto (etapa S317, etapa S319). Si los valores de atributo de los puntos de inicio y de fin son diferentes y también son diferentes del objeto a transformar, los caracteres y las palabras limitados por las etiquetas de inicio y de fin se leen en voz alta utilizando un tono sintético por defecto correspondiente al valor del atributo del objeto (etapa S318). Cuando las etiquetas a comprobar tienen valores de atributo diferentes, la prioridad de una salida de voz es "objeto" > "punto de inicio" > "punto de fin".
A continuación se describirá la interpolación que se lleva a cabo en base a un valor de atributo como una secuencia de generación de voz, con referencia a la figura 4.
La figura 4 es un gráfico para explicar un ejemplo de interpolación de una velocidad de emisión en la generación de la voz sintética.
Como un ejemplo de un método de interpolación, cuando se va a interpolar la velocidad de emisión, el tiempo requerido para generar la forma de onda del texto completo 1 2 en la figura 4) se calcula según dicho texto que va a ser generado, y también se calculan las duraciones de tiempo t para los respectivos fonemas que forman dicho texto. En esta realización, dado que los modelos prosódicos estándares y las formas de onda de voz se graban con antelación en el diccionario de forma de onda/modelo prosódicos (111), el tiempo requerido para generar la forma de onda del texto completo que va a ser generado se puede calcular sumando las duraciones de tiempo t para los respectivos fonemas 3 en la figura 4) necesarios para generar la voz sintética leída a partir del diccionario (111) de formas de onda/modelo prosódicos.
Posteriormente se calcula la relación r entre los valores fijados como los valores de atributo de los puntos de inicio y de fin, y la velocidad de emisión actual. En este caso, si los valores fijados como los valores de atributo de los puntos de inicio y de fin son iguales a la velocidad actual, dado que r = 1, no se requiere este proceso de interpolación.
Basándose en la relación calculada, se calcula una función de interpolación de cada fonema mediante (valor de interpolación) = t x r. Reduciendo o ampliando el periodo de una forma de onda según el valor de interpolación calculado, se puede cambiar la velocidad de emisión. De manera alternativa, se puede llevar a cabo un proceso para cambiar la duración de tiempo según cierto rasgo de cada fonema.
En la interpolación de un volumen, se utilizan las duraciones de tiempo t de los respectivos fonemas que forman el texto que va a ser generado 4 en la figura 5) según dicho texto al igual que en la interpolación de la velocidad de emisión. Posteriormente, se calcula la relación r' entre los valores fijados como los valores de atributo de los puntos de inicio y de fin y el volumen actual.
La figura 5 es un gráfico para explicar la interpolación de un volumen en la generación de la voz sintética. En la figura 5 se calcula una función de interpolación mediante (valor de interpolación) = f x r'. Se debe observar que f es la amplitud de una forma de onda de voz sintética obtenida a partir del diccionario (111) de formas de onda/fonemas.
La amplitud f se reduce o se amplía según el valor de interpolación calculado. En lugar de cambiar la amplitud, se puede adoptar un método para cambiar directamente el volumen del hardware de salida. El mismo método se aplica a la frecuencia fundamental.
Además, al interpolar una emoción o un estilo de emisión, se interpolan los datos de síntesis de voz correspondientes a los valores fijados como los valores de atributo de los puntos de inicio y de fin del texto que va a ser generado, generando en consecuencia la voz sintética.
Por ejemplo, en un método de síntesis de voz basado en un método de edición de la forma de onda tal como PSOLA o similar, un segmento de voz en un diccionario de forma de onda de voz correspondiente a una emoción dispuesta en la posición de inicio en el texto que va a ser generado y el segmento en el diccionario de forma de onda de voz correspondiente a una emoción dispuesta en la posición de fin son sometidos a un proceso PSOLA con respecto a una duración de tiempo de continuación y una frecuencia fundamental deseadas, y los segmentos de la forma de onda de voz o la forma de onda de la voz sintética se interpolan según una función de interpolación obtenida de la misma manera que con el volumen.
Además, en un método de síntesis de voz basado en un método de síntesis del análisis de parámetros tal como cepstrum o similar, se interpolan una secuencia de parámetros obtenida a partir de un diccionario de parámetros de voz correspondientes a una emoción dispuesta en la posición de inicio en el texto que va a ser generado y la secuencia obtenida a partir del diccionario de parámetros de voz correspondiente a una emoción dispuesta en la posición de fin para generar un parámetro, y se genera una voz sintética correspondiente a una duración de tiempo de continuación y una frecuencia fundamental deseadas utilizando este parámetro.
Además, al igual que en el cambio de una voz masculina a una voz femenina, la interpolación entre hablantes se puede llevar a cabo mediante métodos similares. Además, cuando un dispositivo de salida comprende altavoces estereofónicos, la salida se puede cambiar de manera continua desde un altavoz izquierdo a un altavoz derecho. O cuando un dispositivo de salida comprende un auricular y un altavoz externo, se puede cambiar de manera continua una salida desde el auricular al altavoz externo.
Al interpolar el número de hablantes (el número de personas que hablan), se calcula una función de interpolación mostrada en la figura 6.
La figura 6 es un gráfico para explicar un ejemplo de interpolación del número de hablantes al generar la voz sintética. En el ejemplo mostrado en la figura 6, se implementa la transformación de un hablante a cinco hablantes. En este caso, la duración de tiempo de una forma de onda obtenida del texto que va a ser generado se divide en cinco periodos. Cada vez que transcurre uno de los periodos divididos, el número de hablantes aumenta de uno en uno, y se cambia el volumen del tono sintético en base a una función de interpolación (una función que cambia entre 0 y 1) mostrada en la figura 6. También, se normaliza el nivel de la forma de onda para evitar que la amplitud supere un valor predeterminado.
Se debe observar que se pueden añadir hablantes en un orden predeterminado o aleatoriamente.
En esta realización, la voz sintética se genera según una forma de onda de voz generada ejecutando los diferentes procesos de interpolación anteriormente mencionados. De esta manera, se puede implementar la voz sintética natural, cuyo rasgo de voz sintética cambia de manera continua, en comparación a un aparato de síntesis de voz convencional cuyo rasgo de voz sintética cambia de manera discreta.
Segunda realización
A continuación se explicará la segunda realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.
En esta realización, las etiquetas predeterminadas contenidas en el texto etiquetado (103) adoptan una estructura anidada de etiquetas, tal como se muestra en la figura 7, además de las dos etiquetas "<morphing...>" y "</morphing>" como en la primera realización, ajustando de esta manera una serie de objetos a cambiar. Con esta estructura anidada, se puede implementar la transformación de la síntesis de voz que puede cambiar una serie de objetos. Es decir, en el ejemplo mostrado en la figura 7, un rasgo de la voz sintética en la emisión del texto que va a ser generado como voz sintética inicialmente expresa un tono feliz con un volumen alto y posteriormente cambia para expresar un tono enfadado, mientras el volumen cambia a ser más bajo que el volumen inicial.
Dado que las otras disposiciones son las mismas que las de la primera realización, se omitirá una descripción repetitiva.
Según esta realización con la disposición anterior, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.
Tercera realización
A continuación se explicará la tercera realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.
En las primera y segunda realizaciones descritas anteriormente, la información de atributo contenida en la etiqueta de inicio "<morphing...>" describe un objeto cuyo rasgo de voz sintética se va a cambiar de manera continua y los valores de atributo de los puntos de inicio y de fin del objeto. En comparación, en la tercera realización, la etiqueta de inicio "<morphing...>" describe marcas de un objeto a cambiar en los puntos de inicio y de fin.
La figura 8 muestra un ejemplo de las etiquetas asignadas al texto en la tercera realización y el mismo texto limitado por las etiquetas es el mismo que el de la segunda realización mostrado en la figura 7. En esta realización, un objeto a cambiar es una emoción (emotion). Por tanto, los puntos de inicio y de fin describen marcas "emotionstart" y "emotionend" de un objeto a cambiar. Dado que la disposición de un aparato de síntesis de voz en la tercera realización es la misma que la de la primera realización, se omitirá una descripción repetitiva de la misma. A continuación se describirá una diferencia entre las realizaciones primera y tercera.
Al igual que en la primera realización, el módulo (105) de análisis de texto analiza el tipo, los contenidos y similares del texto (103) etiquetado de entrada en base al formato y a la información de cabecera de dicho texto, adquiriendo de esta manera la información asociada con los mismos. El módulo (105) de análisis de la etiqueta determina los tipos de etiquetas incorporadas en el texto. El módulo (107) de análisis del atributo de la etiqueta analiza los atributos y los valores de los atributos descritos en las etiquetas. En esta realización, únicamente se van a analizar los puntos de inicio y de fin, y el módulo (107) de análisis del atributo de la etiqueta examina los objetos de los puntos de inicio y de fin. El módulo (109) de síntesis de voz lleva a cabo la interpolación en base a los valores de los atributos obtenidos mediante el módulo (107) de análisis del atributo de la etiqueta, y genera la voz sintética correspondiente a los contenidos del texto según una forma de onda de voz obtenida como resultado de la interpolación.
Dado que la información del atributo incorporada en cada etiqueta tiene la misma configuración que en la primera realización, se omitirá una descripción repetitiva de la misma. La diferencia entre la primera y tercera realizaciones es como se describe a continuación. Es decir, al describir una emoción (emotion) como un objeto cuyo rasgo de voz sintética se va a cambiar de manera continua, una emoción en el punto de inicio (start) y una emoción en el punto de fin (end), al punto de inicio se le asigna la marca "emotionstart" del objeto a cambiar y al punto de fin se le asigna una marca "emotionend" del objeto a cambiar. En esta realización, dado que un proceso de excepción es parcialmente dife-
rente de acuerdo a dicho cambio en el formato de la etiqueta, esta diferencia se explicará con referencia a la figura 9.
La figura 9 es un diagrama de flujo que muestra el proceso de control del aparato de síntesis de voz en la tercera realización, es decir, la secuencia de procesos que van a ser ejecutados por la CPU (no mostrada) del aparato.
Haciendo referencia a la figura 9, el texto etiquetado (103) introducido por el módulo (104) de entrada de texto se somete a un análisis de texto, un análisis de etiqueta y un análisis del atributo de la etiqueta por parte del módulo (105) de análisis de texto, el módulo (106) de análisis de la etiqueta y el análisis (107) del atributo de la etiqueta (etapas S901 a S903).
Se comprueba si la etiqueta de inicio "<morphing...>" comprende puntos de inicio y de fin. Se comprueba si bien el punto de inicio o el punto de fin tienen un atributo (etapa S904). Si ninguno de los puntos de inicio y de fin tienen valores de atributo, el texto se lee en voz alta según la voz que estaba leyendo en voz alta una frase antes de dicha etiqueta (etapa S905). Posteriormente, se comprueba si el punto de inicio tiene un valor de atributo. Si el punto de inicio no tiene un valor de atributo, se utiliza el valor del atributo del punto de fin (etapa S906, etapa S907). De otra manera, si el punto de inicio tiene un valor de atributo pero el punto de fin no tiene un valor de atributo, el texto se lee en voz alta según el valor de atributo del punto de inicio (etapa S908, S909). Si tanto el punto de inicio como el punto de fin tienen valores de atributo, y no son diferentes, se lleva a cabo la interpolación en base a dichos valores de atributo y se genera la voz sintética (etapa S910, S912).
Al igual que con los valores de atributo de los puntos de inicio y de fin, si un objeto cuyo rasgo de voz sintética va a ser cambiado de manera continua es un volumen, tanto el punto de inicio como el punto de fin deben adoptar valores de volumen. Si los tipos de los valores de atributo de los puntos de inicio y de fin son diferentes (por ejemplo, el punto de inicio tiene un valor de volumen y el punto de fin tiene una emoción), se utiliza el valor del atributo del punto de inicio (etapa S911). Cuando la etiqueta tiene valores de atributos erróneos, la prioridad para la generación de voz es (orden del punto de inicio) > (orden del punto de fin).
Dado que las otras disposiciones son las mismas que las de la primera realización, se omitirá una descripción repetitiva de las mismas.
Según esta realización con la disposición anterior, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado puede cambiar fácilmente y de manera continua.
\vskip1.000000\baselineskip
Cuarta realización
A continuación se explicará la cuarta realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.
En las realizaciones primera a tercera, un cambio de transformación es constante, es decir, depende de la relación del cambio del mismo algoritmo de transformación. No obstante, la cuarta realización se caracteriza porque también se puede añadir un atributo para un cambio de transformación. La figura 10 muestra dicho ejemplo.
La figura 10 muestra un ejemplo de las etiquetas asignadas al texto en la cuarta realización. En esta realización, la información del atributo para la relación del cambio de transformación también se dispone en los atributos de la etiqueta de inicio "<morphing...>". Al igual que un valor de atributo que expresa la relación de cambio de la transformación, un tipo de función utilizado en un cambio tal como lineal, no lineal, logaritmo o similar se dispone en "function" ("función").
En esta realización, al analizar las etiquetas, el módulo (107) de análisis del atributo de la etiqueta analiza no solamente un objeto y los puntos de inicio y de fin, sino también un atributo de un cambio de transformación según un valor de atributo que representa la relación de cambio de la transformación. Como resultado del análisis, si un valor del atributo tal como lineal, no lineal, logaritmo o similar se describe en un campo "function", se lleva a cabo la interpolación según la relación de cambio dada por dicho valor de atributo y se genera la voz sintética según una forma de onda sintética obtenida mediante interpolación. Por otra parte, si este valor de atributo no está descrito, se lleva a cabo la interpolación con un método de cambio determinado con antelación por el algoritmo de transformación.
Dado que las otras disposiciones son las mismas que las de la primera realización, se omitirá una descripción repetitiva.
Según esta realización con la disposición anterior, un rasgo de voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.
\vskip1.000000\baselineskip
Quinta realización
A continuación se explicará la quinta realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización, y se explicará principalmente un rasgo característico de esta realización.
En las realizaciones primera a tercera, un cambio de transformación es constante, es decir, depende de la relación de cambio del mismo algoritmo de transformación. No obstante, la quinta realización se caracteriza porque se puede añadir un atributo para un cambio de transformación individualmente en una etiqueta. La figura 11 muestra dicho ejemplo.
La figura 11 muestra un ejemplo de las etiquetas asignadas al texto en la quinta realización. En esta realización, las etiquetas intermedias para un cambio de transformación se insertan además en el texto limitado por las etiquetas "<morphing...>" ... "</morphing>".
En esta realización, al analizar las etiquetas, el módulo (106) de análisis de la etiqueta analiza no solamente las etiquetas "<morphing>" sino también las etiquetas intermedias que generan los cambios de transformación. La etiqueta intermedia utiliza una etiqueta como "<rate value = ``*.*''/>" y una relación de cambio que oscila entre 0 y 1 se describe en un campo de atributo "value" ("valor"). Posteriormente, dichas etiquetas intermedias se incorporan individualmente en las posiciones deseadas en el texto cuyo rasgo de voz sintética se va a cambiar de manera continua. De esta manera, al generar de hecho la voz sintética después de la interpolación, puede tener lugar un complejo cambio adicional en el rasgo de la voz sintética, tal como se muestra en la figura 12.
Se debe observar que cada una de las partes insertadas en la etiqueta como "<rate value = ``*.*''/>", cuando se traduce de la solicitud japonesa original a la solicitud PCT en inglés, se disponen como se muestra en la figura 11, debido a la diferencia del orden de palabras entre el japonés y el inglés. En consecuencia, también se dispone un gráfico de línea mostrado en la figura 12 para ofrecer una explicación obvia y adecuada de la presente invención, según la disposición de la figura 11.
Cuando también se designa una función "function" para un cambio de transformación utilizada en la cuarta realización, se utiliza una función designada anteriormente como una función de interpolación a partir de una etiqueta "<rate/>" dada a la siguiente etiqueta "<rate/>".
Dado que otras disposiciones son las mismas que las de la primera realización, se omitirá una descripción repetitiva.
Según esta realización con la disposición anterior, un rasgo de voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.
\vskip1.000000\baselineskip
Sexta realización
A continuación se explicará la sexta realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.
En las realizaciones anteriormente mencionadas, los valores del atributo de los puntos de inicio y de fin se disponen en la etiqueta de inicio "<morphing...>". No obstante, en esta realización, el valor del atributo del punto de fin se dispone en una parte final de la etiqueta, tal como se muestra en la figura 13.
La figura 13 muestra un ejemplo de las etiquetas asignadas al texto en la sexta realización.
En la configuración de la etiqueta de la primera realización, "<morphing type = ``emotion'' start = ``happy''>" se describe como el atributo del punto de inicio y el objeto en la etiqueta de inicio "<morphing...>" y el atributo del punto de fin se describe en la etiqueta de fin como "</morphing end = ``angry''>". Por el contrario, en esta realización, "<morphing emotionstart = ``happy''>" se describe en la etiqueta de inicio y "<morphing emotionend = ``angry''>" se describe en la etiqueta de fin. Cuando se designa una función de interpolación de la cuarta realización en esta realización, se describe en la etiqueta de inicio.
Dado que las otras disposiciones son las mismas que las de la primera realización, se omitirá una descripción repetitiva.
Según esta realización con la disposición anterior, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.
\vskip1.000000\baselineskip
Séptima realización
A continuación se explicará la séptima realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.
En esta realización, si los atributos de los puntos de inicio y de fin en la etiqueta son diferentes entre sí, se determina un error para inhibir los siguientes procesos, al contrario que en las realizaciones anteriores.
Se tomará como ejemplo la configuración de la etiqueta de la primera realización. Es decir, si los atributos de "start" y "end" son diferentes entre sí como "<morphing type = ``emotion'' start = ``happy'' end = ``10''>", se determina un error y no se lleva a cabo ningún proceso. Si ninguno de los puntos de inicio y de fin tienen atributos o si alguno de ellos no tiene un atributo, se ejecutan los mismos procesos que en la primera realización. En la tercera realización, si ninguno de los puntos de inicio y de fin tienen atributos o si alguno de ellos no tiene un atributo, se ejecutan los mismos procesos que en la tercera realización. Dado que las otras disposiciones son las mismas que las de las realizaciones primera a quinta, se omitirá una descripción repetitiva de las mismas.
Según esta realización con la anterior disposición, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.
\vskip1.000000\baselineskip
Octava realización
A continuación se explicará la octava realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de descripción como los de la primera realización y se aplicará principalmente una peculiaridad característica de esta realización.
En las realizaciones mencionadas anteriormente, incluso cuando no se encuentra al menos una de la serie de piezas de la información de atributo a disponer en la etiqueta, se genera la voz sintética. No obstante, en esta realización, cuando los atributos de los puntos de inicio y de fin son diferentes entre sí, y cuando los atributos de los puntos de inicio y de fin son diferentes de los de un objeto, se determina error y no se lleva a cabo ningún proceso.
Dado que las otras disposiciones son las mismas que las de las realizaciones primera a séptima, se omitirá una descripción repetitiva de las mismas.
Según esta realización con la disposición anterior, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.
Por tanto, según las realizaciones mencionadas anteriormente, limitando una sección deseada del texto de entrada que va a ser generado mediante etiquetas, un rasgo de la voz sintética se puede cambiar de manera continua como en la transformación a partir de la generación de la voz sintética y se puede implementar una función texto a voz natural para un oyente a diferencia de la técnica anterior que genera una voz discreta.
\vskip1.000000\baselineskip
Otra realización
Se han explicado las realizaciones preferentes de la presente invención y la presente invención se puede aplicar tanto a un sistema formado por una serie de dispositivos, o a un aparato formado por un único equipo.
Se debe observar que la presente invención comprende un caso en el que la invención se consigue suministrando un programa de software, directamente o a distancia, que implemente las funciones de las realizaciones mencionadas anteriormente a un sistema o a un aparato, y leyendo y ejecutando el código del programa suministrado mediante un ordenador de dicho sistema o aparato. En este caso, la forma no está limitada a un programa siempre que tenga las funciones del programa.
Por tanto, el mismo código del programa instalado en un ordenador para implementar el proceso funcional de la presente invención utilizando el ordenador implementa la presente invención. Es decir, las reivindicaciones de la presente invención comprenden el mismo programa de ordenador para implementar el proceso funcional de la presente invención.
En este caso, la forma del programa no está particularmente limitada y un código objeto, un programa para ser ejecutado mediante un intérprete, datos de texto a ser suministrados a un sistema operativo OS y similares se pueden utilizar siempre que tengan la función del programa.
En cuanto a un medio de grabación para suministrar el programa se pueden utilizar un disquete, disco duro, disco óptico, disco magnetoóptico, MO, CD-ROM, CD-R, CD-RW, cinta magnética, tarjeta de memoria no volátil, ROM, DVD (DVD-ROM, DVD-R) y similares, por ejemplo.
En cuanto a otro método de suministro de programa, el programa puede ser suministrado estableciendo una conexión a una página de inicio en internet utilizando un navegador en un ordenador del cliente y descargando el propio programa de ordenador de la presente invención o un archivo comprimido que contiene una función de instalación automática desde la página de inicio hasta un medio de grabación tal como un disco duro o similar. También, el código de programa que forma el programa de la presente invención puede ser segmentado en una serie de archivos, que se pueden descargar de diferentes páginas de inicio. Es decir, las reivindicaciones de la presente invención comprenden un servidor WWW (World Wide Web) que hace que una serie de usuarios descarguen un archivo de programa necesario para implementar el proceso funcional de la presente invención mediante el ordenador.
También, se le puede entregar al usuario un medio de almacenamiento tal como un CD-ROM o similar, que almacena el programa cifrado de la presente invención, el usuario que cumple una condición predeterminada se le puede permitir descargar la información de clave que se utiliza para descifrar el programa desde una página de inicio a través de internet y el programa cifrado se puede ejecutar utilizando dicha información de clave a instalar en un ordenador, implementando, de esta manera, la presente invención.
Las funciones de las realizaciones anteriormente mencionadas se pueden implementar no solamente ejecutando el código de programa leído mediante el ordenador sino también mediante algunas o todas las operaciones de procesamiento actuales ejecutadas mediante un sistema operativo (OS) o similar que se ejecutan en el ordenador en base a una instrucción de dicho programa.
Además, las funciones de las realizaciones anteriormente mencionadas se pueden implementar mediante algunos o todos los procesos actuales ejecutados por una CPU o similar, dispuestos en una tarjeta de ampliación de funciones o una unidad de ampliación de funciones, que se inserta en el ordenador o se conecta al mismo, una vez el programa es leído del medio de grabación se escribe en una memoria de la tarjeta o unidad de ampliación de funciones.
Tal como se ha descrito anteriormente, según las realizaciones anteriores, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.
Dado que se pueden llevar a cabo realizaciones de la presente invención evidentemente muy diferentes sin desviarse del alcance de la misma, se entenderá que la invención no está limitada a las realizaciones específicas de la misma excepto según se definen en las reivindicaciones.

Claims (3)

1. Método de síntesis de voz para sintetizar una forma de onda de voz para cambiar de manera continua un rasgo de una voz sintética de una sección asignada a un identificador predeterminado incluido en un texto de entrada al generar la voz sintética correspondiente al texto, caracterizado por comprender:
una etapa de ajuste (S103) para ajustar una sección deseada del texto que va a ser generado, en la que el rasgo de la voz sintética se va a cambiar de manera continua utilizando un identificador predeterminado que comprende la información de atributo que representa un modo de cambio del rasgo de la voz sintética tanto en la posición de inicio como en la posición de fin de la sección dispuesta por el identificador;
una etapa de reconocimiento (S302) para reconocer el identificador predeterminado y un tipo de información de atributo contenida en el identificador predeterminado del texto con el identificador, que se dispone en dicha etapa de ajuste; y
una etapa de síntesis de voz (S320) para sintetizar una forma de onda de voz, que tiene un rasgo de voz sintética que cambia de manera continua según la información del atributo contenida en el identificador predeterminado, interpolando la voz sintética correspondiente al texto dentro de la sección deseada del texto con el identificador según un resultado de reconocimiento de dicha etapa de reconocimiento,
en el que el modo de cambio del rasgo de la voz sintética comprende al menos un cambio en la velocidad de emisión, un cambio en el volumen, un cambio en el hablante, un cambio en el dispositivo de salida, un cambio en el número de hablantes y un cambio de la emoción.
2. Aparato de síntesis de voz para sintetizar una forma de onda de voz para cambiar de manera continua un rasgo de una voz sintética en una sección asignada a un identificador predeterminado incluido en el texto de entrada (103) al generar la voz sintética correspondiente al texto, caracterizado porque se dispone de:
medios de reconocimiento (106) para reconocer un identificador del texto, tanto en una posición de inicio como en una posición de fin de la sección dispuesta por el identificador, en la que el identificador predeterminado que representa una sección deseada, en la que el rasgo de la voz sintética se va a cambiar de manera continua, y que contiene la información de atributo que representa un modo de cambio del rasgo de la voz sintética, el identificador predeterminado y un tipo de la información del atributo contenida en el identificador predeterminado del texto con el identificador; y
unos medios de síntesis de voz (109) para sintetizar una forma de onda de voz que tiene un rasgo de voz sintética que cambia de manera continua según la información del atributo contenida en el identificador predeterminado, interpolando la voz sintética correspondiente al texto dentro de la sección deseada del texto con el identificador según un resultado de reconocimiento de dichos medios de reconocimiento;
en el que el modo de cambio del rasgo de la voz sintética comprende al menos un cambio en la velocidad de emisión, un cambio en el volumen, un cambio en el hablante, un cambio en el dispositivo de salida, un cambio en el número de hablantes y un cambio en la emoción.
3. Programa de ordenador que comprende unas instrucciones de operación adaptadas para llevar a cabo el método de síntesis de voz de la reivindicación 1.
ES03746418T 2002-04-02 2003-04-02 Metodo, aparato y programa de ordenador para sintesis de voz. Expired - Lifetime ES2316786T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002100467A JP2003295882A (ja) 2002-04-02 2002-04-02 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP2002-100467 2002-04-02

Publications (1)

Publication Number Publication Date
ES2316786T3 true ES2316786T3 (es) 2009-04-16

Family

ID=29241389

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03746418T Expired - Lifetime ES2316786T3 (es) 2002-04-02 2003-04-02 Metodo, aparato y programa de ordenador para sintesis de voz.

Country Status (9)

Country Link
US (1) US7487093B2 (es)
EP (1) EP1490861B1 (es)
JP (1) JP2003295882A (es)
KR (1) KR100591655B1 (es)
CN (1) CN1269104C (es)
AU (1) AU2003226446A1 (es)
DE (1) DE60325191D1 (es)
ES (1) ES2316786T3 (es)
WO (1) WO2003088208A1 (es)

Families Citing this family (204)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CN1260704C (zh) * 2003-09-29 2006-06-21 摩托罗拉公司 语音合成方法
JP3895758B2 (ja) * 2004-01-27 2007-03-22 松下電器産業株式会社 音声合成装置
JP2005234337A (ja) * 2004-02-20 2005-09-02 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4720974B2 (ja) * 2004-12-21 2011-07-13 株式会社国際電気通信基礎技術研究所 音声発生装置およびそのためのコンピュータプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
WO2007138944A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101295504B (zh) * 2007-04-28 2013-03-27 诺基亚公司 用于仅文本的应用的娱乐音频
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8990087B1 (en) * 2008-09-30 2015-03-24 Amazon Technologies, Inc. Providing text to speech from digital content on an electronic device
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8374881B2 (en) * 2008-11-26 2013-02-12 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with dialog acts
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
GB0906470D0 (en) 2009-04-15 2009-05-20 Astex Therapeutics Ltd New compounds
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8996384B2 (en) * 2009-10-30 2015-03-31 Vocollect, Inc. Transforming components of a web page to voice prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US8731932B2 (en) 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
CN102426838A (zh) * 2011-08-24 2012-04-25 华为终端有限公司 语音信号处理方法和用户设备
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5596649B2 (ja) * 2011-09-26 2014-09-24 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102579086B1 (ko) 2013-02-07 2023-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
JP6415929B2 (ja) 2014-10-30 2018-10-31 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10579742B1 (en) * 2016-08-30 2020-03-03 United Services Automobile Association (Usaa) Biometric signal analysis for communication enhancement and transformation
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR20180055189A (ko) 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11393451B1 (en) * 2017-03-29 2022-07-19 Amazon Technologies, Inc. Linked content in voice user interface
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN108305611B (zh) * 2017-06-27 2022-02-11 腾讯科技(深圳)有限公司 文本转语音的方法、装置、存储介质和计算机设备
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10600404B2 (en) * 2017-11-29 2020-03-24 Intel Corporation Automatic speech imitation
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10706347B2 (en) 2018-09-17 2020-07-07 Intel Corporation Apparatus and methods for generating context-aware artificial intelligence characters
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110138654B (zh) * 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN112349271A (zh) * 2020-11-06 2021-02-09 北京乐学帮网络技术有限公司 语音信息处理方法、装置、电子设备及存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2628994B2 (ja) 1987-04-10 1997-07-09 富士通株式会社 文−音声変換装置
JP3425996B2 (ja) 1992-07-30 2003-07-14 株式会社リコー ピッチパターン生成装置
JP3373933B2 (ja) 1993-11-17 2003-02-04 三洋電機株式会社 話速変換装置
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3548230B2 (ja) * 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
JP3465734B2 (ja) * 1995-09-26 2003-11-10 日本電信電話株式会社 音声信号変形接続方法
JPH09160582A (ja) 1995-12-06 1997-06-20 Fujitsu Ltd 音声合成装置
JPH09244693A (ja) * 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JP3616250B2 (ja) * 1997-05-21 2005-02-02 日本電信電話株式会社 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP4632384B2 (ja) 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP2001282279A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP4054507B2 (ja) 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
EP1160764A1 (en) 2000-06-02 2001-12-05 Sony France S.A. Morphological categories for voice synthesis
JP2002132287A (ja) 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
DE60314929T2 (de) 2002-02-15 2008-04-03 Canon K.K. Informationsverarbeitungsgerät und Verfahren mit Sprachsynthesefunktion
US7546241B2 (en) 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus

Also Published As

Publication number Publication date
US20050065795A1 (en) 2005-03-24
WO2003088208A1 (en) 2003-10-23
EP1490861B1 (en) 2008-12-10
US7487093B2 (en) 2009-02-03
EP1490861A1 (en) 2004-12-29
DE60325191D1 (de) 2009-01-22
CN1643572A (zh) 2005-07-20
KR100591655B1 (ko) 2006-06-20
CN1269104C (zh) 2006-08-09
EP1490861A4 (en) 2007-04-18
KR20040086432A (ko) 2004-10-08
JP2003295882A (ja) 2003-10-15
AU2003226446A1 (en) 2003-10-27

Similar Documents

Publication Publication Date Title
ES2316786T3 (es) Metodo, aparato y programa de ordenador para sintesis de voz.
US20190196666A1 (en) Systems and Methods Document Narration
US8793133B2 (en) Systems and methods document narration
US8364488B2 (en) Voice models for document narration
US8571870B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JPH1138989A (ja) 音声合成装置及び方法
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP4510631B2 (ja) 音声波形の連結を用いる音声合成
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
JP4305022B2 (ja) データ作成装置、プログラム及び楽音合成装置
JP4630038B2 (ja) 音声波形データベース構築方法、この方法を実施する装置およびプログラム
JP2001166787A (ja) 音声合成装置および自然言語処理方法
JPS63208098A (ja) 音声合成装置および方法
JP2000322075A (ja) 音声合成装置および自然言語処理方法
JP2004246085A (ja) 音声合成方法、装置及びプログラム
JP2004325692A (ja) テキスト音声合成装置、テキスト処理装置、テキスト処理プログラムおよびこのプログラムの記録媒体
JP2004133119A (ja) 携帯端末装置
JP2009282236A (ja) 音声合成装置
JPH06149535A (ja) 音声ナレーションの録音ガイド方法
JPH02120894A (ja) 音声合成装置