ES2316786T3 - Metodo, aparato y programa de ordenador para sintesis de voz. - Google Patents
Metodo, aparato y programa de ordenador para sintesis de voz. Download PDFInfo
- Publication number
- ES2316786T3 ES2316786T3 ES03746418T ES03746418T ES2316786T3 ES 2316786 T3 ES2316786 T3 ES 2316786T3 ES 03746418 T ES03746418 T ES 03746418T ES 03746418 T ES03746418 T ES 03746418T ES 2316786 T3 ES2316786 T3 ES 2316786T3
- Authority
- ES
- Spain
- Prior art keywords
- voice
- change
- text
- synthetic
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 38
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 38
- 238000004590 computer program Methods 0.000 title claims description 4
- 230000008859 change Effects 0.000 claims abstract description 68
- 230000008451 emotion Effects 0.000 claims abstract description 20
- 230000002194 synthesizing effect Effects 0.000 claims abstract 3
- 238000001308 synthesis method Methods 0.000 claims description 3
- 238000011022 operating instruction Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 22
- 230000009466 transformation Effects 0.000 description 19
- 230000003252 repetitive effect Effects 0.000 description 16
- 238000002372 labelling Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 6
- 239000000543 intermediate Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Abstract
Método de síntesis de voz para sintetizar una forma de onda de voz para cambiar de manera continua un rasgo de una voz sintética de una sección asignada a un identificador predeterminado incluido en un texto de entrada al generar la voz sintética correspondiente al texto, caracterizado por comprender: una etapa de ajuste (S103) para ajustar una sección deseada del texto que va a ser generado, en la que el rasgo de la voz sintética se va a cambiar de manera continua utilizando un identificador predeterminado que comprende la información de atributo que representa un modo de cambio del rasgo de la voz sintética tanto en la posición de inicio como en la posición de fin de la sección dispuesta por el identificador; una etapa de reconocimiento (S302) para reconocer el identificador predeterminado y un tipo de información de atributo contenida en el identificador predeterminado del texto con el identificador, que se dispone en dicha etapa de ajuste; y una etapa de síntesis de voz (S320) para sintetizar una forma de onda de voz, que tiene un rasgo de voz sintética que cambia de manera continua según la información del atributo contenida en el identificador predeterminado, interpolando la voz sintética correspondiente al texto dentro de la sección deseada del texto con el identificador según un resultado de reconocimiento de dicha etapa de reconocimiento, en el que el modo de cambio del rasgo de la voz sintética comprende al menos un cambio en la velocidad de emisión, un cambio en el volumen, un cambio en el hablante, un cambio en el dispositivo de salida, un cambio en el número de hablantes y un cambio de la emoción.
Description
Método, aparato y programa de ordenador para
síntesis de voz.
La presente invención se refiere al sector de
los aparatos de síntesis de voz que genera una frase de entrada
(texto) como voz sintética a partir de un altavoz.
\vskip1.000000\baselineskip
Convencionalmente, se ha propuesto un aparato de
síntesis de voz que genera una frase de entrada (texto) como voz
sintética (sonido sintético, habla sintética) a partir de un
altavoz.
A efectos de generar voz sintética altamente
expresiva a partir de texto utilizando dicho aparato, se debe
proporcionar la información de control de potencia, velocidad, tono
y similares, de manera que el usuario, como oyente, lo pueda
escuchar como si fuera voz natural.
Para este propósito, incluso cuando la voz
sintética se genera en base a una regla predeterminada contenida en
una cadena de caracteres del texto, se intenta añadir la información
de lenguaje deseada en dicho texto.
En este caso, la información adicional
proporcionada al texto utiliza un formato que limita la información
adicional mediante etiquetas expresadas por "< >" como
las utilizadas en el llamado HTML (lenguaje de marcas de
hipertexto) y se propone un método de control de los tonos de la voz
sintética correspondiente al texto de entrada utilizando dichas
etiquetas.
No obstante, en dicho método de etiquetado
convencional, dado que el etiquetado se lleva a cabo en las
respectivas unidades discretas tales como frases, palabras y
similar para disponer un valor fijo predeterminado, la voz
sintética que va a ser de hecho generada es sometida únicamente a
cambios discretos, aunque dicho método pretenda generar una voz
sintética correspondiente a diferentes caracteres y palabras en el
texto de entrada mientras cambia de manera continua una prosodia
adecuada, dando como resultado una voz sintética no natural para el
oyente.
Como técnica para cambiar de manera continua
cierta prosodia de la voz, se propone un método de transformación
de voz de la patente japonesa abierta a inspección número
9-244693.
No obstante, con este método, únicamente se
puede interpolar el patrón de tono.
Además, con estos métodos, cuando la voz
sintética de una parte limitada por etiquetas en el texto de entrada
va a ser cambiada de manera continua, se deben asignar las
etiquetas adecuadamente a los puntos de cambio de la voz
sintética.
Por tanto, la operación de etiquetado es difícil
y, en consecuencia, únicamente se puede obtener un cambio
discreto.
El lector puede ser adicionalmente informado en
relación al estado de la técnica mediante referencia a la
publicación identificada en este documento como EP 0880127.
Brevemente, el documento EP 0880127 da a conocer un lenguaje de
descripción de tres capas para el control prosódico utilizado para
insertar instrucciones de control del rasgo prosódico en un texto
en las posiciones de los caracteres o de la cadena de caracteres que
van a ser dotados de información no verbal. El lenguaje de
descripción de tres capas para el control prosódico está compuesto
por: una capa semántica (capa S) que tiene como instrucciones de
control del rasgo prosódico instrucciones de control que están
representadas cada una de ellas mediante una palabra indicativa del
significado de la información no verbal; una capa de interpretación
(capa I) que tiene instrucciones de control del rasgo prosódico que
interpretan las instrucciones de control del rasgo prosódico de la
capa S y especifican el control de los parámetros prosódicos del
habla y una capa de parámetros (capa P) que tiene los parámetros
prosódicos que son objetos de control de las instrucciones de
control del rasgo prosódico de la capa I. El texto se convierte en
una cadena de parámetros prosódicos mediante una síntesis basada en
reglas. Los parámetros prosódicos correspondientes a los caracteres
o cadena de caracteres que van a ser corregidos son corregidos
mediante las instrucciones de control del rasgo prosódico de la
capa I y el habla se sintetiza a partir de una cadena de parámetros
que contiene los parámetros prosódicos corregidos.
\vskip1.000000\baselineskip
La presente invención se ha propuesto para
resolver los problemas convencionales y tiene como objetivo cambiar
fácilmente y de manera continua un rasgo de la voz sintética de una
sección deseada.
En consecuencia, un primer aspecto de la
presente invención da a conocer un método de síntesis de voz para
sintetizar una forma de onda de voz para cambiar de manera continua
un rasgo de una voz sintética según la reivindicación 1.
Según un segundo aspecto de la presente
invención se da a conocer un aparato de síntesis de voz según la
reivindicación 2.
Otras características y ventajas de la presente
invención serán evidentes a partir de la siguiente descripción
tomada conjuntamente con los dibujos adjuntos en los que caracteres
de referencia similares designan las mismas partes o partes
similares en todas las figuras de la misma.
Los dibujos adjuntos, que se incorporan y forman
parte de la descripción, muestran realizaciones de la invención y,
conjuntamente con la descripción, sirven para explicar los
principios de la invención.
La figura 1 es un diagrama de bloques de un
aparato de síntesis de voz según la primera realización;
la figura 2 muestra un ejemplo de las etiquetas
asignadas al texto;
las figuras 3A y 3B son diagramas de flujo que
muestran el proceso de control del aparato de síntesis de voz de la
primera realización;
la figura 4 es un gráfico para explicar un
ejemplo de la interpolación de una velocidad de emisión en la
generación de la voz sintética;
la figura 5 es un gráfico para explicar un
ejemplo de la interpolación de un volumen en la generación de la
voz sintética;
la figura 6 es un gráfico para explicar un
ejemplo de la interpolación del número de hablantes en la generación
de la voz sintética;
la figura 7 muestra un ejemplo de las etiquetas
asignadas al texto en la segunda realización;
la figura 8 muestra un ejemplo de las etiquetas
asignadas al texto en la tercera realización;
la figura 9 es un diagrama de flujo que muestra
el proceso de control de un aparato de síntesis de voz según la
tercera realización;
la figura 10 muestra un ejemplo de las etiquetas
asignadas al texto en la cuarta realización;
la figura 11 muestra un ejemplo de las etiquetas
asignadas al texto en la quinta realización;
la figura 12 es un gráfico para explicar un
cambio en el rasgo de la voz sintética en la generación de la voz
sintética en la quinta realización; y
la figura 13 muestra un ejemplo de las etiquetas
asignadas al texto en la sexta realización.
A continuación se describirán en detalle las
realizaciones de la presente invención según los dibujos
adjuntos.
\vskip1.000000\baselineskip
Primera
realización
La disposición de un aparato de síntesis de voz
según esta realización se explicará brevemente en primer lugar con
referencia a la figura 1.
La figura 1 es un diagrama de bloques de un
aparato de síntesis de voz de la primera realización. Con respecto
al hardware que se puede utilizar, se puede adoptar un aparato de
tipo general de procesamiento de la información, tal como un
ordenador personal o similar.
Haciendo referencia a la figura 1, el aparato
comprende un módulo (101) de generación de texto para generar un
cuerpo de texto, y un módulo (102) de generación de etiquetas para
generar el texto etiquetado (103), insertando las etiquetas
predeterminadas en las posiciones deseadas en dicho texto y también
atributos en dichas etiquetas asociados con la generación del texto
etiquetado que va a ser generado como voz. El módulo (101) de
generación de texto genera texto en base a diversas fuentes de
información tales como mensajes de correo, artículos de noticias,
revistas, libros impresos y similares. En este caso, el software de
edición utilizado para escribir las etiquetas y el texto no está
particularmente limitado.
Se debe observar que un módulo indica una unidad
funcional de un programa de software ejecutado por el hardware del
aparato de síntesis de voz según esta realización.
Se debe observar que el módulo (101) de
generación de texto y el módulo (102) de generación de etiquetas
pueden ser tanto módulos externos como módulos internos del mismo
aparato de síntesis de voz.
El texto etiquetado (103) es introducido a un
módulo (104) de entrada de texto a través de una línea de
comunicación o un medio de almacenamiento portátil
(CD-R o similar). Una parte de texto del texto
etiquetado (103) introducido al módulo (104) de entrada de texto es
analizado por un módulo (105) de análisis de texto y su parte de
etiqueta es analizada por un módulo (106) de análisis de etiquetas.
Además, en esta realización, la información del atributo contenida
en una etiqueta es analizada por un módulo (107) de análisis del
atributo de la etiqueta (los detalles se explicarán más
adelante).
Un módulo (108) de procesamiento del lenguaje
procesa la información del lenguaje (es decir, el acento y
similares) necesarios para la generación de voz con referencia a un
diccionario de lenguaje (110) que almacena previamente información
del lenguaje. Un módulo (109) de síntesis de voz genera una forma de
onda sintética que expresa la voz que va a ser de hecho generada
con referencia a un diccionario (111) de forma de onda/modelo
prosódicos que almacena previamente fonemas prosódicos y similares,
y genera la voz sintética a partir de un altavoz (no mostrado) en
base a dicha forma de onda sintética.
Las disposiciones como un rasgo característico
de esta realización se explicarán a continuación.
El módulo (102) de generación de etiquetas
inserta las etiquetas y los atributos predeterminados en el texto
generado por el módulo (101) de generación de texto. En este caso,
las etiquetas se pueden insertar en las posiciones elegidas por el
usuario y pueden ser asignadas a una sección en la que un rasgo de
la voz sintética se va a cambiar suavemente como en la llamada
transformación ("morphing") en un proceso de imagen. En cada
etiqueta, se puede escribir información adicional llamada atributo
(información de atributo). Más específicamente, las etiquetas
predeterminadas "<morphing...>" y
"</morphing>" se asignan a los puntos de inicio y de fin
de una sección en la que se debe cambiar suavemente un rasgo de la
voz sintética del texto en el que se alinean los caracteres y las
palabras, y la información de atributo que representa un objeto cuyo
rasgo de la voz sintética se va a cambiar de manera continua, en
otras palabras, en cada etiqueta se escribe un patrón de cambio
para cambiar de manera continua el rasgo de la voz sintética.
En esta realización, el cambio del rasgo de la
voz sintética comprende no sólo la llamada prosodia de la voz sino
también por ejemplo el hablante, el número de hablantes, la emoción
y similares.
Se debe observar que el usuario escribe la
información de atributo al generar el texto. También, el usuario
dispone las etiquetas y los diversos atributos en las etiquetas. Se
debe observar que las etiquetas y los valores de los atributos se
pueden disponer automáticamente o semiautomáticamente mediante un
editor multifunción o similar.
La información de atributos incorporada a cada
etiqueta es información que representa el rasgo de la voz sintética
asociado, por ejemplo, con un volumen, un hablante, un dispositivo
de salida, el número de hablantes, una emoción, una velocidad de
emisión, la frecuencia fundamental y similares. Además, se pueden
utilizar otros eventos que se pueden cambiar de manera continua al
generar la voz sintética (referidos como "transformación"
("morphing") en esta realización).
Las etiquetas de inicio y de fin dispuestas en
el texto pueden tener los mismos o diferentes tipos de información
de atributo. Cuando los puntos de inicio y de fin tienen la misma
información de atributo, se genera la voz según la información del
atributo dispuesta por la etiqueta del punto de inicio sin cambiar
ningún rasgo de la voz sintética asociada con dicha información del
atributo en la generación real de la voz sintética.
Un valor correspondiente a la información de
atributo incorporada en cada etiqueta es un valor numérico si un
atributo es el volumen. Si un atributo es un hablante se puede
designar un hombre o una mujer o un número de identificación (ID)
del hablante.
La figura 2 muestra un ejemplo de las etiquetas
asignadas al texto. En este ejemplo, una sección en la que un rasgo
de la voz sintética se va a cambiar de manera continua corresponde a
una sección limitada por una etiqueta de inicio
"<morphing...>" y una etiqueta de fin
"</morphing>". Los atributos en la etiqueta de inicio
"<morphing...>" describen una emoción (emotion) como un
objeto cuyo rasgo de la voz sintética se va a cambiar de manera
continua, una emoción (happy) "(feliz)" en el punto de inicio
(start) y una emoción (angry) "(enfadado)" en el punto de fin
(end). Por tanto, cuando de hecho se genera la voz sintética de este
texto, se emite una frase limitada por las etiquetas mientras su
voz cambia gradualmente de una voz feliz a una voz enfadada.
El módulo (104) de entrada de texto del aparato
de síntesis de voz según esta realización recibe el texto
etiquetado (103) asignado con las etiquetas, tal como se ha descrito
anteriormente, y el módulo (105) de análisis de texto adquiere la
información asociada con el tipo, contenidos y similares del texto
en base al formato del texto etiquetado de entrada (103) y la
información en el campo de cabecera del texto.
El módulo (106) de análisis de la etiqueta
determina los tipos de etiquetas incorporadas en el texto etiquetado
de entrada (103). El módulo (107) de análisis del atributo de la
etiqueta analiza los atributos y los valores del atributo descritos
en las etiquetas.
El módulo (108) de procesamiento de lenguaje y
el módulo (109) de síntesis de voz generan una forma de onda de voz
que va a ser generada procesando los datos que se leen del
diccionario (111) de forma de onda/modelo prosódicos, como fonemas
correspondientes al texto analizado por el módulo (105) de análisis
de texto en base a los valores del atributo adquiridos por el
módulo (107) de análisis del atributo de la etiqueta, y genera la
voz sintética según dicha forma de onda de voz (se debe observar que
el procesamiento basado en los valores del atributo se explicará
más adelante).
Un método de extracción de los valores del
atributo en las etiquetas "<morphing> ...
</morphing>" mediante el módulo (106) de análisis de la
etiqueta se explicará a continuación utilizando las figuras 3A y
3B.
Las figuras 3A y 3B son diagramas de flujo que
muestran el proceso de control del aparato de síntesis de voz de la
primera realización, es decir, la secuencia de procesos que van a
ser ejecutados por la CPU (no mostrada) del aparato.
Haciendo referencia a las figuras 3A y 3B, el
texto etiquetado (103) introducido por el módulo (104) de entrada
de texto es sometido a análisis de texto, análisis de etiqueta y
análisis del atributo de la etiqueta por parte del módulo (105) de
análisis de texto, el módulo (106) de análisis de la etiqueta y al
análisis (107) del atributo de la etiqueta (etapas S301 a
S303).
Se comprueba si la etiqueta de inicio
"<morphing...>" comprende objetos y puntos de inicio y de
fin (etapa S304). Se comprueba en primer lugar si se incluye un
valor del atributo a transformar. Si no se encuentra ningún valor
del atributo a transformar, se leen en voz alta los caracteres y
palabras limitados por las etiquetas de inicio y de fin de acuerdo
con la voz que ha estado leyendo en voz alta la frase anterior a
dicha etiqueta (etapa S305). Por otra parte, si se encuentra un
valor del atributo a transformar, se comprueba si se encuentra uno
de los atributos de los puntos de inicio y de fin (etapa S306).
Si ninguno de los puntos de inicio y de fin
tienen atributos, los caracteres y las palabras limitados por las
etiquetas de inicio y de fin se leen en voz alta utilizando un tono
sintético de acuerdo con un valor por defecto del atributo a
transformar que se fija con antelación (etapa S307). Por otra parte,
si bien el punto de inicio o el de fin tiene un valor de atributo,
se comprueba si es un valor de atributo del punto de inicio (etapa
S308). Si no es un valor de atributo del punto de inicio, se
determina si el valor de atributo del punto de fin y el valor de
atributo a transformar son válidos (sí concuerdan), comprobando si
éstos valores concuerdan (etapa S309). Si los dos valores
concuerdan, se utiliza el valor del atributo del punto de fin
(etapa S311). En la etapa S309, por ejemplo, si un objeto a
transformar es un volumen, se comprueba si el valor del atributo
del punto de fin es un valor de volumen y, si concuerdan, los
caracteres y las palabras limitados por las etiquetas de inicio y
de fin se leen en voz alta basándose en la información del punto de
fin; si no concuerdan, los caracteres y las palabras limitados por
las etiquetas de inicio y de fin se leen en voz alta utilizando un
tono sintético por defecto que se prepara con antelación de acuerdo
con el valor del atributo del objeto (etapa S310).
Si se determina en la etapa S308 que el punto de
inicio tiene un valor de atributo y si el punto de fin no tiene
ningún valor de atributo, el texto se lee en voz alta de acuerdo al
valor de atributo del punto de inicio (etapa S312, etapa S315). En
este caso, se comprueba de manera similar la validez con un objeto y
si los dos valores concuerdan, el texto se lee en voz alta de
acuerdo con el valor de atributo del punto de inicio (etapa S313,
etapa S314).
Si tanto el punto de inicio como el de fin
tienen valores de atributo y sus valores para el objeto son válidos
(concuerdan), se genera un tono sintético tras la interpolación
basándose en los valores del atributo (etapa S316, S320). Es decir,
si el objeto es un volumen, se determina que los valores del
atributo de los puntos de inicio y de fin son válidos únicamente en
el caso en que tanto el punto de inicio con el de fin adoptan
valores de volumen. Por ejemplo, si los valores del atributo de los
puntos de inicio y de fin son diferentes (por ejemplo, el punto de
inicio es un valor de volumen y el punto de fin es una emoción), se
utiliza el valor de atributo que concuerda con el objeto (etapa
S317, etapa S319). Si los valores de atributo de los puntos de
inicio y de fin son diferentes y también son diferentes del objeto a
transformar, los caracteres y las palabras limitados por las
etiquetas de inicio y de fin se leen en voz alta utilizando un tono
sintético por defecto correspondiente al valor del atributo del
objeto (etapa S318). Cuando las etiquetas a comprobar tienen
valores de atributo diferentes, la prioridad de una salida de voz es
"objeto" > "punto de inicio" > "punto de
fin".
A continuación se describirá la interpolación
que se lleva a cabo en base a un valor de atributo como una
secuencia de generación de voz, con referencia a la figura 4.
La figura 4 es un gráfico para explicar un
ejemplo de interpolación de una velocidad de emisión en la
generación de la voz sintética.
Como un ejemplo de un método de interpolación,
cuando se va a interpolar la velocidad de emisión, el tiempo
requerido para generar la forma de onda del texto completo
1 2 en la figura 4) se calcula según
dicho texto que va a ser generado, y también se calculan las
duraciones de tiempo t para los respectivos fonemas que forman
dicho texto. En esta realización, dado que los modelos prosódicos
estándares y las formas de onda de voz se graban con antelación en
el diccionario de forma de onda/modelo prosódicos (111), el tiempo
requerido para generar la forma de onda del texto completo que va a
ser generado se puede calcular sumando las duraciones de tiempo t
para los respectivos fonemas 3 en la figura 4)
necesarios para generar la voz sintética leída a partir del
diccionario (111) de formas de onda/modelo prosódicos.
Posteriormente se calcula la relación r entre
los valores fijados como los valores de atributo de los puntos de
inicio y de fin, y la velocidad de emisión actual. En este caso, si
los valores fijados como los valores de atributo de los puntos de
inicio y de fin son iguales a la velocidad actual, dado que r = 1,
no se requiere este proceso de interpolación.
Basándose en la relación calculada, se calcula
una función de interpolación de cada fonema mediante (valor de
interpolación) = t x r. Reduciendo o ampliando el periodo de una
forma de onda según el valor de interpolación calculado, se puede
cambiar la velocidad de emisión. De manera alternativa, se puede
llevar a cabo un proceso para cambiar la duración de tiempo según
cierto rasgo de cada fonema.
En la interpolación de un volumen, se utilizan
las duraciones de tiempo t de los respectivos fonemas que forman el
texto que va a ser generado 4 en la figura 5) según
dicho texto al igual que en la interpolación de la velocidad de
emisión. Posteriormente, se calcula la relación r' entre los valores
fijados como los valores de atributo de los puntos de inicio y de
fin y el volumen actual.
La figura 5 es un gráfico para explicar la
interpolación de un volumen en la generación de la voz sintética.
En la figura 5 se calcula una función de interpolación mediante
(valor de interpolación) = f x r'. Se debe observar que f es la
amplitud de una forma de onda de voz sintética obtenida a partir del
diccionario (111) de formas de onda/fonemas.
La amplitud f se reduce o se amplía según el
valor de interpolación calculado. En lugar de cambiar la amplitud,
se puede adoptar un método para cambiar directamente el volumen del
hardware de salida. El mismo método se aplica a la frecuencia
fundamental.
Además, al interpolar una emoción o un estilo de
emisión, se interpolan los datos de síntesis de voz correspondientes
a los valores fijados como los valores de atributo de los puntos de
inicio y de fin del texto que va a ser generado, generando en
consecuencia la voz sintética.
Por ejemplo, en un método de síntesis de voz
basado en un método de edición de la forma de onda tal como PSOLA o
similar, un segmento de voz en un diccionario de forma de onda de
voz correspondiente a una emoción dispuesta en la posición de
inicio en el texto que va a ser generado y el segmento en el
diccionario de forma de onda de voz correspondiente a una emoción
dispuesta en la posición de fin son sometidos a un proceso PSOLA con
respecto a una duración de tiempo de continuación y una frecuencia
fundamental deseadas, y los segmentos de la forma de onda de voz o
la forma de onda de la voz sintética se interpolan según una función
de interpolación obtenida de la misma manera que con el
volumen.
Además, en un método de síntesis de voz basado
en un método de síntesis del análisis de parámetros tal como
cepstrum o similar, se interpolan una secuencia de parámetros
obtenida a partir de un diccionario de parámetros de voz
correspondientes a una emoción dispuesta en la posición de inicio en
el texto que va a ser generado y la secuencia obtenida a partir del
diccionario de parámetros de voz correspondiente a una emoción
dispuesta en la posición de fin para generar un parámetro, y se
genera una voz sintética correspondiente a una duración de tiempo
de continuación y una frecuencia fundamental deseadas utilizando
este parámetro.
Además, al igual que en el cambio de una voz
masculina a una voz femenina, la interpolación entre hablantes se
puede llevar a cabo mediante métodos similares. Además, cuando un
dispositivo de salida comprende altavoces estereofónicos, la salida
se puede cambiar de manera continua desde un altavoz izquierdo a un
altavoz derecho. O cuando un dispositivo de salida comprende un
auricular y un altavoz externo, se puede cambiar de manera continua
una salida desde el auricular al altavoz externo.
Al interpolar el número de hablantes (el número
de personas que hablan), se calcula una función de interpolación
mostrada en la figura 6.
La figura 6 es un gráfico para explicar un
ejemplo de interpolación del número de hablantes al generar la voz
sintética. En el ejemplo mostrado en la figura 6, se implementa la
transformación de un hablante a cinco hablantes. En este caso, la
duración de tiempo de una forma de onda obtenida del texto que va a
ser generado se divide en cinco periodos. Cada vez que transcurre
uno de los periodos divididos, el número de hablantes aumenta de
uno en uno, y se cambia el volumen del tono sintético en base a una
función de interpolación (una función que cambia entre 0 y 1)
mostrada en la figura 6. También, se normaliza el nivel de la forma
de onda para evitar que la amplitud supere un valor
predeterminado.
Se debe observar que se pueden añadir hablantes
en un orden predeterminado o aleatoriamente.
En esta realización, la voz sintética se genera
según una forma de onda de voz generada ejecutando los diferentes
procesos de interpolación anteriormente mencionados. De esta manera,
se puede implementar la voz sintética natural, cuyo rasgo de voz
sintética cambia de manera continua, en comparación a un aparato de
síntesis de voz convencional cuyo rasgo de voz sintética cambia de
manera discreta.
Segunda
realización
A continuación se explicará la segunda
realización basada en el aparato de síntesis de voz según la primera
realización mencionada anteriormente. En la siguiente descripción,
se omitirá una descripción repetitiva de los mismos componentes de
construcción que los de la primera realización y se explicará
principalmente un rasgo característico de esta realización.
En esta realización, las etiquetas
predeterminadas contenidas en el texto etiquetado (103) adoptan una
estructura anidada de etiquetas, tal como se muestra en la figura
7, además de las dos etiquetas "<morphing...>" y
"</morphing>" como en la primera realización, ajustando
de esta manera una serie de objetos a cambiar. Con esta estructura
anidada, se puede implementar la transformación de la síntesis de
voz que puede cambiar una serie de objetos. Es decir, en el ejemplo
mostrado en la figura 7, un rasgo de la voz sintética en la emisión
del texto que va a ser generado como voz sintética inicialmente
expresa un tono feliz con un volumen alto y posteriormente cambia
para expresar un tono enfadado, mientras el volumen cambia a ser más
bajo que el volumen inicial.
Dado que las otras disposiciones son las mismas
que las de la primera realización, se omitirá una descripción
repetitiva.
Según esta realización con la disposición
anterior, un rasgo de la voz sintética de una sección deseada del
texto que va a ser generado se puede cambiar fácilmente y de manera
continua.
Tercera
realización
A continuación se explicará la tercera
realización basada en el aparato de síntesis de voz según la primera
realización mencionada anteriormente. En la siguiente descripción,
se omitirá una descripción repetitiva de los mismos componentes de
construcción que los de la primera realización y se explicará
principalmente un rasgo característico de esta realización.
En las primera y segunda realizaciones descritas
anteriormente, la información de atributo contenida en la etiqueta
de inicio "<morphing...>" describe un objeto cuyo rasgo
de voz sintética se va a cambiar de manera continua y los valores
de atributo de los puntos de inicio y de fin del objeto. En
comparación, en la tercera realización, la etiqueta de inicio
"<morphing...>" describe marcas de un objeto a cambiar
en los puntos de inicio y de fin.
La figura 8 muestra un ejemplo de las etiquetas
asignadas al texto en la tercera realización y el mismo texto
limitado por las etiquetas es el mismo que el de la segunda
realización mostrado en la figura 7. En esta realización, un objeto
a cambiar es una emoción (emotion). Por tanto, los puntos de inicio
y de fin describen marcas "emotionstart" y "emotionend"
de un objeto a cambiar. Dado que la disposición de un aparato de
síntesis de voz en la tercera realización es la misma que la de la
primera realización, se omitirá una descripción repetitiva de la
misma. A continuación se describirá una diferencia entre las
realizaciones primera y tercera.
Al igual que en la primera realización, el
módulo (105) de análisis de texto analiza el tipo, los contenidos y
similares del texto (103) etiquetado de entrada en base al formato y
a la información de cabecera de dicho texto, adquiriendo de esta
manera la información asociada con los mismos. El módulo (105) de
análisis de la etiqueta determina los tipos de etiquetas
incorporadas en el texto. El módulo (107) de análisis del atributo
de la etiqueta analiza los atributos y los valores de los atributos
descritos en las etiquetas. En esta realización, únicamente se van
a analizar los puntos de inicio y de fin, y el módulo (107) de
análisis del atributo de la etiqueta examina los objetos de los
puntos de inicio y de fin. El módulo (109) de síntesis de voz lleva
a cabo la interpolación en base a los valores de los atributos
obtenidos mediante el módulo (107) de análisis del atributo de la
etiqueta, y genera la voz sintética correspondiente a los contenidos
del texto según una forma de onda de voz obtenida como resultado de
la interpolación.
Dado que la información del atributo incorporada
en cada etiqueta tiene la misma configuración que en la primera
realización, se omitirá una descripción repetitiva de la misma. La
diferencia entre la primera y tercera realizaciones es como se
describe a continuación. Es decir, al describir una emoción
(emotion) como un objeto cuyo rasgo de voz sintética se va a
cambiar de manera continua, una emoción en el punto de inicio
(start) y una emoción en el punto de fin (end), al punto de inicio
se le asigna la marca "emotionstart" del objeto a cambiar y al
punto de fin se le asigna una marca "emotionend" del objeto a
cambiar. En esta realización, dado que un proceso de excepción es
parcialmente dife-
rente de acuerdo a dicho cambio en el formato de la etiqueta, esta diferencia se explicará con referencia a la figura 9.
rente de acuerdo a dicho cambio en el formato de la etiqueta, esta diferencia se explicará con referencia a la figura 9.
La figura 9 es un diagrama de flujo que muestra
el proceso de control del aparato de síntesis de voz en la tercera
realización, es decir, la secuencia de procesos que van a ser
ejecutados por la CPU (no mostrada) del aparato.
Haciendo referencia a la figura 9, el texto
etiquetado (103) introducido por el módulo (104) de entrada de
texto se somete a un análisis de texto, un análisis de etiqueta y un
análisis del atributo de la etiqueta por parte del módulo (105) de
análisis de texto, el módulo (106) de análisis de la etiqueta y el
análisis (107) del atributo de la etiqueta (etapas S901 a
S903).
Se comprueba si la etiqueta de inicio
"<morphing...>" comprende puntos de inicio y de fin. Se
comprueba si bien el punto de inicio o el punto de fin tienen un
atributo (etapa S904). Si ninguno de los puntos de inicio y de fin
tienen valores de atributo, el texto se lee en voz alta según la voz
que estaba leyendo en voz alta una frase antes de dicha etiqueta
(etapa S905). Posteriormente, se comprueba si el punto de inicio
tiene un valor de atributo. Si el punto de inicio no tiene un valor
de atributo, se utiliza el valor del atributo del punto de fin
(etapa S906, etapa S907). De otra manera, si el punto de inicio
tiene un valor de atributo pero el punto de fin no tiene un valor
de atributo, el texto se lee en voz alta según el valor de atributo
del punto de inicio (etapa S908, S909). Si tanto el punto de inicio
como el punto de fin tienen valores de atributo, y no son
diferentes, se lleva a cabo la interpolación en base a dichos
valores de atributo y se genera la voz sintética (etapa S910,
S912).
Al igual que con los valores de atributo de los
puntos de inicio y de fin, si un objeto cuyo rasgo de voz sintética
va a ser cambiado de manera continua es un volumen, tanto el punto
de inicio como el punto de fin deben adoptar valores de volumen. Si
los tipos de los valores de atributo de los puntos de inicio y de
fin son diferentes (por ejemplo, el punto de inicio tiene un valor
de volumen y el punto de fin tiene una emoción), se utiliza el
valor del atributo del punto de inicio (etapa S911). Cuando la
etiqueta tiene valores de atributos erróneos, la prioridad para la
generación de voz es (orden del punto de inicio) > (orden del
punto de fin).
Dado que las otras disposiciones son las mismas
que las de la primera realización, se omitirá una descripción
repetitiva de las mismas.
Según esta realización con la disposición
anterior, un rasgo de la voz sintética de una sección deseada del
texto que va a ser generado puede cambiar fácilmente y de manera
continua.
\vskip1.000000\baselineskip
Cuarta
realización
A continuación se explicará la cuarta
realización basada en el aparato de síntesis de voz según la primera
realización mencionada anteriormente. En la siguiente descripción,
se omitirá una descripción repetitiva de los mismos componentes de
construcción que los de la primera realización y se explicará
principalmente un rasgo característico de esta realización.
En las realizaciones primera a tercera, un
cambio de transformación es constante, es decir, depende de la
relación del cambio del mismo algoritmo de transformación. No
obstante, la cuarta realización se caracteriza porque también se
puede añadir un atributo para un cambio de transformación. La figura
10 muestra dicho ejemplo.
La figura 10 muestra un ejemplo de las etiquetas
asignadas al texto en la cuarta realización. En esta realización,
la información del atributo para la relación del cambio de
transformación también se dispone en los atributos de la etiqueta
de inicio "<morphing...>". Al igual que un valor de
atributo que expresa la relación de cambio de la transformación, un
tipo de función utilizado en un cambio tal como lineal, no lineal,
logaritmo o similar se dispone en "function"
("función").
En esta realización, al analizar las etiquetas,
el módulo (107) de análisis del atributo de la etiqueta analiza no
solamente un objeto y los puntos de inicio y de fin, sino también un
atributo de un cambio de transformación según un valor de atributo
que representa la relación de cambio de la transformación. Como
resultado del análisis, si un valor del atributo tal como lineal,
no lineal, logaritmo o similar se describe en un campo
"function", se lleva a cabo la interpolación según la relación
de cambio dada por dicho valor de atributo y se genera la voz
sintética según una forma de onda sintética obtenida mediante
interpolación. Por otra parte, si este valor de atributo no está
descrito, se lleva a cabo la interpolación con un método de cambio
determinado con antelación por el algoritmo de transformación.
Dado que las otras disposiciones son las mismas
que las de la primera realización, se omitirá una descripción
repetitiva.
Según esta realización con la disposición
anterior, un rasgo de voz sintética de una sección deseada del texto
que va a ser generado se puede cambiar fácilmente y de manera
continua.
\vskip1.000000\baselineskip
Quinta
realización
A continuación se explicará la quinta
realización basada en el aparato de síntesis de voz según la primera
realización mencionada anteriormente. En la siguiente descripción,
se omitirá una descripción repetitiva de los mismos componentes de
construcción que los de la primera realización, y se explicará
principalmente un rasgo característico de esta realización.
En las realizaciones primera a tercera, un
cambio de transformación es constante, es decir, depende de la
relación de cambio del mismo algoritmo de transformación. No
obstante, la quinta realización se caracteriza porque se puede
añadir un atributo para un cambio de transformación individualmente
en una etiqueta. La figura 11 muestra dicho ejemplo.
La figura 11 muestra un ejemplo de las etiquetas
asignadas al texto en la quinta realización. En esta realización,
las etiquetas intermedias para un cambio de transformación se
insertan además en el texto limitado por las etiquetas
"<morphing...>" ... "</morphing>".
En esta realización, al analizar las etiquetas,
el módulo (106) de análisis de la etiqueta analiza no solamente las
etiquetas "<morphing>" sino también las etiquetas
intermedias que generan los cambios de transformación. La etiqueta
intermedia utiliza una etiqueta como "<rate value =
``*.*''/>" y una relación de cambio que oscila entre 0 y 1 se
describe en un campo de atributo "value" ("valor").
Posteriormente, dichas etiquetas intermedias se incorporan
individualmente en las posiciones deseadas en el texto cuyo rasgo de
voz sintética se va a cambiar de manera continua. De esta manera,
al generar de hecho la voz sintética después de la interpolación,
puede tener lugar un complejo cambio adicional en el rasgo de la voz
sintética, tal como se muestra en la figura 12.
Se debe observar que cada una de las partes
insertadas en la etiqueta como "<rate value = ``*.*''/>",
cuando se traduce de la solicitud japonesa original a la solicitud
PCT en inglés, se disponen como se muestra en la figura 11, debido
a la diferencia del orden de palabras entre el japonés y el inglés.
En consecuencia, también se dispone un gráfico de línea mostrado en
la figura 12 para ofrecer una explicación obvia y adecuada de la
presente invención, según la disposición de la figura 11.
Cuando también se designa una función
"function" para un cambio de transformación utilizada en la
cuarta realización, se utiliza una función designada anteriormente
como una función de interpolación a partir de una etiqueta
"<rate/>" dada a la siguiente etiqueta
"<rate/>".
Dado que otras disposiciones son las mismas que
las de la primera realización, se omitirá una descripción
repetitiva.
Según esta realización con la disposición
anterior, un rasgo de voz sintética de una sección deseada del texto
que va a ser generado se puede cambiar fácilmente y de manera
continua.
\vskip1.000000\baselineskip
Sexta
realización
A continuación se explicará la sexta realización
basada en el aparato de síntesis de voz según la primera
realización mencionada anteriormente. En la siguiente descripción,
se omitirá una descripción repetitiva de los mismos componentes de
construcción que los de la primera realización y se explicará
principalmente un rasgo característico de esta realización.
En las realizaciones anteriormente mencionadas,
los valores del atributo de los puntos de inicio y de fin se
disponen en la etiqueta de inicio "<morphing...>". No
obstante, en esta realización, el valor del atributo del punto de
fin se dispone en una parte final de la etiqueta, tal como se
muestra en la figura 13.
La figura 13 muestra un ejemplo de las etiquetas
asignadas al texto en la sexta realización.
En la configuración de la etiqueta de la primera
realización, "<morphing type = ``emotion'' start =
``happy''>" se describe como el atributo del punto de inicio
y el objeto en la etiqueta de inicio "<morphing...>" y
el atributo del punto de fin se describe en la etiqueta de fin como
"</morphing end = ``angry''>". Por el contrario, en esta
realización, "<morphing emotionstart = ``happy''>" se
describe en la etiqueta de inicio y "<morphing emotionend =
``angry''>" se describe en la etiqueta de fin. Cuando se
designa una función de interpolación de la cuarta realización en
esta realización, se describe en la etiqueta de inicio.
Dado que las otras disposiciones son las mismas
que las de la primera realización, se omitirá una descripción
repetitiva.
Según esta realización con la disposición
anterior, un rasgo de la voz sintética de una sección deseada del
texto que va a ser generado se puede cambiar fácilmente y de manera
continua.
\vskip1.000000\baselineskip
Séptima
realización
A continuación se explicará la séptima
realización basada en el aparato de síntesis de voz según la primera
realización mencionada anteriormente. En la siguiente descripción,
se omitirá una descripción repetitiva de los mismos componentes de
construcción que los de la primera realización y se explicará
principalmente un rasgo característico de esta realización.
En esta realización, si los atributos de los
puntos de inicio y de fin en la etiqueta son diferentes entre sí,
se determina un error para inhibir los siguientes procesos, al
contrario que en las realizaciones anteriores.
Se tomará como ejemplo la configuración de la
etiqueta de la primera realización. Es decir, si los atributos de
"start" y "end" son diferentes entre sí como
"<morphing type = ``emotion'' start = ``happy'' end =
``10''>", se determina un error y no se lleva a cabo ningún
proceso. Si ninguno de los puntos de inicio y de fin tienen
atributos o si alguno de ellos no tiene un atributo, se ejecutan los
mismos procesos que en la primera realización. En la tercera
realización, si ninguno de los puntos de inicio y de fin tienen
atributos o si alguno de ellos no tiene un atributo, se ejecutan
los mismos procesos que en la tercera realización. Dado que las
otras disposiciones son las mismas que las de las realizaciones
primera a quinta, se omitirá una descripción repetitiva de las
mismas.
Según esta realización con la anterior
disposición, un rasgo de la voz sintética de una sección deseada del
texto que va a ser generado se puede cambiar fácilmente y de manera
continua.
\vskip1.000000\baselineskip
Octava
realización
A continuación se explicará la octava
realización basada en el aparato de síntesis de voz según la primera
realización mencionada anteriormente. En la siguiente descripción,
se omitirá una descripción repetitiva de los mismos componentes de
descripción como los de la primera realización y se aplicará
principalmente una peculiaridad característica de esta
realización.
En las realizaciones mencionadas anteriormente,
incluso cuando no se encuentra al menos una de la serie de piezas
de la información de atributo a disponer en la etiqueta, se genera
la voz sintética. No obstante, en esta realización, cuando los
atributos de los puntos de inicio y de fin son diferentes entre sí,
y cuando los atributos de los puntos de inicio y de fin son
diferentes de los de un objeto, se determina error y no se lleva a
cabo ningún proceso.
Dado que las otras disposiciones son las mismas
que las de las realizaciones primera a séptima, se omitirá una
descripción repetitiva de las mismas.
Según esta realización con la disposición
anterior, un rasgo de la voz sintética de una sección deseada del
texto que va a ser generado se puede cambiar fácilmente y de manera
continua.
Por tanto, según las realizaciones mencionadas
anteriormente, limitando una sección deseada del texto de entrada
que va a ser generado mediante etiquetas, un rasgo de la voz
sintética se puede cambiar de manera continua como en la
transformación a partir de la generación de la voz sintética y se
puede implementar una función texto a voz natural para un oyente a
diferencia de la técnica anterior que genera una voz discreta.
\vskip1.000000\baselineskip
Otra
realización
Se han explicado las realizaciones preferentes
de la presente invención y la presente invención se puede aplicar
tanto a un sistema formado por una serie de dispositivos, o a un
aparato formado por un único equipo.
Se debe observar que la presente invención
comprende un caso en el que la invención se consigue suministrando
un programa de software, directamente o a distancia, que implemente
las funciones de las realizaciones mencionadas anteriormente a un
sistema o a un aparato, y leyendo y ejecutando el código del
programa suministrado mediante un ordenador de dicho sistema o
aparato. En este caso, la forma no está limitada a un programa
siempre que tenga las funciones del programa.
Por tanto, el mismo código del programa
instalado en un ordenador para implementar el proceso funcional de
la presente invención utilizando el ordenador implementa la presente
invención. Es decir, las reivindicaciones de la presente invención
comprenden el mismo programa de ordenador para implementar el
proceso funcional de la presente invención.
En este caso, la forma del programa no está
particularmente limitada y un código objeto, un programa para ser
ejecutado mediante un intérprete, datos de texto a ser suministrados
a un sistema operativo OS y similares se pueden utilizar siempre
que tengan la función del programa.
En cuanto a un medio de grabación para
suministrar el programa se pueden utilizar un disquete, disco duro,
disco óptico, disco magnetoóptico, MO, CD-ROM,
CD-R, CD-RW, cinta magnética,
tarjeta de memoria no volátil, ROM, DVD (DVD-ROM,
DVD-R) y similares, por ejemplo.
En cuanto a otro método de suministro de
programa, el programa puede ser suministrado estableciendo una
conexión a una página de inicio en internet utilizando un navegador
en un ordenador del cliente y descargando el propio programa de
ordenador de la presente invención o un archivo comprimido que
contiene una función de instalación automática desde la página de
inicio hasta un medio de grabación tal como un disco duro o similar.
También, el código de programa que forma el programa de la presente
invención puede ser segmentado en una serie de archivos, que se
pueden descargar de diferentes páginas de inicio. Es decir, las
reivindicaciones de la presente invención comprenden un servidor
WWW (World Wide Web) que hace que una serie de usuarios descarguen
un archivo de programa necesario para implementar el proceso
funcional de la presente invención mediante el ordenador.
También, se le puede entregar al usuario un
medio de almacenamiento tal como un CD-ROM o
similar, que almacena el programa cifrado de la presente invención,
el usuario que cumple una condición predeterminada se le puede
permitir descargar la información de clave que se utiliza para
descifrar el programa desde una página de inicio a través de
internet y el programa cifrado se puede ejecutar utilizando dicha
información de clave a instalar en un ordenador, implementando, de
esta manera, la presente invención.
Las funciones de las realizaciones anteriormente
mencionadas se pueden implementar no solamente ejecutando el código
de programa leído mediante el ordenador sino también mediante
algunas o todas las operaciones de procesamiento actuales
ejecutadas mediante un sistema operativo (OS) o similar que se
ejecutan en el ordenador en base a una instrucción de dicho
programa.
Además, las funciones de las realizaciones
anteriormente mencionadas se pueden implementar mediante algunos o
todos los procesos actuales ejecutados por una CPU o similar,
dispuestos en una tarjeta de ampliación de funciones o una unidad
de ampliación de funciones, que se inserta en el ordenador o se
conecta al mismo, una vez el programa es leído del medio de
grabación se escribe en una memoria de la tarjeta o unidad de
ampliación de funciones.
Tal como se ha descrito anteriormente, según las
realizaciones anteriores, un rasgo de la voz sintética de una
sección deseada del texto que va a ser generado se puede cambiar
fácilmente y de manera continua.
Dado que se pueden llevar a cabo realizaciones
de la presente invención evidentemente muy diferentes sin desviarse
del alcance de la misma, se entenderá que la invención no está
limitada a las realizaciones específicas de la misma excepto según
se definen en las reivindicaciones.
Claims (3)
1. Método de síntesis de voz para sintetizar una
forma de onda de voz para cambiar de manera continua un rasgo de
una voz sintética de una sección asignada a un identificador
predeterminado incluido en un texto de entrada al generar la voz
sintética correspondiente al texto, caracterizado por
comprender:
una etapa de ajuste (S103) para ajustar una
sección deseada del texto que va a ser generado, en la que el rasgo
de la voz sintética se va a cambiar de manera continua utilizando un
identificador predeterminado que comprende la información de
atributo que representa un modo de cambio del rasgo de la voz
sintética tanto en la posición de inicio como en la posición de fin
de la sección dispuesta por el identificador;
una etapa de reconocimiento (S302) para
reconocer el identificador predeterminado y un tipo de información
de atributo contenida en el identificador predeterminado del texto
con el identificador, que se dispone en dicha etapa de ajuste;
y
una etapa de síntesis de voz (S320) para
sintetizar una forma de onda de voz, que tiene un rasgo de voz
sintética que cambia de manera continua según la información del
atributo contenida en el identificador predeterminado, interpolando
la voz sintética correspondiente al texto dentro de la sección
deseada del texto con el identificador según un resultado de
reconocimiento de dicha etapa de reconocimiento,
en el que el modo de cambio del rasgo de la voz
sintética comprende al menos un cambio en la velocidad de emisión,
un cambio en el volumen, un cambio en el hablante, un cambio en el
dispositivo de salida, un cambio en el número de hablantes y un
cambio de la emoción.
2. Aparato de síntesis de voz para sintetizar
una forma de onda de voz para cambiar de manera continua un rasgo
de una voz sintética en una sección asignada a un identificador
predeterminado incluido en el texto de entrada (103) al generar la
voz sintética correspondiente al texto, caracterizado porque
se dispone de:
medios de reconocimiento (106) para reconocer un
identificador del texto, tanto en una posición de inicio como en
una posición de fin de la sección dispuesta por el identificador, en
la que el identificador predeterminado que representa una sección
deseada, en la que el rasgo de la voz sintética se va a cambiar de
manera continua, y que contiene la información de atributo que
representa un modo de cambio del rasgo de la voz sintética, el
identificador predeterminado y un tipo de la información del
atributo contenida en el identificador predeterminado del texto con
el identificador; y
unos medios de síntesis de voz (109) para
sintetizar una forma de onda de voz que tiene un rasgo de voz
sintética que cambia de manera continua según la información del
atributo contenida en el identificador predeterminado, interpolando
la voz sintética correspondiente al texto dentro de la sección
deseada del texto con el identificador según un resultado de
reconocimiento de dichos medios de reconocimiento;
en el que el modo de cambio del rasgo de la voz
sintética comprende al menos un cambio en la velocidad de emisión,
un cambio en el volumen, un cambio en el hablante, un cambio en el
dispositivo de salida, un cambio en el número de hablantes y un
cambio en la emoción.
3. Programa de ordenador que comprende unas
instrucciones de operación adaptadas para llevar a cabo el método
de síntesis de voz de la reivindicación 1.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002100467A JP2003295882A (ja) | 2002-04-02 | 2002-04-02 | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
JP2002-100467 | 2002-04-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2316786T3 true ES2316786T3 (es) | 2009-04-16 |
Family
ID=29241389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03746418T Expired - Lifetime ES2316786T3 (es) | 2002-04-02 | 2003-04-02 | Metodo, aparato y programa de ordenador para sintesis de voz. |
Country Status (9)
Country | Link |
---|---|
US (1) | US7487093B2 (es) |
EP (1) | EP1490861B1 (es) |
JP (1) | JP2003295882A (es) |
KR (1) | KR100591655B1 (es) |
CN (1) | CN1269104C (es) |
AU (1) | AU2003226446A1 (es) |
DE (1) | DE60325191D1 (es) |
ES (1) | ES2316786T3 (es) |
WO (1) | WO2003088208A1 (es) |
Families Citing this family (204)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CN1260704C (zh) * | 2003-09-29 | 2006-06-21 | 摩托罗拉公司 | 语音合成方法 |
JP3895758B2 (ja) * | 2004-01-27 | 2007-03-22 | 松下電器産業株式会社 | 音声合成装置 |
JP2005234337A (ja) * | 2004-02-20 | 2005-09-02 | Yamaha Corp | 音声合成装置、音声合成方法、及び音声合成プログラム |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
JP4720974B2 (ja) * | 2004-12-21 | 2011-07-13 | 株式会社国際電気通信基礎技術研究所 | 音声発生装置およびそのためのコンピュータプログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
WO2007138944A1 (ja) * | 2006-05-26 | 2007-12-06 | Nec Corporation | 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101295504B (zh) * | 2007-04-28 | 2013-03-27 | 诺基亚公司 | 用于仅文本的应用的娱乐音频 |
US20090157407A1 (en) * | 2007-12-12 | 2009-06-18 | Nokia Corporation | Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8990087B1 (en) * | 2008-09-30 | 2015-03-24 | Amazon Technologies, Inc. | Providing text to speech from digital content on an electronic device |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
US8374881B2 (en) * | 2008-11-26 | 2013-02-12 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with dialog acts |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
JP5275102B2 (ja) * | 2009-03-25 | 2013-08-28 | 株式会社東芝 | 音声合成装置及び音声合成方法 |
GB0906470D0 (en) | 2009-04-15 | 2009-05-20 | Astex Therapeutics Ltd | New compounds |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8996384B2 (en) * | 2009-10-30 | 2015-03-31 | Vocollect, Inc. | Transforming components of a web page to voice prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8965768B2 (en) | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US8731932B2 (en) | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
CN102426838A (zh) * | 2011-08-24 | 2012-04-25 | 华为终端有限公司 | 语音信号处理方法和用户设备 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP5596649B2 (ja) * | 2011-09-26 | 2014-09-24 | 株式会社東芝 | 文書マークアップ支援装置、方法、及びプログラム |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102579086B1 (ko) | 2013-02-07 | 2023-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
EP2922055A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922054A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
JP6415929B2 (ja) | 2014-10-30 | 2018-10-31 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10579742B1 (en) * | 2016-08-30 | 2020-03-03 | United Services Automobile Association (Usaa) | Biometric signal analysis for communication enhancement and transformation |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
KR20180055189A (ko) | 2016-11-16 | 2018-05-25 | 삼성전자주식회사 | 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11393451B1 (en) * | 2017-03-29 | 2022-07-19 | Amazon Technologies, Inc. | Linked content in voice user interface |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN108305611B (zh) * | 2017-06-27 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 文本转语音的方法、装置、存储介质和计算机设备 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10600404B2 (en) * | 2017-11-29 | 2020-03-24 | Intel Corporation | Automatic speech imitation |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10706347B2 (en) | 2018-09-17 | 2020-07-07 | Intel Corporation | Apparatus and methods for generating context-aware artificial intelligence characters |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110138654B (zh) * | 2019-06-06 | 2022-02-11 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN112349271A (zh) * | 2020-11-06 | 2021-02-09 | 北京乐学帮网络技术有限公司 | 语音信息处理方法、装置、电子设备及存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2628994B2 (ja) | 1987-04-10 | 1997-07-09 | 富士通株式会社 | 文−音声変換装置 |
JP3425996B2 (ja) | 1992-07-30 | 2003-07-14 | 株式会社リコー | ピッチパターン生成装置 |
JP3373933B2 (ja) | 1993-11-17 | 2003-02-04 | 三洋電機株式会社 | 話速変換装置 |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JP3548230B2 (ja) * | 1994-05-30 | 2004-07-28 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3559588B2 (ja) * | 1994-05-30 | 2004-09-02 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3465734B2 (ja) * | 1995-09-26 | 2003-11-10 | 日本電信電話株式会社 | 音声信号変形接続方法 |
JPH09160582A (ja) | 1995-12-06 | 1997-06-20 | Fujitsu Ltd | 音声合成装置 |
JPH09244693A (ja) * | 1996-03-07 | 1997-09-19 | N T T Data Tsushin Kk | 音声合成方法及び装置 |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
JP3616250B2 (ja) * | 1997-05-21 | 2005-02-02 | 日本電信電話株式会社 | 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JP4632384B2 (ja) | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
JP2001282279A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP4054507B2 (ja) | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
EP1160764A1 (en) | 2000-06-02 | 2001-12-05 | Sony France S.A. | Morphological categories for voice synthesis |
JP2002132287A (ja) | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
DE60314929T2 (de) | 2002-02-15 | 2008-04-03 | Canon K.K. | Informationsverarbeitungsgerät und Verfahren mit Sprachsynthesefunktion |
US7546241B2 (en) | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
-
2002
- 2002-04-02 JP JP2002100467A patent/JP2003295882A/ja active Pending
-
2003
- 2003-04-02 AU AU2003226446A patent/AU2003226446A1/en not_active Abandoned
- 2003-04-02 ES ES03746418T patent/ES2316786T3/es not_active Expired - Lifetime
- 2003-04-02 WO PCT/JP2003/004231 patent/WO2003088208A1/en active IP Right Grant
- 2003-04-02 EP EP03746418A patent/EP1490861B1/en not_active Expired - Lifetime
- 2003-04-02 CN CNB038061244A patent/CN1269104C/zh not_active Expired - Fee Related
- 2003-04-02 DE DE60325191T patent/DE60325191D1/de not_active Expired - Lifetime
- 2003-04-02 KR KR1020047013129A patent/KR100591655B1/ko not_active IP Right Cessation
-
2004
- 2004-08-10 US US10/914,169 patent/US7487093B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20050065795A1 (en) | 2005-03-24 |
WO2003088208A1 (en) | 2003-10-23 |
EP1490861B1 (en) | 2008-12-10 |
US7487093B2 (en) | 2009-02-03 |
EP1490861A1 (en) | 2004-12-29 |
DE60325191D1 (de) | 2009-01-22 |
CN1643572A (zh) | 2005-07-20 |
KR100591655B1 (ko) | 2006-06-20 |
CN1269104C (zh) | 2006-08-09 |
EP1490861A4 (en) | 2007-04-18 |
KR20040086432A (ko) | 2004-10-08 |
JP2003295882A (ja) | 2003-10-15 |
AU2003226446A1 (en) | 2003-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2316786T3 (es) | Metodo, aparato y programa de ordenador para sintesis de voz. | |
US20190196666A1 (en) | Systems and Methods Document Narration | |
US8793133B2 (en) | Systems and methods document narration | |
US8364488B2 (en) | Voice models for document narration | |
US8571870B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JPH1138989A (ja) | 音声合成装置及び方法 | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP4510631B2 (ja) | 音声波形の連結を用いる音声合成 | |
JP2007127994A (ja) | 音声合成方法及び音声合成装置並びにプログラム | |
JP4305022B2 (ja) | データ作成装置、プログラム及び楽音合成装置 | |
JP4630038B2 (ja) | 音声波形データベース構築方法、この方法を実施する装置およびプログラム | |
JP2001166787A (ja) | 音声合成装置および自然言語処理方法 | |
JPS63208098A (ja) | 音声合成装置および方法 | |
JP2000322075A (ja) | 音声合成装置および自然言語処理方法 | |
JP2004246085A (ja) | 音声合成方法、装置及びプログラム | |
JP2004325692A (ja) | テキスト音声合成装置、テキスト処理装置、テキスト処理プログラムおよびこのプログラムの記録媒体 | |
JP2004133119A (ja) | 携帯端末装置 | |
JP2009282236A (ja) | 音声合成装置 | |
JPH06149535A (ja) | 音声ナレーションの録音ガイド方法 | |
JPH02120894A (ja) | 音声合成装置 |