ES2243200T3 - Generacion y sintesis de plantillas de prosodia. - Google Patents
Generacion y sintesis de plantillas de prosodia.Info
- Publication number
- ES2243200T3 ES2243200T3 ES00301820T ES00301820T ES2243200T3 ES 2243200 T3 ES2243200 T3 ES 2243200T3 ES 00301820 T ES00301820 T ES 00301820T ES 00301820 T ES00301820 T ES 00301820T ES 2243200 T3 ES2243200 T3 ES 2243200T3
- Authority
- ES
- Spain
- Prior art keywords
- duration
- phonemes
- grouping
- syllable
- syllables
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 title description 16
- 238000003786 synthesis reaction Methods 0.000 title description 16
- 230000003068 static effect Effects 0.000 claims abstract description 30
- 239000000470 constituent Substances 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims description 30
- 230000001944 accentuation Effects 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000233805 Phoenix Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Un sistema de generación de plantillas para la generación de una plantilla de duración a partir de una pluralidad de palabras de entrada, que se caracteriza por comprender: un procesador fonético (40) que permite segmentar cada una de dichas palabras de entrada en fonemas de entrada y agrupar dichos fonemas de entrada en sílabas constitutivas, cada una de las cuales tiene una duración de sílaba asociada; un módulo de agrupamiento de texto (38) que permite identificar características de agrupamiento asociadas con cada una de las sílabas constitutivas, seleccionándose dichas características de agrupamiento del grupo que comprende: patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical, un módulo de agrupamiento de fonemas (42) que permite determinar un valor de la duración media para cada fonema de entrada basado en cada caso del fonema de entrada en la pluralidad de palabras de entrada y almacenar el valor de la duración media en una tabla estática global (32); un módulo de normalización (44) que se puede activar para generar un valor de duración normalizada para cada una de dichas sílabas constitutivas, en el cual dicho valor de duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración media es de los fonemas de entrada que constituyen la sílaba constitutiva; el módulo de normalización permite además agrupar sílabas constitutivas de acuerdo con la característica de agrupamiento y construir una plantilla de duración (36) basada en los valores de duración normalizada para las sílabas constitutivas que tienen una característica de agrupamiento dada.
Description
Generación y síntesis de plantillas de
prosodia.
La presente invención está relacionada en general
con los sistemas de conversión texto-habla y de
síntesis de habla. Más particularmente, la invención se refiere a un
sistema para generar plantillas de duración que se pueden utilizar
en un sistema de texto-habla para proporcionar
síntesis de habla de sonido más natural.
A lo largo de la historia de estas tecnologías,
la tarea de generar una prosodia natural similar a la del habla
humana para los sistemas de conversión texto-habla y
de síntesis de habla ha sido uno de los problemas más difíciles de
resolver al que se han tenido que enfrentar los investigadores y los
programadores. Los sistemas texto-habla en general
se han ganado su mala fama debido a su prosodia antinatural con
entonaciones "robóticas" o ritmo y tiempo incorrectos de las
oraciones. Para resolver este problema, algunos sistemas anteriores
han usado redes neurales y algoritmos de agrupamiento vectorial para
intentar simular la prosodia de sonido natural. Además de haber
tenido un éxito muy limitado, estas técnicas informáticas de "caja
negra" no proporcionan al programador ninguna información sobre
cuales son los parámetros cruciales de la prosodia de sonido
natural.
La presente invención aprovecha un planteamiento
distinto que se ha revelado en una solicitud de patente anterior
titulada "Síntesis de habla utilizando plantillas de prosodia".
En el planteamiento revelado, se utilizan muestras de habla humana
real para desarrollar plantillas de prosodia. Las plantillas definen
una relación entre los patrones de acentuación de las sílabas y
ciertas variables prosódicas como la entonación (F0) y la duración,
concentrándose especialmente en las plantillas F0. Así, a diferencia
de los planteamientos algorítmicos anteriores, el planteamiento
revelado utiliza los atributos lexicológicos y acústicos del habla
natural (por ejemplo, patrón de acentuación, número de sílabas,
entonación, duración) que el investigador y el programador pueden
observar y entender directamente.
El planteamiento revelado anteriormente almacena
las plantillas de prosodia para entonación (F0) e información de la
duración en una base de datos a la que se accede especificando el
número de sílabas y el patrón de acentuación asociado con una
palabra dada. Se incluye un diccionario de palabras para dotar al
sistema con la información necesaria relativa a número de sílabas y
patrones acentuales. Usando el diccionario de palabras, el
procesador de texto identifica el patrón acentual de las palabras
introducidas y genera sus representaciones fonémicas. Luego, un
módulo de prosodia accede a las plantillas de la base de datos,
usando para ello la información de número de sílabas y de patrón
acentual. El sistema obtiene en la base de datos una plantilla de
prosodia para la palabra dada y lo usa para proporcionar información
prosódica al módulo de generación de sonido que sintetiza el habla a
partir de la representación fonémica y de la información
prosódica.
El planteamiento revelado anteriormente se centra
en el habla a nivel de palabra. Las palabras se dividen en sílabas y
así representan la unidad básica de la prosodia. El patrón de
acentuación definido por las sílabas determina las características
perceptivas más importantes tanto de la entonación (F0) como de la
duración. A este nivel de granularidad, el conjunto de plantillas es
bastante pequeño y fácil de implementar en los sistemas de
conversión texto-habla y de síntesis de habla. Si
bien actualmente se prefiere un análisis prosódico a nivel de
palabra que use sílabas, las técnicas de plantillas de prosodia de
la invención se pueden usar en sistemas con otros niveles de
granularidad. Por ejemplo, el conjunto de plantillas se puede
ampliar para que admita más características de agrupamiento, tanto a
nivel de sílaba como de palabra. A este respecto, la modificación de
la duración (por ejemplo, alargamiento) causada por la posición en
la frase u oración y el tipo de esta, estructura de los segmentos de
una sílaba y representación fonética se pueden usar como atributos
con los cuales se pueden clasificar ciertos patrones prosódicos.
Aunque los sistemas de
texto-habla basados en plantillas de prosodia que se
obtienen de muestras de habla humana real han ofrecido la promesa de
síntesis del habla muy mejorada, esos sistemas han estado limitados
por la dificultad de construir plantillas de duración adecuadas.
Para obtener patrones prosódicos temporales, las cantidades
puramente segmentales de los tiempos se tienen que descomponer en
factores a partir de los efectos prosódicos a mayor escala. Esto ha
resultado ser mucho más difícil que construir plantillas F0, en las
cuales la información de entonación se puede obtener examinando
visualmente datos F0 individuales.
En "Modelling segmental duration in German text
to speech synthesis", Bernard Möbius y Jann van Santen,
Proceedings of the International Conference on Spoken Language
Processing October 03, 1996 XP002121563, se revela un modelo para
duración segmental en alemán. Las palabras de entrada se segmentan
en fonemas y se revela un modelo de duración que predice la duración
de los sonidos del habla en varios contextos textuales prosódicos y
segmentales. Para cada segmento, se crea un vector de
características tal que sus componentes capturan variaciones
contextuales de la duración del segmento. Para cada segmento, se
crea una plantilla de duración.
En "Template driven generation of prosodic
information for Chinese Concatenative synthesis", C H Wu y J H
Chen, Phoenix, Arizona, 15 - 19 de marzo, 1999, Nueva York, IEEE, 15
de marzo, 1999, páginas 65 - 68 XP000898264 ISBN:
0-7803-5042-1, se
revela la generación por plantillas de información prosódica para
conversión texto-habla en chino. Se usa una base de
datos de habla para establecer un árbol de plantillas basadas en
palabra-prosodia. El árbol de plantillas almacena
características prosódicas que incluye duración de sílabas de una
palabra para posibles combinaciones de características
lingüísticas.
En "Assignment of segmental duration in text to
speech synthesis", Jann P H van Santen, Computer Speech and
Language, Academic Press, Londres, Volumen 8, número 2, 1 de abril,
1994, páginas 95 - 128, XP00501471, ISSN: 0885-2308,
se revela un módulo para calcular la duración segmental en el cual
los modelos de duración usados consisten en ecuaciones de sumas y
productos.
Realizaciones específicas reveladas aquí,
presentan un método de separar comportamiento prosódico de alto
nivel de limitaciones puramente de articulación de manera que es
posible extraer información de tiempo de alto nivel del habla
humana. La información de tiempo extraída se usa para construir
plantillas de duración que se utilizan para síntesis de habla.
Inicialmente, las palabras de texto de entrada se segmentan en
fonemas y sílabas y se asigna el patrón de acentuación asociado. A
las palabras a las que se ha asignado acentuación se les pueden
asignar entonces características de agrupamiento mediante un módulo
de agrupamiento de texto. Un módulo de agrupamiento de fonemas
agrupa entonces los fonemas en pares de fonemas y fonemas
individuales. Se recupera de una tabla estática global una duración
estática asociada con cada par de fonemas y con cada fonema
individual. Un módulo de normalización genera un valor de duración
normalizada para una sílaba basado en el acortamiento o alargamiento
de las duraciones estáticas globales asociadas con los fonemas que
comprenden la sílaba. El valor de la duración normalizada se
almacena en la plantilla de duración sobre la base de las
características de agrupamiento asociadas con esa
sílaba.
sílaba.
Según un primer aspecto de la presente invención
se proporciona un sistema de generación de plantillas para la
generación de una plantilla de duración a partir de una pluralidad
de palabras de entrada, que se caracteriza por comprender:
- un procesador fonético (40) que permite segmentar cada una de dichas palabras de entrada en fonemas de entrada y agrupar dichos fonemas de entrada en sílabas constitutivas cada una de las cuales tiene una duración de sílaba asociada;
- un módulo de agrupamiento de texto (38) que permite identificar características de agrupamiento asociadas con cada una de las sílabas constitutivas, seleccionándose dichas características de agrupamiento del grupo que comprende:
- patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical,
- un módulo de agrupamiento de fonemas (42) que permite determinar un valor de la duración media para cada fonema de entrada basado en cada caso del fonema de entrada en la pluralidad de palabras de entrada y almacenar el valor de la duración media en una tabla estática global (32);
- un módulo de normalización (44) que se puede activar para generar un valor de duración normalizada para cada una de dichas sílabas constitutivas, en el cual dicho valor de duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración media es de los fonemas de entrada que constituyen la sílaba constitutiva;
- el módulo de normalización permite además agrupar sílabas constitutivas de acuerdo con la característica de agrupamiento y construir una plantilla de duración (36) basada en los valores de duración normalizada para las sílabas constitutivas que tienen una característica de agrupamiento dada.
Según el segundo aspecto de la presente invención
se proporciona un método de generar una plantilla de duración a
partir de una pluralidad de palabras de entrada, el cual comprende
los pasos de:
- segmentar cada una de dichas palabras de entrada en fonemas de entrada caracterizados por:
- agrupar (56) los fonemas de entrada en sílabas constitutivas que tienen una duración de sílaba asociada;
- asignar una característica de agrupamiento (58) a cada una de las sílabas constitutivas, la cual se selecciona del grupo que comprende:
- patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical,
- determinar datos de duración representativos para cada fonema de entrada sobre la base de cada caso del fonema de entrada en la pluralidad de palabras de entrada;
- generar un valor de duración normalizada para cada sílaba constitutiva, para lo cual dicha duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración medios de los fonemas de entrada que constituyen la sílaba constitutiva;
- agrupar (56) sílabas constitutivas de acuerdo con la característica de agrupamiento; y
- formar (84 - 102) una plantilla de duración para sílabas constitutivas que tienen una característica de agrupamiento dada, donde la plantilla de duración se obtiene de los valores de duración normalizada para las sílabas constitutivas que tienen la característica de agrupamiento dada.
Según un tercer aspecto de la presente invención,
se proporciona un método de denormalizar datos de duración
contenidos en una plantilla de duración, caracterizándose dicho
método por comprender los pasos de:
- proporcionar palabras objetivo para sintetizar mediante un sistema de texto-habla;
- segmentar (52) cada una de dichas palabras de entrada en fonemas de entrada;
- agrupar (56) los fonemas de entrada en sílabas constitutivas que tienen una duración de sílaba asociada;
- agrupar (68 - 82) los fonemas de entrada en pares de fonemas de entrada y fonemas individuales de entrada;
- recuperar información de duración estática (62) asociada con fonemas almacenados en una tabla estática global (30), en la cual los fonemas almacenados corresponden a los fonemas de entrada que constituyen cada una de las sílabas constitutivas;
- recuperar un valor de duración normalizada para cada una de las sílabas constitutivas de una plantilla de duración asociada (36); y
- generar una duración de sílaba denormalizada multiplicando el valor de duración normalizada para cada sílaba constitutiva por la suma del valor de la duración media de los fonemas almacenados correspondientes a los fonemas de entrada que constituyen la sílaba constitutiva.
Para comprender mejor la invención, sus objetivos
y sus ventajas, hay que referirse a la siguiente memoria y a los
dibujos.
La figura 1 es un diagrama de bloques de un
sintetizador de habla que utiliza plantillas de prosodia;
la figura 2 es un diagrama de bloques de un
aparato para generar plantillas de duración prosódica;
la figura 3 es un diagrama de flujo que ilustra
el procedimiento para recoger datos temporales;
la figura 4 es un diagrama de flujo que ilustra
el procedimiento para crear una tabla estática global.
la figura 5 es un diagrama de flujo que ilustra
el procedimiento para el agrupamiento de fonemas en pares; y
la figura 6 es un diagrama de flujo que ilustra
el procedimiento síntesis prosódica empleado por la realización
preferida.
Cuando un hablante humano lee un texto, el tono
sube y baja, las sílabas son enunciadas con mayor o menor
intensidad, las vocales se alargan y se acortan y se insertan
pausas, todo lo cual confiere al pasaje hablado un ritmo definido.
Estas características constituyen algunos de los atributos a los que
los investigadores del habla dan el nombre de prosodia. Los
hablantes humanos añaden información prosódica de manera automática
cuando leen un pasaje de texto en voz alta. La información prosódica
expresa la interpretación que el lector hace del material. Esta
interpretación es un producto de la experiencia humana, ya que el
texto impreso contiene poca información prosódica directa.
Cuando un sistema de síntesis de habla
implementado en un ordenador lee o recita un pasaje de texto, esta
prosodia de sonido humano está ausente en los sistemas
convencionales. Es muy simple: el propio texto prácticamente no
contiene información prosódica y por ello, el sintetizador de voz
convencional tiene poco en lo que basarse para generar la
información prosódica que falta. Como ya se ha indicado, los
intentos anteriores de añadir información prosódica se han centrado
en técnicas basadas en reglas y en técnicas de redes neurales, o en
técnicas algorítmicas, como las técnicas de agrupamiento vectorial.
El habla generada mediante técnicas basadas en reglas, simplemente
no suena natural, y las técnicas algorítmicas y de red neural no se
pueden adaptar ni se pueden usar para extraer las conclusiones
necesarias para modificarlas ni para aplicarlas fuera del conjunto
de entrenamiento usado para generarlas.
La figura 1 ilustra un sintetizador de habla que
utiliza tecnología de plantillas de prosodia. En el caso de la
figura 1, se suministra un texto de entrada 10 al módulo procesador
de texto 12 como una oración marco que comprende una secuencia o
cadena de letras que define palabras. Las palabras se definen
respecto a la oración marco mediante características tales como
posición en la oración, tipo de oración, posición en la frase y
categoría gramatical. El procesador de texto 12 tiene un
diccionario de palabras asociado 14 que contiene información acerca
de las palabras almacenadas. El diccionario de palabras tiene una
estructura de datos que se ilustra en 16 según la cual las palabras
se almacenan junto con características asociadas de agrupamiento de
palabras y oraciones. Más concretamente, en la realización
actualmente preferida de la invención, cada palabra del diccionario
va acompañada por su representación fonémica, información que
identifica los límites sintácticos, información que designa la
manera de asignar la acentuación a cada sílaba y la duración de cada
sílaba constitutiva. Aunque la presente realización no incluye
características de agrupamiento de oraciones en el diccionario de
palabras 14, está dentro del ámbito de la invención que incluya
características de agrupamiento con el diccionario de palabras 14.
Por consiguiente, el diccionario de palabras 14 contiene, en forma
susceptible de búsqueda electrónica, la información básica necesaria
para generar una pronunciación de la palabra.
El procesador de texto 12 se acopla además al
módulo de prosodia 18 que tiene asociada la base de datos de
plantillas de prosodia 20. Las plantillas de prosodia almacenan
datos de entonación (F0) y de duración para cada uno de los
diferentes patrones de acentuación. El patrón acentual de una sola
palabra "1" constituye una primera plantilla, el patrón de
palabras bisílabas "10" constituye una segunda plantilla, el
patrón "01" constituye otra plantilla, y así sucesivamente. Las
plantillas se almacenan en la base de datos mediante el agrupamiento
de características tales como patrón de acentuación de la palabra y
posición en la oración. En la presente realización, el patrón de
acentuación asociado con una palabra dada sirve como clave de acceso
a la base de datos con la cual el módulo de prosodia 18 de recuperar
la información asociada de entonación y duración. El módulo de
prosodia 18 determina el patrón acentual asociado con una palabra
dada por medio de la información que le ha suministrado el
procesador de texto 12. El procesador de texto 12 obtiene esta
información mediante el diccionario de palabras 14.
Tanto el procesador de texto 12 como el módulo de
prosodia 18, suministran información al módulo de generación de
sonido 24. Concretamente, el procesador de texto 12 suministra
información fonémica obtenida en el diccionario de palabras 14 y el
módulo de prosodia 18 suministra la información prosódica (por
ejemplo, sobre entonación y duración). El módulo de generación de
sonido genera entonces habla sintetizada basándose en la información
fonémica y prosódica.
La presente invención aborda el problema de la
prosodia mediante el uso de plantillas de duración y F0 vinculadas a
características de agrupamiento tales como los patrones de
acentuación de sílabas propios de las palabras habladas. Más
concretamente, la invención proporciona un método de extraer y
almacenar información de duración de habla grabada. Esta información
de duración almacenada se captura dentro de una base de datos y se
organiza de acuerdo con características de agrupamiento tales como
patrones de acentuación de las sílabas.
La realización actualmente preferida codifica la
información prosódica en un formato estandarizado en el que la
información prosódica es normalizada y parameerizada para
simplificar su almacenamiento y su recuperación en la base de datos
20. El módulo de prosodia 18 denormaliza y convierte las plantillas
estandarizadas a un formato que se puede aplicar a la información
fonémica suministrada por el procesador de texto 12. Este proceso se
describirá con más detalle más adelante. Sin embargo, primero, se
describirán detalladamente las plantillas de duración y su
elaboración.
En la figura 2 se ilustra un aparato para generar
plantillas de duración adecuadas. Para descomponer correctamente en
factores cantidades puramente de tiempos de segmentos a partir de
los efectos prosódicos a mayor escala, se ha ideado un esquema para
capturar primero las características naturales de duración
segmental. En la realización actualmente preferida las plantillas de
duración se construyen utilizando oraciones que tienen nombres
propios en diversas posiciones de la oración. La implementación
actualmente preferida se construyó utilizando aproximadamente 2.000
grabaciones etiquetadas (palabras individuales) emitidas por una
hablante femenina de inglés americano. Las oraciones se pueden
suministrar también como una colección de oraciones pregrabadas o en
un marco fabricado. Las palabras se introducen como texto de muestra
34 que se segmenta en fonemas antes de agruparlas en sílabas
constitutivas y de asignarlas características de agrupamiento
asociadas tales como patrón de acentuación de las sílabas. Aunque en
la realización actualmente preferida el texto de muestra se
introduce como palabras grabadas, está dentro del alcance de la
invención la introducción de texto de muestra 34 como oraciones no
grabadas y asignar características de agrupamiento de frases y
oraciones además de características de agrupamiento a las sílabas
segmentadas subsiguientemente. Las sílabas y la información
relacionada se almacenan en una base de datos de palabras 30 para su
posterior manipulación en la creación de una tabla estática global
32 y plantillas de duración 36. Las estadísticas globales de
duración estática tales como media, desviación estándar, duración
mínima, duración máxima y covariancia que se derivan de la
información de la base de datos de palabras 30 se almacenan en la
tabla estática global 32. Se construyen plantillas de duración a
partir de estadísticas de duración de sílabas que se normalizan
respecto a las estadísticas de duración estáticas almacenadas en la
tabla estática global 32. Las estadísticas de duración normalizada
para sílabas se almacenan en plantillas de duración 36 que están
organizadas de acuerdo con características de agrupamiento. A
continuación hay más detalles sobre la construcción de la tabla
estática global 32, plantillas de duración 36 y el proceso de
segmentación de sílabas en fonemas.
En la figura 3, en adición a la figura 2, se
ilustra la recogida de datos temporales. En el paso 50, se introduce
el texto de muestra 34 para proporcionar datos de duración. El texto
de muestra 34 se preprocesa inicialmente por medio de un módulo de
procesador fonético 38 que en el paso 52 utiliza una herramienta de
etiquetado automático basado en HMM y una herramienta de
transformación en sílabas automática para segmentar palabras en
fonemas de entrada y agrupar los fonemas de entrada en sílabas
respectivamente. El etiquetado automático va seguido por una
corrección manual para cada cadena. Luego, en el paso 54, el patrón
de acentuación para las palabras objetivo se asigna de oído usando
tres niveles de acentuación distintos. Se designan mediante los
números 0, 1 y 2. Los niveles de acentuación son los siguientes:
\newpage
0 sin acentuación |
1 acentuación primaria |
2 acentuación secundaria |
Según la realización preferida, se considera que
las palabras monosilábicas tienen un patrón acentual sencillo que
corresponde al nivel de acentuación primaria "1". Las palabras
con más de una sílaba pueden tener diferentes combinaciones de
patrones de nivel de acentuación. Por ejemplo, las palabras
bisílabas pueden tener los patrones de acentuación "10",
"01" y "12". La realización actualmente preferida emplea
una plantilla de duración para cada combinación diferente de
patrones de acentuación. Así, el patrón de acentuación "1"
tiene una primera plantilla de duración, el patrón de acentuación
"10" tiene una plantilla diferente, y así sucesivamente. Al
marcar el límite de la sílaba, se obtienen medidas estadísticas de
duración mejoradas cuando el límite se marca de acuerdo con
criterios perceptivos en lugar de criterios espectrales. Cada sílaba
se escucha individualmente y el marcador se sitúa donde no se
percibe ningún "residuo" rítmico en ninguno de los lados.
Aunque en la implementación actualmente preferida
se utiliza una asignación de acentuación de tres niveles, está
dentro del ámbito de la invención aumentar o disminuir el número de
niveles. La subdivisión de palabras en sílabas y fonemas y la
asignación de niveles de acentuación se puede hacer manualmente o
con la ayuda de un rastreador automático o semiautomático. A este
respecto, el preprocesamiento del habla de entrenamiento es una
tarea que requiere bastante tiempo, si bien solamente hay que
llevarla a cabo una vez durante el desarrollo de las plantillas de
prosodia. Se requiere gran precisión en el etiquetado y en la
asignación de acentuaciones a los datos para asegurar la exactitud y
reducir el nivel de ruido en el posterior análisis estadístico.
Después de haber etiquetado las palabras y haber
asignado acentuaciones, se pueden agrupar de acuerdo con el patrón
de acentuación u otras características de agrupamiento tales como
representación fonética, límite sintáctico, posición en la oración,
tipo de oración, posición en la frase y categoría gramatical. En la
realización actualmente preferida las palabras se agrupan por patrón
de acentuación. Como se ilustra en el paso 56, las palabras
monosílabas constituyen un primer grupo. Las palabras bisílabas
constituyen cuatro grupos más: los grupos "10", "01",
"12" y "21". Las palabras trisílabas, de cuatro sílabas,
etc., hasta las palabras de n sílabas se pueden agrupar de manera
similar según patrones de acentuación. En el paso 58 se pueden
asignar además a las palabras otras características de agrupamiento.
En el paso 60, los datos procesados se almacenan en una base de
datos de palabras 30 organizados por características de
agrupamiento, palabras, sílabas y otros criterios pertinentes. La
base de datos de palabras proporciona una recogida centralizada de
información prosódica que está disponible para manipulación y
extracción de datos en la construcción de la tabla estática global y
plantillas de duración.
En las figuras 2 y 4 se ilustra la generación de
la tabla estática global 32. La tabla estática global 32 proporciona
una base de datos global de datos de duración estática de fonemas
para utilizarlos en la normalización de la información de duración
de fonemas para construir las plantillas de duración. El cuerpo
segmentado completo está contenido dentro de la tabla estática
global 32. En el paso 62 la información de duración relacionada con
una sílaba se recupera de la base de datos de palabras 30. En el
paso 64, se accede al módulo de agrupamiento de fonemas 42 para
agrupar esos fonemas en pares de fonemas y fonemas individuales.
En las figuras 2 y 5, se ilustra el módulo de
agrupamiento de fonemas. El módulo de agrupamiento de fonemas 42
selecciona los fonemas que se tienen que agrupar por pares sobre la
base de un criterio de solapamiento de segmentos o, dicho de otra
manera, la dificultad de segmentar manualmente la sílaba en
cuestión. En el paso 68, se explora de izquierda a derecha la cadena
de sílabas para determinar si contiene una combinación señalada como
objetivo. En la presente realización, ejemplos de combinaciones
señaladas como objetivo incluyen lo siguiente
- a)
- "L" o "R" o "Y" o "W" seguidas por una vocal,
- b)
- Una vocal seguida por "L" o "R" o "N" o "M" o "NG",
- c)
- Una vocal y "R" seguidas por "L",
- d)
- Una vocal y "L" seguidas por "R",
- e)
- "L" seguida por "M" o "N", y
- f)
- Dos vocales consecutivas.
En el paso 70, se eliminan de la cadena las
combinaciones señaladas como objetivo y en el paso 72 se calculan
los datos de duración para el par de fonemas correspondiente a la
combinación señalada como objetivo mediante la recuperación de datos
de la base de datos de palabras 30. Los datos de duración para el
par de fonemas se almacenan en la tabla estática global 32, ya sea
como una nueva entrada o bien acumulados en una entrada existente
para ese par de fonemas. Aunque en la realización preferida se
registran la media, desviación estándar, duración máxima y mínima y
covariancia para el par de fonemas, también están dentro del ámbito
de la invención otras medidas estadísticas. El resto de la cadena de
sílabas se explora para localizar otras combinaciones señaladas como
objetivo que también se eliminan y los datos de duración para el par
se calculan e introducen en la tabla estática global 32. Una vez
eliminados todos los pares de fonemas de la cadena de sílabas sólo
quedan fonemas individuales. En el paso 74, se recuperan los datos
de duración para los fonemas individuales de la base de datos de
palabras 30 y se almacenan en la tabla estática global 32.
En el paso 76, la cadena de sílabas se explora
entonces de derecha a izquierda para determinar si la cadena
contiene una de las combinaciones señaladas como objetivo indicadas
anteriormente. Los pasos 78, 80 y 82 repiten entonces la operación
de los pasos 70 a 74 para explorar pares de fonemas y fonemas
individuales e introducir los datos de duración calculados en la
tabla estática global 32. Aunque la exploración de izquierda a
derecha además de la exploración de derecha a izquierda produce
cierto solapamiento, y por lo tanto una posible asimetría, la
precisión estadística aumentada para cada entrada individual
compensa sobradamente esta fuente potencial de error. Después del
paso 82, el control vuelve al módulo de generación de la tabla
estática global que continúa funcionando hasta que se han segmentado
todas las sílabas de cada palabra. En la implementación actualmente
preferida, se calcula la media de todos los datos para un par de
fonemas o un fonema individual dados, independientemente de la
característica de agrupamiento y esta media se usa para poblar la
tabla estática global 32. Aunque el cálculo de medias aritméticas de
los datos da buenos resultados, también puede emplearse si se desea
otro procesamiento estadís-
tico.
tico.
En las figuras 2 y 6 se ilustra el procedimiento
para construir una plantilla de duración. Obtener patrones
prosódicos temporales detallados es algo más complicado que obtener
los contornos de F0. Esto se debe en gran medida al hecho de que un
objetivo prosódico de alto nivel no se puede separar de las
restricciones puramente articulatorias, meramente por medio del
examen de datos segmentados individuales. En el paso 84, se recupera
una sílaba con sus características de grupo asociadas de la base de
datos de palabras 30. En el paso 86, se accede al módulo de
agrupamiento de fonemas 42 para segmentar la sílaba en pares de
fonemas y fonemas individuales. Los detalles del funcionamiento del
módulo de agrupamiento de fonemas son iguales que los que se han
descrito anteriormente. En el paso 88, el módulo de normalización 44
recupera la duración media para estos fonemas de la tabla estática
global 32 y las suma todas para obtener la duración media para cada
sílaba. En el paso 90, se calcula entonces el valor normalizado para
una sílaba como el ratio de duración real de la sílaba dividida por
la duración media para esa sílaba.
t_{i}=\frac{s_{i}}{\sum\limits^{m}_{j=t}x_{j}}
t_{j} = valor normalizado para la
sílaba
j
x_{j} = duración media del par de fonemas
j
m = número de pares de fonemas en la sílaba
i
s_{i} = duración medida real de la sílaba
i
El valor de la duración normalizada para sílaba
se registra en una plantilla de duración asociada en el paso 92.
Cada plantilla de duración comprende los datos de duración
normalizada para las sílabas que tienen una característica de
agrupamiento específica, tal como el patrón de acentuación.
Con la construcción de la plantilla de duración
en la mente, se explicará ahora con mayor detalle la síntesis de la
prosodia del patrón temporal haciendo referencia a las figuras 1 y
6. La información de duración extraída del habla humana se almacena
en plantillas de duración en un formato normalizado basado en
sílabas. Por lo tanto, con objeto de utilizar las plantillas de
duración, el módulo de generación de sonido tiene que denormalizar
primero la información como se ilustra en la figura 6. Comenzando en
el paso 104 se recibe una palabra objetivo y un identificador de
oración marco. En el paso 106, la palabra objetivo que se tiene que
sintetizar se examina en el diccionario de palabras 14, donde se
almacenan los datos pertinentes basados en palabras. Los datos
incluyen características tales como representación fonémica,
asignaciones de acentuación y límites de sílabas. Luego, en el paso
108, el procesador de textos 12 analiza la palabra objetivo y la
desglosa en sílabas para la posible extracción de fonemas. En el
paso 110, se accede al módulo de agrupamiento de fonemas con objeto
de agrupar los fonemas en pares de fonemas y fonemas individuales.
En el paso 112, se obtienen duraciones de fonemas medias para la
sílaba a partir de la tabla estática global 32 y se suman todas
ellas. Los valores determinados globalmente corresponden a los
valores de duración media observados en todo el corpus de
entrenamiento. En el paso 114, se obtiene el valor de la plantilla
de duración para el patrón de acentuación correspondiente y en el
paso 116 ese valor de la plantilla se multiplica por los valores
medios para obtener las duraciones de sílabas previstas. En este
punto, los datos de las plantillas transformados están preparados
para ser usados por el módulo de generación de sonido. Naturalmente,
los pasos de la denormalización pueden ser llevados a cabo por
cualquiera de los módulos que manejan la información prosódica. Así,
los pasos de la denormalización que se ilustran en la Figura 6
pueden ser llevados a cabo por el módulo de generación de sonido 24
o por el módulo de prosodia 18.
Teniendo en cuenta lo anterior, es fácil de
entender que la presente invención proporciona un aparato y un
método para construir plantillas temporales para utilizarlas para
habla sintetizada, en el cual la información de patrones de duración
que normalmente falta se aporta desde las plantillas elaboradas a
partir de datos extraídos del habla humana. Cómo se ha demostrado,
esta información temporal se puede extraer del habla humana y
almacenar dentro de una base de datos de plantillas de duración,
organizada mediante el agrupamiento de características tales como
patrón de acentuación. Los datos temporales almacenados en las
plantillas se pueden aplicar a la información fonémica mediante un
procedimiento de búsqueda basado en patrones de acentuación
asociados con el texto de palabras de entrada.
La invención se puede aplicar a una amplia
variedad de diferentes aplicaciones de conversión
texto-habla y de síntesis de habla, incluidas las
aplicaciones de gran dominio como las de lectura de libros de texto,
y las aplicaciones de dominios más limitados, como las aplicaciones
de navegadores de coche o de traducción de libros de frases. En el
caso del dominio limitado, se puede designar al principio un pequeño
conjunto de oraciones modelo fijas, y sustituirse una palabra
objetivo en esa frase por una palabra arbitraria (como un nombre
propio o el nombre de una calle). En este caso, el tono y el tiempo
de las oraciones modelo se puede medir y almacenar desde el habla
real, asegurando así una prosodia muy natural para la mayor parte de
la oración. La palabra destino es entonces la única en la que hay
que controlar el tono y el tiempo usando las plantillas de prosodia
de la invención.
Claims (15)
1. Un sistema de generación de plantillas para la
generación de una plantilla de duración a partir de una pluralidad
de palabras de entrada, que se caracteriza por
comprender:
- un procesador fonético (40) que permite segmentar cada una de dichas palabras de entrada en fonemas de entrada y agrupar dichos fonemas de entrada en sílabas constitutivas, cada una de las cuales tiene una duración de sílaba asociada;
- un módulo de agrupamiento de texto (38) que permite identificar características de agrupamiento asociadas con cada una de las sílabas constitutivas, seleccionándose dichas características de agrupamiento del grupo que comprende:
- patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical,
- un módulo de agrupamiento de fonemas (42) que permite determinar un valor de la duración media para cada fonema de entrada basado en cada caso del fonema de entrada en la pluralidad de palabras de entrada y almacenar el valor de la duración media en una tabla estática global (32);
- un módulo de normalización (44) que se puede activar para generar un valor de duración normalizada para cada una de dichas sílabas constitutivas, en el cual dicho valor de duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración media es de los fonemas de entrada que constituyen la sílaba constitutiva;
- el módulo de normalización permite además agrupar sílabas constitutivas de acuerdo con la característica de agrupamiento y construir una plantilla de duración (36) basada en los valores de duración normalizada para las sílabas constitutivas que tienen una característica de agrupamiento dada.
2. El sistema de generación de plantillas de la
reivindicación 1, en el cual el módulo de agrupamiento de texto (38)
permite asignar un nivel de acentuación a cada una de las sílabas
constitutivas, en el cual el nivel de acentuación define la
característica de agrupamiento para la sílaba constitutiva.
3. El sistema de generación de plantillas de la
reivindicación 1, que comprende además una base de datos de palabras
(30) que se puede activar para almacenar las palabras de entrada con
características de agrupamiento de palabras y oraciones
asociadas.
4. El sistema de generación de plantillas de la
reivindicación 3, en el cual las características de agrupamiento de
palabras asociadas se seleccionan del grupo de: representación
fonémica, límites de sílabas de palabras, asignación de acentuación
de sílabas y la duración de cada sílaba constitutiva.
5. El sistema de generación de plantillas de la
reivindicación 3, en el cual las características de agrupamiento de
oraciones asociadas se seleccionan del grupo de: posición en la
oración, tipo de oración, posición en la frase, límite sintáctico y
categoría gramatical.
6. El sistema de generación de plantillas de la
reivindicación 1 que comprende además un módulo de agrupamiento de
fonemas (42) que permite agrupar fonemas de entrada de una sílaba
constitutiva, en el cual dicho módulo incluye criterios de
combinación señalados como objetivo para determinar qué fonemas de
entrada se tienen que agrupar en un par de fonemas, en el cual cada
uno de los pares de fonemas de entrada cumple los criterios de
combinación señalados como objetivo.
7. El sistema de generación de plantillas de la
reivindicación 6, en el cual los criterios de combinación señalados
como objetivo se seleccionan del grupo de:
- a)
- "L" o "R" o "Y" o "W" seguidas por una vocal,
- b)
- una vocal seguida por "L" o "R" o "N" o "M" o "NG",
- c)
- una vocal y "R" seguidas por "L",
- d)
- una vocal y "L" seguidas por "R",
- e)
- "L" seguida por "M" o "N", y
- f)
- dos vocales consecutivas
\newpage
8. Un método de generar una plantilla de duración
a partir de una pluralidad de palabras de entrada, que comprende los
pasos de:
- segmentar cada una de dichas palabras de entrada en fonemas de entrada
caracterizados por:
- agrupar (56) los fonemas de entrada en sílabas constitutivas que tienen una duración de sílaba asociada;
- asignar una característica de agrupamiento (58) a cada una de las sílabas constitutivas, la cual se selecciona del grupo que comprende:
- patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical,
- determinar datos de duración representativos para cada fonema de entrada sobre la base de cada caso del fonema de entrada en la pluralidad de palabras de entrada;
- generar un valor de duración normalizada para cada sílaba constitutiva, para lo cual dicha duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración media de los fonemas de entrada que constituyen la sílaba constitutiva;
- agrupar (56) sílabas constitutivas de acuerdo con la característica de agrupamiento; y
- formar (84 - 102) una plantilla de duración para sílabas constitutivas que tienen una característica de agrupamiento dada, donde la plantilla de duración se obtiene de los valores de duración normalizada para las sílabas constitutivas que tienen la característica de agrupamiento dada.
9. El método de la reivindicación 8 que además
comprende el paso de:
- asignar (58) una característica de agrupamiento a cada una de dichas sílabas constitutivas; y
- especificar cada una de dichas plantillas de duración por característica de agrupamiento, de tal manera que el valor de duración normalizada para cada sílaba constitutiva que tenga una característica de agrupamiento especifica esté contenida en la plantilla de duración asociada.
10. El método de la reivindicación 8 que además
comprende el paso de:
- asignar características de agrupamiento (58) a las sílabas constitutivas; y
- almacenar (60) las palabras de entrada y sílabas constitutivas con características de agrupamiento asociadas en una base de datos de palabras.
11. El método de la reivindicación 8, en el cual
el paso de agrupar los fonemas de entrada en pares de fonemas de
entrada y fonemas individuales de entrada comprende además los pasos
de:
- buscar (68) la sílaba constitutiva de izquierda a derecha;
- seleccionar (70) los fonemas de entrada en la sílaba constitutiva que sean iguales a una combinación señalada como objetivo; y
- agrupar los fonemas de entrada seleccionados en un par de fonemas de entrada.
12. El método de la reivindicación 11 que además
comprende los pasos de:
- buscar (78) la sílaba constitutiva de derecha a izquierda;
- seleccionar los fonemas de entrada en la sílaba constitutiva que sean iguales a la combinación señalada como objetivo; y
- agrupar los fonemas de entrada seleccionados en un par de fonemas de entrada.
13. Un método de denormalizar datos de duración
contenidos en una plantilla de duración, caracterizado por
comprender los pasos de:
- proporcionar palabras objetivo para sintetizar mediante un sistema de texto-habla;
- segmentar (52) cada una de dichas palabras de entrada en fonemas de entrada;
- agrupar (56) los fonemas de entrada en sílabas constitutivas que tienen una duración de sílaba asociada;
- agrupar (68 - 82) los fonemas de entrada en pares de fonemas de entrada y fonemas individuales de entrada;
- recuperar información de duración estática (62) asociada con fonemas almacenados en una tabla estática global (30), en la cual los fonemas almacenados corresponden a los fonemas de entrada que constituyen cada una de las sílabas constitutivas;
- recuperar un valor de duración normalizada para cada una de las sílabas constitutivas de una plantilla de duración asociada (36); y
- generar una duración de sílaba denormalizada multiplicando el valor de duración normalizada para cada sílaba constitutiva por la suma de los valores de la duración media de los fonemas almacenados correspondientes a los fonemas de entrada que constituyen la sílaba constitutiva.
14. El método de la reivindicación 13 que además
comprende el paso de:
- enviar la duración de la sílaba denormalizada a un módulo de prosodia (18) para que el habla sintetizada que se transmita tenga una prosodia de sonido natural.
15. El método de la reivindicación 13 que además
comprende el paso de:
- recuperar características de agrupamiento asociadas con la palabra objetivo de un diccionario de palabras (14).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/268,229 US6185533B1 (en) | 1999-03-15 | 1999-03-15 | Generation and synthesis of prosody templates |
US268229 | 1999-03-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2243200T3 true ES2243200T3 (es) | 2005-12-01 |
Family
ID=23022044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00301820T Expired - Lifetime ES2243200T3 (es) | 1999-03-15 | 2000-03-06 | Generacion y sintesis de plantillas de prosodia. |
Country Status (4)
Country | Link |
---|---|
US (1) | US6185533B1 (es) |
EP (1) | EP1037195B1 (es) |
DE (1) | DE60020434T2 (es) |
ES (1) | ES2243200T3 (es) |
Families Citing this family (149)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3361066B2 (ja) * | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
JP2000305582A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US6496801B1 (en) * | 1999-11-02 | 2002-12-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
US7263488B2 (en) * | 2000-12-04 | 2007-08-28 | Microsoft Corporation | Method and apparatus for identifying prosodic word boundaries |
US6845358B2 (en) * | 2001-01-05 | 2005-01-18 | Matsushita Electric Industrial Co., Ltd. | Prosody template matching for text-to-speech systems |
US6513008B2 (en) * | 2001-03-15 | 2003-01-28 | Matsushita Electric Industrial Co., Ltd. | Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates |
US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
US20030101045A1 (en) * | 2001-11-29 | 2003-05-29 | Peter Moffatt | Method and apparatus for playing recordings of spoken alphanumeric characters |
US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
CN1259631C (zh) * | 2002-07-25 | 2006-06-14 | 摩托罗拉公司 | 使用韵律控制的中文文本至语音拼接合成系统及方法 |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
KR100463655B1 (ko) * | 2002-11-15 | 2004-12-29 | 삼성전자주식회사 | 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 |
US7308407B2 (en) * | 2003-03-03 | 2007-12-11 | International Business Machines Corporation | Method and system for generating natural sounding concatenative synthetic speech |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
DE04735990T1 (de) * | 2003-06-05 | 2006-10-05 | Kabushiki Kaisha Kenwood, Hachiouji | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm |
US8103505B1 (en) * | 2003-11-19 | 2012-01-24 | Apple Inc. | Method and apparatus for speech synthesis using paralinguistic variation |
TWI281145B (en) * | 2004-12-10 | 2007-05-11 | Delta Electronics Inc | System and method for transforming text to speech |
US20080249776A1 (en) * | 2005-03-07 | 2008-10-09 | Linguatec Sprachtechnologien Gmbh | Methods and Arrangements for Enhancing Machine Processable Text Information |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8036894B2 (en) * | 2006-02-16 | 2011-10-11 | Apple Inc. | Multi-unit approach to text-to-speech synthesis |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8027837B2 (en) * | 2006-09-15 | 2011-09-27 | Apple Inc. | Using non-speech sounds during text-to-speech synthesis |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8401856B2 (en) | 2010-05-17 | 2013-03-19 | Avaya Inc. | Automatic normalization of spoken syllable duration |
US8731931B2 (en) * | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9087519B2 (en) * | 2011-03-25 | 2015-07-21 | Educational Testing Service | Computer-implemented systems and methods for evaluating prosodic features of speech |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10937438B2 (en) * | 2018-03-29 | 2021-03-02 | Ford Global Technologies, Llc | Neural network generative modeling to transform speech utterances and augment training data |
US10741169B1 (en) * | 2018-09-25 | 2020-08-11 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing |
CN110264993B (zh) * | 2019-06-27 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN113129864B (zh) * | 2019-12-31 | 2024-05-31 | 科大讯飞股份有限公司 | 语音特征预测方法、装置、设备及可读存储介质 |
CN111833842B (zh) * | 2020-06-30 | 2023-11-03 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
US20220262340A1 (en) * | 2021-02-02 | 2022-08-18 | Universite Claude Bernard Lyon 1 | Method and device for assisting reading and learning by focusing attention |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5278943A (en) * | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
EP0481107B1 (en) * | 1990-10-16 | 1995-09-06 | International Business Machines Corporation | A phonetic Hidden Markov Model speech synthesizer |
US5384893A (en) | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5636325A (en) | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
US5796916A (en) | 1993-01-21 | 1998-08-18 | Apple Computer, Inc. | Method and apparatus for prosody for synthetic speech prosody determination |
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5642520A (en) | 1993-12-07 | 1997-06-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for recognizing topic structure of language data |
JP3085631B2 (ja) * | 1994-10-19 | 2000-09-11 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
US5592585A (en) | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
US5696879A (en) | 1995-05-31 | 1997-12-09 | International Business Machines Corporation | Method and apparatus for improved voice transmission |
US5704009A (en) | 1995-06-30 | 1997-12-30 | International Business Machines Corporation | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
US5729694A (en) | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
US6029131A (en) * | 1996-06-28 | 2000-02-22 | Digital Equipment Corporation | Post processing timing of rhythm in synthetic speech |
US5905972A (en) * | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US6260016B1 (en) * | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
-
1999
- 1999-03-15 US US09/268,229 patent/US6185533B1/en not_active Expired - Lifetime
-
2000
- 2000-03-06 DE DE60020434T patent/DE60020434T2/de not_active Expired - Fee Related
- 2000-03-06 ES ES00301820T patent/ES2243200T3/es not_active Expired - Lifetime
- 2000-03-06 EP EP00301820A patent/EP1037195B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE60020434T2 (de) | 2006-05-04 |
EP1037195B1 (en) | 2005-06-01 |
DE60020434D1 (de) | 2005-07-07 |
EP1037195A2 (en) | 2000-09-20 |
US6185533B1 (en) | 2001-02-06 |
EP1037195A3 (en) | 2001-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2243200T3 (es) | Generacion y sintesis de plantillas de prosodia. | |
ES2218959T3 (es) | Sintesis de habla utilizando pastillas prosodicas. | |
ES2261355T3 (es) | Correspondencia de plantillas prosodicas para sistemas de conversion de texto en habla. | |
EP0833304B1 (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
CN101156196A (zh) | 混合语音合成器、方法和使用 | |
WO2009026270A2 (en) | Hmm-based bilingual (mandarin-english) tts techniques | |
WO2017082717A2 (en) | Method and system for text to speech synthesis | |
Hwang et al. | A Mandarin text-to-speech system | |
Filipsson et al. | LUKAS-a preliminary report on a new Swedish speech synthesis | |
Chen et al. | A Mandarin Text-to-Speech System | |
Iyanda et al. | Development of a Yorúbà Textto-Speech System Using Festival | |
Lobanov et al. | TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian) | |
Kleczar | General purpose methodology and tooling for Text-to-Speech support in voice services for under-resourced languages | |
Ng | Survey of data-driven approaches to Speech Synthesis | |
Roy | A technical guide to concatenative speech synthesis for hindi using festival | |
Narupiyakul et al. | A stochastic knowledge-based Thai text-to-speech system | |
Suh et al. | Toshiba English text-to-speech synthesizer (TESS) | |
Afolabi et al. | Implementation of Yoruba text-to-speech E-learning system | |
Narvani et al. | Study of Text-to-Speech (TTS) Conversion for Indic Languages | |
IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
Alabbad | An Investigation into Approaches to Text-to-Speech Synthesis for Modern Standard Arabic | |
Singh | Text to Speech (On Device) | |
Baloyi | A text-to-speech synthesis system for Xitsonga using hidden Markov models | |
Cole et al. | A platform for multilingual research in spoken dialogue systems | |
STAN | TEZA DE DOCTORAT |