ES2218959T3 - Sintesis de habla utilizando pastillas prosodicas. - Google Patents
Sintesis de habla utilizando pastillas prosodicas.Info
- Publication number
- ES2218959T3 ES2218959T3 ES99309292T ES99309292T ES2218959T3 ES 2218959 T3 ES2218959 T3 ES 2218959T3 ES 99309292 T ES99309292 T ES 99309292T ES 99309292 T ES99309292 T ES 99309292T ES 2218959 T3 ES2218959 T3 ES 2218959T3
- Authority
- ES
- Spain
- Prior art keywords
- intonation
- data
- duration
- template
- prosody
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 9
- 238000003786 synthesis reaction Methods 0.000 title description 8
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000001944 accentuation Effects 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims abstract 3
- 238000012417 linear regression Methods 0.000 claims 2
- 238000012952 Resampling Methods 0.000 claims 1
- 238000010606 normalization Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000006187 pill Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- WJCNZQLZVWNLKY-UHFFFAOYSA-N thiabendazole Chemical compound S1C=NC(C=2NC3=CC=CC=C3N=2)=C1 WJCNZQLZVWNLKY-UHFFFAOYSA-N 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Un método para entrenar una plantilla de prosodia usando habla humana, que comprende: segmentación de las palabras de una oración (32) de habla humana en fonemas asociados con las sílabas de dichas palabras; asignación de niveles de acentuación (36) a dichas sílabas; agrupamiento de dichas palabras (40) de acuerdo con los dichos niveles de acentuación formando de este modo por lo menos un grupo de patrones acentuales; normalización de los datos de entonación (42) para cada palabra de un grupo dado de patrones acentuales con respecto al tiempo, formando de este modo datos de entonación normalizados; ajuste del cambio de tono (46) de dichos datos de entonación normalizados, formando así datos de entonación ajustados; y cálculo de un valor medio de los datos de entonación ajustados y almacenamiento del valor medio en una base de datos prosódica (50) en forma de plantilla.
Description
Síntesis de habla utilizando pastillas
prosódicas.
La presente invención está relacionada en general
con los sistemas de conversión texto-habla y de
síntesis de habla. Más en particular, la invención está relacionada
con un sistema destinado a proporcionar una prosodia que suene más
natural mediante el uso de plantillas de prosodia.
A lo largo de la historia de estas tecnologías,
la tarea de generar una prosodia natural similar a la del habla
humana para los sistemas de conversión texto-habla
y de síntesis de habla ha sido uno de los problemas más difíciles de
resolver al que se han tenido que enfrentar los investigadores y
los programadores. Los sistemas texto-habla en
general se han ganado su mala fama debido a su entonación
"robótica". Para resolver este problema, algunos sistemas
anteriores han usado redes neurales y algoritmos de agrupamiento
vectorial para intentar simular la prosodia de sonido natural.
Además de haber tenido un éxito muy limitado, estas técnicas
informáticas de "caja negra" no proporcionan al programador
ninguna información sobre cuales son los parámetros cruciales de la
prosodia de sonido natural.
La presente invención, tal como se reivindica en
la reivindicación 1, utiliza un planteamiento diferente, en el que
se utilizan muestras de habla humana para crear plantillas de
prosodia. Las plantillas definen una relación entre los patrones
acentuales de las sílabas y ciertas variables prosódicas como la
entonación (F0) y la duración. Así, a diferencia de los
planteamientos algorítmicos anteriores, la invención utiliza los
atributos lexicológicos y acústicos del habla natural (por ejemplo,
patrón acentual, número de sílabas, entonación, duración) que el
investigador y el programador pueden observar y entender
directamente.
En el documento EP 083330482 se describe el uso
de una base de datos de prosodia que contiene plantillas de
frecuencias fundamentales para el uso en la síntesis de habla. Se
usa una base de datos de prosodia para contener una secuencia de
frecuencias fundamentales ponderadas para las sílabas de una
oración.
La realización actualmente preferida almacena las
plantillas de prosodia en una base de datos a la que se accede
especificando el número de sílabas y el patrón acentual asociado
con una palabra determinada. Se incluye un diccionario de palabras
para dotar al sistema con la información necesaria relativa a número
de sílabas y patrones acentuales. Usando el diccionario de
palabras, el procesador de texto identifica el patrón acentual de
las palabras introducidas y genera sus representaciones fonémicas.
Luego, un módulo de prosodia accede a las plantillas de la base de
datos, usando para ello la información de número de sílabas y de
patrón acentual. El sistema obtiene en la base de datos un módulo de
prosodia para la palabra dada y lo usa para proporcionar
información prosódica al módulo de generación de sonido que
sintetiza el habla a partir de la representación fonémica y de la
información prosódica.
La realización actualmente preferida se centra en
el habla a nivel de palabra. Las palabras se dividen en sílabas y
así representan la unidad básica de la prosodia. El sistema
presupone que el patrón acentual definido por las sílabas determina
las características perceptivas más importantes tanto de la
entonación (F0) como de la duración. A este nivel de granularidad,
el conjunto de plantillas es bastante pequeño y fácil de
implementar en los sistemas de conversión
texto-habla y de síntesis de habla. Si bien
actualmente se prefiere un análisis prosódico a nivel de palabra que
use sílabas, las técnicas de plantillas de prosodia de la invención
se pueden usar en sistemas con otros niveles de granularidad. Por
ejemplo, el conjunto de plantillas se puede ampliar para que admita
más determinantes de características, tanto a nivel de sílaba como
de palabra. A este respecto, las perturbaciones F0 microscópicas
causadas por el tipo de consonante, la sonorización, el tono
intrínseco de las vocales y la estructura de segmentación de una
sílaba se pueden usar como atributos para clasificar determinados
patrones prosódicos. Además, las técnicas se pueden ampliar más
allá de los contornos F0 del nivel de palabra y de los patrones de
duración a los análisis a nivel de frase o a nivel de oración.
Para una mejor comprensión de la invención, sus
objetivos y sus ventajas, hay que referirse a la siguiente
especificación y los dibujos que la acompañan.
La Figura 1 es un diagrama de bloques de un
sintetizador de habla que emplea plantillas de prosodia de acuerdo
con la invención;
Las Figuras 2A y B son diagramas de bloques que
ilustran la manera en que se pueden desarrollar las plantillas de
prosodia;
La Figura 3 es un esquema de distribución de un
patrón acentual como ejemplo;
La Figura 4 es un gráfico del contorno medio F0
del patrón acentual de la Figura 3;
La Figura 5 es una serie de gráficos que ilustran
el contorno medio de unos datos de ejemplo de dos sílabas y de tres
sílabas.
La Figura 6 es un diagrama de flujo que ilustra
el procedimiento de denormalización empleado por la realización
preferida.
La Figura 7 es un diagrama de la base de datos en
el que se muestran las relaciones entre las entidades de la base de
datos de la realización preferida.
Cuando un hablante humano lee un texto, el tono
sube y baja, las sílabas son enunciadas con mayor o menor
intensidad, las vocales se alargan y se acortan y se insertan
pausas, todo lo cual confiere al pasaje hablado un ritmo definido.
Estas características constituyen algunos de los atributos a los que
los investigadores del habla dan el nombre de prosodia. Los
hablantes humanos añaden información prosódica de manera automática
cuando leen un pasaje de texto en voz alta. La información
prosódica expresa la interpretación que el lector hace del
material. Esta interpretación es un producto de la experiencia
humana, ya que el texto impreso contiene poca información prosódica
directa.
Cuando un sistema de síntesis de habla
implementado en un ordenador lee o recita un pasaje de texto, esta
prosodia de sonido humano está ausente en los sistemas
convencionales. Es muy simple, el propio texto prácticamente no
contiene información prosódica y por ello, el sintetizador de voz
convencional tiene poco en lo que basarse para generar la
información prosódica que falta. Como ya se ha indicado, los
intentos anteriores de añadir información prosódica se han centrado
en técnicas basadas en reglas y en técnicas de redes neurales, o en
técnicas algorítmicas, como las técnicas de agrupamiento vectorial.
El habla generada mediante técnicas basadas en reglas, simplemente
no suena natural, y las técnicas algorítmicas y de red neurales no
se pueden adaptar ni se pueden usar para extraer las conclusiones
necesarias para modificarlas ni para aplicarlas fuera del conjunto
de entrenamiento usado para generarlas.
La presente invención aborda el problema de la
prosodia mediante el uso de plantillas de prosodia vinculadas a los
patrones acentuales de sílabas propios de las palabras habladas.
Más concretamente, las plantillas de prosodia almacenan información
de entonación F0 e información de duración. Esta información
prosódica almacenada se organiza en una base de datos de acuerdo con
los patrones acentuales de las sílabas. La realización actualmente
preferida define tres niveles diferentes de acentuación. Se
designan mediante los números 0, 1 y 2. Los niveles de acentuación
son los siguientes:
0 sin acentuación
1 acentuación primaria
2 acentuación secundaria
Según la realización preferida, se considera que
las palabras monosilábicas tienen un patrón acentual sencillo que
corresponde al nivel de acentuación primaria "1". Las palabras
con más de una sílaba pueden tener diferentes combinaciones de
patrones de nivel de acentuación. Por ejemplo, las palabras
bisílabas pueden tener los patrones acentuales "10", "01"
y "12".
La realización actualmente preferida emplea una
plantilla de prosodia para cada combinación diferente de patrones
acentuales. Así, el patrón acentual "1" tiene una primera
plantilla de prosodia, el patrón acentual "10" tiene una
plantilla de prosodia diferente, y así sucesivamente. Cada
plantilla de prosodia contiene información prosódica como
información de entonación y de duración y, opcionalmente, también
otra información.
La Figura 1 ilustra un sintetizador de habla que
emplea la tecnología de plantillas de prosodia de la presente
invención. En el caso de la Figura 1, se suministra un texto de
entrada 10 al módulo procesador de texto 12 en forma de secuencia o
cadena de letras que define palabras. El procesador de texto 12
tiene diccionario de palabras asociado 14 que contiene información
acerca de las palabras almacenadas. En la realización preferida, el
diccionario de palabras tiene una estructura de datos que se
ilustra en 16 según la cual las palabras se almacenan junto con
cierta información de representación fonémica y cierta información
de patrones acentuales. Más concretamente, cada palabra del
diccionario va acompañada por su representación fonémica, por
información que identifica los límites de las sílabas y por
información que indica la manera en que la acentuación se asigna a
cada sílaba. Así, el diccionario de palabras 14 contiene, en un
formato electrónico que permite realizar búsquedas, la información
básica necesaria para generar una pronunciación de la palabra.
El procesador de texto 12 se acopla al módulo de
prosodia 18 que tiene asociada la base de datos de plantillas de
prosodia 20. En la realización actualmente preferida, las
plantillas de prosodia almacenan datos de entonación (F0) y de
duración para cada uno de una pluralidad de diferentes patrones
acentuales. El patrón acentual de una sola palabra "1"
constituye una primera plantilla, el patrón de palabras bisílabas
"10" constituye una segunda plantilla, el patrón "01"
constituye otra plantilla, y así sucesivamente. Las plantillas se
almacenan en la base de datos atendiendo al patrón acentual, como
se indica en forma de diagrama en la estructura de datos 22 en la
Figura 1. El patrón acentual asociado con una palabra dada sirve de
clave de acceso a la base de datos con la que el módulo de prosodia
18 recupera la información asociada de entonación y de duración. El
módulo de prosodia 18 determina el patrón acentual asociado con una
palabra dada por medio de la información que le ha suministrado el
procesador de texto 12. El procesador de texto 12 obtiene esta
información mediante el diccionario de palabras 14.
Mientras que las plantillas de prosodia
actualmente preferidas almacenan información de entonación y de
duración, la estructura de las plantillas se puede ampliar
fácilmente para que incluya otros atributos prosódicos.
Tanto el procesador de texto 12 como el módulo de
prosodia 18, suministran información al módulo de generación de
sonido 24. Concretamente, el procesador de texto 12 suministra
información fonémica obtenida en el diccionario de palabras 14 y el
módulo de prosodia 18 suministra la información prosódica (por
ejemplo, sobre entonación y duración). El módulo de generación de
sonido genera entonces habla sintetizada basándose en la
información fonémica y prosódica.
La realización actualmente preferida codifica la
información prosódica a un formato estandarizado en el que la
información prosódica es normalizada y parametrizada para
simplificar su almacenamiento y su recuperación en la base de datos
20. El módulo de generación de sonido 24 denormaliza y convierte las
plantillas estandarizadas a un formato que se puede aplicar a la
información fonémica suministrada por el procesador de texto 12.
Este proceso se describirá con más detalle más adelante. Sin
embargo, primero, se describirán detalladamente las plantillas de
prosodia y su elaboración.
En las Figuras 2A y 2B, se explica resumidamente
el procedimiento para generar plantillas de prosodia adecuadas. Las
plantillas de prosodia se construyen usando habla humana de
entrenamiento, que se puede pregrabar y suministrarse en forma de
colección de oraciones de habla de entrenamiento 30. Nuestra
realización actualmente preferida se construyó usando
aproximadamente 3.000 oraciones con nombres propios en la posición
inicial de la oración. La colección de habla de entrenamiento 30 se
recopiló de un solo hablante femenino de inglés americano. Por
supuesto, se pueden usar otras fuentes de habla de
entrenamiento.
Los datos del habla de entrenamiento inicialmente
se someten a un preproceso que incluye una serie de pasos. Primero,
se usa una herramienta de etiquetado 32 para segmentar las
oraciones en palabras y segmentar las palabras en sílabas y las
sílabas en fonemas que se almacenan en 34. A continuación, se
asignan acentuaciones a las sílabas como se ilustra en el paso 36.
En la realización actualmente preferida, se realizó una asignación
de acentuación de tres niveles en la que "0" representaba sin
acentuación, "1" representaba la acentuación primaria y
"2" representaba la acentuación secundaria, como se ilustra en
el diagrama 38. La división de palabras en sílabas y fonemas y la
asignación de niveles de acentuación se puede realizar manualmente o
con la ayuda de un rastreador automático o semiautomático que
realice la edición F0. A este respecto, el preprocesamiento del
habla de entrenamiento es una tarea que requiere bastante tiempo,
si bien solamente hay que llevarla a cabo una vez durante el
desarrollo de las plantillas de prosodia. Se requiere gran precisión
en el etiquetado y en la asignación de acentuaciones a los datos
para asegurar la exactitud y reducir el nivel de ruido en el
posterior análisis estadístico.
Después de haber etiquetado y asignado
acentuaciones a las palabras, se pueden agrupar según sus patrones
acentuales. Como se ilustra en 40, las palabras monosílabas
constituyen un primer grupo. Las palabras bisílabas constituyen
cuatro grupos, el grupo "10", el grupo "01", el grupo
"12" y el grupo "21". Las palabras trisílabas,
cuatrisílabas,... las palabras de n sílabas se agrupan de manera
similar según sus patrones acentuales.
A continuación, para cada grupo de patrones
acentuales, se normalizan los datos de tono fundamental o entonación
F0 con respecto al tiempo (eliminando así la dimensión temporal
específica de esa grabación) como se indica en el paso 42. Esto se
puede realizar de distintas maneras. La técnica actualmente
preferida, que se describe en 44 remuestrea los datos hasta un
número fijo de puntos F0. Por ejemplo, se pueden muestrear los
datos hasta incluir 30 muestras por sílaba.
A continuación, se llevan a cabo una serie de
pasos de procesamiento para eliminar las desviaciones constantes del
tono de base, como se indica en general en 46. El planteamiento
actualmente preferido implica la transformación de los puntos F0 de
la oración completa al dominio logarítmico como se indica en 48.
Una vez que los puntos se hayan transformado al dominio logarítmico,
se podrán agregar a la base de datos de plantillas como se ilustra
en 50. En la realización actualmente preferida, todos los datos del
dominio logarítmico de un grupo determinado se promedian y este
promedio se usa para rellenar la plantilla de prosodia. Así, todas
las palabras de un grupo dado (por ejemplo, todas las palabras
bisílabas del patrón "10") contribuyen al valor promedio único
usado para rellenar la plantilla de ese grupo. Si bien el uso de la
media aritmética de los datos da buenos resultados, si se desea
también se pueden emplear otros procesamientos estadísticos.
Para evaluar la robustez de la plantilla de
prosodia, se puede llevar a cabo un procesamiento adicional como se
ilustra en la Figura 2B que empieza en el paso 52. Los datos del
dominio logarítmico se usan para calcular una línea de regresión
lineal para toda la oración. Hay una intersección de la línea de
regresión con el límite del extremo de la palabra, como se indica en
el paso 54, y esta intersección se usa como punto de elevación para
la palabra destino. En el paso 56, el punto de elevación se
traslada a un punto de referencia común. La realización preferida
traslada los datos arriba o abajo a un punto de referencia común de
100 Hz nominales.
Como ya se ha mencionado, las técnicas de redes
neurales anteriores no daban al diseñador del sistema la oportunidad
de ajustar los parámetros de manera coherente, ni de descubrir
cuáles eran los factores que determinaban el resultado. La presente
invención permite al diseñador explorar los parámetros relevantes
mediante el análisis estadístico. Esto se ilustra a partir del paso
58. Si se desea, los datos se analizan estadísticamente en 58 por
comparación de cada muestra con la media aritmética para calcular
una medida de distancia, como la diferencia de áreas, como en 60.
Usamos una medida como la diferencia de áreas entre dos vectores tal
como se establece en la siguiente ecuación. Hemos descubierto que
esta medida suele ser bastante buena porque proporciona información
útil acerca de lo similares o diferentes que las muestras son entre
sí. Se pueden usar otras medidas de distancia, incluidas medidas
ponderadas que tengan en cuenta propiedades psicoacústicas del
sistema sensoneural.
d(Y_{i}) = c
\sqrt{\sum \limits ^{N}_{k=l} (y _{ik} - \overline{Y}_{k})^{2}
v_{ik}}
d = medida de la diferencia entre dos
vectores
i = índice del vector que se está comparando
Y_{i} = vector de contorno F0
\overline{Y} = vector de la media aritmética
del grupo
N = muestras en un vector
y = valor de la muestra
v_{i}= función de sonorización. 1 si la
sonorización está activada, 0 si no lo está.
c = factor de escala (opcional)
Para cada patrón se tabula esta medida de
distancia como en 62 y se puede elaborar un histograma como en 64.
En la Figura 3 se incluye un ejemplo de histograma de este tipo,
que muestra el gráfico de distribución del patrón acentual
"1". En el gráfico, el eje de las X está en una escala
arbitraria y el eje de las Y es la frecuencia de recuento de una
distancia dada. Las disimilitudes empiezan a ser importantes
alrededor de 1/3 del eje de las X.
Al elaborar histogramas como se ha explicado, se
pueden evaluar las plantillas de prosodia para determinar cuánto se
parecen las muestras entre sí y así, la medida en que la plantilla
resultante corresponde a una entonación de sonido natural. Dicho de
otra forma, el histograma indica si la función de agrupamiento
(patrón acentual) representa adecuadamente las formas observadas.
Una dispersión amplia indica que no lo representa bien, mientras
que una gran concentración cerca del valor medio indica que hemos
encontrado un patrón determinado solamente por la acentuación y,
por ello, un buen candidato para la plantilla de prosodia. La
Figura 4 muestra el gráfico correspondiente al contorno F0 medio
para el patrón "1". El gráfico de datos de la Figura 4
corresponde al gráfico de distribución de la Figura 3. Hay que
tener en cuenta que el gráfico de la Figura 4 representa las
coordenadas logarítmicas normalizadas. Las partes inferior, media y
superior corresponden a 50 Hz, 100 Hz y 200 Hz, respectivamente. La
Figura 4 muestra el contorno F0 medio para el patrón de palabras
monosílabas para que sea un contorno de elevación lenta.
La Figura 5 muestra los resultados de nuestro
estudio F0 con respecto a la familia de patrones de palabras
bisílabas. En la Figura 5, el patrón "10" se muestra en A, el
patrón "01" se muestra en B y el patrón "12" se muestra en
C. También en la Figura 5 aparece el patrón de contorno medio del
grupo "010" de palabras trisílabas.
Al comparar los patrones de palabras bisílabas de
la Figura 5, se observa la ubicación pico difiere al igual que la
forma del contorno F0 global. El patrón "10" muestra un
ascenso-caída con un pico en alrededor del 80% en la
primera sílaba, mientras que el patrón "01" muestra un patrón
ascenso-caída plano, con un pico en alrededor del
60% de la segunda sílaba. En estas figuras, la línea vertical
denota el límite de la sílaba.
El patrón "12" es muy similar al patrón
"10", pero una vez que F0 llega al punto de destino del
ascenso, el patrón "12" tiene un tramo más largo en esta región
F0 más alta. Esto implica que puede haber una acentuación
secundaria.
El patrón "010" de la palabra trisílaba de
la ilustración muestra una clara curva acampanada en la
distribución y algunas anomalías. El contorno medio es un nivel
tramo bajo seguido por un contorno de ascenso-caída
con el pico F0 en alrededor del 85% en la segunda sílaba. Hay que
tener en cuenta que algunas de las anomalías de esta distribución
pueden corresponder a palabras mal pronunciadas en los datos de
entrenamiento.
El histograma y las curvas de contorno medio se
pueden calcular para todos los patrones diferentes reflejados en los
datos de entrenamiento. Nuestros estudios demuestran que los
contornos F0 y los patrones de duración producidos de esta manera
son muy similares o idénticos a los de un hablante humano. Usando
sólo el patrón acentual como característica diferencial, hemos
descubierto que casi todos los gráficos de la distribución de
similitud de las curvas F0 presentan una forma de curva acampanada
diferente. Esto confirma que el patrón acentual es un criterio muy
efectivo para asignar la información prosódica.
Con la elaboración de la plantilla de prosodia en
mente, el módulo de generación de sonido 24 (Fig. 1) se explicará
ahora con más detalle. La información prosódica extraída por el
módulo de prosodia 18 se almacena en un formato normalizado de
dominio logarítmico y de cambio de tono. Así, para usar las
plantillas de prosodia, el módulo de generación de sonido primero
debe denormalizar la información como se muestra en la Figura 6 que
empieza en el paso 70. El proceso de denormalización primero
traslada la plantilla (paso 72) a una altura adaptada al contorno
de tonos de la oración modelo. Esta constante se da como parte de
los datos recuperados para la oración modelo y se calcula con los
coeficientes de la línea de regresión del contorno de tonos de esa
oración. (Consulte la Figura 2, pasos 52-56).
Mientras tanto, se accede a la plantilla de
duración y se denormaliza la información de duración para determinar
el tiempo (en milisegundos) asociado con cada sílaba. Los valores
del dominio logarítmico de las plantillas se transforman después en
valores lineales en Hz en el paso 74. A continuación, en el paso
76, se remuestrea cada segmento silábico de la plantilla con una
duración fija de cada punto (10 ms en la realización actual) de tal
forma que la duración total de cada uno se corresponda con el valor
del tiempo denormalizado especificado. De esta manera, el contorno
de entonación se vuelve a situar en una línea de tiempo física. En
este punto, los datos de las plantillas transformados están
preparados para ser usados por el módulo de generación de sonido.
Naturalmente, los pasos de la denormalización pueden ser llevados a
cabo por cualquiera de los módulos que manejan la información
prosódica. Así, los pasos de la denormalización que se ilustran en
la Figura 6 pueden ser llevados a cabo por el módulo de generación
de sonido 24 o por el módulo de prosodia 18.
La realización actualmente preferida almacena
información de duración en forma de relaciones de valores de fonemas
con respecto a valores de duración determinados globalmente. Los
valores determinados globalmente corresponden a los valores de
duración media observados en todo el corpus de entrenamiento. Los
valores por sílaba representan la suma de las duraciones de los
fonemas o grupos de fonemas observados en una sílaba dada. Las
relaciones por sílaba/global se calculan y se promedian para
rellenar cada elemento de la plantilla de prosodia. Estas
relaciones se almacenan en la plantilla de prosodia y se usan para
calcular la duración real de cada sílaba.
Obtener patrones prosódicos temporales detallados
es algo más complicado que obtener los contornos F0. Esto se deben
en gran medida al hecho de que un objetivo prosódico de alto nivel
no se puede separar de las restricciones puramente articulatorias,
meramente por medio del examen de datos segmentados
individuales.
La estructura y la disposición de la base de
datos de prosodia actualmente preferida se describe mejor en el
diagrama de relaciones de la Figura 7 y por la siguiente
especificación para el diseño de la base de datos. La especificación
se incluye para ilustrar la realización preferida de la invención.
Existen otras especificaciones posibles para el diseño de la base
de datos.
NORMDATA |
ND1D-Primary Key |
Target-Key (WordID) |
Sentence-Key (SentID) |
SentencePos-Text |
Follow-Key (WordlD) |
Session-Key (SessID) |
Recording-Text |
Attributes-Text |
WORD |
WordlD-Primary Key |
Spelling-Text |
Phonemes-Text |
Syllables-Number |
Stress-Text |
Subwords-Number |
Origin-Text |
Feature1-Number (Submorphs) |
Feature2-Number |
FRAMESENTENCE |
SentID-Primary Key |
Text |
Type-Number |
Syllables-Number |
SESSION |
SesslD-Primary Key |
Speaker-Text |
Date Recorded-Date/Time |
Tape-Text |
F0DATA |
NDID-Key |
Index-Number |
Value-Currency |
DURDATA |
NDID-Key |
Index-Number |
Value-Currency |
Abs-Currency |
PHONDATA |
NDID-Key |
Phones-Text |
Dur-Currency |
Stress-Text |
SylPos-Number |
PhonPos-Number |
Rate-Number |
Parse-Text |
RECORDING |
ID |
Our |
A (y = A + Bx) |
B (y = A + Bx) |
Descript |
GROUP |
GrouplD-Primary Key |
Syllables-Number |
Stress-Text |
Feature1-Number |
Feature2-Number |
SentencePos-Text |
<Future exp.> |
TEMPLATEF0 |
GrouplD-Key |
Index-Number |
Value-Number |
TEMPLATEDUR |
GrouplD-Key |
Index-Number |
Value-Number |
DISTRIBUTIONF0 |
GrouplD-Key |
Index-Number |
Value-Number |
DISTRIBUTIONDUR |
GrouplD-Key |
Index-Number |
Value-Number |
GROUPMEMBERS |
GrouplD-Key |
NDID-Key |
DistanceF0-Currency |
DistanceDur-Currency |
PHONSTAT |
Phones-Text |
Mean-Curr. |
SSD-Curr. |
Min-Curr. |
Max-Curr. |
CoVar-Currency |
N-Number |
Class-Text |
NORMDATA | |
NDID | Clave primaria |
Target | Palabra destino. Clave para la tabla WORD. |
Sentence | Oración modelo de origen. Clave para la tabla FRAMESENTENCE. |
SentencePos | Posición en la oración. INICIAL, MEDIAL, FINAL. |
Follow | Palabra que sigue a la palabra destino. Clave para la tabla WORD o 0 si no hay ninguna. |
Session | Sesión a la que pertenecía la grabación. Clave para la tabla SESSION. |
Recording | Identificador de grabación en directorios Unix (datos sin formato). |
Attributes | Información variada. |
F = Datos F0 considerados anómalos. | |
D = Duración de los datos considerados anómalos. | |
A = F0 alternativo | |
B = Duración alternativa |
PHONDATA | |
NDID | Clave para NORMDATA |
Phones | Cadena de 1 ó 2 fonemas |
Dur | Duración total de los fonos |
Stress | Acentuación de la sílaba a la que pertenecen los fonos |
SylPos | Posición de la sílaba que contiene los fonos (contando desde 0) |
PhonPos | Posición de los fonos en la sílaba (contando desde 0) |
Rate | Medida de velocidad de la emisión |
Parse | L = Fonos creados por análisis izquierdo |
R = Fonos creados por análisis derecho |
PHONSTAT | |
Phones | Cadena de 1 ó 2 fonemas |
Mean | Media estadística de la duración de los fonos |
SSD | Desviación estándar de la muestra |
Min | Valor mínimo observado |
Max | Valor máximo observado |
CoVar | Coeficiente de variación (Desviación estándar de la muestra /Media) |
N | Número de muestras para este grupo de fonos |
Class | Clasificación |
A = Incluidas todas las muestras |
Teniendo en cuenta lo anterior, es fácil de
entender que la presente invención proporciona un aparato y un
método para generar habla sintetizada, en la que la información
prosódica que normalmente falta se aporta desde las plantillas
elaboradas a partir de datos extraídos del habla humana. Como hemos
demostrado, esta información prosódica se puede seleccionar en una
base de datos de plantillas y aplicarse a la información fonémica
por medio de un procedimiento de búsqueda basado en patrones
acentuales asociados con el testo de las palabras introducidas.
La invención se puede aplicar a una amplia
variedad de diferentes aplicaciones de conversión
texto-habla y de síntesis de habla, incluidas las
aplicaciones de gran dominio como las de lectura de libros de
texto, y las aplicaciones de dominios más limitados, como las
aplicaciones de navegadores de coche o de traducción de libros de
frases. En el caso del dominio limitado, se puede designar al
principio un pequeño conjunto de oraciones modelo fijas, y
sustituirse una palabra destino en esa frase por una palabra
arbitraria (como un nombre propio o el nombre de una calle). En
este caso, el tono y el tiempo de las oraciones modelo se puede
medir y almacenar desde el habla real, asegurando así una prosodia
muy natural para la mayor parte de la oración. La palabra destino
es entonces la única en la que hay que controlar el tono y el tiempo
usando las plantillas de prosodia de la invención.
Claims (11)
1. Un método para entrenar una plantilla de
prosodia usando habla humana, que comprende:
- segmentación de las palabras de una oración (32) de habla humana en fonemas asociados con las sílabas de dichas palabras;
- asignación de niveles de acentuación (36) a dichas sílabas;
- agrupamiento de dichas palabras (40) de acuerdo con los dichos niveles de acentuación formando de este modo por lo menos un grupo de patrones acentuales;
- normalización de los datos de entonación (42) para cada palabra de un grupo dado de patrones acentuales con respecto al tiempo, formando de este modo datos de entonación normalizados;
- ajuste del cambio de tono (46) de dichos datos de entonación normalizados, formando así datos de entonación ajustados; y
- cálculo de un valor medio de los datos de entonación ajustados y almacenamiento del valor medio en una base de datos prosódica (50) en forma de plantilla.
2. El método de la reivindicación 1 en el que los
dichos datos de entonación normalizados se basan en el remuestreo de
los dichos datos de entonación para una serie de puntos de
entonación.
3. El método de la reivindicación 1 en el que el
paso de ajustar mejor el cambio del tono consiste en transformar los
datos de entonación normalizados a un dominio logarítmico.
4. El método de la reivindicación 1 en el que los
datos de entonación se definen mejor como datos de tono fundamental
(F0).
5. El método de la reivindicación 3 que además
comprende el paso de:
- formación (54) de un punto de elevación para dicha palabra, basándose dicho punto de elevación en regresión lineal de dichos datos transformados y un límite del extremo de la palabra.
6. El método de la reivindicación 5 en el que
dicho punto de elevación se ajusta (56) como un punto de referencia
común.
7. El método de la reivindicación 6 que consiste
en producir una constante que represente una denormalización basada
en un coeficiente de regresión lineal de un contorno de tonos de la
oración modelo.
8. El método de la reivindicación 6 que además
comprende el paso de:
- evaluar una plantilla de duración de manera factible que permita la denormalización de una información de duración, asociando así un valor de tiempo con cada una de dichas sílabas.
9. El método de la reivindicación 8 que además
comprende el paso de:
- transformar (74) los valores del dominio logarítmico de dicha plantilla de duración en valores lineales.
10. El método de la reivindicación 8 que además
comprende el paso de:
- remuestrear (76) cada segmento silábico de la plantilla para obtener una duración fija tal que la duración total de cada uno de los dichos segmentos silábicos corresponda a los dichos valores de tiempo denormalizados, de manera que un contorno de entonación se asocie con una línea de tiempo física.
11. El método de la reivindicación 9 que además
comprende los pasos de:
- almacenar información de duración en forma de relaciones de valores fonémicos con respecto a valores de duración determinados globalmente, estando basados dichos valores de duración determinados globalmente en valores de duración medios a lo largo de todo un corpus completo de entrenamiento.
- basar valores por sílaba en una suma de los fonemas observados; y
- rellenar la dicha plantilla de prosodia con una relación de los dichos valores por sílaba frente a relaciones globales, de tal manera que permita el cálculo de una duración real de cada una de dichas sílabas.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US200027 | 1998-11-25 | ||
US09/200,027 US6260016B1 (en) | 1998-11-25 | 1998-11-25 | Speech synthesis employing prosody templates |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2218959T3 true ES2218959T3 (es) | 2004-11-16 |
Family
ID=22740012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99309292T Expired - Lifetime ES2218959T3 (es) | 1998-11-25 | 1999-11-22 | Sintesis de habla utilizando pastillas prosodicas. |
Country Status (5)
Country | Link |
---|---|
US (1) | US6260016B1 (es) |
EP (1) | EP1005018B1 (es) |
JP (1) | JP2000172288A (es) |
DE (1) | DE69917415T2 (es) |
ES (1) | ES2218959T3 (es) |
Families Citing this family (161)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7076426B1 (en) * | 1998-01-30 | 2006-07-11 | At&T Corp. | Advance TTS for facial animation |
JP3361066B2 (ja) * | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
US6185533B1 (en) * | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
CN1168068C (zh) * | 1999-03-25 | 2004-09-22 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
US7117532B1 (en) * | 1999-07-14 | 2006-10-03 | Symantec Corporation | System and method for generating fictitious content for a computer |
WO2001006386A1 (en) * | 1999-07-14 | 2001-01-25 | Recourse Technologies, Inc. | System and method for dynamically changing a computer port or address |
US6981155B1 (en) * | 1999-07-14 | 2005-12-27 | Symantec Corporation | System and method for computer security |
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US7203962B1 (en) | 1999-08-30 | 2007-04-10 | Symantec Corporation | System and method for using timestamps to detect attacks |
US6496801B1 (en) * | 1999-11-02 | 2002-12-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words |
US7386450B1 (en) * | 1999-12-14 | 2008-06-10 | International Business Machines Corporation | Generating multimedia information from text information using customized dictionaries |
JP4465768B2 (ja) * | 1999-12-28 | 2010-05-19 | ソニー株式会社 | 音声合成装置および方法、並びに記録媒体 |
US6785649B1 (en) * | 1999-12-29 | 2004-08-31 | International Business Machines Corporation | Text formatting from speech |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6542867B1 (en) * | 2000-03-28 | 2003-04-01 | Matsushita Electric Industrial Co., Ltd. | Speech duration processing method and apparatus for Chinese text-to-speech system |
US6845358B2 (en) * | 2001-01-05 | 2005-01-18 | Matsushita Electric Industrial Co., Ltd. | Prosody template matching for text-to-speech systems |
JP2002244688A (ja) * | 2001-02-15 | 2002-08-30 | Sony Computer Entertainment Inc | 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム |
US6513008B2 (en) * | 2001-03-15 | 2003-01-28 | Matsushita Electric Industrial Co., Ltd. | Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
WO2003019528A1 (fr) * | 2001-08-22 | 2003-03-06 | International Business Machines Corporation | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
US7024362B2 (en) * | 2002-02-11 | 2006-04-04 | Microsoft Corporation | Objective measure for estimating mean opinion score of synthesized speech |
US20040198471A1 (en) * | 2002-04-25 | 2004-10-07 | Douglas Deeds | Terminal output generated according to a predetermined mnemonic code |
US20030202683A1 (en) * | 2002-04-30 | 2003-10-30 | Yue Ma | Vehicle navigation system that automatically translates roadside signs and objects |
US7200557B2 (en) * | 2002-11-27 | 2007-04-03 | Microsoft Corporation | Method of reducing index sizes used to represent spectral content vectors |
US6988069B2 (en) * | 2003-01-31 | 2006-01-17 | Speechworks International, Inc. | Reduced unit database generation based on cost information |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
US7308407B2 (en) * | 2003-03-03 | 2007-12-11 | International Business Machines Corporation | Method and system for generating natural sounding concatenative synthetic speech |
US7386451B2 (en) * | 2003-09-11 | 2008-06-10 | Microsoft Corporation | Optimization of an objective measure for estimating mean opinion score of synthesized speech |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
JP4738057B2 (ja) * | 2005-05-24 | 2011-08-03 | 株式会社東芝 | ピッチパターン生成方法及びその装置 |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
RU2427077C2 (ru) * | 2005-12-05 | 2011-08-20 | Телефонактиеболагет Лм Эрикссон (Пабл) | Обнаружение эхосигнала |
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7996222B2 (en) * | 2006-09-29 | 2011-08-09 | Nokia Corporation | Prosody conversion |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
US8135590B2 (en) | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8175879B2 (en) * | 2007-08-08 | 2012-05-08 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
CN101814288B (zh) * | 2009-02-20 | 2012-10-03 | 富士通株式会社 | 使语音合成时长模型自适应的方法和设备 |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8731931B2 (en) | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US8965768B2 (en) * | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
TWI413104B (zh) * | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9928832B2 (en) * | 2013-12-16 | 2018-03-27 | Sri International | Method and apparatus for classifying lexical stress |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9685169B2 (en) * | 2015-04-15 | 2017-06-20 | International Business Machines Corporation | Coherent pitch and intensity modification of speech signals |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
US5796916A (en) | 1993-01-21 | 1998-08-18 | Apple Computer, Inc. | Method and apparatus for prosody for synthetic speech prosody determination |
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5642520A (en) | 1993-12-07 | 1997-06-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for recognizing topic structure of language data |
US5592585A (en) | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
US5696879A (en) | 1995-05-31 | 1997-12-09 | International Business Machines Corporation | Method and apparatus for improved voice transmission |
US5704009A (en) | 1995-06-30 | 1997-12-30 | International Business Machines Corporation | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
US5729694A (en) | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US5878393A (en) * | 1996-09-09 | 1999-03-02 | Matsushita Electric Industrial Co., Ltd. | High quality concatenative reading system |
US5905972A (en) | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US5924068A (en) * | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
US5966691A (en) * | 1997-04-29 | 1999-10-12 | Matsushita Electric Industrial Co., Ltd. | Message assembler using pseudo randomly chosen words in finite state slots |
-
1998
- 1998-11-25 US US09/200,027 patent/US6260016B1/en not_active Expired - Lifetime
-
1999
- 1999-11-22 EP EP99309292A patent/EP1005018B1/en not_active Expired - Lifetime
- 1999-11-22 DE DE69917415T patent/DE69917415T2/de not_active Expired - Fee Related
- 1999-11-22 ES ES99309292T patent/ES2218959T3/es not_active Expired - Lifetime
- 1999-11-24 JP JP11332642A patent/JP2000172288A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP1005018B1 (en) | 2004-05-19 |
DE69917415T2 (de) | 2005-06-02 |
JP2000172288A (ja) | 2000-06-23 |
US6260016B1 (en) | 2001-07-10 |
EP1005018A3 (en) | 2001-02-07 |
DE69917415D1 (de) | 2004-06-24 |
EP1005018A2 (en) | 2000-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2218959T3 (es) | Sintesis de habla utilizando pastillas prosodicas. | |
ES2243200T3 (es) | Generacion y sintesis de plantillas de prosodia. | |
ES2261355T3 (es) | Correspondencia de plantillas prosodicas para sistemas de conversion de texto en habla. | |
CN101156196A (zh) | 混合语音合成器、方法和使用 | |
US7069216B2 (en) | Corpus-based prosody translation system | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
Chu et al. | A concatenative Mandarin TTS system without prosody model and prosody modification. | |
Chu et al. | Modeling stylized invariance and local variability of prosody in text-to-speech synthesis | |
Hwang et al. | A Mandarin text-to-speech system | |
Chen et al. | A Mandarin Text-to-Speech System | |
Lobanov et al. | TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian) | |
Gahlawat et al. | Integrating human emotions with spatial speech using optimized selection of acoustic phonetic units | |
Langarani et al. | Data-driven foot-based intonation generator for text-to-speech synthesis. | |
Tao | F0 Prediction model of speech synthesis based on template and statistical method | |
Swee | The Design and Verification of Malay Text To Speech Synthesis System | |
Rao | Modeling supra-segmental features of syllables using neural networks | |
Gu et al. | Model spectrum-progression with DTW and ANN for speech synthesis | |
Deborah et al. | Development of a Mobile Tourist Assistance for a Local Language | |
Narupiyakul et al. | A stochastic knowledge-based Thai text-to-speech system | |
Karpiński | Dimensions of intonation. Wiktor Jassem’s contribution to the studies on the melody of speech | |
Singh | Text to Speech (On Device) | |
Schlünz | Usability of text-to-speech synthesis to bridge the digital divide in South Africa: Language practitioner perspectives | |
IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
Alabbad | An Investigation into Approaches to Text-to-Speech Synthesis for Modern Standard Arabic | |
Afolabi et al. | Implementation of Yoruba text-to-speech E-learning system |