ES2218959T3 - Sintesis de habla utilizando pastillas prosodicas. - Google Patents

Sintesis de habla utilizando pastillas prosodicas.

Info

Publication number
ES2218959T3
ES2218959T3 ES99309292T ES99309292T ES2218959T3 ES 2218959 T3 ES2218959 T3 ES 2218959T3 ES 99309292 T ES99309292 T ES 99309292T ES 99309292 T ES99309292 T ES 99309292T ES 2218959 T3 ES2218959 T3 ES 2218959T3
Authority
ES
Spain
Prior art keywords
intonation
data
duration
template
prosody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99309292T
Other languages
English (en)
Inventor
Frode Holm
Kazue Hata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of ES2218959T3 publication Critical patent/ES2218959T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Un método para entrenar una plantilla de prosodia usando habla humana, que comprende: segmentación de las palabras de una oración (32) de habla humana en fonemas asociados con las sílabas de dichas palabras; asignación de niveles de acentuación (36) a dichas sílabas; agrupamiento de dichas palabras (40) de acuerdo con los dichos niveles de acentuación formando de este modo por lo menos un grupo de patrones acentuales; normalización de los datos de entonación (42) para cada palabra de un grupo dado de patrones acentuales con respecto al tiempo, formando de este modo datos de entonación normalizados; ajuste del cambio de tono (46) de dichos datos de entonación normalizados, formando así datos de entonación ajustados; y cálculo de un valor medio de los datos de entonación ajustados y almacenamiento del valor medio en una base de datos prosódica (50) en forma de plantilla.

Description

Síntesis de habla utilizando pastillas prosódicas.
Antecedentes y resumen de la invención
La presente invención está relacionada en general con los sistemas de conversión texto-habla y de síntesis de habla. Más en particular, la invención está relacionada con un sistema destinado a proporcionar una prosodia que suene más natural mediante el uso de plantillas de prosodia.
A lo largo de la historia de estas tecnologías, la tarea de generar una prosodia natural similar a la del habla humana para los sistemas de conversión texto-habla y de síntesis de habla ha sido uno de los problemas más difíciles de resolver al que se han tenido que enfrentar los investigadores y los programadores. Los sistemas texto-habla en general se han ganado su mala fama debido a su entonación "robótica". Para resolver este problema, algunos sistemas anteriores han usado redes neurales y algoritmos de agrupamiento vectorial para intentar simular la prosodia de sonido natural. Además de haber tenido un éxito muy limitado, estas técnicas informáticas de "caja negra" no proporcionan al programador ninguna información sobre cuales son los parámetros cruciales de la prosodia de sonido natural.
La presente invención, tal como se reivindica en la reivindicación 1, utiliza un planteamiento diferente, en el que se utilizan muestras de habla humana para crear plantillas de prosodia. Las plantillas definen una relación entre los patrones acentuales de las sílabas y ciertas variables prosódicas como la entonación (F0) y la duración. Así, a diferencia de los planteamientos algorítmicos anteriores, la invención utiliza los atributos lexicológicos y acústicos del habla natural (por ejemplo, patrón acentual, número de sílabas, entonación, duración) que el investigador y el programador pueden observar y entender directamente.
En el documento EP 083330482 se describe el uso de una base de datos de prosodia que contiene plantillas de frecuencias fundamentales para el uso en la síntesis de habla. Se usa una base de datos de prosodia para contener una secuencia de frecuencias fundamentales ponderadas para las sílabas de una oración.
La realización actualmente preferida almacena las plantillas de prosodia en una base de datos a la que se accede especificando el número de sílabas y el patrón acentual asociado con una palabra determinada. Se incluye un diccionario de palabras para dotar al sistema con la información necesaria relativa a número de sílabas y patrones acentuales. Usando el diccionario de palabras, el procesador de texto identifica el patrón acentual de las palabras introducidas y genera sus representaciones fonémicas. Luego, un módulo de prosodia accede a las plantillas de la base de datos, usando para ello la información de número de sílabas y de patrón acentual. El sistema obtiene en la base de datos un módulo de prosodia para la palabra dada y lo usa para proporcionar información prosódica al módulo de generación de sonido que sintetiza el habla a partir de la representación fonémica y de la información prosódica.
La realización actualmente preferida se centra en el habla a nivel de palabra. Las palabras se dividen en sílabas y así representan la unidad básica de la prosodia. El sistema presupone que el patrón acentual definido por las sílabas determina las características perceptivas más importantes tanto de la entonación (F0) como de la duración. A este nivel de granularidad, el conjunto de plantillas es bastante pequeño y fácil de implementar en los sistemas de conversión texto-habla y de síntesis de habla. Si bien actualmente se prefiere un análisis prosódico a nivel de palabra que use sílabas, las técnicas de plantillas de prosodia de la invención se pueden usar en sistemas con otros niveles de granularidad. Por ejemplo, el conjunto de plantillas se puede ampliar para que admita más determinantes de características, tanto a nivel de sílaba como de palabra. A este respecto, las perturbaciones F0 microscópicas causadas por el tipo de consonante, la sonorización, el tono intrínseco de las vocales y la estructura de segmentación de una sílaba se pueden usar como atributos para clasificar determinados patrones prosódicos. Además, las técnicas se pueden ampliar más allá de los contornos F0 del nivel de palabra y de los patrones de duración a los análisis a nivel de frase o a nivel de oración.
Para una mejor comprensión de la invención, sus objetivos y sus ventajas, hay que referirse a la siguiente especificación y los dibujos que la acompañan.
Breve descripción de los dibujos
La Figura 1 es un diagrama de bloques de un sintetizador de habla que emplea plantillas de prosodia de acuerdo con la invención;
Las Figuras 2A y B son diagramas de bloques que ilustran la manera en que se pueden desarrollar las plantillas de prosodia;
La Figura 3 es un esquema de distribución de un patrón acentual como ejemplo;
La Figura 4 es un gráfico del contorno medio F0 del patrón acentual de la Figura 3;
La Figura 5 es una serie de gráficos que ilustran el contorno medio de unos datos de ejemplo de dos sílabas y de tres sílabas.
La Figura 6 es un diagrama de flujo que ilustra el procedimiento de denormalización empleado por la realización preferida.
La Figura 7 es un diagrama de la base de datos en el que se muestran las relaciones entre las entidades de la base de datos de la realización preferida.
Descripción de la realización preferida
Cuando un hablante humano lee un texto, el tono sube y baja, las sílabas son enunciadas con mayor o menor intensidad, las vocales se alargan y se acortan y se insertan pausas, todo lo cual confiere al pasaje hablado un ritmo definido. Estas características constituyen algunos de los atributos a los que los investigadores del habla dan el nombre de prosodia. Los hablantes humanos añaden información prosódica de manera automática cuando leen un pasaje de texto en voz alta. La información prosódica expresa la interpretación que el lector hace del material. Esta interpretación es un producto de la experiencia humana, ya que el texto impreso contiene poca información prosódica directa.
Cuando un sistema de síntesis de habla implementado en un ordenador lee o recita un pasaje de texto, esta prosodia de sonido humano está ausente en los sistemas convencionales. Es muy simple, el propio texto prácticamente no contiene información prosódica y por ello, el sintetizador de voz convencional tiene poco en lo que basarse para generar la información prosódica que falta. Como ya se ha indicado, los intentos anteriores de añadir información prosódica se han centrado en técnicas basadas en reglas y en técnicas de redes neurales, o en técnicas algorítmicas, como las técnicas de agrupamiento vectorial. El habla generada mediante técnicas basadas en reglas, simplemente no suena natural, y las técnicas algorítmicas y de red neurales no se pueden adaptar ni se pueden usar para extraer las conclusiones necesarias para modificarlas ni para aplicarlas fuera del conjunto de entrenamiento usado para generarlas.
La presente invención aborda el problema de la prosodia mediante el uso de plantillas de prosodia vinculadas a los patrones acentuales de sílabas propios de las palabras habladas. Más concretamente, las plantillas de prosodia almacenan información de entonación F0 e información de duración. Esta información prosódica almacenada se organiza en una base de datos de acuerdo con los patrones acentuales de las sílabas. La realización actualmente preferida define tres niveles diferentes de acentuación. Se designan mediante los números 0, 1 y 2. Los niveles de acentuación son los siguientes:
0 sin acentuación
1 acentuación primaria
2 acentuación secundaria
Según la realización preferida, se considera que las palabras monosilábicas tienen un patrón acentual sencillo que corresponde al nivel de acentuación primaria "1". Las palabras con más de una sílaba pueden tener diferentes combinaciones de patrones de nivel de acentuación. Por ejemplo, las palabras bisílabas pueden tener los patrones acentuales "10", "01" y "12".
La realización actualmente preferida emplea una plantilla de prosodia para cada combinación diferente de patrones acentuales. Así, el patrón acentual "1" tiene una primera plantilla de prosodia, el patrón acentual "10" tiene una plantilla de prosodia diferente, y así sucesivamente. Cada plantilla de prosodia contiene información prosódica como información de entonación y de duración y, opcionalmente, también otra información.
La Figura 1 ilustra un sintetizador de habla que emplea la tecnología de plantillas de prosodia de la presente invención. En el caso de la Figura 1, se suministra un texto de entrada 10 al módulo procesador de texto 12 en forma de secuencia o cadena de letras que define palabras. El procesador de texto 12 tiene diccionario de palabras asociado 14 que contiene información acerca de las palabras almacenadas. En la realización preferida, el diccionario de palabras tiene una estructura de datos que se ilustra en 16 según la cual las palabras se almacenan junto con cierta información de representación fonémica y cierta información de patrones acentuales. Más concretamente, cada palabra del diccionario va acompañada por su representación fonémica, por información que identifica los límites de las sílabas y por información que indica la manera en que la acentuación se asigna a cada sílaba. Así, el diccionario de palabras 14 contiene, en un formato electrónico que permite realizar búsquedas, la información básica necesaria para generar una pronunciación de la palabra.
El procesador de texto 12 se acopla al módulo de prosodia 18 que tiene asociada la base de datos de plantillas de prosodia 20. En la realización actualmente preferida, las plantillas de prosodia almacenan datos de entonación (F0) y de duración para cada uno de una pluralidad de diferentes patrones acentuales. El patrón acentual de una sola palabra "1" constituye una primera plantilla, el patrón de palabras bisílabas "10" constituye una segunda plantilla, el patrón "01" constituye otra plantilla, y así sucesivamente. Las plantillas se almacenan en la base de datos atendiendo al patrón acentual, como se indica en forma de diagrama en la estructura de datos 22 en la Figura 1. El patrón acentual asociado con una palabra dada sirve de clave de acceso a la base de datos con la que el módulo de prosodia 18 recupera la información asociada de entonación y de duración. El módulo de prosodia 18 determina el patrón acentual asociado con una palabra dada por medio de la información que le ha suministrado el procesador de texto 12. El procesador de texto 12 obtiene esta información mediante el diccionario de palabras 14.
Mientras que las plantillas de prosodia actualmente preferidas almacenan información de entonación y de duración, la estructura de las plantillas se puede ampliar fácilmente para que incluya otros atributos prosódicos.
Tanto el procesador de texto 12 como el módulo de prosodia 18, suministran información al módulo de generación de sonido 24. Concretamente, el procesador de texto 12 suministra información fonémica obtenida en el diccionario de palabras 14 y el módulo de prosodia 18 suministra la información prosódica (por ejemplo, sobre entonación y duración). El módulo de generación de sonido genera entonces habla sintetizada basándose en la información fonémica y prosódica.
La realización actualmente preferida codifica la información prosódica a un formato estandarizado en el que la información prosódica es normalizada y parametrizada para simplificar su almacenamiento y su recuperación en la base de datos 20. El módulo de generación de sonido 24 denormaliza y convierte las plantillas estandarizadas a un formato que se puede aplicar a la información fonémica suministrada por el procesador de texto 12. Este proceso se describirá con más detalle más adelante. Sin embargo, primero, se describirán detalladamente las plantillas de prosodia y su elaboración.
En las Figuras 2A y 2B, se explica resumidamente el procedimiento para generar plantillas de prosodia adecuadas. Las plantillas de prosodia se construyen usando habla humana de entrenamiento, que se puede pregrabar y suministrarse en forma de colección de oraciones de habla de entrenamiento 30. Nuestra realización actualmente preferida se construyó usando aproximadamente 3.000 oraciones con nombres propios en la posición inicial de la oración. La colección de habla de entrenamiento 30 se recopiló de un solo hablante femenino de inglés americano. Por supuesto, se pueden usar otras fuentes de habla de entrenamiento.
Los datos del habla de entrenamiento inicialmente se someten a un preproceso que incluye una serie de pasos. Primero, se usa una herramienta de etiquetado 32 para segmentar las oraciones en palabras y segmentar las palabras en sílabas y las sílabas en fonemas que se almacenan en 34. A continuación, se asignan acentuaciones a las sílabas como se ilustra en el paso 36. En la realización actualmente preferida, se realizó una asignación de acentuación de tres niveles en la que "0" representaba sin acentuación, "1" representaba la acentuación primaria y "2" representaba la acentuación secundaria, como se ilustra en el diagrama 38. La división de palabras en sílabas y fonemas y la asignación de niveles de acentuación se puede realizar manualmente o con la ayuda de un rastreador automático o semiautomático que realice la edición F0. A este respecto, el preprocesamiento del habla de entrenamiento es una tarea que requiere bastante tiempo, si bien solamente hay que llevarla a cabo una vez durante el desarrollo de las plantillas de prosodia. Se requiere gran precisión en el etiquetado y en la asignación de acentuaciones a los datos para asegurar la exactitud y reducir el nivel de ruido en el posterior análisis estadístico.
Después de haber etiquetado y asignado acentuaciones a las palabras, se pueden agrupar según sus patrones acentuales. Como se ilustra en 40, las palabras monosílabas constituyen un primer grupo. Las palabras bisílabas constituyen cuatro grupos, el grupo "10", el grupo "01", el grupo "12" y el grupo "21". Las palabras trisílabas, cuatrisílabas,... las palabras de n sílabas se agrupan de manera similar según sus patrones acentuales.
A continuación, para cada grupo de patrones acentuales, se normalizan los datos de tono fundamental o entonación F0 con respecto al tiempo (eliminando así la dimensión temporal específica de esa grabación) como se indica en el paso 42. Esto se puede realizar de distintas maneras. La técnica actualmente preferida, que se describe en 44 remuestrea los datos hasta un número fijo de puntos F0. Por ejemplo, se pueden muestrear los datos hasta incluir 30 muestras por sílaba.
A continuación, se llevan a cabo una serie de pasos de procesamiento para eliminar las desviaciones constantes del tono de base, como se indica en general en 46. El planteamiento actualmente preferido implica la transformación de los puntos F0 de la oración completa al dominio logarítmico como se indica en 48. Una vez que los puntos se hayan transformado al dominio logarítmico, se podrán agregar a la base de datos de plantillas como se ilustra en 50. En la realización actualmente preferida, todos los datos del dominio logarítmico de un grupo determinado se promedian y este promedio se usa para rellenar la plantilla de prosodia. Así, todas las palabras de un grupo dado (por ejemplo, todas las palabras bisílabas del patrón "10") contribuyen al valor promedio único usado para rellenar la plantilla de ese grupo. Si bien el uso de la media aritmética de los datos da buenos resultados, si se desea también se pueden emplear otros procesamientos estadísticos.
Para evaluar la robustez de la plantilla de prosodia, se puede llevar a cabo un procesamiento adicional como se ilustra en la Figura 2B que empieza en el paso 52. Los datos del dominio logarítmico se usan para calcular una línea de regresión lineal para toda la oración. Hay una intersección de la línea de regresión con el límite del extremo de la palabra, como se indica en el paso 54, y esta intersección se usa como punto de elevación para la palabra destino. En el paso 56, el punto de elevación se traslada a un punto de referencia común. La realización preferida traslada los datos arriba o abajo a un punto de referencia común de 100 Hz nominales.
Como ya se ha mencionado, las técnicas de redes neurales anteriores no daban al diseñador del sistema la oportunidad de ajustar los parámetros de manera coherente, ni de descubrir cuáles eran los factores que determinaban el resultado. La presente invención permite al diseñador explorar los parámetros relevantes mediante el análisis estadístico. Esto se ilustra a partir del paso 58. Si se desea, los datos se analizan estadísticamente en 58 por comparación de cada muestra con la media aritmética para calcular una medida de distancia, como la diferencia de áreas, como en 60. Usamos una medida como la diferencia de áreas entre dos vectores tal como se establece en la siguiente ecuación. Hemos descubierto que esta medida suele ser bastante buena porque proporciona información útil acerca de lo similares o diferentes que las muestras son entre sí. Se pueden usar otras medidas de distancia, incluidas medidas ponderadas que tengan en cuenta propiedades psicoacústicas del sistema sensoneural.
d(Y_{i}) = c \sqrt{\sum \limits ^{N}_{k=l} (y _{ik} - \overline{Y}_{k})^{2} v_{ik}}
d = medida de la diferencia entre dos vectores
i = índice del vector que se está comparando
Y_{i} = vector de contorno F0
\overline{Y} = vector de la media aritmética del grupo
N = muestras en un vector
y = valor de la muestra
v_{i}= función de sonorización. 1 si la sonorización está activada, 0 si no lo está.
c = factor de escala (opcional)
Para cada patrón se tabula esta medida de distancia como en 62 y se puede elaborar un histograma como en 64. En la Figura 3 se incluye un ejemplo de histograma de este tipo, que muestra el gráfico de distribución del patrón acentual "1". En el gráfico, el eje de las X está en una escala arbitraria y el eje de las Y es la frecuencia de recuento de una distancia dada. Las disimilitudes empiezan a ser importantes alrededor de 1/3 del eje de las X.
Al elaborar histogramas como se ha explicado, se pueden evaluar las plantillas de prosodia para determinar cuánto se parecen las muestras entre sí y así, la medida en que la plantilla resultante corresponde a una entonación de sonido natural. Dicho de otra forma, el histograma indica si la función de agrupamiento (patrón acentual) representa adecuadamente las formas observadas. Una dispersión amplia indica que no lo representa bien, mientras que una gran concentración cerca del valor medio indica que hemos encontrado un patrón determinado solamente por la acentuación y, por ello, un buen candidato para la plantilla de prosodia. La Figura 4 muestra el gráfico correspondiente al contorno F0 medio para el patrón "1". El gráfico de datos de la Figura 4 corresponde al gráfico de distribución de la Figura 3. Hay que tener en cuenta que el gráfico de la Figura 4 representa las coordenadas logarítmicas normalizadas. Las partes inferior, media y superior corresponden a 50 Hz, 100 Hz y 200 Hz, respectivamente. La Figura 4 muestra el contorno F0 medio para el patrón de palabras monosílabas para que sea un contorno de elevación lenta.
La Figura 5 muestra los resultados de nuestro estudio F0 con respecto a la familia de patrones de palabras bisílabas. En la Figura 5, el patrón "10" se muestra en A, el patrón "01" se muestra en B y el patrón "12" se muestra en C. También en la Figura 5 aparece el patrón de contorno medio del grupo "010" de palabras trisílabas.
Al comparar los patrones de palabras bisílabas de la Figura 5, se observa la ubicación pico difiere al igual que la forma del contorno F0 global. El patrón "10" muestra un ascenso-caída con un pico en alrededor del 80% en la primera sílaba, mientras que el patrón "01" muestra un patrón ascenso-caída plano, con un pico en alrededor del 60% de la segunda sílaba. En estas figuras, la línea vertical denota el límite de la sílaba.
El patrón "12" es muy similar al patrón "10", pero una vez que F0 llega al punto de destino del ascenso, el patrón "12" tiene un tramo más largo en esta región F0 más alta. Esto implica que puede haber una acentuación secundaria.
El patrón "010" de la palabra trisílaba de la ilustración muestra una clara curva acampanada en la distribución y algunas anomalías. El contorno medio es un nivel tramo bajo seguido por un contorno de ascenso-caída con el pico F0 en alrededor del 85% en la segunda sílaba. Hay que tener en cuenta que algunas de las anomalías de esta distribución pueden corresponder a palabras mal pronunciadas en los datos de entrenamiento.
El histograma y las curvas de contorno medio se pueden calcular para todos los patrones diferentes reflejados en los datos de entrenamiento. Nuestros estudios demuestran que los contornos F0 y los patrones de duración producidos de esta manera son muy similares o idénticos a los de un hablante humano. Usando sólo el patrón acentual como característica diferencial, hemos descubierto que casi todos los gráficos de la distribución de similitud de las curvas F0 presentan una forma de curva acampanada diferente. Esto confirma que el patrón acentual es un criterio muy efectivo para asignar la información prosódica.
Con la elaboración de la plantilla de prosodia en mente, el módulo de generación de sonido 24 (Fig. 1) se explicará ahora con más detalle. La información prosódica extraída por el módulo de prosodia 18 se almacena en un formato normalizado de dominio logarítmico y de cambio de tono. Así, para usar las plantillas de prosodia, el módulo de generación de sonido primero debe denormalizar la información como se muestra en la Figura 6 que empieza en el paso 70. El proceso de denormalización primero traslada la plantilla (paso 72) a una altura adaptada al contorno de tonos de la oración modelo. Esta constante se da como parte de los datos recuperados para la oración modelo y se calcula con los coeficientes de la línea de regresión del contorno de tonos de esa oración. (Consulte la Figura 2, pasos 52-56).
Mientras tanto, se accede a la plantilla de duración y se denormaliza la información de duración para determinar el tiempo (en milisegundos) asociado con cada sílaba. Los valores del dominio logarítmico de las plantillas se transforman después en valores lineales en Hz en el paso 74. A continuación, en el paso 76, se remuestrea cada segmento silábico de la plantilla con una duración fija de cada punto (10 ms en la realización actual) de tal forma que la duración total de cada uno se corresponda con el valor del tiempo denormalizado especificado. De esta manera, el contorno de entonación se vuelve a situar en una línea de tiempo física. En este punto, los datos de las plantillas transformados están preparados para ser usados por el módulo de generación de sonido. Naturalmente, los pasos de la denormalización pueden ser llevados a cabo por cualquiera de los módulos que manejan la información prosódica. Así, los pasos de la denormalización que se ilustran en la Figura 6 pueden ser llevados a cabo por el módulo de generación de sonido 24 o por el módulo de prosodia 18.
La realización actualmente preferida almacena información de duración en forma de relaciones de valores de fonemas con respecto a valores de duración determinados globalmente. Los valores determinados globalmente corresponden a los valores de duración media observados en todo el corpus de entrenamiento. Los valores por sílaba representan la suma de las duraciones de los fonemas o grupos de fonemas observados en una sílaba dada. Las relaciones por sílaba/global se calculan y se promedian para rellenar cada elemento de la plantilla de prosodia. Estas relaciones se almacenan en la plantilla de prosodia y se usan para calcular la duración real de cada sílaba.
Obtener patrones prosódicos temporales detallados es algo más complicado que obtener los contornos F0. Esto se deben en gran medida al hecho de que un objetivo prosódico de alto nivel no se puede separar de las restricciones puramente articulatorias, meramente por medio del examen de datos segmentados individuales.
Diseño de la base de datos de prosodia
La estructura y la disposición de la base de datos de prosodia actualmente preferida se describe mejor en el diagrama de relaciones de la Figura 7 y por la siguiente especificación para el diseño de la base de datos. La especificación se incluye para ilustrar la realización preferida de la invención. Existen otras especificaciones posibles para el diseño de la base de datos.
NORMDATA
ND1D-Primary Key
Target-Key (WordID)
Sentence-Key (SentID)
SentencePos-Text
Follow-Key (WordlD)
Session-Key (SessID)
Recording-Text
Attributes-Text
WORD
WordlD-Primary Key
Spelling-Text
Phonemes-Text
Syllables-Number
Stress-Text
Subwords-Number
Origin-Text
Feature1-Number (Submorphs)
Feature2-Number
FRAMESENTENCE
SentID-Primary Key
Text
Type-Number
Syllables-Number
SESSION
SesslD-Primary Key
Speaker-Text
Date Recorded-Date/Time
Tape-Text
F0DATA
NDID-Key
Index-Number
Value-Currency
DURDATA
NDID-Key
Index-Number
Value-Currency
Abs-Currency
PHONDATA
NDID-Key
Phones-Text
Dur-Currency
Stress-Text
SylPos-Number
PhonPos-Number
Rate-Number
Parse-Text
RECORDING
ID
Our
A (y = A + Bx)
B (y = A + Bx)
Descript
GROUP
GrouplD-Primary Key
Syllables-Number
Stress-Text
Feature1-Number
Feature2-Number
SentencePos-Text
<Future exp.>
TEMPLATEF0
GrouplD-Key
Index-Number
Value-Number
TEMPLATEDUR
GrouplD-Key
Index-Number
Value-Number
DISTRIBUTIONF0
GrouplD-Key
Index-Number
Value-Number
DISTRIBUTIONDUR
GrouplD-Key
Index-Number
Value-Number
GROUPMEMBERS
GrouplD-Key
NDID-Key
DistanceF0-Currency
DistanceDur-Currency
PHONSTAT
Phones-Text
Mean-Curr.
SSD-Curr.
Min-Curr.
Max-Curr.
CoVar-Currency
N-Number
Class-Text
Descripción de los campos
NORMDATA
NDID Clave primaria
Target Palabra destino. Clave para la tabla WORD.
Sentence Oración modelo de origen. Clave para la tabla FRAMESENTENCE.
SentencePos Posición en la oración. INICIAL, MEDIAL, FINAL.
Follow Palabra que sigue a la palabra destino. Clave para la tabla WORD o 0 si no hay ninguna.
Session Sesión a la que pertenecía la grabación. Clave para la tabla SESSION.
Recording Identificador de grabación en directorios Unix (datos sin formato).
Attributes Información variada.
F = Datos F0 considerados anómalos.
D = Duración de los datos considerados anómalos.
A = F0 alternativo
B = Duración alternativa
PHONDATA
NDID Clave para NORMDATA
Phones Cadena de 1 ó 2 fonemas
Dur Duración total de los fonos
Stress Acentuación de la sílaba a la que pertenecen los fonos
SylPos Posición de la sílaba que contiene los fonos (contando desde 0)
PhonPos Posición de los fonos en la sílaba (contando desde 0)
Rate Medida de velocidad de la emisión
Parse L = Fonos creados por análisis izquierdo
R = Fonos creados por análisis derecho
PHONSTAT
Phones Cadena de 1 ó 2 fonemas
Mean Media estadística de la duración de los fonos
SSD Desviación estándar de la muestra
Min Valor mínimo observado
Max Valor máximo observado
CoVar Coeficiente de variación (Desviación estándar de la muestra /Media)
N Número de muestras para este grupo de fonos
Class Clasificación
A = Incluidas todas las muestras
Teniendo en cuenta lo anterior, es fácil de entender que la presente invención proporciona un aparato y un método para generar habla sintetizada, en la que la información prosódica que normalmente falta se aporta desde las plantillas elaboradas a partir de datos extraídos del habla humana. Como hemos demostrado, esta información prosódica se puede seleccionar en una base de datos de plantillas y aplicarse a la información fonémica por medio de un procedimiento de búsqueda basado en patrones acentuales asociados con el testo de las palabras introducidas.
La invención se puede aplicar a una amplia variedad de diferentes aplicaciones de conversión texto-habla y de síntesis de habla, incluidas las aplicaciones de gran dominio como las de lectura de libros de texto, y las aplicaciones de dominios más limitados, como las aplicaciones de navegadores de coche o de traducción de libros de frases. En el caso del dominio limitado, se puede designar al principio un pequeño conjunto de oraciones modelo fijas, y sustituirse una palabra destino en esa frase por una palabra arbitraria (como un nombre propio o el nombre de una calle). En este caso, el tono y el tiempo de las oraciones modelo se puede medir y almacenar desde el habla real, asegurando así una prosodia muy natural para la mayor parte de la oración. La palabra destino es entonces la única en la que hay que controlar el tono y el tiempo usando las plantillas de prosodia de la invención.

Claims (11)

1. Un método para entrenar una plantilla de prosodia usando habla humana, que comprende:
segmentación de las palabras de una oración (32) de habla humana en fonemas asociados con las sílabas de dichas palabras;
asignación de niveles de acentuación (36) a dichas sílabas;
agrupamiento de dichas palabras (40) de acuerdo con los dichos niveles de acentuación formando de este modo por lo menos un grupo de patrones acentuales;
normalización de los datos de entonación (42) para cada palabra de un grupo dado de patrones acentuales con respecto al tiempo, formando de este modo datos de entonación normalizados;
ajuste del cambio de tono (46) de dichos datos de entonación normalizados, formando así datos de entonación ajustados; y
cálculo de un valor medio de los datos de entonación ajustados y almacenamiento del valor medio en una base de datos prosódica (50) en forma de plantilla.
2. El método de la reivindicación 1 en el que los dichos datos de entonación normalizados se basan en el remuestreo de los dichos datos de entonación para una serie de puntos de entonación.
3. El método de la reivindicación 1 en el que el paso de ajustar mejor el cambio del tono consiste en transformar los datos de entonación normalizados a un dominio logarítmico.
4. El método de la reivindicación 1 en el que los datos de entonación se definen mejor como datos de tono fundamental (F0).
5. El método de la reivindicación 3 que además comprende el paso de:
formación (54) de un punto de elevación para dicha palabra, basándose dicho punto de elevación en regresión lineal de dichos datos transformados y un límite del extremo de la palabra.
6. El método de la reivindicación 5 en el que dicho punto de elevación se ajusta (56) como un punto de referencia común.
7. El método de la reivindicación 6 que consiste en producir una constante que represente una denormalización basada en un coeficiente de regresión lineal de un contorno de tonos de la oración modelo.
8. El método de la reivindicación 6 que además comprende el paso de:
evaluar una plantilla de duración de manera factible que permita la denormalización de una información de duración, asociando así un valor de tiempo con cada una de dichas sílabas.
9. El método de la reivindicación 8 que además comprende el paso de:
transformar (74) los valores del dominio logarítmico de dicha plantilla de duración en valores lineales.
10. El método de la reivindicación 8 que además comprende el paso de:
remuestrear (76) cada segmento silábico de la plantilla para obtener una duración fija tal que la duración total de cada uno de los dichos segmentos silábicos corresponda a los dichos valores de tiempo denormalizados, de manera que un contorno de entonación se asocie con una línea de tiempo física.
11. El método de la reivindicación 9 que además comprende los pasos de:
almacenar información de duración en forma de relaciones de valores fonémicos con respecto a valores de duración determinados globalmente, estando basados dichos valores de duración determinados globalmente en valores de duración medios a lo largo de todo un corpus completo de entrenamiento.
basar valores por sílaba en una suma de los fonemas observados; y
rellenar la dicha plantilla de prosodia con una relación de los dichos valores por sílaba frente a relaciones globales, de tal manera que permita el cálculo de una duración real de cada una de dichas sílabas.
ES99309292T 1998-11-25 1999-11-22 Sintesis de habla utilizando pastillas prosodicas. Expired - Lifetime ES2218959T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US200027 1998-11-25
US09/200,027 US6260016B1 (en) 1998-11-25 1998-11-25 Speech synthesis employing prosody templates

Publications (1)

Publication Number Publication Date
ES2218959T3 true ES2218959T3 (es) 2004-11-16

Family

ID=22740012

Family Applications (1)

Application Number Title Priority Date Filing Date
ES99309292T Expired - Lifetime ES2218959T3 (es) 1998-11-25 1999-11-22 Sintesis de habla utilizando pastillas prosodicas.

Country Status (5)

Country Link
US (1) US6260016B1 (es)
EP (1) EP1005018B1 (es)
JP (1) JP2000172288A (es)
DE (1) DE69917415T2 (es)
ES (1) ES2218959T3 (es)

Families Citing this family (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076426B1 (en) * 1998-01-30 2006-07-11 At&T Corp. Advance TTS for facial animation
JP3361066B2 (ja) * 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
US7117532B1 (en) * 1999-07-14 2006-10-03 Symantec Corporation System and method for generating fictitious content for a computer
WO2001006386A1 (en) * 1999-07-14 2001-01-25 Recourse Technologies, Inc. System and method for dynamically changing a computer port or address
US6981155B1 (en) * 1999-07-14 2005-12-27 Symantec Corporation System and method for computer security
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US7203962B1 (en) 1999-08-30 2007-04-10 Symantec Corporation System and method for using timestamps to detect attacks
US6496801B1 (en) * 1999-11-02 2002-12-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words
US7386450B1 (en) * 1999-12-14 2008-06-10 International Business Machines Corporation Generating multimedia information from text information using customized dictionaries
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
US6785649B1 (en) * 1999-12-29 2004-08-31 International Business Machines Corporation Text formatting from speech
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6542867B1 (en) * 2000-03-28 2003-04-01 Matsushita Electric Industrial Co., Ltd. Speech duration processing method and apparatus for Chinese text-to-speech system
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
US6513008B2 (en) * 2001-03-15 2003-01-28 Matsushita Electric Industrial Co., Ltd. Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US7024362B2 (en) * 2002-02-11 2006-04-04 Microsoft Corporation Objective measure for estimating mean opinion score of synthesized speech
US20040198471A1 (en) * 2002-04-25 2004-10-07 Douglas Deeds Terminal output generated according to a predetermined mnemonic code
US20030202683A1 (en) * 2002-04-30 2003-10-30 Yue Ma Vehicle navigation system that automatically translates roadside signs and objects
US7200557B2 (en) * 2002-11-27 2007-04-03 Microsoft Corporation Method of reducing index sizes used to represent spectral content vectors
US6988069B2 (en) * 2003-01-31 2006-01-17 Speechworks International, Inc. Reduced unit database generation based on cost information
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US7308407B2 (en) * 2003-03-03 2007-12-11 International Business Machines Corporation Method and system for generating natural sounding concatenative synthetic speech
US7386451B2 (en) * 2003-09-11 2008-06-10 Microsoft Corporation Optimization of an objective measure for estimating mean opinion score of synthesized speech
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
JP4738057B2 (ja) * 2005-05-24 2011-08-03 株式会社東芝 ピッチパターン生成方法及びその装置
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
RU2427077C2 (ru) * 2005-12-05 2011-08-20 Телефонактиеболагет Лм Эрикссон (Пабл) Обнаружение эхосигнала
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
US8135590B2 (en) 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8175879B2 (en) * 2007-08-08 2012-05-08 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
CN101814288B (zh) * 2009-02-20 2012-10-03 富士通株式会社 使语音合成时长模型自适应的方法和设备
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8731931B2 (en) 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US8965768B2 (en) * 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9928832B2 (en) * 2013-12-16 2018-03-27 Sri International Method and apparatus for classifying lexical stress
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9685169B2 (en) * 2015-04-15 2017-06-20 International Business Machines Corporation Coherent pitch and intensity modification of speech signals
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5796916A (en) 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
CA2119397C (en) 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5642520A (en) 1993-12-07 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for recognizing topic structure of language data
US5592585A (en) 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
US5696879A (en) 1995-05-31 1997-12-09 International Business Machines Corporation Method and apparatus for improved voice transmission
US5704009A (en) 1995-06-30 1997-12-30 International Business Machines Corporation Method and apparatus for transmitting a voice sample to a voice activated data processing system
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US5878393A (en) * 1996-09-09 1999-03-02 Matsushita Electric Industrial Co., Ltd. High quality concatenative reading system
US5905972A (en) 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
US5966691A (en) * 1997-04-29 1999-10-12 Matsushita Electric Industrial Co., Ltd. Message assembler using pseudo randomly chosen words in finite state slots

Also Published As

Publication number Publication date
EP1005018B1 (en) 2004-05-19
DE69917415T2 (de) 2005-06-02
JP2000172288A (ja) 2000-06-23
US6260016B1 (en) 2001-07-10
EP1005018A3 (en) 2001-02-07
DE69917415D1 (de) 2004-06-24
EP1005018A2 (en) 2000-05-31

Similar Documents

Publication Publication Date Title
ES2218959T3 (es) Sintesis de habla utilizando pastillas prosodicas.
ES2243200T3 (es) Generacion y sintesis de plantillas de prosodia.
ES2261355T3 (es) Correspondencia de plantillas prosodicas para sistemas de conversion de texto en habla.
CN101156196A (zh) 混合语音合成器、方法和使用
US7069216B2 (en) Corpus-based prosody translation system
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
Chu et al. A concatenative Mandarin TTS system without prosody model and prosody modification.
Chu et al. Modeling stylized invariance and local variability of prosody in text-to-speech synthesis
Hwang et al. A Mandarin text-to-speech system
Chen et al. A Mandarin Text-to-Speech System
Lobanov et al. TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian)
Gahlawat et al. Integrating human emotions with spatial speech using optimized selection of acoustic phonetic units
Langarani et al. Data-driven foot-based intonation generator for text-to-speech synthesis.
Tao F0 Prediction model of speech synthesis based on template and statistical method
Swee The Design and Verification of Malay Text To Speech Synthesis System
Rao Modeling supra-segmental features of syllables using neural networks
Gu et al. Model spectrum-progression with DTW and ANN for speech synthesis
Deborah et al. Development of a Mobile Tourist Assistance for a Local Language
Narupiyakul et al. A stochastic knowledge-based Thai text-to-speech system
Karpiński Dimensions of intonation. Wiktor Jassem’s contribution to the studies on the melody of speech
Singh Text to Speech (On Device)
Schlünz Usability of text-to-speech synthesis to bridge the digital divide in South Africa: Language practitioner perspectives
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
Alabbad An Investigation into Approaches to Text-to-Speech Synthesis for Modern Standard Arabic
Afolabi et al. Implementation of Yoruba text-to-speech E-learning system