ES2243200T3 - Generacion y sintesis de plantillas de prosodia. - Google Patents

Generacion y sintesis de plantillas de prosodia.

Info

Publication number
ES2243200T3
ES2243200T3 ES00301820T ES00301820T ES2243200T3 ES 2243200 T3 ES2243200 T3 ES 2243200T3 ES 00301820 T ES00301820 T ES 00301820T ES 00301820 T ES00301820 T ES 00301820T ES 2243200 T3 ES2243200 T3 ES 2243200T3
Authority
ES
Spain
Prior art keywords
duration
phonemes
grouping
syllable
syllables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00301820T
Other languages
English (en)
Inventor
Frode Holm
Kazue Hata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of ES2243200T3 publication Critical patent/ES2243200T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Un sistema de generación de plantillas para la generación de una plantilla de duración a partir de una pluralidad de palabras de entrada, que se caracteriza por comprender: un procesador fonético (40) que permite segmentar cada una de dichas palabras de entrada en fonemas de entrada y agrupar dichos fonemas de entrada en sílabas constitutivas, cada una de las cuales tiene una duración de sílaba asociada; un módulo de agrupamiento de texto (38) que permite identificar características de agrupamiento asociadas con cada una de las sílabas constitutivas, seleccionándose dichas características de agrupamiento del grupo que comprende: patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical, un módulo de agrupamiento de fonemas (42) que permite determinar un valor de la duración media para cada fonema de entrada basado en cada caso del fonema de entrada en la pluralidad de palabras de entrada y almacenar el valor de la duración media en una tabla estática global (32); un módulo de normalización (44) que se puede activar para generar un valor de duración normalizada para cada una de dichas sílabas constitutivas, en el cual dicho valor de duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración media es de los fonemas de entrada que constituyen la sílaba constitutiva; el módulo de normalización permite además agrupar sílabas constitutivas de acuerdo con la característica de agrupamiento y construir una plantilla de duración (36) basada en los valores de duración normalizada para las sílabas constitutivas que tienen una característica de agrupamiento dada.

Description

Generación y síntesis de plantillas de prosodia.
Antecedentes y resumen de la invención
La presente invención está relacionada en general con los sistemas de conversión texto-habla y de síntesis de habla. Más particularmente, la invención se refiere a un sistema para generar plantillas de duración que se pueden utilizar en un sistema de texto-habla para proporcionar síntesis de habla de sonido más natural.
A lo largo de la historia de estas tecnologías, la tarea de generar una prosodia natural similar a la del habla humana para los sistemas de conversión texto-habla y de síntesis de habla ha sido uno de los problemas más difíciles de resolver al que se han tenido que enfrentar los investigadores y los programadores. Los sistemas texto-habla en general se han ganado su mala fama debido a su prosodia antinatural con entonaciones "robóticas" o ritmo y tiempo incorrectos de las oraciones. Para resolver este problema, algunos sistemas anteriores han usado redes neurales y algoritmos de agrupamiento vectorial para intentar simular la prosodia de sonido natural. Además de haber tenido un éxito muy limitado, estas técnicas informáticas de "caja negra" no proporcionan al programador ninguna información sobre cuales son los parámetros cruciales de la prosodia de sonido natural.
La presente invención aprovecha un planteamiento distinto que se ha revelado en una solicitud de patente anterior titulada "Síntesis de habla utilizando plantillas de prosodia". En el planteamiento revelado, se utilizan muestras de habla humana real para desarrollar plantillas de prosodia. Las plantillas definen una relación entre los patrones de acentuación de las sílabas y ciertas variables prosódicas como la entonación (F0) y la duración, concentrándose especialmente en las plantillas F0. Así, a diferencia de los planteamientos algorítmicos anteriores, el planteamiento revelado utiliza los atributos lexicológicos y acústicos del habla natural (por ejemplo, patrón de acentuación, número de sílabas, entonación, duración) que el investigador y el programador pueden observar y entender directamente.
El planteamiento revelado anteriormente almacena las plantillas de prosodia para entonación (F0) e información de la duración en una base de datos a la que se accede especificando el número de sílabas y el patrón de acentuación asociado con una palabra dada. Se incluye un diccionario de palabras para dotar al sistema con la información necesaria relativa a número de sílabas y patrones acentuales. Usando el diccionario de palabras, el procesador de texto identifica el patrón acentual de las palabras introducidas y genera sus representaciones fonémicas. Luego, un módulo de prosodia accede a las plantillas de la base de datos, usando para ello la información de número de sílabas y de patrón acentual. El sistema obtiene en la base de datos una plantilla de prosodia para la palabra dada y lo usa para proporcionar información prosódica al módulo de generación de sonido que sintetiza el habla a partir de la representación fonémica y de la información prosódica.
El planteamiento revelado anteriormente se centra en el habla a nivel de palabra. Las palabras se dividen en sílabas y así representan la unidad básica de la prosodia. El patrón de acentuación definido por las sílabas determina las características perceptivas más importantes tanto de la entonación (F0) como de la duración. A este nivel de granularidad, el conjunto de plantillas es bastante pequeño y fácil de implementar en los sistemas de conversión texto-habla y de síntesis de habla. Si bien actualmente se prefiere un análisis prosódico a nivel de palabra que use sílabas, las técnicas de plantillas de prosodia de la invención se pueden usar en sistemas con otros niveles de granularidad. Por ejemplo, el conjunto de plantillas se puede ampliar para que admita más características de agrupamiento, tanto a nivel de sílaba como de palabra. A este respecto, la modificación de la duración (por ejemplo, alargamiento) causada por la posición en la frase u oración y el tipo de esta, estructura de los segmentos de una sílaba y representación fonética se pueden usar como atributos con los cuales se pueden clasificar ciertos patrones prosódicos.
Aunque los sistemas de texto-habla basados en plantillas de prosodia que se obtienen de muestras de habla humana real han ofrecido la promesa de síntesis del habla muy mejorada, esos sistemas han estado limitados por la dificultad de construir plantillas de duración adecuadas. Para obtener patrones prosódicos temporales, las cantidades puramente segmentales de los tiempos se tienen que descomponer en factores a partir de los efectos prosódicos a mayor escala. Esto ha resultado ser mucho más difícil que construir plantillas F0, en las cuales la información de entonación se puede obtener examinando visualmente datos F0 individuales.
En "Modelling segmental duration in German text to speech synthesis", Bernard Möbius y Jann van Santen, Proceedings of the International Conference on Spoken Language Processing October 03, 1996 XP002121563, se revela un modelo para duración segmental en alemán. Las palabras de entrada se segmentan en fonemas y se revela un modelo de duración que predice la duración de los sonidos del habla en varios contextos textuales prosódicos y segmentales. Para cada segmento, se crea un vector de características tal que sus componentes capturan variaciones contextuales de la duración del segmento. Para cada segmento, se crea una plantilla de duración.
En "Template driven generation of prosodic information for Chinese Concatenative synthesis", C H Wu y J H Chen, Phoenix, Arizona, 15 - 19 de marzo, 1999, Nueva York, IEEE, 15 de marzo, 1999, páginas 65 - 68 XP000898264 ISBN: 0-7803-5042-1, se revela la generación por plantillas de información prosódica para conversión texto-habla en chino. Se usa una base de datos de habla para establecer un árbol de plantillas basadas en palabra-prosodia. El árbol de plantillas almacena características prosódicas que incluye duración de sílabas de una palabra para posibles combinaciones de características lingüísticas.
En "Assignment of segmental duration in text to speech synthesis", Jann P H van Santen, Computer Speech and Language, Academic Press, Londres, Volumen 8, número 2, 1 de abril, 1994, páginas 95 - 128, XP00501471, ISSN: 0885-2308, se revela un módulo para calcular la duración segmental en el cual los modelos de duración usados consisten en ecuaciones de sumas y productos.
Realizaciones específicas reveladas aquí, presentan un método de separar comportamiento prosódico de alto nivel de limitaciones puramente de articulación de manera que es posible extraer información de tiempo de alto nivel del habla humana. La información de tiempo extraída se usa para construir plantillas de duración que se utilizan para síntesis de habla. Inicialmente, las palabras de texto de entrada se segmentan en fonemas y sílabas y se asigna el patrón de acentuación asociado. A las palabras a las que se ha asignado acentuación se les pueden asignar entonces características de agrupamiento mediante un módulo de agrupamiento de texto. Un módulo de agrupamiento de fonemas agrupa entonces los fonemas en pares de fonemas y fonemas individuales. Se recupera de una tabla estática global una duración estática asociada con cada par de fonemas y con cada fonema individual. Un módulo de normalización genera un valor de duración normalizada para una sílaba basado en el acortamiento o alargamiento de las duraciones estáticas globales asociadas con los fonemas que comprenden la sílaba. El valor de la duración normalizada se almacena en la plantilla de duración sobre la base de las características de agrupamiento asociadas con esa
sílaba.
Según un primer aspecto de la presente invención se proporciona un sistema de generación de plantillas para la generación de una plantilla de duración a partir de una pluralidad de palabras de entrada, que se caracteriza por comprender:
un procesador fonético (40) que permite segmentar cada una de dichas palabras de entrada en fonemas de entrada y agrupar dichos fonemas de entrada en sílabas constitutivas cada una de las cuales tiene una duración de sílaba asociada;
un módulo de agrupamiento de texto (38) que permite identificar características de agrupamiento asociadas con cada una de las sílabas constitutivas, seleccionándose dichas características de agrupamiento del grupo que comprende:
patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical,
un módulo de agrupamiento de fonemas (42) que permite determinar un valor de la duración media para cada fonema de entrada basado en cada caso del fonema de entrada en la pluralidad de palabras de entrada y almacenar el valor de la duración media en una tabla estática global (32);
un módulo de normalización (44) que se puede activar para generar un valor de duración normalizada para cada una de dichas sílabas constitutivas, en el cual dicho valor de duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración media es de los fonemas de entrada que constituyen la sílaba constitutiva;
el módulo de normalización permite además agrupar sílabas constitutivas de acuerdo con la característica de agrupamiento y construir una plantilla de duración (36) basada en los valores de duración normalizada para las sílabas constitutivas que tienen una característica de agrupamiento dada.
Según el segundo aspecto de la presente invención se proporciona un método de generar una plantilla de duración a partir de una pluralidad de palabras de entrada, el cual comprende los pasos de:
segmentar cada una de dichas palabras de entrada en fonemas de entrada caracterizados por:
agrupar (56) los fonemas de entrada en sílabas constitutivas que tienen una duración de sílaba asociada;
asignar una característica de agrupamiento (58) a cada una de las sílabas constitutivas, la cual se selecciona del grupo que comprende:
patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical,
determinar datos de duración representativos para cada fonema de entrada sobre la base de cada caso del fonema de entrada en la pluralidad de palabras de entrada;
generar un valor de duración normalizada para cada sílaba constitutiva, para lo cual dicha duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración medios de los fonemas de entrada que constituyen la sílaba constitutiva;
agrupar (56) sílabas constitutivas de acuerdo con la característica de agrupamiento; y
formar (84 - 102) una plantilla de duración para sílabas constitutivas que tienen una característica de agrupamiento dada, donde la plantilla de duración se obtiene de los valores de duración normalizada para las sílabas constitutivas que tienen la característica de agrupamiento dada.
Según un tercer aspecto de la presente invención, se proporciona un método de denormalizar datos de duración contenidos en una plantilla de duración, caracterizándose dicho método por comprender los pasos de:
proporcionar palabras objetivo para sintetizar mediante un sistema de texto-habla;
segmentar (52) cada una de dichas palabras de entrada en fonemas de entrada;
agrupar (56) los fonemas de entrada en sílabas constitutivas que tienen una duración de sílaba asociada;
agrupar (68 - 82) los fonemas de entrada en pares de fonemas de entrada y fonemas individuales de entrada;
recuperar información de duración estática (62) asociada con fonemas almacenados en una tabla estática global (30), en la cual los fonemas almacenados corresponden a los fonemas de entrada que constituyen cada una de las sílabas constitutivas;
recuperar un valor de duración normalizada para cada una de las sílabas constitutivas de una plantilla de duración asociada (36); y
generar una duración de sílaba denormalizada multiplicando el valor de duración normalizada para cada sílaba constitutiva por la suma del valor de la duración media de los fonemas almacenados correspondientes a los fonemas de entrada que constituyen la sílaba constitutiva.
Para comprender mejor la invención, sus objetivos y sus ventajas, hay que referirse a la siguiente memoria y a los dibujos.
Breve descripción de las ilustraciones
La figura 1 es un diagrama de bloques de un sintetizador de habla que utiliza plantillas de prosodia;
la figura 2 es un diagrama de bloques de un aparato para generar plantillas de duración prosódica;
la figura 3 es un diagrama de flujo que ilustra el procedimiento para recoger datos temporales;
la figura 4 es un diagrama de flujo que ilustra el procedimiento para crear una tabla estática global.
la figura 5 es un diagrama de flujo que ilustra el procedimiento para el agrupamiento de fonemas en pares; y
la figura 6 es un diagrama de flujo que ilustra el procedimiento síntesis prosódica empleado por la realización preferida.
Descripción de la realización preferida
Cuando un hablante humano lee un texto, el tono sube y baja, las sílabas son enunciadas con mayor o menor intensidad, las vocales se alargan y se acortan y se insertan pausas, todo lo cual confiere al pasaje hablado un ritmo definido. Estas características constituyen algunos de los atributos a los que los investigadores del habla dan el nombre de prosodia. Los hablantes humanos añaden información prosódica de manera automática cuando leen un pasaje de texto en voz alta. La información prosódica expresa la interpretación que el lector hace del material. Esta interpretación es un producto de la experiencia humana, ya que el texto impreso contiene poca información prosódica directa.
Cuando un sistema de síntesis de habla implementado en un ordenador lee o recita un pasaje de texto, esta prosodia de sonido humano está ausente en los sistemas convencionales. Es muy simple: el propio texto prácticamente no contiene información prosódica y por ello, el sintetizador de voz convencional tiene poco en lo que basarse para generar la información prosódica que falta. Como ya se ha indicado, los intentos anteriores de añadir información prosódica se han centrado en técnicas basadas en reglas y en técnicas de redes neurales, o en técnicas algorítmicas, como las técnicas de agrupamiento vectorial. El habla generada mediante técnicas basadas en reglas, simplemente no suena natural, y las técnicas algorítmicas y de red neural no se pueden adaptar ni se pueden usar para extraer las conclusiones necesarias para modificarlas ni para aplicarlas fuera del conjunto de entrenamiento usado para generarlas.
La figura 1 ilustra un sintetizador de habla que utiliza tecnología de plantillas de prosodia. En el caso de la figura 1, se suministra un texto de entrada 10 al módulo procesador de texto 12 como una oración marco que comprende una secuencia o cadena de letras que define palabras. Las palabras se definen respecto a la oración marco mediante características tales como posición en la oración, tipo de oración, posición en la frase y categoría gramatical. El procesador de texto 12 tiene un diccionario de palabras asociado 14 que contiene información acerca de las palabras almacenadas. El diccionario de palabras tiene una estructura de datos que se ilustra en 16 según la cual las palabras se almacenan junto con características asociadas de agrupamiento de palabras y oraciones. Más concretamente, en la realización actualmente preferida de la invención, cada palabra del diccionario va acompañada por su representación fonémica, información que identifica los límites sintácticos, información que designa la manera de asignar la acentuación a cada sílaba y la duración de cada sílaba constitutiva. Aunque la presente realización no incluye características de agrupamiento de oraciones en el diccionario de palabras 14, está dentro del ámbito de la invención que incluya características de agrupamiento con el diccionario de palabras 14. Por consiguiente, el diccionario de palabras 14 contiene, en forma susceptible de búsqueda electrónica, la información básica necesaria para generar una pronunciación de la palabra.
El procesador de texto 12 se acopla además al módulo de prosodia 18 que tiene asociada la base de datos de plantillas de prosodia 20. Las plantillas de prosodia almacenan datos de entonación (F0) y de duración para cada uno de los diferentes patrones de acentuación. El patrón acentual de una sola palabra "1" constituye una primera plantilla, el patrón de palabras bisílabas "10" constituye una segunda plantilla, el patrón "01" constituye otra plantilla, y así sucesivamente. Las plantillas se almacenan en la base de datos mediante el agrupamiento de características tales como patrón de acentuación de la palabra y posición en la oración. En la presente realización, el patrón de acentuación asociado con una palabra dada sirve como clave de acceso a la base de datos con la cual el módulo de prosodia 18 de recuperar la información asociada de entonación y duración. El módulo de prosodia 18 determina el patrón acentual asociado con una palabra dada por medio de la información que le ha suministrado el procesador de texto 12. El procesador de texto 12 obtiene esta información mediante el diccionario de palabras 14.
Tanto el procesador de texto 12 como el módulo de prosodia 18, suministran información al módulo de generación de sonido 24. Concretamente, el procesador de texto 12 suministra información fonémica obtenida en el diccionario de palabras 14 y el módulo de prosodia 18 suministra la información prosódica (por ejemplo, sobre entonación y duración). El módulo de generación de sonido genera entonces habla sintetizada basándose en la información fonémica y prosódica.
La presente invención aborda el problema de la prosodia mediante el uso de plantillas de duración y F0 vinculadas a características de agrupamiento tales como los patrones de acentuación de sílabas propios de las palabras habladas. Más concretamente, la invención proporciona un método de extraer y almacenar información de duración de habla grabada. Esta información de duración almacenada se captura dentro de una base de datos y se organiza de acuerdo con características de agrupamiento tales como patrones de acentuación de las sílabas.
La realización actualmente preferida codifica la información prosódica en un formato estandarizado en el que la información prosódica es normalizada y parameerizada para simplificar su almacenamiento y su recuperación en la base de datos 20. El módulo de prosodia 18 denormaliza y convierte las plantillas estandarizadas a un formato que se puede aplicar a la información fonémica suministrada por el procesador de texto 12. Este proceso se describirá con más detalle más adelante. Sin embargo, primero, se describirán detalladamente las plantillas de duración y su elaboración.
En la figura 2 se ilustra un aparato para generar plantillas de duración adecuadas. Para descomponer correctamente en factores cantidades puramente de tiempos de segmentos a partir de los efectos prosódicos a mayor escala, se ha ideado un esquema para capturar primero las características naturales de duración segmental. En la realización actualmente preferida las plantillas de duración se construyen utilizando oraciones que tienen nombres propios en diversas posiciones de la oración. La implementación actualmente preferida se construyó utilizando aproximadamente 2.000 grabaciones etiquetadas (palabras individuales) emitidas por una hablante femenina de inglés americano. Las oraciones se pueden suministrar también como una colección de oraciones pregrabadas o en un marco fabricado. Las palabras se introducen como texto de muestra 34 que se segmenta en fonemas antes de agruparlas en sílabas constitutivas y de asignarlas características de agrupamiento asociadas tales como patrón de acentuación de las sílabas. Aunque en la realización actualmente preferida el texto de muestra se introduce como palabras grabadas, está dentro del alcance de la invención la introducción de texto de muestra 34 como oraciones no grabadas y asignar características de agrupamiento de frases y oraciones además de características de agrupamiento a las sílabas segmentadas subsiguientemente. Las sílabas y la información relacionada se almacenan en una base de datos de palabras 30 para su posterior manipulación en la creación de una tabla estática global 32 y plantillas de duración 36. Las estadísticas globales de duración estática tales como media, desviación estándar, duración mínima, duración máxima y covariancia que se derivan de la información de la base de datos de palabras 30 se almacenan en la tabla estática global 32. Se construyen plantillas de duración a partir de estadísticas de duración de sílabas que se normalizan respecto a las estadísticas de duración estáticas almacenadas en la tabla estática global 32. Las estadísticas de duración normalizada para sílabas se almacenan en plantillas de duración 36 que están organizadas de acuerdo con características de agrupamiento. A continuación hay más detalles sobre la construcción de la tabla estática global 32, plantillas de duración 36 y el proceso de segmentación de sílabas en fonemas.
En la figura 3, en adición a la figura 2, se ilustra la recogida de datos temporales. En el paso 50, se introduce el texto de muestra 34 para proporcionar datos de duración. El texto de muestra 34 se preprocesa inicialmente por medio de un módulo de procesador fonético 38 que en el paso 52 utiliza una herramienta de etiquetado automático basado en HMM y una herramienta de transformación en sílabas automática para segmentar palabras en fonemas de entrada y agrupar los fonemas de entrada en sílabas respectivamente. El etiquetado automático va seguido por una corrección manual para cada cadena. Luego, en el paso 54, el patrón de acentuación para las palabras objetivo se asigna de oído usando tres niveles de acentuación distintos. Se designan mediante los números 0, 1 y 2. Los niveles de acentuación son los siguientes:
\newpage
0 sin acentuación
1 acentuación primaria
2 acentuación secundaria
Según la realización preferida, se considera que las palabras monosilábicas tienen un patrón acentual sencillo que corresponde al nivel de acentuación primaria "1". Las palabras con más de una sílaba pueden tener diferentes combinaciones de patrones de nivel de acentuación. Por ejemplo, las palabras bisílabas pueden tener los patrones de acentuación "10", "01" y "12". La realización actualmente preferida emplea una plantilla de duración para cada combinación diferente de patrones de acentuación. Así, el patrón de acentuación "1" tiene una primera plantilla de duración, el patrón de acentuación "10" tiene una plantilla diferente, y así sucesivamente. Al marcar el límite de la sílaba, se obtienen medidas estadísticas de duración mejoradas cuando el límite se marca de acuerdo con criterios perceptivos en lugar de criterios espectrales. Cada sílaba se escucha individualmente y el marcador se sitúa donde no se percibe ningún "residuo" rítmico en ninguno de los lados.
Aunque en la implementación actualmente preferida se utiliza una asignación de acentuación de tres niveles, está dentro del ámbito de la invención aumentar o disminuir el número de niveles. La subdivisión de palabras en sílabas y fonemas y la asignación de niveles de acentuación se puede hacer manualmente o con la ayuda de un rastreador automático o semiautomático. A este respecto, el preprocesamiento del habla de entrenamiento es una tarea que requiere bastante tiempo, si bien solamente hay que llevarla a cabo una vez durante el desarrollo de las plantillas de prosodia. Se requiere gran precisión en el etiquetado y en la asignación de acentuaciones a los datos para asegurar la exactitud y reducir el nivel de ruido en el posterior análisis estadístico.
Después de haber etiquetado las palabras y haber asignado acentuaciones, se pueden agrupar de acuerdo con el patrón de acentuación u otras características de agrupamiento tales como representación fonética, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical. En la realización actualmente preferida las palabras se agrupan por patrón de acentuación. Como se ilustra en el paso 56, las palabras monosílabas constituyen un primer grupo. Las palabras bisílabas constituyen cuatro grupos más: los grupos "10", "01", "12" y "21". Las palabras trisílabas, de cuatro sílabas, etc., hasta las palabras de n sílabas se pueden agrupar de manera similar según patrones de acentuación. En el paso 58 se pueden asignar además a las palabras otras características de agrupamiento. En el paso 60, los datos procesados se almacenan en una base de datos de palabras 30 organizados por características de agrupamiento, palabras, sílabas y otros criterios pertinentes. La base de datos de palabras proporciona una recogida centralizada de información prosódica que está disponible para manipulación y extracción de datos en la construcción de la tabla estática global y plantillas de duración.
En las figuras 2 y 4 se ilustra la generación de la tabla estática global 32. La tabla estática global 32 proporciona una base de datos global de datos de duración estática de fonemas para utilizarlos en la normalización de la información de duración de fonemas para construir las plantillas de duración. El cuerpo segmentado completo está contenido dentro de la tabla estática global 32. En el paso 62 la información de duración relacionada con una sílaba se recupera de la base de datos de palabras 30. En el paso 64, se accede al módulo de agrupamiento de fonemas 42 para agrupar esos fonemas en pares de fonemas y fonemas individuales.
En las figuras 2 y 5, se ilustra el módulo de agrupamiento de fonemas. El módulo de agrupamiento de fonemas 42 selecciona los fonemas que se tienen que agrupar por pares sobre la base de un criterio de solapamiento de segmentos o, dicho de otra manera, la dificultad de segmentar manualmente la sílaba en cuestión. En el paso 68, se explora de izquierda a derecha la cadena de sílabas para determinar si contiene una combinación señalada como objetivo. En la presente realización, ejemplos de combinaciones señaladas como objetivo incluyen lo siguiente
a)
"L" o "R" o "Y" o "W" seguidas por una vocal,
b)
Una vocal seguida por "L" o "R" o "N" o "M" o "NG",
c)
Una vocal y "R" seguidas por "L",
d)
Una vocal y "L" seguidas por "R",
e)
"L" seguida por "M" o "N", y
f)
Dos vocales consecutivas.
En el paso 70, se eliminan de la cadena las combinaciones señaladas como objetivo y en el paso 72 se calculan los datos de duración para el par de fonemas correspondiente a la combinación señalada como objetivo mediante la recuperación de datos de la base de datos de palabras 30. Los datos de duración para el par de fonemas se almacenan en la tabla estática global 32, ya sea como una nueva entrada o bien acumulados en una entrada existente para ese par de fonemas. Aunque en la realización preferida se registran la media, desviación estándar, duración máxima y mínima y covariancia para el par de fonemas, también están dentro del ámbito de la invención otras medidas estadísticas. El resto de la cadena de sílabas se explora para localizar otras combinaciones señaladas como objetivo que también se eliminan y los datos de duración para el par se calculan e introducen en la tabla estática global 32. Una vez eliminados todos los pares de fonemas de la cadena de sílabas sólo quedan fonemas individuales. En el paso 74, se recuperan los datos de duración para los fonemas individuales de la base de datos de palabras 30 y se almacenan en la tabla estática global 32.
En el paso 76, la cadena de sílabas se explora entonces de derecha a izquierda para determinar si la cadena contiene una de las combinaciones señaladas como objetivo indicadas anteriormente. Los pasos 78, 80 y 82 repiten entonces la operación de los pasos 70 a 74 para explorar pares de fonemas y fonemas individuales e introducir los datos de duración calculados en la tabla estática global 32. Aunque la exploración de izquierda a derecha además de la exploración de derecha a izquierda produce cierto solapamiento, y por lo tanto una posible asimetría, la precisión estadística aumentada para cada entrada individual compensa sobradamente esta fuente potencial de error. Después del paso 82, el control vuelve al módulo de generación de la tabla estática global que continúa funcionando hasta que se han segmentado todas las sílabas de cada palabra. En la implementación actualmente preferida, se calcula la media de todos los datos para un par de fonemas o un fonema individual dados, independientemente de la característica de agrupamiento y esta media se usa para poblar la tabla estática global 32. Aunque el cálculo de medias aritméticas de los datos da buenos resultados, también puede emplearse si se desea otro procesamiento estadís-
tico.
En las figuras 2 y 6 se ilustra el procedimiento para construir una plantilla de duración. Obtener patrones prosódicos temporales detallados es algo más complicado que obtener los contornos de F0. Esto se debe en gran medida al hecho de que un objetivo prosódico de alto nivel no se puede separar de las restricciones puramente articulatorias, meramente por medio del examen de datos segmentados individuales. En el paso 84, se recupera una sílaba con sus características de grupo asociadas de la base de datos de palabras 30. En el paso 86, se accede al módulo de agrupamiento de fonemas 42 para segmentar la sílaba en pares de fonemas y fonemas individuales. Los detalles del funcionamiento del módulo de agrupamiento de fonemas son iguales que los que se han descrito anteriormente. En el paso 88, el módulo de normalización 44 recupera la duración media para estos fonemas de la tabla estática global 32 y las suma todas para obtener la duración media para cada sílaba. En el paso 90, se calcula entonces el valor normalizado para una sílaba como el ratio de duración real de la sílaba dividida por la duración media para esa sílaba.
t_{i}=\frac{s_{i}}{\sum\limits^{m}_{j=t}x_{j}}
t_{j} = valor normalizado para la sílaba j
x_{j} = duración media del par de fonemas j
m = número de pares de fonemas en la sílaba i
s_{i} = duración medida real de la sílaba i
El valor de la duración normalizada para sílaba se registra en una plantilla de duración asociada en el paso 92. Cada plantilla de duración comprende los datos de duración normalizada para las sílabas que tienen una característica de agrupamiento específica, tal como el patrón de acentuación.
Con la construcción de la plantilla de duración en la mente, se explicará ahora con mayor detalle la síntesis de la prosodia del patrón temporal haciendo referencia a las figuras 1 y 6. La información de duración extraída del habla humana se almacena en plantillas de duración en un formato normalizado basado en sílabas. Por lo tanto, con objeto de utilizar las plantillas de duración, el módulo de generación de sonido tiene que denormalizar primero la información como se ilustra en la figura 6. Comenzando en el paso 104 se recibe una palabra objetivo y un identificador de oración marco. En el paso 106, la palabra objetivo que se tiene que sintetizar se examina en el diccionario de palabras 14, donde se almacenan los datos pertinentes basados en palabras. Los datos incluyen características tales como representación fonémica, asignaciones de acentuación y límites de sílabas. Luego, en el paso 108, el procesador de textos 12 analiza la palabra objetivo y la desglosa en sílabas para la posible extracción de fonemas. En el paso 110, se accede al módulo de agrupamiento de fonemas con objeto de agrupar los fonemas en pares de fonemas y fonemas individuales. En el paso 112, se obtienen duraciones de fonemas medias para la sílaba a partir de la tabla estática global 32 y se suman todas ellas. Los valores determinados globalmente corresponden a los valores de duración media observados en todo el corpus de entrenamiento. En el paso 114, se obtiene el valor de la plantilla de duración para el patrón de acentuación correspondiente y en el paso 116 ese valor de la plantilla se multiplica por los valores medios para obtener las duraciones de sílabas previstas. En este punto, los datos de las plantillas transformados están preparados para ser usados por el módulo de generación de sonido. Naturalmente, los pasos de la denormalización pueden ser llevados a cabo por cualquiera de los módulos que manejan la información prosódica. Así, los pasos de la denormalización que se ilustran en la Figura 6 pueden ser llevados a cabo por el módulo de generación de sonido 24 o por el módulo de prosodia 18.
Teniendo en cuenta lo anterior, es fácil de entender que la presente invención proporciona un aparato y un método para construir plantillas temporales para utilizarlas para habla sintetizada, en el cual la información de patrones de duración que normalmente falta se aporta desde las plantillas elaboradas a partir de datos extraídos del habla humana. Cómo se ha demostrado, esta información temporal se puede extraer del habla humana y almacenar dentro de una base de datos de plantillas de duración, organizada mediante el agrupamiento de características tales como patrón de acentuación. Los datos temporales almacenados en las plantillas se pueden aplicar a la información fonémica mediante un procedimiento de búsqueda basado en patrones de acentuación asociados con el texto de palabras de entrada.
La invención se puede aplicar a una amplia variedad de diferentes aplicaciones de conversión texto-habla y de síntesis de habla, incluidas las aplicaciones de gran dominio como las de lectura de libros de texto, y las aplicaciones de dominios más limitados, como las aplicaciones de navegadores de coche o de traducción de libros de frases. En el caso del dominio limitado, se puede designar al principio un pequeño conjunto de oraciones modelo fijas, y sustituirse una palabra objetivo en esa frase por una palabra arbitraria (como un nombre propio o el nombre de una calle). En este caso, el tono y el tiempo de las oraciones modelo se puede medir y almacenar desde el habla real, asegurando así una prosodia muy natural para la mayor parte de la oración. La palabra destino es entonces la única en la que hay que controlar el tono y el tiempo usando las plantillas de prosodia de la invención.

Claims (15)

1. Un sistema de generación de plantillas para la generación de una plantilla de duración a partir de una pluralidad de palabras de entrada, que se caracteriza por comprender:
un procesador fonético (40) que permite segmentar cada una de dichas palabras de entrada en fonemas de entrada y agrupar dichos fonemas de entrada en sílabas constitutivas, cada una de las cuales tiene una duración de sílaba asociada;
un módulo de agrupamiento de texto (38) que permite identificar características de agrupamiento asociadas con cada una de las sílabas constitutivas, seleccionándose dichas características de agrupamiento del grupo que comprende:
patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical,
un módulo de agrupamiento de fonemas (42) que permite determinar un valor de la duración media para cada fonema de entrada basado en cada caso del fonema de entrada en la pluralidad de palabras de entrada y almacenar el valor de la duración media en una tabla estática global (32);
un módulo de normalización (44) que se puede activar para generar un valor de duración normalizada para cada una de dichas sílabas constitutivas, en el cual dicho valor de duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración media es de los fonemas de entrada que constituyen la sílaba constitutiva;
el módulo de normalización permite además agrupar sílabas constitutivas de acuerdo con la característica de agrupamiento y construir una plantilla de duración (36) basada en los valores de duración normalizada para las sílabas constitutivas que tienen una característica de agrupamiento dada.
2. El sistema de generación de plantillas de la reivindicación 1, en el cual el módulo de agrupamiento de texto (38) permite asignar un nivel de acentuación a cada una de las sílabas constitutivas, en el cual el nivel de acentuación define la característica de agrupamiento para la sílaba constitutiva.
3. El sistema de generación de plantillas de la reivindicación 1, que comprende además una base de datos de palabras (30) que se puede activar para almacenar las palabras de entrada con características de agrupamiento de palabras y oraciones asociadas.
4. El sistema de generación de plantillas de la reivindicación 3, en el cual las características de agrupamiento de palabras asociadas se seleccionan del grupo de: representación fonémica, límites de sílabas de palabras, asignación de acentuación de sílabas y la duración de cada sílaba constitutiva.
5. El sistema de generación de plantillas de la reivindicación 3, en el cual las características de agrupamiento de oraciones asociadas se seleccionan del grupo de: posición en la oración, tipo de oración, posición en la frase, límite sintáctico y categoría gramatical.
6. El sistema de generación de plantillas de la reivindicación 1 que comprende además un módulo de agrupamiento de fonemas (42) que permite agrupar fonemas de entrada de una sílaba constitutiva, en el cual dicho módulo incluye criterios de combinación señalados como objetivo para determinar qué fonemas de entrada se tienen que agrupar en un par de fonemas, en el cual cada uno de los pares de fonemas de entrada cumple los criterios de combinación señalados como objetivo.
7. El sistema de generación de plantillas de la reivindicación 6, en el cual los criterios de combinación señalados como objetivo se seleccionan del grupo de:
a)
"L" o "R" o "Y" o "W" seguidas por una vocal,
b)
una vocal seguida por "L" o "R" o "N" o "M" o "NG",
c)
una vocal y "R" seguidas por "L",
d)
una vocal y "L" seguidas por "R",
e)
"L" seguida por "M" o "N", y
f)
dos vocales consecutivas
\newpage
8. Un método de generar una plantilla de duración a partir de una pluralidad de palabras de entrada, que comprende los pasos de:
segmentar cada una de dichas palabras de entrada en fonemas de entrada
caracterizados por:
agrupar (56) los fonemas de entrada en sílabas constitutivas que tienen una duración de sílaba asociada;
asignar una característica de agrupamiento (58) a cada una de las sílabas constitutivas, la cual se selecciona del grupo que comprende:
patrón de acentuación de la palabra, representación fonémica, límite sintáctico, posición en la oración, tipo de oración, posición en la frase y categoría gramatical,
determinar datos de duración representativos para cada fonema de entrada sobre la base de cada caso del fonema de entrada en la pluralidad de palabras de entrada;
generar un valor de duración normalizada para cada sílaba constitutiva, para lo cual dicha duración normalizada se genera dividiendo la duración de la sílaba por la suma de los valores de duración media de los fonemas de entrada que constituyen la sílaba constitutiva;
agrupar (56) sílabas constitutivas de acuerdo con la característica de agrupamiento; y
formar (84 - 102) una plantilla de duración para sílabas constitutivas que tienen una característica de agrupamiento dada, donde la plantilla de duración se obtiene de los valores de duración normalizada para las sílabas constitutivas que tienen la característica de agrupamiento dada.
9. El método de la reivindicación 8 que además comprende el paso de:
asignar (58) una característica de agrupamiento a cada una de dichas sílabas constitutivas; y
especificar cada una de dichas plantillas de duración por característica de agrupamiento, de tal manera que el valor de duración normalizada para cada sílaba constitutiva que tenga una característica de agrupamiento especifica esté contenida en la plantilla de duración asociada.
10. El método de la reivindicación 8 que además comprende el paso de:
asignar características de agrupamiento (58) a las sílabas constitutivas; y
almacenar (60) las palabras de entrada y sílabas constitutivas con características de agrupamiento asociadas en una base de datos de palabras.
11. El método de la reivindicación 8, en el cual el paso de agrupar los fonemas de entrada en pares de fonemas de entrada y fonemas individuales de entrada comprende además los pasos de:
buscar (68) la sílaba constitutiva de izquierda a derecha;
seleccionar (70) los fonemas de entrada en la sílaba constitutiva que sean iguales a una combinación señalada como objetivo; y
agrupar los fonemas de entrada seleccionados en un par de fonemas de entrada.
12. El método de la reivindicación 11 que además comprende los pasos de:
buscar (78) la sílaba constitutiva de derecha a izquierda;
seleccionar los fonemas de entrada en la sílaba constitutiva que sean iguales a la combinación señalada como objetivo; y
agrupar los fonemas de entrada seleccionados en un par de fonemas de entrada.
13. Un método de denormalizar datos de duración contenidos en una plantilla de duración, caracterizado por comprender los pasos de:
proporcionar palabras objetivo para sintetizar mediante un sistema de texto-habla;
segmentar (52) cada una de dichas palabras de entrada en fonemas de entrada;
agrupar (56) los fonemas de entrada en sílabas constitutivas que tienen una duración de sílaba asociada;
agrupar (68 - 82) los fonemas de entrada en pares de fonemas de entrada y fonemas individuales de entrada;
recuperar información de duración estática (62) asociada con fonemas almacenados en una tabla estática global (30), en la cual los fonemas almacenados corresponden a los fonemas de entrada que constituyen cada una de las sílabas constitutivas;
recuperar un valor de duración normalizada para cada una de las sílabas constitutivas de una plantilla de duración asociada (36); y
generar una duración de sílaba denormalizada multiplicando el valor de duración normalizada para cada sílaba constitutiva por la suma de los valores de la duración media de los fonemas almacenados correspondientes a los fonemas de entrada que constituyen la sílaba constitutiva.
14. El método de la reivindicación 13 que además comprende el paso de:
enviar la duración de la sílaba denormalizada a un módulo de prosodia (18) para que el habla sintetizada que se transmita tenga una prosodia de sonido natural.
15. El método de la reivindicación 13 que además comprende el paso de:
recuperar características de agrupamiento asociadas con la palabra objetivo de un diccionario de palabras (14).
ES00301820T 1999-03-15 2000-03-06 Generacion y sintesis de plantillas de prosodia. Expired - Lifetime ES2243200T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/268,229 US6185533B1 (en) 1999-03-15 1999-03-15 Generation and synthesis of prosody templates
US268229 1999-03-15

Publications (1)

Publication Number Publication Date
ES2243200T3 true ES2243200T3 (es) 2005-12-01

Family

ID=23022044

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00301820T Expired - Lifetime ES2243200T3 (es) 1999-03-15 2000-03-06 Generacion y sintesis de plantillas de prosodia.

Country Status (4)

Country Link
US (1) US6185533B1 (es)
EP (1) EP1037195B1 (es)
DE (1) DE60020434T2 (es)
ES (1) ES2243200T3 (es)

Families Citing this family (149)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3361066B2 (ja) * 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US6496801B1 (en) * 1999-11-02 2002-12-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US7263488B2 (en) * 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
US6513008B2 (en) * 2001-03-15 2003-01-28 Matsushita Electric Industrial Co., Ltd. Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US20030101045A1 (en) * 2001-11-29 2003-05-29 Peter Moffatt Method and apparatus for playing recordings of spoken alphanumeric characters
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
CN1259631C (zh) * 2002-07-25 2006-06-14 摩托罗拉公司 使用韵律控制的中文文本至语音拼接合成系统及方法
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
KR100463655B1 (ko) * 2002-11-15 2004-12-29 삼성전자주식회사 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
US7308407B2 (en) * 2003-03-03 2007-12-11 International Business Machines Corporation Method and system for generating natural sounding concatenative synthetic speech
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
US20080249776A1 (en) * 2005-03-07 2008-10-09 Linguatec Sprachtechnologien Gmbh Methods and Arrangements for Enhancing Machine Processable Text Information
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8401856B2 (en) 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
US8731931B2 (en) * 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9087519B2 (en) * 2011-03-25 2015-07-21 Educational Testing Service Computer-implemented systems and methods for evaluating prosodic features of speech
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10937438B2 (en) * 2018-03-29 2021-03-02 Ford Global Technologies, Llc Neural network generative modeling to transform speech utterances and augment training data
US10741169B1 (en) * 2018-09-25 2020-08-11 Amazon Technologies, Inc. Text-to-speech (TTS) processing
CN110264993B (zh) * 2019-06-27 2020-10-09 百度在线网络技术(北京)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN113129864B (zh) * 2019-12-31 2024-05-31 科大讯飞股份有限公司 语音特征预测方法、装置、设备及可读存储介质
CN111833842B (zh) * 2020-06-30 2023-11-03 讯飞智元信息科技有限公司 合成音模板发现方法、装置以及设备
US20220262340A1 (en) * 2021-02-02 2022-08-18 Universite Claude Bernard Lyon 1 Method and device for assisting reading and learning by focusing attention

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
EP0481107B1 (en) * 1990-10-16 1995-09-06 International Business Machines Corporation A phonetic Hidden Markov Model speech synthesizer
US5384893A (en) 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5636325A (en) 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5796916A (en) 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
CA2119397C (en) 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5642520A (en) 1993-12-07 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for recognizing topic structure of language data
JP3085631B2 (ja) * 1994-10-19 2000-09-11 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
US5592585A (en) 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
US5696879A (en) 1995-05-31 1997-12-09 International Business Machines Corporation Method and apparatus for improved voice transmission
US5704009A (en) 1995-06-30 1997-12-30 International Business Machines Corporation Method and apparatus for transmitting a voice sample to a voice activated data processing system
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates

Also Published As

Publication number Publication date
DE60020434T2 (de) 2006-05-04
EP1037195B1 (en) 2005-06-01
DE60020434D1 (de) 2005-07-07
EP1037195A2 (en) 2000-09-20
US6185533B1 (en) 2001-02-06
EP1037195A3 (en) 2001-02-07

Similar Documents

Publication Publication Date Title
ES2243200T3 (es) Generacion y sintesis de plantillas de prosodia.
ES2218959T3 (es) Sintesis de habla utilizando pastillas prosodicas.
ES2261355T3 (es) Correspondencia de plantillas prosodicas para sistemas de conversion de texto en habla.
EP0833304B1 (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
CN101156196A (zh) 混合语音合成器、方法和使用
WO2009026270A2 (en) Hmm-based bilingual (mandarin-english) tts techniques
WO2017082717A2 (en) Method and system for text to speech synthesis
Hwang et al. A Mandarin text-to-speech system
Filipsson et al. LUKAS-a preliminary report on a new Swedish speech synthesis
Chen et al. A Mandarin Text-to-Speech System
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
Lobanov et al. TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian)
Kleczar General purpose methodology and tooling for Text-to-Speech support in voice services for under-resourced languages
Ng Survey of data-driven approaches to Speech Synthesis
Roy A technical guide to concatenative speech synthesis for hindi using festival
Narupiyakul et al. A stochastic knowledge-based Thai text-to-speech system
Suh et al. Toshiba English text-to-speech synthesizer (TESS)
Afolabi et al. Implementation of Yoruba text-to-speech E-learning system
Narvani et al. Study of Text-to-Speech (TTS) Conversion for Indic Languages
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
Alabbad An Investigation into Approaches to Text-to-Speech Synthesis for Modern Standard Arabic
Singh Text to Speech (On Device)
Baloyi A text-to-speech synthesis system for Xitsonga using hidden Markov models
Cole et al. A platform for multilingual research in spoken dialogue systems
STAN TEZA DE DOCTORAT