ES2325132T3 - Sistema y procedimiento de sintesis de voz por concatenacion de unidades acusticas. - Google Patents
Sistema y procedimiento de sintesis de voz por concatenacion de unidades acusticas. Download PDFInfo
- Publication number
- ES2325132T3 ES2325132T3 ES06808137T ES06808137T ES2325132T3 ES 2325132 T3 ES2325132 T3 ES 2325132T3 ES 06808137 T ES06808137 T ES 06808137T ES 06808137 T ES06808137 T ES 06808137T ES 2325132 T3 ES2325132 T3 ES 2325132T3
- Authority
- ES
- Spain
- Prior art keywords
- units
- candidate
- acoustic
- acoustic units
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 30
- 238000003786 synthesis reaction Methods 0.000 title claims description 30
- 238000000034 method Methods 0.000 title claims description 21
- 230000007704 transition Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims abstract description 9
- 238000013518 transcription Methods 0.000 claims abstract description 7
- 230000035897 transcription Effects 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000001308 synthesis method Methods 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Document Processing Apparatus (AREA)
Abstract
Sistema de síntesis de voz por concatenación de unidades acústicas que comprende: - medios (6) de transcripción fonética adecuados para generar una sucesión de unidades acústicas diana, representativa del texto a sintetizar, - medios (7) de almacenamiento de unidades acústicas candidatas, comprendiendo cada unidad acústica candidata un fragmento de palabra grabada previamente, - medios (8) de preselección adecuados para producir al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y - medios (9) de interfaz adecuados para permitir a un operador evaluar la calidad auditiva de cada flujo de unidades acústicas candidatas preseleccionado, caracterizado porque los medios (8) de preselección son adecuados para producir una pluralidad de flujos de unidades acústicas candidatas que tienen los mejores costes globales, y porque los medios (9) de interfaz son adecuados para permitir a un operador comparar los flujos de unidades acústicas preseleccionados y seleccionar el flujo cuya calidad auditiva le parezca la mejor.
Description
Sistema y procedimiento de síntesis de voz por
concatenación de unidades acústicas.
La presente invención se refiere a un sistema y
un procedimiento de síntesis de voz por concatenación de unidades
acústicas.
La síntesis de voz por concatenación de unidades
acústicas utiliza cierto número de principios conocidos.
Típicamente, una cadena de síntesis de voz a
partir del texto comprende las etapas de:
- -
- tratamiento lingüístico que permite extraer del texto informaciones pertinentes para la síntesis,
- -
- transcripción fonética que transforma las informaciones lingüísticas en una cadena fonética que comprende una sucesión de unidades acústicas diana,
- -
- selección de las unidades acústicas candidatas, es decir selección de los fragmentos de palabras grabadas previamente que se utilizarán para la síntesis, y
- -
- síntesis de la señal que consiste en concatenar las unidades acústicas candidatas seleccionadas para formar la señal sonora solicitada.
La calidad de la señal sonora depende
esencialmente de la elección de las unidades acústicas candidatas:
se trata de utilizar los fragmentos de palabras más apropiados para
obtener una señal sonora "natural".
Tradicionalmente, la selección de las unidades
acústicas candidatas se basa en un algoritmo de Viterbi. Éste
determina la secuencia óptima de las unidades acústicas a utilizar
calculando la trayectoria óptima en un gráfico, gráfico cuyos nudos
son las unidades acústicas candidatas y los arcos las transiciones
entre las unidades acústicas
candidatas.
candidatas.
La trayectoria es óptima en el sentido de una
minimización de la suma de los costes asociados a los nudos y a los
arcos que constituyen la trayectoria. El coste asociado a una unidad
acústica candidata, nudo del gráfico, se denomina coste diana y
mide la adecuación entre la unidad acústica candidata y la unidad
acústica diana. El coste asociado a una transición, arco del
gráfico, se denomina coste de concatenación y mide la calidad de la
concatenación entre las dos unidades candidatas que une.
Estos diferentes costes se determinan mediante
funciones de coste que permiten calcularlos para cada uno de los
arcos y nudos del gráfico. Se entiende fácilmente que, al suponerse
que estas funciones de coste representan la calidad de la síntesis,
su elección y sus parametrizaciones tienen una gran influencia sobre
el resultado final.
Para sintetizar la "mejor" frase,
perceptualmente hablando, la solicitud de patente de Estados Unidos
2003/0229494 de RUTTEN et al., propone hacer intervenir a un
operador que, por iteración sucesiva, ajuste la calidad de la frase
producida. El procedimiento propuesto por esta solicitud, consiste
por lo tanto en seleccionar de forma convencional, una sucesión de
unidades acústicas candidatas, en hacer escuchar al operador la
frase producida de este modo por el módulo de selección y después
en ajustar los parámetros de la selección antes de volver a poner
en marcha la selección, etc.
El procedimiento se repite hasta que el operador
obtiene una solución que le resulta conveniente.
El procedimiento y el sistema de síntesis de voz
propuestos por esta solicitud presentan el inconveniente de obligar
al operador a intervenir sobre los parámetros de la selección para
obtener una solución. Ahora bien, estos parámetros, como por
ejemplo los parámetros de las funciones de coste, no siempre tienen
vínculos directos e intuitivos con el resultado obtenido. Esto
requiere por lo tanto, por parte del operador, un largo aprendizaje
antes de ser capaz de utilizar dicho sistema eficazmente.
Además, en cada cambio de parámetros, es
necesario poner en marcha una nueva etapa de selección que consume
muchos recursos de cálculo.
El objeto de la invención es por lo tanto
remediar estos inconvenientes proponiendo un sistema y un
procedimiento de síntesis de voz, fáciles de aplicar.
El objeto de la invención es un sistema de
síntesis de voz mediante concatenación de unidades acústicas que
comprende:
- -
- medios de transcripción fonética adecuados para generar una sucesión de unidades acústicas diana, representativa del texto a sintetizar,
- -
- medios de almacenamiento de unidades acústicas candidatas, comprendiendo cada unidad acústica candidata un fragmento de palabra grabada previamente,
- -
- medios de preselección adecuados para producir al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y
- -
- medios de interfaz adecuados para permitir a un operador evaluar la calidad auditiva de cada flujo de unidades acústicas candidatas preseleccionado,
caracterizado porque los medios de
preselección son adecuados para producir una pluralidad de flujos de
unidades acústicas candidatas que tienen los mejores costes
globales, y porque los medios de interfaz son adecuados para
permitir a un operador comparar los flujos de unidades acústicas
preseleccionados y seleccionar el flujo cuya calidad auditiva le
parezca la
mejor.
Otras características de la invención son
- -
- los medios de preselección utilizan un algoritmo de tipo N-best para preseleccionar la pluralidad de flujos de unidades acústicas candidatas;
- -
- los medios de interfaz comprenden medios de filtrado adecuados para eliminar, a partir de criterios fonéticos, un subconjunto de flujos de unidades acústicas candidatas de la pluralidad de los flujos de unidades acústicas candidatas pre-seleccionados;
- -
- los criterios fonéticos comprenden, en solitario o en combinación, criterios de prohibición de la presencia de una unidad acústica, criterios de prohibición de la presencia de una concatenación entre dos unidades acústicas y criterios de prohibición de una concatenación en una transición.
Otro objeto de la invención es un procedimiento
de síntesis de voz por concatenación de unidades acústicas que
comprende una etapa previa de almacenamiento de unidades acústicas
candidatas, comprendiendo cada unidad acústica candidata un
fragmento de palabra grabada previamente, y comprendiendo además
dicho procedimiento las etapas de:
- -
- transcripción fonética adecuada para generar una sucesión de unidades acústicas diana representativa del texto a sintetizar,
- -
- preselección de al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y
- -
- evaluación por un operador de la calidad auditiva de cada flujo,
y dicho procedimiento se
caracteriza
porque
- -
- la etapa de preselección es adecuada para producir una pluralidad de flujos de unidades acústicas candidatas preseleccionadas que tienen los mejores costes globales, y
- -
- la etapa de evaluación consiste, para el operador, en comparar los flujos de unidades acústicas preseleccionados y en seleccionar el flujo cuya calidad auditiva le parezca la mejor.
Otras características de este objeto son
- -
- la etapa de preselección utiliza un algoritmo de tipo N-best para preseleccionar la pluralidad de flujos de unidades acústicas candidatas;
- -
- la etapa de evaluación comprende una etapa de filtrado, a partir de criterios fonéticos, adecuada para eliminar un subconjunto de flujos de unidades acústicas candidatas de la pluralidad de flujos preseleccionados de unidades acústicas candidatas;
- -
- los criterios fonéticos comprenden, en solitario o en combinación, criterios de prohibición de la presencia de una unidad acústica, criterios de prohibición de la presencia de una concatenación entre dos unidades acústicas, y criterios de prohibición de una concatenación en una transición.
Otro objeto es un producto de programa
informático que comprende instrucciones de código de programa
grabado en un soporte legible por un ordenador, para aplicar el
procedimiento de síntesis de voz cuando dicho programa se ejecuta en
un ordenador.
Otro objeto es un soporte de grabación legible
por un ordenador en el que está grabado el programa informático.
La invención se entenderá mejor con la lectura
de la siguiente descripción que se realiza únicamente a modo de
ejemplo y en relación con los dibujos adjuntos en los que:
- la figura 1 es un esquema simplificado de un
sistema de síntesis de voz de acuerdo con la invención;
- la figura 2 es un diagrama funcional del
procedimiento de acuerdo con una realización preferida de la
invención;
- la figura 3 es un esquema de preselección de
las unidades acústicas candidatas; y
- la figura 4 es un esquema de una pantalla de
interfaz con el operador del sistema de síntesis de voz de acuerdo
con una realización preferida de la invención.
En referencia a la figura 1, un sistema 1 de
síntesis de voz transformará un texto 2 en un flujo sonoro 3.
El texto 2 se introduce en el sistema 1 por
medio de medios de recogida de datos 4 que lo transforman en un
fichero, típicamente en el estándar UNICODE.
Este fichero es tratado por medios 5 de
tratamientos lingüísticos que permiten extraer del texto
informaciones pertinentes para la síntesis mediante un análisis
lingüístico del texto.
Estas informaciones lingüísticas son utilizadas
por los medios 6 de transcripción fonética. Esta transcripción, no
necesariamente única, se presenta en forma de una sucesión de
unidades acústicas diana, opcionalmente con un aumento de
informaciones suplementarias tales como consignas prosódicas o
categorías gramaticales.
Estos medios 4, 5 y 6 que permiten obtener una
sucesión de unidades acústicas diana son bien conocidos por el
especialista en la técnica y no se describirán con más detalle.
Informaciones complementarias sobre estos medios pueden
encontrarse, por ejemplo, en la solicitud de patente de Estados
Unidos 2003/0229494 mencionada anteriormente.
El sistema 1 de síntesis de voz comprende
también medios 7 de almacenamiento de unidades acústicas candidatas
típicamente en forma de una base de datos. Estas unidades acústicas
candidatas comprenden principalmente fragmentos de palabras
grabadas previamente. Estos fragmentos pueden corresponder a
fonemas, difonos, sílabas, etc. Cada unidad acústica candidata
representa una variación sonora de una unidad acústica de base, por
ejemplo variaciones de longitud, de timbre, etc. Típicamente, los
medios 7 de almacenamiento pueden contener más de 100.000 unidades
acústicas candidatas.
En la siguiente descripción, y a título
puramente ilustrativo, se supondrá que las unidades acústicas son
difonos.
Los medios 7 de almacenamiento están conectados
a medios 8 de preselección cuyo objeto es producir al menos un
flujo de unidades acústicas candidatas. Cada flujo de unidades
acústicas candidatas es representativo de la sucesión de unidades
acústicas diana.
Habitualmente, un sistema de síntesis de voz
solamente produce un único flujo de unidades acústicas. Un algoritmo
utilizado comúnmente para producir este único flujo es el algoritmo
de Viterbi que minimiza el coste global, suma de los costes diana y
de los costes de transición para las unidades acústicas candidatas y
las transiciones de este flujo.
Ejemplos de funciones de coste utilizables en el
marco de este algoritmo de Viterbi se describen en el documento
"Perceptual and Objective Detection of discontinuities in
concatenative Speech synthesis", Yannis Stylianou y Ann K.
Syrdal, ICASSP 2001.
Para ello, los medios 8 de preselección
solamente utilizan el algoritmo de Viterbi ya que éste solamente
proporciona un único flujo, teniendo éste el mejor coste global. A
título puramente ilustrativo, la sucesión de flujo producida por
los medios 8 de preselección es el resultado de un algoritmo de tipo
N-best que proporciona una sucesión ordenada de N
flujos cuyo primer flujo corresponde a la solución del algoritmo de
Viterbi.
Dos ejemplos de este tipo de algoritmo se
describen en el documento "A comparison of two Exact Algorithms
for finding the N-Best Sentence Hypothese in
Continuous Speech Recognition", V.M. Jimenez, A. Marzal, J.
Monné, Eurospeech 1995.
Los medios 8 de preselección están conectados a
medios 9 de interfaz. Estos están conectados a medios 10 de
restitución sonora permitiendo de este modo a un operador escuchar,
a petición, uno de los flujos de unidades acústicas
preseleccionados y determinar de este modo el que tiene la mejor
calidad auditiva.
Los medios 9 de interfaz también están
conectados a medios 11 de visualización y de recogida de datos que
permiten al operador visualizar y seleccionar los diferentes flujos
preseleccionados.
\newpage
Preferiblemente, estos medios 9 de interfaz
comprenden medios 12 de filtrado. Estos están adaptados para que el
operador, mediante la utilización de criterios fonéticos, pueda
eliminar subconjuntos de flujos entre los flujos preseleccionados
para limitar el número de escuchas y de comparaciones a realizar
para seleccionar el mejor flujo.
A continuación se explicará el funcionamiento de
este sistema en referencia a la figura 2.
El procedimiento se inicia en la etapa 20.
La recogida de un texto se realiza en la etapa
21.
Éste es tratado en 22 para extraer de él las
informaciones lingüísticas.
Estas informaciones lingüísticas se utilizan en
23 para producir convencionalmente una sucesión de unidades
acústicas diana.
Mediante utilización del algoritmo de
preselección, se selecciona en 24 un número N de flujos de unidades
acústicas candidatas.
Por ejemplo, en la figura 3, para la sucesión 30
de cuatro unidades acústicas diana, se ha representado en 31 el
conjunto de gráficos posibles cuyas unidades acústicas candidatas
son los nudos 10-1, 10-2,
11-1, etc.
El flujo 32, representado en trazo continuo
grueso, corresponde a la primera solución. Corresponde al flujo de
las unidades acústicas candidatas 10-1,
11-2, 12-1,
13-1.
El flujo 33, representado en trazo discontinuo
grueso, corresponde a la segunda solución. Esta constituido por las
unidades acústicas candidatas 10-2,
11-1, 12-3,
13-3.
El conjunto de N flujos preseleccionados de este
modo se almacena en la memoria y se pone a disposición del
usuario.
Éste escucha en 25, figura 2, uno de los flujos
preseleccionado.
Si está satisfecho con la calidad de este flujo
en 26, entonces el procedimiento termina en 27.
Por el contrario, si el flujo escuchado no es
satisfactorio, se escucha otro flujo en 25 hasta la escucha de un
flujo de buena calidad.
Se comprende que esta escucha sucesiva puede ser
larga y fastidiosa. Por lo tanto, es ventajoso ofrecer al usuario
un interfaz que permita filtrar el conjunto de flujos según
criterios fonéticos modificables por el usuario.
De este modo, una etapa 28 de edición de los
filtros se inserta, de manera facultativa, en el bucle de
escucha/selección.
A modo de ejemplo, en la figura 4 se representa
un esquema simplificado de la pantalla del interfaz.
El flujo tratado y escuchado actualmente por el
operador se representa en 40 con la sucesión de unidades acústicas
candidatas seleccionadas.
Mediante la utilización de los botones 41 y 42,
el operador pasa al flujo anterior o al flujo siguiente. También
puede seleccionar uno de los flujos que ya ha escuchado y que está
retenido en la ventana 43.
Dispone de operaciones de filtrado para acotar
las propiedades de los flujos que quiere visionar o escuchar.
Entre las operaciones de filtrado a su
disposición, puede:
- -
- prohibir en 44 la presencia de una unidad en los flujos filtrados. Por ejemplo, puede prohibir la presencia de la unidad acústica 10-4,
- -
- prohibir en 45 la presencia de una concatenación entre dos unidades acústicas en los flujos filtrados. Por ejemplo, puede prohibir la transición entre las unidades 11-2 y 12-1,
- -
- prohibir en 46 cualquier concatenación en una transición. Por ejemplo, puede prohibir cualquier concatenación entre los estados acústicos 12 y 13. Los únicos flujos autorizados tendrán entonces necesariamente, para esta transición, dos unidades adyacentes en la base.
La línea 47 resume el conjunto de los filtros
utilizados.
Se entiende que es posible combinar varios
filtros de acuerdo con una lógica booleana.
De este modo se han descrito un sistema y un
procedimiento de síntesis de voz por concatenación de unidades
acústicas fáciles de manipular, puesto que el operador sólo tiene
que esperar a que se realicen los cálculos de optimización para
comparar dos flujos. En efecto, todos los cálculos se realizan
durante la etapa de preselección y por lo tanto se realizan sin que
intervenga el operador.
Además, las operaciones de filtrado tales como
la supresión de una concatenación corresponden a un análisis
auditivo directo de los flujos. En efecto, basta con escuchar un
flujo que comprende dicha concatenación, darse cuenta de que es mal
sonante y, por lo tanto, decidir la eliminación de todos los flujos
que comprenden esta concatenación.
Este procedimiento de síntesis de voz puede ser
aplicado por un programa informático en ejecución en un ordenador
de tipo estación de trabajo. Este programa informático está grabado
en un soporte de datos legible por este ordenador.
Claims (10)
1. Sistema de síntesis de voz por concatenación
de unidades acústicas que comprende:
- -
- medios (6) de transcripción fonética adecuados para generar una sucesión de unidades acústicas diana, representativa del texto a sintetizar,
- -
- medios (7) de almacenamiento de unidades acústicas candidatas, comprendiendo cada unidad acústica candidata un fragmento de palabra grabada previamente,
- -
- medios (8) de preselección adecuados para producir al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y
- -
- medios (9) de interfaz adecuados para permitir a un operador evaluar la calidad auditiva de cada flujo de unidades acústicas candidatas preseleccionado,
caracterizado porque los
medios (8) de preselección son adecuados para producir una
pluralidad de flujos de unidades acústicas candidatas que tienen
los mejores costes globales, y porque los medios (9) de interfaz
son adecuados para permitir a un operador comparar los flujos de
unidades acústicas preseleccionados y seleccionar el flujo cuya
calidad auditiva le parezca la
mejor.
2. Sistema de síntesis de voz de acuerdo con la
reivindicación 1, caracterizado porque los medios de
preselección utilizan un algoritmo de tipo N-best
para preseleccionar la pluralidad de flujos de unidades acústicas
candidatas.
3. Sistema de síntesis de voz de acuerdo con la
reivindicación 1 ó 2, caracterizado porque los medios (9) de
interfaz comprenden medios (12) de filtrado adecuados para eliminar,
a partir de criterios fonéticos, un subconjunto de flujos de
unidades acústicas candidatas de la pluralidad de flujos
preseleccionados de unidades acústicas candidatas.
4. Sistema de síntesis de voz de acuerdo con la
reivindicación 3, caracterizado porque los criterios
fonéticos comprenden, en solitario o en combinación, criterios de
prohibición de la presencia de una unidad acústica, criterios de
prohibición de la presencia de una concatenación entre dos unidades
acústicas y criterios de prohibición de una concatenación en una
transición.
5. Procedimiento de síntesis de voz por
concatenación de unidades acústicas que comprende una etapa previa
de almacenamiento de unidades acústicas candidatas, comprendiendo
cada unidad acústica candidata un fragmento de palabra grabada
previamente y comprendiendo dicho procedimiento además las etapas
de:
- -
- transcripción fonética (23) adecuada para generar una sucesión de unidades acústicas diana representativa del texto a sintetizar,
- -
- preselección (24) de al menos un flujo de unidades acústicas candidatas, preseleccionándose cada flujo en base a una minimización de su coste global, siendo dicho coste global la suma de funciones de coste que determinan el coste entre cada unidad acústica diana y las unidades acústicas candidatas y de funciones de coste de las transiciones entre dos unidades acústicas candidatas, y
- -
- evaluación (25, 26) por un operador de la calidad auditiva de cada flujo,
y dicho procedimiento se
caracteriza
porque
- -
- la etapa de preselección es adecuada para producir una pluralidad de flujos de unidades acústicas candidatas preseleccionadas que tienen los mejores costes globales, y
- -
- la etapa de evaluación consiste, para el operador, en comparar los flujos de unidades acústicas preseleccionados y en seleccionar el flujo cuya calidad auditiva le parezca la mejor.
6. Procedimiento de síntesis de voz de acuerdo
con la reivindicación 5, caracterizado porque la etapa de
preselección utiliza un algoritmo de tipo N-best
para preseleccionar la pluralidad de flujos de unidades acústicas
candidatas.
7. Procedimiento de síntesis de voz de acuerdo
con la reivindicación 5 ó 6, caracterizado porque la etapa
(25, 26) de evaluación comprende una etapa (28) de filtrado, a
partir de criterios fonéticos, adecuada para eliminar un
subconjunto de flujos de unidades acústicas candidatas de la
pluralidad de flujos preseleccionados de unidades acústicas
candidatas.
8. Procedimiento de síntesis de voz de acuerdo
con la reivindicación 7, caracterizado porque los criterios
fonéticos comprenden, en solitario o en combinación, criterios de
prohibición de la presencia de una unidad acústica, criterios de
prohibición de la presencia de una concatenación entre dos unidades
acústicas y criterios de prohibición de una concatenación en una
transición.
9. Producto de programa informático que
comprende instrucciones de código de programa grabado en un soporte
legible por un ordenador, siendo estas instrucciones adecuadas para
la aplicación del procedimiento de síntesis de voz de acuerdo con
una de las reivindicaciones 6 a 8 cuando dicho programa se ejecuta
en un ordenador.
10. Soporte de grabación legible por un
ordenador, en el que se graba un programa informático de acuerdo con
la reivindicación 9.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0510831A FR2892555A1 (fr) | 2005-10-24 | 2005-10-24 | Systeme et procede de synthese vocale par concatenation d'unites acoustiques |
FR0510831 | 2005-10-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2325132T3 true ES2325132T3 (es) | 2009-08-26 |
Family
ID=36013299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES06808137T Active ES2325132T3 (es) | 2005-10-24 | 2006-09-14 | Sistema y procedimiento de sintesis de voz por concatenacion de unidades acusticas. |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP1952388B1 (es) |
AT (1) | ATE427545T1 (es) |
DE (1) | DE602006006094D1 (es) |
ES (1) | ES2325132T3 (es) |
FR (1) | FR2892555A1 (es) |
WO (1) | WO2007048891A1 (es) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
JP3728172B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
US7165030B2 (en) * | 2001-09-17 | 2007-01-16 | Massachusetts Institute Of Technology | Concatenative speech synthesis using a finite-state transducer |
US20030088416A1 (en) * | 2001-11-06 | 2003-05-08 | D.S.P.C. Technologies Ltd. | HMM-based text-to-phoneme parser and method for training same |
GB2391143A (en) * | 2002-04-17 | 2004-01-28 | Rhetorical Systems Ltd | Method and apparatus for scultping synthesized speech |
-
2005
- 2005-10-24 FR FR0510831A patent/FR2892555A1/fr not_active Withdrawn
-
2006
- 2006-09-14 WO PCT/FR2006/002114 patent/WO2007048891A1/fr active Application Filing
- 2006-09-14 DE DE602006006094T patent/DE602006006094D1/de not_active Expired - Fee Related
- 2006-09-14 EP EP06808137A patent/EP1952388B1/fr active Active
- 2006-09-14 ES ES06808137T patent/ES2325132T3/es active Active
- 2006-09-14 AT AT06808137T patent/ATE427545T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
ATE427545T1 (de) | 2009-04-15 |
EP1952388A1 (fr) | 2008-08-06 |
EP1952388B1 (fr) | 2009-04-01 |
FR2892555A1 (fr) | 2007-04-27 |
WO2007048891A1 (fr) | 2007-05-03 |
DE602006006094D1 (de) | 2009-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5172682B2 (ja) | 音素のnグラムを使用した単語および名前の生成 | |
US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
US8682671B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JP2000105596A5 (es) | ||
WO2005034082A1 (en) | Method for synthesizing speech | |
JP2000347681A (ja) | テキスト・ベースの音声合成を利用した音声制御システム用の再生方法 | |
JP2007086309A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP3518898B2 (ja) | 音声合成装置 | |
ES2325132T3 (es) | Sistema y procedimiento de sintesis de voz por concatenacion de unidades acusticas. | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
Breen et al. | A phonologically motivated method of selecting non-uniform units | |
JP2004145015A (ja) | テキスト音声合成システム及び方法 | |
JP2008046636A (ja) | アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム | |
JP4741208B2 (ja) | 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置 | |
JP2006337403A (ja) | 音声案内装置及び音声案内プログラム | |
JPH07210194A (ja) | 音声出力装置 | |
EP1589524A1 (en) | Method and device for speech synthesis | |
JPH07244496A (ja) | テキスト朗読装置 | |
JPH05224688A (ja) | テキスト音声合成装置 | |
JP5301376B2 (ja) | 音声合成装置およびプログラム | |
JP2000172286A (ja) | 中国語音声合成のための同時調音処理装置 | |
KR20010076625A (ko) | 합성 데이터베이스 경량화를 위한 불필요한 합성단위 제거방법 | |
JP2008152013A (ja) | 音声合成装置および音声合成方法 |