ES2309728T3 - Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico. - Google Patents
Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico. Download PDFInfo
- Publication number
- ES2309728T3 ES2309728T3 ES05716729T ES05716729T ES2309728T3 ES 2309728 T3 ES2309728 T3 ES 2309728T3 ES 05716729 T ES05716729 T ES 05716729T ES 05716729 T ES05716729 T ES 05716729T ES 2309728 T3 ES2309728 T3 ES 2309728T3
- Authority
- ES
- Spain
- Prior art keywords
- recognition
- forced
- voice recognition
- automatic
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000203 mixture Substances 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000001755 vocal effect Effects 0.000 title description 2
- 238000009472 formulation Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 1
- 230000001629 suppression Effects 0.000 claims 1
- 238000013518 transcription Methods 0.000 description 11
- 230000035897 transcription Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000033772 system development Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Procedimiento para proporcionar automáticamente una hipótesis de una formulación lingüística que es pronunciada por un usuario de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que se encuentra fuera de un ámbito de reconocimiento de dicho sistema de reconocimiento de voz automático, caracterizado por: * el establecimiento de un reconocimiento de voz forzado y un reconocimiento de voz no forzado de una señal de voz de entrada; * la identificación de una parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento; * la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado; y * el establecimiento de dicha hipótesis de formulación lingüística sobre la base de dicha parte identificada de dicho reconocimiento de voz no forzado.
Description
Método y sistema automático para proporcionar
formulaciones lingüísticos que están fuera de un dominio de
reconocimiento de un sistema de reconocimiento vocal automático.
La presente invención se refiere en general a un
servicio de voz automático basado en el reconocimiento de voz
automático, y en particular, a un procedimiento y a un sistema para
proporcionar automáticamente hipótesis de formulaciones lingüísticas
que son pronunciadas por usuarios de un servicio de voz automático
basado en un sistema de reconocimiento de voz automático y que están
fuera de un ámbito de reconocimiento del sistema de reconocimiento
de voz automático.
Como es sabido, las aplicaciones dirigidas por
voz y servicios de voz complejos están basados en los sistemas de
reconocimiento de voz automáticos (ASRs), concebidos para convertir
una representación digital de una señal de voz, que transforma el
discurso en una secuencia de texto de palabras, por suposición del
contenido léxico de la señal de voz. El proceso de reconocimiento
automático utiliza modelos acústicos estocásticos, y por lo tanto,
el resultado obtenido, en términos de secuencia de palabras
reconocidas, puede verse afectado por una tasa de errores residuales
no nula. Además, el ámbito de las formulaciones reconocidas por un
sistema de reconocimiento de voz automático está en cualquier caso
sujeto a un vocabulario limitado, formalizado mediante un modelo
estadístico del lenguaje o de gramáticas libres de contexto, que
puede ser recuperado por un autómata finito (este es el caso, por
ejemplo, de una gramática que describe la manera de pronunciar una
fecha o una hora).
Los sistemas de reconocimiento de voz
automáticos más avanzados también permiten el reconocimiento en
vocabularios flexibles, que son definidos por el usuario y descritos
mediante formalismos adecuados. Para lograr este resultado, los
modelos de voz utilizados para el reconocimiento están compuestos de
unidades acústico-fonéticas elementales (APUs), cuya
composición secuencial permite la representación de cualquier
palabra de un determinado lenguaje.
Las herramientas matemáticas utilizadas para
describir la evolución temporal de la voz son los llamados modelos
ocultos de Markov (HMMs), y cada unidad
acústico-fonética elemental está representada por un
modelo oculto de Markov, que está formado por estados que describen
la evolución temporal de la misma. Las palabras a reconocer, que se
describen como secuencias de las unidades
acústico-fonéticas elementales, se obtienen
concatenando modelos ocultos de Markov constituyentes
individuales.
Además de describir la evolución temporal del
discurso, los modelos ocultos de Markov permiten la generación de
las posibilidades de emisión de los estados acústicos que los
forman, dados los vectores de observación que transforman la
información de la señal de voz. La secuencia de las probabilidades,
junto con su evolución temporal, permite obtener el resultado de
reconocimiento. Para una descripción más detallada de la teoría, los
algoritmos y la implementación de modelos ocultos de Markov, se
puede hacer referencia a Huang X., Acero A., y Hon H.W., Spoken
Lenguaje Processing: A Guide to Theory, Algorithm, and System
Development, Prentice Hall, Capítulo 8, páginas
377-413, 2001.
Por lo tanto, la pronunciación de palabras que
están fuera del vocabulario o de formulaciones que no están
cubiertas genera errores de reconocimiento. Por lo tanto, los
sistemas de reconocimiento de voz automáticos también proporcionan
una medida de la fiabilidad de las palabras reconocidas, en
particular un indicador de fiabilidad comprendido entre 0 y 1, que
es conocido en la literatura como medida de confianza y que puede
aplicarse a las palabras individuales reconocidas y/o a su
secuencia. En el caso de un error de reconocimiento, la medida de
confianza debería tomar valores bajos, y, en cualquier caso,
inferior a aquellos que se obtienen en ausencia de errores. Se puede
fijar un umbral en los valores de la confianza medidos para evitar
propuestas de resultados que no son tan fiables.
Una técnica que es ampliamente utilizada para
calcular la medida de confianza consiste o bien en normalizar las
así llamadas probabilidades a posteriori, que son cantidades
derivadas de las probabilidades de emisión, o directamente las
probabilidades de emisión, que coinciden en el cálculo de la medida
de confianza. La comparación de las dos cantidades, es decir, el
resultado obtenido aplicando las restricciones y el resultado
obtenido disminuyendo las restricciones, proporciona información
útil para determinar la confianza. De hecho, si las dos cantidades
tienen valores comparables, significa que la introducción de las
restricciones de reconocimiento no ha producido ninguna distorsión
particular con respecto a lo que habría ocurrido sin restricciones
de reconocimiento. Por lo tanto, el resultado de reconocimiento
podría considerarse como fiable, y su confianza debería tener
valores elevados, cercanos de su límite superior. Cuando, en cambio,
el resultado con restricciones es considerablemente peor que el
resultado sin restricciones, se puede deducir que el reconocimiento
no es fiable en la medida en que el sistema de reconocimiento de voz
automático habría producido el resultado obtenido como consecuencia
de la aplicación de las restricciones. En este caso, la medida de
confianza debería producir valores bajos, cercanos a su límite
inferior.
Un ejemplo de esta técnica se propone en Gillick
M. Et al., A Probabilistic Approach to Confidence
Estimation and Evaluation, Proc. of the IEEE International
Conference on Acoustics, Speech y Signal Processing, Munich,
Germany, páginas 879-882 (Mayo 1997), donde se
adopta la diferencia entre cantidades conocidas como resultado
acústico y mejor resultado, donde los dos términos se obtienen
respectivamente promediando el resultado acústico (con
restricciones) y el mejor resultado (sin restricciones), obtenido
para cada trama con los modelos ocultos de Markov acústicos en el
intervalo de tiempo correspondiente a las palabras.
En la PCT/EP/0453718 presentada el 28/12/2004
por el propio solicitante, y publicada como
WO-A-069600, se propone, en cambio,
una medida de confianza basada en contribuciones diferenciales
calculadas para cada trama de una ventana de análisis como
diferencia entre un resultado acústico no forzado y un resultado
acústico forzado, y promediado sobre todo el intervalo de
reconocimiento. Esto permite actuar sobre la contribución
diferencial individual de la suma, aplicándole una función de
normalización respectiva, que hace que la medida de confianza sea
homogénea en términos de capacidad de rechazo e invariante con
respecto al lenguaje, el vocabulario y la gramática, y, en general,
con respecto a las restricciones de reconocimiento. Esto facilita
enormemente el desarrollo de aplicaciones en las etapas iniciales de
su desarrollo, puesto que no precisan de ninguna calibración
específica para cada sesión de reconocimiento individual. La función
de normalización aplicada a los términos diferenciales individuales
está constituida por una familia de distribuciones acumulativas, una
para cada contribución diferencial a la medida de confianza. Cada
función puede estimarse de manera simple basándose en un conjunto de
datos de capacitación y es específica para cada estado de la unidad
acústico-fonética elemental. por lo tanto, la
solución propuesta no requiere consideraciones heurísticas o
suposiciones a priori y hace posible obtener todas las
cantidades necesarias para deducir la medida de confianza
diferencial directamente a partir de los datos de capacitación.
Uno de los principales problemas encontrados por
los diseñadores de las aplicaciones dirigidas por voz o los
servicios de voz basados en el reconocimiento de voz automático es
la predicción correcta del comportamiento de los usuarios, problema
que suele afrontarse creando las gramáticas destinadas a adquirir
información de los usuarios sin utilizar, sin embargo, vocabularios
demasiado extensos o sin crear gráficos excesivamente complejos. El
riesgo, de hecho, es que una mejora en la cobertura de formulaciones
de usuarios marginales tiene un coste en términos de más errores de
reconocimiento hechos por el sistema sobre formulaciones canónicas
debido al aumento de su complejidad. Por otro lado, para servicios
de asistencia telefónica o de asignación de llamadas, es
extremadamente difícil predecir la manera en que los usuarios
formularán sus pedidos.
Una posible solución a este problema, que no
recurre a un análisis de datos automático, consiste en realizar una
primera versión de las gramáticas utilizando datos de verificación,
calibrar el servicio, que por lo tanto tendrá unas prestaciones por
debajo de lo óptimo, y, al mismo tiempo, recoger datos relativos a
su uso real, que suelen consistir en los archivos de audio con las
peticiones de los usuarios. Luego, los operadores humanos catalogan
los fragmentos de diálogo implicados en los fallos de sistema, y una
vez que se ha catalogado una parte substancial de los datos, se
pueden generar estadísticas sobre las causas del fallo, que pueden
estar entre: errores de reconocimiento, posibles errores debidos a
razones de niveles del sistema y casos en los que las peticiones de
usuario no son satisfechas por el sistema. En el caso del último
tipo de error, cuando es frecuente, es posible extender las
gramáticas utilizadas, con la finalidad de aumentar la cobertura, o
emplear otras estrategias más sofisticadas. Los diseñadores de
aplicaciones, por ejemplo, podrían cambiar los fragmentos de voz
relativos a uno o más turnos de diálogo, con el fin de ayudar a los
usuarios a formular sus pedidos. Sin embargo, esta solución es
extremadamente cara porque los datos deben ser analizados por
operadores humanos para saber exactamente el contenido de la
petición del usuario.
También son conocidos en la técnica los sistemas
de análisis automático basados en el uso de datos recogidos reales,
relativos a interacciones con usuarios reales, para mejorar las
prestaciones de las gramáticas y modelos de lenguaje utilizados en
un servicio de voz. Concretamente, los datos son adquiridos
automáticamente por los sistemas de reconocimiento y no son
verificados por operadores por razones de costes excesivamente
altos, con el riesgo de que contengan errores de reconocimiento. Por
ejemplo, en US 6,499,011 los resultados de reconocimiento, es decir,
las primeras N-Mejores hipótesis, con N>1, se
utilizan para hacer ajustes en los modelos de lenguaje con el fin de
mejorar aplicaciones en las cuales la cantidad de material utilizado
para capacitar los modelos de lenguaje iniciales es bastante pobre.
En este caso, la mejora de prestaciones se centra en mejorar la
modelización de las formulaciones ya predichas.
Una tecnología que ha sido probada para un
servicio de asistencia telefónico automático se describe en US
6,185,528 y se basa en palabras diferenciadas, aunque un objeto del
vocabulario de reconocimiento también podría ser una secuencia de
palabras y no necesariamente una única palabra. Con respecto a los
directorios de abonados a empresas, se ha observado una gran
variabilidad en la forma en que los usuarios del servicio expresan
sus pedidos. Como los contenidos de las bases de datos para estos
usuarios no es suficiente para extraer información sobre la
formulación lingüística utilizada por los que llaman, es necesario
llevar a cabo un trabajo complejo para deducir las posibles
variantes de pronunciación para cada registro de la base de
datos.
En este contexto, se ha desarrollado un sistema
de aprendizaje automático que utiliza los datos recogidos reales
para determinar las formulaciones lingüísticas más frecuentemente
utilizadas por los usuarios y no contempladas por el sistema que
implementa el servicio de asistencia telefónico automático. Se ha
considerado la información relativa a llamadas para las cuales el
sistema de asistencia telefónica automático no es capaz de
satisfacer las peticiones de usuario. Estas llamadas son
transferidas a un operador humano, que habla con el usuario para
proporcionar el número solicitado. Los datos disponibles para cada
llamada están representados por archivos de audio grabados, que
contienen los diálogos entre el usuario y el sistema de asistencia
telefónico automático, la trascripción fonética sin restricciones
de cada archivo de audio (la trascripción fonética sin restricciones
representa la secuencia más probable de fonemas y, aunque imprecisa,
en la mayoría de los casos representa bastante bien lo que el
usuario ha pronunciado) y la información relativa al número de
teléfono suministrado por el operador humano. A partir de estos
fragmentos de información, se seleccionan aquellos relativos a los
números de teléfono solicitados más frecuentemente.
El solicitante se ha dado cuenta de que, dado un
conjunto extremadamente largo de solicitudes para el mismo número,
hay una probabilidad alta de obtener cadenas fonéticas que son
similares entre sí. El concepto de distancia entre dos cadenas de
fonemas se puede introducir llevando a cabo una Alineación de
Viterbi, para cuya descripción detallada se puede hacer referencia a
los ya mencionados Spoken Lenguaje Processing: A Guide to Theory,
Algorithm, and System Development, chapter 8, y utilizando las
probabilidades de supresión, de inserción o sustitución de fonemas,
cuyas probabilidades son capacitadas con datos controlados mediante
la alineación de las transcripciones fonéticas sin restricciones con
las transcripciones fonéticas correctas correspondientes. El
conjunto de transcripciones fonéticas, para cada número de teléfono
solicitado frecuentemente, es posteriormente agrupado en
subconjuntos similares que utilizan un vecino jerárquico -algoritmo
de búsqueda, basado en la distancia entre las cadenas fonéticas. Se
determina un conjunto de transcripciones fonéticas similares
configurando un umbral para la máxima distancia de las cadenas
fonéticas que forman parte del mismo grupo. Se descartan los
Subconjuntos con pocos elementos o que tienen una gran diferencia en
distancia entre las cadenas fonéticas constituyentes. Para grupos
caracterizados por una gran cardinalidad y una baja dispersión en
las cadenas fonéticas constituyentes, se selecciona el elemento
central (elemento representativo), definido como la cadena fonética
con la suma de distancias menor en relación con los otros elementos
del conjunto.
Vale la pena observar que cuando el número de
elementos de un grupo es suficientemente alto, el elemento
representativo proporciona una buena trascripción fonética de la
entrada solicitada. Toda la arquitectura del sistema de aprendizaje
automático, los resultados de las pruebas realizadas y las mejoras
en términos de automatización (aumento en el porcentaje de llamadas
atendidas satisfactoriamente por el sistema de asistencia telefónico
automático) se describen en detalle en:
\bulletAdorno M., P. Laface, C.
Popovici, L. Fissore, C. Vair, Towards
Automatic Adaptation of the accoustic models and of Formulation
Variants in a Directory Assistance Application, Proceedings
of ISCA TTRWorkshop, páginas 175-178,
Sophia-Antipolis (France), 2001; y
\bulletPopovici C., P. Laface,
M. Adorno, L. Fissore, M. Nigra, C.
Vair, Learning New User Formulation in Automatic Directory
Assistance, Proceedings of ICASSP,
1448-1451, Orlando (USA), 2002.
Sin embargo, el aprendizaje automático
desarrollado en este contexto precisa de datos de servicio de voz,
tales como confirmaciones de usuario y números de teléfono
proporcionados por el operador en respuestas a llamadas, para
identificar las cadenas fonéticas individuales que se emplearán
posteriormente. Además, las cadenas fonéticas representativas
encontradas son añadidas como objetos al vocabulario de palabras
diferenciadas.
En este sentido, el Solicitante se ha dado
cuenta de que los sistemas de reconocimiento de voz continuos usados
habitualmente que están basados en gramáticas o modelos de lenguaje,
trabajan sobre toda la frase pronunciada y no identifican solamente
la porción de las formulaciones de los usuarios que están fuera del
ámbito de reconocimiento. La identificación local de palabras no
contempladas por las gramáticas de reconocimiento o modelos de
lenguaje dentro de una repetición serían especialmente ventajosas
porque permitirían en primer lugar beneficiarse de los resultados de
los algoritmos de aprendizaje automático, incluso con una cantidad
de datos no excesivamente abundante, y en segundo lugar permitiría
que las palabras no cubiertas fueran detectadas incluso si otras
palabras cubiertas cambiaran dentro de la secuencia (en la medida en
que estas estuvieran permitidas por restricciones gramaticales),
mientras que un sistema que trabaja con palabras diferenciadas no es
capaz de funcionar tan eficientemente en estos
casos.
casos.
El objeto de la presente invención es
proporcionar una contribución a la resolución de los problemas
relacionados con la cobertura insuficiente de formulaciones
utilizadas frecuentemente por usuarios de un servicio de voz
automático, y en particular, para identificar, con un buen margen de
seguridad, aquellas porciones de la voz de entrada que no tienen
relación con la gramática o el modelo de lenguaje empleado,
basándose en datos de reconocimiento.
Este objeto es alcanzado por la presente
invención porque se refiere a un procedimiento y a un sistema para
proporcionar automáticamente una hipótesis de formulaciones
lingüísticas que son pronunciadas por usuarios de un servicio de voz
automático basado en un sistema de reconocimiento de voz automático
y que están fuera de un ámbito de reconocimiento del sistema de
reconocimiento de voz automático, tal como se define en las
reivindicaciones 1 y 15, respectivamente, a un producto de programa
informático, tal como se define en la reivindicación 16, y a un
servicio de voz automático, tal como se define en la reivindicación
17.
La presente invención alcanza el objeto
mencionado proporcionando una secuencia de fonemas forzados y una
secuencia de fonemas no forzados, el cálculo de medidas de confianza
para los fonemas forzados, una identificación de partes de la señal
de voz de entrada correspondientes a los fonemas forzados con
medidas de confianza por debajo de un umbral, y la identificación de
fonemas no forzados correspondientes a las partes identificadas de
la señal de voz de entrada. Los fonemas no forzados identificados
son guardados en una base de datos de reconocimiento fuera del
ámbito de reconocimiento, la cual es procesada para proporcionar una
hipótesis de formulaciones utilizadas frecuentemente fuera de dicho
ámbito de reconocimiento. Luego, estas formulaciones utilizadas
frecuentemente pueden emplearse para ampliar el ámbito de
reconocimiento o llevar a cabo un aprendizaje de fonemas
diferentes.
Para una mejor comprensión de la presente
invención, una realización preferida, ofrecida únicamente a modo de
ejemplo y que no debe interpretarse como limitativa, se describirá a
continuación con referencia a los dibujos adjuntos, en los
cuales:
\bullet La figura 1 muestra un diagrama de
flujo de las actividades relativas al desarrollo de un servicio de
voz capacitado para el aprendizaje automático de fonemas;
\bullet La figura 2 muestra un esquema de los
conocimientos que debe tener un sistema de reconocimiento de voz
automático para realizar el aprendizaje fonético de formulaciones
lingüísticas no cubiertas por la gramática de reconocimiento y/o el
modelo de lenguaje, y los resultados que proporciona;
\bullet La figura 3 muestra una tabla que
contiene datos relativos a un reconocimiento fonético no forzado en
el caso en que la frase pronunciada por el usuario está
completamente cubierta por la gramática de reconocimiento
empleada;
\bullet La figura 4 muestra una tabla que
contiene datos relativos a un reconocimiento fonético no forzado en
el caso en que la frase pronunciada por el usuario difiere
significativamente de aquellos permitidos por la gramática de
reconocimiento empleada;
\bullet La figura 5 muestra una tabla que
contiene datos que muestran como la información de nivel fonético
permite la localización temporal de errores de
no-cobertura con gran precisión; y
\bullet La figura 6 muestra un diagrama de
flujo del procedimiento según la presente invención.
La siguiente discusión se presenta para permitir
a un experto en la materia realizar y utilizar la invención. Varias
modificaciones de las realizaciones se harán fácilmente aparentes
para los expertos en la materia, y los principios generales se
podrán aplicar a otras realizaciones y aplicaciones sin salir de la
esencia y alcance de la presente invención. De este modo, la
presente invención no se limita a las realizaciones mostradas, si no
que se le concede el más amplio alcance consecuente con los
principios y características aquí descritas y definidas en las
reivindicaciones adjuntas.
La figura 1 muestra un diagrama de flujo de las
actividades relativas al desarrollo de un servicio de voz
capacitado para el aprendizaje automático de fonemas, en el que la
identificación de las partes de las formulaciones de los usuarios
que no están cubiertas por la gramática de reconocimiento o el
modelo de lenguaje es realizada según la presente invención.
Tal como se muestra en la figura 1, la primera
etapa es la creación de una primera versión de las gramáticas y
modelos de lenguaje utilizados en el servicio utilizando todo el
conocimiento disponible, por ejemplo se pueden utilizar el
conocimiento relativo a servicios similares ya implementados,
también con operadores humanos (bloque 100). En cualquier caso, el
objetivo es el de crear una primera versión de los objetos de
reconocimiento utilizados en el servicio mediante el análisis del
supuesto comportamiento de los usuarios, cuyo objeto, aunque sea el
representarlos lo mejor posible, podría tener lagunas relativas a
las expresiones lingüísticas más frecuentes. Sin embargo, los
objetos de reconocimiento generados de esta manera seguirán siendo
usados en la primera versión del servicio.
Una vez que se ha creado una primera versión de
las gramáticas y modelos de lenguaje (bloque 110), el servicio es
aplicado, es decir, la aplicación de voz con los objetos de
reconocimiento generados en la etapa anterior es ejecutada con
clientes reales (bloque 120). En esta fase, incluso si el servicio
tiene inevitablemente unas prestaciones por debajo de lo óptimo, se
recogen datos relativos a su uso real, que suele consistir en los
archivos de audio con las peticiones de los usuarios. Además de los
datos relativos a lo que dijo el usuario, el sistema de
reconocimiento de voz automático también proporciona datos
necesarios para el aprendizaje fonético, cuyos datos se guardan en
una base de datos (bloque 130).
Luego, la base de datos es analizada para
identificar las partes de las formulaciones de los usuarios que no
están cubiertas por la gramática de reconocimiento o el modelo de
lenguaje utilizado, tal como se describirá con más detalle más
adelante con referencia a la figura 6 (bloque 140). En el caso en
que se haya detectado algún tipo de inconsistencia, por ejemplo, si
se ha considerado que lo que se ha reconocido en un determinado
intervalo de tiempo no está cubierto por la gramática utilizada, se
tiene en cuenta la secuencia de fonemas que, para el sistema de
reconocimiento de voz automático usado, modeliza mejor lo que fue
pronunciado por el usuario en ese intervalo de tiempo. Esta cadena
fonética, que para sistemas de reconocimiento de voz automáticos de
altas prestaciones debería representar lo que fue dicho por el
usuario de una manera consecuentemente fiel (diferente de los que es
entendido por la gramática) es almacenada en una base de datos junto
con otras cadenas fonéticas obtenidas de la misma manera en
diferentes turnos de reconocimiento, y por lo tanto, posiblemente
con otros usuarios (bloque 150).
Una vez que ha sido analizada una cantidad
substancial de datos, la base de datos de cadenas fonéticas no
cubiertas por la gramática de reconocimiento es procesada para
identificar grupos de transcripciones fonéticas similares y para
encontrar cadenas fonéticas representativas para los grupos (bloque
160). Si el análisis tiene éxito y las cadenas fonéticas
representativas son identificadas, estas últimas son suministradas a
los desarrolladores de aplicaciones como hipótesis de formulaciones
no cubiertas, acompañadas con información relativa a los datos que
las generaron (bloque 170).
Entonces, los diseñadores llevan a cabo una
actividad de validación, con la posible actualización de los
objetos de reconocimiento para comprobar la hipótesis producida por
el sistema (bloque 180).
Por ejemplo, las gramáticas podrían ser
extendidas, con la finalidad de aumentar la cobertura, o se pueden
emplear estrategias más sofisticadas. El diseñador, por ejemplo,
podría cambiar los fragmentos de voz relativos a uno o más turnos de
diálogo, con el fin de ayudar a los usuarios a formular sus
pedidos.
Hay que destacar que todas las tareas de
análisis se realizan automáticamente. Los diseñadores recibirán
datos acerca de los fallos más frecuentemente probables y deberán
verificarlos sobre la base de un conjunto muy limitado de datos que
son sugeridos por el sistema de aprendizaje fonético. Por lo tanto
la tarea de validación es bastante simple y el trabajo humano
implicado es incomparablemente menor que el requerido para etiquetar
manualmente todos los fallos de sistema.
La figura 2 muestra un esquema de los
conocimientos que necesita un sistema de reconocimiento de voz
continuo automático (bloque 1) para reconocer una voz de entrada
(bloque 2) y para realizar el aprendizaje fonético de formulaciones
lingüísticas no cubiertas por gramáticas de reconocimiento y modelos
de lenguaje, y los resultados que proporciona. En general, los
sonidos elementales empleados para formar palabras y frases son
diferentes según el lenguaje utilizado: por lo tanto es necesario
definir un alfabeto fonético que modelice los sonidos elementales,
que se suelen definir en términos de fonemas, para cada lenguaje
soportado por el sistema de reconocimiento de voz automático. Igual
que un alfabeto fonético, un sistema de reconocimiento de voz
automático necesita modelos acústicos, que se suelen crear con
densidades de probabilidad Gausianas multivariantes o redes
neuronales, para calcular las probabilidades de emisión, o mejor
dicho para estimar la probabilidad de que el usuario haya
pronunciado un determinado fonema en un cierto momento. El alfabeto
fonético y sus modelos acústicos correlacionados representan el
conocimiento del lenguaje y normalmente son proporcionados por un
fabricante de tecnología ASR (bloque 3). Obviamente, con el fin de
entender lo que el usuario ha dicho es necesario que la voz del
usuario esté en un formato de stream de audio digital,
habitualmente con una frecuencia de muestreo de 8 KHz en el sector
de la telefonía y 16 KHz en el de multimedia. Finalmente, se
necesitan conocimientos lingüísticos relativos a los ámbitos de las
formulaciones admisibles (bloque 4). Típicamente, esto depende del
lugar de servicio del diálogo y la información que debe ser
solicitada por los usuarios, tales como fechas, cantidades, tiempos,
opciones de menú, etc. El objetivo final de la tecnología de
aprendizaje fonético es la mejora de este tipo de conocimiento
mediante el análisis del comportamiento del usuario.
Los resultados que debe suministrar un sistema
de reconocimiento de voz automático en un servicio de voz
capacitado para el aprendizaje automático de fonemas son los
resultados relativos a los turnos de reconocimiento individuales:
las palabras reconocidas, posiblemente con su interpretación
semántica, la nota de confianza de reconocimiento, que expresa la
fiabilidad, y, opcionalmente, los resultados relativos a las
hipótesis de reconocimiento distintas de la mejor (bloque 5). Sin
embargo, estos datos no bastan para llevar a cabo el aprendizaje
fonético, y es necesario que el sistema de reconocimiento de voz
automático suministre más información. Los datos adicionales
requeridos son los reconocimientos fonéticos no forzados y forzados,
la medida de confianza de los fonemas individuales, y las ventanas
de tiempo en las que son reconocidos (bloque 6).
El reconocimiento fonético no forzado representa
la secuencia de fonemas más probable para el sistema de
reconocimiento de voz automático de lo que el usuario ha
pronunciado. La propiedad principal de este reconocimiento es el
hecho de que cubre toda la entrada de voz y representa bastante bien
lo que los usuarios pronuncian, especialmente si el sistema de
reconocimiento de voz automático es de gran calidad.
El reconocimiento fonético forzado representa la
segmentación de lo que es pronunciado por los usuarios en fonemas,
con la restricción de que la secuencia de fonemas es necesariamente
la relativa a la primera hipótesis para el turno de reconocimiento.
Mientras que el contenido de información más significativo para el
reconocimiento fonético no forzado se encuentra en la secuencia de
los fonemas reconocidos, con la información temporal relativa a las
ventanas de tiempo (calculado con respecto al inicio de la
adquisición de audio) en las que se detectan cada fonema individual,
para el reconocimiento fonético forzado la información relevante no
es la relativa a la secuencia, si no que es la contenida en la
confianza de los fonemas individuales y en las ventanas de tiempo en
las que son reconocidos.
La manera en la que las partes de las
formulaciones de los usuarios que no están cubiertas por la
gramática de reconocimiento o el modelo de lenguaje utilizado son
identificadas según la presente invención es el resultado de un
profundo análisis hecho por el Solicitante sobre la diferencia en
las medidas de confianza para los reconocimientos fonéticos forzado
y no forzado en el caso en el que la frase pronunciada por el
usuario es una de aquellas cubiertas por los ámbitos de formulación
permitidos por la gramática de reconocimiento empleada, y en el caso
en que la frase pronunciada por el usuario difiere
significativamente de aquellas cubiertas por los ámbitos de
formulación permitidos por la gramática de reconocimiento.
En particular, en la figura 3 es posible
analizar un reconocimiento fonético no forzado en el caso de una
cobertura de la gramática completa, donde se ha utilizado una
gramática con dígitos relativos al italiano. En particular, La
figura 3 muestra una tabla en la que la primera fila, indicada por
200, muestra las palabras reconocidas, la segunda fila, indicada por
210, muestra las medidas de confianza de las palabras reconocidas,
la tercera fila, indicada por 220, muestra los fonemas en el
reconocimiento fonético no forzado, la cuarta fila, indicada por
230, muestra las medidas de confianza de los fonemas en el
reconocimiento fonético no forzado, la quinta fila, indicada por
240, muestra los fonemas en el reconocimiento fonético forzado, la
sexta fila, indicada por 250, muestra las medidas de confianza de
los fonemas en el reconocimiento fonético forzado, y la séptima
fila, indicada por 260, muestra el tiempo con referencia al inicio
de la adquisición de audio.
En el ejemplo de la figura 3, el usuario ha
pronunciado la frase "TRE SETTE" (TRES SIETE), y el
reconocimiento ha tenido éxito con una confianza muy alta de 0,81
para la palabra "TRE" y 0,85 para la palabra "SETTE". El
reconocimiento fonético no forzado está representado por la cadena
"@-t-r-e-s-e-p-e",
donde "@" es el símbolo que representa silencio. La figura 3
también muestra la confianza de los fonemas individuales, que
siempre es alta para casos de voz en el reconocimiento fonético no
forzado y los segmentos de tiempo estimados por el sistema de
reconocimiento de voz automático con referencia al inicio de
adquisición de audio, cuyos segmentos representan el
posicionamiento, en términos de ventanas de tiempo, de las palabras
en la frase reconocida. También se puede ver fácilmente que para el
sistema de reconocimiento de voz automático, la palabra "TRE"
empieza después de aproximadamente 0,45 segundos y acaba después de
0,85 segundos. El reconocimiento fonético forzado se obtiene
teniendo en cuenta los fonemas que forman la primera hipótesis de
reconocimiento y realizando sobre ellos una pasada de
reconocimiento. En el ejemplo, se puede observar que la secuencia
fonética es
"@-t-r-e-s-e-t-e",
porque el sistema ha reconocido correctamente la frase pronunciada
por el usuario. Hay que destacar que las confianzas son muy altas y
comparables a las del reconocimiento fonético no forzado; esto es
una indicación de la fiabilidad del reconocimiento realizado.
Finalmente, se puede observar que en el caso examinado, la
confianza del reconocimiento fonético no forzado representa un
límite superior que puede ser igualado por el reconocimiento
fonético forzado, pero nunca excedido. Esta última propiedad se
puede apreciar observando como la confianza del fonema erróneo
"p" es mayor que la del fonema correcto "t" reconocido
mediante reconocimiento forzado.
En la figura 4 es posible analizar un
reconocimiento fonético no forzado en el caso en que la frase
pronunciada por el usuario difiere significativamente de aquellas
permitidas por la gramática de reconocimiento empleada, donde se
utilizan la misma gramática y estructura de tabla que en el ejemplo
de la figura 3.
En este caso, el usuario ha pronunciado la frase
"TRE AMICI" (TRES AMIGOS), que está claramente no cubierta por
la gramática debido a la palabra "AMICI" (AMIGOS). Se puede
apreciar que el "SILENCE" inicial y la palabra "TRE"
tienen confianzas altas (0,92 y 0,79, respectivamente), mientras que
el "SILENCE" final que el sistema de reconocimiento de voz
automático ha seleccionado para cubrir la palabra "AMICI" lo
mejor posible, tiene una nota de confianza muy baja de 0,14. Por lo
tanto, los resultados de reconocimiento deberían considerarse como
no fiables y esto es definitivamente consecuente. También se puede
ver fácilmente que para el sistema de reconocimiento de voz
automático, la palabra "TRE" empieza después de aproximadamente
0,55 segundos y acaba sobre 0,9 segundos, mientras que la palabra
"AMICI", está entre 1,11 y 1,7 segundos. Por otro lado, el
reconocimiento fonético no forzado es prácticamente perfecto: la
cadena fonética resultante en este caso es
"@-t-r-e-@-a-m-i-c-i-@"
y se puede apreciar que todos los fonemas de la secuencia tienen
confianzas altas. Por lo tanto, analizando el ejemplo de la figura
4, es posible observar como el reconocimiento fonético forzado
contiene información relativa al problema de cubrir la palabra
"AMICI" con la gramática utilizada por los usuarios. De hecho,
este problema se refleja en la baja confianza del fonema final de la
secuencia forzada "@", que dura casi 1 segundo. También se
puede apreciar que, en este caso, la información relativa a la
formulación fuera del ámbito podía detectarse incluso a nivel de
palabras, puesto que la palabra final "SILENCE" tiene una
confianza muy baja.
La figura 5 muestra como la información de nivel
fonético permite localizar errores de no-cobertura
en el tiempo con gran precisión, no como la que se puede alcanzar
utilizando únicamente información relativa a palabras conocidas,
donde se utiliza la misma estructura de tabla que la utilizada en el
ejemplo de la figura 3.
En el ejemplo de la figura 5, la gramática
utilizada se ha construido con un vocabulario de palabras
diferenciadas de unas 9000 palabras que incluye las principales
ciudades italianas. Por lo tanto la gramática permite únicamente el
nombre de una ciudad y no hay cobertura para formulaciones más
articuladas. El usuario ha pronunciado la frase "NOVI È IL
COMUNE" (NOVI ES LA CIUDAD) y el sistema de reconocimiento de voz
automático ha reconocido la frase "NOVI_DI_MODENA"
(NOVI_DE_MODENA) con una confianza de 0,43. Se puede ver fácilmente
que para el sistema de reconocimiento de voz automático, la palabra
"NOVI" se encuentra entre 0,7 y 1,3 segundos, la palabra
"E" entre 1,7 y 1,9 segundos, la palabra "IL" entre 2 y
2,3 segundos, y la palabra "COMUNE" entre 2,3 y 3,1 segundos.
En este caso, puesto que "NOVI" es una ciudad italiana válida y
presente en la gramática, el comportamiento deseado sería que el
sistema de reconocimiento de voz automático fuera capaz de detectar
automáticamente la anomalía relativa al segmento de tiempo que
contiene la secuencia de palabras "È IL COMUNE" (ES LA CIUDAD),
sin añadir la porción que contiene "NOVI". Se puede apreciar
fácilmente que lo que el usuario ha pronunciado realmente ha sido
detectado con gran precisión por el reconocimiento fonético no
forzado (la secuencia fonética resultante es
"@-n-o-v-i-@-e-@-i-l-@-co-m-u-n-e")
y que la información contenida en la secuencia de palabras
reconocidas, que es muy simple en este caso, ya que consiste en
solamente una palabra, no permite la detección localizada del
problema generado por la no cobertura de la gramática de lo que el
usuario pronunció. Por lo tanto, teniendo en cuenta que la nota de
confianza de la palabra reconocida "NOVIDIMODENA" es 0,43 y de
este modo bajo, se seleccionaría la cadena fonética entera que
resulta del reconocimiento fonético no forzado para las etapas de
procesado sucesivas de búsqueda de términos vecinos y de
identificación de los representativos. Un comportamiento de este
tipo es extremadamente desventajoso en la medida en que, en el caso
en que la formulación "È IL COMUNE" (ES LA CIUDAD) era bastante
recurrente en las respuestas de usuarios, esta sería detectada por
el sistema, en la parte baja del grupo, solo en el caso en que
hubiese suficientes respuestas del tipo "X È IL COMUNE", donde
"X" representa una o más ciudades con nombres muy similares
fonéticamente (esto es debido al hecho de que los grupos necesitaban
obtener hipótesis de transcripciones no cubiertas frecuentes al
buscar cadenas fonéticas similares), y la cadena fonética
representativa contendría información relativa a "X", perdiendo
generalidad. Viceversa, en el ejemplo de la figura 5, es posible
apreciar como el análisis de las confianzas para la secuencia de
fonemas producida por el reconocimiento fonético forzado
proporciona una imagen mucho más detallada de la localización de
fenómenos de no-cobertura. Realmente, las confianzas
de los fonemas relativas a la pronunciación de la palabra
"NOVI" son decididamente altas, mientras que los fonemas
relativos a las palabras "DI_MODENA" exhiben decididamente
confianzas bajas. En este caso, mediante un análisis adecuado de las
confianzas de los fonemas del reconocimiento forzado es posible
identificar las porciones del discurso del usuario que no están
cubiertas por la gramática utilizada dentro del segmento de tiempo
incluido entre los tiempos 1,3 y 3,1 segundos. Por lo que se refiere
a este intervalo temporal, la trascripción fonética sin
restricciones es efectivamente
"@-e-@-i-l-@-c-o-m-un-e".
En vista de lo anterior, la presente invención,
cuyo objeto es identificar automáticamente las porciones locales de
la voz de entrada que tienen una alta probabilidad de estar fuera
del dominio de las gramáticas de reconocimiento o los modelos de
lenguaje utilizados para un turno de diálogo, se basa en el análisis
de los límites temporales y las confianzas de la secuencia de
fonemas reconocidas a través del reconocimiento fonético
forzado.
La figura 6 muestra un diagrama de flujo de las
etapas de procesado realizadas en el bloque 140 de la figura 1 para
identificar automáticamente porciones locales de la voz de entrada
que tienen una alta probabilidad de estar fuera del ámbito de las
gramáticas o de los modelos de lenguaje utilizados para un turno de
diálogo.
Tal como se muestra en la figura 6, los datos de
entrada, que son suministrados por el sistema de reconocimiento
automático, están hechos de reconocimientos fonéticos forzados y no
forzados para un turno de reconocimiento, es decir las secuencias de
los fonemas proporcionados por los reconocimientos fonéticos forzado
y no forzado, la segmentación temporal correspondiente, es decir,
las ventanas de tiempo correspondientes a cada fonema reconocido
individual, y la medida de confianza Conf(t) de cada
fonema del reconocimiento fonético forzado, cuya confianza podría
calcularse utilizando cualquier procedimiento conocido,
preferentemente los descritos en la citada PCT/EP/0453718 presentada
en nombre del propio solicitante (bloque 300). En particular, la
medida de confianza Conf(t) es una función del tiempo
discreta, y Conf(T_{i}) representa el valor de
confianza del reconocimiento fonético forzado relacionado con el
contenido de la señal de voz en cantidades de tiempo discretas
(ventanas) T_{i}. El intervalo de tiempo entre dos valores
consecutivos T_{i}, T_{i+ 1} debería ser el mismo
que en los sistemas de reconocimiento de voz automáticos de cálculo
de los parámetros acústicos y es típicamente de 10 ms. Obviamente,
si se ha reconocido un fonema en el reconocimiento fonético forzado
en el intervalo temporal T_{i}-T_{j},
Conf(t) tiene el mismo valor para t = T_{i},
T_{i+ 1},..., T_{j-1}, T_{j}, y este
valor es la confianza del fonema. Por lo tanto, la información
implicada en Conf(t) está relacionada tanto con la
secuencia de los fonemas reconocidos como con su segmentación
temporal.
Con referencia a la figura 6, la primera etapa
del procedimiento incluye la normalización de las medidas de
confianza Conf(t) a partir del reconocimiento fonético
forzado mediante el cálculo de un promedio temporal de la misma en
el interior de una ventana móvil, preferentemente con una anchura de
500 ms y un paso de avance de 10 ms (bloque 310).
La normalización de las medidas de confianza
Conf(t) a partir del reconocimiento fonético forzado
proporciona una secuencia de notas de confianza instantáneas
C_{ist}(t), que son una representación de las
medidas de confianza sobre una base temporal y son así designadas
porque la información que contienen, por un lado, está solamente
correlacionada con el tiempo y no con la secuencia de fonemas, y por
otro lado, porque el nivel de detalle es mucho más preciso del que
se puede disponer utilizando las medidas de confianza y la
segmentación de la secuencia de palabras reconocidas.
El promediado temporal de las medidas de
confianza Conf(t) de los fonemas a partir del
reconocimiento fonético forzado es especialmente ventajoso porque la
ventana móvil introduce un efecto de suavizado apreciable en los
valores de las medidas de confianza: de hecho, es posible que dentro
de los segmentos de discurso no cubiertos por el conocimiento
relacionado con el ámbito, haya segmentos de muy corta duración con
buena consistencia fonética, y, como el propósito de un sistema de
reconocimiento de voz automático es identificar la secuencia de
palabras más probable, la utilización de una ventana móvil
relativamente ancha, permite tener en cuenta toda la información
contextual con precisión.
En particular, la nota de confianza instantánea
C_{ist}(t) en el momento t se puede calcular
de la manera siguiente:
donde 2T+1 es la anchura de
una ventana móvil centrada en el instante t. Para el cálculo
de la nota de confianza instantánea C_{ist}(t) en
momentos t cercanos del inicio y el final del discurso,
solamente se utilizan las medidas de confianza disponibles (al
principio y al final del discurso no existen contextos a la
"izquierda" y a la "derecha"
respectivamente).
Una vez calculadas las notas de confianza
instantánea C_{ist}(t), son analizadas en detalle
con el fin de identificar temporalmente segmentos contiguos en los
que las notas de confianza instantánea C_{ist}(t)
son menores que un umbral de fiabilidad (bloque 320). Para el
sistema de reconocimiento de voz automático con aprendizaje fonético
propuesto por el Solicitante, la fiabilidad umbral se ha estimado en
0,5 para entradas telefónicas. Además, los segmentos temporales
deben tener una duración mínima significativa con el fin de ser
capaz de representar fenómenos de voz no espurios.
Para cada segmento temporal identificado
mediante el análisis de notas de confianza instantánea
C_{ist}(t), se tiene en cuenta la secuencia de
fonemas a partir del reconocimiento fonético no forzado
correspondiente (es decir, la secuencia de fonemas que el
reconocimiento fonético no forzado proporciona dentro de ese
segmento temporal) (bloque 330). Si la secuencia empieza y/o acaba
con un fonema de silencio, este es suprimido, y la secuencia
resultante se guarda en una base de datos de formulaciones para ser
procesada posteriormente si el número de fonemas en la secuencia
está dentro de un determinado rango, definido por el diseñador, por
ejemplo desde tres hasta quince fonemas. esto se hace para evitar
añadir secuencias que son demasiado cortas para permitir la
generación de cadenas significativas representativas, o secuencias
que son demasiado largas, que son difíciles de agrupar y más
inestables. Para estas últimas, si es necesario, es posible
considerar cadenas fonéticas obtenidas más cortas teniendo en cuenta
porciones de la cadena fonética inicial, separadas por silencios.
Además de las cadenas, también se podrían guardar en la base de
datos las referencias al turno de reconocimiento y, si están
disponibles, su archivo de audio correspondiente, con los límites
temporales. De esta manera, en los casos en los que la cadena
guardada contribuye a generar una hipótesis relativa al problema de
la falta de cobertura, será posible escuchar las formulaciones de
los usuarios, acelerando por lo tanto el proceso de validación.
Las cadenas fonéticas así obtenidas sobre un
gran número de interacciones posibles son procesadas tal como se ha
descrito antes con referencia a la figura 1, es decir, son agrupadas
en conjuntos similares de transcripciones para producir una lista de
posibles hipótesis de formulaciones no cubiertas frecuentes. Los
grupos son creados mediante un algoritmo jerárquico para buscar
cadenas fonéticas similares, basándose en el cálculo de la distancia
entre cadenas fonéticas. Para obtener tiempos de procesado
aceptables, se puede utilizar un proceso recurrente que opera sobre
estructuras de árbol, en el que las ramas del árbol son
transcripciones fonéticas. Para grupos caracterizados por un gran
número de cadenas fonéticas con baja dispersión, el elemento central
se identifica por que tiene la mínima suma de las distancias entre
él mismo y las cadenas fonéticas que forman el grupo. Para una
descripción más detallada de los algoritmos utilizados para el
agrupamiento y la identificación de las cadenas fonéticas
representativas, se puede hacer referencia a las ya citadas
publicaciones Towards Automatic Adaptation of the accoustic
models and of Formulation Variants in a Directory Assistance
Application, y Learning New User Formulation in Automatic
Directory Assistance.
Las hipótesis proporcionados por el sistema y su
adición a las gramáticas y a los modelos de lenguaje deben ser
valorados por los diseñadores de las aplicaciones de voz porque será
probablemente necesario asignar acciones semánticas a las
formulaciones reconocidas o, antes que actualizar los objetos de
reconocimiento, podría ser conveniente cambiar las preguntas hechas
al usuario con el fin de guiar mejor el proceso de diálogo. Además,
el sistema podría utilizar el mismo algoritmo para identificar
cadenas fonéticas similares, utilizándolo con el vocabulario
suficientemente extenso, para proporcionar a los diseñadores un
conjunto de formulaciones "grafémicas" obtenidas de las
formulaciones fonéticas reconocidas por el sistema.
Finalmente, hay que observar que la obtención de
información relativa a los reconocimientos fonéticos no forzado y
forzado requiere llevar a cabo dos reconocimientos adicionales. Por
lo tanto, con el fin de reducir los tiempos de respuesta y las
necesidades de memoria del sistema, es posible realizar estos
reconocimientos adicionales más adelante y en máquinas distintas a
las utilizadas para el servicio. La solución adoptada por el
Solicitante consiste en ejecutar estos reconocimientos adicionales
al final del reconocimiento gramático utilizado por la aplicación de
voz, a la vez que guarda todas las probabilidades de emisión
calculadas durante el reconocimiento normal. De ello resulta un
ligero aumento en las necesidades de memoria y en el tiempo que
necesita la máquina para proporcionar la información necesaria para
el aprendizaje fonético.
Las ventajas de la presente invención son
evidentes a partir de la descripción anterior.
En particular, la presente invención permite
identificar fácilmente porciones de la voz de entrada no cubiertas
por la gramática o el modelo de lenguaje empleado, basándose en
datos de reconocimiento, con un buen margen de seguridad,
proporcionando de este modo un buen soporte para resolver problemas
relacionados con la cobertura insuficiente de formulaciones
utilizadas frecuentemente por los usuarios de un servicio de voz
capacitado para el aprendizaje fonético automático. El sistema
propone a los diseñadores hipótesis de formulaciones para
aplicaciones, o palabras individuales no contempladas por la
gramática y el modelo de lenguaje, y los desarrolladores podrán
validar las hipótesis del sistema y, si es necesario, actualizar las
gramáticas o modelos de lenguaje utilizados por el servicio, con el
mínimo esfuerzo con respecto al análisis manual de los datos reales.
Los datos utilizados por el sistema son los obtenidos por un sistema
de reconocimiento de voz continuo automático y no precisan de
validación o verificación por los operadores para formular hipótesis
de falta de cobertura.
Finalmente, está claro que se pueden hacer
muchas modificaciones a la presente invención, todas al alcance de
la invención, tal como se define en las reivindicaciones
adjuntas.
En particular, la identificación de las
formulaciones de la voz de entrada que no están cubiertas por la
gramática o los modelos de lenguaje empleado podrían basarse en
elementos fonéticos forzados a partir del reconocimiento fonético
forzado diferente de los fonemas, por ejemplo sílabas u otras
unidades fonéticas.
Además, la identificación de formulaciones en la
voz de entrada que no están cubiertas por la gramática o modelos de
lenguaje empleados se basan directamente en las medidas de confianza
Conf(t) de los fonemas forzados a partir del
reconocimiento fonético forzado, antes que en las notas de confianza
instantánea C_{ist}(t).
\vskip1.000000\baselineskip
Esta lista de referencias citadas por el
solicitante está prevista únicamente para ayudar al lector y no
forma parte del documento de patente europea. Aunque se ha puesto el
máximo cuidado en su realización, no se pueden excluir errores u
omisiones y la OEP declina cualquier responsabilidad en este
respecto.
\bullet EP 0453718 W [0009] [0045]
\bullet WO 069600 A [0009]
\bullet US 6499011 B [0012]
\bullet US 6185528 B [0013].
\bulletHUANG X.; ACERO A.;
HON H.W. Spoken Language Processing: A Guide to Theory,
Algorithm, and System Development. Prentice Hall,
2001, 377-413
\bulletGILLICK M. et al. A
Probabilistic Approach to Confidence Estimation and Evaluation.
Proc. of the IEEE International Conference on Acoustics, Speech and
Signal Processing, May 1997, 879-882
[0008]
\bullet Spoken Language Processing: A Guide to
Theory, Algorithm, and System Development [0015]
\bulletADORNO M.; P. LAFACE; C.
POPOVICI; L. FISSORE; C. VAIR. Towards
Automatic Adaptation of the Acoustic Models and of Formulation
Variants in a Directory Assistance Application. Proceedings of
ISCA TTR-Workshop, 2001,
175-178 [0016]
\bulletPOPOVICI C.; P. LAFACE;
M. ADORNO; L. FISSORE; M. NIGRA; C.
VAIR. Learning New User Formulation in Automatic Directory
Assistance. Proceedings of ICASSP, 2002,
1448-1451 [0016].
Claims (17)
1. Procedimiento para proporcionar
automáticamente una hipótesis de una formulación lingüística que es
pronunciada por un usuario de un servicio de voz automático basado
en un sistema de reconocimiento de voz automático y que se encuentra
fuera de un ámbito de reconocimiento de dicho sistema de
reconocimiento de voz automático, caracterizado por:
- \bullet
- el establecimiento de un reconocimiento de voz forzado y un reconocimiento de voz no forzado de una señal de voz de entrada;
- \bullet
- la identificación de una parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento;
- \bullet
- la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado; y
- \bullet
- el establecimiento de dicha hipótesis de formulación lingüística sobre la base de dicha parte identificada de dicho reconocimiento de voz no forzado.
2. Procedimiento según la reivindicación 1, en
el que la identificación de una parte de dicho reconocimiento de voz
forzado fuera de dicho ámbito de reconocimiento incluye:
- \bullet
- el cálculo de medidas de confianza (Conf(t)) para partes diferentes de dicho reconocimiento de voz forzado; y
- \bullet
- la identificación de dicha parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento sobre la base de dichas medidas de confianza (Conf(t)).
3. Procedimiento según la reivindicación 2, en
el que dichas medidas de confianza (Conf(t)) son
calculadas para fonemas de dicho reconocimiento de voz forzado.
4. Procedimiento según cualquiera de las
reivindicaciones anteriores, en el que la identificación de dicha
parte de dicho reconocimiento de voz forzado fuera de dicho ámbito
de reconocimiento sobre la base de dichas medidas de confianza
(Conf(t)) incluye:
- \bullet
- una identificación de partes de dicho reconocimiento de voz forzado con medidas de confianza (Conf(t)) que satisfacen un determinado criterio.
5. Procedimiento según la reivindicación 4, en
el que una identificación de partes de dicho reconocimiento de voz
forzado con medidas de confianza (Conf(t)) que
satisfacen un determinado criterio incluye:
- \bullet
- el cálculo de notas de confianza instantánea (C_{ist}(t)) como media temporal de dichas medidas de confianza (Conf(t)) en el interior de una ventana móvil; y
- \bullet
- una identificación de partes de dicho reconocimiento de voz forzado con notas de confianza instantánea (C_{ist}(t)) que satisfacen una primera relación.
6. Procedimiento según la reivindicación 5, en
el que cada nota de confianza instantánea
(C_{ist}(t)) se calcula según la siguiente
fórmula:
donde Conf(t)
representa dicha medida de confianza, y 2T+1 representa la
anchura de dicha ventana móvil centrada en el instante
t.
7. Procedimiento según las reivindicaciones 5 ó
6, en el que dicha primera relación está definida por el hecho de
que dichas notas de confianza instantánea
(C_{ist}(t)) son inferiores a un umbral
determinado.
8. Procedimiento según cualquiera de las
reivindicaciones anteriores, en el que la identificación de una
parte de dicho reconocimiento de voz no forzado correspondiente a
dicha parte identificada de dicho reconocimiento de voz forzado
incluye:
- \bullet
- la identificación de una parte de dicha señal de voz de entrada correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado; y
- \bullet
- la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicha señal de voz de entrada.
9. Procedimiento según cualquiera de las
reivindicaciones anteriores, que comprende además:
- \bullet
- la supresión de todos los silencios al principio o al final de dicha parte identificada de dicho reconocimiento de voz no forzado.
10. Procedimiento según cualquiera de las
reivindicaciones anteriores, que comprende además:
- \bullet
- guardar dicha parte identificada de dicho reconocimiento de voz no forzado en una base de datos de reconocimientos fuera de dicho ámbito de reconocimiento.
11. Procedimiento según la reivindicación 10, en
el que dicha parte identificada de dicho reconocimiento de voz no
forzado se guarda en dicha base de datos de reconocimientos fuera de
dicho ámbito de reconocimiento si su longitud satisface una segunda
relación.
12. Procedimiento según la reivindicación 11, en
el que dicha segunda relación está definida por el hecho de que la
longitud de dicha parte identificada de dicho reconocimiento de voz
no forzado está en un rango determinado.
13. Procedimiento según las reivindicaciones 10
a 12, que comprende además:
- \bullet
- procesar dicha base de datos de reconocimientos fuera de dicho ámbito de reconocimiento para establecer dicha hipótesis de formulación lingüística que se encuentra fuera de dicho ámbito de reconocimiento.
14. Procedimiento según cualquiera de las
reivindicaciones anteriores, en el que dicho ámbito de
reconocimiento incluye una gramática de reconocimiento y/o un modelo
de lenguaje.
15. sistema para proporcionar automáticamente
una hipótesis de formulaciones lingüísticas que son pronunciadas por
usuarios de un servicio de voz automático basado en un sistema de
reconocimiento de voz automático y que están fuera de un ámbito de
reconocimiento del sistema de reconocimiento de voz automático,
estando dicho sistema configurado para implementar el procedimiento
según cualquiera de las reivindicaciones anteriores.
16. Producto de programa informático que
comprende un código de programa informático cuando se carga en un
sistema de procesamiento, adaptado para implementar el procedimiento
según cualquiera de las reivindicaciones anteriores 1 a 14.
17. Servicio de voz automático basado en un
sistema de reconocimiento de voz automático, que comprende:
- \bullet
- la recepción de una señal de voz de entrada;
- \bullet
- la realización de un reconocimiento de voz automático sobre la base de dicha señal de voz de entrada; y
- \bullet
- el establecimiento de una hipótesis de una formulación lingüística que es pronunciada por un usuario de dicho servicio de voz automático y que se encuentra fuera de de un ámbito de reconocimiento de dicho sistema de reconocimiento de voz automático, estableciéndose dicha hipótesis automáticamente aplicando el procedimiento según cualquiera de las reivindicaciones 1 a 14.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2005/050712 WO2006087040A1 (en) | 2005-02-17 | 2005-02-17 | Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2309728T3 true ES2309728T3 (es) | 2008-12-16 |
Family
ID=34960407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05716729T Active ES2309728T3 (es) | 2005-02-17 | 2005-02-17 | Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico. |
Country Status (7)
Country | Link |
---|---|
US (1) | US9224391B2 (es) |
EP (1) | EP1851756B1 (es) |
AT (1) | ATE400047T1 (es) |
CA (1) | CA2597803C (es) |
DE (1) | DE602005007939D1 (es) |
ES (1) | ES2309728T3 (es) |
WO (1) | WO2006087040A1 (es) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2309728T3 (es) * | 2005-02-17 | 2008-12-16 | Loquendo S.P.A. | Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico. |
WO2007142102A1 (ja) * | 2006-05-31 | 2007-12-13 | Nec Corporation | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム |
US8135590B2 (en) * | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
WO2009136440A1 (ja) * | 2008-05-09 | 2009-11-12 | 富士通株式会社 | 音声認識辞書作成支援装置,処理プログラム,および処理方法 |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US8478592B2 (en) * | 2008-07-08 | 2013-07-02 | Nuance Communications, Inc. | Enhancing media playback with speech recognition |
CN102239517B (zh) * | 2009-01-28 | 2013-05-08 | 三菱电机株式会社 | 声音识别装置 |
US9280969B2 (en) * | 2009-06-10 | 2016-03-08 | Microsoft Technology Licensing, Llc | Model training for automatic speech recognition from imperfect transcription data |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
JP6233798B2 (ja) * | 2013-09-11 | 2017-11-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | データを変換する装置及び方法 |
US11295730B1 (en) * | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US10614108B2 (en) * | 2015-11-10 | 2020-04-07 | International Business Machines Corporation | User interface for streaming spoken query |
US11443734B2 (en) | 2019-08-26 | 2022-09-13 | Nice Ltd. | System and method for combining phonetic and automatic speech recognition search |
Family Cites Families (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4723290A (en) * | 1983-05-16 | 1988-02-02 | Kabushiki Kaisha Toshiba | Speech recognition apparatus |
US4882757A (en) * | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
US4977598A (en) * | 1989-04-13 | 1990-12-11 | Texas Instruments Incorporated | Efficient pruning algorithm for hidden markov model speech recognition |
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5878164A (en) * | 1994-01-21 | 1999-03-02 | Lucent Technologies Inc. | Interleaved segmental method for handwriting recognition |
CN1249667C (zh) * | 1994-10-25 | 2006-04-05 | 英国电讯公司 | 声控服务 |
US5617488A (en) * | 1995-02-01 | 1997-04-01 | The Research Foundation Of State University Of New York | Relaxation word recognizer |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US5884259A (en) * | 1997-02-12 | 1999-03-16 | International Business Machines Corporation | Method and apparatus for a time-synchronous tree-based search strategy |
US6006181A (en) * | 1997-09-12 | 1999-12-21 | Lucent Technologies Inc. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network |
US6108410A (en) * | 1997-09-16 | 2000-08-22 | Nynex Science And Technology Inc. | Methods and apparatus for automating the detection, reporting and correction of operator input errors |
US6757652B1 (en) * | 1998-03-03 | 2004-06-29 | Koninklijke Philips Electronics N.V. | Multiple stage speech recognizer |
US7043426B2 (en) * | 1998-04-01 | 2006-05-09 | Cyberpulse, L.L.C. | Structured speech recognition |
ITTO980383A1 (it) * | 1998-05-07 | 1999-11-07 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
US6188976B1 (en) * | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
US6438520B1 (en) * | 1999-01-20 | 2002-08-20 | Lucent Technologies Inc. | Apparatus, method and system for cross-speaker speech recognition for telecommunication applications |
US6356865B1 (en) * | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
US6282507B1 (en) * | 1999-01-29 | 2001-08-28 | Sony Corporation | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection |
DE60040536D1 (de) * | 1999-06-11 | 2008-11-27 | Telstra Corp Ltd | Verfahren zur entwicklung eines interaktiven systems |
US6691089B1 (en) * | 1999-09-30 | 2004-02-10 | Mindspeed Technologies Inc. | User configurable levels of security for a speaker verification system |
WO2001097213A1 (en) * | 2000-06-12 | 2001-12-20 | L & H Holdings Usa, Inc. | Speech recognition using utterance-level confidence estimates |
JP3379090B2 (ja) * | 2001-03-02 | 2003-02-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム |
WO2002086864A1 (en) * | 2001-04-18 | 2002-10-31 | Rutgers, The State University Of New Jersey | System and method for adaptive language understanding by computers |
US20030009335A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Speech recognition with dynamic grammars |
US7225130B2 (en) * | 2001-09-05 | 2007-05-29 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US7092883B1 (en) * | 2002-03-29 | 2006-08-15 | At&T | Generating confidence scores from word lattices |
US7197457B2 (en) * | 2003-04-30 | 2007-03-27 | Robert Bosch Gmbh | Method for statistical language modeling in speech recognition |
US7603267B2 (en) * | 2003-05-01 | 2009-10-13 | Microsoft Corporation | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system |
US7383172B1 (en) * | 2003-08-15 | 2008-06-03 | Patrick William Jamieson | Process and system for semantically recognizing, correcting, and suggesting domain specific speech |
GB0406619D0 (en) * | 2004-03-24 | 2004-04-28 | British Telecomm | Induction of grammar rules |
US20060009974A1 (en) * | 2004-07-09 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | Hands-free voice dialing for portable and remote devices |
US7574356B2 (en) * | 2004-07-19 | 2009-08-11 | At&T Intellectual Property Ii, L.P. | System and method for spelling recognition using speech and non-speech input |
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
CA2499305A1 (en) * | 2005-03-04 | 2006-09-04 | 668158 B.C. Ltd. | Method and apparatus for providing geographically targeted information and advertising |
WO2006069600A1 (en) | 2004-12-28 | 2006-07-06 | Loquendo S.P.A. | Automatic speech recognition system and method |
US7379870B1 (en) * | 2005-02-03 | 2008-05-27 | Hrl Laboratories, Llc | Contextual filtering |
ES2309728T3 (es) * | 2005-02-17 | 2008-12-16 | Loquendo S.P.A. | Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico. |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
WO2007046267A1 (ja) * | 2005-10-20 | 2007-04-26 | Nec Corporation | 音声判別システム、音声判別方法及び音声判別用プログラム |
US20070112567A1 (en) * | 2005-11-07 | 2007-05-17 | Scanscout, Inc. | Techiques for model optimization for statistical pattern recognition |
ATE449403T1 (de) * | 2005-12-12 | 2009-12-15 | Gregory John Gadbois | Mehrstimmige spracherkennung |
US8996385B2 (en) * | 2006-01-31 | 2015-03-31 | Honda Motor Co., Ltd. | Conversation system and conversation software |
EP2523443B1 (en) * | 2006-02-10 | 2014-01-29 | Nuance Communications, Inc. | A mass-scale, user-independent, device-independent, voice message to text conversion system |
US7890325B2 (en) * | 2006-03-16 | 2011-02-15 | Microsoft Corporation | Subword unit posterior probability for measuring confidence |
US20070226164A1 (en) * | 2006-03-21 | 2007-09-27 | Honeywell International Inc. | Type variables and/or temporal constraints in plan recognition |
US20080133245A1 (en) * | 2006-12-04 | 2008-06-05 | Sehda, Inc. | Methods for speech-to-speech translation |
-
2005
- 2005-02-17 ES ES05716729T patent/ES2309728T3/es active Active
- 2005-02-17 US US11/884,473 patent/US9224391B2/en not_active Expired - Fee Related
- 2005-02-17 EP EP05716729A patent/EP1851756B1/en not_active Not-in-force
- 2005-02-17 AT AT05716729T patent/ATE400047T1/de not_active IP Right Cessation
- 2005-02-17 CA CA2597803A patent/CA2597803C/en not_active Expired - Fee Related
- 2005-02-17 DE DE602005007939T patent/DE602005007939D1/de active Active
- 2005-02-17 WO PCT/EP2005/050712 patent/WO2006087040A1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
US20080270129A1 (en) | 2008-10-30 |
DE602005007939D1 (de) | 2008-08-14 |
ATE400047T1 (de) | 2008-07-15 |
WO2006087040A1 (en) | 2006-08-24 |
US9224391B2 (en) | 2015-12-29 |
CA2597803C (en) | 2014-05-13 |
EP1851756B1 (en) | 2008-07-02 |
EP1851756A1 (en) | 2007-11-07 |
CA2597803A1 (en) | 2006-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2309728T3 (es) | Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico. | |
US6490561B1 (en) | Continuous speech voice transcription | |
Gauvain et al. | Large-vocabulary continuous speech recognition: advances and applications | |
Wester | Pronunciation modeling for ASR–knowledge-based and data-derived methods | |
Hazen et al. | Recent improvements in an approach to segment-based automatic language identification. | |
US10665227B2 (en) | Voice recognition device and voice recognition method | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
Lanchantin et al. | Automatic phoneme segmentation with relaxed textual constraints | |
Adda-Decker et al. | The use of lexica in automatic speech recognition | |
Baig et al. | Discriminative training for phonetic recognition of the Holy Quran | |
Gauvain et al. | The LIMSI Continuous Speech Dictation Systemt | |
Lamel et al. | Towards best practice in the development and evaluation of speech recognition components of a spoken language dialog system | |
JP2006084966A (ja) | 発話音声の自動評定装置およびコンピュータプログラム | |
Gauvain et al. | Large vocabulary speech recognition based on statistical methods | |
Álvarez et al. | Long audio alignment for automatic subtitling using different phone-relatedness measures | |
Gauvain et al. | Speech-to-text conversion in French | |
Long et al. | Filled pause refinement based on the pronunciation probability for lecture speech | |
Vanhainen et al. | Free Acoustic and Language Models for Large Vocabulary Continuous Speech Recognition in Swedish | |
Colla et al. | Automatic generation of linguistic, phonetic and acoustic knowledge for a diphone-based continuous speech recognition system | |
Kessens et al. | Automatic detection and verification of Dutch phonological rules | |
Gollan et al. | Towards automatic learning in LVCSR: rapid development of a Persian broadcast transcription system. | |
Álvarez et al. | Improving a long audio aligner through phone-relatedness matrices for english, spanish and basque | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
Rodríguez et al. | Evaluation of sublexical and lexical models of acoustic disfluencies for spontaneous speech recognition in Spanish. | |
Scagliola et al. | Continuous speech recognition via diphone spotting a preliminary implementation |