ES2309728T3 - Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico. - Google Patents

Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico. Download PDF

Info

Publication number
ES2309728T3
ES2309728T3 ES05716729T ES05716729T ES2309728T3 ES 2309728 T3 ES2309728 T3 ES 2309728T3 ES 05716729 T ES05716729 T ES 05716729T ES 05716729 T ES05716729 T ES 05716729T ES 2309728 T3 ES2309728 T3 ES 2309728T3
Authority
ES
Spain
Prior art keywords
recognition
forced
voice recognition
automatic
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05716729T
Other languages
English (en)
Inventor
Daniele c/o LOQUENDO S.p.A. COLIBRO
Claudio c/o LOQUENDO S.p.A. VAIR
Luciano c/o LOQUENDO S.p.A. FISSORE
Cosmin c/o LOQUENDO S.p.A. POPOVICI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Loquendo SpA
Original Assignee
Loquendo SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Loquendo SpA filed Critical Loquendo SpA
Application granted granted Critical
Publication of ES2309728T3 publication Critical patent/ES2309728T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

Procedimiento para proporcionar automáticamente una hipótesis de una formulación lingüística que es pronunciada por un usuario de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que se encuentra fuera de un ámbito de reconocimiento de dicho sistema de reconocimiento de voz automático, caracterizado por: * el establecimiento de un reconocimiento de voz forzado y un reconocimiento de voz no forzado de una señal de voz de entrada; * la identificación de una parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento; * la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado; y * el establecimiento de dicha hipótesis de formulación lingüística sobre la base de dicha parte identificada de dicho reconocimiento de voz no forzado.

Description

Método y sistema automático para proporcionar formulaciones lingüísticos que están fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automático.
Sector técnico de la invención
La presente invención se refiere en general a un servicio de voz automático basado en el reconocimiento de voz automático, y en particular, a un procedimiento y a un sistema para proporcionar automáticamente hipótesis de formulaciones lingüísticas que son pronunciadas por usuarios de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que están fuera de un ámbito de reconocimiento del sistema de reconocimiento de voz automático.
Antecedentes
Como es sabido, las aplicaciones dirigidas por voz y servicios de voz complejos están basados en los sistemas de reconocimiento de voz automáticos (ASRs), concebidos para convertir una representación digital de una señal de voz, que transforma el discurso en una secuencia de texto de palabras, por suposición del contenido léxico de la señal de voz. El proceso de reconocimiento automático utiliza modelos acústicos estocásticos, y por lo tanto, el resultado obtenido, en términos de secuencia de palabras reconocidas, puede verse afectado por una tasa de errores residuales no nula. Además, el ámbito de las formulaciones reconocidas por un sistema de reconocimiento de voz automático está en cualquier caso sujeto a un vocabulario limitado, formalizado mediante un modelo estadístico del lenguaje o de gramáticas libres de contexto, que puede ser recuperado por un autómata finito (este es el caso, por ejemplo, de una gramática que describe la manera de pronunciar una fecha o una hora).
Los sistemas de reconocimiento de voz automáticos más avanzados también permiten el reconocimiento en vocabularios flexibles, que son definidos por el usuario y descritos mediante formalismos adecuados. Para lograr este resultado, los modelos de voz utilizados para el reconocimiento están compuestos de unidades acústico-fonéticas elementales (APUs), cuya composición secuencial permite la representación de cualquier palabra de un determinado lenguaje.
Las herramientas matemáticas utilizadas para describir la evolución temporal de la voz son los llamados modelos ocultos de Markov (HMMs), y cada unidad acústico-fonética elemental está representada por un modelo oculto de Markov, que está formado por estados que describen la evolución temporal de la misma. Las palabras a reconocer, que se describen como secuencias de las unidades acústico-fonéticas elementales, se obtienen concatenando modelos ocultos de Markov constituyentes individuales.
Además de describir la evolución temporal del discurso, los modelos ocultos de Markov permiten la generación de las posibilidades de emisión de los estados acústicos que los forman, dados los vectores de observación que transforman la información de la señal de voz. La secuencia de las probabilidades, junto con su evolución temporal, permite obtener el resultado de reconocimiento. Para una descripción más detallada de la teoría, los algoritmos y la implementación de modelos ocultos de Markov, se puede hacer referencia a Huang X., Acero A., y Hon H.W., Spoken Lenguaje Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, Capítulo 8, páginas 377-413, 2001.
Por lo tanto, la pronunciación de palabras que están fuera del vocabulario o de formulaciones que no están cubiertas genera errores de reconocimiento. Por lo tanto, los sistemas de reconocimiento de voz automáticos también proporcionan una medida de la fiabilidad de las palabras reconocidas, en particular un indicador de fiabilidad comprendido entre 0 y 1, que es conocido en la literatura como medida de confianza y que puede aplicarse a las palabras individuales reconocidas y/o a su secuencia. En el caso de un error de reconocimiento, la medida de confianza debería tomar valores bajos, y, en cualquier caso, inferior a aquellos que se obtienen en ausencia de errores. Se puede fijar un umbral en los valores de la confianza medidos para evitar propuestas de resultados que no son tan fiables.
Una técnica que es ampliamente utilizada para calcular la medida de confianza consiste o bien en normalizar las así llamadas probabilidades a posteriori, que son cantidades derivadas de las probabilidades de emisión, o directamente las probabilidades de emisión, que coinciden en el cálculo de la medida de confianza. La comparación de las dos cantidades, es decir, el resultado obtenido aplicando las restricciones y el resultado obtenido disminuyendo las restricciones, proporciona información útil para determinar la confianza. De hecho, si las dos cantidades tienen valores comparables, significa que la introducción de las restricciones de reconocimiento no ha producido ninguna distorsión particular con respecto a lo que habría ocurrido sin restricciones de reconocimiento. Por lo tanto, el resultado de reconocimiento podría considerarse como fiable, y su confianza debería tener valores elevados, cercanos de su límite superior. Cuando, en cambio, el resultado con restricciones es considerablemente peor que el resultado sin restricciones, se puede deducir que el reconocimiento no es fiable en la medida en que el sistema de reconocimiento de voz automático habría producido el resultado obtenido como consecuencia de la aplicación de las restricciones. En este caso, la medida de confianza debería producir valores bajos, cercanos a su límite inferior.
Un ejemplo de esta técnica se propone en Gillick M. Et al., A Probabilistic Approach to Confidence Estimation and Evaluation, Proc. of the IEEE International Conference on Acoustics, Speech y Signal Processing, Munich, Germany, páginas 879-882 (Mayo 1997), donde se adopta la diferencia entre cantidades conocidas como resultado acústico y mejor resultado, donde los dos términos se obtienen respectivamente promediando el resultado acústico (con restricciones) y el mejor resultado (sin restricciones), obtenido para cada trama con los modelos ocultos de Markov acústicos en el intervalo de tiempo correspondiente a las palabras.
En la PCT/EP/0453718 presentada el 28/12/2004 por el propio solicitante, y publicada como WO-A-069600, se propone, en cambio, una medida de confianza basada en contribuciones diferenciales calculadas para cada trama de una ventana de análisis como diferencia entre un resultado acústico no forzado y un resultado acústico forzado, y promediado sobre todo el intervalo de reconocimiento. Esto permite actuar sobre la contribución diferencial individual de la suma, aplicándole una función de normalización respectiva, que hace que la medida de confianza sea homogénea en términos de capacidad de rechazo e invariante con respecto al lenguaje, el vocabulario y la gramática, y, en general, con respecto a las restricciones de reconocimiento. Esto facilita enormemente el desarrollo de aplicaciones en las etapas iniciales de su desarrollo, puesto que no precisan de ninguna calibración específica para cada sesión de reconocimiento individual. La función de normalización aplicada a los términos diferenciales individuales está constituida por una familia de distribuciones acumulativas, una para cada contribución diferencial a la medida de confianza. Cada función puede estimarse de manera simple basándose en un conjunto de datos de capacitación y es específica para cada estado de la unidad acústico-fonética elemental. por lo tanto, la solución propuesta no requiere consideraciones heurísticas o suposiciones a priori y hace posible obtener todas las cantidades necesarias para deducir la medida de confianza diferencial directamente a partir de los datos de capacitación.
Uno de los principales problemas encontrados por los diseñadores de las aplicaciones dirigidas por voz o los servicios de voz basados en el reconocimiento de voz automático es la predicción correcta del comportamiento de los usuarios, problema que suele afrontarse creando las gramáticas destinadas a adquirir información de los usuarios sin utilizar, sin embargo, vocabularios demasiado extensos o sin crear gráficos excesivamente complejos. El riesgo, de hecho, es que una mejora en la cobertura de formulaciones de usuarios marginales tiene un coste en términos de más errores de reconocimiento hechos por el sistema sobre formulaciones canónicas debido al aumento de su complejidad. Por otro lado, para servicios de asistencia telefónica o de asignación de llamadas, es extremadamente difícil predecir la manera en que los usuarios formularán sus pedidos.
Una posible solución a este problema, que no recurre a un análisis de datos automático, consiste en realizar una primera versión de las gramáticas utilizando datos de verificación, calibrar el servicio, que por lo tanto tendrá unas prestaciones por debajo de lo óptimo, y, al mismo tiempo, recoger datos relativos a su uso real, que suelen consistir en los archivos de audio con las peticiones de los usuarios. Luego, los operadores humanos catalogan los fragmentos de diálogo implicados en los fallos de sistema, y una vez que se ha catalogado una parte substancial de los datos, se pueden generar estadísticas sobre las causas del fallo, que pueden estar entre: errores de reconocimiento, posibles errores debidos a razones de niveles del sistema y casos en los que las peticiones de usuario no son satisfechas por el sistema. En el caso del último tipo de error, cuando es frecuente, es posible extender las gramáticas utilizadas, con la finalidad de aumentar la cobertura, o emplear otras estrategias más sofisticadas. Los diseñadores de aplicaciones, por ejemplo, podrían cambiar los fragmentos de voz relativos a uno o más turnos de diálogo, con el fin de ayudar a los usuarios a formular sus pedidos. Sin embargo, esta solución es extremadamente cara porque los datos deben ser analizados por operadores humanos para saber exactamente el contenido de la petición del usuario.
También son conocidos en la técnica los sistemas de análisis automático basados en el uso de datos recogidos reales, relativos a interacciones con usuarios reales, para mejorar las prestaciones de las gramáticas y modelos de lenguaje utilizados en un servicio de voz. Concretamente, los datos son adquiridos automáticamente por los sistemas de reconocimiento y no son verificados por operadores por razones de costes excesivamente altos, con el riesgo de que contengan errores de reconocimiento. Por ejemplo, en US 6,499,011 los resultados de reconocimiento, es decir, las primeras N-Mejores hipótesis, con N>1, se utilizan para hacer ajustes en los modelos de lenguaje con el fin de mejorar aplicaciones en las cuales la cantidad de material utilizado para capacitar los modelos de lenguaje iniciales es bastante pobre. En este caso, la mejora de prestaciones se centra en mejorar la modelización de las formulaciones ya predichas.
Una tecnología que ha sido probada para un servicio de asistencia telefónico automático se describe en US 6,185,528 y se basa en palabras diferenciadas, aunque un objeto del vocabulario de reconocimiento también podría ser una secuencia de palabras y no necesariamente una única palabra. Con respecto a los directorios de abonados a empresas, se ha observado una gran variabilidad en la forma en que los usuarios del servicio expresan sus pedidos. Como los contenidos de las bases de datos para estos usuarios no es suficiente para extraer información sobre la formulación lingüística utilizada por los que llaman, es necesario llevar a cabo un trabajo complejo para deducir las posibles variantes de pronunciación para cada registro de la base de datos.
En este contexto, se ha desarrollado un sistema de aprendizaje automático que utiliza los datos recogidos reales para determinar las formulaciones lingüísticas más frecuentemente utilizadas por los usuarios y no contempladas por el sistema que implementa el servicio de asistencia telefónico automático. Se ha considerado la información relativa a llamadas para las cuales el sistema de asistencia telefónica automático no es capaz de satisfacer las peticiones de usuario. Estas llamadas son transferidas a un operador humano, que habla con el usuario para proporcionar el número solicitado. Los datos disponibles para cada llamada están representados por archivos de audio grabados, que contienen los diálogos entre el usuario y el sistema de asistencia telefónico automático, la trascripción fonética sin restricciones de cada archivo de audio (la trascripción fonética sin restricciones representa la secuencia más probable de fonemas y, aunque imprecisa, en la mayoría de los casos representa bastante bien lo que el usuario ha pronunciado) y la información relativa al número de teléfono suministrado por el operador humano. A partir de estos fragmentos de información, se seleccionan aquellos relativos a los números de teléfono solicitados más frecuentemente.
El solicitante se ha dado cuenta de que, dado un conjunto extremadamente largo de solicitudes para el mismo número, hay una probabilidad alta de obtener cadenas fonéticas que son similares entre sí. El concepto de distancia entre dos cadenas de fonemas se puede introducir llevando a cabo una Alineación de Viterbi, para cuya descripción detallada se puede hacer referencia a los ya mencionados Spoken Lenguaje Processing: A Guide to Theory, Algorithm, and System Development, chapter 8, y utilizando las probabilidades de supresión, de inserción o sustitución de fonemas, cuyas probabilidades son capacitadas con datos controlados mediante la alineación de las transcripciones fonéticas sin restricciones con las transcripciones fonéticas correctas correspondientes. El conjunto de transcripciones fonéticas, para cada número de teléfono solicitado frecuentemente, es posteriormente agrupado en subconjuntos similares que utilizan un vecino jerárquico -algoritmo de búsqueda, basado en la distancia entre las cadenas fonéticas. Se determina un conjunto de transcripciones fonéticas similares configurando un umbral para la máxima distancia de las cadenas fonéticas que forman parte del mismo grupo. Se descartan los Subconjuntos con pocos elementos o que tienen una gran diferencia en distancia entre las cadenas fonéticas constituyentes. Para grupos caracterizados por una gran cardinalidad y una baja dispersión en las cadenas fonéticas constituyentes, se selecciona el elemento central (elemento representativo), definido como la cadena fonética con la suma de distancias menor en relación con los otros elementos del conjunto.
Vale la pena observar que cuando el número de elementos de un grupo es suficientemente alto, el elemento representativo proporciona una buena trascripción fonética de la entrada solicitada. Toda la arquitectura del sistema de aprendizaje automático, los resultados de las pruebas realizadas y las mejoras en términos de automatización (aumento en el porcentaje de llamadas atendidas satisfactoriamente por el sistema de asistencia telefónico automático) se describen en detalle en:
\bulletAdorno M., P. Laface, C. Popovici, L. Fissore, C. Vair, Towards Automatic Adaptation of the accoustic models and of Formulation Variants in a Directory Assistance Application, Proceedings of ISCA TTRWorkshop, páginas 175-178, Sophia-Antipolis (France), 2001; y
\bulletPopovici C., P. Laface, M. Adorno, L. Fissore, M. Nigra, C. Vair, Learning New User Formulation in Automatic Directory Assistance, Proceedings of ICASSP, 1448-1451, Orlando (USA), 2002.
Sin embargo, el aprendizaje automático desarrollado en este contexto precisa de datos de servicio de voz, tales como confirmaciones de usuario y números de teléfono proporcionados por el operador en respuestas a llamadas, para identificar las cadenas fonéticas individuales que se emplearán posteriormente. Además, las cadenas fonéticas representativas encontradas son añadidas como objetos al vocabulario de palabras diferenciadas.
En este sentido, el Solicitante se ha dado cuenta de que los sistemas de reconocimiento de voz continuos usados habitualmente que están basados en gramáticas o modelos de lenguaje, trabajan sobre toda la frase pronunciada y no identifican solamente la porción de las formulaciones de los usuarios que están fuera del ámbito de reconocimiento. La identificación local de palabras no contempladas por las gramáticas de reconocimiento o modelos de lenguaje dentro de una repetición serían especialmente ventajosas porque permitirían en primer lugar beneficiarse de los resultados de los algoritmos de aprendizaje automático, incluso con una cantidad de datos no excesivamente abundante, y en segundo lugar permitiría que las palabras no cubiertas fueran detectadas incluso si otras palabras cubiertas cambiaran dentro de la secuencia (en la medida en que estas estuvieran permitidas por restricciones gramaticales), mientras que un sistema que trabaja con palabras diferenciadas no es capaz de funcionar tan eficientemente en estos
casos.
Objeto y resumen de la invención
El objeto de la presente invención es proporcionar una contribución a la resolución de los problemas relacionados con la cobertura insuficiente de formulaciones utilizadas frecuentemente por usuarios de un servicio de voz automático, y en particular, para identificar, con un buen margen de seguridad, aquellas porciones de la voz de entrada que no tienen relación con la gramática o el modelo de lenguaje empleado, basándose en datos de reconocimiento.
Este objeto es alcanzado por la presente invención porque se refiere a un procedimiento y a un sistema para proporcionar automáticamente una hipótesis de formulaciones lingüísticas que son pronunciadas por usuarios de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que están fuera de un ámbito de reconocimiento del sistema de reconocimiento de voz automático, tal como se define en las reivindicaciones 1 y 15, respectivamente, a un producto de programa informático, tal como se define en la reivindicación 16, y a un servicio de voz automático, tal como se define en la reivindicación 17.
La presente invención alcanza el objeto mencionado proporcionando una secuencia de fonemas forzados y una secuencia de fonemas no forzados, el cálculo de medidas de confianza para los fonemas forzados, una identificación de partes de la señal de voz de entrada correspondientes a los fonemas forzados con medidas de confianza por debajo de un umbral, y la identificación de fonemas no forzados correspondientes a las partes identificadas de la señal de voz de entrada. Los fonemas no forzados identificados son guardados en una base de datos de reconocimiento fuera del ámbito de reconocimiento, la cual es procesada para proporcionar una hipótesis de formulaciones utilizadas frecuentemente fuera de dicho ámbito de reconocimiento. Luego, estas formulaciones utilizadas frecuentemente pueden emplearse para ampliar el ámbito de reconocimiento o llevar a cabo un aprendizaje de fonemas diferentes.
Breve descripción de los dibujos
Para una mejor comprensión de la presente invención, una realización preferida, ofrecida únicamente a modo de ejemplo y que no debe interpretarse como limitativa, se describirá a continuación con referencia a los dibujos adjuntos, en los cuales:
\bullet La figura 1 muestra un diagrama de flujo de las actividades relativas al desarrollo de un servicio de voz capacitado para el aprendizaje automático de fonemas;
\bullet La figura 2 muestra un esquema de los conocimientos que debe tener un sistema de reconocimiento de voz automático para realizar el aprendizaje fonético de formulaciones lingüísticas no cubiertas por la gramática de reconocimiento y/o el modelo de lenguaje, y los resultados que proporciona;
\bullet La figura 3 muestra una tabla que contiene datos relativos a un reconocimiento fonético no forzado en el caso en que la frase pronunciada por el usuario está completamente cubierta por la gramática de reconocimiento empleada;
\bullet La figura 4 muestra una tabla que contiene datos relativos a un reconocimiento fonético no forzado en el caso en que la frase pronunciada por el usuario difiere significativamente de aquellos permitidos por la gramática de reconocimiento empleada;
\bullet La figura 5 muestra una tabla que contiene datos que muestran como la información de nivel fonético permite la localización temporal de errores de no-cobertura con gran precisión; y
\bullet La figura 6 muestra un diagrama de flujo del procedimiento según la presente invención.
Descripción detallada de realizaciones preferidas de la invención
La siguiente discusión se presenta para permitir a un experto en la materia realizar y utilizar la invención. Varias modificaciones de las realizaciones se harán fácilmente aparentes para los expertos en la materia, y los principios generales se podrán aplicar a otras realizaciones y aplicaciones sin salir de la esencia y alcance de la presente invención. De este modo, la presente invención no se limita a las realizaciones mostradas, si no que se le concede el más amplio alcance consecuente con los principios y características aquí descritas y definidas en las reivindicaciones adjuntas.
La figura 1 muestra un diagrama de flujo de las actividades relativas al desarrollo de un servicio de voz capacitado para el aprendizaje automático de fonemas, en el que la identificación de las partes de las formulaciones de los usuarios que no están cubiertas por la gramática de reconocimiento o el modelo de lenguaje es realizada según la presente invención.
Tal como se muestra en la figura 1, la primera etapa es la creación de una primera versión de las gramáticas y modelos de lenguaje utilizados en el servicio utilizando todo el conocimiento disponible, por ejemplo se pueden utilizar el conocimiento relativo a servicios similares ya implementados, también con operadores humanos (bloque 100). En cualquier caso, el objetivo es el de crear una primera versión de los objetos de reconocimiento utilizados en el servicio mediante el análisis del supuesto comportamiento de los usuarios, cuyo objeto, aunque sea el representarlos lo mejor posible, podría tener lagunas relativas a las expresiones lingüísticas más frecuentes. Sin embargo, los objetos de reconocimiento generados de esta manera seguirán siendo usados en la primera versión del servicio.
Una vez que se ha creado una primera versión de las gramáticas y modelos de lenguaje (bloque 110), el servicio es aplicado, es decir, la aplicación de voz con los objetos de reconocimiento generados en la etapa anterior es ejecutada con clientes reales (bloque 120). En esta fase, incluso si el servicio tiene inevitablemente unas prestaciones por debajo de lo óptimo, se recogen datos relativos a su uso real, que suele consistir en los archivos de audio con las peticiones de los usuarios. Además de los datos relativos a lo que dijo el usuario, el sistema de reconocimiento de voz automático también proporciona datos necesarios para el aprendizaje fonético, cuyos datos se guardan en una base de datos (bloque 130).
Luego, la base de datos es analizada para identificar las partes de las formulaciones de los usuarios que no están cubiertas por la gramática de reconocimiento o el modelo de lenguaje utilizado, tal como se describirá con más detalle más adelante con referencia a la figura 6 (bloque 140). En el caso en que se haya detectado algún tipo de inconsistencia, por ejemplo, si se ha considerado que lo que se ha reconocido en un determinado intervalo de tiempo no está cubierto por la gramática utilizada, se tiene en cuenta la secuencia de fonemas que, para el sistema de reconocimiento de voz automático usado, modeliza mejor lo que fue pronunciado por el usuario en ese intervalo de tiempo. Esta cadena fonética, que para sistemas de reconocimiento de voz automáticos de altas prestaciones debería representar lo que fue dicho por el usuario de una manera consecuentemente fiel (diferente de los que es entendido por la gramática) es almacenada en una base de datos junto con otras cadenas fonéticas obtenidas de la misma manera en diferentes turnos de reconocimiento, y por lo tanto, posiblemente con otros usuarios (bloque 150).
Una vez que ha sido analizada una cantidad substancial de datos, la base de datos de cadenas fonéticas no cubiertas por la gramática de reconocimiento es procesada para identificar grupos de transcripciones fonéticas similares y para encontrar cadenas fonéticas representativas para los grupos (bloque 160). Si el análisis tiene éxito y las cadenas fonéticas representativas son identificadas, estas últimas son suministradas a los desarrolladores de aplicaciones como hipótesis de formulaciones no cubiertas, acompañadas con información relativa a los datos que las generaron (bloque 170).
Entonces, los diseñadores llevan a cabo una actividad de validación, con la posible actualización de los objetos de reconocimiento para comprobar la hipótesis producida por el sistema (bloque 180).
Por ejemplo, las gramáticas podrían ser extendidas, con la finalidad de aumentar la cobertura, o se pueden emplear estrategias más sofisticadas. El diseñador, por ejemplo, podría cambiar los fragmentos de voz relativos a uno o más turnos de diálogo, con el fin de ayudar a los usuarios a formular sus pedidos.
Hay que destacar que todas las tareas de análisis se realizan automáticamente. Los diseñadores recibirán datos acerca de los fallos más frecuentemente probables y deberán verificarlos sobre la base de un conjunto muy limitado de datos que son sugeridos por el sistema de aprendizaje fonético. Por lo tanto la tarea de validación es bastante simple y el trabajo humano implicado es incomparablemente menor que el requerido para etiquetar manualmente todos los fallos de sistema.
La figura 2 muestra un esquema de los conocimientos que necesita un sistema de reconocimiento de voz continuo automático (bloque 1) para reconocer una voz de entrada (bloque 2) y para realizar el aprendizaje fonético de formulaciones lingüísticas no cubiertas por gramáticas de reconocimiento y modelos de lenguaje, y los resultados que proporciona. En general, los sonidos elementales empleados para formar palabras y frases son diferentes según el lenguaje utilizado: por lo tanto es necesario definir un alfabeto fonético que modelice los sonidos elementales, que se suelen definir en términos de fonemas, para cada lenguaje soportado por el sistema de reconocimiento de voz automático. Igual que un alfabeto fonético, un sistema de reconocimiento de voz automático necesita modelos acústicos, que se suelen crear con densidades de probabilidad Gausianas multivariantes o redes neuronales, para calcular las probabilidades de emisión, o mejor dicho para estimar la probabilidad de que el usuario haya pronunciado un determinado fonema en un cierto momento. El alfabeto fonético y sus modelos acústicos correlacionados representan el conocimiento del lenguaje y normalmente son proporcionados por un fabricante de tecnología ASR (bloque 3). Obviamente, con el fin de entender lo que el usuario ha dicho es necesario que la voz del usuario esté en un formato de stream de audio digital, habitualmente con una frecuencia de muestreo de 8 KHz en el sector de la telefonía y 16 KHz en el de multimedia. Finalmente, se necesitan conocimientos lingüísticos relativos a los ámbitos de las formulaciones admisibles (bloque 4). Típicamente, esto depende del lugar de servicio del diálogo y la información que debe ser solicitada por los usuarios, tales como fechas, cantidades, tiempos, opciones de menú, etc. El objetivo final de la tecnología de aprendizaje fonético es la mejora de este tipo de conocimiento mediante el análisis del comportamiento del usuario.
Los resultados que debe suministrar un sistema de reconocimiento de voz automático en un servicio de voz capacitado para el aprendizaje automático de fonemas son los resultados relativos a los turnos de reconocimiento individuales: las palabras reconocidas, posiblemente con su interpretación semántica, la nota de confianza de reconocimiento, que expresa la fiabilidad, y, opcionalmente, los resultados relativos a las hipótesis de reconocimiento distintas de la mejor (bloque 5). Sin embargo, estos datos no bastan para llevar a cabo el aprendizaje fonético, y es necesario que el sistema de reconocimiento de voz automático suministre más información. Los datos adicionales requeridos son los reconocimientos fonéticos no forzados y forzados, la medida de confianza de los fonemas individuales, y las ventanas de tiempo en las que son reconocidos (bloque 6).
El reconocimiento fonético no forzado representa la secuencia de fonemas más probable para el sistema de reconocimiento de voz automático de lo que el usuario ha pronunciado. La propiedad principal de este reconocimiento es el hecho de que cubre toda la entrada de voz y representa bastante bien lo que los usuarios pronuncian, especialmente si el sistema de reconocimiento de voz automático es de gran calidad.
El reconocimiento fonético forzado representa la segmentación de lo que es pronunciado por los usuarios en fonemas, con la restricción de que la secuencia de fonemas es necesariamente la relativa a la primera hipótesis para el turno de reconocimiento. Mientras que el contenido de información más significativo para el reconocimiento fonético no forzado se encuentra en la secuencia de los fonemas reconocidos, con la información temporal relativa a las ventanas de tiempo (calculado con respecto al inicio de la adquisición de audio) en las que se detectan cada fonema individual, para el reconocimiento fonético forzado la información relevante no es la relativa a la secuencia, si no que es la contenida en la confianza de los fonemas individuales y en las ventanas de tiempo en las que son reconocidos.
La manera en la que las partes de las formulaciones de los usuarios que no están cubiertas por la gramática de reconocimiento o el modelo de lenguaje utilizado son identificadas según la presente invención es el resultado de un profundo análisis hecho por el Solicitante sobre la diferencia en las medidas de confianza para los reconocimientos fonéticos forzado y no forzado en el caso en el que la frase pronunciada por el usuario es una de aquellas cubiertas por los ámbitos de formulación permitidos por la gramática de reconocimiento empleada, y en el caso en que la frase pronunciada por el usuario difiere significativamente de aquellas cubiertas por los ámbitos de formulación permitidos por la gramática de reconocimiento.
En particular, en la figura 3 es posible analizar un reconocimiento fonético no forzado en el caso de una cobertura de la gramática completa, donde se ha utilizado una gramática con dígitos relativos al italiano. En particular, La figura 3 muestra una tabla en la que la primera fila, indicada por 200, muestra las palabras reconocidas, la segunda fila, indicada por 210, muestra las medidas de confianza de las palabras reconocidas, la tercera fila, indicada por 220, muestra los fonemas en el reconocimiento fonético no forzado, la cuarta fila, indicada por 230, muestra las medidas de confianza de los fonemas en el reconocimiento fonético no forzado, la quinta fila, indicada por 240, muestra los fonemas en el reconocimiento fonético forzado, la sexta fila, indicada por 250, muestra las medidas de confianza de los fonemas en el reconocimiento fonético forzado, y la séptima fila, indicada por 260, muestra el tiempo con referencia al inicio de la adquisición de audio.
En el ejemplo de la figura 3, el usuario ha pronunciado la frase "TRE SETTE" (TRES SIETE), y el reconocimiento ha tenido éxito con una confianza muy alta de 0,81 para la palabra "TRE" y 0,85 para la palabra "SETTE". El reconocimiento fonético no forzado está representado por la cadena "@-t-r-e-s-e-p-e", donde "@" es el símbolo que representa silencio. La figura 3 también muestra la confianza de los fonemas individuales, que siempre es alta para casos de voz en el reconocimiento fonético no forzado y los segmentos de tiempo estimados por el sistema de reconocimiento de voz automático con referencia al inicio de adquisición de audio, cuyos segmentos representan el posicionamiento, en términos de ventanas de tiempo, de las palabras en la frase reconocida. También se puede ver fácilmente que para el sistema de reconocimiento de voz automático, la palabra "TRE" empieza después de aproximadamente 0,45 segundos y acaba después de 0,85 segundos. El reconocimiento fonético forzado se obtiene teniendo en cuenta los fonemas que forman la primera hipótesis de reconocimiento y realizando sobre ellos una pasada de reconocimiento. En el ejemplo, se puede observar que la secuencia fonética es "@-t-r-e-s-e-t-e", porque el sistema ha reconocido correctamente la frase pronunciada por el usuario. Hay que destacar que las confianzas son muy altas y comparables a las del reconocimiento fonético no forzado; esto es una indicación de la fiabilidad del reconocimiento realizado. Finalmente, se puede observar que en el caso examinado, la confianza del reconocimiento fonético no forzado representa un límite superior que puede ser igualado por el reconocimiento fonético forzado, pero nunca excedido. Esta última propiedad se puede apreciar observando como la confianza del fonema erróneo "p" es mayor que la del fonema correcto "t" reconocido mediante reconocimiento forzado.
En la figura 4 es posible analizar un reconocimiento fonético no forzado en el caso en que la frase pronunciada por el usuario difiere significativamente de aquellas permitidas por la gramática de reconocimiento empleada, donde se utilizan la misma gramática y estructura de tabla que en el ejemplo de la figura 3.
En este caso, el usuario ha pronunciado la frase "TRE AMICI" (TRES AMIGOS), que está claramente no cubierta por la gramática debido a la palabra "AMICI" (AMIGOS). Se puede apreciar que el "SILENCE" inicial y la palabra "TRE" tienen confianzas altas (0,92 y 0,79, respectivamente), mientras que el "SILENCE" final que el sistema de reconocimiento de voz automático ha seleccionado para cubrir la palabra "AMICI" lo mejor posible, tiene una nota de confianza muy baja de 0,14. Por lo tanto, los resultados de reconocimiento deberían considerarse como no fiables y esto es definitivamente consecuente. También se puede ver fácilmente que para el sistema de reconocimiento de voz automático, la palabra "TRE" empieza después de aproximadamente 0,55 segundos y acaba sobre 0,9 segundos, mientras que la palabra "AMICI", está entre 1,11 y 1,7 segundos. Por otro lado, el reconocimiento fonético no forzado es prácticamente perfecto: la cadena fonética resultante en este caso es "@-t-r-e-@-a-m-i-c-i-@" y se puede apreciar que todos los fonemas de la secuencia tienen confianzas altas. Por lo tanto, analizando el ejemplo de la figura 4, es posible observar como el reconocimiento fonético forzado contiene información relativa al problema de cubrir la palabra "AMICI" con la gramática utilizada por los usuarios. De hecho, este problema se refleja en la baja confianza del fonema final de la secuencia forzada "@", que dura casi 1 segundo. También se puede apreciar que, en este caso, la información relativa a la formulación fuera del ámbito podía detectarse incluso a nivel de palabras, puesto que la palabra final "SILENCE" tiene una confianza muy baja.
La figura 5 muestra como la información de nivel fonético permite localizar errores de no-cobertura en el tiempo con gran precisión, no como la que se puede alcanzar utilizando únicamente información relativa a palabras conocidas, donde se utiliza la misma estructura de tabla que la utilizada en el ejemplo de la figura 3.
En el ejemplo de la figura 5, la gramática utilizada se ha construido con un vocabulario de palabras diferenciadas de unas 9000 palabras que incluye las principales ciudades italianas. Por lo tanto la gramática permite únicamente el nombre de una ciudad y no hay cobertura para formulaciones más articuladas. El usuario ha pronunciado la frase "NOVI È IL COMUNE" (NOVI ES LA CIUDAD) y el sistema de reconocimiento de voz automático ha reconocido la frase "NOVI_DI_MODENA" (NOVI_DE_MODENA) con una confianza de 0,43. Se puede ver fácilmente que para el sistema de reconocimiento de voz automático, la palabra "NOVI" se encuentra entre 0,7 y 1,3 segundos, la palabra "E" entre 1,7 y 1,9 segundos, la palabra "IL" entre 2 y 2,3 segundos, y la palabra "COMUNE" entre 2,3 y 3,1 segundos. En este caso, puesto que "NOVI" es una ciudad italiana válida y presente en la gramática, el comportamiento deseado sería que el sistema de reconocimiento de voz automático fuera capaz de detectar automáticamente la anomalía relativa al segmento de tiempo que contiene la secuencia de palabras "È IL COMUNE" (ES LA CIUDAD), sin añadir la porción que contiene "NOVI". Se puede apreciar fácilmente que lo que el usuario ha pronunciado realmente ha sido detectado con gran precisión por el reconocimiento fonético no forzado (la secuencia fonética resultante es "@-n-o-v-i-@-e-@-i-l-@-co-m-u-n-e") y que la información contenida en la secuencia de palabras reconocidas, que es muy simple en este caso, ya que consiste en solamente una palabra, no permite la detección localizada del problema generado por la no cobertura de la gramática de lo que el usuario pronunció. Por lo tanto, teniendo en cuenta que la nota de confianza de la palabra reconocida "NOVIDIMODENA" es 0,43 y de este modo bajo, se seleccionaría la cadena fonética entera que resulta del reconocimiento fonético no forzado para las etapas de procesado sucesivas de búsqueda de términos vecinos y de identificación de los representativos. Un comportamiento de este tipo es extremadamente desventajoso en la medida en que, en el caso en que la formulación "È IL COMUNE" (ES LA CIUDAD) era bastante recurrente en las respuestas de usuarios, esta sería detectada por el sistema, en la parte baja del grupo, solo en el caso en que hubiese suficientes respuestas del tipo "X È IL COMUNE", donde "X" representa una o más ciudades con nombres muy similares fonéticamente (esto es debido al hecho de que los grupos necesitaban obtener hipótesis de transcripciones no cubiertas frecuentes al buscar cadenas fonéticas similares), y la cadena fonética representativa contendría información relativa a "X", perdiendo generalidad. Viceversa, en el ejemplo de la figura 5, es posible apreciar como el análisis de las confianzas para la secuencia de fonemas producida por el reconocimiento fonético forzado proporciona una imagen mucho más detallada de la localización de fenómenos de no-cobertura. Realmente, las confianzas de los fonemas relativas a la pronunciación de la palabra "NOVI" son decididamente altas, mientras que los fonemas relativos a las palabras "DI_MODENA" exhiben decididamente confianzas bajas. En este caso, mediante un análisis adecuado de las confianzas de los fonemas del reconocimiento forzado es posible identificar las porciones del discurso del usuario que no están cubiertas por la gramática utilizada dentro del segmento de tiempo incluido entre los tiempos 1,3 y 3,1 segundos. Por lo que se refiere a este intervalo temporal, la trascripción fonética sin restricciones es efectivamente "@-e-@-i-l-@-c-o-m-un-e".
En vista de lo anterior, la presente invención, cuyo objeto es identificar automáticamente las porciones locales de la voz de entrada que tienen una alta probabilidad de estar fuera del dominio de las gramáticas de reconocimiento o los modelos de lenguaje utilizados para un turno de diálogo, se basa en el análisis de los límites temporales y las confianzas de la secuencia de fonemas reconocidas a través del reconocimiento fonético forzado.
La figura 6 muestra un diagrama de flujo de las etapas de procesado realizadas en el bloque 140 de la figura 1 para identificar automáticamente porciones locales de la voz de entrada que tienen una alta probabilidad de estar fuera del ámbito de las gramáticas o de los modelos de lenguaje utilizados para un turno de diálogo.
Tal como se muestra en la figura 6, los datos de entrada, que son suministrados por el sistema de reconocimiento automático, están hechos de reconocimientos fonéticos forzados y no forzados para un turno de reconocimiento, es decir las secuencias de los fonemas proporcionados por los reconocimientos fonéticos forzado y no forzado, la segmentación temporal correspondiente, es decir, las ventanas de tiempo correspondientes a cada fonema reconocido individual, y la medida de confianza Conf(t) de cada fonema del reconocimiento fonético forzado, cuya confianza podría calcularse utilizando cualquier procedimiento conocido, preferentemente los descritos en la citada PCT/EP/0453718 presentada en nombre del propio solicitante (bloque 300). En particular, la medida de confianza Conf(t) es una función del tiempo discreta, y Conf(T_{i}) representa el valor de confianza del reconocimiento fonético forzado relacionado con el contenido de la señal de voz en cantidades de tiempo discretas (ventanas) T_{i}. El intervalo de tiempo entre dos valores consecutivos T_{i}, T_{i+ 1} debería ser el mismo que en los sistemas de reconocimiento de voz automáticos de cálculo de los parámetros acústicos y es típicamente de 10 ms. Obviamente, si se ha reconocido un fonema en el reconocimiento fonético forzado en el intervalo temporal T_{i}-T_{j}, Conf(t) tiene el mismo valor para t = T_{i}, T_{i+ 1},..., T_{j-1}, T_{j}, y este valor es la confianza del fonema. Por lo tanto, la información implicada en Conf(t) está relacionada tanto con la secuencia de los fonemas reconocidos como con su segmentación temporal.
Con referencia a la figura 6, la primera etapa del procedimiento incluye la normalización de las medidas de confianza Conf(t) a partir del reconocimiento fonético forzado mediante el cálculo de un promedio temporal de la misma en el interior de una ventana móvil, preferentemente con una anchura de 500 ms y un paso de avance de 10 ms (bloque 310).
La normalización de las medidas de confianza Conf(t) a partir del reconocimiento fonético forzado proporciona una secuencia de notas de confianza instantáneas C_{ist}(t), que son una representación de las medidas de confianza sobre una base temporal y son así designadas porque la información que contienen, por un lado, está solamente correlacionada con el tiempo y no con la secuencia de fonemas, y por otro lado, porque el nivel de detalle es mucho más preciso del que se puede disponer utilizando las medidas de confianza y la segmentación de la secuencia de palabras reconocidas.
El promediado temporal de las medidas de confianza Conf(t) de los fonemas a partir del reconocimiento fonético forzado es especialmente ventajoso porque la ventana móvil introduce un efecto de suavizado apreciable en los valores de las medidas de confianza: de hecho, es posible que dentro de los segmentos de discurso no cubiertos por el conocimiento relacionado con el ámbito, haya segmentos de muy corta duración con buena consistencia fonética, y, como el propósito de un sistema de reconocimiento de voz automático es identificar la secuencia de palabras más probable, la utilización de una ventana móvil relativamente ancha, permite tener en cuenta toda la información contextual con precisión.
En particular, la nota de confianza instantánea C_{ist}(t) en el momento t se puede calcular de la manera siguiente:
1
donde 2T+1 es la anchura de una ventana móvil centrada en el instante t. Para el cálculo de la nota de confianza instantánea C_{ist}(t) en momentos t cercanos del inicio y el final del discurso, solamente se utilizan las medidas de confianza disponibles (al principio y al final del discurso no existen contextos a la "izquierda" y a la "derecha" respectivamente).
Una vez calculadas las notas de confianza instantánea C_{ist}(t), son analizadas en detalle con el fin de identificar temporalmente segmentos contiguos en los que las notas de confianza instantánea C_{ist}(t) son menores que un umbral de fiabilidad (bloque 320). Para el sistema de reconocimiento de voz automático con aprendizaje fonético propuesto por el Solicitante, la fiabilidad umbral se ha estimado en 0,5 para entradas telefónicas. Además, los segmentos temporales deben tener una duración mínima significativa con el fin de ser capaz de representar fenómenos de voz no espurios.
Para cada segmento temporal identificado mediante el análisis de notas de confianza instantánea C_{ist}(t), se tiene en cuenta la secuencia de fonemas a partir del reconocimiento fonético no forzado correspondiente (es decir, la secuencia de fonemas que el reconocimiento fonético no forzado proporciona dentro de ese segmento temporal) (bloque 330). Si la secuencia empieza y/o acaba con un fonema de silencio, este es suprimido, y la secuencia resultante se guarda en una base de datos de formulaciones para ser procesada posteriormente si el número de fonemas en la secuencia está dentro de un determinado rango, definido por el diseñador, por ejemplo desde tres hasta quince fonemas. esto se hace para evitar añadir secuencias que son demasiado cortas para permitir la generación de cadenas significativas representativas, o secuencias que son demasiado largas, que son difíciles de agrupar y más inestables. Para estas últimas, si es necesario, es posible considerar cadenas fonéticas obtenidas más cortas teniendo en cuenta porciones de la cadena fonética inicial, separadas por silencios. Además de las cadenas, también se podrían guardar en la base de datos las referencias al turno de reconocimiento y, si están disponibles, su archivo de audio correspondiente, con los límites temporales. De esta manera, en los casos en los que la cadena guardada contribuye a generar una hipótesis relativa al problema de la falta de cobertura, será posible escuchar las formulaciones de los usuarios, acelerando por lo tanto el proceso de validación.
Las cadenas fonéticas así obtenidas sobre un gran número de interacciones posibles son procesadas tal como se ha descrito antes con referencia a la figura 1, es decir, son agrupadas en conjuntos similares de transcripciones para producir una lista de posibles hipótesis de formulaciones no cubiertas frecuentes. Los grupos son creados mediante un algoritmo jerárquico para buscar cadenas fonéticas similares, basándose en el cálculo de la distancia entre cadenas fonéticas. Para obtener tiempos de procesado aceptables, se puede utilizar un proceso recurrente que opera sobre estructuras de árbol, en el que las ramas del árbol son transcripciones fonéticas. Para grupos caracterizados por un gran número de cadenas fonéticas con baja dispersión, el elemento central se identifica por que tiene la mínima suma de las distancias entre él mismo y las cadenas fonéticas que forman el grupo. Para una descripción más detallada de los algoritmos utilizados para el agrupamiento y la identificación de las cadenas fonéticas representativas, se puede hacer referencia a las ya citadas publicaciones Towards Automatic Adaptation of the accoustic models and of Formulation Variants in a Directory Assistance Application, y Learning New User Formulation in Automatic Directory Assistance.
Las hipótesis proporcionados por el sistema y su adición a las gramáticas y a los modelos de lenguaje deben ser valorados por los diseñadores de las aplicaciones de voz porque será probablemente necesario asignar acciones semánticas a las formulaciones reconocidas o, antes que actualizar los objetos de reconocimiento, podría ser conveniente cambiar las preguntas hechas al usuario con el fin de guiar mejor el proceso de diálogo. Además, el sistema podría utilizar el mismo algoritmo para identificar cadenas fonéticas similares, utilizándolo con el vocabulario suficientemente extenso, para proporcionar a los diseñadores un conjunto de formulaciones "grafémicas" obtenidas de las formulaciones fonéticas reconocidas por el sistema.
Finalmente, hay que observar que la obtención de información relativa a los reconocimientos fonéticos no forzado y forzado requiere llevar a cabo dos reconocimientos adicionales. Por lo tanto, con el fin de reducir los tiempos de respuesta y las necesidades de memoria del sistema, es posible realizar estos reconocimientos adicionales más adelante y en máquinas distintas a las utilizadas para el servicio. La solución adoptada por el Solicitante consiste en ejecutar estos reconocimientos adicionales al final del reconocimiento gramático utilizado por la aplicación de voz, a la vez que guarda todas las probabilidades de emisión calculadas durante el reconocimiento normal. De ello resulta un ligero aumento en las necesidades de memoria y en el tiempo que necesita la máquina para proporcionar la información necesaria para el aprendizaje fonético.
Las ventajas de la presente invención son evidentes a partir de la descripción anterior.
En particular, la presente invención permite identificar fácilmente porciones de la voz de entrada no cubiertas por la gramática o el modelo de lenguaje empleado, basándose en datos de reconocimiento, con un buen margen de seguridad, proporcionando de este modo un buen soporte para resolver problemas relacionados con la cobertura insuficiente de formulaciones utilizadas frecuentemente por los usuarios de un servicio de voz capacitado para el aprendizaje fonético automático. El sistema propone a los diseñadores hipótesis de formulaciones para aplicaciones, o palabras individuales no contempladas por la gramática y el modelo de lenguaje, y los desarrolladores podrán validar las hipótesis del sistema y, si es necesario, actualizar las gramáticas o modelos de lenguaje utilizados por el servicio, con el mínimo esfuerzo con respecto al análisis manual de los datos reales. Los datos utilizados por el sistema son los obtenidos por un sistema de reconocimiento de voz continuo automático y no precisan de validación o verificación por los operadores para formular hipótesis de falta de cobertura.
Finalmente, está claro que se pueden hacer muchas modificaciones a la presente invención, todas al alcance de la invención, tal como se define en las reivindicaciones adjuntas.
En particular, la identificación de las formulaciones de la voz de entrada que no están cubiertas por la gramática o los modelos de lenguaje empleado podrían basarse en elementos fonéticos forzados a partir del reconocimiento fonético forzado diferente de los fonemas, por ejemplo sílabas u otras unidades fonéticas.
Además, la identificación de formulaciones en la voz de entrada que no están cubiertas por la gramática o modelos de lenguaje empleados se basan directamente en las medidas de confianza Conf(t) de los fonemas forzados a partir del reconocimiento fonético forzado, antes que en las notas de confianza instantánea C_{ist}(t).
\vskip1.000000\baselineskip
Referencias citadas en la descripción
Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad en este respecto.
Documentos de patente citados en la descripción
\bullet EP 0453718 W [0009] [0045]
\bullet WO 069600 A [0009]
\bullet US 6499011 B [0012]
\bullet US 6185528 B [0013].
Literatura no citada de la patente en la descripción
\bulletHUANG X.; ACERO A.; HON H.W. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall, 2001, 377-413
\bulletGILLICK M. et al. A Probabilistic Approach to Confidence Estimation and Evaluation. Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing, May 1997, 879-882 [0008]
\bullet Spoken Language Processing: A Guide to Theory, Algorithm, and System Development [0015]
\bulletADORNO M.; P. LAFACE; C. POPOVICI; L. FISSORE; C. VAIR. Towards Automatic Adaptation of the Acoustic Models and of Formulation Variants in a Directory Assistance Application. Proceedings of ISCA TTR-Workshop, 2001, 175-178 [0016]
\bulletPOPOVICI C.; P. LAFACE; M. ADORNO; L. FISSORE; M. NIGRA; C. VAIR. Learning New User Formulation in Automatic Directory Assistance. Proceedings of ICASSP, 2002, 1448-1451 [0016].

Claims (17)

1. Procedimiento para proporcionar automáticamente una hipótesis de una formulación lingüística que es pronunciada por un usuario de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que se encuentra fuera de un ámbito de reconocimiento de dicho sistema de reconocimiento de voz automático, caracterizado por:
\bullet
el establecimiento de un reconocimiento de voz forzado y un reconocimiento de voz no forzado de una señal de voz de entrada;
\bullet
la identificación de una parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento;
\bullet
la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado; y
\bullet
el establecimiento de dicha hipótesis de formulación lingüística sobre la base de dicha parte identificada de dicho reconocimiento de voz no forzado.
2. Procedimiento según la reivindicación 1, en el que la identificación de una parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento incluye:
\bullet
el cálculo de medidas de confianza (Conf(t)) para partes diferentes de dicho reconocimiento de voz forzado; y
\bullet
la identificación de dicha parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento sobre la base de dichas medidas de confianza (Conf(t)).
3. Procedimiento según la reivindicación 2, en el que dichas medidas de confianza (Conf(t)) son calculadas para fonemas de dicho reconocimiento de voz forzado.
4. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la identificación de dicha parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento sobre la base de dichas medidas de confianza (Conf(t)) incluye:
\bullet
una identificación de partes de dicho reconocimiento de voz forzado con medidas de confianza (Conf(t)) que satisfacen un determinado criterio.
5. Procedimiento según la reivindicación 4, en el que una identificación de partes de dicho reconocimiento de voz forzado con medidas de confianza (Conf(t)) que satisfacen un determinado criterio incluye:
\bullet
el cálculo de notas de confianza instantánea (C_{ist}(t)) como media temporal de dichas medidas de confianza (Conf(t)) en el interior de una ventana móvil; y
\bullet
una identificación de partes de dicho reconocimiento de voz forzado con notas de confianza instantánea (C_{ist}(t)) que satisfacen una primera relación.
6. Procedimiento según la reivindicación 5, en el que cada nota de confianza instantánea (C_{ist}(t)) se calcula según la siguiente fórmula:
2
donde Conf(t) representa dicha medida de confianza, y 2T+1 representa la anchura de dicha ventana móvil centrada en el instante t.
7. Procedimiento según las reivindicaciones 5 ó 6, en el que dicha primera relación está definida por el hecho de que dichas notas de confianza instantánea (C_{ist}(t)) son inferiores a un umbral determinado.
8. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado incluye:
\bullet
la identificación de una parte de dicha señal de voz de entrada correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado; y
\bullet
la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicha señal de voz de entrada.
9. Procedimiento según cualquiera de las reivindicaciones anteriores, que comprende además:
\bullet
la supresión de todos los silencios al principio o al final de dicha parte identificada de dicho reconocimiento de voz no forzado.
10. Procedimiento según cualquiera de las reivindicaciones anteriores, que comprende además:
\bullet
guardar dicha parte identificada de dicho reconocimiento de voz no forzado en una base de datos de reconocimientos fuera de dicho ámbito de reconocimiento.
11. Procedimiento según la reivindicación 10, en el que dicha parte identificada de dicho reconocimiento de voz no forzado se guarda en dicha base de datos de reconocimientos fuera de dicho ámbito de reconocimiento si su longitud satisface una segunda relación.
12. Procedimiento según la reivindicación 11, en el que dicha segunda relación está definida por el hecho de que la longitud de dicha parte identificada de dicho reconocimiento de voz no forzado está en un rango determinado.
13. Procedimiento según las reivindicaciones 10 a 12, que comprende además:
\bullet
procesar dicha base de datos de reconocimientos fuera de dicho ámbito de reconocimiento para establecer dicha hipótesis de formulación lingüística que se encuentra fuera de dicho ámbito de reconocimiento.
14. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que dicho ámbito de reconocimiento incluye una gramática de reconocimiento y/o un modelo de lenguaje.
15. sistema para proporcionar automáticamente una hipótesis de formulaciones lingüísticas que son pronunciadas por usuarios de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que están fuera de un ámbito de reconocimiento del sistema de reconocimiento de voz automático, estando dicho sistema configurado para implementar el procedimiento según cualquiera de las reivindicaciones anteriores.
16. Producto de programa informático que comprende un código de programa informático cuando se carga en un sistema de procesamiento, adaptado para implementar el procedimiento según cualquiera de las reivindicaciones anteriores 1 a 14.
17. Servicio de voz automático basado en un sistema de reconocimiento de voz automático, que comprende:
\bullet
la recepción de una señal de voz de entrada;
\bullet
la realización de un reconocimiento de voz automático sobre la base de dicha señal de voz de entrada; y
\bullet
el establecimiento de una hipótesis de una formulación lingüística que es pronunciada por un usuario de dicho servicio de voz automático y que se encuentra fuera de de un ámbito de reconocimiento de dicho sistema de reconocimiento de voz automático, estableciéndose dicha hipótesis automáticamente aplicando el procedimiento según cualquiera de las reivindicaciones 1 a 14.
ES05716729T 2005-02-17 2005-02-17 Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico. Active ES2309728T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2005/050712 WO2006087040A1 (en) 2005-02-17 2005-02-17 Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system

Publications (1)

Publication Number Publication Date
ES2309728T3 true ES2309728T3 (es) 2008-12-16

Family

ID=34960407

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05716729T Active ES2309728T3 (es) 2005-02-17 2005-02-17 Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico.

Country Status (7)

Country Link
US (1) US9224391B2 (es)
EP (1) EP1851756B1 (es)
AT (1) ATE400047T1 (es)
CA (1) CA2597803C (es)
DE (1) DE602005007939D1 (es)
ES (1) ES2309728T3 (es)
WO (1) WO2006087040A1 (es)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2309728T3 (es) * 2005-02-17 2008-12-16 Loquendo S.P.A. Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico.
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US8135590B2 (en) * 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
WO2009136440A1 (ja) * 2008-05-09 2009-11-12 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8478592B2 (en) * 2008-07-08 2013-07-02 Nuance Communications, Inc. Enhancing media playback with speech recognition
CN102239517B (zh) * 2009-01-28 2013-05-08 三菱电机株式会社 声音识别装置
US9280969B2 (en) * 2009-06-10 2016-03-08 Microsoft Technology Licensing, Llc Model training for automatic speech recognition from imperfect transcription data
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
JP6233798B2 (ja) * 2013-09-11 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation データを変換する装置及び方法
US11295730B1 (en) * 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US10614108B2 (en) * 2015-11-10 2020-04-07 International Business Machines Corporation User interface for streaming spoken query
US11443734B2 (en) 2019-08-26 2022-09-13 Nice Ltd. System and method for combining phonetic and automatic speech recognition search

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
US4977598A (en) * 1989-04-13 1990-12-11 Texas Instruments Incorporated Efficient pruning algorithm for hidden markov model speech recognition
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5878164A (en) * 1994-01-21 1999-03-02 Lucent Technologies Inc. Interleaved segmental method for handwriting recognition
CN1249667C (zh) * 1994-10-25 2006-04-05 英国电讯公司 声控服务
US5617488A (en) * 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
US6006181A (en) * 1997-09-12 1999-12-21 Lucent Technologies Inc. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network
US6108410A (en) * 1997-09-16 2000-08-22 Nynex Science And Technology Inc. Methods and apparatus for automating the detection, reporting and correction of operator input errors
US6757652B1 (en) * 1998-03-03 2004-06-29 Koninklijke Philips Electronics N.V. Multiple stage speech recognizer
US7043426B2 (en) * 1998-04-01 2006-05-09 Cyberpulse, L.L.C. Structured speech recognition
ITTO980383A1 (it) * 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6438520B1 (en) * 1999-01-20 2002-08-20 Lucent Technologies Inc. Apparatus, method and system for cross-speaker speech recognition for telecommunication applications
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6282507B1 (en) * 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
DE60040536D1 (de) * 1999-06-11 2008-11-27 Telstra Corp Ltd Verfahren zur entwicklung eines interaktiven systems
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
WO2001097213A1 (en) * 2000-06-12 2001-12-20 L & H Holdings Usa, Inc. Speech recognition using utterance-level confidence estimates
JP3379090B2 (ja) * 2001-03-02 2003-02-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム
WO2002086864A1 (en) * 2001-04-18 2002-10-31 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
US20030009335A1 (en) * 2001-07-05 2003-01-09 Johan Schalkwyk Speech recognition with dynamic grammars
US7225130B2 (en) * 2001-09-05 2007-05-29 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7092883B1 (en) * 2002-03-29 2006-08-15 At&T Generating confidence scores from word lattices
US7197457B2 (en) * 2003-04-30 2007-03-27 Robert Bosch Gmbh Method for statistical language modeling in speech recognition
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
US7383172B1 (en) * 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
GB0406619D0 (en) * 2004-03-24 2004-04-28 British Telecomm Induction of grammar rules
US20060009974A1 (en) * 2004-07-09 2006-01-12 Matsushita Electric Industrial Co., Ltd. Hands-free voice dialing for portable and remote devices
US7574356B2 (en) * 2004-07-19 2009-08-11 At&T Intellectual Property Ii, L.P. System and method for spelling recognition using speech and non-speech input
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
CA2499305A1 (en) * 2005-03-04 2006-09-04 668158 B.C. Ltd. Method and apparatus for providing geographically targeted information and advertising
WO2006069600A1 (en) 2004-12-28 2006-07-06 Loquendo S.P.A. Automatic speech recognition system and method
US7379870B1 (en) * 2005-02-03 2008-05-27 Hrl Laboratories, Llc Contextual filtering
ES2309728T3 (es) * 2005-02-17 2008-12-16 Loquendo S.P.A. Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico.
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
WO2007046267A1 (ja) * 2005-10-20 2007-04-26 Nec Corporation 音声判別システム、音声判別方法及び音声判別用プログラム
US20070112567A1 (en) * 2005-11-07 2007-05-17 Scanscout, Inc. Techiques for model optimization for statistical pattern recognition
ATE449403T1 (de) * 2005-12-12 2009-12-15 Gregory John Gadbois Mehrstimmige spracherkennung
US8996385B2 (en) * 2006-01-31 2015-03-31 Honda Motor Co., Ltd. Conversation system and conversation software
EP2523443B1 (en) * 2006-02-10 2014-01-29 Nuance Communications, Inc. A mass-scale, user-independent, device-independent, voice message to text conversion system
US7890325B2 (en) * 2006-03-16 2011-02-15 Microsoft Corporation Subword unit posterior probability for measuring confidence
US20070226164A1 (en) * 2006-03-21 2007-09-27 Honeywell International Inc. Type variables and/or temporal constraints in plan recognition
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation

Also Published As

Publication number Publication date
US20080270129A1 (en) 2008-10-30
DE602005007939D1 (de) 2008-08-14
ATE400047T1 (de) 2008-07-15
WO2006087040A1 (en) 2006-08-24
US9224391B2 (en) 2015-12-29
CA2597803C (en) 2014-05-13
EP1851756B1 (en) 2008-07-02
EP1851756A1 (en) 2007-11-07
CA2597803A1 (en) 2006-08-24

Similar Documents

Publication Publication Date Title
ES2309728T3 (es) Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico.
US6490561B1 (en) Continuous speech voice transcription
Gauvain et al. Large-vocabulary continuous speech recognition: advances and applications
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
Hazen et al. Recent improvements in an approach to segment-based automatic language identification.
US10665227B2 (en) Voice recognition device and voice recognition method
JP5007401B2 (ja) 発音評定装置、およびプログラム
Lanchantin et al. Automatic phoneme segmentation with relaxed textual constraints
Adda-Decker et al. The use of lexica in automatic speech recognition
Baig et al. Discriminative training for phonetic recognition of the Holy Quran
Gauvain et al. The LIMSI Continuous Speech Dictation Systemt
Lamel et al. Towards best practice in the development and evaluation of speech recognition components of a spoken language dialog system
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
Gauvain et al. Large vocabulary speech recognition based on statistical methods
Álvarez et al. Long audio alignment for automatic subtitling using different phone-relatedness measures
Gauvain et al. Speech-to-text conversion in French
Long et al. Filled pause refinement based on the pronunciation probability for lecture speech
Vanhainen et al. Free Acoustic and Language Models for Large Vocabulary Continuous Speech Recognition in Swedish
Colla et al. Automatic generation of linguistic, phonetic and acoustic knowledge for a diphone-based continuous speech recognition system
Kessens et al. Automatic detection and verification of Dutch phonological rules
Gollan et al. Towards automatic learning in LVCSR: rapid development of a Persian broadcast transcription system.
Álvarez et al. Improving a long audio aligner through phone-relatedness matrices for english, spanish and basque
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Rodríguez et al. Evaluation of sublexical and lexical models of acoustic disfluencies for spontaneous speech recognition in Spanish.
Scagliola et al. Continuous speech recognition via diphone spotting a preliminary implementation