ES2309728T3

ES2309728T3 - Metodo y sistema automatico para proporcionar formulaciones linguisticos que estan fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automatico.

Info

Publication number: ES2309728T3
Application number: ES05716729T
Authority: ES
Inventors: Daniele c/o LOQUENDO S.p.A. COLIBRO; Claudio c/o LOQUENDO S.p.A. VAIR; Luciano c/o LOQUENDO S.p.A. FISSORE; Cosmin c/o LOQUENDO S.p.A. POPOVICI
Original assignee: Loquendo SpA
Current assignee: Loquendo SpA
Priority date: 2005-02-17
Filing date: 2005-02-17
Publication date: 2008-12-16
Anticipated expiration: 2025-02-17
Also published as: US20080270129A1; DE602005007939D1; ATE400047T1; WO2006087040A1; US9224391B2; CA2597803C; EP1851756B1; EP1851756A1; CA2597803A1

Abstract

Procedimiento para proporcionar automáticamente una hipótesis de una formulación lingüística que es pronunciada por un usuario de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que se encuentra fuera de un ámbito de reconocimiento de dicho sistema de reconocimiento de voz automático, caracterizado por: * el establecimiento de un reconocimiento de voz forzado y un reconocimiento de voz no forzado de una señal de voz de entrada; * la identificación de una parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento; * la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado; y * el establecimiento de dicha hipótesis de formulación lingüística sobre la base de dicha parte identificada de dicho reconocimiento de voz no forzado.

Description

Método y sistema automático para proporcionar formulaciones lingüísticos que están fuera de un dominio de reconocimiento de un sistema de reconocimiento vocal automático.

Sector técnico de la invención

La presente invención se refiere en general a un servicio de voz automático basado en el reconocimiento de voz automático, y en particular, a un procedimiento y a un sistema para proporcionar automáticamente hipótesis de formulaciones lingüísticas que son pronunciadas por usuarios de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que están fuera de un ámbito de reconocimiento del sistema de reconocimiento de voz automático.

Antecedentes

Como es sabido, las aplicaciones dirigidas por voz y servicios de voz complejos están basados en los sistemas de reconocimiento de voz automáticos (ASRs), concebidos para convertir una representación digital de una señal de voz, que transforma el discurso en una secuencia de texto de palabras, por suposición del contenido léxico de la señal de voz. El proceso de reconocimiento automático utiliza modelos acústicos estocásticos, y por lo tanto, el resultado obtenido, en términos de secuencia de palabras reconocidas, puede verse afectado por una tasa de errores residuales no nula. Además, el ámbito de las formulaciones reconocidas por un sistema de reconocimiento de voz automático está en cualquier caso sujeto a un vocabulario limitado, formalizado mediante un modelo estadístico del lenguaje o de gramáticas libres de contexto, que puede ser recuperado por un autómata finito (este es el caso, por ejemplo, de una gramática que describe la manera de pronunciar una fecha o una hora).

Los sistemas de reconocimiento de voz automáticos más avanzados también permiten el reconocimiento en vocabularios flexibles, que son definidos por el usuario y descritos mediante formalismos adecuados. Para lograr este resultado, los modelos de voz utilizados para el reconocimiento están compuestos de unidades acústico-fonéticas elementales (APUs), cuya composición secuencial permite la representación de cualquier palabra de un determinado lenguaje.

Las herramientas matemáticas utilizadas para describir la evolución temporal de la voz son los llamados modelos ocultos de Markov (HMMs), y cada unidad acústico-fonética elemental está representada por un modelo oculto de Markov, que está formado por estados que describen la evolución temporal de la misma. Las palabras a reconocer, que se describen como secuencias de las unidades acústico-fonéticas elementales, se obtienen concatenando modelos ocultos de Markov constituyentes individuales.

Además de describir la evolución temporal del discurso, los modelos ocultos de Markov permiten la generación de las posibilidades de emisión de los estados acústicos que los forman, dados los vectores de observación que transforman la información de la señal de voz. La secuencia de las probabilidades, junto con su evolución temporal, permite obtener el resultado de reconocimiento. Para una descripción más detallada de la teoría, los algoritmos y la implementación de modelos ocultos de Markov, se puede hacer referencia a Huang X., Acero A., y Hon H.W., Spoken Lenguaje Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, Capítulo 8, páginas 377-413, 2001.

Por lo tanto, la pronunciación de palabras que están fuera del vocabulario o de formulaciones que no están cubiertas genera errores de reconocimiento. Por lo tanto, los sistemas de reconocimiento de voz automáticos también proporcionan una medida de la fiabilidad de las palabras reconocidas, en particular un indicador de fiabilidad comprendido entre 0 y 1, que es conocido en la literatura como medida de confianza y que puede aplicarse a las palabras individuales reconocidas y/o a su secuencia. En el caso de un error de reconocimiento, la medida de confianza debería tomar valores bajos, y, en cualquier caso, inferior a aquellos que se obtienen en ausencia de errores. Se puede fijar un umbral en los valores de la confianza medidos para evitar propuestas de resultados que no son tan fiables.

Una técnica que es ampliamente utilizada para calcular la medida de confianza consiste o bien en normalizar las así llamadas probabilidades a posteriori, que son cantidades derivadas de las probabilidades de emisión, o directamente las probabilidades de emisión, que coinciden en el cálculo de la medida de confianza. La comparación de las dos cantidades, es decir, el resultado obtenido aplicando las restricciones y el resultado obtenido disminuyendo las restricciones, proporciona información útil para determinar la confianza. De hecho, si las dos cantidades tienen valores comparables, significa que la introducción de las restricciones de reconocimiento no ha producido ninguna distorsión particular con respecto a lo que habría ocurrido sin restricciones de reconocimiento. Por lo tanto, el resultado de reconocimiento podría considerarse como fiable, y su confianza debería tener valores elevados, cercanos de su límite superior. Cuando, en cambio, el resultado con restricciones es considerablemente peor que el resultado sin restricciones, se puede deducir que el reconocimiento no es fiable en la medida en que el sistema de reconocimiento de voz automático habría producido el resultado obtenido como consecuencia de la aplicación de las restricciones. En este caso, la medida de confianza debería producir valores bajos, cercanos a su límite inferior.

Un ejemplo de esta técnica se propone en Gillick M. Et al., A Probabilistic Approach to Confidence Estimation and Evaluation, Proc. of the IEEE International Conference on Acoustics, Speech y Signal Processing, Munich, Germany, páginas 879-882 (Mayo 1997), donde se adopta la diferencia entre cantidades conocidas como resultado acústico y mejor resultado, donde los dos términos se obtienen respectivamente promediando el resultado acústico (con restricciones) y el mejor resultado (sin restricciones), obtenido para cada trama con los modelos ocultos de Markov acústicos en el intervalo de tiempo correspondiente a las palabras.

En la PCT/EP/0453718 presentada el 28/12/2004 por el propio solicitante, y publicada como WO-A-069600, se propone, en cambio, una medida de confianza basada en contribuciones diferenciales calculadas para cada trama de una ventana de análisis como diferencia entre un resultado acústico no forzado y un resultado acústico forzado, y promediado sobre todo el intervalo de reconocimiento. Esto permite actuar sobre la contribución diferencial individual de la suma, aplicándole una función de normalización respectiva, que hace que la medida de confianza sea homogénea en términos de capacidad de rechazo e invariante con respecto al lenguaje, el vocabulario y la gramática, y, en general, con respecto a las restricciones de reconocimiento. Esto facilita enormemente el desarrollo de aplicaciones en las etapas iniciales de su desarrollo, puesto que no precisan de ninguna calibración específica para cada sesión de reconocimiento individual. La función de normalización aplicada a los términos diferenciales individuales está constituida por una familia de distribuciones acumulativas, una para cada contribución diferencial a la medida de confianza. Cada función puede estimarse de manera simple basándose en un conjunto de datos de capacitación y es específica para cada estado de la unidad acústico-fonética elemental. por lo tanto, la solución propuesta no requiere consideraciones heurísticas o suposiciones a priori y hace posible obtener todas las cantidades necesarias para deducir la medida de confianza diferencial directamente a partir de los datos de capacitación.

Uno de los principales problemas encontrados por los diseñadores de las aplicaciones dirigidas por voz o los servicios de voz basados en el reconocimiento de voz automático es la predicción correcta del comportamiento de los usuarios, problema que suele afrontarse creando las gramáticas destinadas a adquirir información de los usuarios sin utilizar, sin embargo, vocabularios demasiado extensos o sin crear gráficos excesivamente complejos. El riesgo, de hecho, es que una mejora en la cobertura de formulaciones de usuarios marginales tiene un coste en términos de más errores de reconocimiento hechos por el sistema sobre formulaciones canónicas debido al aumento de su complejidad. Por otro lado, para servicios de asistencia telefónica o de asignación de llamadas, es extremadamente difícil predecir la manera en que los usuarios formularán sus pedidos.

Una posible solución a este problema, que no recurre a un análisis de datos automático, consiste en realizar una primera versión de las gramáticas utilizando datos de verificación, calibrar el servicio, que por lo tanto tendrá unas prestaciones por debajo de lo óptimo, y, al mismo tiempo, recoger datos relativos a su uso real, que suelen consistir en los archivos de audio con las peticiones de los usuarios. Luego, los operadores humanos catalogan los fragmentos de diálogo implicados en los fallos de sistema, y una vez que se ha catalogado una parte substancial de los datos, se pueden generar estadísticas sobre las causas del fallo, que pueden estar entre: errores de reconocimiento, posibles errores debidos a razones de niveles del sistema y casos en los que las peticiones de usuario no son satisfechas por el sistema. En el caso del último tipo de error, cuando es frecuente, es posible extender las gramáticas utilizadas, con la finalidad de aumentar la cobertura, o emplear otras estrategias más sofisticadas. Los diseñadores de aplicaciones, por ejemplo, podrían cambiar los fragmentos de voz relativos a uno o más turnos de diálogo, con el fin de ayudar a los usuarios a formular sus pedidos. Sin embargo, esta solución es extremadamente cara porque los datos deben ser analizados por operadores humanos para saber exactamente el contenido de la petición del usuario.

También son conocidos en la técnica los sistemas de análisis automático basados en el uso de datos recogidos reales, relativos a interacciones con usuarios reales, para mejorar las prestaciones de las gramáticas y modelos de lenguaje utilizados en un servicio de voz. Concretamente, los datos son adquiridos automáticamente por los sistemas de reconocimiento y no son verificados por operadores por razones de costes excesivamente altos, con el riesgo de que contengan errores de reconocimiento. Por ejemplo, en US 6,499,011 los resultados de reconocimiento, es decir, las primeras N-Mejores hipótesis, con N>1, se utilizan para hacer ajustes en los modelos de lenguaje con el fin de mejorar aplicaciones en las cuales la cantidad de material utilizado para capacitar los modelos de lenguaje iniciales es bastante pobre. En este caso, la mejora de prestaciones se centra en mejorar la modelización de las formulaciones ya predichas.

Una tecnología que ha sido probada para un servicio de asistencia telefónico automático se describe en US 6,185,528 y se basa en palabras diferenciadas, aunque un objeto del vocabulario de reconocimiento también podría ser una secuencia de palabras y no necesariamente una única palabra. Con respecto a los directorios de abonados a empresas, se ha observado una gran variabilidad en la forma en que los usuarios del servicio expresan sus pedidos. Como los contenidos de las bases de datos para estos usuarios no es suficiente para extraer información sobre la formulación lingüística utilizada por los que llaman, es necesario llevar a cabo un trabajo complejo para deducir las posibles variantes de pronunciación para cada registro de la base de datos.

En este contexto, se ha desarrollado un sistema de aprendizaje automático que utiliza los datos recogidos reales para determinar las formulaciones lingüísticas más frecuentemente utilizadas por los usuarios y no contempladas por el sistema que implementa el servicio de asistencia telefónico automático. Se ha considerado la información relativa a llamadas para las cuales el sistema de asistencia telefónica automático no es capaz de satisfacer las peticiones de usuario. Estas llamadas son transferidas a un operador humano, que habla con el usuario para proporcionar el número solicitado. Los datos disponibles para cada llamada están representados por archivos de audio grabados, que contienen los diálogos entre el usuario y el sistema de asistencia telefónico automático, la trascripción fonética sin restricciones de cada archivo de audio (la trascripción fonética sin restricciones representa la secuencia más probable de fonemas y, aunque imprecisa, en la mayoría de los casos representa bastante bien lo que el usuario ha pronunciado) y la información relativa al número de teléfono suministrado por el operador humano. A partir de estos fragmentos de información, se seleccionan aquellos relativos a los números de teléfono solicitados más frecuentemente.

El solicitante se ha dado cuenta de que, dado un conjunto extremadamente largo de solicitudes para el mismo número, hay una probabilidad alta de obtener cadenas fonéticas que son similares entre sí. El concepto de distancia entre dos cadenas de fonemas se puede introducir llevando a cabo una Alineación de Viterbi, para cuya descripción detallada se puede hacer referencia a los ya mencionados Spoken Lenguaje Processing: A Guide to Theory, Algorithm, and System Development, chapter 8, y utilizando las probabilidades de supresión, de inserción o sustitución de fonemas, cuyas probabilidades son capacitadas con datos controlados mediante la alineación de las transcripciones fonéticas sin restricciones con las transcripciones fonéticas correctas correspondientes. El conjunto de transcripciones fonéticas, para cada número de teléfono solicitado frecuentemente, es posteriormente agrupado en subconjuntos similares que utilizan un vecino jerárquico -algoritmo de búsqueda, basado en la distancia entre las cadenas fonéticas. Se determina un conjunto de transcripciones fonéticas similares configurando un umbral para la máxima distancia de las cadenas fonéticas que forman parte del mismo grupo. Se descartan los Subconjuntos con pocos elementos o que tienen una gran diferencia en distancia entre las cadenas fonéticas constituyentes. Para grupos caracterizados por una gran cardinalidad y una baja dispersión en las cadenas fonéticas constituyentes, se selecciona el elemento central (elemento representativo), definido como la cadena fonética con la suma de distancias menor en relación con los otros elementos del conjunto.

Vale la pena observar que cuando el número de elementos de un grupo es suficientemente alto, el elemento representativo proporciona una buena trascripción fonética de la entrada solicitada. Toda la arquitectura del sistema de aprendizaje automático, los resultados de las pruebas realizadas y las mejoras en términos de automatización (aumento en el porcentaje de llamadas atendidas satisfactoriamente por el sistema de asistencia telefónico automático) se describen en detalle en:

\bulletAdorno M., P. Laface, C. Popovici, L. Fissore, C. Vair, Towards Automatic Adaptation of the accoustic models and of Formulation Variants in a Directory Assistance Application, Proceedings of ISCA TTRWorkshop, páginas 175-178, Sophia-Antipolis (France), 2001; y

\bulletPopovici C., P. Laface, M. Adorno, L. Fissore, M. Nigra, C. Vair, Learning New User Formulation in Automatic Directory Assistance, Proceedings of ICASSP, 1448-1451, Orlando (USA), 2002.

Sin embargo, el aprendizaje automático desarrollado en este contexto precisa de datos de servicio de voz, tales como confirmaciones de usuario y números de teléfono proporcionados por el operador en respuestas a llamadas, para identificar las cadenas fonéticas individuales que se emplearán posteriormente. Además, las cadenas fonéticas representativas encontradas son añadidas como objetos al vocabulario de palabras diferenciadas.

En este sentido, el Solicitante se ha dado cuenta de que los sistemas de reconocimiento de voz continuos usados habitualmente que están basados en gramáticas o modelos de lenguaje, trabajan sobre toda la frase pronunciada y no identifican solamente la porción de las formulaciones de los usuarios que están fuera del ámbito de reconocimiento. La identificación local de palabras no contempladas por las gramáticas de reconocimiento o modelos de lenguaje dentro de una repetición serían especialmente ventajosas porque permitirían en primer lugar beneficiarse de los resultados de los algoritmos de aprendizaje automático, incluso con una cantidad de datos no excesivamente abundante, y en segundo lugar permitiría que las palabras no cubiertas fueran detectadas incluso si otras palabras cubiertas cambiaran dentro de la secuencia (en la medida en que estas estuvieran permitidas por restricciones gramaticales), mientras que un sistema que trabaja con palabras diferenciadas no es capaz de funcionar tan eficientemente en estos
casos.

Objeto y resumen de la invención

El objeto de la presente invención es proporcionar una contribución a la resolución de los problemas relacionados con la cobertura insuficiente de formulaciones utilizadas frecuentemente por usuarios de un servicio de voz automático, y en particular, para identificar, con un buen margen de seguridad, aquellas porciones de la voz de entrada que no tienen relación con la gramática o el modelo de lenguaje empleado, basándose en datos de reconocimiento.

Este objeto es alcanzado por la presente invención porque se refiere a un procedimiento y a un sistema para proporcionar automáticamente una hipótesis de formulaciones lingüísticas que son pronunciadas por usuarios de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que están fuera de un ámbito de reconocimiento del sistema de reconocimiento de voz automático, tal como se define en las reivindicaciones 1 y 15, respectivamente, a un producto de programa informático, tal como se define en la reivindicación 16, y a un servicio de voz automático, tal como se define en la reivindicación 17.

La presente invención alcanza el objeto mencionado proporcionando una secuencia de fonemas forzados y una secuencia de fonemas no forzados, el cálculo de medidas de confianza para los fonemas forzados, una identificación de partes de la señal de voz de entrada correspondientes a los fonemas forzados con medidas de confianza por debajo de un umbral, y la identificación de fonemas no forzados correspondientes a las partes identificadas de la señal de voz de entrada. Los fonemas no forzados identificados son guardados en una base de datos de reconocimiento fuera del ámbito de reconocimiento, la cual es procesada para proporcionar una hipótesis de formulaciones utilizadas frecuentemente fuera de dicho ámbito de reconocimiento. Luego, estas formulaciones utilizadas frecuentemente pueden emplearse para ampliar el ámbito de reconocimiento o llevar a cabo un aprendizaje de fonemas diferentes.

Breve descripción de los dibujos

Para una mejor comprensión de la presente invención, una realización preferida, ofrecida únicamente a modo de ejemplo y que no debe interpretarse como limitativa, se describirá a continuación con referencia a los dibujos adjuntos, en los cuales:

\bullet La figura 1 muestra un diagrama de flujo de las actividades relativas al desarrollo de un servicio de voz capacitado para el aprendizaje automático de fonemas;

\bullet La figura 2 muestra un esquema de los conocimientos que debe tener un sistema de reconocimiento de voz automático para realizar el aprendizaje fonético de formulaciones lingüísticas no cubiertas por la gramática de reconocimiento y/o el modelo de lenguaje, y los resultados que proporciona;

\bullet La figura 3 muestra una tabla que contiene datos relativos a un reconocimiento fonético no forzado en el caso en que la frase pronunciada por el usuario está completamente cubierta por la gramática de reconocimiento empleada;

\bullet La figura 4 muestra una tabla que contiene datos relativos a un reconocimiento fonético no forzado en el caso en que la frase pronunciada por el usuario difiere significativamente de aquellos permitidos por la gramática de reconocimiento empleada;

\bullet La figura 5 muestra una tabla que contiene datos que muestran como la información de nivel fonético permite la localización temporal de errores de no-cobertura con gran precisión; y

\bullet La figura 6 muestra un diagrama de flujo del procedimiento según la presente invención.

Descripción detallada de realizaciones preferidas de la invención

La siguiente discusión se presenta para permitir a un experto en la materia realizar y utilizar la invención. Varias modificaciones de las realizaciones se harán fácilmente aparentes para los expertos en la materia, y los principios generales se podrán aplicar a otras realizaciones y aplicaciones sin salir de la esencia y alcance de la presente invención. De este modo, la presente invención no se limita a las realizaciones mostradas, si no que se le concede el más amplio alcance consecuente con los principios y características aquí descritas y definidas en las reivindicaciones adjuntas.

La figura 1 muestra un diagrama de flujo de las actividades relativas al desarrollo de un servicio de voz capacitado para el aprendizaje automático de fonemas, en el que la identificación de las partes de las formulaciones de los usuarios que no están cubiertas por la gramática de reconocimiento o el modelo de lenguaje es realizada según la presente invención.

Tal como se muestra en la figura 1, la primera etapa es la creación de una primera versión de las gramáticas y modelos de lenguaje utilizados en el servicio utilizando todo el conocimiento disponible, por ejemplo se pueden utilizar el conocimiento relativo a servicios similares ya implementados, también con operadores humanos (bloque 100). En cualquier caso, el objetivo es el de crear una primera versión de los objetos de reconocimiento utilizados en el servicio mediante el análisis del supuesto comportamiento de los usuarios, cuyo objeto, aunque sea el representarlos lo mejor posible, podría tener lagunas relativas a las expresiones lingüísticas más frecuentes. Sin embargo, los objetos de reconocimiento generados de esta manera seguirán siendo usados en la primera versión del servicio.

Una vez que se ha creado una primera versión de las gramáticas y modelos de lenguaje (bloque 110), el servicio es aplicado, es decir, la aplicación de voz con los objetos de reconocimiento generados en la etapa anterior es ejecutada con clientes reales (bloque 120). En esta fase, incluso si el servicio tiene inevitablemente unas prestaciones por debajo de lo óptimo, se recogen datos relativos a su uso real, que suele consistir en los archivos de audio con las peticiones de los usuarios. Además de los datos relativos a lo que dijo el usuario, el sistema de reconocimiento de voz automático también proporciona datos necesarios para el aprendizaje fonético, cuyos datos se guardan en una base de datos (bloque 130).

Luego, la base de datos es analizada para identificar las partes de las formulaciones de los usuarios que no están cubiertas por la gramática de reconocimiento o el modelo de lenguaje utilizado, tal como se describirá con más detalle más adelante con referencia a la figura 6 (bloque 140). En el caso en que se haya detectado algún tipo de inconsistencia, por ejemplo, si se ha considerado que lo que se ha reconocido en un determinado intervalo de tiempo no está cubierto por la gramática utilizada, se tiene en cuenta la secuencia de fonemas que, para el sistema de reconocimiento de voz automático usado, modeliza mejor lo que fue pronunciado por el usuario en ese intervalo de tiempo. Esta cadena fonética, que para sistemas de reconocimiento de voz automáticos de altas prestaciones debería representar lo que fue dicho por el usuario de una manera consecuentemente fiel (diferente de los que es entendido por la gramática) es almacenada en una base de datos junto con otras cadenas fonéticas obtenidas de la misma manera en diferentes turnos de reconocimiento, y por lo tanto, posiblemente con otros usuarios (bloque 150).

Una vez que ha sido analizada una cantidad substancial de datos, la base de datos de cadenas fonéticas no cubiertas por la gramática de reconocimiento es procesada para identificar grupos de transcripciones fonéticas similares y para encontrar cadenas fonéticas representativas para los grupos (bloque 160). Si el análisis tiene éxito y las cadenas fonéticas representativas son identificadas, estas últimas son suministradas a los desarrolladores de aplicaciones como hipótesis de formulaciones no cubiertas, acompañadas con información relativa a los datos que las generaron (bloque 170).

Entonces, los diseñadores llevan a cabo una actividad de validación, con la posible actualización de los objetos de reconocimiento para comprobar la hipótesis producida por el sistema (bloque 180).

Por ejemplo, las gramáticas podrían ser extendidas, con la finalidad de aumentar la cobertura, o se pueden emplear estrategias más sofisticadas. El diseñador, por ejemplo, podría cambiar los fragmentos de voz relativos a uno o más turnos de diálogo, con el fin de ayudar a los usuarios a formular sus pedidos.

Hay que destacar que todas las tareas de análisis se realizan automáticamente. Los diseñadores recibirán datos acerca de los fallos más frecuentemente probables y deberán verificarlos sobre la base de un conjunto muy limitado de datos que son sugeridos por el sistema de aprendizaje fonético. Por lo tanto la tarea de validación es bastante simple y el trabajo humano implicado es incomparablemente menor que el requerido para etiquetar manualmente todos los fallos de sistema.

La figura 2 muestra un esquema de los conocimientos que necesita un sistema de reconocimiento de voz continuo automático (bloque 1) para reconocer una voz de entrada (bloque 2) y para realizar el aprendizaje fonético de formulaciones lingüísticas no cubiertas por gramáticas de reconocimiento y modelos de lenguaje, y los resultados que proporciona. En general, los sonidos elementales empleados para formar palabras y frases son diferentes según el lenguaje utilizado: por lo tanto es necesario definir un alfabeto fonético que modelice los sonidos elementales, que se suelen definir en términos de fonemas, para cada lenguaje soportado por el sistema de reconocimiento de voz automático. Igual que un alfabeto fonético, un sistema de reconocimiento de voz automático necesita modelos acústicos, que se suelen crear con densidades de probabilidad Gausianas multivariantes o redes neuronales, para calcular las probabilidades de emisión, o mejor dicho para estimar la probabilidad de que el usuario haya pronunciado un determinado fonema en un cierto momento. El alfabeto fonético y sus modelos acústicos correlacionados representan el conocimiento del lenguaje y normalmente son proporcionados por un fabricante de tecnología ASR (bloque 3). Obviamente, con el fin de entender lo que el usuario ha dicho es necesario que la voz del usuario esté en un formato de stream de audio digital, habitualmente con una frecuencia de muestreo de 8 KHz en el sector de la telefonía y 16 KHz en el de multimedia. Finalmente, se necesitan conocimientos lingüísticos relativos a los ámbitos de las formulaciones admisibles (bloque 4). Típicamente, esto depende del lugar de servicio del diálogo y la información que debe ser solicitada por los usuarios, tales como fechas, cantidades, tiempos, opciones de menú, etc. El objetivo final de la tecnología de aprendizaje fonético es la mejora de este tipo de conocimiento mediante el análisis del comportamiento del usuario.

Los resultados que debe suministrar un sistema de reconocimiento de voz automático en un servicio de voz capacitado para el aprendizaje automático de fonemas son los resultados relativos a los turnos de reconocimiento individuales: las palabras reconocidas, posiblemente con su interpretación semántica, la nota de confianza de reconocimiento, que expresa la fiabilidad, y, opcionalmente, los resultados relativos a las hipótesis de reconocimiento distintas de la mejor (bloque 5). Sin embargo, estos datos no bastan para llevar a cabo el aprendizaje fonético, y es necesario que el sistema de reconocimiento de voz automático suministre más información. Los datos adicionales requeridos son los reconocimientos fonéticos no forzados y forzados, la medida de confianza de los fonemas individuales, y las ventanas de tiempo en las que son reconocidos (bloque 6).

El reconocimiento fonético no forzado representa la secuencia de fonemas más probable para el sistema de reconocimiento de voz automático de lo que el usuario ha pronunciado. La propiedad principal de este reconocimiento es el hecho de que cubre toda la entrada de voz y representa bastante bien lo que los usuarios pronuncian, especialmente si el sistema de reconocimiento de voz automático es de gran calidad.

El reconocimiento fonético forzado representa la segmentación de lo que es pronunciado por los usuarios en fonemas, con la restricción de que la secuencia de fonemas es necesariamente la relativa a la primera hipótesis para el turno de reconocimiento. Mientras que el contenido de información más significativo para el reconocimiento fonético no forzado se encuentra en la secuencia de los fonemas reconocidos, con la información temporal relativa a las ventanas de tiempo (calculado con respecto al inicio de la adquisición de audio) en las que se detectan cada fonema individual, para el reconocimiento fonético forzado la información relevante no es la relativa a la secuencia, si no que es la contenida en la confianza de los fonemas individuales y en las ventanas de tiempo en las que son reconocidos.

La manera en la que las partes de las formulaciones de los usuarios que no están cubiertas por la gramática de reconocimiento o el modelo de lenguaje utilizado son identificadas según la presente invención es el resultado de un profundo análisis hecho por el Solicitante sobre la diferencia en las medidas de confianza para los reconocimientos fonéticos forzado y no forzado en el caso en el que la frase pronunciada por el usuario es una de aquellas cubiertas por los ámbitos de formulación permitidos por la gramática de reconocimiento empleada, y en el caso en que la frase pronunciada por el usuario difiere significativamente de aquellas cubiertas por los ámbitos de formulación permitidos por la gramática de reconocimiento.

En particular, en la figura 3 es posible analizar un reconocimiento fonético no forzado en el caso de una cobertura de la gramática completa, donde se ha utilizado una gramática con dígitos relativos al italiano. En particular, La figura 3 muestra una tabla en la que la primera fila, indicada por 200, muestra las palabras reconocidas, la segunda fila, indicada por 210, muestra las medidas de confianza de las palabras reconocidas, la tercera fila, indicada por 220, muestra los fonemas en el reconocimiento fonético no forzado, la cuarta fila, indicada por 230, muestra las medidas de confianza de los fonemas en el reconocimiento fonético no forzado, la quinta fila, indicada por 240, muestra los fonemas en el reconocimiento fonético forzado, la sexta fila, indicada por 250, muestra las medidas de confianza de los fonemas en el reconocimiento fonético forzado, y la séptima fila, indicada por 260, muestra el tiempo con referencia al inicio de la adquisición de audio.

En el ejemplo de la figura 3, el usuario ha pronunciado la frase "TRE SETTE" (TRES SIETE), y el reconocimiento ha tenido éxito con una confianza muy alta de 0,81 para la palabra "TRE" y 0,85 para la palabra "SETTE". El reconocimiento fonético no forzado está representado por la cadena "@-t-r-e-s-e-p-e", donde "@" es el símbolo que representa silencio. La figura 3 también muestra la confianza de los fonemas individuales, que siempre es alta para casos de voz en el reconocimiento fonético no forzado y los segmentos de tiempo estimados por el sistema de reconocimiento de voz automático con referencia al inicio de adquisición de audio, cuyos segmentos representan el posicionamiento, en términos de ventanas de tiempo, de las palabras en la frase reconocida. También se puede ver fácilmente que para el sistema de reconocimiento de voz automático, la palabra "TRE" empieza después de aproximadamente 0,45 segundos y acaba después de 0,85 segundos. El reconocimiento fonético forzado se obtiene teniendo en cuenta los fonemas que forman la primera hipótesis de reconocimiento y realizando sobre ellos una pasada de reconocimiento. En el ejemplo, se puede observar que la secuencia fonética es "@-t-r-e-s-e-t-e", porque el sistema ha reconocido correctamente la frase pronunciada por el usuario. Hay que destacar que las confianzas son muy altas y comparables a las del reconocimiento fonético no forzado; esto es una indicación de la fiabilidad del reconocimiento realizado. Finalmente, se puede observar que en el caso examinado, la confianza del reconocimiento fonético no forzado representa un límite superior que puede ser igualado por el reconocimiento fonético forzado, pero nunca excedido. Esta última propiedad se puede apreciar observando como la confianza del fonema erróneo "p" es mayor que la del fonema correcto "t" reconocido mediante reconocimiento forzado.

En la figura 4 es posible analizar un reconocimiento fonético no forzado en el caso en que la frase pronunciada por el usuario difiere significativamente de aquellas permitidas por la gramática de reconocimiento empleada, donde se utilizan la misma gramática y estructura de tabla que en el ejemplo de la figura 3.

En este caso, el usuario ha pronunciado la frase "TRE AMICI" (TRES AMIGOS), que está claramente no cubierta por la gramática debido a la palabra "AMICI" (AMIGOS). Se puede apreciar que el "SILENCE" inicial y la palabra "TRE" tienen confianzas altas (0,92 y 0,79, respectivamente), mientras que el "SILENCE" final que el sistema de reconocimiento de voz automático ha seleccionado para cubrir la palabra "AMICI" lo mejor posible, tiene una nota de confianza muy baja de 0,14. Por lo tanto, los resultados de reconocimiento deberían considerarse como no fiables y esto es definitivamente consecuente. También se puede ver fácilmente que para el sistema de reconocimiento de voz automático, la palabra "TRE" empieza después de aproximadamente 0,55 segundos y acaba sobre 0,9 segundos, mientras que la palabra "AMICI", está entre 1,11 y 1,7 segundos. Por otro lado, el reconocimiento fonético no forzado es prácticamente perfecto: la cadena fonética resultante en este caso es "@-t-r-e-@-a-m-i-c-i-@" y se puede apreciar que todos los fonemas de la secuencia tienen confianzas altas. Por lo tanto, analizando el ejemplo de la figura 4, es posible observar como el reconocimiento fonético forzado contiene información relativa al problema de cubrir la palabra "AMICI" con la gramática utilizada por los usuarios. De hecho, este problema se refleja en la baja confianza del fonema final de la secuencia forzada "@", que dura casi 1 segundo. También se puede apreciar que, en este caso, la información relativa a la formulación fuera del ámbito podía detectarse incluso a nivel de palabras, puesto que la palabra final "SILENCE" tiene una confianza muy baja.

La figura 5 muestra como la información de nivel fonético permite localizar errores de no-cobertura en el tiempo con gran precisión, no como la que se puede alcanzar utilizando únicamente información relativa a palabras conocidas, donde se utiliza la misma estructura de tabla que la utilizada en el ejemplo de la figura 3.

En el ejemplo de la figura 5, la gramática utilizada se ha construido con un vocabulario de palabras diferenciadas de unas 9000 palabras que incluye las principales ciudades italianas. Por lo tanto la gramática permite únicamente el nombre de una ciudad y no hay cobertura para formulaciones más articuladas. El usuario ha pronunciado la frase "NOVI È IL COMUNE" (NOVI ES LA CIUDAD) y el sistema de reconocimiento de voz automático ha reconocido la frase "NOVI_DI_MODENA" (NOVI_DE_MODENA) con una confianza de 0,43. Se puede ver fácilmente que para el sistema de reconocimiento de voz automático, la palabra "NOVI" se encuentra entre 0,7 y 1,3 segundos, la palabra "E" entre 1,7 y 1,9 segundos, la palabra "IL" entre 2 y 2,3 segundos, y la palabra "COMUNE" entre 2,3 y 3,1 segundos. En este caso, puesto que "NOVI" es una ciudad italiana válida y presente en la gramática, el comportamiento deseado sería que el sistema de reconocimiento de voz automático fuera capaz de detectar automáticamente la anomalía relativa al segmento de tiempo que contiene la secuencia de palabras "È IL COMUNE" (ES LA CIUDAD), sin añadir la porción que contiene "NOVI". Se puede apreciar fácilmente que lo que el usuario ha pronunciado realmente ha sido detectado con gran precisión por el reconocimiento fonético no forzado (la secuencia fonética resultante es "@-n-o-v-i-@-e-@-i-l-@-co-m-u-n-e") y que la información contenida en la secuencia de palabras reconocidas, que es muy simple en este caso, ya que consiste en solamente una palabra, no permite la detección localizada del problema generado por la no cobertura de la gramática de lo que el usuario pronunció. Por lo tanto, teniendo en cuenta que la nota de confianza de la palabra reconocida "NOVIDIMODENA" es 0,43 y de este modo bajo, se seleccionaría la cadena fonética entera que resulta del reconocimiento fonético no forzado para las etapas de procesado sucesivas de búsqueda de términos vecinos y de identificación de los representativos. Un comportamiento de este tipo es extremadamente desventajoso en la medida en que, en el caso en que la formulación "È IL COMUNE" (ES LA CIUDAD) era bastante recurrente en las respuestas de usuarios, esta sería detectada por el sistema, en la parte baja del grupo, solo en el caso en que hubiese suficientes respuestas del tipo "X È IL COMUNE", donde "X" representa una o más ciudades con nombres muy similares fonéticamente (esto es debido al hecho de que los grupos necesitaban obtener hipótesis de transcripciones no cubiertas frecuentes al buscar cadenas fonéticas similares), y la cadena fonética representativa contendría información relativa a "X", perdiendo generalidad. Viceversa, en el ejemplo de la figura 5, es posible apreciar como el análisis de las confianzas para la secuencia de fonemas producida por el reconocimiento fonético forzado proporciona una imagen mucho más detallada de la localización de fenómenos de no-cobertura. Realmente, las confianzas de los fonemas relativas a la pronunciación de la palabra "NOVI" son decididamente altas, mientras que los fonemas relativos a las palabras "DI_MODENA" exhiben decididamente confianzas bajas. En este caso, mediante un análisis adecuado de las confianzas de los fonemas del reconocimiento forzado es posible identificar las porciones del discurso del usuario que no están cubiertas por la gramática utilizada dentro del segmento de tiempo incluido entre los tiempos 1,3 y 3,1 segundos. Por lo que se refiere a este intervalo temporal, la trascripción fonética sin restricciones es efectivamente "@-e-@-i-l-@-c-o-m-un-e".

En vista de lo anterior, la presente invención, cuyo objeto es identificar automáticamente las porciones locales de la voz de entrada que tienen una alta probabilidad de estar fuera del dominio de las gramáticas de reconocimiento o los modelos de lenguaje utilizados para un turno de diálogo, se basa en el análisis de los límites temporales y las confianzas de la secuencia de fonemas reconocidas a través del reconocimiento fonético forzado.

La figura 6 muestra un diagrama de flujo de las etapas de procesado realizadas en el bloque 140 de la figura 1 para identificar automáticamente porciones locales de la voz de entrada que tienen una alta probabilidad de estar fuera del ámbito de las gramáticas o de los modelos de lenguaje utilizados para un turno de diálogo.

Tal como se muestra en la figura 6, los datos de entrada, que son suministrados por el sistema de reconocimiento automático, están hechos de reconocimientos fonéticos forzados y no forzados para un turno de reconocimiento, es decir las secuencias de los fonemas proporcionados por los reconocimientos fonéticos forzado y no forzado, la segmentación temporal correspondiente, es decir, las ventanas de tiempo correspondientes a cada fonema reconocido individual, y la medida de confianza Conf(t) de cada fonema del reconocimiento fonético forzado, cuya confianza podría calcularse utilizando cualquier procedimiento conocido, preferentemente los descritos en la citada PCT/EP/0453718 presentada en nombre del propio solicitante (bloque 300). En particular, la medida de confianza Conf(t) es una función del tiempo discreta, y Conf(T_{i}) representa el valor de confianza del reconocimiento fonético forzado relacionado con el contenido de la señal de voz en cantidades de tiempo discretas (ventanas) T_{i}. El intervalo de tiempo entre dos valores consecutivos T_{i}, T_{i+ 1} debería ser el mismo que en los sistemas de reconocimiento de voz automáticos de cálculo de los parámetros acústicos y es típicamente de 10 ms. Obviamente, si se ha reconocido un fonema en el reconocimiento fonético forzado en el intervalo temporal T_{i}-T_{j}, Conf(t) tiene el mismo valor para t = T_{i}, T_{i+ 1},..., T_{j-1}, T_{j}, y este valor es la confianza del fonema. Por lo tanto, la información implicada en Conf(t) está relacionada tanto con la secuencia de los fonemas reconocidos como con su segmentación temporal.

Con referencia a la figura 6, la primera etapa del procedimiento incluye la normalización de las medidas de confianza Conf(t) a partir del reconocimiento fonético forzado mediante el cálculo de un promedio temporal de la misma en el interior de una ventana móvil, preferentemente con una anchura de 500 ms y un paso de avance de 10 ms (bloque 310).

La normalización de las medidas de confianza Conf(t) a partir del reconocimiento fonético forzado proporciona una secuencia de notas de confianza instantáneas C_{ist}(t), que son una representación de las medidas de confianza sobre una base temporal y son así designadas porque la información que contienen, por un lado, está solamente correlacionada con el tiempo y no con la secuencia de fonemas, y por otro lado, porque el nivel de detalle es mucho más preciso del que se puede disponer utilizando las medidas de confianza y la segmentación de la secuencia de palabras reconocidas.

El promediado temporal de las medidas de confianza Conf(t) de los fonemas a partir del reconocimiento fonético forzado es especialmente ventajoso porque la ventana móvil introduce un efecto de suavizado apreciable en los valores de las medidas de confianza: de hecho, es posible que dentro de los segmentos de discurso no cubiertos por el conocimiento relacionado con el ámbito, haya segmentos de muy corta duración con buena consistencia fonética, y, como el propósito de un sistema de reconocimiento de voz automático es identificar la secuencia de palabras más probable, la utilización de una ventana móvil relativamente ancha, permite tener en cuenta toda la información contextual con precisión.

En particular, la nota de confianza instantánea C_{ist}(t) en el momento t se puede calcular de la manera siguiente:

1

donde 2T+1 es la anchura de una ventana móvil centrada en el instante t. Para el cálculo de la nota de confianza instantánea C_{ist}(t) en momentos t cercanos del inicio y el final del discurso, solamente se utilizan las medidas de confianza disponibles (al principio y al final del discurso no existen contextos a la "izquierda" y a la "derecha" respectivamente).

Una vez calculadas las notas de confianza instantánea C_{ist}(t), son analizadas en detalle con el fin de identificar temporalmente segmentos contiguos en los que las notas de confianza instantánea C_{ist}(t) son menores que un umbral de fiabilidad (bloque 320). Para el sistema de reconocimiento de voz automático con aprendizaje fonético propuesto por el Solicitante, la fiabilidad umbral se ha estimado en 0,5 para entradas telefónicas. Además, los segmentos temporales deben tener una duración mínima significativa con el fin de ser capaz de representar fenómenos de voz no espurios.

Para cada segmento temporal identificado mediante el análisis de notas de confianza instantánea C_{ist}(t), se tiene en cuenta la secuencia de fonemas a partir del reconocimiento fonético no forzado correspondiente (es decir, la secuencia de fonemas que el reconocimiento fonético no forzado proporciona dentro de ese segmento temporal) (bloque 330). Si la secuencia empieza y/o acaba con un fonema de silencio, este es suprimido, y la secuencia resultante se guarda en una base de datos de formulaciones para ser procesada posteriormente si el número de fonemas en la secuencia está dentro de un determinado rango, definido por el diseñador, por ejemplo desde tres hasta quince fonemas. esto se hace para evitar añadir secuencias que son demasiado cortas para permitir la generación de cadenas significativas representativas, o secuencias que son demasiado largas, que son difíciles de agrupar y más inestables. Para estas últimas, si es necesario, es posible considerar cadenas fonéticas obtenidas más cortas teniendo en cuenta porciones de la cadena fonética inicial, separadas por silencios. Además de las cadenas, también se podrían guardar en la base de datos las referencias al turno de reconocimiento y, si están disponibles, su archivo de audio correspondiente, con los límites temporales. De esta manera, en los casos en los que la cadena guardada contribuye a generar una hipótesis relativa al problema de la falta de cobertura, será posible escuchar las formulaciones de los usuarios, acelerando por lo tanto el proceso de validación.

Las cadenas fonéticas así obtenidas sobre un gran número de interacciones posibles son procesadas tal como se ha descrito antes con referencia a la figura 1, es decir, son agrupadas en conjuntos similares de transcripciones para producir una lista de posibles hipótesis de formulaciones no cubiertas frecuentes. Los grupos son creados mediante un algoritmo jerárquico para buscar cadenas fonéticas similares, basándose en el cálculo de la distancia entre cadenas fonéticas. Para obtener tiempos de procesado aceptables, se puede utilizar un proceso recurrente que opera sobre estructuras de árbol, en el que las ramas del árbol son transcripciones fonéticas. Para grupos caracterizados por un gran número de cadenas fonéticas con baja dispersión, el elemento central se identifica por que tiene la mínima suma de las distancias entre él mismo y las cadenas fonéticas que forman el grupo. Para una descripción más detallada de los algoritmos utilizados para el agrupamiento y la identificación de las cadenas fonéticas representativas, se puede hacer referencia a las ya citadas publicaciones Towards Automatic Adaptation of the accoustic models and of Formulation Variants in a Directory Assistance Application, y Learning New User Formulation in Automatic Directory Assistance.

Las hipótesis proporcionados por el sistema y su adición a las gramáticas y a los modelos de lenguaje deben ser valorados por los diseñadores de las aplicaciones de voz porque será probablemente necesario asignar acciones semánticas a las formulaciones reconocidas o, antes que actualizar los objetos de reconocimiento, podría ser conveniente cambiar las preguntas hechas al usuario con el fin de guiar mejor el proceso de diálogo. Además, el sistema podría utilizar el mismo algoritmo para identificar cadenas fonéticas similares, utilizándolo con el vocabulario suficientemente extenso, para proporcionar a los diseñadores un conjunto de formulaciones "grafémicas" obtenidas de las formulaciones fonéticas reconocidas por el sistema.

Finalmente, hay que observar que la obtención de información relativa a los reconocimientos fonéticos no forzado y forzado requiere llevar a cabo dos reconocimientos adicionales. Por lo tanto, con el fin de reducir los tiempos de respuesta y las necesidades de memoria del sistema, es posible realizar estos reconocimientos adicionales más adelante y en máquinas distintas a las utilizadas para el servicio. La solución adoptada por el Solicitante consiste en ejecutar estos reconocimientos adicionales al final del reconocimiento gramático utilizado por la aplicación de voz, a la vez que guarda todas las probabilidades de emisión calculadas durante el reconocimiento normal. De ello resulta un ligero aumento en las necesidades de memoria y en el tiempo que necesita la máquina para proporcionar la información necesaria para el aprendizaje fonético.

Las ventajas de la presente invención son evidentes a partir de la descripción anterior.

En particular, la presente invención permite identificar fácilmente porciones de la voz de entrada no cubiertas por la gramática o el modelo de lenguaje empleado, basándose en datos de reconocimiento, con un buen margen de seguridad, proporcionando de este modo un buen soporte para resolver problemas relacionados con la cobertura insuficiente de formulaciones utilizadas frecuentemente por los usuarios de un servicio de voz capacitado para el aprendizaje fonético automático. El sistema propone a los diseñadores hipótesis de formulaciones para aplicaciones, o palabras individuales no contempladas por la gramática y el modelo de lenguaje, y los desarrolladores podrán validar las hipótesis del sistema y, si es necesario, actualizar las gramáticas o modelos de lenguaje utilizados por el servicio, con el mínimo esfuerzo con respecto al análisis manual de los datos reales. Los datos utilizados por el sistema son los obtenidos por un sistema de reconocimiento de voz continuo automático y no precisan de validación o verificación por los operadores para formular hipótesis de falta de cobertura.

Finalmente, está claro que se pueden hacer muchas modificaciones a la presente invención, todas al alcance de la invención, tal como se define en las reivindicaciones adjuntas.

En particular, la identificación de las formulaciones de la voz de entrada que no están cubiertas por la gramática o los modelos de lenguaje empleado podrían basarse en elementos fonéticos forzados a partir del reconocimiento fonético forzado diferente de los fonemas, por ejemplo sílabas u otras unidades fonéticas.

Además, la identificación de formulaciones en la voz de entrada que no están cubiertas por la gramática o modelos de lenguaje empleados se basan directamente en las medidas de confianza Conf(t) de los fonemas forzados a partir del reconocimiento fonético forzado, antes que en las notas de confianza instantánea C_{ist}(t).

\vskip1.000000\baselineskip

Referencias citadas en la descripción

Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad en este respecto.

Documentos de patente citados en la descripción

\bullet EP 0453718 W [0009] [0045]

\bullet WO 069600 A [0009]

\bullet US 6499011 B [0012]

\bullet US 6185528 B [0013].

Literatura no citada de la patente en la descripción

\bulletHUANG X.; ACERO A.; HON H.W. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall, 2001, 377-413

\bulletGILLICK M. et al. A Probabilistic Approach to Confidence Estimation and Evaluation. Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing, May 1997, 879-882 [0008]

\bullet Spoken Language Processing: A Guide to Theory, Algorithm, and System Development [0015]

\bulletADORNO M.; P. LAFACE; C. POPOVICI; L. FISSORE; C. VAIR. Towards Automatic Adaptation of the Acoustic Models and of Formulation Variants in a Directory Assistance Application. Proceedings of ISCA TTR-Workshop, 2001, 175-178 [0016]

\bulletPOPOVICI C.; P. LAFACE; M. ADORNO; L. FISSORE; M. NIGRA; C. VAIR. Learning New User Formulation in Automatic Directory Assistance. Proceedings of ICASSP, 2002, 1448-1451 [0016].

Claims

1. Procedimiento para proporcionar automáticamente una hipótesis de una formulación lingüística que es pronunciada por un usuario de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que se encuentra fuera de un ámbito de reconocimiento de dicho sistema de reconocimiento de voz automático, caracterizado por:

\bullet: el establecimiento de un reconocimiento de voz forzado y un reconocimiento de voz no forzado de una señal de voz de entrada;

\bullet: la identificación de una parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento;

\bullet: la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado; y

\bullet: el establecimiento de dicha hipótesis de formulación lingüística sobre la base de dicha parte identificada de dicho reconocimiento de voz no forzado.

2. Procedimiento según la reivindicación 1, en el que la identificación de una parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento incluye:

\bullet: el cálculo de medidas de confianza (Conf(t)) para partes diferentes de dicho reconocimiento de voz forzado; y

\bullet: la identificación de dicha parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento sobre la base de dichas medidas de confianza (Conf(t)).

3. Procedimiento según la reivindicación 2, en el que dichas medidas de confianza (Conf(t)) son calculadas para fonemas de dicho reconocimiento de voz forzado.

4. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la identificación de dicha parte de dicho reconocimiento de voz forzado fuera de dicho ámbito de reconocimiento sobre la base de dichas medidas de confianza (Conf(t)) incluye:

\bullet: una identificación de partes de dicho reconocimiento de voz forzado con medidas de confianza (Conf(t)) que satisfacen un determinado criterio.

5. Procedimiento según la reivindicación 4, en el que una identificación de partes de dicho reconocimiento de voz forzado con medidas de confianza (Conf(t)) que satisfacen un determinado criterio incluye:

\bullet: el cálculo de notas de confianza instantánea (C_{ist}(t)) como media temporal de dichas medidas de confianza (Conf(t)) en el interior de una ventana móvil; y

\bullet: una identificación de partes de dicho reconocimiento de voz forzado con notas de confianza instantánea (C_{ist}(t)) que satisfacen una primera relación.

6. Procedimiento según la reivindicación 5, en el que cada nota de confianza instantánea (C_{ist}(t)) se calcula según la siguiente fórmula:

2

donde Conf(t) representa dicha medida de confianza, y 2T+1 representa la anchura de dicha ventana móvil centrada en el instante t.

7. Procedimiento según las reivindicaciones 5 ó 6, en el que dicha primera relación está definida por el hecho de que dichas notas de confianza instantánea (C_{ist}(t)) son inferiores a un umbral determinado.

8. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado incluye:

\bullet: la identificación de una parte de dicha señal de voz de entrada correspondiente a dicha parte identificada de dicho reconocimiento de voz forzado; y

\bullet: la identificación de una parte de dicho reconocimiento de voz no forzado correspondiente a dicha parte identificada de dicha señal de voz de entrada.

9. Procedimiento según cualquiera de las reivindicaciones anteriores, que comprende además:

\bullet: la supresión de todos los silencios al principio o al final de dicha parte identificada de dicho reconocimiento de voz no forzado.

10. Procedimiento según cualquiera de las reivindicaciones anteriores, que comprende además:

\bullet: guardar dicha parte identificada de dicho reconocimiento de voz no forzado en una base de datos de reconocimientos fuera de dicho ámbito de reconocimiento.

11. Procedimiento según la reivindicación 10, en el que dicha parte identificada de dicho reconocimiento de voz no forzado se guarda en dicha base de datos de reconocimientos fuera de dicho ámbito de reconocimiento si su longitud satisface una segunda relación.

12. Procedimiento según la reivindicación 11, en el que dicha segunda relación está definida por el hecho de que la longitud de dicha parte identificada de dicho reconocimiento de voz no forzado está en un rango determinado.

13. Procedimiento según las reivindicaciones 10 a 12, que comprende además:

\bullet: procesar dicha base de datos de reconocimientos fuera de dicho ámbito de reconocimiento para establecer dicha hipótesis de formulación lingüística que se encuentra fuera de dicho ámbito de reconocimiento.

14. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que dicho ámbito de reconocimiento incluye una gramática de reconocimiento y/o un modelo de lenguaje.

15. sistema para proporcionar automáticamente una hipótesis de formulaciones lingüísticas que son pronunciadas por usuarios de un servicio de voz automático basado en un sistema de reconocimiento de voz automático y que están fuera de un ámbito de reconocimiento del sistema de reconocimiento de voz automático, estando dicho sistema configurado para implementar el procedimiento según cualquiera de las reivindicaciones anteriores.

16. Producto de programa informático que comprende un código de programa informático cuando se carga en un sistema de procesamiento, adaptado para implementar el procedimiento según cualquiera de las reivindicaciones anteriores 1 a 14.

17. Servicio de voz automático basado en un sistema de reconocimiento de voz automático, que comprende:

\bullet: la recepción de una señal de voz de entrada;

\bullet: la realización de un reconocimiento de voz automático sobre la base de dicha señal de voz de entrada; y

\bullet: el establecimiento de una hipótesis de una formulación lingüística que es pronunciada por un usuario de dicho servicio de voz automático y que se encuentra fuera de de un ámbito de reconocimiento de dicho sistema de reconocimiento de voz automático, estableciéndose dicha hipótesis automáticamente aplicando el procedimiento según cualquiera de las reivindicaciones 1 a 14.