ES2275870T3

ES2275870T3 - Procedimiento para el reconocimiento de informaciones del habla.

Info

Publication number: ES2275870T3
Application number: ES02732331T
Authority: ES
Inventors: Michael Mende
Original assignee: Individual
Current assignee: Individual
Priority date: 2001-06-08
Filing date: 2002-03-18
Publication date: 2007-06-16
Anticipated expiration: 2022-03-18
Also published as: DE50208346D1; EP1402520A1; EP1402520B1; ATE341809T1; WO2002101720A1; DE10127852A1

Abstract

Procedimiento para el reconocimiento de informaciones del habla de una conversión entre al menos dos interlocutores (1, 2) o entre un interlocutor (1) y un sistema de recepción de llamadas (7), alimentándose los datos del habla de la conversación a un sistema de reconocimiento del habla (5) y reconociéndose y extrayéndose al menos en parte un conjunto parcial de los datos del habla, caracterizado porque en los flujos de informaciones de la conversación predeterminados se usa un sistema de recepción de llamadas (7) y porque en flujos de informaciones de la conversación complejos o que se vuelven más complejos el sistema de recepción de llamadas (7) se cambia por un interlocutor (2), proporcionándose al interlocutor (2) para su apoyo informaciones como resultado del reconocimiento del habla y/o almacenándose las mismas.

Description

Procedimiento para el reconocimiento de informaciones del habla.

La presente invención se refiere a un procedimiento para el reconocimiento de informaciones del habla de una conversación entre al menos dos interlocutores o entre un interlocutor y un sistema de recepción de llamadas, alimentándose los datos del habla de la conversación a un sistema de reconocimiento del habla.

El reconocimiento automático del habla se conoce desde hace tiempo por la práctica y se usa para la conversión mecánica de un texto hablado en texto escrito.

Los sistemas de reconocimiento del habla pueden dividirse en dos grupos según la vinculación en el espacio y en el tiempo de la grabación del habla y del procesamiento del habla.

-: "Sistemas de reconocimiento online" son sistemas de reconocimiento del habla que convierten las manifestaciones habladas directamente en texto escrito. Entre ellos se encuentran la mayor parte de los sistemas de dictado de oficina.

-: "Sistemas de reconocimiento offline" realizan un reconocimiento del habla con retardo de tiempo de una grabación de un dictado, que el usuario ha realizado, por ejemplo, con un equipo de grabación digital.

Los sistemas de procesamiento del habla conocidos hasta ahora por el estado de la técnica no pueden entender los contenidos del habla, es decir, no pueden formarse a priori hipótesis inteligentes de lo que se ha dicho como es el caso en la comprensión humana del habla. En lugar de ello, el proceso de reconocimiento acústico es apoyado por el uso de hipótesis específicas del texto o de la aplicación. Hasta ahora se usan de forma generalizada las siguientes hipótesis o modos de reconocimiento:

-: el reconocimiento de dictado o de vocabulario usa una vinculación de estadística de palabras y de vocabularios específicos según el sector. En los sistemas de dictado de oficina se usa el reconocimiento de dictado o de vocablos;

-: el reconocimiento de gramática está basado en sistemas de reglas configuradas de forma especifica según la aplicación, integrando planos de construcción de la frase aquí esperados usando variables;

-: el reconocimiento de palabras aisladas o el "keyword-spotting" (marcado de palabras clave) se usa cuando faltan datos del habla que apoyen el reconocimiento y cuando en pasajes de habla relativamente largas se esperan determinadas palabras claves definidas.

Los sistemas de reconocimiento del habla son especialmente problemáticos respecto al reconocimiento de la información del habla debido a la pronunciación que difiere de una persona a otra cuando el sistema de reconocimiento del habla no está ajustado a la pronunciación concreta de una persona en el marco de una fase de aprendizaje. En particular, los sistemas de recepción de llamadas, en los que un interlocutor consulta una información o da una información, aún no son practicables debido a la elevada tasa de error en el proceso de reconocimiento del habla y las distintas reacciones de los diferentes interlocutores. Por lo tanto, en muchas aplicaciones aún es obligatorio usar en lugar de un sistema de recepción de llamadas un segundo interlocutor, que recibe las informaciones del primer interlocutor o que le proporciona informaciones. En caso de que el segundo interlocutor reciba informaciones, en la mayoría de los casos éstas deben ser grabadas, escritas o introducidas en un ordenador, de la forma que sea. Esto no solamente conlleva elevados gastos de personal sino que también requiere mucho tiempo, de modo que el rendimiento de llamadas no es óptimo.

El documento Wyard PJ y col.: "Spoken language systems - beyond prompt and response", BT Technology Journal, BT Laboratories, tomo 14, Nº 1, páginas 187-207, 1996 muestra diferentes implementaciones que se han realizado con éxito de los distintos módulos de un sistema de reconocimiento del habla, aunque también describe los distintos problemas que resultan de ello.

La presente invención tiene, por lo tanto, el objetivo de indicar y mejorar un procedimiento del tipo genérico en el que se optimice el rendimiento de llamadas.

El procedimiento según la invención del tipo genérico consigue el objetivo anteriormente indicado mediante las características de la reivindicación 1.

Según la invención se ha entendido en primer lugar que pueden usarse sistemas de recepción de llamadas cuando el flujo de informaciones esperado de la llamada está en gran medida predeterminado, es decir, cuando un interlocutor indica al sistema de recepción de llamadas, por ejemplo, una respuesta a una pregunta - sí o no, un número entre 1 y 5, etc. En este caso, el sistema de reconocimiento del habla puede reconocer los datos del habla correctamente con una elevada tasa de acierto y las informaciones correspondientes pueden almacenarse para su posterior procesamiento.

Para llamadas más complejas se ha entendido, además, según la invención que en lugar de un sistema de recepción de llamadas es necesario un segundo interlocutor, para poder garantizar un intercambio de informaciones que no sea incorrecto debido a los sistemas de reconocimiento del habla con errores. En este sentido está previsto, no obstante, que se proporcionan ayudas a uno de los interlocutores, que le facilitan la entrada o la grabación costosa y larga de datos o que se encargan de realizar estas tareas. Para ello, se alimentan los datos del habla de la conversación de los dos interlocutores a un sistema de reconocimiento del habla. También es concebible que sólo se alimenten los datos del habla de un interlocutor al sistema de reconocimiento del habla. El sistema de reconocimiento del habla realiza ahora el reconocimiento del habla para un conjunto parcial de los datos del habla, por ejemplo, los datos del habla de sólo un interlocutor, de una forma general para todos los datos del habla. Incluso si este reconocimiento sólo se realiza parcialmente con éxito, las informaciones que se pueden extraer de ello pueden proporcionarse a un interlocutor. De esta forma, el sistema de reconocimiento del habla puede reconocer al menos datos sencillos casi sin errores, como números o respuestas breves a preguntas, de los que el interlocutor dispone posteriormente en una forma apta para almacenar.

De forma especialmente ventajosa las informaciones obtenidas mediante el reconocimiento del habla se almacenan, de modo que puedan alimentarse, por ejemplo, a una valoración estadística en un momento posterior.

Si se usa un sistema de recepción de llamadas, está previsto que el sistema de recepción de llamadas trabaje como "Interactive Voice Response System" (IVRS). Un sistema IVRS de este tipo es capaz de comunicar con un interlocutor, aunque sea en un marco limitado, y de reaccionar correspondientemente en función de su entrada de habla. Preferiblemente está previsto un sistema IVRS que trabaje de forma automática.

El sistema de recepción de llamadas podría establecer de forma ventajosa automáticamente una comunicación con un interlocutor. Esto podría realizarse, por ejemplo, mediante una llamada telefónica. Podrían realizarse, por ejemplo, encuestas sencillas de forma automática.

Puede conseguirse una tasa elevada de reconocimiento de forma especialmente ventajosa si el interlocutor cuyos datos del habla han de ser analizados se enfrenta a estructuras de conversación predeterminadas. Esto pueden ser explicaciones y/o preguntas del sistema de recepción de llamadas o de un interlocutor, que el sistema de reconocimiento del habla ya conoce de esta forma. En este caso, el interlocutor que se enfrenta a las preguntas selectivas o a las estructuras de conversación predeterminadas reaccionará por regla general, con una gran probabilidad "de la forma esperada", de modo que a partir de esta reacción conforme a la esperada pueda reconocerse correctamente con una gran probabilidad la información contenida, pudiendo extraerse o almacenarse correspondientemente. En este sentido, aquí podría usarse de forma especialmente ventajosa el procedimiento del reconocimiento de la gramática para el reconocimiento del habla.

Para la realización práctica de un sistema de recepción de llamadas y/o de un sistema de reconocimiento del habla está previsto que se use al menos un ordenador. Puede tratarse de un solo ordenador para el sistema de recepción de llamadas y el sistema de reconocimiento del habla, aunque en principio está previsto que sólo se use un ordenador como sistema de recepción de llamadas. Los datos del habla de la conversación se alimentan, a continuación, a otro ordenador, en el que está implementado el sistema de reconocimiento del habla. Un ordenador de este tipo debería presentar datos de rendimiento suficientes. Además, un ordenador usado como sistema de recepción de llamadas presenta una interfaz para el establecimiento de una comunicación por teléfono y/o vídeo. Está prevista otra interfaz para la entrada o salida de datos del habla y/o datos de vídeo.

El propio reconocimiento del habla podría realizarse en un o en varios ordenadores. En particular, en el caso de aplicaciones críticas respecto al tiempo, el reconocimiento del habla se realiza preferiblemente en varios ordenadores, preferiblemente en paralelo. El proceso de reconocimiento del habla puede dividirse, por ejemplo, en varios procesos parciales, realizándose cada proceso parcial en un ordenador. En el caso de una división en procesos parciales, podrían asignarse a cada proceso parcial distintas frases o frases subordinadas. También sería concebible una división de los datos del habla en función del tiempo, por ejemplo, en intervalos de tiempo de 5 segundos, respectivamente. En caso de que el ordenador presente varios procesadores (CPUs), los procesos parciales pueden realizarse en paralelo de forma distribuida entre los procesadores del ordenador.

En caso de que la capacidad de cálculo de un solo ordenador no sea suficiente para el reconocimiento del habla y/o para el sistema de recepción de llamadas, podría estar previsto un sistema de red de ordenadores, de modo que estas tareas sean realizadas en paralelo en varios ordenadores. En particular, determinados ordenadores del sistema de red podrían realizar modos de reconocimiento del habla especiales, diferentes, de modo que cada ordenador analice los mismos datos del habla bajo otro punto de vista.

De forma especialmente preferible, los datos del habla de la llamada se almacenan al menos en gran medida sin modificaciones. El almacenamiento podría comprender aquí todos los datos del habla de la conversación. En caso de que un interlocutor o el sistema de recepción de llamadas use, por ejemplo, estructuras de conversación predeterminadas, que conoce el sistema de reconocimiento del habla, podrían almacenarse sólo los datos del habla del otro interlocutor. En principio, en el proceso de almacenamiento está previsto almacenar además de los datos del habla marcadores o bookmarks, de modo que la conversación que ha de ser almacenada pueda dividirse de esta forma según el sentido o la lógica. Esta división podría acelerar o simplificar el proceso de la extracción de la información en caso de un reconocimiento posterior de los datos del habla.

Además, está previsto que en el reconocimiento del habla se tengan en cuenta informaciones acerca del estado actual de la conversación. Podría tenerse en cuenta, por ejemplo, al principio de la conversación la circunstancia de que los dos interlocutores se identifiquen mutuamente, de modo que un reconocimiento del habla use para ello modos de reconocimiento de vocablos o de gramática correspondientes. Estas informaciones acerca del estado actual de la conversación también podrían almacenarse junto con los datos del habla, independientemente de cómo se obtengan dichas informaciones.

En particular, en la valoración de datos del habla que han sido grabados por un sistema de recepción de llamadas, un reconocimiento del habla podría estar orientado individualmente a una orden de análisis. Podría valorarse, por ejemplo, una encuesta entre espectadores o un concurso de oyentes de un programa de televisión o de radio automáticamente en el sentido de determinar qué medida política tiene, por ejemplo, mayor aceptación entre los espectadores u oyentes. Aquí podría estar predeterminado como orden de análisis, por ejemplo, averiguar si se prefiere la medida A o la medida B, de modo que la información y el conocimiento de las posibles variantes de la encuesta se tengan en cuenta en el reconocimiento del habla o que se proporcionen al reconocimiento del habla como información adicional.

En caso de que los datos del habla de una conversación procedan de dos interlocutores, está previsto de forma especialmente preferible que el reconocimiento del habla esté orientado individualmente a una orden de análisis. Ésta podría comprender, por ejemplo, que el reconocimiento del habla se concentre sobre todo en los datos del habla de uno de los dos interlocutores, pudiendo estar orientado el análisis aquí, por ejemplo, especialmente al reconocimiento del número de teléfono del que realiza la llamada o similares.

Como procedimientos para el reconocimiento del habla están previstos el reconocimiento de dictado, de gramática, de palabras aisladas y/o keyword-spotting. Podría conmutarse, por ejemplo, de un procedimiento de reconocimiento del habla al otro procedimiento de reconocimiento del habla en función del estado actual de la conversación, cuando es previsible que otro procedimiento de reconocimiento del habla promete dar mejores resultados para el reconocimiento del habla para el estado actual de la llamada. Preferiblemente, los distintos procedimientos de reconocimiento del habla también podrían usarse en paralelo, lo cual se realiza, por ejemplo, de forma distribuida en paralelo entre varios ordenadores.

De forma especialmente preferible está previsto realizar el reconocimiento del habla de forma repetida. Para ello es posible alimentar los datos del habla o los datos del habla almacenados al menos en gran medida sin modificaciones de una conversación de forma repetida o procesos de reconocimiento del habla distintos o iguales. Un reconocimiento del habla repetido está previsto, en particular, en un sistema de reconocimiento offline, puesto que aquí es posible un retardo de tiempo del reconocimiento del habla.

Para otra estrategia de reconocimiento del habla está previsto realizar una adaptación dinámica del reconocimiento del habla. Aquí podría variarse y/o adaptarse, por ejemplo, el vocabulario para el reconocimiento del habla. Podría resultar, por ejemplo, una tasa de reconocimiento baja de un procedimiento de reconocimiento del habla usado en primer lugar, por ejemplo, el reconocimiento de dictado, de modo que sea previsible que el mantenimiento del reconocimiento de dictado tenga pocas expectativas de éxito. A continuación, está previsto usar de forma dinámica otro procedimiento de reconocimiento del habla, analizándose también en el procedimiento de reconocimiento del habla usado a continuación inmediatamente la tasa de reconocimiento siguiendo, dado el caso, otra etapa dinámica de reconocimiento del habla. Aquí también podría estar previsto aplicar en varios ordenadores en paralelo el mismo procedimiento de reconocimiento del habla a los datos del habla, usándose, no obstante, en cada ordenador otro vocabulario para el reconocimiento del habla. Un análisis directo de la tasa de reconocimiento de estos procesos de reconocimiento del habla que se realizan en paralelo puede tener como consecuencia una adaptación o un control dinámico del posterior reconocimiento del habla.

De forma adicional o alternativa está previsto una etapa de procedimiento especialmente preferible, que puede resumirse bajo el concepto general "dinamización de vocabulario". Aquí, los datos del habla se analizan varias veces. En una primera etapa de reconocimiento se clasifican los datos del habla. Para ello podrían usarse, por ejemplo, procedimientos de keyword-spotting. En función del resultado de la clasificación de los datos del habla, los datos del habla se vuelven a examinar en otra etapa de reconocimiento recurriéndose a un vocabulario especial. Aquí, el proceso de reconocimiento se basa en un vocabulario que tiene una relación directa o aproximada con el resultado de la etapa de clasificación de datos del habla. Es perfectamente concebible basar la etapa de reconocimiento de los datos del habla en un vocabulario de varias áreas especiales. Esta otra etapa de reconocimiento se aplica preferiblemente a los datos del habla originales, aunque puedan usarse, no obstante, las informaciones obtenidas en la primera etapa de reconocimiento.

Por consiguiente, las etapas del procedimiento de la dinamización de vocabulario se vuelven a aplicar una y otra vez a los datos del habla originales.

A continuación, se realizan de forma iterativa otras etapas de reconocimiento, que en el caso ideal conducen al reconocimiento completo de todos los datos del habla o al menos de un conjunto parcial de los datos del habla. Las demás etapas de reconocimiento iterativas se controlan preferiblemente mediante probabilidades de reconocimiento, de modo que de esta forma pueda obtenerse, por ejemplo, un criterio de cancelación para otras etapas de reconocimiento, por ejemplo, cuando la probabilidad de reconocimiento ya no cambia.

De forma especialmente preferible está previsto que el sistema de reconocimiento del habla y/o el proceso de reconocimiento del habla esté acoplado a un sistema de base de datos, como por ejemplo R/3 y/o sistema experto. De esta forma, los resultados o los resultados parciales del proceso de reconocimiento del habla pueden introducirse directamente en un sistema de base de datos y/o un sistema experto. Además, pueden usarse informaciones del sistema de base de datos y/o del sistema experto para el proceso de reconocimiento del habla, por ejemplo, para la dinamización del vocabulario. Gracias a este acoplamiento pueden extraerse, por ejemplo, informaciones más detalladas, que se aprovechan para el reconocimiento del habla, como ya se ha indicado.

Las informaciones obtenidas del sistema de base de datos y/o del sistema experto pueden usarse para el control del proceso de reconocimiento dinámico del reconocimiento del habla. Las informaciones que están almacenadas en un sistema de base de datos o un sistema R/3 acerca de un interlocutor pueden usarse, por ejemplo, para el control del proceso de reconocimiento de los datos del habla existentes de este interlocutor en el sentido que el reconocimiento del habla se base en un vocabulario que ya se haya usado en conversaciones anteriores con este interlocutor. También pueden almacenarse los datos del habla reconocidos durante la conversación actual en el sistema de base de datos o el sistema R/3 o en una base de datos correspondiente, ampliándose el vocabulario de este interlocutor de forma dinámica en el reconocimiento del habla, ya durante la conversación.

Ahora, en principio está previsto almacenar las informaciones obtenidas en particular del reconocimiento de datos del habla. De forma especialmente preferible está previsto de forma adicional o alternativa a ello proporcionar informaciones en forma de una representación gráfica y/o ortográfica. Esto puede estar previsto para informaciones que proceden, dado el caso, con un retardo de tiempo de una conversación grabada mediante un sistema de recepción de llamadas. No obstante, esto también podría hacerse para informaciones de un reconocimiento del habla de datos de una conversación que proceden de una conversación entre dos o varios interlocutores. Aquí pueden indicarse todas las informaciones de la conversación, es decir, por así decirlo, cada palabra, o sólo informaciones extraídas y/o seleccionadas, que sean adecuadas para la aplicación correspondiente del procedimiento según la invención. Las informaciones podrían proporcionarse, por ejemplo, en una unidad de salida de un ordenador, por ejemplo, un monitor, una pantalla o un televisor. También podría estar prevista la salida de las informaciones en una pantalla de un teléfono móvil.

De forma general está previsto proporcionar las informaciones con un retardo de tiempo. Esto será el caso, en particular, cuando se trata de informaciones de una conversación que proceden de un sistema de recepción de llamadas, es decir, donde no es necesario un reconocimiento del habla o una valoración de información simultánea. Como alternativa a ello, de forma preferible está previsto reconocer y/o proporcionar las informaciones al interlocutor casi de forma simultánea, es decir "online". Esto es el caso, en particular, cuando se reconocen o analizan los datos del habla de una conversación entre dos interlocutores. Aquí, las informaciones pueden proporcionarse a uno o a los dos o a todos los interlocutores, según el objetivo que tiene la aplicación del procedimiento según la invención. No obstante, las informaciones también podrían proporcionarse online en combinación con un sistema de recepción de llamadas, por ejemplo, cuando una encuesta en directo de un programa de radio o de televisión debe ser valorada en poco tiempo.

Ahora, el interlocutor al que se proporcionan las informaciones durante la conversación podría predeterminar, controlar y/o dirigir el reconocimiento del habla, al menos en parte. Para ello, en una interfaz del usuario gráfico de un ordenador o un ordenador de control correspondiente podrían estar previstos símbolos correspondientes, que tienen distintos efectos en el reconocimiento del habla y que pueden ser pulsados de forma sencilla y rápida por el interlocutor.

En particular, podría estar previsto aquí que el interlocutor pueda pulsar símbolos correspondientes, que pueden clasificar o elegir varios resultados procedentes del sistema de reconocimiento del habla como correctos o falsos. De esta forma, el interlocutor puede formar el sistema de reconocimiento con respecto a la voz del otro interlocutor, de modo que en una conversación prolongada el sistema de reconocimiento del habla pueda reconocer al menos en gran parte los datos del habla del otro interlocutor. Además, pueden estar previstos símbolos correspondientes, que tengan como consecuencia la aceptación o el rechazo de informaciones que han de ser almacenadas como resultado del reconcomiendo del habla.

Además, podría estar previsto, por ejemplo, que el interlocutor predetermine el vocabulario para el reconocimiento del habla o el orden de la aplicación de los distintos procedimientos de reconocimiento del
habla.

En particular, en caso de un acoplamiento del sistema de reconocimiento del habla a un sistema de base de datos y/o un sistema experto podría estar previsto que se haya creado o ya almacenado un perfil de usuario para cada interlocutor. Para el reconocimiento del habla de otra conversación con este interlocutor, podría cargarse automáticamente este perfil de usuario. Además, también es concebible que el interlocutor, al que se proporcionan las informaciones, carga este perfil de usuario. En un perfil de usuario puede estar almacenado, en particular, el modo de reconocimiento del reconocimiento del habla, un vocabulario especial o similares.

De forma especialmente preferible, además de las informaciones del habla extraídas, se proporcionan también informaciones extraídas del sistema de base de datos y/o del sistema experto. Este procedimiento podría usarse, por ejemplo, en caso de un uso en un centro de llamadas. Aquí, el interlocutor que recibe la llamada, que a continuación será denominado agente, es el al que se proporcionan las informaciones extraídas. Pueden proporcionarse al agente además de las informaciones reconocidas y extraídas del proceso de reconocimiento del habla también informaciones más detalladas, por ejemplo, acerca de la persona que llama, el campo de actividades de éste, etc., de modo que el agente reciba ya antes de terminar la conversación más informaciones de las que realmente se han intercambiado en la conversación. Aquí, el agente también puede hacer referencia a otros temas a los que no se refiere la persona que llama, por lo que se transmite a la persona que llama de forma especialmente ventajosa la sensación de que el agente del centro de llamadas conoce personalmente a la persona que llama incluido el campo de actividades de ésta. Gracias a este procedimiento también puede realizarse de forma ventajosa un asesoramiento más intenso y/o más efectivo de la persona que llama.

Para un manejo sencillo por parte de un interlocutor, los módulos de salida correspondientes para las informaciones extraídas y/o los símbolos para el control o la dirección del reconocimiento del habla podrían estar integrados en una interfaz global y/o en un programa global de un programa de ordenador. De esta forma, un agente de un centro de llamadas sólo debe manejar, por ejemplo, una aplicación central o un programa central, de modo que finalmente también aumente de esta forma la eficiencia del sistema global.

El procedimiento según la invención podría usarse también de forma ventajosa para la formación de agentes de un centro de llamadas. Podría formarse, por ejemplo, la estrategia de comunicación del agente, por ejemplo, justamente con ayuda de las informaciones almacenadas acerca de una persona que llama en un sistema de base de datos y/o un sistema experto. Un objetivo podría ser, por ejemplo, que el agente de un centro de llamadas aprenda, por un lado, absolver una conversación de venta satisfactoria con una persona que llama y alimentar, por otro lado, al sistema global datos importantes acerca de la persona que llama, o informaciones ya almacenadas u obtenidas en la conversación, o almacenarlas en el sistema global, de modo que también pueda formarse la rapidez de un agente de un centro de llamadas en la gestión de la conversación.

De forma especialmente ventajosa, el sistema de reconocimiento del habla se entrena para reconocer la voz de un interlocutor. En caso de un centro de llamadas, es el agente del centro de llamadas, que interactúa prácticamente en cada conversación con el sistema de reconocimiento del habla. Por lo tanto, pueden reconocerse y/o analizarse con una tasa de reconocimiento optimizada al menos los datos del habla de un interlocutor o del agente. La tasa de reconocimiento del sistema de reconocimiento del habla puede aumentarse aún más de forma ventajosa si uno de los interlocutores o el agente del centro de llamadas repite determinadas palabras importantes para el interlocutor o agente. Por lo tanto, el sistema de reconocimiento del habla puede reconocer o analizar éstas ahora correctamente con una tasa elevada de reconocimiento cuando se trata del interlocutor para cuyo reconocimiento se ha entrenado el sistema de reconocimiento del habla.

Ahora existen distintas posibilidades de configurar y variar de forma ventajosa la exposición de la presente invención. Para ello se remite, por un lado, a las reivindicaciones subordinadas de la reivindicación 1 y, por otro lado, a la explicación expuesta a continuación de los ejemplos de realización preferibles de la invención con ayuda del dibujo. En relación con la explicación de los ejemplos de realización preferibles de la invención con ayuda del dibujo se explicarán también configuraciones y variantes de la exposición generalmente preferibles. En el dibujo muestran:

la fig. 1 una representación esquemática de una primera configuración para la realización del procedimiento según la invención;

la fig. 2 una representación esquemática de una segunda configuración para la realización del procedimiento según la invención;

la fig. 3 una representación esquemática de un ejemplo de realización de un sistema de reconocimiento del habla y

la fig. 4 una representación esquemática de otra configuración para la realización del procedimiento según la invención.

La fig. 1 muestra de forma esquemática dos interlocutores 1, 2, llevando los dos interlocutores 1, 2 una conversación telefónica. La comunicación telefónica se indica con el signo de referencia 3. Los datos del habla de la conversación se alimentan mediante la conexión 4 a un sistema de reconocimiento del habla 5.

Según la invención, se reconoce y extrae al menos un conjunto parcial de los datos del habla. El resultado del reconocimiento del habla se proporciona al interlocutor 2 mediante la conexión 6.

En la fig. 2 se muestra una configuración en la que un interlocutor 1 habla por teléfono con un sistema de recepción de llamadas 7, también mediante una comunicación telefónica 3. El sistema de recepción de llamadas 7 está realizado aquí como un Interactive Voice Response System. El reconocimiento del habla, así como el almacenamiento, por un lado, de los datos del habla y, por otro lado, de las informaciones extraídas de los mismos, también están previstos en el sistema de recepción de llamadas 7. El sistema de recepción de llamadas 7 es un ordenador.

El sistema de reconocimiento del habla 5 está formado por varios ordenadores, que se muestran esquemáticamente en la fig. 3. Concretamente se trata de una red de ordenadores, en la que el reconocimiento del habla se realiza en paralelo. Los datos del habla se alimentan mediante la conexión 4 al sistema de reconocimiento del habla 5. Los datos del habla se distribuyen posteriormente mediante la red desde el servidor de entrada/de salida 8. De esta forma, los datos del habla se alimentan mediante la conexión 9 a una memoria de datos 10. Además, los datos del habla se alimentan mediante la conexión 11 al servidor baseform 12, así como mediante la conexión 13 a los servidores de reconocimiento 14. El servidor baseform 12 sirve aquí para proporcionar las transcripciones fonéticas de pronunciación necesarias. Mediante la conexión 15 está previsto también un intercambio de datos del habla entre el servidor baseform 12 y los tres servidores de reconocimiento 14.

El reconocimiento del habla en los servidores de reconocimiento 14 se realiza aquí en paralelo, realizando uno de los tres servidores de reconocimiento 14 un reconocimiento de dictado, el otro servidor de reconocimiento 14 un reconocimiento de gramática y, finalmente, el tercer servidor de reconocimiento 14 un reconocimiento keyword-spotting. Por consiguiente, los tres procedimientos diferentes del reconocimiento del habla se usan en paralelo, por así decirlo. Los diferentes procedimientos del reconocimiento del habla requieren tiempos de cálculo que difieren un poco unos de otros, de modo que no exista una paralelización simultánea en el sentido estricto de la palabra.

En caso de realizarse el reconocimiento del habla repetidas veces, se solicitan al servidor de entrada/de salida 8 los datos del habla originales de la conversación almacenados en la memoria de datos 10, que se vuelven a distribuirse de nuevo entre el servidor baseform 12 y los servidores de reconocimiento 14.

El sistema de reconocimiento del habla 5, así como el proceso de reconocimiento del habla está acoplado de forma ventajosa mediante las conexiones 17, 18 a un sistema de base de datos 16. Gracias a este acoplamiento se extraen informaciones más detalladas. Las informaciones acerca del interlocutor 1 almacenadas y llamadas del sistema de base de datos 16 se usan para apoyar el proceso de reconocimiento del habla. Para ello, al servidor de reconocimiento 14 en el que se ejecuta el reconocimiento de dictado se proporciona un vocabulario que está almacenado en el sistema de base de datos 16 y que se ha usado en el marco de una conversación anterior con el interlocutor 1.

En la fig. 4 se muestra de forma esquemática que las informaciones del sistema de reconocimiento del habla 5, al igual que las informaciones del sistema de base de datos se proporcionan al interlocutor 2 en forma de una representación gráfica y ortográfica en el monitor 19 del ordenador 20. La representación de las informaciones se realiza durante la conversación.

El interlocutor 2 también puede intervenir mediante el ordenador 20 en el proceso de reconocimiento del habla y controlarlo de tal forma que pueda conseguirse un resultado óptimo del reconocimiento del habla. Tanto la representación gráfica y ortográfica de las informaciones del habla extraídas como el control del proceso de reconocimiento del habla se realizan con una interfaz del usuario que se proporciona al interlocutor 2 en el ordenador 20 y el monitor 19. De esta forma, el interlocutor 2 que actúa como agente en un centro de llamadas puede realizar un asesoramiento óptimo de la persona que llama.

Finalmente se indica especialmente que los ejemplos de realización anteriormente explicados sólo sirven para la descripción de la exposición reivindicada sin limitarla a los ejemplos de realización.

Claims

1. Procedimiento para el reconocimiento de informaciones del habla de una conversión entre al menos dos interlocutores (1, 2) o entre un interlocutor (1) y un sistema de recepción de llamadas (7), alimentándose los datos del habla de la conversación a un sistema de reconocimiento del habla (5) y reconociéndose y extrayéndose al menos en parte un conjunto parcial de los datos del habla, caracterizado porque en los flujos de informaciones de la conversación predeterminados se usa un sistema de recepción de llamadas (7) y porque en flujos de informaciones de la conversación complejos o que se vuelven más complejos el sistema de recepción de llamadas (7) se cambia por un interlocutor (2), proporcionándose al interlocutor (2) para su apoyo informaciones como resultado del reconocimiento del habla y/o almacenándose las mismas.

2. Procedimiento según la reivindicación 1, caracterizado porque el sistema de recepción de llamadas (7) trabaja como un Interactive Voice Response System (IVRS), preferiblemente un IVRS automático, y/o porque el sistema de recepción de llamadas (7) establece automáticamente una comunicación con un interlocutor (1), preferiblemente mediante una llamada telefónica, pudiendo enfrentarse el interlocutor (1) a estructuras de conversación predeterminadas.

3. Procedimiento según una de las reivindicaciones 1 ó 2, caracterizado porque como sistema de recepción de llamadas (7) y/o como sistema de reconocimiento del habla (5) se usa al menos un ordenador, pudiendo realizarse el reconocimiento del habla en uno o varios ordenadores (12, 14), preferiblemente en paralelo y/o en forma de varios procesos en un ordenador o de forma distribuida en paralelo entre varios procesadores de un ordenador.

4. Procedimiento según la reivindicación 3, caracterizado porque el reconocimiento del habla se realiza en paralelo en un sistema de red de ordenadores.

5. Procedimiento según una de las reivindicaciones 1 a 4, caracterizado porque los datos del habla de la conversación se almacenen al menos en gran medida sin modificaciones y/o porque las informaciones del estado actual de la conversación se tienen en cuenta en el reconocimiento del habla, pudiendo estar orientado el reconocimiento del habla individualmente a una orden de análisis.

6. Procedimiento según una de las reivindicaciones 1 a 5, caracterizado porque para el reconocimiento del habla se usan procedimientos del reconocimiento de dictado, de gramática, de palabras aisladas y/o de keyword-spotting, pudiendo usarse en paralelo los diferentes procedimientos del reconocimiento del habla.

7. Procedimiento según una de las reivindicaciones 1 a 6, caracterizado porque el reconocimiento del habla se realiza repetidas veces y/o porque se realiza una adaptación dinámica del reconocimiento del habla, pudiendo variarse y/o adaptarse el vocabulario para el reconocimiento del habla y/o clasificándose los datos del habla en una primera etapa de reconocimiento para la adaptación dinámica del reconocimiento del habla, preferiblemente con procedimientos de keyword-spotting y/o volviendo a examinarse de nuevo los datos del habla en otra etapa de reconocimiento usándose un vocabulario especial, realizándose de forma iterativa otras etapas de reconocimiento, que pueden controlarse preferiblemente mediante probabilidades de reconocimiento.

8. Procedimiento según una de las reivindicaciones 1 a 7, caracterizado porque el sistema de reconocimiento del habla y/o el proceso de reconocimiento del habla se acopla a un sistema de base de datos (16) y/o un sistema experto, pudiendo extraerse mediante el acoplamiento informaciones más detalladas y pudiendo controlar las informaciones obtenidas del sistema de base de datos (16) y/o del sistema experto de forma dinámica el proceso de reconocimiento del habla, por ejemplo, mediante el interlocutor (1).

9. Procedimiento según una de las reivindicaciones 1 a 8, caracterizado porque las informaciones se proporcionan en forma de una representación gráfica y/o ortográfica y/o porque las informaciones se proporcionan con un retardo de tiempo y/o porque las informaciones se reconocen de forma casi simultánea (online) y/o se proporcionan al interlocutor (2).

10. Procedimiento según una de las reivindicaciones 1 a 9, caracterizado porque las informaciones se proporcionan durante la conversación al interlocutor (2) y/o porque el interlocutor (2) predetermina, controla y/o dirige al menos en parte el reconocimiento del habla y/o porque el interlocutor (2) puede cargar los modos de reconocimiento en forma de perfiles de usuario o porque éstos se cargan automáticamente.

11. Procedimiento según una de las reivindicaciones 1 a 10, caracterizado porque, además de las informaciones del habla extraídas, también se extraen y/o proporcionan informaciones del sistema de base de datos (16) y/o del sistema experto.

12. Procedimiento según una de las reivindicaciones 1 a 11, caracterizado por el uso en un centro de llamadas y/o por la integración en una interfaz global y/o en un programa global y/o por el uso para la formación de agentes de un centro de llamadas.

13. Procedimiento según una de las reivindicaciones 1 a 12, caracterizado porque el sistema de reconocimiento del habla (5) se entrena para reconocer la voz de un interlocutor (2), preferiblemente del agente de un centro de llamadas, pudiendo aumentarse la tasa de reconocimiento del sistema de reconocimiento del habla (5) porque el interlocutor (2), preferiblemente el agente, repite palabras aisladas dichas por el otro interlocutor (1), de modo que el sistema de reconocimiento del habla (5) pueda analizar los datos del habla de la voz para cuyo reconocimiento ha sido entrenado.