ES2275870T3 - Procedimiento para el reconocimiento de informaciones del habla. - Google Patents
Procedimiento para el reconocimiento de informaciones del habla. Download PDFInfo
- Publication number
- ES2275870T3 ES2275870T3 ES02732331T ES02732331T ES2275870T3 ES 2275870 T3 ES2275870 T3 ES 2275870T3 ES 02732331 T ES02732331 T ES 02732331T ES 02732331 T ES02732331 T ES 02732331T ES 2275870 T3 ES2275870 T3 ES 2275870T3
- Authority
- ES
- Spain
- Prior art keywords
- recognition
- speech
- information
- speech recognition
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
Procedimiento para el reconocimiento de informaciones del habla de una conversión entre al menos dos interlocutores (1, 2) o entre un interlocutor (1) y un sistema de recepción de llamadas (7), alimentándose los datos del habla de la conversación a un sistema de reconocimiento del habla (5) y reconociéndose y extrayéndose al menos en parte un conjunto parcial de los datos del habla, caracterizado porque en los flujos de informaciones de la conversación predeterminados se usa un sistema de recepción de llamadas (7) y porque en flujos de informaciones de la conversación complejos o que se vuelven más complejos el sistema de recepción de llamadas (7) se cambia por un interlocutor (2), proporcionándose al interlocutor (2) para su apoyo informaciones como resultado del reconocimiento del habla y/o almacenándose las mismas.
Description
Procedimiento para el reconocimiento de
informaciones del habla.
La presente invención se refiere a un
procedimiento para el reconocimiento de informaciones del habla de
una conversación entre al menos dos interlocutores o entre un
interlocutor y un sistema de recepción de llamadas, alimentándose
los datos del habla de la conversación a un sistema de
reconocimiento del habla.
El reconocimiento automático del habla se conoce
desde hace tiempo por la práctica y se usa para la conversión
mecánica de un texto hablado en texto escrito.
Los sistemas de reconocimiento del habla pueden
dividirse en dos grupos según la vinculación en el espacio y en el
tiempo de la grabación del habla y del procesamiento del habla.
- -
- "Sistemas de reconocimiento online" son sistemas de reconocimiento del habla que convierten las manifestaciones habladas directamente en texto escrito. Entre ellos se encuentran la mayor parte de los sistemas de dictado de oficina.
- -
- "Sistemas de reconocimiento offline" realizan un reconocimiento del habla con retardo de tiempo de una grabación de un dictado, que el usuario ha realizado, por ejemplo, con un equipo de grabación digital.
Los sistemas de procesamiento del habla
conocidos hasta ahora por el estado de la técnica no pueden entender
los contenidos del habla, es decir, no pueden formarse a
priori hipótesis inteligentes de lo que se ha dicho como es el
caso en la comprensión humana del habla. En lugar de ello, el
proceso de reconocimiento acústico es apoyado por el uso de
hipótesis específicas del texto o de la aplicación. Hasta ahora se
usan de forma generalizada las siguientes hipótesis o modos de
reconocimiento:
- -
- el reconocimiento de dictado o de vocabulario usa una vinculación de estadística de palabras y de vocabularios específicos según el sector. En los sistemas de dictado de oficina se usa el reconocimiento de dictado o de vocablos;
- -
- el reconocimiento de gramática está basado en sistemas de reglas configuradas de forma especifica según la aplicación, integrando planos de construcción de la frase aquí esperados usando variables;
- -
- el reconocimiento de palabras aisladas o el "keyword-spotting" (marcado de palabras clave) se usa cuando faltan datos del habla que apoyen el reconocimiento y cuando en pasajes de habla relativamente largas se esperan determinadas palabras claves definidas.
Los sistemas de reconocimiento del habla son
especialmente problemáticos respecto al reconocimiento de la
información del habla debido a la pronunciación que difiere de una
persona a otra cuando el sistema de reconocimiento del habla no
está ajustado a la pronunciación concreta de una persona en el marco
de una fase de aprendizaje. En particular, los sistemas de
recepción de llamadas, en los que un interlocutor consulta una
información o da una información, aún no son practicables debido a
la elevada tasa de error en el proceso de reconocimiento del habla
y las distintas reacciones de los diferentes interlocutores. Por lo
tanto, en muchas aplicaciones aún es obligatorio usar en lugar de
un sistema de recepción de llamadas un segundo interlocutor, que
recibe las informaciones del primer interlocutor o que le
proporciona informaciones. En caso de que el segundo interlocutor
reciba informaciones, en la mayoría de los casos éstas deben ser
grabadas, escritas o introducidas en un ordenador, de la forma que
sea. Esto no solamente conlleva elevados gastos de personal sino que
también requiere mucho tiempo, de modo que el rendimiento de
llamadas no es óptimo.
El documento Wyard PJ y col.: "Spoken language
systems - beyond prompt and response", BT Technology Journal, BT
Laboratories, tomo 14, Nº 1, páginas 187-207, 1996
muestra diferentes implementaciones que se han realizado con éxito
de los distintos módulos de un sistema de reconocimiento del habla,
aunque también describe los distintos problemas que resultan de
ello.
La presente invención tiene, por lo tanto, el
objetivo de indicar y mejorar un procedimiento del tipo genérico en
el que se optimice el rendimiento de llamadas.
El procedimiento según la invención del tipo
genérico consigue el objetivo anteriormente indicado mediante las
características de la reivindicación 1.
Según la invención se ha entendido en primer
lugar que pueden usarse sistemas de recepción de llamadas cuando el
flujo de informaciones esperado de la llamada está en gran medida
predeterminado, es decir, cuando un interlocutor indica al sistema
de recepción de llamadas, por ejemplo, una respuesta a una pregunta
- sí o no, un número entre 1 y 5, etc. En este caso, el sistema de
reconocimiento del habla puede reconocer los datos del habla
correctamente con una elevada tasa de acierto y las informaciones
correspondientes pueden almacenarse para su posterior
procesamiento.
Para llamadas más complejas se ha entendido,
además, según la invención que en lugar de un sistema de recepción
de llamadas es necesario un segundo interlocutor, para poder
garantizar un intercambio de informaciones que no sea incorrecto
debido a los sistemas de reconocimiento del habla con errores. En
este sentido está previsto, no obstante, que se proporcionan ayudas
a uno de los interlocutores, que le facilitan la entrada o la
grabación costosa y larga de datos o que se encargan de realizar
estas tareas. Para ello, se alimentan los datos del habla de la
conversación de los dos interlocutores a un sistema de
reconocimiento del habla. También es concebible que sólo se
alimenten los datos del habla de un interlocutor al sistema de
reconocimiento del habla. El sistema de reconocimiento del habla
realiza ahora el reconocimiento del habla para un conjunto parcial
de los datos del habla, por ejemplo, los datos del habla de sólo un
interlocutor, de una forma general para todos los datos del habla.
Incluso si este reconocimiento sólo se realiza parcialmente con
éxito, las informaciones que se pueden extraer de ello pueden
proporcionarse a un interlocutor. De esta forma, el sistema de
reconocimiento del habla puede reconocer al menos datos sencillos
casi sin errores, como números o respuestas breves a preguntas, de
los que el interlocutor dispone posteriormente en una forma apta
para almacenar.
De forma especialmente ventajosa las
informaciones obtenidas mediante el reconocimiento del habla se
almacenan, de modo que puedan alimentarse, por ejemplo, a una
valoración estadística en un momento posterior.
Si se usa un sistema de recepción de llamadas,
está previsto que el sistema de recepción de llamadas trabaje como
"Interactive Voice Response System" (IVRS). Un sistema
IVRS de este tipo es capaz de comunicar con un interlocutor, aunque
sea en un marco limitado, y de reaccionar correspondientemente en
función de su entrada de habla. Preferiblemente está previsto un
sistema IVRS que trabaje de forma automática.
El sistema de recepción de llamadas podría
establecer de forma ventajosa automáticamente una comunicación con
un interlocutor. Esto podría realizarse, por ejemplo, mediante una
llamada telefónica. Podrían realizarse, por ejemplo, encuestas
sencillas de forma automática.
Puede conseguirse una tasa elevada de
reconocimiento de forma especialmente ventajosa si el interlocutor
cuyos datos del habla han de ser analizados se enfrenta a
estructuras de conversación predeterminadas. Esto pueden ser
explicaciones y/o preguntas del sistema de recepción de llamadas o
de un interlocutor, que el sistema de reconocimiento del habla ya
conoce de esta forma. En este caso, el interlocutor que se enfrenta
a las preguntas selectivas o a las estructuras de conversación
predeterminadas reaccionará por regla general, con una gran
probabilidad "de la forma esperada", de modo que a partir de
esta reacción conforme a la esperada pueda reconocerse
correctamente con una gran probabilidad la información contenida,
pudiendo extraerse o almacenarse correspondientemente. En este
sentido, aquí podría usarse de forma especialmente ventajosa el
procedimiento del reconocimiento de la gramática para el
reconocimiento del habla.
Para la realización práctica de un sistema de
recepción de llamadas y/o de un sistema de reconocimiento del habla
está previsto que se use al menos un ordenador. Puede tratarse de un
solo ordenador para el sistema de recepción de llamadas y el
sistema de reconocimiento del habla, aunque en principio está
previsto que sólo se use un ordenador como sistema de recepción de
llamadas. Los datos del habla de la conversación se alimentan, a
continuación, a otro ordenador, en el que está implementado el
sistema de reconocimiento del habla. Un ordenador de este tipo
debería presentar datos de rendimiento suficientes. Además, un
ordenador usado como sistema de recepción de llamadas presenta una
interfaz para el establecimiento de una comunicación por teléfono
y/o vídeo. Está prevista otra interfaz para la entrada o salida de
datos del habla y/o datos de vídeo.
El propio reconocimiento del habla podría
realizarse en un o en varios ordenadores. En particular, en el caso
de aplicaciones críticas respecto al tiempo, el reconocimiento del
habla se realiza preferiblemente en varios ordenadores,
preferiblemente en paralelo. El proceso de reconocimiento del habla
puede dividirse, por ejemplo, en varios procesos parciales,
realizándose cada proceso parcial en un ordenador. En el caso de una
división en procesos parciales, podrían asignarse a cada proceso
parcial distintas frases o frases subordinadas. También sería
concebible una división de los datos del habla en función del
tiempo, por ejemplo, en intervalos de tiempo de 5 segundos,
respectivamente. En caso de que el ordenador presente varios
procesadores (CPUs), los procesos parciales pueden realizarse en
paralelo de forma distribuida entre los procesadores del
ordenador.
En caso de que la capacidad de cálculo de un
solo ordenador no sea suficiente para el reconocimiento del habla
y/o para el sistema de recepción de llamadas, podría estar previsto
un sistema de red de ordenadores, de modo que estas tareas sean
realizadas en paralelo en varios ordenadores. En particular,
determinados ordenadores del sistema de red podrían realizar modos
de reconocimiento del habla especiales, diferentes, de modo que
cada ordenador analice los mismos datos del habla bajo otro punto de
vista.
De forma especialmente preferible, los datos del
habla de la llamada se almacenan al menos en gran medida sin
modificaciones. El almacenamiento podría comprender aquí todos los
datos del habla de la conversación. En caso de que un interlocutor
o el sistema de recepción de llamadas use, por ejemplo, estructuras
de conversación predeterminadas, que conoce el sistema de
reconocimiento del habla, podrían almacenarse sólo los datos del
habla del otro interlocutor. En principio, en el proceso de
almacenamiento está previsto almacenar además de los datos del
habla marcadores o bookmarks, de modo que la conversación que
ha de ser almacenada pueda dividirse de esta forma según el sentido
o la lógica. Esta división podría acelerar o simplificar el proceso
de la extracción de la información en caso de un reconocimiento
posterior de los datos del habla.
Además, está previsto que en el reconocimiento
del habla se tengan en cuenta informaciones acerca del estado
actual de la conversación. Podría tenerse en cuenta, por ejemplo, al
principio de la conversación la circunstancia de que los dos
interlocutores se identifiquen mutuamente, de modo que un
reconocimiento del habla use para ello modos de reconocimiento de
vocablos o de gramática correspondientes. Estas informaciones acerca
del estado actual de la conversación también podrían almacenarse
junto con los datos del habla, independientemente de cómo se
obtengan dichas informaciones.
En particular, en la valoración de datos del
habla que han sido grabados por un sistema de recepción de llamadas,
un reconocimiento del habla podría estar orientado individualmente
a una orden de análisis. Podría valorarse, por ejemplo, una
encuesta entre espectadores o un concurso de oyentes de un programa
de televisión o de radio automáticamente en el sentido de
determinar qué medida política tiene, por ejemplo, mayor aceptación
entre los espectadores u oyentes. Aquí podría estar predeterminado
como orden de análisis, por ejemplo, averiguar si se prefiere la
medida A o la medida B, de modo que la información y el conocimiento
de las posibles variantes de la encuesta se tengan en cuenta en el
reconocimiento del habla o que se proporcionen al reconocimiento
del habla como información adicional.
En caso de que los datos del habla de una
conversación procedan de dos interlocutores, está previsto de forma
especialmente preferible que el reconocimiento del habla esté
orientado individualmente a una orden de análisis. Ésta podría
comprender, por ejemplo, que el reconocimiento del habla se
concentre sobre todo en los datos del habla de uno de los dos
interlocutores, pudiendo estar orientado el análisis aquí, por
ejemplo, especialmente al reconocimiento del número de teléfono del
que realiza la llamada o similares.
Como procedimientos para el reconocimiento del
habla están previstos el reconocimiento de dictado, de gramática,
de palabras aisladas y/o keyword-spotting.
Podría conmutarse, por ejemplo, de un procedimiento de
reconocimiento del habla al otro procedimiento de reconocimiento
del habla en función del estado actual de la conversación, cuando
es previsible que otro procedimiento de reconocimiento del habla
promete dar mejores resultados para el reconocimiento del habla
para el estado actual de la llamada. Preferiblemente, los distintos
procedimientos de reconocimiento del habla también podrían usarse
en paralelo, lo cual se realiza, por ejemplo, de forma distribuida
en paralelo entre varios ordenadores.
De forma especialmente preferible está previsto
realizar el reconocimiento del habla de forma repetida. Para ello
es posible alimentar los datos del habla o los datos del habla
almacenados al menos en gran medida sin modificaciones de una
conversación de forma repetida o procesos de reconocimiento del
habla distintos o iguales. Un reconocimiento del habla repetido
está previsto, en particular, en un sistema de reconocimiento
offline, puesto que aquí es posible un retardo de tiempo del
reconocimiento del habla.
Para otra estrategia de reconocimiento del habla
está previsto realizar una adaptación dinámica del reconocimiento
del habla. Aquí podría variarse y/o adaptarse, por ejemplo, el
vocabulario para el reconocimiento del habla. Podría resultar, por
ejemplo, una tasa de reconocimiento baja de un procedimiento de
reconocimiento del habla usado en primer lugar, por ejemplo, el
reconocimiento de dictado, de modo que sea previsible que el
mantenimiento del reconocimiento de dictado tenga pocas
expectativas de éxito. A continuación, está previsto usar de forma
dinámica otro procedimiento de reconocimiento del habla,
analizándose también en el procedimiento de reconocimiento del
habla usado a continuación inmediatamente la tasa de reconocimiento
siguiendo, dado el caso, otra etapa dinámica de reconocimiento del
habla. Aquí también podría estar previsto aplicar en varios
ordenadores en paralelo el mismo procedimiento de reconocimiento
del habla a los datos del habla, usándose, no obstante, en cada
ordenador otro vocabulario para el reconocimiento del habla. Un
análisis directo de la tasa de reconocimiento de estos procesos de
reconocimiento del habla que se realizan en paralelo puede tener
como consecuencia una adaptación o un control dinámico del
posterior reconocimiento del habla.
De forma adicional o alternativa está previsto
una etapa de procedimiento especialmente preferible, que puede
resumirse bajo el concepto general "dinamización de
vocabulario". Aquí, los datos del habla se analizan varias
veces. En una primera etapa de reconocimiento se clasifican los
datos del habla. Para ello podrían usarse, por ejemplo,
procedimientos de keyword-spotting. En
función del resultado de la clasificación de los datos del habla,
los datos del habla se vuelven a examinar en otra etapa de
reconocimiento recurriéndose a un vocabulario especial. Aquí, el
proceso de reconocimiento se basa en un vocabulario que tiene una
relación directa o aproximada con el resultado de la etapa de
clasificación de datos del habla. Es perfectamente concebible basar
la etapa de reconocimiento de los datos del habla en un vocabulario
de varias áreas especiales. Esta otra etapa de reconocimiento se
aplica preferiblemente a los datos del habla originales, aunque
puedan usarse, no obstante, las informaciones obtenidas en la
primera etapa de reconocimiento.
Por consiguiente, las etapas del procedimiento
de la dinamización de vocabulario se vuelven a aplicar una y otra
vez a los datos del habla originales.
A continuación, se realizan de forma iterativa
otras etapas de reconocimiento, que en el caso ideal conducen al
reconocimiento completo de todos los datos del habla o al menos de
un conjunto parcial de los datos del habla. Las demás etapas de
reconocimiento iterativas se controlan preferiblemente mediante
probabilidades de reconocimiento, de modo que de esta forma pueda
obtenerse, por ejemplo, un criterio de cancelación para otras
etapas de reconocimiento, por ejemplo, cuando la probabilidad de
reconocimiento ya no cambia.
De forma especialmente preferible está previsto
que el sistema de reconocimiento del habla y/o el proceso de
reconocimiento del habla esté acoplado a un sistema de base de
datos, como por ejemplo R/3 y/o sistema experto. De esta forma, los
resultados o los resultados parciales del proceso de reconocimiento
del habla pueden introducirse directamente en un sistema de base de
datos y/o un sistema experto. Además, pueden usarse informaciones
del sistema de base de datos y/o del sistema experto para el proceso
de reconocimiento del habla, por ejemplo, para la dinamización del
vocabulario. Gracias a este acoplamiento pueden extraerse, por
ejemplo, informaciones más detalladas, que se aprovechan para el
reconocimiento del habla, como ya se ha indicado.
Las informaciones obtenidas del sistema de base
de datos y/o del sistema experto pueden usarse para el control del
proceso de reconocimiento dinámico del reconocimiento del habla. Las
informaciones que están almacenadas en un sistema de base de datos
o un sistema R/3 acerca de un interlocutor pueden usarse, por
ejemplo, para el control del proceso de reconocimiento de los datos
del habla existentes de este interlocutor en el sentido que el
reconocimiento del habla se base en un vocabulario que ya se haya
usado en conversaciones anteriores con este interlocutor. También
pueden almacenarse los datos del habla reconocidos durante la
conversación actual en el sistema de base de datos o el sistema R/3
o en una base de datos correspondiente, ampliándose el vocabulario
de este interlocutor de forma dinámica en el reconocimiento del
habla, ya durante la conversación.
Ahora, en principio está previsto almacenar las
informaciones obtenidas en particular del reconocimiento de datos
del habla. De forma especialmente preferible está previsto de forma
adicional o alternativa a ello proporcionar informaciones en forma
de una representación gráfica y/o ortográfica. Esto puede estar
previsto para informaciones que proceden, dado el caso, con un
retardo de tiempo de una conversación grabada mediante un sistema de
recepción de llamadas. No obstante, esto también podría hacerse
para informaciones de un reconocimiento del habla de datos de una
conversación que proceden de una conversación entre dos o varios
interlocutores. Aquí pueden indicarse todas las informaciones de la
conversación, es decir, por así decirlo, cada palabra, o sólo
informaciones extraídas y/o seleccionadas, que sean adecuadas para
la aplicación correspondiente del procedimiento según la invención.
Las informaciones podrían proporcionarse, por ejemplo, en una unidad
de salida de un ordenador, por ejemplo, un monitor, una pantalla o
un televisor. También podría estar prevista la salida de las
informaciones en una pantalla de un teléfono móvil.
De forma general está previsto proporcionar las
informaciones con un retardo de tiempo. Esto será el caso, en
particular, cuando se trata de informaciones de una conversación que
proceden de un sistema de recepción de llamadas, es decir, donde no
es necesario un reconocimiento del habla o una valoración de
información simultánea. Como alternativa a ello, de forma
preferible está previsto reconocer y/o proporcionar las
informaciones al interlocutor casi de forma simultánea, es decir
"online". Esto es el caso, en particular, cuando se reconocen
o analizan los datos del habla de una conversación entre dos
interlocutores. Aquí, las informaciones pueden proporcionarse a uno
o a los dos o a todos los interlocutores, según el objetivo que
tiene la aplicación del procedimiento según la invención. No
obstante, las informaciones también podrían proporcionarse online en
combinación con un sistema de recepción de llamadas, por ejemplo,
cuando una encuesta en directo de un programa de radio o de
televisión debe ser valorada en poco tiempo.
Ahora, el interlocutor al que se proporcionan
las informaciones durante la conversación podría predeterminar,
controlar y/o dirigir el reconocimiento del habla, al menos en
parte. Para ello, en una interfaz del usuario gráfico de un
ordenador o un ordenador de control correspondiente podrían estar
previstos símbolos correspondientes, que tienen distintos efectos
en el reconocimiento del habla y que pueden ser pulsados de forma
sencilla y rápida por el interlocutor.
En particular, podría estar previsto aquí que el
interlocutor pueda pulsar símbolos correspondientes, que pueden
clasificar o elegir varios resultados procedentes del sistema de
reconocimiento del habla como correctos o falsos. De esta forma, el
interlocutor puede formar el sistema de reconocimiento con respecto
a la voz del otro interlocutor, de modo que en una conversación
prolongada el sistema de reconocimiento del habla pueda reconocer
al menos en gran parte los datos del habla del otro interlocutor.
Además, pueden estar previstos símbolos correspondientes, que
tengan como consecuencia la aceptación o el rechazo de informaciones
que han de ser almacenadas como resultado del reconcomiendo del
habla.
Además, podría estar previsto, por ejemplo, que
el interlocutor predetermine el vocabulario para el reconocimiento
del habla o el orden de la aplicación de los distintos
procedimientos de reconocimiento del
habla.
habla.
En particular, en caso de un acoplamiento del
sistema de reconocimiento del habla a un sistema de base de datos
y/o un sistema experto podría estar previsto que se haya creado o ya
almacenado un perfil de usuario para cada interlocutor. Para el
reconocimiento del habla de otra conversación con este interlocutor,
podría cargarse automáticamente este perfil de usuario. Además,
también es concebible que el interlocutor, al que se proporcionan
las informaciones, carga este perfil de usuario. En un perfil de
usuario puede estar almacenado, en particular, el modo de
reconocimiento del reconocimiento del habla, un vocabulario especial
o similares.
De forma especialmente preferible, además de las
informaciones del habla extraídas, se proporcionan también
informaciones extraídas del sistema de base de datos y/o del sistema
experto. Este procedimiento podría usarse, por ejemplo, en caso de
un uso en un centro de llamadas. Aquí, el interlocutor que recibe la
llamada, que a continuación será denominado agente, es el al que se
proporcionan las informaciones extraídas. Pueden proporcionarse al
agente además de las informaciones reconocidas y extraídas del
proceso de reconocimiento del habla también informaciones más
detalladas, por ejemplo, acerca de la persona que llama, el campo de
actividades de éste, etc., de modo que el agente reciba ya antes de
terminar la conversación más informaciones de las que realmente se
han intercambiado en la conversación. Aquí, el agente también puede
hacer referencia a otros temas a los que no se refiere la persona
que llama, por lo que se transmite a la persona que llama de forma
especialmente ventajosa la sensación de que el agente del centro de
llamadas conoce personalmente a la persona que llama incluido el
campo de actividades de ésta. Gracias a este procedimiento también
puede realizarse de forma ventajosa un asesoramiento más intenso
y/o más efectivo de la persona que llama.
Para un manejo sencillo por parte de un
interlocutor, los módulos de salida correspondientes para las
informaciones extraídas y/o los símbolos para el control o la
dirección del reconocimiento del habla podrían estar integrados en
una interfaz global y/o en un programa global de un programa de
ordenador. De esta forma, un agente de un centro de llamadas sólo
debe manejar, por ejemplo, una aplicación central o un programa
central, de modo que finalmente también aumente de esta forma la
eficiencia del sistema global.
El procedimiento según la invención podría
usarse también de forma ventajosa para la formación de agentes de
un centro de llamadas. Podría formarse, por ejemplo, la estrategia
de comunicación del agente, por ejemplo, justamente con ayuda de
las informaciones almacenadas acerca de una persona que llama en un
sistema de base de datos y/o un sistema experto. Un objetivo podría
ser, por ejemplo, que el agente de un centro de llamadas aprenda,
por un lado, absolver una conversación de venta satisfactoria con
una persona que llama y alimentar, por otro lado, al sistema global
datos importantes acerca de la persona que llama, o informaciones ya
almacenadas u obtenidas en la conversación, o almacenarlas en el
sistema global, de modo que también pueda formarse la rapidez de un
agente de un centro de llamadas en la gestión de la
conversación.
De forma especialmente ventajosa, el sistema de
reconocimiento del habla se entrena para reconocer la voz de un
interlocutor. En caso de un centro de llamadas, es el agente del
centro de llamadas, que interactúa prácticamente en cada
conversación con el sistema de reconocimiento del habla. Por lo
tanto, pueden reconocerse y/o analizarse con una tasa de
reconocimiento optimizada al menos los datos del habla de un
interlocutor o del agente. La tasa de reconocimiento del sistema de
reconocimiento del habla puede aumentarse aún más de forma
ventajosa si uno de los interlocutores o el agente del centro de
llamadas repite determinadas palabras importantes para el
interlocutor o agente. Por lo tanto, el sistema de reconocimiento
del habla puede reconocer o analizar éstas ahora correctamente con
una tasa elevada de reconocimiento cuando se trata del interlocutor
para cuyo reconocimiento se ha entrenado el sistema de
reconocimiento del habla.
Ahora existen distintas posibilidades de
configurar y variar de forma ventajosa la exposición de la presente
invención. Para ello se remite, por un lado, a las reivindicaciones
subordinadas de la reivindicación 1 y, por otro lado, a la
explicación expuesta a continuación de los ejemplos de realización
preferibles de la invención con ayuda del dibujo. En relación con
la explicación de los ejemplos de realización preferibles de la
invención con ayuda del dibujo se explicarán también
configuraciones y variantes de la exposición generalmente
preferibles. En el dibujo muestran:
la fig. 1 una representación esquemática de una
primera configuración para la realización del procedimiento según
la invención;
la fig. 2 una representación esquemática de una
segunda configuración para la realización del procedimiento según
la invención;
la fig. 3 una representación esquemática de un
ejemplo de realización de un sistema de reconocimiento del habla
y
la fig. 4 una representación esquemática de otra
configuración para la realización del procedimiento según la
invención.
La fig. 1 muestra de forma esquemática dos
interlocutores 1, 2, llevando los dos interlocutores 1, 2 una
conversación telefónica. La comunicación telefónica se indica con
el signo de referencia 3. Los datos del habla de la conversación se
alimentan mediante la conexión 4 a un sistema de reconocimiento del
habla 5.
Según la invención, se reconoce y extrae al
menos un conjunto parcial de los datos del habla. El resultado del
reconocimiento del habla se proporciona al interlocutor 2 mediante
la conexión 6.
En la fig. 2 se muestra una configuración en la
que un interlocutor 1 habla por teléfono con un sistema de
recepción de llamadas 7, también mediante una comunicación
telefónica 3. El sistema de recepción de llamadas 7 está realizado
aquí como un Interactive Voice Response System. El
reconocimiento del habla, así como el almacenamiento, por un lado,
de los datos del habla y, por otro lado, de las informaciones
extraídas de los mismos, también están previstos en el sistema de
recepción de llamadas 7. El sistema de recepción de llamadas 7 es
un ordenador.
El sistema de reconocimiento del habla 5 está
formado por varios ordenadores, que se muestran esquemáticamente en
la fig. 3. Concretamente se trata de una red de ordenadores, en la
que el reconocimiento del habla se realiza en paralelo. Los datos
del habla se alimentan mediante la conexión 4 al sistema de
reconocimiento del habla 5. Los datos del habla se distribuyen
posteriormente mediante la red desde el servidor de entrada/de
salida 8. De esta forma, los datos del habla se alimentan mediante
la conexión 9 a una memoria de datos 10. Además, los datos del
habla se alimentan mediante la conexión 11 al servidor baseform 12,
así como mediante la conexión 13 a los servidores de reconocimiento
14. El servidor baseform 12 sirve aquí para proporcionar las
transcripciones fonéticas de pronunciación necesarias. Mediante la
conexión 15 está previsto también un intercambio de datos del habla
entre el servidor baseform 12 y los tres servidores de
reconocimiento 14.
El reconocimiento del habla en los servidores de
reconocimiento 14 se realiza aquí en paralelo, realizando uno de
los tres servidores de reconocimiento 14 un reconocimiento de
dictado, el otro servidor de reconocimiento 14 un reconocimiento de
gramática y, finalmente, el tercer servidor de reconocimiento 14 un
reconocimiento keyword-spotting. Por
consiguiente, los tres procedimientos diferentes del reconocimiento
del habla se usan en paralelo, por así decirlo. Los diferentes
procedimientos del reconocimiento del habla requieren tiempos de
cálculo que difieren un poco unos de otros, de modo que no exista
una paralelización simultánea en el sentido estricto de la
palabra.
En caso de realizarse el reconocimiento del
habla repetidas veces, se solicitan al servidor de entrada/de
salida 8 los datos del habla originales de la conversación
almacenados en la memoria de datos 10, que se vuelven a
distribuirse de nuevo entre el servidor baseform 12 y los servidores
de reconocimiento 14.
El sistema de reconocimiento del habla 5, así
como el proceso de reconocimiento del habla está acoplado de forma
ventajosa mediante las conexiones 17, 18 a un sistema de base de
datos 16. Gracias a este acoplamiento se extraen informaciones más
detalladas. Las informaciones acerca del interlocutor 1 almacenadas
y llamadas del sistema de base de datos 16 se usan para apoyar el
proceso de reconocimiento del habla. Para ello, al servidor de
reconocimiento 14 en el que se ejecuta el reconocimiento de dictado
se proporciona un vocabulario que está almacenado en el sistema de
base de datos 16 y que se ha usado en el marco de una conversación
anterior con el interlocutor 1.
En la fig. 4 se muestra de forma esquemática que
las informaciones del sistema de reconocimiento del habla 5, al
igual que las informaciones del sistema de base de datos se
proporcionan al interlocutor 2 en forma de una representación
gráfica y ortográfica en el monitor 19 del ordenador 20. La
representación de las informaciones se realiza durante la
conversación.
El interlocutor 2 también puede intervenir
mediante el ordenador 20 en el proceso de reconocimiento del habla
y controlarlo de tal forma que pueda conseguirse un resultado óptimo
del reconocimiento del habla. Tanto la representación gráfica y
ortográfica de las informaciones del habla extraídas como el control
del proceso de reconocimiento del habla se realizan con una
interfaz del usuario que se proporciona al interlocutor 2 en el
ordenador 20 y el monitor 19. De esta forma, el interlocutor 2 que
actúa como agente en un centro de llamadas puede realizar un
asesoramiento óptimo de la persona que llama.
Finalmente se indica especialmente que los
ejemplos de realización anteriormente explicados sólo sirven para
la descripción de la exposición reivindicada sin limitarla a los
ejemplos de realización.
Claims (13)
1. Procedimiento para el reconocimiento de
informaciones del habla de una conversión entre al menos dos
interlocutores (1, 2) o entre un interlocutor (1) y un sistema de
recepción de llamadas (7), alimentándose los datos del habla de la
conversación a un sistema de reconocimiento del habla (5) y
reconociéndose y extrayéndose al menos en parte un conjunto parcial
de los datos del habla, caracterizado porque en los flujos de
informaciones de la conversación predeterminados se usa un sistema
de recepción de llamadas (7) y porque en flujos de informaciones de
la conversación complejos o que se vuelven más complejos el sistema
de recepción de llamadas (7) se cambia por un interlocutor (2),
proporcionándose al interlocutor (2) para su apoyo informaciones
como resultado del reconocimiento del habla y/o almacenándose las
mismas.
2. Procedimiento según la reivindicación 1,
caracterizado porque el sistema de recepción de llamadas (7)
trabaja como un Interactive Voice Response System (IVRS),
preferiblemente un IVRS automático, y/o porque el sistema de
recepción de llamadas (7) establece automáticamente una comunicación
con un interlocutor (1), preferiblemente mediante una llamada
telefónica, pudiendo enfrentarse el interlocutor (1) a estructuras
de conversación predeterminadas.
3. Procedimiento según una de las
reivindicaciones 1 ó 2, caracterizado porque como sistema de
recepción de llamadas (7) y/o como sistema de reconocimiento del
habla (5) se usa al menos un ordenador, pudiendo realizarse el
reconocimiento del habla en uno o varios ordenadores (12, 14),
preferiblemente en paralelo y/o en forma de varios procesos en un
ordenador o de forma distribuida en paralelo entre varios
procesadores de un ordenador.
4. Procedimiento según la reivindicación 3,
caracterizado porque el reconocimiento del habla se realiza
en paralelo en un sistema de red de ordenadores.
5. Procedimiento según una de las
reivindicaciones 1 a 4, caracterizado porque los datos del
habla de la conversación se almacenen al menos en gran medida sin
modificaciones y/o porque las informaciones del estado actual de la
conversación se tienen en cuenta en el reconocimiento del habla,
pudiendo estar orientado el reconocimiento del habla
individualmente a una orden de análisis.
6. Procedimiento según una de las
reivindicaciones 1 a 5, caracterizado porque para el
reconocimiento del habla se usan procedimientos del reconocimiento
de dictado, de gramática, de palabras aisladas y/o de
keyword-spotting, pudiendo usarse en
paralelo los diferentes procedimientos del reconocimiento del
habla.
7. Procedimiento según una de las
reivindicaciones 1 a 6, caracterizado porque el
reconocimiento del habla se realiza repetidas veces y/o porque se
realiza una adaptación dinámica del reconocimiento del habla,
pudiendo variarse y/o adaptarse el vocabulario para el
reconocimiento del habla y/o clasificándose los datos del habla en
una primera etapa de reconocimiento para la adaptación dinámica del
reconocimiento del habla, preferiblemente con procedimientos de
keyword-spotting y/o volviendo a examinarse
de nuevo los datos del habla en otra etapa de reconocimiento
usándose un vocabulario especial, realizándose de forma iterativa
otras etapas de reconocimiento, que pueden controlarse
preferiblemente mediante probabilidades de reconocimiento.
8. Procedimiento según una de las
reivindicaciones 1 a 7, caracterizado porque el sistema de
reconocimiento del habla y/o el proceso de reconocimiento del habla
se acopla a un sistema de base de datos (16) y/o un sistema
experto, pudiendo extraerse mediante el acoplamiento informaciones
más detalladas y pudiendo controlar las informaciones obtenidas del
sistema de base de datos (16) y/o del sistema experto de forma
dinámica el proceso de reconocimiento del habla, por ejemplo,
mediante el interlocutor (1).
9. Procedimiento según una de las
reivindicaciones 1 a 8, caracterizado porque las
informaciones se proporcionan en forma de una representación
gráfica y/o ortográfica y/o porque las informaciones se proporcionan
con un retardo de tiempo y/o porque las informaciones se reconocen
de forma casi simultánea (online) y/o se proporcionan al
interlocutor (2).
10. Procedimiento según una de las
reivindicaciones 1 a 9, caracterizado porque las
informaciones se proporcionan durante la conversación al
interlocutor (2) y/o porque el interlocutor (2) predetermina,
controla y/o dirige al menos en parte el reconocimiento del habla
y/o porque el interlocutor (2) puede cargar los modos de
reconocimiento en forma de perfiles de usuario o porque éstos se
cargan automáticamente.
11. Procedimiento según una de las
reivindicaciones 1 a 10, caracterizado porque, además de las
informaciones del habla extraídas, también se extraen y/o
proporcionan informaciones del sistema de base de datos (16) y/o
del sistema experto.
12. Procedimiento según una de las
reivindicaciones 1 a 11, caracterizado por el uso en un
centro de llamadas y/o por la integración en una interfaz global
y/o en un programa global y/o por el uso para la formación de
agentes de un centro de llamadas.
13. Procedimiento según una de las
reivindicaciones 1 a 12, caracterizado porque el sistema de
reconocimiento del habla (5) se entrena para reconocer la voz de un
interlocutor (2), preferiblemente del agente de un centro de
llamadas, pudiendo aumentarse la tasa de reconocimiento del sistema
de reconocimiento del habla (5) porque el interlocutor (2),
preferiblemente el agente, repite palabras aisladas dichas por el
otro interlocutor (1), de modo que el sistema de reconocimiento del
habla (5) pueda analizar los datos del habla de la voz para cuyo
reconocimiento ha sido entrenado.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10127852A DE10127852A1 (de) | 2001-06-08 | 2001-06-08 | Verfahren zur Erkennung von Sprachinformationen |
DE10127852 | 2001-06-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2275870T3 true ES2275870T3 (es) | 2007-06-16 |
Family
ID=7687633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES02732331T Expired - Lifetime ES2275870T3 (es) | 2001-06-08 | 2002-03-18 | Procedimiento para el reconocimiento de informaciones del habla. |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1402520B1 (es) |
AT (1) | ATE341809T1 (es) |
DE (2) | DE10127852A1 (es) |
ES (1) | ES2275870T3 (es) |
WO (1) | WO2002101720A1 (es) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2044804A4 (en) | 2006-07-08 | 2013-12-18 | Personics Holdings Inc | PERSONAL HEARING AID AND METHOD |
US8654963B2 (en) | 2008-12-19 | 2014-02-18 | Genesys Telecommunications Laboratories, Inc. | Method and system for integrating an interaction management system with a business rules management system |
US8463606B2 (en) | 2009-07-13 | 2013-06-11 | Genesys Telecommunications Laboratories, Inc. | System for analyzing interactions and reporting analytic results to human-operated and system interfaces in real time |
US9912816B2 (en) | 2012-11-29 | 2018-03-06 | Genesys Telecommunications Laboratories, Inc. | Workload distribution with resource awareness |
US9542936B2 (en) | 2012-12-29 | 2017-01-10 | Genesys Telecommunications Laboratories, Inc. | Fast out-of-vocabulary search in automatic speech recognition systems |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9424887D0 (en) * | 1994-12-09 | 1995-02-08 | Univ Oxford Brookes | Computer apparatus with dialogue-based input system |
JP3284832B2 (ja) * | 1995-06-22 | 2002-05-20 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US6173259B1 (en) * | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
DE19851287A1 (de) * | 1998-11-06 | 2000-06-21 | Siemens Ag | Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte |
-
2001
- 2001-06-08 DE DE10127852A patent/DE10127852A1/de not_active Withdrawn
-
2002
- 2002-03-18 ES ES02732331T patent/ES2275870T3/es not_active Expired - Lifetime
- 2002-03-18 AT AT02732331T patent/ATE341809T1/de active
- 2002-03-18 EP EP02732331A patent/EP1402520B1/de not_active Expired - Lifetime
- 2002-03-18 DE DE50208346T patent/DE50208346D1/de not_active Expired - Lifetime
- 2002-03-18 WO PCT/DE2002/000962 patent/WO2002101720A1/de active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
DE50208346D1 (de) | 2006-11-16 |
EP1402520A1 (de) | 2004-03-31 |
EP1402520B1 (de) | 2006-10-04 |
ATE341809T1 (de) | 2006-10-15 |
WO2002101720A1 (de) | 2002-12-19 |
DE10127852A1 (de) | 2002-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990133B2 (en) | Automated calling system | |
JP5405672B2 (ja) | 外国語学習装置及び対話システム | |
US7917364B2 (en) | System and method using multiple automated speech recognition engines | |
US20040073424A1 (en) | Method and system for the processing of voice data and for the recognition of a language | |
US7127397B2 (en) | Method of training a computer system via human voice input | |
US8788256B2 (en) | Multiple language voice recognition | |
US8849666B2 (en) | Conference call service with speech processing for heavily accented speakers | |
US20080140398A1 (en) | System and a Method For Representing Unrecognized Words in Speech to Text Conversions as Syllables | |
JP2021507312A (ja) | 音声認識システム及び音声認識システムを用いる方法 | |
US8457973B2 (en) | Menu hierarchy skipping dialog for directed dialog speech recognition | |
US20050049868A1 (en) | Speech recognition error identification method and system | |
US20130073276A1 (en) | MT Based Spoken Dialog Systems Customer/Machine Dialog | |
US20040260543A1 (en) | Pattern cross-matching | |
US7318029B2 (en) | Method and apparatus for a interactive voice response system | |
US20180137778A1 (en) | Language learning system, language learning support server, and computer program product | |
ES2244499T3 (es) | Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz. | |
US20040042591A1 (en) | Method and system for the processing of voice information | |
CN111462726B (zh) | 一种外呼应答方法、装置、设备及介质 | |
ES2275870T3 (es) | Procedimiento para el reconocimiento de informaciones del habla. | |
US7249011B2 (en) | Methods and apparatus for automatic training using natural language techniques for analysis of queries presented to a trainee and responses from the trainee | |
JP4809358B2 (ja) | 対話システムの忠実度を向上させる方法及びシステム | |
US20040006464A1 (en) | Method and system for the processing of voice data by means of voice recognition and frequency analysis | |
US6952674B2 (en) | Selecting an acoustic model in a speech recognition system | |
JP2017021245A (ja) | 語学学習支援装置、語学学習支援方法および語学学習支援プログラム | |
US7752045B2 (en) | Systems and methods for comparing speech elements |