ES2363594T3

ES2363594T3 - Procedimiento de tratamiento de datos de audio en una red y dispositivo de aplicación de este procedimiento.

Info

Publication number: ES2363594T3
Application number: ES03789487T
Authority: ES
Inventors: François GAICHIES Lilian; Pascal Beglin; Thomas Bouton; Zakaria Nadhir
Original assignee: Streamwide SA
Current assignee: Streamwide SA
Priority date: 2002-11-29
Filing date: 2003-11-24
Publication date: 2011-08-10
Anticipated expiration: 2023-11-24
Also published as: CN1736088A; CA2506549A1; CA2506549C; FR2848053A1; WO2004051973A1; EP1566046A1; ATE503341T1; AU2003294071A1; US8644465B2; JP2006508596A; DE60336498D1; FR2848053B1; EP1566046B1; CN100581198C; JP4813798B2; HK1088752A1; US20060047516A1

Abstract

Procedimiento de tratamiento de un flujo de datos que comprende datos de audio (INST2) intercambiados en una red entre un servidor (SERV) y al menos un terminal telefónico, correspondiendo el flujo de datos a una llamada telefónica emitida desde este terminal durante la cual un usuario (UTI) ha producido al menos un evento, comprendiendo este procedimiento: - una etapa a) que consiste en extraer del flujo de datos correspondiente a cada llamada telefónica, datos de audio (INST2) correspondientes a cada evento, y - una etapa b) que consiste en ejecutar al menos una tarea relativa a los datos de audio (INST2) extraídos y que puede ejecutarse por una aplicación de software (AL), caracterizado porque la aplicación de software (AL) está programada en un lenguaje desarrollado para aplicaciones no específicamente vocales, y está destinada a interaccionar con la red utilizando un protocolo de transmisión de datos no específicamente de audio, y porque el procedimiento comprende una etapa c) que comprende la introducción en esta aplicación de software (AL), mediante elementos de programa específicamente vocales escritos en dicho lenguaje, y asociados a la aplicación de software por un submódulo de inserción, de al menos una instrucción (INST2') relativa a los datos de audio INST2) extraídos y adaptada para activar la etapa (b).

Description

Sector de la técnica

La presente invención se refiere a los procedimientos y los programas de tratamiento de datos de audio en una red, así como a los dispositivos de aplicación de estos procedimientos.

Más particularmente, la invención se refiere a un procedimiento de tratamiento de un flujo de datos que comprende datos de audio intercambiados en una red entre un servidor y al menos un terminal telefónico, correspondiendo este flujo de datos a una llamada telefónica emitida desde este terminal durante la cual un usuario ha producido al menos un evento, comprendiendo este procedimiento:

-una etapa (a) que consiste en extraer del flujo de datos correspondiente a cada llamada telefónica, datos de audio correspondientes a cada evento, y

-una etapa (b) que consiste en ejecutar al menos una tarea relativa a los datos de audio extraídos y que puede ejecutarse por una aplicación de software.

Estado de la técnica

Procedimientos del tipo de la técnica anterior permiten la comunicación entre un terminal telefónico y un servidor a través de una red telefónica conmutada pública o privada, fija o móvil. Corresponden por ejemplo a los procedimientos ampliamente conocidos con la sigla IVR (sigla de la expresión anglosajona “Interactive Voice Response”).

Estos procedimientos permiten, por ejemplo, la emisión de información en forma vocal a un usuario o bien el control de operaciones remotas a partir de instrucciones dadas por este usuario en forma de datos de audio tales como comandos vocales o sonidos generados cuando éste pulsa teclas del teclado de su terminal telefónico (procedimiento DTMF, sigla de la expresión anglosajona “Dual Tone Multi Frequency”).

Gracias a este tipo de procedimiento, un usuario puede, por ejemplo, consultar el saldo de cuentas bancarias, cotizaciones de bolsa, consultar o dejar mensajes en un buzón de voz, etc.

Durante una llamada telefónica se genera un flujo de datos a partir el terminal telefónico. Este flujo de datos comprende por ejemplo datos de identificación del usurario así como datos que corresponden a los sonidos emitidos por el usuario, captados por el micrófono del terminal telefónico o generados por la presión de teclas del terminal. Entre estos sonidos, algunos corresponden a datos de audio característicos de eventos particulares.

Cuando estos datos de audio se identifican por un servidor apropiado, un programa ejecuta la tarea correspondiente. Por ejemplo, la pronunciación de la palabra “borrar” por el usuario corresponde a un evento destinado a ordenar, en un contexto dado, la tarea que consiste en borrar un mensaje en un buzón de voz.

En estos procedimientos de la técnica anterior, concretamente el que se describe en el documento EP 1 175 074, o WO 01/52477, los programas de ordenador que corresponden a las aplicaciones IVR se desarrollan en lenguajes específicos tales como el TCL (sigla de la expresión anglosajona Tool Command Language), o requieren el uso de intérpretes tales como el VXML (sigla de la expresión anglosajona Voice extensible Markup Language), etc. Estos programas están todos exclusivamente dedicados a las aplicaciones vocales, su escritura se efectúa exclusivamente en uno de estos lenguajes y las bases de datos compatibles con estos programas son específicas para estas aplicaciones vocales.

Objeto de la invención

La presente invención tiene concretamente por objeto abrir el uso de los procedimientos de comunicación de datos de audio de tipo IVR a un mayor número de fuentes.

Este objeto se alcanza mediante un procedimiento que, además de las características indicadas anteriormente, se caracteriza por el hecho de que la aplicación de software está destinada a interaccionar con la red usando un protocolo de transmisión de datos no específicamente de audio, y porque el procedimiento comprende una etapa (c) que comprende la introducción dentro de esta aplicación de software, mediante elementos de programa específicamente vocales asociados a la aplicación de software por un submódulo de inserción, de al menos una instrucción relativa a los datos de audio extraídos y adaptada para activar la etapa (b).

Gracias a estas disposiciones pueden utilizarse, además de las aplicaciones vocales que ya existen, aplicaciones, así como las bases de datos compatibles con estas aplicaciones, ya desarrolladas para permitir una interacción entre un servidor y un usuario de un modo distinto a la comunicación únicamente de datos de audio. Así, es posible utilizar aplicaciones y bases de datos desarrolladas por ejemplo para Internet, lo que da acceso a un gran número de fuentes de servicios y de información que ya existen.

Este procedimiento tiene además la ventaja de que todas las aplicaciones ya escritas en el lenguaje interpretado para Internet por ejemplo, son inmediatamente aplicables al ámbito vocal, sin necesidad de volver a desarrollarse totalmente.

Este procedimiento permite además integrar cualquier nueva aplicación de IVR inmediatamente en cualquier red de telecomunicaciones funcionando integralmente en modo paquete.

En los modos de realización preferidos de la invención, puede recurrirse eventualmente además a una y/u otra de las disposiciones siguientes:

-: la aplicación de software se escribe en un lenguaje, y los elementos de programa específicamente vocales asociados a la aplicación de software se escriben en el mismo lenguaje;

-: el evento se produce por la pulsación por parte de un usuario de al menos una tecla de terminal telefónico;

-: el evento se produce por la dicción de un comando vocal pronunciado por el usuario, y la etapa (a) comprende una etapa que consiste en reconocer el comando vocal pronunciado, con la ayuda de una unidad de reconocimiento vocal;

-: la aplicación de software está adaptada para ejecutar tareas equivalentes en términos de servicios prestados al usuario, a la vez a través de una red de Internet o Intranet y a través de una red telefónica;

-: el procedimiento comprende una etapa (a’) que consiste en gestionar la evolución de la llamada telefónica a partir de datos no de audio extraídos del flujo de datos;

-: el procedimiento comprende la etapa (d) que consiste en emitir en la red, mediante un protocolo de transmisión de datos de audio en red, datos de audio de salida en respuesta a al menos un evento producido por el usuario.

Según otro aspecto, la invención se refiere a un sistema de tratamiento de un flujo de datos que comprende datos de audio intercambiados en una red entre un servidor y al menos un terminal telefónico, correspondiendo el flujo de datos a una llamada telefónica emitida desde este terminal durante la cual un usuario ha producido al menos un evento, comprendiendo este sistema:

•: medios de extracción de datos de audio correspondientes a cada evento del flujo de datos correspondiente a cada llamada telefónica, y

•: medios de ejecución para ejecutar al menos una tarea relativa a los datos de audio extraídos y que puede ejecutarse por una aplicación de software,

caracterizado por el hecho de que la aplicación de software está destinada a interaccionar con la red utilizando un protocolo de transmisión de datos no específicamente de audio, y porque el sistema comprende medios de introducción en esta aplicación de software de al menos una instrucción relativa a los datos de audio extraídos y adaptada para leerse y ejecutarse por los medios de ejecución, comprendiendo los medios de introducción elementos de programa específicamente vocales asociados a la aplicación de software.

Puede recurrirse eventualmente además a una y/u otra de las disposiciones siguientes:

-dichos medios de extracción, de ejecución y de introducción se integran en el servidor y este servidor comprende al menos un ordenador;

-el servidor comprende medios de tratamiento de datos digitales incluidos en la lista siguiente:

•: una unidad de reconocimiento vocal para reconocer comandos vocales pronunciados por al menos un usuario,

•: una unidad de control de llamada para extraer, del flujo de datos correspondiente a cada llamada telefónica, datos no de audio correspondientes a la llamada telefónica,

•: una unidad de emisión para emitir en la red, mediante un protocolo de transmisión de datos de audio en red, datos de audio de salida correspondientes a al menos un evento,

•: una unidad de transferencia de llamadas para gestionar las transferencias de llamada de al menos un usuario,

•: una unidad de lectura para leer al menos una instrucción relativa a los datos de audio extraídos,

•: una unidad de instrucciones de transferencia de llamadas para efectuar una transferencia de llamadas, y

•: una unidad de instrucciones de establecimiento de conferencia para efectuar un establecimiento de conferencia de

al menos dos llamadas con la ayuda de los datos no de audio correspondientes a cada llamada telefónica;

-el sistema comprende además una base datos de audio.

Según otro aspecto, la invención se refiere a un programa de ordenador para el tratamiento de un flujo de datos que comprende datos de audio intercambiados en una red entre un servidor y al menos un terminal telefónico, correspondiendo el flujo de datos a una llamada telefónica emitida desde este terminal durante la cual un usuario ha producido al menos un evento, comprendiendo este programa de ordenador partes de código de programa para la ejecución de las etapas de tal procedimiento cuando dicho programa se ejecuta por un ordenador.

Según otro aspecto, la invención se refiere a un procedimiento de preparación de un programa de ordenador para ejecutar al menos una tarea relativa a datos de audio extraídos de un flujo de datos que comprende datos de audio intercambiados en una red entre un servidor y al menos un terminal telefónico, correspondiendo el flujo de datos a una llamada telefónica emitida desde este terminal durante la cual un usuario ha producido al menos un evento, correspondiendo los datos de audio a este evento, caracterizado porque dicho programa de ordenador puede ejecutarse por una aplicación de software destinada a interactuar con la red utilizando un protocolo de transmisión de datos no específicamente de audio, y porque el procedimiento comprende una etapa en la que se asocia a la aplicación de software un submódulo de inserción que comprende elementos de programa específicamente vocales adaptados para introducir en la aplicación de software una instrucción relativa a los datos de audio extraídos y adaptada para activar le ejecución de dicha tarea.

Otros aspectos, objetivos y ventajas de la invención se pondrán de manifiesto con la lectura de la descripción de varios de estos modos de realizaciones dados a modo de ejemplos no limitativos.

Descripción de las figuras

Asimismo, la invención se comprenderá mejor con la ayuda de los dibujos en los que:

-: la figura 1 es un esquema global de una aplicación IVR aplicada según la invención,

-: la figura 2 es un esquema de funcionamiento del sistema de aplicación según la invención,

-: la figura 3 es un esquema de funcionamiento de un segundo modo de realización del sistema de aplicación según la invención, y

-: la figura 4 es un ejemplo de funcionamiento de la invención.

En estas diferentes figuras, las mismas referencias designan elementos idénticos o similares.

Descripción detallada de la invención

La figura 1 es un esquema de principio de un ejemplo de servicio vocal interactivo aplicado según la presente invención.

Un usuario UTI o un grupo de usuarios puede acceder a una red telefónica de conmutación de circuitos RESC a través de por ejemplo un teléfono, o un ordenador.

Así, durante una llamada telefónica, el usuario UTI produce sonidos. Estos sonidos corresponden por ejemplo a su voz o a señales sonoras específicas de la pulsación de teclas en el terminal telefónico. Estos sonidos constituyen datos de audio. Entre estos datos de audio, algunos son representativos de eventos particulares producidos por el usuario para activar un servicio. Un evento de este tipo consiste por ejemplo en pronunciar una palabra particular destinada a ser reconocida o a pulsar una tecla específica del terminal telefónico que está utilizando.

A partir del terminal telefónico, los datos de audio se transmiten, con otros datos de comunicación (por ejemplo datos de identificación de la llamada) con los que forman un flujo de datos, por la red telefónica RESC hacia una pasarela de medios MED que permite conectar la red telefónica de conmutación de circuitos con una red telefónica de conmutación de paquetes RESP y viceversa. Las pasarelas de medios de este tipo son bien conocidas por el experto en la técnica (véase por ejemplo el documento EP 1 175 074). El flujo de datos se transmite entonces, hasta un sistema de aplicación SYST, en la red telefónica de conmutación de paquetes RESP utilizando un protocolo de transporte o de establecimiento de llamada en este tipo de red. Se trata por ejemplo del protocolo SIP (sigla de la expresión anglosajona “Session Initiation Protocol”) que es un protocolo IETF de voz (IETF es la sigla de la expresión anglosajona “Internet Engineering Task Force”).

El sistema de aplicación SYST se gestiona por un proveedor de servicios. Estos servicios corresponden a la consulta de bases de datos (anuarios, datos meteorológicos, bolsa, etc.) y/o a la aplicación de operaciones (descarga de tonos o de logos para teléfonos móviles, etc.).

El flujo de datos corresponde a un conjunto de informaciones que llegan al proveedor de servicios al nivel del sistema de aplicación SYST. Estas informaciones se refieren a la vez a las comunicaciones establecidas por uno o varios usuarios del servicio, y a un conjunto de eventos producidos por este o estos usuarios. Estos eventos pueden ser de cualquier tipo, como por ejemplo pulsar en una tecla dada de un terminal telefónico, o hacer clic en un vínculo dado de una página web presentada en un monitor de ordenador u otro, para navegar en un menú que permite obtener una información o efectuar una operación dada.

El sistema de aplicación comprende un primer módulo MOD1 que separa, en el flujo de datos, las informaciones INST1 propias de las comunicaciones establecidas con cada usuario UTI, y los datos de audio útiles correspondientes a los eventos susceptibles de activar uno o varios servicios accesibles mediante un servidor. El primer módulo MOD1 gestiona las informaciones relativas a las comunicaciones y traduce, y a continuación transmite, para un usuario UTI dado, instrucciones INST2’ relativas a los datos de audio útiles a un segundo módulo MOD2. Este segundo módulo MOD2 gestiona la interactividad con el usuario UTI y emite instrucciones de salida INSTS’ que describen una información que debe proporcionarse al usuario UTI, en función de las instrucciones traducidas INST2’ que ha recibido. Esta información puede ser, por ejemplo, relativa a un mensaje de éxito/error sobre el cumplimiento de una operación, o relativa a una información solicitada por el usuario.

El primer módulo MOD1 recibe entonces estas instrucciones de salida INSTS emitidas por el segundo módulo MOD2, y emite según el protocolo de red SIP un conjunto de sonidos que forman la respuesta a los eventos producidos por el usuario UTI. De este modo se crea un dialogo entre el usuario UTI y el proveedor de servicios, de modo que no sólo pueden emitirse varios eventos por el usuario UTI a los que puede proporcionarse una respuesta adaptada por el proveedor de servicios, sino que también de modo que las características de la comunicación pueden evolucionar a lo largo del tiempo. El primer módulo MOD1 se utiliza para gestionar la evolución de las características de la comunicación, mientras que el segundo módulo MOD2 se utiliza para gestionar la respuesta a las diversas peticiones del usuario UTI o del grupo de usuarios.

El servicio consiste por ejemplo en realizar un intercambio con una base de datos DATA.

La comunicación entre la red telefónica de conmutación de paquetes y el primer módulo MOD1, así como entre el primer MOD1 y el segundo MOD2, se efectúa por ejemplo según el protocolo SIP. La gestión de la interactividad dentro del segundo módulo MOD2 se efectúa, por ejemplo, en un lenguaje PHP (de la expresión anglosajona “Hypertext Preprocessor”) javascript u otro.

Un ejemplo de sistema de aplicación SYST según la invención se describe en la figura 2. En este sistema de aplicación, los eventos corresponden por ejemplo a sonidos generados por la pulsación de teclas de un terminal telefónico. El flujo de datos llega desde la red telefónica de conmutación de paquetes al primer módulo MOD1. El primer módulo MOD1 comprende esencialmente un controlador de llamada CONT y un generador de instrucciones GEN.

Más particularmente en el primer módulo MOD1, el flujo de datos se transmite al controlador de llamada CONT. Este controlador de llamada CONT gestiona la entrada y la salida de los datos intercambiados entre la red telefónica de conmutación de paquetes y el primer módulo MOD1, según el protocolo SIP. Trata las funciones de establecimiento y de supervisión de la llamada vocal. Gestiona la identificación única de la llamada en el sistema de aplicación, y todas las funciones del protocolo SIP. Por un usuario dado, transfiere al generador de instrucciones GEN las instrucciones INST2 que se refieren a los eventos. Este generador de instrucciones GEN detecta que, en el extremo de la línea, el usuario UTI ha producido un evento dado, tal como pulsar una tecla “*” de su teléfono, y traduce esta información que corresponde a la instrucción INST2 en una instrucción INST2’ que transmite al segundo módulo MOD2.

Este segundo módulo MOD2 comprende principalmente una aplicación de software AL escrita en un lenguaje interpretado o compilado de alto nivel. Esta aplicación de software AL puede haberse desarrollado para proporcionar un servicio a través de la red de Internet y por lo tanto no está necesariamente adaptada para recibir instrucciones propiamente vocales. La aplicación de software está destinada en general a interaccionar con la red RESP utilizando un protocolo de transmisión de datos no específicamente de audio, por ejemplo el protocolo IP (sigla de la expresión anglosajona “Internet Protocol”). Es por esto que este segundo módulo MOD2 contiene además, un submódulo de inserción SM. El módulo de inserción SM añade en caso necesario instrucciones adicionales INSTA a las instrucciones INST2’ para poder utilizar en el código del lenguaje de alto nivel las instrucciones INST2 que son especificas del ámbito vocal.

Gracias al submódulo de inserción SM, una unidad de lectura de instrucciones LINST de la aplicación de software es capaz de entender la instrucción INST2’ emitida por el generador de instrucciones GEN, y puede así activar tareas programadas en el lenguaje de alto nivel desarrollado para aplicaciones no específicamente vocales. Más particularmente, el submódulo de inserción SM se superpone a la aplicación de software AL, y asocia a la misma elementos de programa específicamente vocales escritos en el código de lenguaje de alto nivel y capaces de decodificar las instrucciones INST2’ traducidas por el generador de eventos GEN, por ejemplo mediante líneas de comando comprendidas entre separadores de tipo <VOCAL> y </VOCAL>. Este elemento puede además separarse en varias partes repartidas en varios ordenadores del sistema de aplicación, o poner en práctica funciones de sistema para que sustituyan parcialmente a éste.

Así, según un ejemplo de funcionamiento de la invención, una aplicación de software AL se programa previamente, por ejemplo en lenguaje PHP. El lenguaje de programación se recompila con el fin de permitir utilizar elementos de programa específicamente vocales, tal como por ejemplo un comando at_prompt(). Un comando de este tipo permite la recepción de una señal DTMF.

Por ejemplo, en un caso dado, la aplicación de software preexistente hacía que se visualizara en la pantalla de ordenador de un usuario remoto un menú en el que el usuario podía acceder a una de entre varias funciones de la aplicación de software según un carácter tecleado en el teclado. Basándose en la aplicación de software preexistente, un programador puede asociar el elemento de programa siguiente a la aplicación de software: el comando $tecla= at_prompt(). La variable “tecla” (la instrucción INST2’) adoptará el valor de la tecla pulsada por el usuario. Se accederá a la función correspondiente de la aplicación de software según el valor de la variable “tecla” igual que se accedía a la misma anteriormente cuando el usuario pulsaba la tecla correspondiente de su teclado. Así, no es necesario desarrollar de nuevo la función en cuestión específicamente para le aplicación IVR, ya que puede utilizarse la función preexistente de la aplicación de software.

Además, el sistema puede detectar si el usuario accede a la aplicación de software por teléfono o de otra manera, en cuyo caso la variable “tecla” adopta o bien el valor proporcionado por el teclado (este elemento de programa preexistente en la aplicación de software) o bien el valor proporcionado por el teléfono (estando este elemento de programa asociado en el submódulo SM).

La aplicación de software AL puede así tratar estas instrucciones INST2’ y proporcionar la respuesta al evento producido por el usuario UTI.

Dado que la aplicación de software AL en lenguaje de alto nivel no se ha desarrollado necesariamente para proporcionar una información específica del ámbito vocal, es eventualmente necesario volver a pasar por el submódulo de inserción SM para proporcionar a través de una unidad de envío de instrucciones de emisión de sonidos EINST, una instrucción INSTS’ que se transmite entonces a una unidad de emisión de sonidos EMI, en el primer módulo MOD1. Eventualmente, se añaden instrucciones adicionales INSTA’ a las instrucciones INSTS’. La unidad de emisión de sonidos EMI puede, en función de las instrucciones INSTS’ buscar en una base de datos (no representada) elementos de sonidos, y codificarlos con el fin de transmitir al controlador de llamada CONT los elementos de sonidos codificados para su transmisión en la red telefónica. El controlador de llamada CONT recupera estos elementos de sonidos codificados, y en función de la identidad del usuario UTI, transmite a este usuario las informaciones INSTS relativas al evento que había inicialmente producido.

Así, en un ejemplo, la aplicación de software preexistente hacía que se visualizara en la pantalla de ordenador de un usuario remoto de la red un mensaje de confirmación de tipo “Su mensaje se ha grabado”. El lenguaje de programación se ha recompilado para que el programador pueda asociar a la aplicación de software elementos de programa específicamente vocales, tal como por ejemplo un comando at_play(fichero_sonido.al). Un comando de este tipo permite ordenar la lectura de un fichero de sonido de tipo corriente. Basándose en la aplicación de software preexistente, un programador puede asociar a la aplicación de software, en el sitio deseado, un elemento de programa que comprende el comando at_play(confirmación.al), citando el fichero_sonido_confirmación.al cita “Su mensaje se ha grabado”.

Pueden asociarse muchos otros comandos a la aplicación de software en el marco de la invención. Puede preverse en particular que, cuando un usuario remoto cuelga su teléfono, se actualicen los datos relativos a este usuario en una base de datos.

Con la ayuda de un programa ejecutable, por ejemplo desarrollado en C++, el lenguaje de programación en el que se ha desarrollado la aplicación de software se modifica para que el lenguaje de programación pueda incluir comandos adicionales tales como el comando at_play(fichero.al) o el comando at_prompt() u otros. A partir de la aplicación de software preexistente, se construye entonces fácilmente una aplicación IVR, asociando un submódulo SM que contiene entre otros los elementos de código de programa asociados específicamente vocales.

La figura 2 representa un ejemplo sencillo de sistema de aplicación SYST según la invención, que permite reenviar uno o varios sonidos a uno o varios usuarios UTI en respuesta a un evento producido por el o los usuario(s) UTI.

El sistema de aplicación según la invención puede aplicar un conjunto de otras funciones, tales como las representadas en la figura 3. Como se representa en la figura 3, además de los elementos del sistema de aplicación SYST ya descritos, el sistema de aplicación SYST está perfectamente adaptado para permitir al usuario UTI generar eventos no exclusivamente producidos por pulsaciones de teclas de teléfono. También puede tratar datos que corresponden por ejemplo a selecciones con la ayuda de un ratón en una página de un documento formateado en HTML (sigla de la expresión anglosajona Hyper Text Markup Language) visualizado en una pantalla de ordenador o sonidos puramente vocales emitidos por este usuario UTI.

En el caso de instrucciones vocales, los sonidos se captan por ejemplo en el terminal telefónico del usuario UTI, y se transmiten a continuación por la red telefónica a una unidad de recepción de sonidos URS integrada en el primer módulo MOD1. Los sonidos emitidos por un usuario UTI, son por ejemplo palabras pronunciadas por este usuario UTI. La unidad de recepción de sonidos URS puede entonces por ejemplo incluir una unidad de reconocimiento vocal REC que pueda reconocer las palabras pronunciadas por el usuario UTI y, en función del resultado de este reconocimiento, transmitir una instrucción INST2’ a una unidad de instrucciones de grabación RINST. Eventualmente, a la instrucción INST2’ se asocian instrucciones adicionales INSTA generadas por el submódulo de inserción SM, para que la unidad de instrucción de grabación RINST pueda leer esta instrucción INST2’ a través de su submódulo de inserción SM.

De manera análoga, este sistema de aplicación SYST también puede gestionar funciones tales como transferencias de llamadas, con la ayuda de una unidad de transferencia de llamada TRA y de una unidad de instrucciones de transferencias TINST. Estas funciones se aplican a partir de instrucciones análogas a las instrucciones INST2’ y INSTA ya descritas. Se trata de una opción que permite transmitir al controlador de llamada CONT informaciones que permiten gestionar una transferencia de llamada y soportadas por el protocolo de voz en la red, SIP por ejemplo.

El sistema de aplicación según el ejemplo descrito en el presente caso permite también, y de la misma manera, establecer una conferencia entre las llamadas de varios usuarios UTI, a petición suya, con la ayuda de una unidad de establecimiento de conferencia CONF, y de una unidad de instrucciones de conferencia CINST.

Una alternativa al ejemplo de funcionamiento de la invención descrito anteriormente se describe en la figura 4. Un usuario o un grupo de usuarios UTI intenta acceder a un servicio, tal como uno de los servicios anteriormente mencionados, proporcionado por un proveedor de servicios a través de una red RESC. La aplicación de software AL que puede responder a este servicio se dispone en un servidor remoto SERV, por ejemplo a base de procesadores INTEL. Este servidor funciona con un sistema operativo WINDOWS, UNIX o LINUX y comprende, además del sistema de aplicación SYST descrito anteriormente, un sistema SYST2 que controla otras funciones del servidor SERV. El servicio al que el usuario UTI desea acceder puede proporcionarse, en un formato no vocal, por ejemplo en lenguaje PHP por la aplicación de software AL.

Un evento generado por un usuario UTI, por ejemplo con la ayuda de su auricular telefónico, se transmite, como se ha explicado anteriormente, a través de la red telefónica conmutada RESC, a una pasarela de medios MED y una red de conmutación de paquetes RESP hasta el servidor SERV que aloja la aplicación. En el presente ejemplo, la red de conmutación de paquetes RESP es por ejemplo la red de Internet. El servidor SERV está conectado a la red RESP por una interfaz de red Ethernet IR clásica.

El flujo de datos que llega, como se ha explicado anteriormente, se trata por un primer módulo MOD1 que gestiona todos los aspectos relativos a la comunicación, y transmite al segundo módulo MOD2, instrucciones INST2’ relativas a los eventos generados por el usuario en la aplicación de software AL a través del submódulo SM, que transforma estas instrucciones INST2’, por ejemplo gracias a un software ejecutable en C++, en lenguaje PHP 4.2.2 recompilado con el fin de poder integrarlas en la aplicación de software AL, que está a su vez en lenguaje PHP. La aplicación de software AL, en respuesta a las instrucciones INST2’ efectúa tareas apropiadas. En particular, puede reconstituirse una respuesta vocal a partir de datos memorizados en la base de datos DATA. La aplicación de software AL también puede producir otras funciones concretamente en interacción con otros servidores remotos SERV2 y/o bases de datos remotas DATA2 accesibles por Internet, por ejemplo.

El segundo módulo MOD2 puede transmitir de vuelta al primer módulo MOD1 instrucciones de salida INSTS’. El primer módulo emite directamente en la red de conmutación de paquetes RESP, con la ayuda del protocolo de voz en red SIP, en forma de respuesta vocal, informaciones relativas a los eventos generados por el usuario UTI.

Además, en función del flujo de datos generados por el usuario UTI, el sistema SYST2 puede por ejemplo comunicar datos propios del usuario a la base de datos remota DATA2, a través de la red RESP.

Claims

REIVINDICACIONES

1. Procedimiento de tratamiento de un flujo de datos que comprende datos de audio (INST2) intercambiados en una red entre un servidor (SERV) y al menos un terminal telefónico, correspondiendo el flujo de datos a una llamada telefónica emitida desde este terminal durante la cual un usuario (UTI) ha producido al menos un evento, comprendiendo este procedimiento:

-

una etapa a) que consiste en extraer del flujo de datos correspondiente a cada llamada telefónica, datos de audio (INST2) correspondientes a cada evento, y

-

una etapa b) que consiste en ejecutar al menos una tarea relativa a los datos de audio (INST2) extraídos y que puede ejecutarse por una aplicación de software (AL),

caracterizado porque la aplicación de software (AL) está programada en un lenguaje desarrollado para aplicaciones no específicamente vocales, y está destinada a interaccionar con la red utilizando un protocolo de transmisión de datos no específicamente de audio, y porque el procedimiento comprende una etapa c) que comprende la introducción en esta aplicación de software (AL), mediante elementos de programa específicamente vocales escritos en dicho lenguaje, y asociados a la aplicación de software por un submódulo de inserción, de al menos una instrucción (INST2’) relativa a los datos de audio INST2) extraídos y adaptada para activar la etapa (b).
2.

Procedimiento según la reivindicación 1, caracterizado porque la aplicación de software (AL) se escribe en un lenguaje, y en el que los elementos de programa específicamente vocales asociados a la aplicación de software se escriben en el mismo lenguaje.
3.

Procedimiento según la reivindicación 1 o la reivindicación 2, caracterizado porque el evento se produce por la pulsación por parte de un usuario (UTI) de al menos una tecla de terminal telefónico.
4.

Procedimiento según una de las reivindicaciones anteriores, caracterizado porque el evento se produce por la dicción de un comando vocal pronunciado por el usuario (UTI), y la etapa a) comprende una etapa que consiste en reconocer el comando vocal pronunciado, con la ayuda de una unidad de reconocimiento vocal (REC).
5.

Procedimiento según una de las reivindicaciones anteriores, caracterizado porque la aplicación de software está adaptada para ejecutar tareas equivalentes en términos de servicios prestados al usuario (UTI), a la vez a través de una red de Internet o Intranet (RESP) y a través de una red telefónica (RESC).
6.

Procedimiento según una de las reivindicaciones anteriores, caracterizado porque comprende además una etapa a’) que consiste en gestionar la evolución de la llamada telefónica a partir de datos no de audio extraídos del flujo de datos.
7.

Procedimiento según una de las reivindicaciones anteriores, caracterizado porque comprende además la etapa d) que consiste en emitir en la red, mediante un protocolo de transmisión de datos de audio en red, datos de audio (INSTS) de salida en respuesta a al menos un evento producido por el usuario (UTI).
8.

Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado porque la aplicación de software se programa en lenguaje PHP o Javascript.
9.

Sistema de tratamiento de un flujo de datos caracterizado porque comprende datos de audio (INST2) intercambiados en una red entre un servidor (SERV) y al menos un terminal telefónico, correspondiendo el flujo de datos a una llamada telefónica emitida desde este terminal durante la cual un usuario (UTI) ha producido al menos un evento, comprendiendo este sistema:

-

medios de extracción (MOD1) de datos de audio (INST2) correspondientes a cada evento del flujo de datos correspondiente a cada llamada telefónica, y

-

medios de ejecución (MOD2) para ejecutar al menos una tarea relativa a los datos de audio (INST2) extraídos y que pueden ejecutarse por una aplicación de software (AL), caracterizado porque la aplicación de software (AL) se programa en un lenguaje desarrollado para aplicaciones no específicamente vocales, y está destinada a interaccionar con la red utilizando un protocolo de transmisión de datos no específicamente de audio, y porque el dispositivo comprende medios de introducción (SM) en esta aplicación de software (AL), de al menos una instrucción (INST2’) relativa a los datos de audio (INST2) extraídos y adaptada para leerse y ejecutarse por los medios de ejecución, comprendiendo los medios de introducción (SM) elementos de programa específicamente vocales escritos en dicho lenguaje, y asociados a la aplicación de software.
10.

Sistema según la reivindicación 9, caracterizado porque dichos medios de extracción (MOD1), de ejecución (MOD2) y de introducción (SM) se integran en el servidor (SERV) y este servidor (SERV) comprende al menos un ordenador.
11.

Sistema según la reivindicación 9 ó 10, caracterizado porque el servidor (SERV) comprende medios de tratamiento de datos digitales incluidos en la lista siguiente:

-

una unidad de reconocimiento vocal (REC) para reconocer comandos vocales pronunciados por al menos un usuario (UTI),

-

una unidad de control de llamada (CONT) para extraer, del flujo de datos correspondiente a cada llamada telefónica, datos no de audio correspondiente a la llamada telefónica,

-

una unidad de emisión (EMI) para emitir en la red, mediante un protocolo de transmisión de datos de audio en red, datos de audio de salida (INSTS) correspondientes a al menos un evento,

-

una unidad de transferencia de llamadas (TRA) para gestionar las transferencias de llamada de al menos un usuario,

-

una unidad de lectura (LINST) para leer al menos una instrucción relativa a los datos de audio extraídos (INST2’),

-

una unidad de instrucciones de transferencia de llamadas (TINST) para efectuar una transferencia de llamadas, y

-

una unidad de instrucciones de establecimiento de conferencia (CINST) para efectuar un establecimiento de conferencia de al menos dos llamadas con la ayuda de datos no de audio correspondientes a cada llamada telefónica.
12.

Sistema según una de las reivindicaciones 9 a 11, caracterizado porque comprende además una base de datos de audio (DATA).
13.

Programa de ordenador para el tratamiento de un flujo de datos caracterizado porque comprende datos de audio (INST2) intercambiados en una red entre un servidor (SERV) y al menos un terminal telefónico, correspondiendo el flujo de datos a una llamada telefónica emitida desde este terminal durante la cual un usuario (UTI) ha producido al menos un evento, comprendiendo este programa de ordenador partes de código de programa para la ejecución de las etapas del procedimiento según una cualquiera de las reivindicaciones 1 a 8 cuando dicho programa se ejecuta por un ordenador.
14.

Procedimiento de preparación de un programa de ordenador caracterizado porque ejecuta al menos una tarea relativa a datos de audio (INST2) extraídos de un flujo de datos que comprende datos de audio (INST2) intercambiados en una red entre un servidor (SERV) y al menos un terminal telefónico, correspondiendo el flujo de datos a una llamada telefónica emitida desde este terminal durante la cual un usuario (UTI) ha producido al menos un evento, correspondiendo los datos de audio (INST2) a este evento, caracterizado porque dicha tarea puede ejecutarse por una aplicación de software (AL) programada en un lenguaje desarrollado para aplicaciones no específicamente vocales y está destinada a interaccionar con la red utilizando un protocolo de transmisión de datos no específicamente de audio, y porque el procedimiento comprende una etapa en la que se asocia a la aplicación de software (AL) un submódulo de inserción (SM) que comprende elementos de programa específicamente vocales, escritos en dicho lenguaje, y adaptados para introducir en la aplicación de software (AL) una instrucción (INST2’) relativa a los datos de audio (INST2) extraídos y adaptada para activar la ejecución de dicha tarea.
15.

Procedimiento según la reivindicación 14, caracterizado porque la aplicación de software se programa en lenguaje PHP o Javascript.