ES2302640B1 - Sistema para la interaccion mediante voz en paginas web. - Google Patents

Sistema para la interaccion mediante voz en paginas web. Download PDF

Info

Publication number
ES2302640B1
ES2302640B1 ES200700013A ES200700013A ES2302640B1 ES 2302640 B1 ES2302640 B1 ES 2302640B1 ES 200700013 A ES200700013 A ES 200700013A ES 200700013 A ES200700013 A ES 200700013A ES 2302640 B1 ES2302640 B1 ES 2302640B1
Authority
ES
Spain
Prior art keywords
voice
server
web page
web
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
ES200700013A
Other languages
English (en)
Other versions
ES2302640A1 (es
Inventor
Juan Jose Bermudez Perez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to ES200700013A priority Critical patent/ES2302640B1/es
Priority to US12/520,654 priority patent/US20100094635A1/en
Priority to PCT/ES2007/000692 priority patent/WO2008074903A1/es
Publication of ES2302640A1 publication Critical patent/ES2302640A1/es
Application granted granted Critical
Publication of ES2302640B1 publication Critical patent/ES2302640B1/es
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Sistema para la interacción mediante voz en páginas Web, de los que permiten la incorporación de funciones de tratamiento de la voz en una página Web, en que partiendo de un Terminal (1), una pagina Web (3) de un sitio Web estructurada bajo el modelo DOM (Modelo de Objetos de Documento), o cualquiera de sus extensiones, y un Servidor (5) de Servicios de Voz en la red, por medio de un módulo (6) descargable para su incorporación en un navegador Web, incluyendo el sistema los procedimientos operativos para que dicho módulo actúe como pasarela transparente en un diálogo entre dicho Servidor de Servicios de Voz (5) y dicha página Web (3), permite gestionar dichos servicios de voz de dicho Servidor (5) mediante funciones script incorporadas a dicha página Web (3).

Description

Sistema para la interacción mediante voz en páginas Web.
Campo de la invención
La presente invención tiene por objeto un sistema para la interacción mediante voz con páginas web, del tipo que permiten mediante sentencias orales que un navegador responda a las mismas modificando su contenido, visible o no, con la particularidad de que está configurado a partir de un módulo descargable que codifica la voz del usuario y enlaza con un servidor de voz que devuelve a la página web y al terminal del usuario la información procesada relacionada con la operación de voz realizada, y que permite entre otras funciones el reconocimiento de instrucciones habladas, decodificar la voz para textos, identificar al usuario, almacenamiento de mensajes de voz, interacción hablada, etc.
Antecedentes
En la interacción con un usuario de un terminal que mediante un navegador accede a una página Web de un sitio Web, a menudo se nota a faltar la agilidad que proporcionaría poder comunicarse con el navegador mediante la voz. Ello que es incuestionablemente necesario en personas con alguna discapacidad en las manos o con dificultades de visión, es en general deseable para todos los usuarios.
Con este motivo, para aportar esa demanda de los usuarios, se trabaja desde diferentes ámbitos de la técnica para proporcionar una tal funcionalidad a los navegadores, y de hecho existen diferentes documentos que inciden en éste campo.
Por ejemplo, WO02/073599 desarrolla un método persiguiendo utilizar la voz para dirigir el uso del navegador Web. En una explicación sucinta dicho documento establece una máquina de estados asociada a la página Web, de forma que no es necesario realizar cambios a las páginas existentes y a sus correspondientes archivos de visualización.
Tal como se describe en dicho documento cuando el cliente conecta a la página Web se le transfiere el software almacenado en el servidor que le permite al cliente la síntesis de la voz y el reconocimiento de caracteres a emplear.
Por el lado del sitio Web, dicho método implica la existencia de una estructura de árbol de ficheros de configuración de voz que es paralela a la de las páginas del sitio Web. Los ficheros de configuración de voz comprenden estados representando la interacción entre el usuario y la página. Cada estado de dicha interacción comprende cinco secciones: ASR (Automatic Speech Recognition - Reconocimiento automático de la voz), CMD (los comandos), TTS (Text-to-Speech: Texto a discurso o síntesis de la voz), ADV (mensajes de advertencia orales), MOV (comandos de movimiento de un gráfico animado de tipo Avatar).
Por su parte, WO99/48088 desarrolla un sistema y método para implementar el control mediante voz de un navegador Web sobre un ordenador inalámbrico. La página Web es precompilada en el servidor para generar una gramática de habla que es transmitida con el documento Web al ordenador inalámbrico.
Existen y se conoce su aplicación, navegadores que incorporan entre sus funcionalidades que el usuario pueda ordenar sus acciones mediante voz, como el navegador Opera versión 9.02 (© Opera Software ASA) que utiliza el "IBM Multimodal Runtime Environment". "Ir a", "Cerrar", "siguiente" y otras órdenes por el estilo, concretamente en inglés, permitirían al navegador reaccionar en el sentido deseado por el usuario. Esta funcionalidad no sólo existe en la actualidad en navegadores Web para PC, también es conocida para entornos aplicativos de diferente índole, como en los menús de móviles, o en manos libres de diferente finalidad, en que el usuario los acciona mediante órdenes orales que el dispositivo o el programa en cuestión coteja con un registro previamente realizado de dicha orden y si coincide, la ejecuta.
Naturalmente proporcionar una interacción de voz más sofisticada en una página Web aumenta en complejidad en la medida que se contemplan más acciones de voz. En los sitios Web, por lo demás, sería deseable que mediante voz se pudieran instruir acciones más complejas que la simple navegación, del tipo por ejemplo de "muéstrame los títulos más interesantes de tu catálogo". La presente invención, en consecuencia pretende abordar esta problemática proporcionando un sistema que permita una interacción compleja entre el usuario y el navegador en una página Web y que no se limite a la navegación por la misma, evitando para ese fin una tediosa confección de la propia página Web o la posesión de software especializado por parte del Terminal cliente.
Así, es el objeto principal de la presente invención el proporcionar un sistema para la interacción mediante voz en páginas web basado en un módulo descargable que actúa como pasarela transparente con un servidor remoto de servicios del habla, de forma que dicho sistema permita ejecución de acciones asociadas al tratamiento de la voz relativas al sitio Web y la página Web visitada.
Es otro de los objetivos de la presente invención dotar al diseñador o desarrollador de la página Web de un protocolo para establecer las reglas de decisión sobre las interacciones de voz entre el usuario y la página Web, permitiendo de esta manera una mayor adecuación de los servicios de la página a las capacidades de la tecnología.
Y es otro de los objetivos principales de la presente invención proporcionar un sistema que permita la interacción concurrente de múltiples usuarios sobre una página Web de forma que en dicha página no deban estar configurados todos los estados correspondientes a las eventuales peticiones de los usuarios, pudiendo ser éstas independientes de la configuración de la página Web que es, de acuerdo a la presente invención, capaz de manejarlas.
Estos y otros objetos de la presente invención serán más evidentes a lo largo de la descripción de la misma que se incluye en la presente memoria.
Breve descripción de la invención
La presente invención tiene como objeto un sistema para la interacción mediante voz en páginas web, del tipo que permiten mediante el discurso de un usuario que un navegador responda a sus peticiones modificando el contenido de la información que exhibe o de cualquiera de sus parámetros internos.
El sistema consta de un terminal, entendiendo en la presente invención bajo el concepto de terminal cualquier dispositivo capaz de mostrar en unos medios de visualización el contenido de una página Web, incluyendo en consecuencia ordenadores, móviles, ordenadores de mano, portátiles, televisiones digitales, etc.
Un módulo descargable que incorpora las operativas necesarias de cada terminal para que la voz captada del usuario sea interpretada y codificada, para su retransmisión en la red, incluyendo un identificativo del usuario tal como su IP y la página visitada.
Una o una pluralidad de páginas Web de un sitio Web que cuyo contenido estructurado mediante estándares como el modelo DOM, incorporan medios para la acreditación de utilización del Sistema de la presente invención, funciones a realizar asociadas con los resultados de las instrucciones del habla y llamadas a procedimientos de voz vinculadas a elementos de dicha página Web con la transmisión de parámetros convenientes a cada una de ellas.
Un servidor de servicios del habla que recibe la petición de servicio de voz de dicho módulo descargable mediante la recepción desde dicha Terminal de mensajes de audio codificados y comprimidos por dicho módulo, y que dispone de las operativas necesarias para interpretar el mensaje y actuar de acuerdo a una serie de acciones configuradas en dicho servidor relacionadas con las instrucciones de aplicación o contexto recibidas con dicho discurso.
El servidor de voz utiliza recursos de IA (Inteligencia Artificial) para responder adecuadamente cada flujo de datos y función solicitada recibidas de cada usuario, terminal y pagina Web, de forma que se transmiten instrucciones oportunas a dicho módulo de voz descargable para que por medio de la API del SO del terminal o mediante la correspondiente estructura de información DOM existente en el navegador, se ejecute el script adecuado en la página Web en respuesta a la interacción de voz realizada.
Breve explicación de los dibujos
Para facilitar la comprensión de la memoria, se acompaña a la misma con dibujos de la invención, aportados a titulo meramente ilustrativo, y sin que dichos dibujos puedan representar una limitación del objeto inventivo de la misma. A lo largo de dichos dibujos los mismos números designan los mismos elementos.
La figura 1 muestra una representación esquemática de las partes del sistema de la invención en su relación mutua.
La figura 2 representa un diagrama de bloques que ilustran parcialmente el flujo de procesos que se desarrollan en la presente invención entre las partes que integran el sistema.
La figura 3 desglosa en un diagrama de bloques el flujo de proceso relativo a una caso de realización práctica en que el sistema de la invención es utilizado para demandar un servicio remoto de tratamiento de voz, representando el caso más general de utilización de la invención.
La figura 4 detalla, en referencia al proceso descrito en la figura anterior, la interacción de mensajes posible entre el módulo de voz descargable y la página Web, de acuerdo al sistema descrito en la presente invención.
Explicación detallada de la invención
Consiste la invención en un sistema para la interacción mediante voz en páginas Web, del tipo que permiten mediante sentencias orales que un navegador responda a las mismas modificando su contenido, visible o no.
El sistema incluye un Terminal (1) capaz de visionar y navegar en páginas Web (3) de un sitio Web por medio de un navegador, siendo el navegador uno entre cualquiera de los conocidos de la técnica. El concepto de Terminal (1) utilizado en la presente invención es más amplio que el convencional de PC de sobremesa y no se limita al mismo. De hecho se considera comprendido en esta caracterización cualquier soporte capaz de mostrar y conducir páginas Web, como por ejemplo ordenadores de mano, portátiles, teléfonos móviles, televisiones digitales, consolas de juego,
etc.
Dicho Terminal (1) dispone de medios, tipo micrófono, para la captación de la voz del usuario y para la reproducción de sonido, llamados en adelante medios de captación y reproducción de sonido (2).
El navegador del Terminal (1) accede por medio de cualquier red global de comunicaciones, en la realización preferida de la invención: Internet, a un sitio Web del que recibe páginas Web (3) que dicho Terminal (1) muestra para el usuario del mismo en su navegador.
Dicha página Web, para que el usuario pueda interaccionar mediante voz de acuerdo al sistema descrito en la presente invención, dispone su contenido estructurado mediante un modelo tipo DOM, incluyendo un certificado de implementación de la presente invención, funciones mediante lenguaje tipo script o equivalente asociadas a la interacción de la voz y listas para responder a la interacción de voz, y uno o una pluralidad de elementos que se configuran solicitando recursos de voz.
El sistema de la invención incluye un módulo de voz (6) descargable como un recurso existente en la Web y que se asocia al navegador cómo un módulo o plugin del mismo. Dicho módulo (6) contiene los procedimientos operativos necesarios para la codificación del discurso del usuario y su transmisión en la red en combinación con algún dato identificativo del Terminal (1), convencionalmente la IP de dicho Terminal (1), instrucciones de contexto asociadas al tratamiento de voz, la gramática a utilizar, etc.
De esta forma cuando el usuario accede a una página Web (3) destinada a ser utilizada de acuerdo con la presente invención, el Navegador es interrogado por la presencia de dicho módulo (6) y para su instalación opcional en caso de que no esté instalado. Todo ello en la forma convencional mediante cualquier script embebido en la página Web (3) o cualquier procedimiento alternativo conocido.
Cuando el usuario desde sus medios de captación y reproducción de sonido (2) da instrucciones al Navegador, el módulo (6) realiza la codificación de dicho discurso oral, realizando una compresión del mismo, pudiendo utilizar para ello algoritmos conocidos de compresión de audio y destinados a su óptima transmisión por la red. Previo al proceso de transmisión a la red de dicho discurso comprimido, dicho módulo (6) realiza un empaquetado del mismo asociándolo a dicho identificativo en la red de dicho Terminal (1), en que suele usarse por su sencillez la dirección IP en la red del Terminal pero que podría substituirse por cualquier identificación, incluso una llave de suscripción al servicio de voz sin que la invención quede alterada por ello.
El empaquetado mencionado incluye también la página Web (3) a que va destinada la instrucción del usuario. Convencionalmente dichas páginas pueden identificarse mediante una ruta partiendo de una dirección de la red, a la que se añade una subruta que apunta a la página referenciada.
En la realización preferente en que la red global es Internet, el protocolo de transmisión del empaquetado, o en términos más precisos, del grupo de bloques a transmitir es el TCP/IP. Dichos bloques o empaquetado es dirigido a un Servidor de voz (5) para su procesado. Dicho servidor de voz (5) puede ser un único servidor o un cluster de servidores ubicados en situaciones geográficas distintas y con direcciones de nodos distintos de la red global. En una de las realizaciones posibles de la invención, es el mismo servidor del sitio Web (4) quien realiza las funciones de servidor de voz (5).
El servidor de voz (5) efectúa por su parte una decodificación del discurso recibido interpretando el contenido del mensaje estipulado por el usuario del Terminal (1). De hecho el mensaje transmitido por dicho módulo de voz (6) incorporaba además del flujo codificado de la voz, instrucciones de contexto para la interpretación del mismo. De modo que el Servidor de voz (5), en primer lugar, identifica de acuerdo con dicho contexto, es decir la función que se le ha solicitado, el conjunto de programas adecuados para efectuar el procesado de la información.
El mensaje podía consistir en órdenes simples de navegación, al estilo de las conocidas de la técnica previa: "Adelante", "Atrás", etc., o en alguna palabra destinada a identificar a un usuario, o simplemente en un mensaje de bienvenida para su almacenamiento y extracción posterior... También puede consistir dicho mensaje en operaciones más complejas relacionadas con una página Web (3) determinada. Por ejemplo, en una página Web (3) de un sitio Web dedicado a las ventas de automóviles el usuario bien pudiera responder a un ofrecimiento general de ayuda mediante medios multimedia insertados en dicha página, al estilo de "¿Quiere información sobre algún vehículo?", con una petición general tal como "Enséñame los últimos modelos".
Existe en este punto, desde el punto de vista de la presente invención dos problemas técnicos importantes a resolver para afrontar una pregunta de índole compleja y hacerlo además en un entorno concurrente, de una pluralidad de usuarios, en una red global, como es el caso de Internet.
El primer problema está relacionado con la "interpretación" del discurso de usuario. Afortunadamente, es éste un problema técnico conocido que si bien no tiene una solución absolutamente satisfactoria, permite mayores niveles de eficacia cuando el entorno de trabajo de los agentes que deben interpretar la oración están delimitados de antemano, en este caso referidos a una página Web determinada con un vocabulario y gramática conocida.
La invención utiliza cualquiera de los medios conocidos para decodificar el discurso proveniente del Terminal (1). En concreto, la digitalización de sonido y su análisis, el análisis biométrico de patrones de voz, etc. Como resultado de este análisis el Servidor de voz (5) es capaz de transformar el discurso del usuario que le ha llegado en versión comprimida y empaquetada, en una matriz de datos con información del Terminal (1) de origen, la página Web (3) referenciada, y una frase u oración del usuario con su instrucción.
El Servidor de Voz (5) por medio de agentes de IA implementados en el sistema analiza mediante funciones ASR (Automatic Speech Recognition - Reconocimiento Automático del Discurso) como las mencionadas anteriormente el discurso recibido y lo interpreta en el sentido de construir a partir de él un juego de instrucciones o "datos de módulo" (de acuerdo a la representación de la figura 2) que serán transmitidos de vuelta al Terminal (1) destinados a dicho módulo (6) incorporado al Navegador.
Esta transmisión de "datos de módulo" que se realiza a través de la red global, incorpora, empaquetada, información que incluye la ID del Terminal (1), normalmente la IP, la ID de la página Web (3) de referencia, y el conjunto de instrucciones que la instrucción del usuario ha significado.
Debe tenerse en cuenta que el procesado de la voz, de acuerdo al contexto solicitado, no siempre reporta un resultado totalmente fiable. De hecho el sistema trata el resultado asociado al contexto demandado como un dato y un margen de fiabilidad. En un ejemplo trivial, un usuario se identifica mediante la lectura de su nombre de usuario que los medios de voz del Terminal (1) registran y el módulo de voz (6) codifican. El Servidor de voz (5) puede ser incapaz de determinar la equivalencia del ID del usuario con la voz del mismo superando un margen de incertidumbre, ello en lógica pues no siempre pueden suprimirse todas las fuentes de perturbación asociadas a un contexto de voz: ruido de la sala,
poca claridad de la voz, etc. El resultado, en consecuencia, se ofrece asociado al margen de fiabilidad del mismo.
El módulo (6) actúa sobre el Navegador siguiendo, como ya hemos dicho, el modelo DOM, en cualquiera de sus estándares o extensiones conocidas. DOM es la abreviatura de "Document Object Model" (Modelo de Objetos de Documento) y es un estándar que mantiene el World Wide Web Consortium (W3C) de forma que se representen los elementos que forman un documento estructurado, como es el caso de una página Web, cualquier documento XML o XHTML. Dicho objetos de la página en el modelo DOM tienen sus propios métodos y propiedades que lo configuran como un API (Application Programming Interface - Interfaz de Programación de Aplicaciones), un conjunto de especificaciones de comunicación entre componentes, de forma que de forma dinámica se puede acceder a los contenidos de una página Web, y añadir y cambiar los elementos e información que contiene.
De este modo es fácil la interacción entre dicho módulo (6) y la página Web (3). Primero, para la recepción del certificado según el cual dicha página Web (3) cumple con el sistema de la presente invención. Segundo, para que dicha página informe al módulo (6) de que se inicia un procedimiento de voz asociado a un evento o contexto de la página determinado, como por ejemplo el reconocimiento de la identidad de un usuario mediante voz. Finalmente, para que en respuesta a la recepción de la misma de dicho módulo de voz (6) en la página Web (3), asociada a un proceso de voz, se ejecute el procedimiento correspondiente, como en el ejemplo podría ser aceptar dicha identidad y abrir su perfil personal en dicho Sitio Web.
El módulo (6) puede también utilizar la propia API de cada navegador en que ha sido instalado con objeto de alterar el contenido dinámico de la página o responder a órdenes relativas al propio navegador, como las sencillas de navegación.
En una de las realizaciones posibles de la invención, está prevista la posibilidad de que el módulo (6) actúe sobre la propia librería de funciones del sistema operativo para ejecutar acciones en el Terminal (1). Aunque en principio, y de acuerdo a la presente invención no existe limitación a las funciones accesibles del sistema operativo propio del Terminal (1), en la realización práctica predilecta dichas funciones están limitadas por cuestiones de seguridad, de forma que se eviten brechas de seguridad que permitan dañar el sistema en el Terminal (1).
El sistema de la invención podría ser utilizado para la incorporación de procedimientos complejos asociados con la voz, sin que sea necesario implementar los mismos ni en la página ni con software dedicado a ese fin en cada Terminal (1) cliente. El sistema de la invención proporciona una pasarela transparente a los servicios de voz de forma que los desarrolladores de páginas Web pueden incorporarlos en las mismas mediante un sublenguaje de interacción que utiliza la arquitectura DOM para comunicar al componente, plugin o módulo (6) y el navegador. El sistema permite a la página Web (3) guardar información de estado necesaria para la navegación de la cual se abstrae el servidor de voz (5), que se limita a ejecutar órdenes transmitidas desde dicho módulo (6) por la página Web (3).
De hecho, y tal como se ha explicado a lo largo de la presente memoria, una de las ventajas principales que representa la presente invención estriba en la posibilidad de que el usuario formule interacciones complejas que no son simplemente de entrada de datos sencillos de navegación o de manipulación de objetos de la página. En este caso descrito, la página Web incorpora en su estructura de elementos las propiedades de las que es posible obtener una respuesta compleja.
Un caso, aunque la invención no se limita al mismo, está configurado por un Avatar o figura animada que dialoga con el usuario de la página Web. El Avatar interroga al usuario y el usuario responde. Respuesta que puede tener sentido, ser malinterpretada o ser perfectamente procesada por el Servidor de Voz (5). Para que el Servidor de Voz (5) pueda interpretar convenientemente el discurso del usuario debe conocer también las funciones que vía DOM acepta la página Web (3) que origina el tráfico de mensajes.
De esta forma, en este tipo de páginas que requieren para su correcto funcionamiento el módulo (6), además de los scripts que requieren su presencia en el navegador utilizado, se transmiten en los empaquetados de las comunicaciones entre módulo (6) y Servidor de voz (5), el contexto y los elementos que pueden procesar las respuestas a las preguntas formuladas por la página.
Adicionalmente, el sistema incorpora en dicha transmisión una ID de suscripción que identifica en el Servidor de voz (5) una gramática propia del sitio Web donde se ubica dicha página Web (3) en orden a permitir el trabajo eficiente de los agentes IA que deben procesar el discurso del usuario.
La invención será más comprensible a través de la explicación de diferentes casos de realización práctica de la misma que se relacionan como meras aplicaciones y no en un contexto de limitación del alcance de la invención.
Llamada General de servicio remoto de voz
En el caso más general de utilización de la presente invención, y tal y como se representa en la figura 3, se solicita del sistema de la invención una procedimiento genérico de tratamiento de voz en el servidor de voz (5).
De acuerdo con el diagrama de bloques de la figura 3, el primer estadio del proceso consiste en verificar que la página Web dispone del certificado oportuno y por el cual se reconoce implementa el sistema propio de la presente invención. La página está estructurada mediante DOM, de modo que el módulo (6) obtiene con facilidad dicho certificado.
La página informa al módulo de voz (6) que se prepare para recibir instrucciones de voz asociadas con un procedimiento de voz, en este caso general sin especificar al que se asocia una gramática y un IDC (Identificador de Contexto).
El módulo de voz (6) reconoce el fin del discurso del usuario que ha captado mediante los propios medios de voz, un micrófono, en dicho Terminal (1).
Dicho módulo de voz (6) codifica y comprime el flujo de voz y lo transmite a dicho Servidor de voz (5) o servidor de procedimientos de habla, añadiendo información relativa al contexto del servicio de voz solicitado. Por ejemplo: identificar a un usuario, una entrada de un valor, una orden de navegación, una petición de un catálogo de productos, el almacenamiento de un mensaje de voz, etc.
El servidor de voz (5) y de acuerdo con la información recibida identifica, en primer lugar, los procedimientos operativos necesarios para tratar el servicio de voz solicitado. Transforma los datos, interpretándolos, de forma que el flujo comprimido de datos binarios recibidos se transforma en uno cualquiera de un conjunto de sentencias, órdenes o instrucciones posibles, ello en concordancia al servicio solicitado.
El servidor actualiza sus propias Bases de Datos (BD) tanto de inteligencia como estadísticas, de utilización del servicio, y envía la respuesta de regreso a dicho módulo de voz (6).
El módulo de voz (6) interpreta la respuesta y la envía a la página Web (3) que la procesa mediante los procedimientos o scripts que dicha página incorpora para el servicio solicitado. De hecho, el programador de la página Web (3) puede estipular un margen umbral de fiabilidad de la respuesta recibida por debajo del cual no la acepta como válida, arbitrando un procedimiento de verificación ulterior o en otro caso deteniendo en proceso. La respuesta de la página no tiene por que representar una modificación del contenido visible de la página, y en cambio implicar únicamente una variación de un parámetro interno.
En el caso más general, el script, que puede establecerse en principio por cualquier lenguaje de script conocido para páginas Web, como Python, JavaScript, Perl, Ruby, o llamadas a funciones del Servidor del Sitio Wetb (4), proporciona una acción de salida visible en la página Web (3) que ve modificado su contenido.
Servicio de identificación del locutor
En este caso práctico de realización, el sistema de la invención se utiliza para incorporar en una página Web (3) un medio de identificación de usuario mediante el reconocimiento de voz.
De forma similar al caso más general descrito anteriormente, la página Web (3) se identifica mediante el oportuno certificado según el cual cumple el estándar de la presente invención.
La página realiza una notificación de procedimiento al módulo (6) para un reconocimiento de locutor. La identificación del servicio demandado es vital en el sistema porque de otro modo el servidor de voz (5) no sabría qué hacer con el flujo de datos de la voz, e incluso fallaría en mayor medida en su descifrado al no disponer de una gramática de contexto con la que interpretar la voz.
Es por ese motivo que la página Web (3) transfiere también al módulo voz (6) los parámetros adecuados a la función de voz demandada. En este caso puede ser el ID del usuario a reconocer.
La página avisa de que empieza el procedimiento de captación de la voz.
El módulo de voz (6) reconoce, mediante sus propios procedimientos operativos, que el usuario ha terminado de hablar. Codifica y comprime el discurso recibido y junto con la información de contexto y el servicio solicitado, transmite toda esa información al Servidor de voz (5).
El servidor de voz, y visto que se le solicita identificar a un usuario de una ID determinada con uno parámetros de función concretos, determina, en primer lugar, los procedimientos operativos necesarios para realizar esa función, y los ejecuta. Naturalmente anota sus BD estadísticas de uso de servicio y alimenta su acervo de IA con la experiencia realizada. Envía, seguidamente, el resultado obtenido al módulo de voz (6) quien a su vez lo transmite de acuerdo a la arquitectura DOM de dicha página Web (3) a la función adecuada para tratamiento de la respuesta.
En este proceso particular de identificación de un usuario mediante la voz, es necesario que existan previamente codificados en algún lugar de la red accesible por el Servidor (5) los datos o registros de voz que permitan tal identificación asociados a dicho ID de usuario recibido. La respuesta a la petición de identificación que se formula con un margen de fiabilidad puede por ejemplo ser afirmativa.
La página Web (3), en consecuencia con esa identificación positiva efectúa los procedimientos que tiene previstos para dicho caso, de forma similar a como realizaría en cualquier otra identificación de usuario satisfactoria.
Servicio de almacenamiento de voz
Finalmente, otro caso de realización práctica posible en el sistema de la invención es el representado por la petición de un servicio de almacenamiento de voz, por ejemplo un mensaje de despedida o uno de bienvenida a una página Web (3), o una explicación, y que ésta reproducirá en determinados contextos.
En primer lugar, la página Web (3) es interrogada de si cumple la certificación según la presente invención. La página avisa al módulo (6) de la petición del servicio descrito de almacenamiento de voz y de que éste se inicia. El módulo (6) mediante los medios de captación de voz de dicho Terminal (1) registra la voz del usuario, detecta el final del discurso, lo codifica y comprime, transmitiéndolo a dicho Servidor de Servicios del Habla (5) junto con la petición del servicio y parámetros del contexto, que en éste caso podría ser el formato en que debe guardarse el fichero.
El servidor de voz transforma dichos datos, identifica el software que precisa y, en el ejemplo descrito, identifica el medio necesario para el almacenamiento de la voz en el formato de la misma que se le ha solicitado, como podría ser por ejemplo el MP3.
De regreso, el Servidor de voz (5) envía al navegador un código de resultado y un identificador del fichero generado. El módulo (6) obtiene los datos y mediante DOM informa a la página cargada en el navegador del resultado, en este caso del identificador del fichero.
La función script que recibe dicho identificador puede decidir, en un ejemplo posible, enviar un formulario a una página Web con entre otros datos el identificador del fichero generado para que la Web que recibe dicho formulario sepa que incluye un enlace a un fichero de audio externo almacenado en el Servidor (5) de servicios del habla y con el ID especificado.
Se sobreentiende, que se consideran comprendidos dentro de la presente invención cuantos detalles de forma o detalle no alteren en lo sustancial la esencia de la invención.

Claims (3)

1. Sistema para la interacción mediante voz en páginas Web, del tipo que permiten la incorporación de funciones de tratamiento de la voz en una página Web, tanto las dirigidas a funciones de navegación de un navegador como relacionadas con los elementos de información que dicha página web proporciona, y en general cualquier función posible en una página Web vinculada a un procedimiento que requiere la voz del usuario, caracterizado por comprender:
-
un Terminal (1), considerado en un sentido amplio que incluye PC, ordenadores de mano, móviles, televisiones digitales, consolas, etc., con medios para la navegación Web, como un navegador entre cualquiera de los conocidos, y que disponen de una plataforma multimedia con medios, tipo micrófono, de entrada y de reproducción de sonido (2)
-
una pagina Web (3), de un sitio Web, estructurada bajo el modelo DOM (Modelo de Objetos de Documento) o cualquiera de sus extensiones que cuando menos incluye una certificación de voz según el sistema de la presente invención, llamadas a funciones y servicios de voz, procedimientos y funciones en lenguaje de script de interpretación de los resultados de los servicios de voz, lenguajes de script de entre cualquiera de los posibles para una página Web
-
un módulo (6) descargable, como un recurso de la red, para su incorporación en un navegador Web, que incluye cuando menos los procedimientos operativos para reconocer el fin del discurso del usuario, medios para codificar y comprimir la voz, y los procedimientos operativos para transmitir tanto al navegador como a un Servidor de Voz (5) las instrucciones, parámetros y flujos de datos asociados a los servicios de voz solicitados
-
un Servidor (5) de Servicios de Voz, como suministrador de recursos independientes de cada página Web (3), que puede estar formado por un único servidor, un cluster de servidores o ser el mismo servidor (4) del sitio Web donde reside dicha página Web (3), y que recibe la línea de datos de voz transmitida por dicho módulo (6) a través de dicha red global y les aplica un conjunto de procedimientos operativos relacionados con cada servicio de voz que implementa dicho servidor (5), transformando dichos datos de entrada en unos Datos de Respuesta
-
los procedimientos operativos para los scripts de dicha página Web (3) que permiten interactuar a ésta con los servicios de voz que se solicitan de dicho Servidor de Voz (5), incluyendo cuando menos el envío de parámetros, el envío de petición de servicios, la recepción de los datos de los resultados interpretados de dicha interacción de voz y las acciones de respuesta en relación a dichos datos de respuesta.
2. Sistema para la interacción mediante voz en páginas Web, de acuerdo con la reivindicación 1, caracterizado porque dichos Datos de Respuesta proporcionados por dicho Servidor de Voz (5) incluyen el porcentaje de fiabilidad del resultado obtenido.
3. Sistema para la interacción mediante voz en páginas Web, de acuerdo con las reivindicaciones anteriores, caracterizado porque dicho módulo (6) incluye en dicho flujo de datos que transmite a dicho Servidor de Voz (5), entre otros datos, la "ID" de dicha Terminal (1); dicha ID estando formada por cualquier medio de clave que sirva para verificar la identidad de dicho Terminal (1) y/o de su usuario; incluyendo un medio de suscripción de dicha página Web (3) a un servicio de voz.
ES200700013A 2006-12-21 2006-12-21 Sistema para la interaccion mediante voz en paginas web. Expired - Fee Related ES2302640B1 (es)

Priority Applications (3)

Application Number Priority Date Filing Date Title
ES200700013A ES2302640B1 (es) 2006-12-21 2006-12-21 Sistema para la interaccion mediante voz en paginas web.
US12/520,654 US20100094635A1 (en) 2006-12-21 2007-11-30 System for Voice-Based Interaction on Web Pages
PCT/ES2007/000692 WO2008074903A1 (es) 2006-12-21 2007-11-30 Sistema para la interacción mediante voz en páginas web

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES200700013A ES2302640B1 (es) 2006-12-21 2006-12-21 Sistema para la interaccion mediante voz en paginas web.

Publications (2)

Publication Number Publication Date
ES2302640A1 ES2302640A1 (es) 2008-07-16
ES2302640B1 true ES2302640B1 (es) 2009-05-21

Family

ID=39536021

Family Applications (1)

Application Number Title Priority Date Filing Date
ES200700013A Expired - Fee Related ES2302640B1 (es) 2006-12-21 2006-12-21 Sistema para la interaccion mediante voz en paginas web.

Country Status (3)

Country Link
US (1) US20100094635A1 (es)
ES (1) ES2302640B1 (es)
WO (1) WO2008074903A1 (es)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US20090013255A1 (en) * 2006-12-30 2009-01-08 Matthew John Yuschik Method and System for Supporting Graphical User Interfaces
US8140340B2 (en) * 2008-01-18 2012-03-20 International Business Machines Corporation Using voice biometrics across virtual environments in association with an avatar's movements
US8473356B2 (en) 2008-08-26 2013-06-25 International Business Machines Corporation System and method for tagging objects for heterogeneous searches
US20120317492A1 (en) * 2011-05-27 2012-12-13 Telefon Projekt LLC Providing Interactive and Personalized Multimedia Content from Remote Servers
JP5710464B2 (ja) * 2011-12-27 2015-04-30 株式会社東芝 電子機器、表示方法、およびプログラム
US9400633B2 (en) * 2012-08-02 2016-07-26 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9292252B2 (en) * 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9781262B2 (en) 2012-08-02 2017-10-03 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9292253B2 (en) * 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US10157612B2 (en) 2012-08-02 2018-12-18 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US10978060B2 (en) * 2014-01-31 2021-04-13 Hewlett-Packard Development Company, L.P. Voice input command
US11188199B2 (en) 2018-04-16 2021-11-30 International Business Machines Corporation System enabling audio-based navigation and presentation of a website
KR102669152B1 (ko) * 2018-05-07 2024-05-27 구글 엘엘씨 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용
US11620102B1 (en) * 2018-09-26 2023-04-04 Amazon Technologies, Inc. Voice navigation for network-connected device browsers

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1255193A2 (en) * 2001-05-04 2002-11-06 Microsoft Corporation Servers for web enabled speech recognition
EP1482481A1 (en) * 2003-05-29 2004-12-01 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020003547A1 (en) * 2000-05-19 2002-01-10 Zhi Wang System and method for transcoding information for an audio or limited display user interface
US7028306B2 (en) * 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US20030078775A1 (en) * 2001-10-22 2003-04-24 Scott Plude System for wireless delivery of content and applications
US20030145062A1 (en) * 2002-01-14 2003-07-31 Dipanshu Sharma Data conversion server for voice browsing system
WO2004066125A2 (en) * 2003-01-14 2004-08-05 V-Enable, Inc. Multi-modal information retrieval system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1255193A2 (en) * 2001-05-04 2002-11-06 Microsoft Corporation Servers for web enabled speech recognition
EP1482481A1 (en) * 2003-05-29 2004-12-01 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags

Also Published As

Publication number Publication date
WO2008074903A1 (es) 2008-06-26
US20100094635A1 (en) 2010-04-15
ES2302640A1 (es) 2008-07-16

Similar Documents

Publication Publication Date Title
ES2302640B1 (es) Sistema para la interaccion mediante voz en paginas web.
US10430514B2 (en) Method and terminal for extracting webpage content, and non-transitory storage medium
JP4871885B2 (ja) ウェブ・ベースの多モード・インターフェースを用いるユーザ検証
US9177551B2 (en) System and method of providing speech processing in user interface
US11183188B2 (en) Voice assistant-enabled web application or web page
US20200302911A1 (en) Method for reading webpage information by speech, browser client, and server
KR102041618B1 (ko) 인공지능 음성인식을 위한 기계학습 기반 자연어 말뭉치 구축 서비스 제공 시스템 및 방법
BR112017013524B1 (pt) Dispositivo de computação, método e dispositivo de armazenamento legível por computador para conclusão de tarefas sem orientação dentro de assistentes pessoais digitais
US10972458B1 (en) Methods and systems for authentication assistant
JP2020505643A (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
US11308949B2 (en) Voice assistant response system based on a tone, keyword, language or etiquette behavioral rule
ES2254664T3 (es) Procedimiento para permitir la interaccion por voz con una pagina web.
US20180272240A1 (en) Modular interaction device for toys and other devices
WO2014190901A1 (zh) 语法编译方法、语义解析方法、装置、计算机存储介质和设备
WO2013189342A2 (zh) 一种信息处理方法和移动终端
KR102549204B1 (ko) 음성인식 서비스를 제공하는 단말, 서버 및 방법
KR20240115216A (ko) 음성 신호 처리 방법 및 장치
JP4467226B2 (ja) ウェブ対応音声認識用サーバの方法および記録媒体
US20230153541A1 (en) Generating and updating conversational artifacts from apis
CN108737328A (zh) 一种浏览器用户代理识别方法、系统及装置
Lojka et al. Multi-thread parallel speech recognition for mobile applications
KR102184053B1 (ko) 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법
US20170162193A1 (en) Browser operation method and electronic device
WO2019207421A1 (en) Navigation and cognitive dialog assistance
CN114596840A (zh) 语音识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
EC2A Search report published

Date of ref document: 20080716

Kind code of ref document: A1

FD2A Announcement of lapse in spain

Effective date: 20180912