ES2302640B1 - Sistema para la interaccion mediante voz en paginas web. - Google Patents
Sistema para la interaccion mediante voz en paginas web. Download PDFInfo
- Publication number
- ES2302640B1 ES2302640B1 ES200700013A ES200700013A ES2302640B1 ES 2302640 B1 ES2302640 B1 ES 2302640B1 ES 200700013 A ES200700013 A ES 200700013A ES 200700013 A ES200700013 A ES 200700013A ES 2302640 B1 ES2302640 B1 ES 2302640B1
- Authority
- ES
- Spain
- Prior art keywords
- voice
- server
- web page
- web
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000013515 script Methods 0.000 claims abstract description 10
- 238000011017 operating method Methods 0.000 claims abstract description 8
- 238000010348 incorporation Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 31
- 230000004044 response Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004806 packaging method and process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Sistema para la interacción mediante voz en
páginas Web, de los que permiten la incorporación de funciones de
tratamiento de la voz en una página Web, en que partiendo de un
Terminal (1), una pagina Web (3) de un sitio Web estructurada bajo
el modelo DOM (Modelo de Objetos de Documento), o cualquiera de sus
extensiones, y un Servidor (5) de Servicios de Voz en la red, por
medio de un módulo (6) descargable para su incorporación en un
navegador Web, incluyendo el sistema los procedimientos operativos
para que dicho módulo actúe como pasarela transparente en un
diálogo entre dicho Servidor de Servicios de Voz (5) y dicha página
Web (3), permite gestionar dichos servicios de voz de dicho
Servidor (5) mediante funciones script incorporadas a dicha página
Web (3).
Description
Sistema para la interacción mediante voz en
páginas Web.
La presente invención tiene por objeto un
sistema para la interacción mediante voz con páginas web, del tipo
que permiten mediante sentencias orales que un navegador responda
a las mismas modificando su contenido, visible o no, con la
particularidad de que está configurado a partir de un módulo
descargable que codifica la voz del usuario y enlaza con un
servidor de voz que devuelve a la página web y al terminal del
usuario la información procesada relacionada con la operación de
voz realizada, y que permite entre otras funciones el
reconocimiento de instrucciones habladas, decodificar la voz para
textos, identificar al usuario, almacenamiento de mensajes de voz,
interacción hablada, etc.
En la interacción con un usuario de un terminal
que mediante un navegador accede a una página Web de un sitio Web,
a menudo se nota a faltar la agilidad que proporcionaría poder
comunicarse con el navegador mediante la voz. Ello que es
incuestionablemente necesario en personas con alguna discapacidad
en las manos o con dificultades de visión, es en general deseable
para todos los usuarios.
Con este motivo, para aportar esa demanda de los
usuarios, se trabaja desde diferentes ámbitos de la técnica para
proporcionar una tal funcionalidad a los navegadores, y de hecho
existen diferentes documentos que inciden en éste campo.
Por ejemplo, WO02/073599 desarrolla un método
persiguiendo utilizar la voz para dirigir el uso del navegador Web.
En una explicación sucinta dicho documento establece una máquina de
estados asociada a la página Web, de forma que no es necesario
realizar cambios a las páginas existentes y a sus correspondientes
archivos de visualización.
Tal como se describe en dicho documento cuando
el cliente conecta a la página Web se le transfiere el software
almacenado en el servidor que le permite al cliente la síntesis de
la voz y el reconocimiento de caracteres a emplear.
Por el lado del sitio Web, dicho método implica
la existencia de una estructura de árbol de ficheros de
configuración de voz que es paralela a la de las páginas del sitio
Web. Los ficheros de configuración de voz comprenden estados
representando la interacción entre el usuario y la página. Cada
estado de dicha interacción comprende cinco secciones: ASR
(Automatic Speech Recognition - Reconocimiento automático de la
voz), CMD (los comandos), TTS
(Text-to-Speech: Texto a discurso o
síntesis de la voz), ADV (mensajes de advertencia orales), MOV
(comandos de movimiento de un gráfico animado de tipo Avatar).
Por su parte, WO99/48088 desarrolla un sistema y
método para implementar el control mediante voz de un navegador
Web sobre un ordenador inalámbrico. La página Web es precompilada
en el servidor para generar una gramática de habla que es
transmitida con el documento Web al ordenador inalámbrico.
Existen y se conoce su aplicación, navegadores
que incorporan entre sus funcionalidades que el usuario pueda
ordenar sus acciones mediante voz, como el navegador Opera versión
9.02 (© Opera Software ASA) que utiliza el "IBM Multimodal
Runtime Environment". "Ir a", "Cerrar",
"siguiente" y otras órdenes por el estilo, concretamente en
inglés, permitirían al navegador reaccionar en el sentido deseado
por el usuario. Esta funcionalidad no sólo existe en la actualidad
en navegadores Web para PC, también es conocida para entornos
aplicativos de diferente índole, como en los menús de móviles, o en
manos libres de diferente finalidad, en que el usuario los acciona
mediante órdenes orales que el dispositivo o el programa en
cuestión coteja con un registro previamente realizado de dicha
orden y si coincide, la ejecuta.
Naturalmente proporcionar una interacción de voz
más sofisticada en una página Web aumenta en complejidad en la
medida que se contemplan más acciones de voz. En los sitios Web,
por lo demás, sería deseable que mediante voz se pudieran instruir
acciones más complejas que la simple navegación, del tipo por
ejemplo de "muéstrame los títulos más interesantes de tu
catálogo". La presente invención, en consecuencia pretende
abordar esta problemática proporcionando un sistema que permita una
interacción compleja entre el usuario y el navegador en una página
Web y que no se limite a la navegación por la misma, evitando para
ese fin una tediosa confección de la propia página Web o la
posesión de software especializado por parte del Terminal
cliente.
Así, es el objeto principal de la presente
invención el proporcionar un sistema para la interacción mediante
voz en páginas web basado en un módulo descargable que actúa como
pasarela transparente con un servidor remoto de servicios del
habla, de forma que dicho sistema permita ejecución de acciones
asociadas al tratamiento de la voz relativas al sitio Web y la
página Web visitada.
Es otro de los objetivos de la presente
invención dotar al diseñador o desarrollador de la página Web de un
protocolo para establecer las reglas de decisión sobre las
interacciones de voz entre el usuario y la página Web, permitiendo
de esta manera una mayor adecuación de los servicios de la página a
las capacidades de la tecnología.
Y es otro de los objetivos principales de la
presente invención proporcionar un sistema que permita la
interacción concurrente de múltiples usuarios sobre una página Web
de forma que en dicha página no deban estar configurados todos los
estados correspondientes a las eventuales peticiones de los
usuarios, pudiendo ser éstas independientes de la configuración de
la página Web que es, de acuerdo a la presente invención, capaz de
manejarlas.
Estos y otros objetos de la presente invención
serán más evidentes a lo largo de la descripción de la misma que se
incluye en la presente memoria.
La presente invención tiene como objeto un
sistema para la interacción mediante voz en páginas web, del tipo
que permiten mediante el discurso de un usuario que un navegador
responda a sus peticiones modificando el contenido de la
información que exhibe o de cualquiera de sus parámetros
internos.
El sistema consta de un terminal, entendiendo en
la presente invención bajo el concepto de terminal cualquier
dispositivo capaz de mostrar en unos medios de visualización el
contenido de una página Web, incluyendo en consecuencia
ordenadores, móviles, ordenadores de mano, portátiles, televisiones
digitales, etc.
Un módulo descargable que incorpora las
operativas necesarias de cada terminal para que la voz captada del
usuario sea interpretada y codificada, para su retransmisión en la
red, incluyendo un identificativo del usuario tal como su IP y la
página visitada.
Una o una pluralidad de páginas Web de un sitio
Web que cuyo contenido estructurado mediante estándares como el
modelo DOM, incorporan medios para la acreditación de utilización
del Sistema de la presente invención, funciones a realizar
asociadas con los resultados de las instrucciones del habla y
llamadas a procedimientos de voz vinculadas a elementos de dicha
página Web con la transmisión de parámetros convenientes a cada una
de ellas.
Un servidor de servicios del habla que recibe la
petición de servicio de voz de dicho módulo descargable mediante
la recepción desde dicha Terminal de mensajes de audio codificados
y comprimidos por dicho módulo, y que dispone de las operativas
necesarias para interpretar el mensaje y actuar de acuerdo a una
serie de acciones configuradas en dicho servidor relacionadas con
las instrucciones de aplicación o contexto recibidas con dicho
discurso.
El servidor de voz utiliza recursos de IA
(Inteligencia Artificial) para responder adecuadamente cada flujo
de datos y función solicitada recibidas de cada usuario, terminal
y pagina Web, de forma que se transmiten instrucciones oportunas a
dicho módulo de voz descargable para que por medio de la API del SO
del terminal o mediante la correspondiente estructura de
información DOM existente en el navegador, se ejecute el script
adecuado en la página Web en respuesta a la interacción de voz
realizada.
Para facilitar la comprensión de la memoria, se
acompaña a la misma con dibujos de la invención, aportados a titulo
meramente ilustrativo, y sin que dichos dibujos puedan representar
una limitación del objeto inventivo de la misma. A lo largo de
dichos dibujos los mismos números designan los mismos
elementos.
La figura 1 muestra una representación
esquemática de las partes del sistema de la invención en su
relación mutua.
La figura 2 representa un diagrama de bloques
que ilustran parcialmente el flujo de procesos que se desarrollan
en la presente invención entre las partes que integran el
sistema.
La figura 3 desglosa en un diagrama de bloques
el flujo de proceso relativo a una caso de realización práctica en
que el sistema de la invención es utilizado para demandar un
servicio remoto de tratamiento de voz, representando el caso más
general de utilización de la invención.
La figura 4 detalla, en referencia al proceso
descrito en la figura anterior, la interacción de mensajes posible
entre el módulo de voz descargable y la página Web, de acuerdo al
sistema descrito en la presente invención.
Consiste la invención en un sistema para la
interacción mediante voz en páginas Web, del tipo que permiten
mediante sentencias orales que un navegador responda a las mismas
modificando su contenido, visible o no.
El sistema incluye un Terminal (1) capaz de
visionar y navegar en páginas Web (3) de un sitio Web por medio de
un navegador, siendo el navegador uno entre cualquiera de los
conocidos de la técnica. El concepto de Terminal (1) utilizado en
la presente invención es más amplio que el convencional de PC de
sobremesa y no se limita al mismo. De hecho se considera
comprendido en esta caracterización cualquier soporte capaz de
mostrar y conducir páginas Web, como por ejemplo ordenadores de
mano, portátiles, teléfonos móviles, televisiones digitales,
consolas de juego,
etc.
etc.
Dicho Terminal (1) dispone de medios, tipo
micrófono, para la captación de la voz del usuario y para la
reproducción de sonido, llamados en adelante medios de captación y
reproducción de sonido (2).
El navegador del Terminal (1) accede por medio
de cualquier red global de comunicaciones, en la realización
preferida de la invención: Internet, a un sitio Web del que recibe
páginas Web (3) que dicho Terminal (1) muestra para el usuario del
mismo en su navegador.
Dicha página Web, para que el usuario pueda
interaccionar mediante voz de acuerdo al sistema descrito en la
presente invención, dispone su contenido estructurado mediante un
modelo tipo DOM, incluyendo un certificado de implementación de la
presente invención, funciones mediante lenguaje tipo script o
equivalente asociadas a la interacción de la voz y listas para
responder a la interacción de voz, y uno o una pluralidad de
elementos que se configuran solicitando recursos de voz.
El sistema de la invención incluye un módulo de
voz (6) descargable como un recurso existente en la Web y que se
asocia al navegador cómo un módulo o plugin del mismo. Dicho módulo
(6) contiene los procedimientos operativos necesarios para la
codificación del discurso del usuario y su transmisión en la red en
combinación con algún dato identificativo del Terminal (1),
convencionalmente la IP de dicho Terminal (1), instrucciones de
contexto asociadas al tratamiento de voz, la gramática a utilizar,
etc.
De esta forma cuando el usuario accede a una
página Web (3) destinada a ser utilizada de acuerdo con la presente
invención, el Navegador es interrogado por la presencia de dicho
módulo (6) y para su instalación opcional en caso de que no esté
instalado. Todo ello en la forma convencional mediante cualquier
script embebido en la página Web (3) o cualquier procedimiento
alternativo conocido.
Cuando el usuario desde sus medios de captación
y reproducción de sonido (2) da instrucciones al Navegador, el
módulo (6) realiza la codificación de dicho discurso oral,
realizando una compresión del mismo, pudiendo utilizar para ello
algoritmos conocidos de compresión de audio y destinados a su
óptima transmisión por la red. Previo al proceso de transmisión a
la red de dicho discurso comprimido, dicho módulo (6) realiza un
empaquetado del mismo asociándolo a dicho identificativo en la red
de dicho Terminal (1), en que suele usarse por su sencillez la
dirección IP en la red del Terminal pero que podría substituirse
por cualquier identificación, incluso una llave de suscripción al
servicio de voz sin que la invención quede alterada por ello.
El empaquetado mencionado incluye también la
página Web (3) a que va destinada la instrucción del usuario.
Convencionalmente dichas páginas pueden identificarse mediante una
ruta partiendo de una dirección de la red, a la que se añade una
subruta que apunta a la página referenciada.
En la realización preferente en que la red
global es Internet, el protocolo de transmisión del empaquetado, o
en términos más precisos, del grupo de bloques a transmitir es el
TCP/IP. Dichos bloques o empaquetado es dirigido a un Servidor de
voz (5) para su procesado. Dicho servidor de voz (5) puede ser un
único servidor o un cluster de servidores ubicados en situaciones
geográficas distintas y con direcciones de nodos distintos de la
red global. En una de las realizaciones posibles de la invención,
es el mismo servidor del sitio Web (4) quien realiza las funciones
de servidor de voz (5).
El servidor de voz (5) efectúa por su parte una
decodificación del discurso recibido interpretando el contenido del
mensaje estipulado por el usuario del Terminal (1). De hecho el
mensaje transmitido por dicho módulo de voz (6) incorporaba además
del flujo codificado de la voz, instrucciones de contexto para la
interpretación del mismo. De modo que el Servidor de voz (5), en
primer lugar, identifica de acuerdo con dicho contexto, es decir la
función que se le ha solicitado, el conjunto de programas adecuados
para efectuar el procesado de la información.
El mensaje podía consistir en órdenes simples de
navegación, al estilo de las conocidas de la técnica previa:
"Adelante", "Atrás", etc., o en alguna palabra destinada
a identificar a un usuario, o simplemente en un mensaje de
bienvenida para su almacenamiento y extracción posterior... También
puede consistir dicho mensaje en operaciones más complejas
relacionadas con una página Web (3) determinada. Por ejemplo, en
una página Web (3) de un sitio Web dedicado a las ventas de
automóviles el usuario bien pudiera responder a un ofrecimiento
general de ayuda mediante medios multimedia insertados en dicha
página, al estilo de "¿Quiere información sobre algún
vehículo?", con una petición general tal como "Enséñame los
últimos modelos".
Existe en este punto, desde el punto de vista de
la presente invención dos problemas técnicos importantes a
resolver para afrontar una pregunta de índole compleja y hacerlo
además en un entorno concurrente, de una pluralidad de usuarios, en
una red global, como es el caso de Internet.
El primer problema está relacionado con la
"interpretación" del discurso de usuario. Afortunadamente, es
éste un problema técnico conocido que si bien no tiene una solución
absolutamente satisfactoria, permite mayores niveles de eficacia
cuando el entorno de trabajo de los agentes que deben interpretar
la oración están delimitados de antemano, en este caso referidos a
una página Web determinada con un vocabulario y gramática
conocida.
La invención utiliza cualquiera de los medios
conocidos para decodificar el discurso proveniente del Terminal
(1). En concreto, la digitalización de sonido y su análisis, el
análisis biométrico de patrones de voz, etc. Como resultado de este
análisis el Servidor de voz (5) es capaz de transformar el discurso
del usuario que le ha llegado en versión comprimida y empaquetada,
en una matriz de datos con información del Terminal (1) de origen,
la página Web (3) referenciada, y una frase u oración del usuario
con su instrucción.
El Servidor de Voz (5) por medio de agentes de
IA implementados en el sistema analiza mediante funciones ASR
(Automatic Speech Recognition - Reconocimiento Automático del
Discurso) como las mencionadas anteriormente el discurso recibido y
lo interpreta en el sentido de construir a partir de él un juego de
instrucciones o "datos de módulo" (de acuerdo a la
representación de la figura 2) que serán transmitidos de vuelta al
Terminal (1) destinados a dicho módulo (6) incorporado al
Navegador.
Esta transmisión de "datos de módulo" que
se realiza a través de la red global, incorpora, empaquetada,
información que incluye la ID del Terminal (1), normalmente la IP,
la ID de la página Web (3) de referencia, y el conjunto de
instrucciones que la instrucción del usuario ha significado.
Debe tenerse en cuenta que el procesado de la
voz, de acuerdo al contexto solicitado, no siempre reporta un
resultado totalmente fiable. De hecho el sistema trata el resultado
asociado al contexto demandado como un dato y un margen de
fiabilidad. En un ejemplo trivial, un usuario se identifica
mediante la lectura de su nombre de usuario que los medios de voz
del Terminal (1) registran y el módulo de voz (6) codifican. El
Servidor de voz (5) puede ser incapaz de determinar la equivalencia
del ID del usuario con la voz del mismo superando un margen de
incertidumbre, ello en lógica pues no siempre pueden suprimirse
todas las fuentes de perturbación asociadas a un contexto de voz:
ruido de la sala,
poca claridad de la voz, etc. El resultado, en consecuencia, se ofrece asociado al margen de fiabilidad del mismo.
poca claridad de la voz, etc. El resultado, en consecuencia, se ofrece asociado al margen de fiabilidad del mismo.
El módulo (6) actúa sobre el Navegador
siguiendo, como ya hemos dicho, el modelo DOM, en cualquiera de sus
estándares o extensiones conocidas. DOM es la abreviatura de
"Document Object Model" (Modelo de Objetos de Documento) y es
un estándar que mantiene el World Wide Web Consortium (W3C) de
forma que se representen los elementos que forman un documento
estructurado, como es el caso de una página Web, cualquier
documento XML o XHTML. Dicho objetos de la página en el modelo DOM
tienen sus propios métodos y propiedades que lo configuran como un
API (Application Programming Interface - Interfaz de Programación
de Aplicaciones), un conjunto de especificaciones de comunicación
entre componentes, de forma que de forma dinámica se puede acceder
a los contenidos de una página Web, y añadir y cambiar los
elementos e información que contiene.
De este modo es fácil la interacción entre dicho
módulo (6) y la página Web (3). Primero, para la recepción del
certificado según el cual dicha página Web (3) cumple con el
sistema de la presente invención. Segundo, para que dicha página
informe al módulo (6) de que se inicia un procedimiento de voz
asociado a un evento o contexto de la página determinado, como por
ejemplo el reconocimiento de la identidad de un usuario mediante
voz. Finalmente, para que en respuesta a la recepción de la misma
de dicho módulo de voz (6) en la página Web (3), asociada a un
proceso de voz, se ejecute el procedimiento correspondiente, como
en el ejemplo podría ser aceptar dicha identidad y abrir su perfil
personal en dicho Sitio Web.
El módulo (6) puede también utilizar la propia
API de cada navegador en que ha sido instalado con objeto de
alterar el contenido dinámico de la página o responder a órdenes
relativas al propio navegador, como las sencillas de
navegación.
En una de las realizaciones posibles de la
invención, está prevista la posibilidad de que el módulo (6) actúe
sobre la propia librería de funciones del sistema operativo para
ejecutar acciones en el Terminal (1). Aunque en principio, y de
acuerdo a la presente invención no existe limitación a las
funciones accesibles del sistema operativo propio del Terminal (1),
en la realización práctica predilecta dichas funciones están
limitadas por cuestiones de seguridad, de forma que se eviten
brechas de seguridad que permitan dañar el sistema en el Terminal
(1).
El sistema de la invención podría ser utilizado
para la incorporación de procedimientos complejos asociados con la
voz, sin que sea necesario implementar los mismos ni en la página
ni con software dedicado a ese fin en cada Terminal (1) cliente. El
sistema de la invención proporciona una pasarela transparente a los
servicios de voz de forma que los desarrolladores de páginas Web
pueden incorporarlos en las mismas mediante un sublenguaje de
interacción que utiliza la arquitectura DOM para comunicar al
componente, plugin o módulo (6) y el navegador. El sistema permite
a la página Web (3) guardar información de estado necesaria para la
navegación de la cual se abstrae el servidor de voz (5), que se
limita a ejecutar órdenes transmitidas desde dicho módulo (6) por
la página Web (3).
De hecho, y tal como se ha explicado a lo largo
de la presente memoria, una de las ventajas principales que
representa la presente invención estriba en la posibilidad de que
el usuario formule interacciones complejas que no son simplemente
de entrada de datos sencillos de navegación o de manipulación de
objetos de la página. En este caso descrito, la página Web
incorpora en su estructura de elementos las propiedades de las que
es posible obtener una respuesta compleja.
Un caso, aunque la invención no se limita al
mismo, está configurado por un Avatar o figura animada que dialoga
con el usuario de la página Web. El Avatar interroga al usuario y el
usuario responde. Respuesta que puede tener sentido, ser
malinterpretada o ser perfectamente procesada por el Servidor de
Voz (5). Para que el Servidor de Voz (5) pueda interpretar
convenientemente el discurso del usuario debe conocer también las
funciones que vía DOM acepta la página Web (3) que origina el
tráfico de mensajes.
De esta forma, en este tipo de páginas que
requieren para su correcto funcionamiento el módulo (6), además de
los scripts que requieren su presencia en el navegador utilizado,
se transmiten en los empaquetados de las comunicaciones entre
módulo (6) y Servidor de voz (5), el contexto y los elementos que
pueden procesar las respuestas a las preguntas formuladas por la
página.
Adicionalmente, el sistema incorpora en dicha
transmisión una ID de suscripción que identifica en el Servidor de
voz (5) una gramática propia del sitio Web donde se ubica dicha
página Web (3) en orden a permitir el trabajo eficiente de los
agentes IA que deben procesar el discurso del usuario.
La invención será más comprensible a través de
la explicación de diferentes casos de realización práctica de la
misma que se relacionan como meras aplicaciones y no en un contexto
de limitación del alcance de la invención.
En el caso más general de utilización de la
presente invención, y tal y como se representa en la figura 3, se
solicita del sistema de la invención una procedimiento genérico de
tratamiento de voz en el servidor de voz (5).
De acuerdo con el diagrama de bloques de la
figura 3, el primer estadio del proceso consiste en verificar que
la página Web dispone del certificado oportuno y por el cual se
reconoce implementa el sistema propio de la presente invención. La
página está estructurada mediante DOM, de modo que el módulo (6)
obtiene con facilidad dicho certificado.
La página informa al módulo de voz (6) que se
prepare para recibir instrucciones de voz asociadas con un
procedimiento de voz, en este caso general sin especificar al que
se asocia una gramática y un IDC (Identificador de Contexto).
El módulo de voz (6) reconoce el fin del
discurso del usuario que ha captado mediante los propios medios de
voz, un micrófono, en dicho Terminal (1).
Dicho módulo de voz (6) codifica y comprime el
flujo de voz y lo transmite a dicho Servidor de voz (5) o servidor
de procedimientos de habla, añadiendo información relativa al
contexto del servicio de voz solicitado. Por ejemplo: identificar a
un usuario, una entrada de un valor, una orden de navegación, una
petición de un catálogo de productos, el almacenamiento de un
mensaje de voz, etc.
El servidor de voz (5) y de acuerdo con la
información recibida identifica, en primer lugar, los
procedimientos operativos necesarios para tratar el servicio de voz
solicitado. Transforma los datos, interpretándolos, de forma que
el flujo comprimido de datos binarios recibidos se transforma en
uno cualquiera de un conjunto de sentencias, órdenes o
instrucciones posibles, ello en concordancia al servicio
solicitado.
El servidor actualiza sus propias Bases de Datos
(BD) tanto de inteligencia como estadísticas, de utilización del
servicio, y envía la respuesta de regreso a dicho módulo de voz
(6).
El módulo de voz (6) interpreta la respuesta y
la envía a la página Web (3) que la procesa mediante los
procedimientos o scripts que dicha página incorpora para el
servicio solicitado. De hecho, el programador de la página Web (3)
puede estipular un margen umbral de fiabilidad de la respuesta
recibida por debajo del cual no la acepta como válida, arbitrando
un procedimiento de verificación ulterior o en otro caso deteniendo
en proceso. La respuesta de la página no tiene por que representar
una modificación del contenido visible de la página, y en cambio
implicar únicamente una variación de un parámetro interno.
En el caso más general, el script, que puede
establecerse en principio por cualquier lenguaje de script conocido
para páginas Web, como Python, JavaScript, Perl, Ruby, o llamadas
a funciones del Servidor del Sitio Wetb (4), proporciona una acción
de salida visible en la página Web (3) que ve modificado su
contenido.
En este caso práctico de realización, el sistema
de la invención se utiliza para incorporar en una página Web (3)
un medio de identificación de usuario mediante el reconocimiento de
voz.
De forma similar al caso más general descrito
anteriormente, la página Web (3) se identifica mediante el oportuno
certificado según el cual cumple el estándar de la presente
invención.
La página realiza una notificación de
procedimiento al módulo (6) para un reconocimiento de locutor. La
identificación del servicio demandado es vital en el sistema porque
de otro modo el servidor de voz (5) no sabría qué hacer con el
flujo de datos de la voz, e incluso fallaría en mayor medida en su
descifrado al no disponer de una gramática de contexto con la que
interpretar la voz.
Es por ese motivo que la página Web (3)
transfiere también al módulo voz (6) los parámetros adecuados a la
función de voz demandada. En este caso puede ser el ID del usuario
a reconocer.
La página avisa de que empieza el procedimiento
de captación de la voz.
El módulo de voz (6) reconoce, mediante sus
propios procedimientos operativos, que el usuario ha terminado de
hablar. Codifica y comprime el discurso recibido y junto con la
información de contexto y el servicio solicitado, transmite toda
esa información al Servidor de voz (5).
El servidor de voz, y visto que se le solicita
identificar a un usuario de una ID determinada con uno parámetros
de función concretos, determina, en primer lugar, los
procedimientos operativos necesarios para realizar esa función, y
los ejecuta. Naturalmente anota sus BD estadísticas de uso de
servicio y alimenta su acervo de IA con la experiencia realizada.
Envía, seguidamente, el resultado obtenido al módulo de voz (6)
quien a su vez lo transmite de acuerdo a la arquitectura DOM de
dicha página Web (3) a la función adecuada para tratamiento de la
respuesta.
En este proceso particular de identificación de
un usuario mediante la voz, es necesario que existan previamente
codificados en algún lugar de la red accesible por el Servidor (5)
los datos o registros de voz que permitan tal identificación
asociados a dicho ID de usuario recibido. La respuesta a la
petición de identificación que se formula con un margen de
fiabilidad puede por ejemplo ser afirmativa.
La página Web (3), en consecuencia con esa
identificación positiva efectúa los procedimientos que tiene
previstos para dicho caso, de forma similar a como realizaría en
cualquier otra identificación de usuario satisfactoria.
Finalmente, otro caso de realización práctica
posible en el sistema de la invención es el representado por la
petición de un servicio de almacenamiento de voz, por ejemplo un
mensaje de despedida o uno de bienvenida a una página Web (3), o
una explicación, y que ésta reproducirá en determinados
contextos.
En primer lugar, la página Web (3) es
interrogada de si cumple la certificación según la presente
invención. La página avisa al módulo (6) de la petición del
servicio descrito de almacenamiento de voz y de que éste se
inicia. El módulo (6) mediante los medios de captación de voz de
dicho Terminal (1) registra la voz del usuario, detecta el final
del discurso, lo codifica y comprime, transmitiéndolo a dicho
Servidor de Servicios del Habla (5) junto con la petición del
servicio y parámetros del contexto, que en éste caso podría ser el
formato en que debe guardarse el fichero.
El servidor de voz transforma dichos datos,
identifica el software que precisa y, en el ejemplo descrito,
identifica el medio necesario para el almacenamiento de la voz en
el formato de la misma que se le ha solicitado, como podría ser por
ejemplo el MP3.
De regreso, el Servidor de voz (5) envía al
navegador un código de resultado y un identificador del fichero
generado. El módulo (6) obtiene los datos y mediante DOM informa a
la página cargada en el navegador del resultado, en este caso del
identificador del fichero.
La función script que recibe dicho identificador
puede decidir, en un ejemplo posible, enviar un formulario a una
página Web con entre otros datos el identificador del fichero
generado para que la Web que recibe dicho formulario sepa que
incluye un enlace a un fichero de audio externo almacenado en el
Servidor (5) de servicios del habla y con el ID especificado.
Se sobreentiende, que se consideran comprendidos
dentro de la presente invención cuantos detalles de forma o
detalle no alteren en lo sustancial la esencia de la invención.
Claims (3)
1. Sistema para la interacción mediante voz en
páginas Web, del tipo que permiten la incorporación de funciones
de tratamiento de la voz en una página Web, tanto las dirigidas a
funciones de navegación de un navegador como relacionadas con los
elementos de información que dicha página web proporciona, y en
general cualquier función posible en una página Web vinculada a un
procedimiento que requiere la voz del usuario, caracterizado
por comprender:
- -
- un Terminal (1), considerado en un sentido amplio que incluye PC, ordenadores de mano, móviles, televisiones digitales, consolas, etc., con medios para la navegación Web, como un navegador entre cualquiera de los conocidos, y que disponen de una plataforma multimedia con medios, tipo micrófono, de entrada y de reproducción de sonido (2)
- -
- una pagina Web (3), de un sitio Web, estructurada bajo el modelo DOM (Modelo de Objetos de Documento) o cualquiera de sus extensiones que cuando menos incluye una certificación de voz según el sistema de la presente invención, llamadas a funciones y servicios de voz, procedimientos y funciones en lenguaje de script de interpretación de los resultados de los servicios de voz, lenguajes de script de entre cualquiera de los posibles para una página Web
- -
- un módulo (6) descargable, como un recurso de la red, para su incorporación en un navegador Web, que incluye cuando menos los procedimientos operativos para reconocer el fin del discurso del usuario, medios para codificar y comprimir la voz, y los procedimientos operativos para transmitir tanto al navegador como a un Servidor de Voz (5) las instrucciones, parámetros y flujos de datos asociados a los servicios de voz solicitados
- -
- un Servidor (5) de Servicios de Voz, como suministrador de recursos independientes de cada página Web (3), que puede estar formado por un único servidor, un cluster de servidores o ser el mismo servidor (4) del sitio Web donde reside dicha página Web (3), y que recibe la línea de datos de voz transmitida por dicho módulo (6) a través de dicha red global y les aplica un conjunto de procedimientos operativos relacionados con cada servicio de voz que implementa dicho servidor (5), transformando dichos datos de entrada en unos Datos de Respuesta
- -
- los procedimientos operativos para los scripts de dicha página Web (3) que permiten interactuar a ésta con los servicios de voz que se solicitan de dicho Servidor de Voz (5), incluyendo cuando menos el envío de parámetros, el envío de petición de servicios, la recepción de los datos de los resultados interpretados de dicha interacción de voz y las acciones de respuesta en relación a dichos datos de respuesta.
2. Sistema para la interacción mediante voz en
páginas Web, de acuerdo con la reivindicación 1,
caracterizado porque dichos Datos de Respuesta
proporcionados por dicho Servidor de Voz (5) incluyen el porcentaje
de fiabilidad del resultado obtenido.
3. Sistema para la interacción mediante voz en
páginas Web, de acuerdo con las reivindicaciones anteriores,
caracterizado porque dicho módulo (6) incluye en dicho flujo
de datos que transmite a dicho Servidor de Voz (5), entre otros
datos, la "ID" de dicha Terminal (1); dicha ID estando formada
por cualquier medio de clave que sirva para verificar la identidad
de dicho Terminal (1) y/o de su usuario; incluyendo un medio de
suscripción de dicha página Web (3) a un servicio de voz.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200700013A ES2302640B1 (es) | 2006-12-21 | 2006-12-21 | Sistema para la interaccion mediante voz en paginas web. |
US12/520,654 US20100094635A1 (en) | 2006-12-21 | 2007-11-30 | System for Voice-Based Interaction on Web Pages |
PCT/ES2007/000692 WO2008074903A1 (es) | 2006-12-21 | 2007-11-30 | Sistema para la interacción mediante voz en páginas web |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200700013A ES2302640B1 (es) | 2006-12-21 | 2006-12-21 | Sistema para la interaccion mediante voz en paginas web. |
Publications (2)
Publication Number | Publication Date |
---|---|
ES2302640A1 ES2302640A1 (es) | 2008-07-16 |
ES2302640B1 true ES2302640B1 (es) | 2009-05-21 |
Family
ID=39536021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES200700013A Expired - Fee Related ES2302640B1 (es) | 2006-12-21 | 2006-12-21 | Sistema para la interaccion mediante voz en paginas web. |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100094635A1 (es) |
ES (1) | ES2302640B1 (es) |
WO (1) | WO2008074903A1 (es) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7516190B2 (en) | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US20090013255A1 (en) * | 2006-12-30 | 2009-01-08 | Matthew John Yuschik | Method and System for Supporting Graphical User Interfaces |
US8140340B2 (en) * | 2008-01-18 | 2012-03-20 | International Business Machines Corporation | Using voice biometrics across virtual environments in association with an avatar's movements |
US8473356B2 (en) | 2008-08-26 | 2013-06-25 | International Business Machines Corporation | System and method for tagging objects for heterogeneous searches |
US20120317492A1 (en) * | 2011-05-27 | 2012-12-13 | Telefon Projekt LLC | Providing Interactive and Personalized Multimedia Content from Remote Servers |
JP5710464B2 (ja) * | 2011-12-27 | 2015-04-30 | 株式会社東芝 | 電子機器、表示方法、およびプログラム |
US9400633B2 (en) * | 2012-08-02 | 2016-07-26 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US9292252B2 (en) * | 2012-08-02 | 2016-03-22 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US9781262B2 (en) | 2012-08-02 | 2017-10-03 | Nuance Communications, Inc. | Methods and apparatus for voice-enabling a web application |
US9292253B2 (en) * | 2012-08-02 | 2016-03-22 | Nuance Communications, Inc. | Methods and apparatus for voiced-enabling a web application |
US10157612B2 (en) | 2012-08-02 | 2018-12-18 | Nuance Communications, Inc. | Methods and apparatus for voice-enabling a web application |
US10978060B2 (en) * | 2014-01-31 | 2021-04-13 | Hewlett-Packard Development Company, L.P. | Voice input command |
US11188199B2 (en) | 2018-04-16 | 2021-11-30 | International Business Machines Corporation | System enabling audio-based navigation and presentation of a website |
KR102669152B1 (ko) * | 2018-05-07 | 2024-05-27 | 구글 엘엘씨 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
US11620102B1 (en) * | 2018-09-26 | 2023-04-04 | Amazon Technologies, Inc. | Voice navigation for network-connected device browsers |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1255193A2 (en) * | 2001-05-04 | 2002-11-06 | Microsoft Corporation | Servers for web enabled speech recognition |
EP1482481A1 (en) * | 2003-05-29 | 2004-12-01 | Microsoft Corporation | Semantic object synchronous understanding implemented with speech application language tags |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020003547A1 (en) * | 2000-05-19 | 2002-01-10 | Zhi Wang | System and method for transcoding information for an audio or limited display user interface |
US7028306B2 (en) * | 2000-12-04 | 2006-04-11 | International Business Machines Corporation | Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers |
US6801604B2 (en) * | 2001-06-25 | 2004-10-05 | International Business Machines Corporation | Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources |
US20030078775A1 (en) * | 2001-10-22 | 2003-04-24 | Scott Plude | System for wireless delivery of content and applications |
US20030145062A1 (en) * | 2002-01-14 | 2003-07-31 | Dipanshu Sharma | Data conversion server for voice browsing system |
WO2004066125A2 (en) * | 2003-01-14 | 2004-08-05 | V-Enable, Inc. | Multi-modal information retrieval system |
-
2006
- 2006-12-21 ES ES200700013A patent/ES2302640B1/es not_active Expired - Fee Related
-
2007
- 2007-11-30 WO PCT/ES2007/000692 patent/WO2008074903A1/es active Application Filing
- 2007-11-30 US US12/520,654 patent/US20100094635A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1255193A2 (en) * | 2001-05-04 | 2002-11-06 | Microsoft Corporation | Servers for web enabled speech recognition |
EP1482481A1 (en) * | 2003-05-29 | 2004-12-01 | Microsoft Corporation | Semantic object synchronous understanding implemented with speech application language tags |
Also Published As
Publication number | Publication date |
---|---|
WO2008074903A1 (es) | 2008-06-26 |
US20100094635A1 (en) | 2010-04-15 |
ES2302640A1 (es) | 2008-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2302640B1 (es) | Sistema para la interaccion mediante voz en paginas web. | |
US10430514B2 (en) | Method and terminal for extracting webpage content, and non-transitory storage medium | |
JP4871885B2 (ja) | ウェブ・ベースの多モード・インターフェースを用いるユーザ検証 | |
US9177551B2 (en) | System and method of providing speech processing in user interface | |
US11183188B2 (en) | Voice assistant-enabled web application or web page | |
US20200302911A1 (en) | Method for reading webpage information by speech, browser client, and server | |
KR102041618B1 (ko) | 인공지능 음성인식을 위한 기계학습 기반 자연어 말뭉치 구축 서비스 제공 시스템 및 방법 | |
BR112017013524B1 (pt) | Dispositivo de computação, método e dispositivo de armazenamento legível por computador para conclusão de tarefas sem orientação dentro de assistentes pessoais digitais | |
US10972458B1 (en) | Methods and systems for authentication assistant | |
JP2020505643A (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
US11308949B2 (en) | Voice assistant response system based on a tone, keyword, language or etiquette behavioral rule | |
ES2254664T3 (es) | Procedimiento para permitir la interaccion por voz con una pagina web. | |
US20180272240A1 (en) | Modular interaction device for toys and other devices | |
WO2014190901A1 (zh) | 语法编译方法、语义解析方法、装置、计算机存储介质和设备 | |
WO2013189342A2 (zh) | 一种信息处理方法和移动终端 | |
KR102549204B1 (ko) | 음성인식 서비스를 제공하는 단말, 서버 및 방법 | |
KR20240115216A (ko) | 음성 신호 처리 방법 및 장치 | |
JP4467226B2 (ja) | ウェブ対応音声認識用サーバの方法および記録媒体 | |
US20230153541A1 (en) | Generating and updating conversational artifacts from apis | |
CN108737328A (zh) | 一种浏览器用户代理识别方法、系统及装置 | |
Lojka et al. | Multi-thread parallel speech recognition for mobile applications | |
KR102184053B1 (ko) | 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법 | |
US20170162193A1 (en) | Browser operation method and electronic device | |
WO2019207421A1 (en) | Navigation and cognitive dialog assistance | |
CN114596840A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EC2A | Search report published |
Date of ref document: 20080716 Kind code of ref document: A1 |
|
FD2A | Announcement of lapse in spain |
Effective date: 20180912 |