ES2271069T3

ES2271069T3 - Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal.

Info

Publication number: ES2271069T3
Application number: ES01965487T
Authority: ES
Inventors: Larry Brocious; Stephen Feustel; James Hennessy; Michael Howland; Steven Pritko
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-09-27
Filing date: 2001-09-19
Publication date: 2007-04-16
Anticipated expiration: 2021-09-19
Also published as: US6745163B1; EP1320847A1; KR20030040486A; JP2004510276A; JP4769407B2; DE60124280D1; EP1320847B1; AU8612501A; WO2002027710A1; KR100586766B1; CN1466746A; DE60124280T2; CA2417146C; CN1184613C; ATE344518T1; CA2417146A1

Abstract

Un método implementado por computadora para sincronizar una presentación de audio y visual en un proveedor de múltiples modos, o multi-modo, que comprende las etapas de: recibir un documento que incluye código de lenguaje de agregación de hojeador o navegador que incluye etiquetas para componentes de audio y etiquetas para componentes visuales; estructurar sintácticamente el texto contenido en el documento recibido con el fin de construir un árbol de modelo (424) que contiene elementos de modelo para cada etiqueta contenida en dicho código; atravesar o recorrer el árbol de modelo (424) con el fin de construir unas vistas visual (416) y de audio (402); generar un componente audible asociado con el texto basándose en un elemento de vista de audio que apunta a una etiqueta para un componente de audio; y presentar visualmente el texto basándose en un elemento de vista de vídeo que apunta a una etiqueta para un componente visual, mientras se está reproduciendo el componente audible generado.

Description

Método y sistema para sincronizar una presentación visual y de audio en un generador de contenidos multi-modal.

Campo técnico de la invención

La presente invención se refiere generalmente a un proveedor de contenidos audiovisuales de múltiples modos, o multi-modo, y, más particularmente, a un proveedor de contenidos de múltiples modos que procura simultáneamente contenidos visual y verbalmente de una manera sincronizada.

Antecedentes de la invención

En la técnica actual, los proveedores de contenidos (por ejemplo, los hojeadores o navegadores de Web) no sincronizan directamente la presentación de audio y de vídeo de material relacionado y, en la mayoría de los casos, son exclusivos de cada una de ellas. La presentación de contenidos codificados en Lenguaje de Agregación de Hipertexto (HTML -"HyperText Markup Language") en un navegador estándar (por ejemplo, el Netscape o el Internet Explorer) es fundamentalmente visual. La velocidad y el método de progresión a través de la presentación se encuentran bajo el control del usuario. El usuario puede leer la totalidad de los contenidos de principio a fin, efectuando despliegues según sea necesario si el contenido suministrado es susceptible de despliegue (es decir, si los contenidos visuales se extienden más allá de los límites de la ventana de presentación). El usuario puede también efectuar un muestreo o exploración del contenido y leer, por ejemplo, únicamente el principio y el fin. Fundamentalmente, todas las estrategias de que se dispone para examinar detenidamente un libro, un periódico u otro artículo impreso, se encuentran disponibles para el uso de un navegador estándar.

La presentación de contenidos de audio tiende a ser mucho más lineal. Los contenidos hablados de conversación normal discurren desde un comienzo, a través de una parte media y hasta un final; el usuario no tiene control directo sobre esta progresión. Esto puede superarse en cierto grado en los medios grabados por medio de la indexación o avance paso a paso y la búsqueda rápida, pero es difícil conseguir la misma facilidad de acceso aleatorio de que se dispone con el material impreso. Los navegadores controlados por voz están típicamente relacionados con el control por voz de la entrada del navegador o con diversos métodos para distinguir de forma audible un enlace de HTML durante la salida audible. Los navegadores conocidos de la técnica anterior no tienen que ver con aspectos de sincronización general entre los componentes de audio y visuales.

Existen diversas situaciones en las que una persona puede estar interesada en la recepción simultánea de presentaciones sincronizadas de audio y visual de una materia de objeto concreta. Por ejemplo, en un ajuste o reglaje de automoción, un conductor y/o un pasajero pueden interactuar a modo de interfaz con un dispositivo. Mientras conduce, el conductor, como es obvio, no puede leer visualmente una pantalla o monitor sobre el que se está presentando visualmente la información. El conductor puede, sin embargo, seleccionar opciones relativas a la información que él o ella desea que el navegador presente de forma audible. El pasajero, sin embargo, puede desear continuar con la lectura de la pantalla a la vez que se lee en voz alta la parte de audio.

Considérese también la situación de un adulto analfabeto o semi-analfabeto. Él o ella puede seguir el navegador mientras éste está leyendo el texto y utilizarlo para aprender el modo como leer y reconocer nuevas palabras. Semejante navegador puede también ayudar al adulto a la hora de aprender a leer, al proporcionarle contenidos para adultos en lugar de los contenidos enfocados a los niños que aprenden a leer. Finalmente, una persona visualmente impedida que desea interactuar con el navegador puede "ver" y encontrar texto destacado, aunque él o ella puedan no ser capaces de leerlo.

Existen diversos retos en la presentación simultánea de contenidos entre los modos de audio y de vídeo. El principal es sincronizar las dos presentaciones. Por ejemplo, un fragmento largo de contenidos puede ser proporcionado visualmente en múltiples páginas.

Una complicación adicional es que puede no existir una relación de correspondencia de uno a uno entre la presentación visual y la presentación audible. Algunas aplicaciones pueden desear que algunas partes del contenido se sirvan o faciliten tan solo visualmente, sin que sean habladas. Algunas aplicaciones pueden requerir que los contenidos sean hablados, sin que haya ninguna aportación visual. Otros casos se encuentran en algún punto intermedio. Por ejemplo, una aplicación puede desear que se lea el nombre completo de una persona al tiempo que se presenta visualmente un apodo.

La Patente norteamericana Nº 5.884.266, expedida a Dvorak y titulada "Interfaz de audio para documento basada en la navegación de recursos de información, y Método para la misma" ("Audio Interface for Document Based on Information Resource Navigation and Method Therefor"), incorpora la idea consistente en presentar enlaces de agregación al usuario mediante el uso de sonidos auditivamente distintos, o bien de características del habla tales como una voz diferente, a fin de permitir al usuario distinguir los enlaces de la agregación sin enlaces.

La Patente norteamericana Nº 5.890.123, expedida a Brown et al. y titulada "Sistema y método para la presentación visual en pantalla de vídeo, controlada por voz" ("System and Method for Voiced Controlled Video Screen Display"), se refiere a órdenes verbales para la manipulación del navegador una vez que se han facilitado los contenidos. Esta Patente se concentra fundamentalmente en compendiar el contenido a medida que es presentado visualmente, y en utilizar esto para aumentar la posible interacción verbal.

La Patente norteamericana Nº 5.748.186, expedida a Raman y titulada "Sistema de presentación de información de múltiples modos" ("Multimodal Information Presentation System"), se refiere a la obtención de información, al establecimiento de un modelo de ésta como una representación intermedia común, y la provisión de múltiples maneras, o vistas, para llegar al interior de los datos. Sin embargo, la Patente de Raman no describe el modo como se realiza la sincronización.

El documento WO-A1-00/21057 describe un método para proporcionar señales audibles de una manera sincronizada con texto resaltado.

Sumario de la invención

En consecuencia, es un propósito de la presente invención proporcionar un proveedor de múltiples modos, o multi-modo, que procure simultáneamente contenidos visual y verbalmente de una manera sincronizada.

Otro propósito de la invención consiste en proporcionar un proveedor de múltiples modos que haga posibles contenidos codificados con el uso de un conjunto de etiquetas de agregación basadas en el Lenguaje de Agregación Extensible (XML -"eXtensible Markup Language"), de modo que sean leídos de manera audible para el usuario.

La presente invención, según se define por las reivindicaciones, proporciona un sistema y un método para facilitar de forma simultánea contenidos visual y verbalmente de una manera sincronizada. La invención facilita un documento a un usuario tanto visual como audiblemente. El comportamiento que se desea para el proveedor de contenidos consiste en que, al tiempo que se está escuchando alguna sección o fragmento de ese contenido por parte del usuario, esa sección es visible en la pantalla y, por otra parte, en que el contenido visual específico (por ejemplo, la palabra o la frase) que está siendo facilitada de forma audible, se destaca o resalta visualmente. Además de ello, la invención también reacciona ante una entrada de múltiples modos, o multi-modo (ya sea una entrada táctil, ya sea una entrada de voz). La invención permite también que una aplicación o servidor sea accesible por parte de alguien a través de medios de audio, en lugar de medios visuales, al disponer el código de Lenguaje de Agregación de Navegador Embebido (EBML -"Embedded Browser Markup Language") de manejo del proveedor de tal manera que es leído de forma audible para el usuario. Pueden también combinarse aseveraciones o sentencias de EBLM de tal manera que lo que se lee de forma audible para el usuario está relacionado con, pero no es idéntico a, el texto visual. La presente invención resuelve también el problema de sincronizar las presentaciones de audio y visual de contenido cambiante, por medio de cambios en el lenguaje de agregación, en lugar de por medio de cambios en el código de la aplicación.

El lenguaje de agregación de EBML constituye un subconjunto del Lenguaje de Agregación de Hipertexto (HTML -"HyperText Markup Language"), que consiste en una colección bien conocida de etiquetas de agregación que se utilizan básicamente en asociación con la porción de Red de Extensión Mundial (WWW -"World Wide Web") de la Internet. El EBML integra también diversas etiquetas a partir de un conjunto de etiquetas diferentes, el Lenguaje de Agregación de Habla de Java (JSML -"Java Speech Markup Language"). El JSML contiene etiquetas destinadas a controlar la aportación de audio. El lenguaje de agregación de la presente invención proporciona etiquetas destinadas a sincronizar y coordinar los componentes visual y verbal de una página de web. Por ejemplo, el texto que aparece entre las etiquetas <SILENCIO> ("<SILENT>") y </SILENCIO> ("</SILENT>") aparecerá en la pantalla pero no se facilitará de forma audible. El texto que aparece entre <INVISIBLE> e </INVISIBLE> será hablado pero no visto. Una etiqueta <DECIRCOMO> ("<SAYAS>"), adaptada del JSML, permite que se hable (o reproduzca) texto (o audio grabado tal como archivos de WAV, el formato de audio digital nativo u original que se utiliza en el sistema operativo Microsoft Windows®) que difiere del contenido que se facilita visualmente.

El método para sincronizar una presentación de audio y visual en el hojeador o navegador de múltiples modos incluye las etapas de recibir un documento a través de una red informática, estructurar sintácticamente o asignar una estructura constituyente al texto del documento, proporcionar un componente audible asociado al texto y transmitir simultáneamente a la salida el texto y los componentes audibles.

Una realización preferida de la presente invención proporciona un método y un sistema tales que, cuando se está escuchando alguna sección o fragmento de ese contenido por parte del usuario, la sección es visible en la pantalla y, por otra parte, el contenido visual específico (por ejemplo, la palabra o la frase) que se está facilitando de forma audible se destaca o resalta visualmente de alguna manera. Esto implica el despliegue automático a medida que avanza la presentación de audio, así como un resalte de palabra en palabra.

Breve descripción de los dibujos

Los siguientes y otros propósitos, aspectos y ventajas se comprenderán mejor a partir de la siguiente descripción detallada de una realización preferida de la invención, con referencia a los dibujos, en los cuales:

la Figura 1 es un diagrama de flujo lógico que ilustra el método de la presente invención;

la Figura 2 es un ejemplo de una página facilitada con un componente susceptible de ser tocado, o táctil;

la Figura 3 es un diagrama de bloques de un sistema en el que se puede implementar la presente invención;

la Figura 4A es un diagrama de un ejemplo de un árbol de modelo;

la Figura 4B es un diagrama que muestra una representación general de la relación que existe entre un árbol de modelo y las vistas de audio y visual;

la Figura 5 muestra un ejemplo de un árbol de estructuración sintáctica generado durante la construcción de la vista;

la Figura 6 muestra un ejemplo de una interrelación de vista/modelo; y

la Figura 7 muestra un ejemplo de una interrelación de vista/modelo ajustada, una vez que se han descartado nodos innecesarios.

Descripción detallada de una realización preferida de la invención

Haciendo referencia, a continuación, a los dibujos y, más particularmente, a la Figura 1, se muestra en ella un diagrama de flujo lógico que ilustra el método de la presente invención. Se introduce un documento, o bien se recibe a través de una red informática, en el bloque de función 100. En el bloque de función 102, se asigna una estructura constituye al documento, o se estructura sintácticamente, con el propósito de separar el texto de las etiquetas de EBML. En el bloque de función 104, el documento, ya estructurado sintácticamente, se hace pasar al proveedor de EBML. Se realiza entonces una prueba en el bloque de decisión 106 con el fin de determinar si existe algo más del documento que se haya de facilitar. Si no es así, el procedimiento finaliza en 108; en caso contrario, se realiza una prueba en el bloque de decisión 112 con el fin de determinar si se ha de leer el texto del sub-documento literalmente. Si no es así, se presenta visualmente el componente visual y se lee una porción de audio que no corresponde literalmente al componente visual en el bloque de función 114. En el caso de que la determinación del bloque de decisión 112 sea que el texto se ha de leer literalmente, se presenta visualmente el componente visual y se lee una porción de audio que corresponde literalmente con el componente visual en el bloque de función 116. Una vez que se ha llevado a cabo una de las operaciones de los bloques de función 114 y 116, el procedimiento se realimenta o cierra un lazo de vuelta al bloque de decisión 106, hasta que se establece la determinación de que no existe más aportación que realizar.

La Figura 2 es un ejemplo de una página facilitada que tiene un componente susceptible de tocarse o táctil. Un usuario puede leer visualmente el texto de esta página conforme éste está siendo leído en voz alta. A medida que cada palabra está siendo leída de forma audible para el usuario, ésta es también destacada o resaltada, lo que hace más rápido y fácil identificar y tocar lo que acaba de ser leído (o las inmediaciones de lo que acaba de ser leído). De manera adicional, se presentan visualmente unos botones 202 y 204 que facilitan al lector avanzar hasta la siguiente pantalla o volver a una pantalla previa, respectivamente. Al generar su EBML correctamente, la aplicación puede leer todos los artículos en orden, pero saltarse el artículo presente en ese momento en el caso de que se pulse, por ejemplo, el botón 202 existente en la pantalla. Un conductor de un automóvil puede, por tanto, por ejemplo, concentrarse visualmente en la carretera, escuchar el tema/título de un artículo y encontrar rápidamente el botón de avance 202 en la pantalla táctil si el artículo no es de interés. En una realización preferida, el hojeador o navegador insta audiblemente al usuario a avanzar hasta la siguiente pantalla diciendo, por ejemplo, "para saltar este artículo, pulse el avance hasta el siguiente botón de pantalla". De manera adicional, es posible hacer que el botón quede resaltado con respecto al resto de la pantalla, tal como mediante destellos y/o con el uso de un color que haga que el botón se ponga fácilmente de manifiesto. La facilidad con la que un usuario puede presionar el botón 202 para saltar el artículo presente en ese momento, o el botón 204 para volver a un artículo previo, es comparable con la facilidad para encender la radio o seleccionar otro canal de radio.

La Figura 3 es un diagrama de bloques del sistema en el que puede ponerse en práctica la presente invención. El navegador de EBML 300 recibe contenidos embebidos en EBML desde una red 100. El navegador 300 hace pasar los contenidos a un dispositivo de estructuración sintáctica 302 en lenguaje EBML, el cual estructura sintácticamente el lenguaje de EBML de los contenidos recibidos. El dispositivo de estructuración sintáctica 302 proporciona entonces los contenidos que se han de facilitar al sincronizador de audio-vídeo 304, el cual sincroniza la salida de cada una de las porciones de audio y de vídeo del EBML original. El módulo de presentación visual 306 y el módulo 308 de texto a habla (TTS -"text to speech") reciben, ambos, la salida del sincronizador de audio-vídeo 304. El módulo de TTS 308 prepara la porción de audio de la página de EBML que se ha de leer, y el módulo de presentación visual 306 representa visualmente la porción visual de tal manera que ésta está sincronizada con la porción de audio procedente del módulo de TTS 308.

En una realización preferida de la presente invención, existen tres etapas entre la estructuración sintáctica del EBML y la finalización del aporte que habilitan y llevan a cabo el aporte auditivo y visual sincronizados de los contenidos: a) la construcción del modelo; b) la construcción de las vistas del modelo; y c) el aporte.

Haciendo referencia a continuación a la etapa de construcción del modelo de la presente invención, que sincroniza los componentes de audio y visual, cuando el lenguaje de agregación se estructura sintácticamente por parte del dispositivo de estructuración sintáctica 302, se construye un árbol de modelo que contiene elementos de modelo para cada etiqueta contenida en el lenguaje de agregación. Los elementos para las etiquetas intercaladas aparecen por debajo de sus elementos padres en el árbol de modelo. Por ejemplo, se obtendrá como resultado el siguiente código

100

en el árbol de modelo que se muestra en la Figura 4A. Específicamente, el ElementoP 456 (para párrafo) aparece por debajo del ElementoDecirComo 454. El ElementoDecirComo 454, a su vez, aparece por debajo del ElementoCuerpo 452. Finalmente, el ElementoCuerpo 452 es un hijo del ElementoEBML 450. El texto en sí (por ejemplo, "Este texto es visible") está contenido en un elemento de texto especial 458 situado en el fondo del árbol.

Haciendo referencia, a continuación, a la etapa de construcción de las vistas de la invención, como se muestra en la Figura 4B, una vez que se ha construido el árbol de modelo 424 de acuerdo con el código de fuente proporcionado, éste es recorrido para crear vistas de audio 402 y visual 416 independientes del modelo. La vista de audio 402 contiene una cola de elementos de audio (404, 406, 408, 410 y 414) que constituyen objetos que representan, bien elementos que se han de pronunciar por, por ejemplo, un dispositivo generador 304 de voz de paso de texto a habla o por algún reproductor de medio, o bien elementos que permiten el control del flujo de audio (por ejemplo, la ramificación en la cola de audio, la realización de pausas, etc.). La Vista visual 416 contiene una representación de los contenidos utilizables por algún sistema 440 de estructuración en ventanas para el aporte visual de los componentes (418, 420, 422).

Como se pasa por cada elemento (426, 434, 428, 430, 432, 440, 442, 438, 436) del árbol de modelo 424, se instruye la construcción de sus vistas visual 416 y de audio 402. El aporte visual o auditivo del texto existente dentro de una etiqueta dada difiere dependiendo de dónde aparece esa etiqueta en el árbol de modelo 424. En general, los elementos obtienen los atributos visual y auditivo de su elemento padre en el árbol de modelo 424. El recorrido por el árbol de modelo 414 garantiza que los elementos padres son procesados antes que sus hijos, y garantiza, por ejemplo, que cualesquiera elementos intercalados dentro de una etiqueta <SILENCIO>, sin importar a qué profundidad, obtienen un atributo de silencio. El recorrido es una técnica ampliamente conocida por parte de los expertos de la técnica y no necesita ninguna explicación adicional.

El elemento presente en ese momento modifica entonces los atributos para reflejar su propio comportamiento, afectando entonces a cualesquiera nodos que caigan por debajo de él en el árbol. Por ejemplo, un ElementoSilencio establece el atributo audible como falso. Cualesquiera nodos que caigan por debajo del nodo <SILENCIO> en el árbol (es decir, que estaban contenidos dentro de la construcción de EBML <SILENCIO>), adoptan un atributo de audio que es consistente con los establecidos por sus antecesores. Un elemento puede también alterar las vistas. Por ejemplo, en una realización preferida, un ElementoDecirComo, como el ElementoSilencio, establecerá el atributo audible como falso, puesto que se va a decir o pronunciar alguna otra cosa en lugar de cualquier texto contenido. De manera adicional, sin embargo, éste introducirá un objeto u objetos en la vista de audio 402 para pronunciar el contenido de reemplazo que está contenido en los atributos de etiqueta (SUB = "Este texto es hablado.").

Finalmente, las etiquetas y el texto contenidos (es decir, los elementos hijos) son procesados o tratados. Un nodo se considera un padre para cualesquiera nodos que caigan por debajo de él en un árbol 424. De esta forma, por ejemplo, los nodos 434 y 436 del árbol de modelo 424 son nodos hijos del nodo 426, y el nodo 426 es un nodo padre de los nodos 434 y 436. Además del hecho de que un nodo es el responsable de la generación de un elemento de Salida de Audio (404, 406, 408, 410, 412 y 414, en la Figura 4B) éstos también tienen que generar una presencia visual (418, 420 y 422 en la Figura 4B).

En cuanto a los elementos de etiqueta contenidos (por ejemplo, 434 y 436), tan solo se pide a estos que construyan sus propias vistas (es decir, el recorrido del árbol continúa). Por lo que respecta a los elementos de texto contenidos, el texto es procesado o tratado de acuerdo con la totalidad de los atributos acumulados. Así, por ejemplo, si los atributos indican un contenido audible pero no visual, la vista de audio 402 es modificada pero no se añade nada a la vista visual 416. En una realización preferida, la mayor parte de la información acerca del modo como procesar el texto se encuentra acumulada en los atributos de texto, de tal manera que la mayor parte de los elementos no necesitan encargarse del procesamiento de su propio texto contenido. En lugar de ello, éstos buscan en el árbol de modelo 424 un elemento que tenga un método para procesar el texto. Únicamente los elementos que se ven implicados más tarde en el mantenimiento de la sincronización de las presentaciones visual y audible tienen métodos para procesar el texto (por ejemplo, el elemento 432). Estos elementos, como el ElementoDecirComo, proporcionan el enlace entre el contenido hablado y el contenido visual. Éstos se registran a sí mismos como objetos en la cola de audio 402, de tal manera que reciben una notificación cuando se pronuncian o reproducen palabras o espacios de audio, y mantienen referencias a los componentes de vista visual correspondientes. Por lo tanto, son únicamente los elementos que tienen un comportamiento único por lo que respecta a la pronunciación o al resalte, los que necesitan tener sus propios métodos para procesar el texto. Por ejemplo, un ElementoDecirComo debe gestionar el hecho de que se ha de resaltar o destacar un bloque determinado de texto al tiempo que se está facilitando un contenido de audio completamente diferente, ya sea por parte de un sintetizador TTS, ya sea por un espacio de audio previamente grabado. La mayor parte de los elementos que no han de gestionar ningún comportamiento especial semejante y que no aparecen en el árbol bajo otros elementos con un comportamiento especial, terminan por utilizar el procesamiento de texto por defecto proporcionado por el ElementoEBML de una sola raíz, el cual centraliza el resalte normal de palabra en
palabra.

Como tan solo se utilizan elementos seleccionados dentro del árbol de modelo 424 para mantener el enlace entre las vistas de audio y visual, es necesario que éstos persistan más allá de la fase de construcción de las vistas y dentro de la fase de aportación del contenido. Una ventaja de este método de construcción de las vistas es que todos los otros elementos del árbol (típicamente, la inmensa mayoría) no son ya necesarios durante la fase de aporte y pueden ser borrados. Los elementos que son prescindibles (434, 436, 438, 440, 442) se han dibujado en la Figura 4B con líneas de puntos. Este beneficio puede dar lugar a ahorros drásticos de almacenamiento. Una página típica de agregación puede dar lugar a que se construyan cientos de etiquetas y nodos de texto. Una vez que se han construido las vistas de audio y visual, puede persistir un pequeño puñado de estos nodos con el fin de procesar sucesos del habla (y mantener la sincronización entre las vistas) durante la presentación de las vistas.

Durante el aporte del contenido, el proveedor realiza iteraciones a través de la vista de audio 402. La vista de audio 402 consiste ahora en una serie de objetos que especifican y controlan la progresión del audio, los cuales incluyen:

\bullet objetos que contienen texto que se ha de pronunciar;

\bullet objetos que marcan la entrada/salida a los elementos;

\bullet objetos que solicitan una pausa susceptible de interrumpirse a la presentación de audio; y

\bullet objetos que solicitan una recolocación o reubicación de la vista de audio 402 (incluyendo la capacidad de realimentarse o cerrar un lazo de vuelta y repetir parte de la cola de audio).

A medida que se procesan los sucesos, se notifica el elemento apropiado retenido (426, 428, 430, 432) en el árbol de modelo 424. El árbol de modelo 424 comunica, a su vez, a los componentes visuales correspondientes (428, 420, 422) el comportamiento de resalte apropiado y les solicita que se hagan visibles (es decir, les solicita que comuniquen a su ventana, que los contiene, que se despliegue según sea necesario).

Con el fin de comprender adicionalmente las etapas que se requieren para construir/facilitar un documento, considérese el siguiente documento de EBML sencillo:

101

El dispositivo de estructuración sintáctica 302 crea el árbol de modelo que se ha ilustrado en la Figura 5. Los nodos <EBML> 502 y <DECIRCOMO>504 se han indicado utilizando un óvalo acentuado, ya que estos nodos se han diseñado para manejar texto para los que se encuentran en su árbol descendente (existen otras etiquetas en esta categoría, pero ocurre que éstas son las dos etiquetas que se dan en este ejemplo). Son estos dos nodos los que realizan la adición real de texto a las vistas de audio/visual. Los nodos que no son de texto (506, 508, 510, 512, 514) se han representado con los óvalos que contienen los nombres de las etiquetas. El navegador se sirve de este árbol de modelo 512 durante la construcción de las vistas de audio y visual. Nótese que los nodos de terminal (516, 518, 520, 522) se han indicado con un polígono. Estos nodos contienen el texto real procedente del documento. Los nodos que caen por debajo en el árbol sencillamente hacen pasar la petición de construcción hacia arriba por el árbol sin que importe a qué nodo se entregará la petición.

Una vez que se ha completado la estructuración sintáctica del documento, el navegador recorre el árbol de modelo 524 y comienza la construcción de las diversas vistas que se requieren. A medida que se llega a la rutina de construcción de cada nodo, ésta puede hacer varias cosas. En primer lugar, es posible alterar el objeto del atributo de texto presente en ese momento, lo que afectará a la presentación de texto por parte de los que se encuentran por debajo en el árbol. Por ejemplo, si se llega a una etiqueta <FUENTE>, el nodo de etiqueta <FUENTE> altera el objeto del atributo de texto con el fin de indicar que las peticiones de construcción de vista visual subsiguientes deberán utilizar una fuente concreta para cualquier texto contenido. Los nodos situados por debajo hacen honor a este atributo debido a que cada uno de ellos obtiene la copia de sus padres del objeto del atributo antes de comenzar a trabajar. En segundo lugar, la rutina de construcción puede remitirse ascendiendo por el árbol de modelo 524 a sus antecesores y pedirles que les entreguen un segmento de texto concreto. Esto es el comportamiento por defecto para los nodos de texto. Finalmente, la rutina de construcción puede afectar directamente a la vista. Por ejemplo, el nodo de etiqueta <P> puede empujar un objeto de salto a nueva línea hasta la vista visual presente en ese momento, con lo que se provoca que el flujo visual del texto se vea interrumpido. De la misma manera la etiqueta <RUPTURA> puede empujar un objeto de ruptura de audio hasta la cola de audio, con lo que se provoca una breve pausa en la salida de audio.

En cuanto a los nodos que se remiten ascendiendo por el árbol de sus ancestros para solicitar el texto que se les ha de entregar, los nodos que implementan esta función (<EMBL> y <DECIRCOMO> en este ejemplo) son los responsables de la construcción de las vistas de audio/visual, así como de la coordinación y la sincronización que se requiere durante la presentación.

La Figura 6 ilustra las relaciones que existen entre las vistas y el modelo para el EBML del ejemplo, una vez que se ha completado la construcción. A medida que se construye la cola de audio 402, se mantienen las referencias a los nodos responsables de la sincronización de las vistas de audio/visual. Por ejemplo, el elemento 602 de vista de Audio 402 apunta a la etiqueta DECIRCOMO 504, y el elemento de cola de audio 604, 606 y 608 apunta a la etiqueta de EBML 502. Esto permite que los sucesos suministrados por el dispositivo generador 304 de habla sean canalizados hacia el nodo correcto. El modelo, a su vez, mantiene referencias a los componentes apropiados de la presentación visual. Esto hace posible que los nodos de modelo implementen cualquier comportamiento sincronizado que se requiera a medida que el texto esté siendo presentado auditivamente. En este ejemplo, el nodo <DECIRCOMO> 504 se ocupa de sincronizar las diferentes presentaciones de audio y visual de los elementos 602 y 526. El nodo <EBML> 502 proporciona el comportamiento por defecto en el caso de que las presentaciones de audio y visual sean la misma, tal como se muestra por los elementos 604, 606, 608 y los elementos 528, 530 y 532, respectivamente.

Una vez que se han construido las vistas, se dan instrucciones al modelo para que disuelva cualesquiera referencias que se mantengan dentro del árbol. Por ejemplo, el Lenguaje de Programación Java ("Java Programming Language") permite a la "recogida de la basura" contenida en la Máquina Virtual Java ("Java Virtual Machine") recoger los nodos que no son necesarios para proporcionar la sincronización durante la presentación. Es posible utilizar otros sistemas de "recogida de basura" con el fin de recuperar automáticamente los nodos. Los nodos que se requieren para la sincronización son anclados o afianzados por la vista de audio 402 y, por tanto, evitan ser recogidos.

La Figura 7 muestra el árbol con las referencias disueltas. Los nodos disponibles para ser recogidos como desecho se han mostrado con líneas de puntos (506, 508, 510, 512, 514, 516, 518, 520 y 522).

Claims

1. Un método implementado por computadora para sincronizar una presentación de audio y visual en un proveedor de múltiples modos, o multi-modo, que comprende las etapas de:

recibir un documento que incluye código de lenguaje de agregación de hojeador o navegador que incluye etiquetas para componentes de audio y etiquetas para componentes visuales;

estructurar sintácticamente el texto contenido en el documento recibido con el fin de construir un árbol de modelo (424) que contiene elementos de modelo para cada etiqueta contenida en dicho código;

atravesar o recorrer el árbol de modelo (424) con el fin de construir unas vistas visual (416) y de audio (402);

generar un componente audible asociado con el texto basándose en un elemento de vista de audio que apunta a una etiqueta para un componente de audio; y

presentar visualmente el texto basándose en un elemento de vista de vídeo que apunta a una etiqueta para un componente visual, mientras se está reproduciendo el componente audible generado.

2. El método implementado por computadora para sincronizar una presentación de audio y visual en un proveedor de múltiples modos, de acuerdo con la reivindicación 1, que comprende adicionalmente la etapa de destacar o resaltar visualmente ciertas porciones del texto visualmente presentado, correspondientes al componente audible generado y reproducido.

3. El método implementado por computadora, de acuerdo con la reivindicación 2, que comprende adicionalmente la etapa de desplegar automáticamente el texto visualmente presentado con el fin de mantener una correspondencia entre el texto visualmente presentado y el componente audible generado y reproducido.

4. El método implementado por computadora, de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el componente audible se corresponde literalmente con el texto.

5. El método implementado por computadora, de acuerdo con una cualquiera de las reivindicaciones 1 a 3, en el cual el componente audible está relacionado con el texto pero no se corresponde literalmente con éste.

6. El método implementado por computadora, de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el componente audible es un espacio previamente grabado.

7. El método implementado por computadora, de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el documento es recibido desde una red.

8. El método implementado por computadora, de acuerdo con la reivindicación 7, en el cual el proveedor de múltiples modos, o multi-modo, es un hojeador o navegador de red.

9. El método implementado por computadora, de acuerdo con cualquiera de las reivindicaciones precedentes, que comprende adicionalmente la etapa de presentar visualmente botones que, cuando se pulsan por un usuario, hacen avanzar el texto visualmente presentado para saltarse un artículo presente en ese momento o regresar a un artículo previo.

10. El método implementado por computadora, de acuerdo con la reivindicación 9, que comprende adicionalmente la etapa de destacar o resaltar los botones visualmente presentados con el fin de facilitar su selección por parte del usuario.

11. Un sistema informático para sincronizar una presentación de audio y visual en un proveedor de múltiples modos, que comprende:

un dispositivo de entrada, destinado a recibir un documento que incluye código de lenguaje de agregación de navegador que incluye etiquetas para componentes de audio y etiquetas para componentes visuales;

un dispositivo de estructuración sintáctica, destinado a estructurar sintácticamente el texto contenido en el documento recibido con el fin de construir un árbol de modelo (424) que contiene elementos de modelo para cada etiqueta contenida en dicho código;

medios para atravesar o recorrer el modelo de árbol (424) con el fin de construir unas vistas visual (416) y de audio (402);

medios para generar un componente audible asociado con el texto basándose en un elemento de vista de audio que apunta a una etiqueta para un componente de audio; y

\global\parskip0.940000\baselineskip

un dispositivo de presentación visual, destinado a presentar visualmente el texto basándose en un elemento de vista de vídeo que apunta a una etiqueta para un componente visual, mientras se está reproduciendo el componente audible generado.

12. El sistema informático de acuerdo con la reivindicación 11, en el cual el dispositivo de presentación visual incluye medios para destacar o resaltar ciertas porciones del texto visualmente presentado, correspondientes al componente audible generado y reproducido.

13. El sistema informático de acuerdo con la reivindicación 11, que incluye medios para desplegar automáticamente el texto visualmente presentado para que coincida con el componente de audio, por lo que el texto correspondiente al componente audible generado y reproducido se mantiene en la vista.

14. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 13, en el cual el componente audible se corresponde literalmente con el texto visualmente presentado.

15. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 13, en el cual el componente audible está relacionado con el texto visualmente presentado pero no se corresponde literalmente con éste.

16. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 15, en el cual el componente audible es un espacio previamente grabado.

17. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 16, que incluye medios para recibir el documento desde una red.

18. El sistema informático de acuerdo con la reivindicación 17, en el cual el proveedor de múltiples modos, o multi-modo, es un hojeador o navegador.

19. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 18, en el cual dicho dispositivo de presentación visual, en funcionamiento, está dispuesto de manera que presenta visualmente botones que, cuando se pulsan por un usuario, hacen avanzar el texto visualmente presentado para saltarse un artículo presente en ese momento o regresar a un artículo previo.

20. El sistema informático de acuerdo con la reivindicación 19, en el cual los botones visualmente presentados son destacados o resaltados con el fin de facilitar su selección por parte del usuario.

21. Un producto de programa informático que comprende código de programa informático que, cuando se lleva a cabo o ejecuta, controla una computadora para sincronizar componentes de audio y visuales dentro de un proveedor de contenidos, de tal modo que el producto de programa informático comprende:

un primer código de programa informático para estructurar sintácticamente el texto contenido en un documento, el cual incluye código de lenguaje de agregación de navegador, que incluye etiquetas para componentes de audio y etiquetas para componentes visuales, de tal modo que dicho primer código de programa informático construye un árbol de modelo (424) que contiene elementos de modelo para cada etiqueta contenida en dicho código y lenguaje de agregación de navegador; y

un segundo código de programa informático para generar un componente audible asociado con el texto basándose en un elemento de vista de audio desarrollado por dicho recorrido por dicho árbol de modelo (424) y que apunta a una etiqueta para un componente de audio; y

un tercer código de programa para presentar visualmente el texto basándose en un elemento de vista de vídeo desarrollado por dicho recorrido por dicho árbol de modelo (424) y que apunta a una etiqueta para un componente visual, mientras se está reproduciendo el componente audible generado.

22. El programa informático de acuerdo con la reivindicación 21, que comprende adicionalmente un cuarto código de programa informático destinado a destacar o resaltar visualmente ciertas porciones del texto visualmente presentado, correspondientes al componente audible generado y reproducido.

23. El programa informático de acuerdo con la reivindicación 22, que comprende adicionalmente un quinto código de programa informático para determinar cuándo el componente audible se corresponde literalmente con el texto.

24. El programa informático de acuerdo con la reivindicación 22, que comprende adicionalmente un sexto código de programa informático destinado a determinar cuándo el componente audible está relacionado con el texto pero no se corresponde literalmente con éste.

25. El programa informático de acuerdo con la reivindicación 24, que comprende adicionalmente un séptimo código de programa informático para desplegar automáticamente el texto visualmente presentado para que coincida con el componente de audio generado y reproducido.