ES2271069T3 - Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal. - Google Patents

Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal. Download PDF

Info

Publication number
ES2271069T3
ES2271069T3 ES01965487T ES01965487T ES2271069T3 ES 2271069 T3 ES2271069 T3 ES 2271069T3 ES 01965487 T ES01965487 T ES 01965487T ES 01965487 T ES01965487 T ES 01965487T ES 2271069 T3 ES2271069 T3 ES 2271069T3
Authority
ES
Spain
Prior art keywords
text
audio
visual
component
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01965487T
Other languages
English (en)
Inventor
Larry Brocious
Stephen Feustel
James Hennessy
Michael Howland
Steven Pritko
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of ES2271069T3 publication Critical patent/ES2271069T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Computer Security & Cryptography (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)
  • Synchronizing For Television (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Un método implementado por computadora para sincronizar una presentación de audio y visual en un proveedor de múltiples modos, o multi-modo, que comprende las etapas de: recibir un documento que incluye código de lenguaje de agregación de hojeador o navegador que incluye etiquetas para componentes de audio y etiquetas para componentes visuales; estructurar sintácticamente el texto contenido en el documento recibido con el fin de construir un árbol de modelo (424) que contiene elementos de modelo para cada etiqueta contenida en dicho código; atravesar o recorrer el árbol de modelo (424) con el fin de construir unas vistas visual (416) y de audio (402); generar un componente audible asociado con el texto basándose en un elemento de vista de audio que apunta a una etiqueta para un componente de audio; y presentar visualmente el texto basándose en un elemento de vista de vídeo que apunta a una etiqueta para un componente visual, mientras se está reproduciendo el componente audible generado.

Description

Método y sistema para sincronizar una presentación visual y de audio en un generador de contenidos multi-modal.
Campo técnico de la invención
La presente invención se refiere generalmente a un proveedor de contenidos audiovisuales de múltiples modos, o multi-modo, y, más particularmente, a un proveedor de contenidos de múltiples modos que procura simultáneamente contenidos visual y verbalmente de una manera sincronizada.
Antecedentes de la invención
En la técnica actual, los proveedores de contenidos (por ejemplo, los hojeadores o navegadores de Web) no sincronizan directamente la presentación de audio y de vídeo de material relacionado y, en la mayoría de los casos, son exclusivos de cada una de ellas. La presentación de contenidos codificados en Lenguaje de Agregación de Hipertexto (HTML -"HyperText Markup Language") en un navegador estándar (por ejemplo, el Netscape o el Internet Explorer) es fundamentalmente visual. La velocidad y el método de progresión a través de la presentación se encuentran bajo el control del usuario. El usuario puede leer la totalidad de los contenidos de principio a fin, efectuando despliegues según sea necesario si el contenido suministrado es susceptible de despliegue (es decir, si los contenidos visuales se extienden más allá de los límites de la ventana de presentación). El usuario puede también efectuar un muestreo o exploración del contenido y leer, por ejemplo, únicamente el principio y el fin. Fundamentalmente, todas las estrategias de que se dispone para examinar detenidamente un libro, un periódico u otro artículo impreso, se encuentran disponibles para el uso de un navegador estándar.
La presentación de contenidos de audio tiende a ser mucho más lineal. Los contenidos hablados de conversación normal discurren desde un comienzo, a través de una parte media y hasta un final; el usuario no tiene control directo sobre esta progresión. Esto puede superarse en cierto grado en los medios grabados por medio de la indexación o avance paso a paso y la búsqueda rápida, pero es difícil conseguir la misma facilidad de acceso aleatorio de que se dispone con el material impreso. Los navegadores controlados por voz están típicamente relacionados con el control por voz de la entrada del navegador o con diversos métodos para distinguir de forma audible un enlace de HTML durante la salida audible. Los navegadores conocidos de la técnica anterior no tienen que ver con aspectos de sincronización general entre los componentes de audio y visuales.
Existen diversas situaciones en las que una persona puede estar interesada en la recepción simultánea de presentaciones sincronizadas de audio y visual de una materia de objeto concreta. Por ejemplo, en un ajuste o reglaje de automoción, un conductor y/o un pasajero pueden interactuar a modo de interfaz con un dispositivo. Mientras conduce, el conductor, como es obvio, no puede leer visualmente una pantalla o monitor sobre el que se está presentando visualmente la información. El conductor puede, sin embargo, seleccionar opciones relativas a la información que él o ella desea que el navegador presente de forma audible. El pasajero, sin embargo, puede desear continuar con la lectura de la pantalla a la vez que se lee en voz alta la parte de audio.
Considérese también la situación de un adulto analfabeto o semi-analfabeto. Él o ella puede seguir el navegador mientras éste está leyendo el texto y utilizarlo para aprender el modo como leer y reconocer nuevas palabras. Semejante navegador puede también ayudar al adulto a la hora de aprender a leer, al proporcionarle contenidos para adultos en lugar de los contenidos enfocados a los niños que aprenden a leer. Finalmente, una persona visualmente impedida que desea interactuar con el navegador puede "ver" y encontrar texto destacado, aunque él o ella puedan no ser capaces de leerlo.
Existen diversos retos en la presentación simultánea de contenidos entre los modos de audio y de vídeo. El principal es sincronizar las dos presentaciones. Por ejemplo, un fragmento largo de contenidos puede ser proporcionado visualmente en múltiples páginas.
Una complicación adicional es que puede no existir una relación de correspondencia de uno a uno entre la presentación visual y la presentación audible. Algunas aplicaciones pueden desear que algunas partes del contenido se sirvan o faciliten tan solo visualmente, sin que sean habladas. Algunas aplicaciones pueden requerir que los contenidos sean hablados, sin que haya ninguna aportación visual. Otros casos se encuentran en algún punto intermedio. Por ejemplo, una aplicación puede desear que se lea el nombre completo de una persona al tiempo que se presenta visualmente un apodo.
La Patente norteamericana Nº 5.884.266, expedida a Dvorak y titulada "Interfaz de audio para documento basada en la navegación de recursos de información, y Método para la misma" ("Audio Interface for Document Based on Information Resource Navigation and Method Therefor"), incorpora la idea consistente en presentar enlaces de agregación al usuario mediante el uso de sonidos auditivamente distintos, o bien de características del habla tales como una voz diferente, a fin de permitir al usuario distinguir los enlaces de la agregación sin enlaces.
La Patente norteamericana Nº 5.890.123, expedida a Brown et al. y titulada "Sistema y método para la presentación visual en pantalla de vídeo, controlada por voz" ("System and Method for Voiced Controlled Video Screen Display"), se refiere a órdenes verbales para la manipulación del navegador una vez que se han facilitado los contenidos. Esta Patente se concentra fundamentalmente en compendiar el contenido a medida que es presentado visualmente, y en utilizar esto para aumentar la posible interacción verbal.
La Patente norteamericana Nº 5.748.186, expedida a Raman y titulada "Sistema de presentación de información de múltiples modos" ("Multimodal Information Presentation System"), se refiere a la obtención de información, al establecimiento de un modelo de ésta como una representación intermedia común, y la provisión de múltiples maneras, o vistas, para llegar al interior de los datos. Sin embargo, la Patente de Raman no describe el modo como se realiza la sincronización.
El documento WO-A1-00/21057 describe un método para proporcionar señales audibles de una manera sincronizada con texto resaltado.
Sumario de la invención
En consecuencia, es un propósito de la presente invención proporcionar un proveedor de múltiples modos, o multi-modo, que procure simultáneamente contenidos visual y verbalmente de una manera sincronizada.
Otro propósito de la invención consiste en proporcionar un proveedor de múltiples modos que haga posibles contenidos codificados con el uso de un conjunto de etiquetas de agregación basadas en el Lenguaje de Agregación Extensible (XML -"eXtensible Markup Language"), de modo que sean leídos de manera audible para el usuario.
La presente invención, según se define por las reivindicaciones, proporciona un sistema y un método para facilitar de forma simultánea contenidos visual y verbalmente de una manera sincronizada. La invención facilita un documento a un usuario tanto visual como audiblemente. El comportamiento que se desea para el proveedor de contenidos consiste en que, al tiempo que se está escuchando alguna sección o fragmento de ese contenido por parte del usuario, esa sección es visible en la pantalla y, por otra parte, en que el contenido visual específico (por ejemplo, la palabra o la frase) que está siendo facilitada de forma audible, se destaca o resalta visualmente. Además de ello, la invención también reacciona ante una entrada de múltiples modos, o multi-modo (ya sea una entrada táctil, ya sea una entrada de voz). La invención permite también que una aplicación o servidor sea accesible por parte de alguien a través de medios de audio, en lugar de medios visuales, al disponer el código de Lenguaje de Agregación de Navegador Embebido (EBML -"Embedded Browser Markup Language") de manejo del proveedor de tal manera que es leído de forma audible para el usuario. Pueden también combinarse aseveraciones o sentencias de EBLM de tal manera que lo que se lee de forma audible para el usuario está relacionado con, pero no es idéntico a, el texto visual. La presente invención resuelve también el problema de sincronizar las presentaciones de audio y visual de contenido cambiante, por medio de cambios en el lenguaje de agregación, en lugar de por medio de cambios en el código de la aplicación.
El lenguaje de agregación de EBML constituye un subconjunto del Lenguaje de Agregación de Hipertexto (HTML -"HyperText Markup Language"), que consiste en una colección bien conocida de etiquetas de agregación que se utilizan básicamente en asociación con la porción de Red de Extensión Mundial (WWW -"World Wide Web") de la Internet. El EBML integra también diversas etiquetas a partir de un conjunto de etiquetas diferentes, el Lenguaje de Agregación de Habla de Java (JSML -"Java Speech Markup Language"). El JSML contiene etiquetas destinadas a controlar la aportación de audio. El lenguaje de agregación de la presente invención proporciona etiquetas destinadas a sincronizar y coordinar los componentes visual y verbal de una página de web. Por ejemplo, el texto que aparece entre las etiquetas <SILENCIO> ("<SILENT>") y </SILENCIO> ("</SILENT>") aparecerá en la pantalla pero no se facilitará de forma audible. El texto que aparece entre <INVISIBLE> e </INVISIBLE> será hablado pero no visto. Una etiqueta <DECIRCOMO> ("<SAYAS>"), adaptada del JSML, permite que se hable (o reproduzca) texto (o audio grabado tal como archivos de WAV, el formato de audio digital nativo u original que se utiliza en el sistema operativo Microsoft Windows®) que difiere del contenido que se facilita visualmente.
El método para sincronizar una presentación de audio y visual en el hojeador o navegador de múltiples modos incluye las etapas de recibir un documento a través de una red informática, estructurar sintácticamente o asignar una estructura constituyente al texto del documento, proporcionar un componente audible asociado al texto y transmitir simultáneamente a la salida el texto y los componentes audibles.
Una realización preferida de la presente invención proporciona un método y un sistema tales que, cuando se está escuchando alguna sección o fragmento de ese contenido por parte del usuario, la sección es visible en la pantalla y, por otra parte, el contenido visual específico (por ejemplo, la palabra o la frase) que se está facilitando de forma audible se destaca o resalta visualmente de alguna manera. Esto implica el despliegue automático a medida que avanza la presentación de audio, así como un resalte de palabra en palabra.
Breve descripción de los dibujos
Los siguientes y otros propósitos, aspectos y ventajas se comprenderán mejor a partir de la siguiente descripción detallada de una realización preferida de la invención, con referencia a los dibujos, en los cuales:
la Figura 1 es un diagrama de flujo lógico que ilustra el método de la presente invención;
la Figura 2 es un ejemplo de una página facilitada con un componente susceptible de ser tocado, o táctil;
la Figura 3 es un diagrama de bloques de un sistema en el que se puede implementar la presente invención;
la Figura 4A es un diagrama de un ejemplo de un árbol de modelo;
la Figura 4B es un diagrama que muestra una representación general de la relación que existe entre un árbol de modelo y las vistas de audio y visual;
la Figura 5 muestra un ejemplo de un árbol de estructuración sintáctica generado durante la construcción de la vista;
la Figura 6 muestra un ejemplo de una interrelación de vista/modelo; y
la Figura 7 muestra un ejemplo de una interrelación de vista/modelo ajustada, una vez que se han descartado nodos innecesarios.
Descripción detallada de una realización preferida de la invención
Haciendo referencia, a continuación, a los dibujos y, más particularmente, a la Figura 1, se muestra en ella un diagrama de flujo lógico que ilustra el método de la presente invención. Se introduce un documento, o bien se recibe a través de una red informática, en el bloque de función 100. En el bloque de función 102, se asigna una estructura constituye al documento, o se estructura sintácticamente, con el propósito de separar el texto de las etiquetas de EBML. En el bloque de función 104, el documento, ya estructurado sintácticamente, se hace pasar al proveedor de EBML. Se realiza entonces una prueba en el bloque de decisión 106 con el fin de determinar si existe algo más del documento que se haya de facilitar. Si no es así, el procedimiento finaliza en 108; en caso contrario, se realiza una prueba en el bloque de decisión 112 con el fin de determinar si se ha de leer el texto del sub-documento literalmente. Si no es así, se presenta visualmente el componente visual y se lee una porción de audio que no corresponde literalmente al componente visual en el bloque de función 114. En el caso de que la determinación del bloque de decisión 112 sea que el texto se ha de leer literalmente, se presenta visualmente el componente visual y se lee una porción de audio que corresponde literalmente con el componente visual en el bloque de función 116. Una vez que se ha llevado a cabo una de las operaciones de los bloques de función 114 y 116, el procedimiento se realimenta o cierra un lazo de vuelta al bloque de decisión 106, hasta que se establece la determinación de que no existe más aportación que realizar.
La Figura 2 es un ejemplo de una página facilitada que tiene un componente susceptible de tocarse o táctil. Un usuario puede leer visualmente el texto de esta página conforme éste está siendo leído en voz alta. A medida que cada palabra está siendo leída de forma audible para el usuario, ésta es también destacada o resaltada, lo que hace más rápido y fácil identificar y tocar lo que acaba de ser leído (o las inmediaciones de lo que acaba de ser leído). De manera adicional, se presentan visualmente unos botones 202 y 204 que facilitan al lector avanzar hasta la siguiente pantalla o volver a una pantalla previa, respectivamente. Al generar su EBML correctamente, la aplicación puede leer todos los artículos en orden, pero saltarse el artículo presente en ese momento en el caso de que se pulse, por ejemplo, el botón 202 existente en la pantalla. Un conductor de un automóvil puede, por tanto, por ejemplo, concentrarse visualmente en la carretera, escuchar el tema/título de un artículo y encontrar rápidamente el botón de avance 202 en la pantalla táctil si el artículo no es de interés. En una realización preferida, el hojeador o navegador insta audiblemente al usuario a avanzar hasta la siguiente pantalla diciendo, por ejemplo, "para saltar este artículo, pulse el avance hasta el siguiente botón de pantalla". De manera adicional, es posible hacer que el botón quede resaltado con respecto al resto de la pantalla, tal como mediante destellos y/o con el uso de un color que haga que el botón se ponga fácilmente de manifiesto. La facilidad con la que un usuario puede presionar el botón 202 para saltar el artículo presente en ese momento, o el botón 204 para volver a un artículo previo, es comparable con la facilidad para encender la radio o seleccionar otro canal de radio.
La Figura 3 es un diagrama de bloques del sistema en el que puede ponerse en práctica la presente invención. El navegador de EBML 300 recibe contenidos embebidos en EBML desde una red 100. El navegador 300 hace pasar los contenidos a un dispositivo de estructuración sintáctica 302 en lenguaje EBML, el cual estructura sintácticamente el lenguaje de EBML de los contenidos recibidos. El dispositivo de estructuración sintáctica 302 proporciona entonces los contenidos que se han de facilitar al sincronizador de audio-vídeo 304, el cual sincroniza la salida de cada una de las porciones de audio y de vídeo del EBML original. El módulo de presentación visual 306 y el módulo 308 de texto a habla (TTS -"text to speech") reciben, ambos, la salida del sincronizador de audio-vídeo 304. El módulo de TTS 308 prepara la porción de audio de la página de EBML que se ha de leer, y el módulo de presentación visual 306 representa visualmente la porción visual de tal manera que ésta está sincronizada con la porción de audio procedente del módulo de TTS 308.
En una realización preferida de la presente invención, existen tres etapas entre la estructuración sintáctica del EBML y la finalización del aporte que habilitan y llevan a cabo el aporte auditivo y visual sincronizados de los contenidos: a) la construcción del modelo; b) la construcción de las vistas del modelo; y c) el aporte.
Haciendo referencia a continuación a la etapa de construcción del modelo de la presente invención, que sincroniza los componentes de audio y visual, cuando el lenguaje de agregación se estructura sintácticamente por parte del dispositivo de estructuración sintáctica 302, se construye un árbol de modelo que contiene elementos de modelo para cada etiqueta contenida en el lenguaje de agregación. Los elementos para las etiquetas intercaladas aparecen por debajo de sus elementos padres en el árbol de modelo. Por ejemplo, se obtendrá como resultado el siguiente código
100
en el árbol de modelo que se muestra en la Figura 4A. Específicamente, el ElementoP 456 (para párrafo) aparece por debajo del ElementoDecirComo 454. El ElementoDecirComo 454, a su vez, aparece por debajo del ElementoCuerpo 452. Finalmente, el ElementoCuerpo 452 es un hijo del ElementoEBML 450. El texto en sí (por ejemplo, "Este texto es visible") está contenido en un elemento de texto especial 458 situado en el fondo del árbol.
Haciendo referencia, a continuación, a la etapa de construcción de las vistas de la invención, como se muestra en la Figura 4B, una vez que se ha construido el árbol de modelo 424 de acuerdo con el código de fuente proporcionado, éste es recorrido para crear vistas de audio 402 y visual 416 independientes del modelo. La vista de audio 402 contiene una cola de elementos de audio (404, 406, 408, 410 y 414) que constituyen objetos que representan, bien elementos que se han de pronunciar por, por ejemplo, un dispositivo generador 304 de voz de paso de texto a habla o por algún reproductor de medio, o bien elementos que permiten el control del flujo de audio (por ejemplo, la ramificación en la cola de audio, la realización de pausas, etc.). La Vista visual 416 contiene una representación de los contenidos utilizables por algún sistema 440 de estructuración en ventanas para el aporte visual de los componentes (418, 420, 422).
Como se pasa por cada elemento (426, 434, 428, 430, 432, 440, 442, 438, 436) del árbol de modelo 424, se instruye la construcción de sus vistas visual 416 y de audio 402. El aporte visual o auditivo del texto existente dentro de una etiqueta dada difiere dependiendo de dónde aparece esa etiqueta en el árbol de modelo 424. En general, los elementos obtienen los atributos visual y auditivo de su elemento padre en el árbol de modelo 424. El recorrido por el árbol de modelo 414 garantiza que los elementos padres son procesados antes que sus hijos, y garantiza, por ejemplo, que cualesquiera elementos intercalados dentro de una etiqueta <SILENCIO>, sin importar a qué profundidad, obtienen un atributo de silencio. El recorrido es una técnica ampliamente conocida por parte de los expertos de la técnica y no necesita ninguna explicación adicional.
El elemento presente en ese momento modifica entonces los atributos para reflejar su propio comportamiento, afectando entonces a cualesquiera nodos que caigan por debajo de él en el árbol. Por ejemplo, un ElementoSilencio establece el atributo audible como falso. Cualesquiera nodos que caigan por debajo del nodo <SILENCIO> en el árbol (es decir, que estaban contenidos dentro de la construcción de EBML <SILENCIO>), adoptan un atributo de audio que es consistente con los establecidos por sus antecesores. Un elemento puede también alterar las vistas. Por ejemplo, en una realización preferida, un ElementoDecirComo, como el ElementoSilencio, establecerá el atributo audible como falso, puesto que se va a decir o pronunciar alguna otra cosa en lugar de cualquier texto contenido. De manera adicional, sin embargo, éste introducirá un objeto u objetos en la vista de audio 402 para pronunciar el contenido de reemplazo que está contenido en los atributos de etiqueta (SUB = "Este texto es hablado.").
Finalmente, las etiquetas y el texto contenidos (es decir, los elementos hijos) son procesados o tratados. Un nodo se considera un padre para cualesquiera nodos que caigan por debajo de él en un árbol 424. De esta forma, por ejemplo, los nodos 434 y 436 del árbol de modelo 424 son nodos hijos del nodo 426, y el nodo 426 es un nodo padre de los nodos 434 y 436. Además del hecho de que un nodo es el responsable de la generación de un elemento de Salida de Audio (404, 406, 408, 410, 412 y 414, en la Figura 4B) éstos también tienen que generar una presencia visual (418, 420 y 422 en la Figura 4B).
En cuanto a los elementos de etiqueta contenidos (por ejemplo, 434 y 436), tan solo se pide a estos que construyan sus propias vistas (es decir, el recorrido del árbol continúa). Por lo que respecta a los elementos de texto contenidos, el texto es procesado o tratado de acuerdo con la totalidad de los atributos acumulados. Así, por ejemplo, si los atributos indican un contenido audible pero no visual, la vista de audio 402 es modificada pero no se añade nada a la vista visual 416. En una realización preferida, la mayor parte de la información acerca del modo como procesar el texto se encuentra acumulada en los atributos de texto, de tal manera que la mayor parte de los elementos no necesitan encargarse del procesamiento de su propio texto contenido. En lugar de ello, éstos buscan en el árbol de modelo 424 un elemento que tenga un método para procesar el texto. Únicamente los elementos que se ven implicados más tarde en el mantenimiento de la sincronización de las presentaciones visual y audible tienen métodos para procesar el texto (por ejemplo, el elemento 432). Estos elementos, como el ElementoDecirComo, proporcionan el enlace entre el contenido hablado y el contenido visual. Éstos se registran a sí mismos como objetos en la cola de audio 402, de tal manera que reciben una notificación cuando se pronuncian o reproducen palabras o espacios de audio, y mantienen referencias a los componentes de vista visual correspondientes. Por lo tanto, son únicamente los elementos que tienen un comportamiento único por lo que respecta a la pronunciación o al resalte, los que necesitan tener sus propios métodos para procesar el texto. Por ejemplo, un ElementoDecirComo debe gestionar el hecho de que se ha de resaltar o destacar un bloque determinado de texto al tiempo que se está facilitando un contenido de audio completamente diferente, ya sea por parte de un sintetizador TTS, ya sea por un espacio de audio previamente grabado. La mayor parte de los elementos que no han de gestionar ningún comportamiento especial semejante y que no aparecen en el árbol bajo otros elementos con un comportamiento especial, terminan por utilizar el procesamiento de texto por defecto proporcionado por el ElementoEBML de una sola raíz, el cual centraliza el resalte normal de palabra en
palabra.
Como tan solo se utilizan elementos seleccionados dentro del árbol de modelo 424 para mantener el enlace entre las vistas de audio y visual, es necesario que éstos persistan más allá de la fase de construcción de las vistas y dentro de la fase de aportación del contenido. Una ventaja de este método de construcción de las vistas es que todos los otros elementos del árbol (típicamente, la inmensa mayoría) no son ya necesarios durante la fase de aporte y pueden ser borrados. Los elementos que son prescindibles (434, 436, 438, 440, 442) se han dibujado en la Figura 4B con líneas de puntos. Este beneficio puede dar lugar a ahorros drásticos de almacenamiento. Una página típica de agregación puede dar lugar a que se construyan cientos de etiquetas y nodos de texto. Una vez que se han construido las vistas de audio y visual, puede persistir un pequeño puñado de estos nodos con el fin de procesar sucesos del habla (y mantener la sincronización entre las vistas) durante la presentación de las vistas.
Durante el aporte del contenido, el proveedor realiza iteraciones a través de la vista de audio 402. La vista de audio 402 consiste ahora en una serie de objetos que especifican y controlan la progresión del audio, los cuales incluyen:
\bullet objetos que contienen texto que se ha de pronunciar;
\bullet objetos que marcan la entrada/salida a los elementos;
\bullet objetos que solicitan una pausa susceptible de interrumpirse a la presentación de audio; y
\bullet objetos que solicitan una recolocación o reubicación de la vista de audio 402 (incluyendo la capacidad de realimentarse o cerrar un lazo de vuelta y repetir parte de la cola de audio).
A medida que se procesan los sucesos, se notifica el elemento apropiado retenido (426, 428, 430, 432) en el árbol de modelo 424. El árbol de modelo 424 comunica, a su vez, a los componentes visuales correspondientes (428, 420, 422) el comportamiento de resalte apropiado y les solicita que se hagan visibles (es decir, les solicita que comuniquen a su ventana, que los contiene, que se despliegue según sea necesario).
Con el fin de comprender adicionalmente las etapas que se requieren para construir/facilitar un documento, considérese el siguiente documento de EBML sencillo:
101
El dispositivo de estructuración sintáctica 302 crea el árbol de modelo que se ha ilustrado en la Figura 5. Los nodos <EBML> 502 y <DECIRCOMO>504 se han indicado utilizando un óvalo acentuado, ya que estos nodos se han diseñado para manejar texto para los que se encuentran en su árbol descendente (existen otras etiquetas en esta categoría, pero ocurre que éstas son las dos etiquetas que se dan en este ejemplo). Son estos dos nodos los que realizan la adición real de texto a las vistas de audio/visual. Los nodos que no son de texto (506, 508, 510, 512, 514) se han representado con los óvalos que contienen los nombres de las etiquetas. El navegador se sirve de este árbol de modelo 512 durante la construcción de las vistas de audio y visual. Nótese que los nodos de terminal (516, 518, 520, 522) se han indicado con un polígono. Estos nodos contienen el texto real procedente del documento. Los nodos que caen por debajo en el árbol sencillamente hacen pasar la petición de construcción hacia arriba por el árbol sin que importe a qué nodo se entregará la petición.
Una vez que se ha completado la estructuración sintáctica del documento, el navegador recorre el árbol de modelo 524 y comienza la construcción de las diversas vistas que se requieren. A medida que se llega a la rutina de construcción de cada nodo, ésta puede hacer varias cosas. En primer lugar, es posible alterar el objeto del atributo de texto presente en ese momento, lo que afectará a la presentación de texto por parte de los que se encuentran por debajo en el árbol. Por ejemplo, si se llega a una etiqueta <FUENTE>, el nodo de etiqueta <FUENTE> altera el objeto del atributo de texto con el fin de indicar que las peticiones de construcción de vista visual subsiguientes deberán utilizar una fuente concreta para cualquier texto contenido. Los nodos situados por debajo hacen honor a este atributo debido a que cada uno de ellos obtiene la copia de sus padres del objeto del atributo antes de comenzar a trabajar. En segundo lugar, la rutina de construcción puede remitirse ascendiendo por el árbol de modelo 524 a sus antecesores y pedirles que les entreguen un segmento de texto concreto. Esto es el comportamiento por defecto para los nodos de texto. Finalmente, la rutina de construcción puede afectar directamente a la vista. Por ejemplo, el nodo de etiqueta <P> puede empujar un objeto de salto a nueva línea hasta la vista visual presente en ese momento, con lo que se provoca que el flujo visual del texto se vea interrumpido. De la misma manera la etiqueta <RUPTURA> puede empujar un objeto de ruptura de audio hasta la cola de audio, con lo que se provoca una breve pausa en la salida de audio.
En cuanto a los nodos que se remiten ascendiendo por el árbol de sus ancestros para solicitar el texto que se les ha de entregar, los nodos que implementan esta función (<EMBL> y <DECIRCOMO> en este ejemplo) son los responsables de la construcción de las vistas de audio/visual, así como de la coordinación y la sincronización que se requiere durante la presentación.
La Figura 6 ilustra las relaciones que existen entre las vistas y el modelo para el EBML del ejemplo, una vez que se ha completado la construcción. A medida que se construye la cola de audio 402, se mantienen las referencias a los nodos responsables de la sincronización de las vistas de audio/visual. Por ejemplo, el elemento 602 de vista de Audio 402 apunta a la etiqueta DECIRCOMO 504, y el elemento de cola de audio 604, 606 y 608 apunta a la etiqueta de EBML 502. Esto permite que los sucesos suministrados por el dispositivo generador 304 de habla sean canalizados hacia el nodo correcto. El modelo, a su vez, mantiene referencias a los componentes apropiados de la presentación visual. Esto hace posible que los nodos de modelo implementen cualquier comportamiento sincronizado que se requiera a medida que el texto esté siendo presentado auditivamente. En este ejemplo, el nodo <DECIRCOMO> 504 se ocupa de sincronizar las diferentes presentaciones de audio y visual de los elementos 602 y 526. El nodo <EBML> 502 proporciona el comportamiento por defecto en el caso de que las presentaciones de audio y visual sean la misma, tal como se muestra por los elementos 604, 606, 608 y los elementos 528, 530 y 532, respectivamente.
Una vez que se han construido las vistas, se dan instrucciones al modelo para que disuelva cualesquiera referencias que se mantengan dentro del árbol. Por ejemplo, el Lenguaje de Programación Java ("Java Programming Language") permite a la "recogida de la basura" contenida en la Máquina Virtual Java ("Java Virtual Machine") recoger los nodos que no son necesarios para proporcionar la sincronización durante la presentación. Es posible utilizar otros sistemas de "recogida de basura" con el fin de recuperar automáticamente los nodos. Los nodos que se requieren para la sincronización son anclados o afianzados por la vista de audio 402 y, por tanto, evitan ser recogidos.
La Figura 7 muestra el árbol con las referencias disueltas. Los nodos disponibles para ser recogidos como desecho se han mostrado con líneas de puntos (506, 508, 510, 512, 514, 516, 518, 520 y 522).

Claims (25)

1. Un método implementado por computadora para sincronizar una presentación de audio y visual en un proveedor de múltiples modos, o multi-modo, que comprende las etapas de:
recibir un documento que incluye código de lenguaje de agregación de hojeador o navegador que incluye etiquetas para componentes de audio y etiquetas para componentes visuales;
estructurar sintácticamente el texto contenido en el documento recibido con el fin de construir un árbol de modelo (424) que contiene elementos de modelo para cada etiqueta contenida en dicho código;
atravesar o recorrer el árbol de modelo (424) con el fin de construir unas vistas visual (416) y de audio (402);
generar un componente audible asociado con el texto basándose en un elemento de vista de audio que apunta a una etiqueta para un componente de audio; y
presentar visualmente el texto basándose en un elemento de vista de vídeo que apunta a una etiqueta para un componente visual, mientras se está reproduciendo el componente audible generado.
2. El método implementado por computadora para sincronizar una presentación de audio y visual en un proveedor de múltiples modos, de acuerdo con la reivindicación 1, que comprende adicionalmente la etapa de destacar o resaltar visualmente ciertas porciones del texto visualmente presentado, correspondientes al componente audible generado y reproducido.
3. El método implementado por computadora, de acuerdo con la reivindicación 2, que comprende adicionalmente la etapa de desplegar automáticamente el texto visualmente presentado con el fin de mantener una correspondencia entre el texto visualmente presentado y el componente audible generado y reproducido.
4. El método implementado por computadora, de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el componente audible se corresponde literalmente con el texto.
5. El método implementado por computadora, de acuerdo con una cualquiera de las reivindicaciones 1 a 3, en el cual el componente audible está relacionado con el texto pero no se corresponde literalmente con éste.
6. El método implementado por computadora, de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el componente audible es un espacio previamente grabado.
7. El método implementado por computadora, de acuerdo con cualquiera de las reivindicaciones precedentes, en el cual el documento es recibido desde una red.
8. El método implementado por computadora, de acuerdo con la reivindicación 7, en el cual el proveedor de múltiples modos, o multi-modo, es un hojeador o navegador de red.
9. El método implementado por computadora, de acuerdo con cualquiera de las reivindicaciones precedentes, que comprende adicionalmente la etapa de presentar visualmente botones que, cuando se pulsan por un usuario, hacen avanzar el texto visualmente presentado para saltarse un artículo presente en ese momento o regresar a un artículo previo.
10. El método implementado por computadora, de acuerdo con la reivindicación 9, que comprende adicionalmente la etapa de destacar o resaltar los botones visualmente presentados con el fin de facilitar su selección por parte del usuario.
11. Un sistema informático para sincronizar una presentación de audio y visual en un proveedor de múltiples modos, que comprende:
un dispositivo de entrada, destinado a recibir un documento que incluye código de lenguaje de agregación de navegador que incluye etiquetas para componentes de audio y etiquetas para componentes visuales;
un dispositivo de estructuración sintáctica, destinado a estructurar sintácticamente el texto contenido en el documento recibido con el fin de construir un árbol de modelo (424) que contiene elementos de modelo para cada etiqueta contenida en dicho código;
medios para atravesar o recorrer el modelo de árbol (424) con el fin de construir unas vistas visual (416) y de audio (402);
medios para generar un componente audible asociado con el texto basándose en un elemento de vista de audio que apunta a una etiqueta para un componente de audio; y
\global\parskip0.940000\baselineskip
un dispositivo de presentación visual, destinado a presentar visualmente el texto basándose en un elemento de vista de vídeo que apunta a una etiqueta para un componente visual, mientras se está reproduciendo el componente audible generado.
12. El sistema informático de acuerdo con la reivindicación 11, en el cual el dispositivo de presentación visual incluye medios para destacar o resaltar ciertas porciones del texto visualmente presentado, correspondientes al componente audible generado y reproducido.
13. El sistema informático de acuerdo con la reivindicación 11, que incluye medios para desplegar automáticamente el texto visualmente presentado para que coincida con el componente de audio, por lo que el texto correspondiente al componente audible generado y reproducido se mantiene en la vista.
14. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 13, en el cual el componente audible se corresponde literalmente con el texto visualmente presentado.
15. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 13, en el cual el componente audible está relacionado con el texto visualmente presentado pero no se corresponde literalmente con éste.
16. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 15, en el cual el componente audible es un espacio previamente grabado.
17. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 16, que incluye medios para recibir el documento desde una red.
18. El sistema informático de acuerdo con la reivindicación 17, en el cual el proveedor de múltiples modos, o multi-modo, es un hojeador o navegador.
19. El sistema informático de acuerdo con una cualquiera de las reivindicaciones 11 a 18, en el cual dicho dispositivo de presentación visual, en funcionamiento, está dispuesto de manera que presenta visualmente botones que, cuando se pulsan por un usuario, hacen avanzar el texto visualmente presentado para saltarse un artículo presente en ese momento o regresar a un artículo previo.
20. El sistema informático de acuerdo con la reivindicación 19, en el cual los botones visualmente presentados son destacados o resaltados con el fin de facilitar su selección por parte del usuario.
21. Un producto de programa informático que comprende código de programa informático que, cuando se lleva a cabo o ejecuta, controla una computadora para sincronizar componentes de audio y visuales dentro de un proveedor de contenidos, de tal modo que el producto de programa informático comprende:
un primer código de programa informático para estructurar sintácticamente el texto contenido en un documento, el cual incluye código de lenguaje de agregación de navegador, que incluye etiquetas para componentes de audio y etiquetas para componentes visuales, de tal modo que dicho primer código de programa informático construye un árbol de modelo (424) que contiene elementos de modelo para cada etiqueta contenida en dicho código y lenguaje de agregación de navegador; y
atravesar o recorrer el árbol de modelo (424) con el fin de construir unas vistas visual (416) y de audio (402);
un segundo código de programa informático para generar un componente audible asociado con el texto basándose en un elemento de vista de audio desarrollado por dicho recorrido por dicho árbol de modelo (424) y que apunta a una etiqueta para un componente de audio; y
un tercer código de programa para presentar visualmente el texto basándose en un elemento de vista de vídeo desarrollado por dicho recorrido por dicho árbol de modelo (424) y que apunta a una etiqueta para un componente visual, mientras se está reproduciendo el componente audible generado.
22. El programa informático de acuerdo con la reivindicación 21, que comprende adicionalmente un cuarto código de programa informático destinado a destacar o resaltar visualmente ciertas porciones del texto visualmente presentado, correspondientes al componente audible generado y reproducido.
23. El programa informático de acuerdo con la reivindicación 22, que comprende adicionalmente un quinto código de programa informático para determinar cuándo el componente audible se corresponde literalmente con el texto.
24. El programa informático de acuerdo con la reivindicación 22, que comprende adicionalmente un sexto código de programa informático destinado a determinar cuándo el componente audible está relacionado con el texto pero no se corresponde literalmente con éste.
25. El programa informático de acuerdo con la reivindicación 24, que comprende adicionalmente un séptimo código de programa informático para desplegar automáticamente el texto visualmente presentado para que coincida con el componente de audio generado y reproducido.
ES01965487T 2000-09-27 2001-09-19 Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal. Expired - Lifetime ES2271069T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/670,800 US6745163B1 (en) 2000-09-27 2000-09-27 Method and system for synchronizing audio and visual presentation in a multi-modal content renderer
US670800 2000-09-27

Publications (1)

Publication Number Publication Date
ES2271069T3 true ES2271069T3 (es) 2007-04-16

Family

ID=24691932

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01965487T Expired - Lifetime ES2271069T3 (es) 2000-09-27 2001-09-19 Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal.

Country Status (11)

Country Link
US (1) US6745163B1 (es)
EP (1) EP1320847B1 (es)
JP (1) JP4769407B2 (es)
KR (1) KR100586766B1 (es)
CN (1) CN1184613C (es)
AT (1) ATE344518T1 (es)
AU (1) AU8612501A (es)
CA (1) CA2417146C (es)
DE (1) DE60124280T2 (es)
ES (1) ES2271069T3 (es)
WO (1) WO2002027710A1 (es)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7080315B1 (en) * 2000-06-28 2006-07-18 International Business Machines Corporation Method and apparatus for coupling a visual browser to a voice browser
US7240006B1 (en) * 2000-09-27 2007-07-03 International Business Machines Corporation Explicitly registering markup based on verbal commands and exploiting audio context
US7376897B1 (en) * 2000-09-30 2008-05-20 Intel Corporation Method, apparatus, and system for determining information representations and modalities based on user preferences and resource consumption
US7349946B2 (en) * 2000-10-02 2008-03-25 Canon Kabushiki Kaisha Information processing system
DE10064661A1 (de) * 2000-12-22 2002-07-11 Siemens Ag Kommunikationsanordnung und Verfahren für Kommunikationssysteme mit interaktiver Sprachfunktion
US7000189B2 (en) * 2001-03-08 2006-02-14 International Business Mahcines Corporation Dynamic data generation suitable for talking browser
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7203907B2 (en) 2002-02-07 2007-04-10 Sap Aktiengesellschaft Multi-modal synchronization
GB0204768D0 (en) * 2002-02-28 2002-04-17 Mitel Knowledge Corp Bimodal feature access for web applications
US7003464B2 (en) * 2003-01-09 2006-02-21 Motorola, Inc. Dialog recognition and control in a voice browser
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
JP4462901B2 (ja) * 2003-11-11 2010-05-12 富士通株式会社 モーダル同期制御方法およびマルチモーダルインターフェイスシステム
US9378187B2 (en) 2003-12-11 2016-06-28 International Business Machines Corporation Creating a presentation document
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US8499232B2 (en) * 2004-01-13 2013-07-30 International Business Machines Corporation Differential dynamic content delivery with a participant alterable session copy of a user profile
US20050233287A1 (en) * 2004-04-14 2005-10-20 Vladimir Bulatov Accessible computer system
WO2006003714A1 (ja) * 2004-07-06 2006-01-12 Fujitsu Limited 読み上げ機能付きブラウザプログラム、読み上げ機能付きブラウザ、ブラウジング処理方法およびブラウザプログラム記録媒体
US20060136870A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Visual user interface for creating multimodal applications
US7751431B2 (en) * 2004-12-30 2010-07-06 Motorola, Inc. Method and apparatus for distributed speech applications
US7478079B2 (en) * 2005-01-14 2009-01-13 Microsoft Corporation Method for displaying a visual representation of mapping between a source schema and a destination schema emphasizing visually adjusts the objects such that they are visually distinguishable from the non-relevant and non-selected objects
US7516400B2 (en) * 2005-03-07 2009-04-07 Microsoft Corporation Layout system for consistent user interface results
US7881862B2 (en) * 2005-03-28 2011-02-01 Sap Ag Incident command post
US7924985B2 (en) * 2005-04-21 2011-04-12 The Invention Science Fund I, Llc Interaction history applied to structured voice interaction system
US8139725B2 (en) * 2005-04-22 2012-03-20 The Invention Science Fund I, Llc Associated information in structured voice interaction systems
US20060277044A1 (en) * 2005-06-02 2006-12-07 Mckay Martin Client-based speech enabled web content
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US7707501B2 (en) * 2005-08-10 2010-04-27 International Business Machines Corporation Visual marker for speech enabled links
US20070039036A1 (en) * 2005-08-12 2007-02-15 Sbc Knowledge Ventures, L.P. System, method and user interface to deliver message content
JP4827498B2 (ja) * 2005-11-11 2011-11-30 キヤノン株式会社 レイアウト方法及びその装置
US20070211071A1 (en) * 2005-12-20 2007-09-13 Benjamin Slotznick Method and apparatus for interacting with a visually displayed document on a screen reader
US7996776B2 (en) * 2006-02-27 2011-08-09 Microsoft Corporation Shared telepointer
US7694221B2 (en) 2006-02-28 2010-04-06 Microsoft Corporation Choosing between multiple versions of content to optimize display
US7487453B2 (en) * 2006-03-24 2009-02-03 Sap Ag Multi-modal content presentation
US20070271104A1 (en) * 2006-05-19 2007-11-22 Mckay Martin Streaming speech with synchronized highlighting generated by a server
US20070294927A1 (en) * 2006-06-26 2007-12-27 Saundra Janese Stevens Evacuation Status Indicator (ESI)
DE102006035780B4 (de) * 2006-08-01 2019-04-25 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems
US20080065715A1 (en) * 2006-08-28 2008-03-13 Ko-Yu Hsu Client-Server-Based Communications System for the Synchronization of Multimodal data channels
US20080172616A1 (en) * 2007-01-16 2008-07-17 Xerox Corporation Document information workflow
US8060371B1 (en) 2007-05-09 2011-11-15 Nextel Communications Inc. System and method for voice interaction with non-voice enabled web pages
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
US8234593B2 (en) * 2008-03-07 2012-07-31 Freedom Scientific, Inc. Synchronizing a visible document and a virtual document so that selection of text in the virtual document results in highlighting of equivalent content in the visible document
US11487347B1 (en) * 2008-11-10 2022-11-01 Verint Americas Inc. Enhanced multi-modal communication
US8347208B2 (en) 2009-03-04 2013-01-01 Microsoft Corporation Content rendering on a computer
US8290777B1 (en) 2009-06-12 2012-10-16 Amazon Technologies, Inc. Synchronizing the playing and displaying of digital content
CA2768214A1 (en) * 2009-07-15 2011-01-20 Google Inc. Commands directed at displayed text
US8612443B2 (en) * 2012-05-15 2013-12-17 Sap Ag Explanatory animation generation
CN104966084A (zh) * 2015-07-07 2015-10-07 北京奥美达科技有限公司 一种基于ocr和tts的低视力阅读助视系统
US10141006B1 (en) * 2016-06-27 2018-11-27 Amazon Technologies, Inc. Artificial intelligence system for improving accessibility of digitized speech
US11062497B2 (en) * 2017-07-17 2021-07-13 At&T Intellectual Property I, L.P. Structuralized creation and transmission of personalized audiovisual data
WO2019153053A1 (en) * 2018-02-12 2019-08-15 The Utree Group Pty Ltd A system for recorded e-book digital content playout
GB2577742A (en) * 2018-10-05 2020-04-08 Blupoint Ltd Data processing apparatus and method
US11537781B1 (en) 2021-09-15 2022-12-27 Lumos Information Services, LLC System and method to support synchronization, closed captioning and highlight within a text document or a media file

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640590A (en) * 1992-11-18 1997-06-17 Canon Information Systems, Inc. Method and apparatus for scripting a text-to-speech-based multimedia presentation
JPH07175909A (ja) 1993-12-20 1995-07-14 Canon Inc データ処理装置
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US5890123A (en) 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5748186A (en) 1995-10-02 1998-05-05 Digital Equipment Corporation Multimodal information presentation system
WO1997037344A1 (fr) * 1996-03-29 1997-10-09 Hitachi, Ltd. Terminal possedant une fonction de synthese vocale et systeme dispensant des donnees caracteres utilisant ce terminal
JP3036430B2 (ja) * 1996-04-12 2000-04-24 日本電気株式会社 文章読み上げ装置
GB2317070A (en) 1996-09-07 1998-03-11 Ibm Voice processing/internet system
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US5884266A (en) 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US20020002458A1 (en) * 1997-10-22 2002-01-03 David E. Owen System and method for representing complex information auditorially
US6115686A (en) * 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
US6064961A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
US6324511B1 (en) * 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
DE19845665C2 (de) 1998-10-05 2000-08-17 Orga Kartensysteme Gmbh Verfahren zur Herstellung eines Trägerelements für einen IC-Baustein zum Einbau in Chipkarten
US6085161A (en) * 1998-10-21 2000-07-04 Sonicon, Inc. System and method for auditorially representing pages of HTML data
FR2807188B1 (fr) * 2000-03-30 2002-12-20 Vrtv Studios Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences
KR20030010605A (ko) * 2000-04-19 2003-02-05 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오와 함께 고속 직렬 시각 프리젠테이션을 하기 위한시스템 및 방법

Also Published As

Publication number Publication date
US6745163B1 (en) 2004-06-01
EP1320847A1 (en) 2003-06-25
KR20030040486A (ko) 2003-05-22
JP2004510276A (ja) 2004-04-02
JP4769407B2 (ja) 2011-09-07
DE60124280D1 (de) 2006-12-14
EP1320847B1 (en) 2006-11-02
AU8612501A (en) 2002-04-08
WO2002027710A1 (en) 2002-04-04
KR100586766B1 (ko) 2006-06-08
CN1466746A (zh) 2004-01-07
DE60124280T2 (de) 2007-04-19
CA2417146C (en) 2009-10-06
CN1184613C (zh) 2005-01-12
ATE344518T1 (de) 2006-11-15
CA2417146A1 (en) 2002-04-04

Similar Documents

Publication Publication Date Title
ES2271069T3 (es) Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal.
Levine et al. Language development in the first year of life: What deaf children might be missing before cochlear implantation
US6088675A (en) Auditorially representing pages of SGML data
US6324511B1 (en) Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
US6085161A (en) System and method for auditorially representing pages of HTML data
US20110029876A1 (en) Clickless navigation toolbar for clickless text-to-speech enabled browser
US20050137847A1 (en) Method and apparatus for language learning via controlled text authoring
Gussenhoven Sentential prominence in English
Rohrer et al. The MultiModal MultiDimensional (M3D) labelling scheme for the annotation of audiovisual corpora
Speer et al. Prosody
James Representing structured information in audio interfaces: A framework for selecting audio marking techniques to represent document structures
JPH10171485A (ja) 音声合成装置
AU2001286125B2 (en) Method and system for synchronizing audio and visual presentation in a multi-modal content renderer
Koutalidis et al. Multimodal marking of focus in German preschoolers’ utterances with the focus-particles also, only, and even/still
Wouters et al. Authoring tools for speech synthesis using the sable markup standard.
Langer et al. Information Types and Use Cases
AU2001286125A1 (en) Method and system for synchronizing audio and visual presentation in a multi-modal content renderer
Shaheen et al. African American Vernacular English (AAVE) and African American Identity in Alice Walker’s The Color Purple: A Stylistic Analysis
JP2008096489A (ja) 音声化システム、音声化方法、音声化サーバ及び音声化プログラム
JP2009075526A (ja) 音声合成利用の総合的英語学習システム
JP3969689B2 (ja) 文書作成支援装置、文書作成支援方法及び文書作成支援プログラムを記憶した記憶媒体
White et al. Web content accessibility guidelines 2.0
KR20230082485A (ko) 오디오 콘텐츠 제작을 위한 사용자 인터페이스 제공 장치 및 방법
PINA Conversational web browsing: a heuristic approach to the generation of chatbots out of websites
LeBlanc Veneration of madness