ES2271069T3 - Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal. - Google Patents
Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal. Download PDFInfo
- Publication number
- ES2271069T3 ES2271069T3 ES01965487T ES01965487T ES2271069T3 ES 2271069 T3 ES2271069 T3 ES 2271069T3 ES 01965487 T ES01965487 T ES 01965487T ES 01965487 T ES01965487 T ES 01965487T ES 2271069 T3 ES2271069 T3 ES 2271069T3
- Authority
- ES
- Spain
- Prior art keywords
- text
- audio
- visual
- component
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Economics (AREA)
- Signal Processing (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
- Synchronizing For Television (AREA)
- Document Processing Apparatus (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Un método implementado por computadora para sincronizar una presentación de audio y visual en un proveedor de múltiples modos, o multi-modo, que comprende las etapas de: recibir un documento que incluye código de lenguaje de agregación de hojeador o navegador que incluye etiquetas para componentes de audio y etiquetas para componentes visuales; estructurar sintácticamente el texto contenido en el documento recibido con el fin de construir un árbol de modelo (424) que contiene elementos de modelo para cada etiqueta contenida en dicho código; atravesar o recorrer el árbol de modelo (424) con el fin de construir unas vistas visual (416) y de audio (402); generar un componente audible asociado con el texto basándose en un elemento de vista de audio que apunta a una etiqueta para un componente de audio; y presentar visualmente el texto basándose en un elemento de vista de vídeo que apunta a una etiqueta para un componente visual, mientras se está reproduciendo el componente audible generado.
Description
Método y sistema para sincronizar una
presentación visual y de audio en un generador de contenidos
multi-modal.
La presente invención se refiere generalmente a
un proveedor de contenidos audiovisuales de múltiples modos, o
multi-modo, y, más particularmente, a un proveedor
de contenidos de múltiples modos que procura simultáneamente
contenidos visual y verbalmente de una manera sincronizada.
En la técnica actual, los proveedores de
contenidos (por ejemplo, los hojeadores o navegadores de Web) no
sincronizan directamente la presentación de audio y de vídeo de
material relacionado y, en la mayoría de los casos, son exclusivos
de cada una de ellas. La presentación de contenidos codificados en
Lenguaje de Agregación de Hipertexto (HTML -"HyperText Markup
Language") en un navegador estándar (por ejemplo, el Netscape o
el Internet Explorer) es fundamentalmente visual. La velocidad y el
método de progresión a través de la presentación se encuentran bajo
el control del usuario. El usuario puede leer la totalidad de los
contenidos de principio a fin, efectuando despliegues según sea
necesario si el contenido suministrado es susceptible de despliegue
(es decir, si los contenidos visuales se extienden más allá de los
límites de la ventana de presentación). El usuario puede también
efectuar un muestreo o exploración del contenido y leer, por
ejemplo, únicamente el principio y el fin. Fundamentalmente, todas
las estrategias de que se dispone para examinar detenidamente un
libro, un periódico u otro artículo impreso, se encuentran
disponibles para el uso de un navegador estándar.
La presentación de contenidos de audio tiende a
ser mucho más lineal. Los contenidos hablados de conversación
normal discurren desde un comienzo, a través de una parte media y
hasta un final; el usuario no tiene control directo sobre esta
progresión. Esto puede superarse en cierto grado en los medios
grabados por medio de la indexación o avance paso a paso y la
búsqueda rápida, pero es difícil conseguir la misma facilidad de
acceso aleatorio de que se dispone con el material impreso. Los
navegadores controlados por voz están típicamente relacionados con
el control por voz de la entrada del navegador o con diversos
métodos para distinguir de forma audible un enlace de HTML durante
la salida audible. Los navegadores conocidos de la técnica anterior
no tienen que ver con aspectos de sincronización general entre los
componentes de audio y visuales.
Existen diversas situaciones en las que una
persona puede estar interesada en la recepción simultánea de
presentaciones sincronizadas de audio y visual de una materia de
objeto concreta. Por ejemplo, en un ajuste o reglaje de automoción,
un conductor y/o un pasajero pueden interactuar a modo de interfaz
con un dispositivo. Mientras conduce, el conductor, como es obvio,
no puede leer visualmente una pantalla o monitor sobre el que se
está presentando visualmente la información. El conductor puede,
sin embargo, seleccionar opciones relativas a la información que él
o ella desea que el navegador presente de forma audible. El
pasajero, sin embargo, puede desear continuar con la lectura de la
pantalla a la vez que se lee en voz alta la parte de audio.
Considérese también la situación de un adulto
analfabeto o semi-analfabeto. Él o ella puede seguir
el navegador mientras éste está leyendo el texto y utilizarlo para
aprender el modo como leer y reconocer nuevas palabras. Semejante
navegador puede también ayudar al adulto a la hora de aprender a
leer, al proporcionarle contenidos para adultos en lugar de los
contenidos enfocados a los niños que aprenden a leer. Finalmente,
una persona visualmente impedida que desea interactuar con el
navegador puede "ver" y encontrar texto destacado, aunque él o
ella puedan no ser capaces de leerlo.
Existen diversos retos en la presentación
simultánea de contenidos entre los modos de audio y de vídeo. El
principal es sincronizar las dos presentaciones. Por ejemplo, un
fragmento largo de contenidos puede ser proporcionado visualmente
en múltiples páginas.
Una complicación adicional es que puede no
existir una relación de correspondencia de uno a uno entre la
presentación visual y la presentación audible. Algunas aplicaciones
pueden desear que algunas partes del contenido se sirvan o
faciliten tan solo visualmente, sin que sean habladas. Algunas
aplicaciones pueden requerir que los contenidos sean hablados, sin
que haya ninguna aportación visual. Otros casos se encuentran en
algún punto intermedio. Por ejemplo, una aplicación puede desear
que se lea el nombre completo de una persona al tiempo que se
presenta visualmente un apodo.
La Patente norteamericana Nº 5.884.266, expedida
a Dvorak y titulada "Interfaz de audio para documento basada en
la navegación de recursos de información, y Método para la misma"
("Audio Interface for Document Based on Information Resource
Navigation and Method Therefor"), incorpora la idea consistente
en presentar enlaces de agregación al usuario mediante el uso de
sonidos auditivamente distintos, o bien de características del
habla tales como una voz diferente, a fin de permitir al usuario
distinguir los enlaces de la agregación sin enlaces.
La Patente norteamericana Nº 5.890.123, expedida
a Brown et al. y titulada "Sistema y método para la
presentación visual en pantalla de vídeo, controlada por voz"
("System and Method for Voiced Controlled Video Screen
Display"), se refiere a órdenes verbales para la manipulación
del navegador una vez que se han facilitado los contenidos. Esta
Patente se concentra fundamentalmente en compendiar el contenido a
medida que es presentado visualmente, y en utilizar esto para
aumentar la posible interacción verbal.
La Patente norteamericana Nº 5.748.186, expedida
a Raman y titulada "Sistema de presentación de información de
múltiples modos" ("Multimodal Information Presentation
System"), se refiere a la obtención de información, al
establecimiento de un modelo de ésta como una representación
intermedia común, y la provisión de múltiples maneras, o vistas,
para llegar al interior de los datos. Sin embargo, la Patente de
Raman no describe el modo como se realiza la sincronización.
El documento
WO-A1-00/21057 describe un método
para proporcionar señales audibles de una manera sincronizada con
texto resaltado.
En consecuencia, es un propósito de la presente
invención proporcionar un proveedor de múltiples modos, o
multi-modo, que procure simultáneamente contenidos
visual y verbalmente de una manera sincronizada.
Otro propósito de la invención consiste en
proporcionar un proveedor de múltiples modos que haga posibles
contenidos codificados con el uso de un conjunto de etiquetas de
agregación basadas en el Lenguaje de Agregación Extensible (XML
-"eXtensible Markup Language"), de modo que sean leídos de
manera audible para el usuario.
La presente invención, según se define por las
reivindicaciones, proporciona un sistema y un método para facilitar
de forma simultánea contenidos visual y verbalmente de una manera
sincronizada. La invención facilita un documento a un usuario tanto
visual como audiblemente. El comportamiento que se desea para el
proveedor de contenidos consiste en que, al tiempo que se está
escuchando alguna sección o fragmento de ese contenido por parte del
usuario, esa sección es visible en la pantalla y, por otra parte,
en que el contenido visual específico (por ejemplo, la palabra o la
frase) que está siendo facilitada de forma audible, se destaca o
resalta visualmente. Además de ello, la invención también reacciona
ante una entrada de múltiples modos, o multi-modo
(ya sea una entrada táctil, ya sea una entrada de voz). La
invención permite también que una aplicación o servidor sea
accesible por parte de alguien a través de medios de audio, en lugar
de medios visuales, al disponer el código de Lenguaje de Agregación
de Navegador Embebido (EBML -"Embedded Browser Markup
Language") de manejo del proveedor de tal manera que es leído de
forma audible para el usuario. Pueden también combinarse
aseveraciones o sentencias de EBLM de tal manera que lo que se lee
de forma audible para el usuario está relacionado con, pero no es
idéntico a, el texto visual. La presente invención resuelve también
el problema de sincronizar las presentaciones de audio y visual de
contenido cambiante, por medio de cambios en el lenguaje de
agregación, en lugar de por medio de cambios en el código de la
aplicación.
El lenguaje de agregación de EBML constituye un
subconjunto del Lenguaje de Agregación de Hipertexto (HTML
-"HyperText Markup Language"), que consiste en una colección
bien conocida de etiquetas de agregación que se utilizan
básicamente en asociación con la porción de Red de Extensión Mundial
(WWW -"World Wide Web") de la Internet. El EBML integra
también diversas etiquetas a partir de un conjunto de etiquetas
diferentes, el Lenguaje de Agregación de Habla de Java (JSML
-"Java Speech Markup Language"). El JSML contiene etiquetas
destinadas a controlar la aportación de audio. El lenguaje de
agregación de la presente invención proporciona etiquetas
destinadas a sincronizar y coordinar los componentes visual y verbal
de una página de web. Por ejemplo, el texto que aparece entre las
etiquetas <SILENCIO> ("<SILENT>") y
</SILENCIO> ("</SILENT>") aparecerá en la pantalla
pero no se facilitará de forma audible. El texto que aparece entre
<INVISIBLE> e </INVISIBLE> será hablado pero no visto.
Una etiqueta <DECIRCOMO> ("<SAYAS>"), adaptada del
JSML, permite que se hable (o reproduzca) texto (o audio grabado tal
como archivos de WAV, el formato de audio digital nativo u original
que se utiliza en el sistema operativo Microsoft Windows®) que
difiere del contenido que se facilita visualmente.
El método para sincronizar una presentación de
audio y visual en el hojeador o navegador de múltiples modos
incluye las etapas de recibir un documento a través de una red
informática, estructurar sintácticamente o asignar una estructura
constituyente al texto del documento, proporcionar un componente
audible asociado al texto y transmitir simultáneamente a la salida
el texto y los componentes audibles.
Una realización preferida de la presente
invención proporciona un método y un sistema tales que, cuando se
está escuchando alguna sección o fragmento de ese contenido por
parte del usuario, la sección es visible en la pantalla y, por otra
parte, el contenido visual específico (por ejemplo, la palabra o la
frase) que se está facilitando de forma audible se destaca o
resalta visualmente de alguna manera. Esto implica el despliegue
automático a medida que avanza la presentación de audio, así como un
resalte de palabra en palabra.
Los siguientes y otros propósitos, aspectos y
ventajas se comprenderán mejor a partir de la siguiente descripción
detallada de una realización preferida de la invención, con
referencia a los dibujos, en los cuales:
la Figura 1 es un diagrama de flujo lógico que
ilustra el método de la presente invención;
la Figura 2 es un ejemplo de una página
facilitada con un componente susceptible de ser tocado, o
táctil;
la Figura 3 es un diagrama de bloques de un
sistema en el que se puede implementar la presente invención;
la Figura 4A es un diagrama de un ejemplo de un
árbol de modelo;
la Figura 4B es un diagrama que muestra una
representación general de la relación que existe entre un árbol de
modelo y las vistas de audio y visual;
la Figura 5 muestra un ejemplo de un árbol de
estructuración sintáctica generado durante la construcción de la
vista;
la Figura 6 muestra un ejemplo de una
interrelación de vista/modelo; y
la Figura 7 muestra un ejemplo de una
interrelación de vista/modelo ajustada, una vez que se han
descartado nodos innecesarios.
Haciendo referencia, a continuación, a los
dibujos y, más particularmente, a la Figura 1, se muestra en ella
un diagrama de flujo lógico que ilustra el método de la presente
invención. Se introduce un documento, o bien se recibe a través de
una red informática, en el bloque de función 100. En el bloque de
función 102, se asigna una estructura constituye al documento, o se
estructura sintácticamente, con el propósito de separar el texto de
las etiquetas de EBML. En el bloque de función 104, el documento, ya
estructurado sintácticamente, se hace pasar al proveedor de EBML.
Se realiza entonces una prueba en el bloque de decisión 106 con el
fin de determinar si existe algo más del documento que se haya de
facilitar. Si no es así, el procedimiento finaliza en 108; en caso
contrario, se realiza una prueba en el bloque de decisión 112 con el
fin de determinar si se ha de leer el texto del
sub-documento literalmente. Si no es así, se
presenta visualmente el componente visual y se lee una porción de
audio que no corresponde literalmente al componente visual en el
bloque de función 114. En el caso de que la determinación del
bloque de decisión 112 sea que el texto se ha de leer literalmente,
se presenta visualmente el componente visual y se lee una porción de
audio que corresponde literalmente con el componente visual en el
bloque de función 116. Una vez que se ha llevado a cabo una de las
operaciones de los bloques de función 114 y 116, el procedimiento
se realimenta o cierra un lazo de vuelta al bloque de decisión 106,
hasta que se establece la determinación de que no existe más
aportación que realizar.
La Figura 2 es un ejemplo de una página
facilitada que tiene un componente susceptible de tocarse o táctil.
Un usuario puede leer visualmente el texto de esta página conforme
éste está siendo leído en voz alta. A medida que cada palabra está
siendo leída de forma audible para el usuario, ésta es también
destacada o resaltada, lo que hace más rápido y fácil identificar y
tocar lo que acaba de ser leído (o las inmediaciones de lo que
acaba de ser leído). De manera adicional, se presentan visualmente
unos botones 202 y 204 que facilitan al lector avanzar hasta la
siguiente pantalla o volver a una pantalla previa, respectivamente.
Al generar su EBML correctamente, la aplicación puede leer todos
los artículos en orden, pero saltarse el artículo presente en ese
momento en el caso de que se pulse, por ejemplo, el botón 202
existente en la pantalla. Un conductor de un automóvil puede, por
tanto, por ejemplo, concentrarse visualmente en la carretera,
escuchar el tema/título de un artículo y encontrar rápidamente el
botón de avance 202 en la pantalla táctil si el artículo no es de
interés. En una realización preferida, el hojeador o navegador insta
audiblemente al usuario a avanzar hasta la siguiente pantalla
diciendo, por ejemplo, "para saltar este artículo, pulse el avance
hasta el siguiente botón de pantalla". De manera adicional, es
posible hacer que el botón quede resaltado con respecto al resto de
la pantalla, tal como mediante destellos y/o con el uso de un color
que haga que el botón se ponga fácilmente de manifiesto. La
facilidad con la que un usuario puede presionar el botón 202 para
saltar el artículo presente en ese momento, o el botón 204 para
volver a un artículo previo, es comparable con la facilidad para
encender la radio o seleccionar otro canal de radio.
La Figura 3 es un diagrama de bloques del
sistema en el que puede ponerse en práctica la presente invención.
El navegador de EBML 300 recibe contenidos embebidos en EBML desde
una red 100. El navegador 300 hace pasar los contenidos a un
dispositivo de estructuración sintáctica 302 en lenguaje EBML, el
cual estructura sintácticamente el lenguaje de EBML de los
contenidos recibidos. El dispositivo de estructuración sintáctica
302 proporciona entonces los contenidos que se han de facilitar al
sincronizador de audio-vídeo 304, el cual sincroniza
la salida de cada una de las porciones de audio y de vídeo del EBML
original. El módulo de presentación visual 306 y el módulo 308 de
texto a habla (TTS -"text to speech") reciben, ambos, la salida
del sincronizador de audio-vídeo 304. El módulo de
TTS 308 prepara la porción de audio de la página de EBML que se ha
de leer, y el módulo de presentación visual 306 representa
visualmente la porción visual de tal manera que ésta está
sincronizada con la porción de audio procedente del módulo de TTS
308.
En una realización preferida de la presente
invención, existen tres etapas entre la estructuración sintáctica
del EBML y la finalización del aporte que habilitan y llevan a cabo
el aporte auditivo y visual sincronizados de los contenidos: a) la
construcción del modelo; b) la construcción de las vistas del
modelo; y c) el aporte.
Haciendo referencia a continuación a la etapa de
construcción del modelo de la presente invención, que sincroniza
los componentes de audio y visual, cuando el lenguaje de agregación
se estructura sintácticamente por parte del dispositivo de
estructuración sintáctica 302, se construye un árbol de modelo que
contiene elementos de modelo para cada etiqueta contenida en el
lenguaje de agregación. Los elementos para las etiquetas
intercaladas aparecen por debajo de sus elementos padres en el
árbol de modelo. Por ejemplo, se obtendrá como resultado el
siguiente código
en el árbol de modelo que se
muestra en la Figura 4A. Específicamente, el ElementoP 456
(para párrafo) aparece por debajo del ElementoDecirComo 454.
El ElementoDecirComo 454, a su vez, aparece por debajo del
ElementoCuerpo 452. Finalmente, el ElementoCuerpo 452
es un hijo del ElementoEBML 450. El texto en sí (por
ejemplo, "Este texto es visible") está contenido en un elemento
de texto especial 458 situado en el fondo del
árbol.
Haciendo referencia, a continuación, a la etapa
de construcción de las vistas de la invención, como se muestra en
la Figura 4B, una vez que se ha construido el árbol de modelo 424 de
acuerdo con el código de fuente proporcionado, éste es recorrido
para crear vistas de audio 402 y visual 416 independientes del
modelo. La vista de audio 402 contiene una cola de elementos de
audio (404, 406, 408, 410 y 414) que constituyen objetos que
representan, bien elementos que se han de pronunciar por, por
ejemplo, un dispositivo generador 304 de voz de paso de texto a
habla o por algún reproductor de medio, o bien elementos que
permiten el control del flujo de audio (por ejemplo, la
ramificación en la cola de audio, la realización de pausas, etc.).
La Vista visual 416 contiene una representación de los contenidos
utilizables por algún sistema 440 de estructuración en ventanas para
el aporte visual de los componentes (418, 420, 422).
Como se pasa por cada elemento (426, 434, 428,
430, 432, 440, 442, 438, 436) del árbol de modelo 424, se instruye
la construcción de sus vistas visual 416 y de audio 402. El aporte
visual o auditivo del texto existente dentro de una etiqueta dada
difiere dependiendo de dónde aparece esa etiqueta en el árbol de
modelo 424. En general, los elementos obtienen los atributos visual
y auditivo de su elemento padre en el árbol de modelo 424. El
recorrido por el árbol de modelo 414 garantiza que los elementos
padres son procesados antes que sus hijos, y garantiza, por
ejemplo, que cualesquiera elementos intercalados dentro de una
etiqueta <SILENCIO>, sin importar a qué profundidad, obtienen
un atributo de silencio. El recorrido es una técnica ampliamente
conocida por parte de los expertos de la técnica y no necesita
ninguna explicación adicional.
El elemento presente en ese momento modifica
entonces los atributos para reflejar su propio comportamiento,
afectando entonces a cualesquiera nodos que caigan por debajo de él
en el árbol. Por ejemplo, un ElementoSilencio establece el
atributo audible como falso. Cualesquiera nodos que caigan por
debajo del nodo <SILENCIO> en el árbol (es decir, que estaban
contenidos dentro de la construcción de EBML <SILENCIO>),
adoptan un atributo de audio que es consistente con los
establecidos por sus antecesores. Un elemento puede también alterar
las vistas. Por ejemplo, en una realización preferida, un
ElementoDecirComo, como el ElementoSilencio,
establecerá el atributo audible como falso, puesto que se va a decir
o pronunciar alguna otra cosa en lugar de cualquier texto
contenido. De manera adicional, sin embargo, éste introducirá un
objeto u objetos en la vista de audio 402 para pronunciar el
contenido de reemplazo que está contenido en los atributos de
etiqueta (SUB = "Este texto es hablado.").
Finalmente, las etiquetas y el texto contenidos
(es decir, los elementos hijos) son procesados o tratados. Un nodo
se considera un padre para cualesquiera nodos que caigan por debajo
de él en un árbol 424. De esta forma, por ejemplo, los nodos 434 y
436 del árbol de modelo 424 son nodos hijos del nodo 426, y el nodo
426 es un nodo padre de los nodos 434 y 436. Además del hecho de
que un nodo es el responsable de la generación de un elemento de
Salida de Audio (404, 406, 408, 410, 412 y 414, en la Figura 4B)
éstos también tienen que generar una presencia visual (418, 420 y
422 en la Figura 4B).
En cuanto a los elementos de etiqueta contenidos
(por ejemplo, 434 y 436), tan solo se pide a estos que construyan
sus propias vistas (es decir, el recorrido del árbol continúa). Por
lo que respecta a los elementos de texto contenidos, el texto es
procesado o tratado de acuerdo con la totalidad de los atributos
acumulados. Así, por ejemplo, si los atributos indican un contenido
audible pero no visual, la vista de audio 402 es modificada pero no
se añade nada a la vista visual 416. En una realización preferida,
la mayor parte de la información acerca del modo como procesar el
texto se encuentra acumulada en los atributos de texto, de tal
manera que la mayor parte de los elementos no necesitan encargarse
del procesamiento de su propio texto contenido. En lugar de ello,
éstos buscan en el árbol de modelo 424 un elemento que tenga un
método para procesar el texto. Únicamente los elementos que se ven
implicados más tarde en el mantenimiento de la sincronización de las
presentaciones visual y audible tienen métodos para procesar el
texto (por ejemplo, el elemento 432). Estos elementos, como el
ElementoDecirComo, proporcionan el enlace entre el contenido
hablado y el contenido visual. Éstos se registran a sí mismos como
objetos en la cola de audio 402, de tal manera que reciben una
notificación cuando se pronuncian o reproducen palabras o espacios
de audio, y mantienen referencias a los componentes de vista visual
correspondientes. Por lo tanto, son únicamente los elementos que
tienen un comportamiento único por lo que respecta a la
pronunciación o al resalte, los que necesitan tener sus propios
métodos para procesar el texto. Por ejemplo, un
ElementoDecirComo debe gestionar el hecho de que se ha de
resaltar o destacar un bloque determinado de texto al tiempo que se
está facilitando un contenido de audio completamente diferente, ya
sea por parte de un sintetizador TTS, ya sea por un espacio de audio
previamente grabado. La mayor parte de los elementos que no han de
gestionar ningún comportamiento especial semejante y que no aparecen
en el árbol bajo otros elementos con un comportamiento especial,
terminan por utilizar el procesamiento de texto por defecto
proporcionado por el ElementoEBML de una sola raíz, el cual
centraliza el resalte normal de palabra en
palabra.
palabra.
Como tan solo se utilizan elementos
seleccionados dentro del árbol de modelo 424 para mantener el enlace
entre las vistas de audio y visual, es necesario que éstos
persistan más allá de la fase de construcción de las vistas y
dentro de la fase de aportación del contenido. Una ventaja de este
método de construcción de las vistas es que todos los otros
elementos del árbol (típicamente, la inmensa mayoría) no son ya
necesarios durante la fase de aporte y pueden ser borrados. Los
elementos que son prescindibles (434, 436, 438, 440, 442) se han
dibujado en la Figura 4B con líneas de puntos. Este beneficio puede
dar lugar a ahorros drásticos de almacenamiento. Una página típica
de agregación puede dar lugar a que se construyan cientos de
etiquetas y nodos de texto. Una vez que se han construido las
vistas de audio y visual, puede persistir un pequeño puñado de estos
nodos con el fin de procesar sucesos del habla (y mantener la
sincronización entre las vistas) durante la presentación de las
vistas.
Durante el aporte del contenido, el proveedor
realiza iteraciones a través de la vista de audio 402. La vista de
audio 402 consiste ahora en una serie de objetos que especifican y
controlan la progresión del audio, los cuales incluyen:
\bullet objetos que contienen texto que
se ha de pronunciar;
\bullet objetos que marcan la
entrada/salida a los elementos;
\bullet objetos que solicitan una pausa
susceptible de interrumpirse a la presentación de audio; y
\bullet objetos que solicitan una
recolocación o reubicación de la vista de audio 402 (incluyendo la
capacidad de realimentarse o cerrar un lazo de vuelta y repetir
parte de la cola de audio).
A medida que se procesan los sucesos, se
notifica el elemento apropiado retenido (426, 428, 430, 432) en el
árbol de modelo 424. El árbol de modelo 424 comunica, a su vez, a
los componentes visuales correspondientes (428, 420, 422) el
comportamiento de resalte apropiado y les solicita que se hagan
visibles (es decir, les solicita que comuniquen a su ventana, que
los contiene, que se despliegue según sea necesario).
Con el fin de comprender adicionalmente las
etapas que se requieren para construir/facilitar un documento,
considérese el siguiente documento de EBML sencillo:
El dispositivo de estructuración sintáctica 302
crea el árbol de modelo que se ha ilustrado en la Figura 5. Los
nodos <EBML> 502 y <DECIRCOMO>504 se han indicado
utilizando un óvalo acentuado, ya que estos nodos se han diseñado
para manejar texto para los que se encuentran en su árbol
descendente (existen otras etiquetas en esta categoría, pero ocurre
que éstas son las dos etiquetas que se dan en este ejemplo). Son
estos dos nodos los que realizan la adición real de texto a las
vistas de audio/visual. Los nodos que no son de texto (506, 508,
510, 512, 514) se han representado con los óvalos que contienen los
nombres de las etiquetas. El navegador se sirve de este árbol de
modelo 512 durante la construcción de las vistas de audio y visual.
Nótese que los nodos de terminal (516, 518, 520, 522) se han
indicado con un polígono. Estos nodos contienen el texto real
procedente del documento. Los nodos que caen por debajo en el árbol
sencillamente hacen pasar la petición de construcción hacia arriba
por el árbol sin que importe a qué nodo se entregará la
petición.
Una vez que se ha completado la estructuración
sintáctica del documento, el navegador recorre el árbol de modelo
524 y comienza la construcción de las diversas vistas que se
requieren. A medida que se llega a la rutina de construcción de
cada nodo, ésta puede hacer varias cosas. En primer lugar, es
posible alterar el objeto del atributo de texto presente en ese
momento, lo que afectará a la presentación de texto por parte de
los que se encuentran por debajo en el árbol. Por ejemplo, si se
llega a una etiqueta <FUENTE>, el nodo de etiqueta
<FUENTE> altera el objeto del atributo de texto con el fin de
indicar que las peticiones de construcción de vista visual
subsiguientes deberán utilizar una fuente concreta para cualquier
texto contenido. Los nodos situados por debajo hacen honor a este
atributo debido a que cada uno de ellos obtiene la copia de sus
padres del objeto del atributo antes de comenzar a trabajar. En
segundo lugar, la rutina de construcción puede remitirse
ascendiendo por el árbol de modelo 524 a sus antecesores y pedirles
que les entreguen un segmento de texto concreto. Esto es el
comportamiento por defecto para los nodos de texto. Finalmente, la
rutina de construcción puede afectar directamente a la vista. Por
ejemplo, el nodo de etiqueta <P> puede empujar un objeto de
salto a nueva línea hasta la vista visual presente en ese momento,
con lo que se provoca que el flujo visual del texto se vea
interrumpido. De la misma manera la etiqueta <RUPTURA> puede
empujar un objeto de ruptura de audio hasta la cola de audio, con
lo que se provoca una breve pausa en la salida de audio.
En cuanto a los nodos que se remiten ascendiendo
por el árbol de sus ancestros para solicitar el texto que se les ha
de entregar, los nodos que implementan esta función (<EMBL> y
<DECIRCOMO> en este ejemplo) son los responsables de la
construcción de las vistas de audio/visual, así como de la
coordinación y la sincronización que se requiere durante la
presentación.
La Figura 6 ilustra las relaciones que existen
entre las vistas y el modelo para el EBML del ejemplo, una vez que
se ha completado la construcción. A medida que se construye la cola
de audio 402, se mantienen las referencias a los nodos responsables
de la sincronización de las vistas de audio/visual. Por ejemplo, el
elemento 602 de vista de Audio 402 apunta a la etiqueta DECIRCOMO
504, y el elemento de cola de audio 604, 606 y 608 apunta a la
etiqueta de EBML 502. Esto permite que los sucesos suministrados por
el dispositivo generador 304 de habla sean canalizados hacia el
nodo correcto. El modelo, a su vez, mantiene referencias a los
componentes apropiados de la presentación visual. Esto hace posible
que los nodos de modelo implementen cualquier comportamiento
sincronizado que se requiera a medida que el texto esté siendo
presentado auditivamente. En este ejemplo, el nodo
<DECIRCOMO> 504 se ocupa de sincronizar las diferentes
presentaciones de audio y visual de los elementos 602 y 526. El
nodo <EBML> 502 proporciona el comportamiento por defecto en
el caso de que las presentaciones de audio y visual sean la misma,
tal como se muestra por los elementos 604, 606, 608 y los elementos
528, 530 y 532, respectivamente.
Una vez que se han construido las vistas, se dan
instrucciones al modelo para que disuelva cualesquiera referencias
que se mantengan dentro del árbol. Por ejemplo, el Lenguaje de
Programación Java ("Java Programming Language") permite a la
"recogida de la basura" contenida en la Máquina Virtual Java
("Java Virtual Machine") recoger los nodos que no son
necesarios para proporcionar la sincronización durante la
presentación. Es posible utilizar otros sistemas de "recogida de
basura" con el fin de recuperar automáticamente los nodos. Los
nodos que se requieren para la sincronización son anclados o
afianzados por la vista de audio 402 y, por tanto, evitan ser
recogidos.
La Figura 7 muestra el árbol con las referencias
disueltas. Los nodos disponibles para ser recogidos como desecho se
han mostrado con líneas de puntos (506, 508, 510, 512, 514, 516,
518, 520 y 522).
Claims (25)
1. Un método implementado por computadora
para sincronizar una presentación de audio y visual en un proveedor
de múltiples modos, o multi-modo, que comprende las
etapas de:
recibir un documento que incluye código de
lenguaje de agregación de hojeador o navegador que incluye etiquetas
para componentes de audio y etiquetas para componentes
visuales;
estructurar sintácticamente el texto contenido
en el documento recibido con el fin de construir un árbol de modelo
(424) que contiene elementos de modelo para cada etiqueta contenida
en dicho código;
atravesar o recorrer el árbol de modelo (424)
con el fin de construir unas vistas visual (416) y de audio
(402);
generar un componente audible asociado con el
texto basándose en un elemento de vista de audio que apunta a una
etiqueta para un componente de audio; y
presentar visualmente el texto basándose en un
elemento de vista de vídeo que apunta a una etiqueta para un
componente visual, mientras se está reproduciendo el componente
audible generado.
2. El método implementado por computadora
para sincronizar una presentación de audio y visual en un proveedor
de múltiples modos, de acuerdo con la reivindicación 1, que
comprende adicionalmente la etapa de destacar o resaltar
visualmente ciertas porciones del texto visualmente presentado,
correspondientes al componente audible generado y reproducido.
3. El método implementado por computadora,
de acuerdo con la reivindicación 2, que comprende adicionalmente la
etapa de desplegar automáticamente el texto visualmente presentado
con el fin de mantener una correspondencia entre el texto
visualmente presentado y el componente audible generado y
reproducido.
4. El método implementado por computadora,
de acuerdo con cualquiera de las reivindicaciones precedentes, en
el cual el componente audible se corresponde literalmente con el
texto.
5. El método implementado por computadora,
de acuerdo con una cualquiera de las reivindicaciones 1 a 3, en el
cual el componente audible está relacionado con el texto pero no se
corresponde literalmente con éste.
6. El método implementado por computadora,
de acuerdo con cualquiera de las reivindicaciones precedentes, en
el cual el componente audible es un espacio previamente grabado.
7. El método implementado por computadora,
de acuerdo con cualquiera de las reivindicaciones precedentes, en
el cual el documento es recibido desde una red.
8. El método implementado por computadora,
de acuerdo con la reivindicación 7, en el cual el proveedor de
múltiples modos, o multi-modo, es un hojeador o
navegador de red.
9. El método implementado por computadora,
de acuerdo con cualquiera de las reivindicaciones precedentes, que
comprende adicionalmente la etapa de presentar visualmente botones
que, cuando se pulsan por un usuario, hacen avanzar el texto
visualmente presentado para saltarse un artículo presente en ese
momento o regresar a un artículo previo.
10. El método implementado por computadora,
de acuerdo con la reivindicación 9, que comprende adicionalmente la
etapa de destacar o resaltar los botones visualmente presentados con
el fin de facilitar su selección por parte del usuario.
11. Un sistema informático para sincronizar
una presentación de audio y visual en un proveedor de múltiples
modos, que comprende:
un dispositivo de entrada, destinado a recibir
un documento que incluye código de lenguaje de agregación de
navegador que incluye etiquetas para componentes de audio y
etiquetas para componentes visuales;
un dispositivo de estructuración sintáctica,
destinado a estructurar sintácticamente el texto contenido en el
documento recibido con el fin de construir un árbol de modelo (424)
que contiene elementos de modelo para cada etiqueta contenida en
dicho código;
medios para atravesar o recorrer el modelo de
árbol (424) con el fin de construir unas vistas visual (416) y de
audio (402);
medios para generar un componente audible
asociado con el texto basándose en un elemento de vista de audio
que apunta a una etiqueta para un componente de audio; y
\global\parskip0.940000\baselineskip
un dispositivo de presentación visual, destinado
a presentar visualmente el texto basándose en un elemento de vista
de vídeo que apunta a una etiqueta para un componente visual,
mientras se está reproduciendo el componente audible generado.
12. El sistema informático de acuerdo con la
reivindicación 11, en el cual el dispositivo de presentación visual
incluye medios para destacar o resaltar ciertas porciones del texto
visualmente presentado, correspondientes al componente audible
generado y reproducido.
13. El sistema informático de acuerdo con la
reivindicación 11, que incluye medios para desplegar automáticamente
el texto visualmente presentado para que coincida con el componente
de audio, por lo que el texto correspondiente al componente audible
generado y reproducido se mantiene en la vista.
14. El sistema informático de acuerdo con
una cualquiera de las reivindicaciones 11 a 13, en el cual el
componente audible se corresponde literalmente con el texto
visualmente presentado.
15. El sistema informático de acuerdo con
una cualquiera de las reivindicaciones 11 a 13, en el cual el
componente audible está relacionado con el texto visualmente
presentado pero no se corresponde literalmente con éste.
16. El sistema informático de acuerdo con
una cualquiera de las reivindicaciones 11 a 15, en el cual el
componente audible es un espacio previamente grabado.
17. El sistema informático de acuerdo con
una cualquiera de las reivindicaciones 11 a 16, que incluye medios
para recibir el documento desde una red.
18. El sistema informático de acuerdo con la
reivindicación 17, en el cual el proveedor de múltiples modos, o
multi-modo, es un hojeador o navegador.
19. El sistema informático de acuerdo con
una cualquiera de las reivindicaciones 11 a 18, en el cual dicho
dispositivo de presentación visual, en funcionamiento, está
dispuesto de manera que presenta visualmente botones que, cuando se
pulsan por un usuario, hacen avanzar el texto visualmente presentado
para saltarse un artículo presente en ese momento o regresar a un
artículo previo.
20. El sistema informático de acuerdo con la
reivindicación 19, en el cual los botones visualmente presentados
son destacados o resaltados con el fin de facilitar su selección por
parte del usuario.
21. Un producto de programa informático que
comprende código de programa informático que, cuando se lleva a
cabo o ejecuta, controla una computadora para sincronizar
componentes de audio y visuales dentro de un proveedor de
contenidos, de tal modo que el producto de programa informático
comprende:
un primer código de programa informático para
estructurar sintácticamente el texto contenido en un documento, el
cual incluye código de lenguaje de agregación de navegador, que
incluye etiquetas para componentes de audio y etiquetas para
componentes visuales, de tal modo que dicho primer código de
programa informático construye un árbol de modelo (424) que
contiene elementos de modelo para cada etiqueta contenida en dicho
código y lenguaje de agregación de navegador; y
atravesar o recorrer el árbol de modelo (424)
con el fin de construir unas vistas visual (416) y de audio
(402);
un segundo código de programa informático para
generar un componente audible asociado con el texto basándose en un
elemento de vista de audio desarrollado por dicho recorrido por
dicho árbol de modelo (424) y que apunta a una etiqueta para un
componente de audio; y
un tercer código de programa para presentar
visualmente el texto basándose en un elemento de vista de vídeo
desarrollado por dicho recorrido por dicho árbol de modelo (424) y
que apunta a una etiqueta para un componente visual, mientras se
está reproduciendo el componente audible generado.
22. El programa informático de acuerdo con
la reivindicación 21, que comprende adicionalmente un cuarto código
de programa informático destinado a destacar o resaltar visualmente
ciertas porciones del texto visualmente presentado,
correspondientes al componente audible generado y reproducido.
23. El programa informático de acuerdo con
la reivindicación 22, que comprende adicionalmente un quinto código
de programa informático para determinar cuándo el componente audible
se corresponde literalmente con el texto.
24. El programa informático de acuerdo con
la reivindicación 22, que comprende adicionalmente un sexto código
de programa informático destinado a determinar cuándo el componente
audible está relacionado con el texto pero no se corresponde
literalmente con éste.
25. El programa informático de acuerdo con
la reivindicación 24, que comprende adicionalmente un séptimo
código de programa informático para desplegar automáticamente el
texto visualmente presentado para que coincida con el componente de
audio generado y reproducido.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US670800 | 1991-03-18 | ||
| US09/670,800 US6745163B1 (en) | 2000-09-27 | 2000-09-27 | Method and system for synchronizing audio and visual presentation in a multi-modal content renderer |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2271069T3 true ES2271069T3 (es) | 2007-04-16 |
Family
ID=24691932
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES01965487T Expired - Lifetime ES2271069T3 (es) | 2000-09-27 | 2001-09-19 | Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal. |
Country Status (11)
| Country | Link |
|---|---|
| US (1) | US6745163B1 (es) |
| EP (1) | EP1320847B1 (es) |
| JP (1) | JP4769407B2 (es) |
| KR (1) | KR100586766B1 (es) |
| CN (1) | CN1184613C (es) |
| AT (1) | ATE344518T1 (es) |
| AU (1) | AU8612501A (es) |
| CA (1) | CA2417146C (es) |
| DE (1) | DE60124280T2 (es) |
| ES (1) | ES2271069T3 (es) |
| WO (1) | WO2002027710A1 (es) |
Families Citing this family (58)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7080315B1 (en) * | 2000-06-28 | 2006-07-18 | International Business Machines Corporation | Method and apparatus for coupling a visual browser to a voice browser |
| US7240006B1 (en) * | 2000-09-27 | 2007-07-03 | International Business Machines Corporation | Explicitly registering markup based on verbal commands and exploiting audio context |
| AU2000276399A1 (en) * | 2000-09-30 | 2002-04-15 | Intel Corporation | Method, apparatus, and system for determining information representations and modalities based on user preferences and resource consumption |
| US7349946B2 (en) * | 2000-10-02 | 2008-03-25 | Canon Kabushiki Kaisha | Information processing system |
| DE10064661A1 (de) * | 2000-12-22 | 2002-07-11 | Siemens Ag | Kommunikationsanordnung und Verfahren für Kommunikationssysteme mit interaktiver Sprachfunktion |
| US7000189B2 (en) * | 2001-03-08 | 2006-02-14 | International Business Mahcines Corporation | Dynamic data generation suitable for talking browser |
| US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
| US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
| US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
| US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
| US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
| US7203907B2 (en) | 2002-02-07 | 2007-04-10 | Sap Aktiengesellschaft | Multi-modal synchronization |
| GB0204768D0 (en) * | 2002-02-28 | 2002-04-17 | Mitel Knowledge Corp | Bimodal feature access for web applications |
| US7003464B2 (en) * | 2003-01-09 | 2006-02-21 | Motorola, Inc. | Dialog recognition and control in a voice browser |
| US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
| US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
| JP4462901B2 (ja) * | 2003-11-11 | 2010-05-12 | 富士通株式会社 | モーダル同期制御方法およびマルチモーダルインターフェイスシステム |
| US9378187B2 (en) | 2003-12-11 | 2016-06-28 | International Business Machines Corporation | Creating a presentation document |
| US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
| US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
| US8499232B2 (en) * | 2004-01-13 | 2013-07-30 | International Business Machines Corporation | Differential dynamic content delivery with a participant alterable session copy of a user profile |
| US20050233287A1 (en) * | 2004-04-14 | 2005-10-20 | Vladimir Bulatov | Accessible computer system |
| WO2006003714A1 (ja) * | 2004-07-06 | 2006-01-12 | Fujitsu Limited | 読み上げ機能付きブラウザプログラム、読み上げ機能付きブラウザ、ブラウジング処理方法およびブラウザプログラム記録媒体 |
| US20060136870A1 (en) * | 2004-12-22 | 2006-06-22 | International Business Machines Corporation | Visual user interface for creating multimodal applications |
| US7751431B2 (en) * | 2004-12-30 | 2010-07-06 | Motorola, Inc. | Method and apparatus for distributed speech applications |
| US7478079B2 (en) * | 2005-01-14 | 2009-01-13 | Microsoft Corporation | Method for displaying a visual representation of mapping between a source schema and a destination schema emphasizing visually adjusts the objects such that they are visually distinguishable from the non-relevant and non-selected objects |
| US7516400B2 (en) * | 2005-03-07 | 2009-04-07 | Microsoft Corporation | Layout system for consistent user interface results |
| US7881862B2 (en) * | 2005-03-28 | 2011-02-01 | Sap Ag | Incident command post |
| US8139725B2 (en) * | 2005-04-22 | 2012-03-20 | The Invention Science Fund I, Llc | Associated information in structured voice interaction systems |
| US7924985B2 (en) * | 2005-04-21 | 2011-04-12 | The Invention Science Fund I, Llc | Interaction history applied to structured voice interaction system |
| US20060277044A1 (en) * | 2005-06-02 | 2006-12-07 | Mckay Martin | Client-based speech enabled web content |
| US7917365B2 (en) * | 2005-06-16 | 2011-03-29 | Nuance Communications, Inc. | Synchronizing visual and speech events in a multimodal application |
| US7707501B2 (en) * | 2005-08-10 | 2010-04-27 | International Business Machines Corporation | Visual marker for speech enabled links |
| US20070039036A1 (en) * | 2005-08-12 | 2007-02-15 | Sbc Knowledge Ventures, L.P. | System, method and user interface to deliver message content |
| JP4827498B2 (ja) * | 2005-11-11 | 2011-11-30 | キヤノン株式会社 | レイアウト方法及びその装置 |
| US20070211071A1 (en) * | 2005-12-20 | 2007-09-13 | Benjamin Slotznick | Method and apparatus for interacting with a visually displayed document on a screen reader |
| US7996776B2 (en) * | 2006-02-27 | 2011-08-09 | Microsoft Corporation | Shared telepointer |
| US7694221B2 (en) | 2006-02-28 | 2010-04-06 | Microsoft Corporation | Choosing between multiple versions of content to optimize display |
| US7487453B2 (en) * | 2006-03-24 | 2009-02-03 | Sap Ag | Multi-modal content presentation |
| EP1858005A1 (en) * | 2006-05-19 | 2007-11-21 | Texthelp Systems Limited | Streaming speech with synchronized highlighting generated by a server |
| US20070294927A1 (en) * | 2006-06-26 | 2007-12-27 | Saundra Janese Stevens | Evacuation Status Indicator (ESI) |
| DE102006035780B4 (de) * | 2006-08-01 | 2019-04-25 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems |
| US20080065715A1 (en) * | 2006-08-28 | 2008-03-13 | Ko-Yu Hsu | Client-Server-Based Communications System for the Synchronization of Multimodal data channels |
| US20080172616A1 (en) * | 2007-01-16 | 2008-07-17 | Xerox Corporation | Document information workflow |
| US8060371B1 (en) | 2007-05-09 | 2011-11-15 | Nextel Communications Inc. | System and method for voice interaction with non-voice enabled web pages |
| US20090157407A1 (en) * | 2007-12-12 | 2009-06-18 | Nokia Corporation | Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files |
| EP2316079A4 (en) * | 2008-03-07 | 2011-10-05 | Freedom Scientific Inc | SYSTEM AND METHOD FOR SYNCHRONIZING THE SELECTION IN A VIRTUAL DOCUMENT ON THE SCREEN |
| US11487347B1 (en) * | 2008-11-10 | 2022-11-01 | Verint Americas Inc. | Enhanced multi-modal communication |
| US8347208B2 (en) | 2009-03-04 | 2013-01-01 | Microsoft Corporation | Content rendering on a computer |
| US8290777B1 (en) * | 2009-06-12 | 2012-10-16 | Amazon Technologies, Inc. | Synchronizing the playing and displaying of digital content |
| US8588378B2 (en) * | 2009-07-15 | 2013-11-19 | Google Inc. | Highlighting of voice message transcripts |
| US8612443B2 (en) * | 2012-05-15 | 2013-12-17 | Sap Ag | Explanatory animation generation |
| CN104966084A (zh) * | 2015-07-07 | 2015-10-07 | 北京奥美达科技有限公司 | 一种基于ocr和tts的低视力阅读助视系统 |
| US10141006B1 (en) * | 2016-06-27 | 2018-11-27 | Amazon Technologies, Inc. | Artificial intelligence system for improving accessibility of digitized speech |
| US11062497B2 (en) * | 2017-07-17 | 2021-07-13 | At&T Intellectual Property I, L.P. | Structuralized creation and transmission of personalized audiovisual data |
| GB2584236B (en) * | 2018-02-12 | 2022-11-23 | The Utree Group Pty Ltd | A system for recorded e-book digital content playout |
| GB2577742A (en) * | 2018-10-05 | 2020-04-08 | Blupoint Ltd | Data processing apparatus and method |
| US11537781B1 (en) | 2021-09-15 | 2022-12-27 | Lumos Information Services, LLC | System and method to support synchronization, closed captioning and highlight within a text document or a media file |
Family Cites Families (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5640590A (en) * | 1992-11-18 | 1997-06-17 | Canon Information Systems, Inc. | Method and apparatus for scripting a text-to-speech-based multimedia presentation |
| JPH07175909A (ja) | 1993-12-20 | 1995-07-14 | Canon Inc | データ処理装置 |
| US5634084A (en) * | 1995-01-20 | 1997-05-27 | Centigram Communications Corporation | Abbreviation and acronym/initialism expansion procedures for a text to speech reader |
| US5890123A (en) | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
| US5748186A (en) | 1995-10-02 | 1998-05-05 | Digital Equipment Corporation | Multimodal information presentation system |
| WO1997037344A1 (fr) * | 1996-03-29 | 1997-10-09 | Hitachi, Ltd. | Terminal possedant une fonction de synthese vocale et systeme dispensant des donnees caracteres utilisant ce terminal |
| JP3036430B2 (ja) * | 1996-04-12 | 2000-04-24 | 日本電気株式会社 | 文章読み上げ装置 |
| GB2317070A (en) | 1996-09-07 | 1998-03-11 | Ibm | Voice processing/internet system |
| US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
| US5884266A (en) | 1997-04-02 | 1999-03-16 | Motorola, Inc. | Audio interface for document based information resource navigation and method therefor |
| US20020002458A1 (en) * | 1997-10-22 | 2002-01-03 | David E. Owen | System and method for representing complex information auditorially |
| US6115686A (en) * | 1998-04-02 | 2000-09-05 | Industrial Technology Research Institute | Hyper text mark up language document to speech converter |
| US6064961A (en) * | 1998-09-02 | 2000-05-16 | International Business Machines Corporation | Display for proofreading text |
| US6324511B1 (en) * | 1998-10-01 | 2001-11-27 | Mindmaker, Inc. | Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment |
| DE19845665C2 (de) | 1998-10-05 | 2000-08-17 | Orga Kartensysteme Gmbh | Verfahren zur Herstellung eines Trägerelements für einen IC-Baustein zum Einbau in Chipkarten |
| US6085161A (en) * | 1998-10-21 | 2000-07-04 | Sonicon, Inc. | System and method for auditorially representing pages of HTML data |
| FR2807188B1 (fr) * | 2000-03-30 | 2002-12-20 | Vrtv Studios | Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences |
| EP1275051A1 (en) * | 2000-04-19 | 2003-01-15 | TELEFONAKTIEBOLAGET LM ERICSSON (publ) | System and method for rapid serial visual presentation with audio |
-
2000
- 2000-09-27 US US09/670,800 patent/US6745163B1/en not_active Expired - Lifetime
-
2001
- 2001-09-19 EP EP01965487A patent/EP1320847B1/en not_active Expired - Lifetime
- 2001-09-19 JP JP2002531408A patent/JP4769407B2/ja not_active Expired - Fee Related
- 2001-09-19 AT AT01965487T patent/ATE344518T1/de not_active IP Right Cessation
- 2001-09-19 DE DE60124280T patent/DE60124280T2/de not_active Expired - Lifetime
- 2001-09-19 AU AU8612501A patent/AU8612501A/xx active Pending
- 2001-09-19 CA CA002417146A patent/CA2417146C/en not_active Expired - Lifetime
- 2001-09-19 ES ES01965487T patent/ES2271069T3/es not_active Expired - Lifetime
- 2001-09-19 KR KR1020037004178A patent/KR100586766B1/ko not_active Expired - Fee Related
- 2001-09-19 CN CNB01816336XA patent/CN1184613C/zh not_active Expired - Lifetime
- 2001-09-19 WO PCT/GB2001/004168 patent/WO2002027710A1/en not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| WO2002027710A1 (en) | 2002-04-04 |
| US6745163B1 (en) | 2004-06-01 |
| EP1320847B1 (en) | 2006-11-02 |
| KR100586766B1 (ko) | 2006-06-08 |
| CN1466746A (zh) | 2004-01-07 |
| EP1320847A1 (en) | 2003-06-25 |
| JP4769407B2 (ja) | 2011-09-07 |
| DE60124280T2 (de) | 2007-04-19 |
| CN1184613C (zh) | 2005-01-12 |
| CA2417146A1 (en) | 2002-04-04 |
| AU8612501A (en) | 2002-04-08 |
| ATE344518T1 (de) | 2006-11-15 |
| KR20030040486A (ko) | 2003-05-22 |
| DE60124280D1 (de) | 2006-12-14 |
| CA2417146C (en) | 2009-10-06 |
| JP2004510276A (ja) | 2004-04-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2271069T3 (es) | Metodo y sistema para sincronizar una presentacion visual y de audio en un generador de contenidos multi-modal. | |
| US6088675A (en) | Auditorially representing pages of SGML data | |
| US6085161A (en) | System and method for auditorially representing pages of HTML data | |
| Shattuck-Hufnagel | Non-referential gestures in adult and child speech: Are they prosodic? | |
| HUP0104409A2 (hu) | Eljárás és berendezés információ megjelenítésére | |
| US20080114599A1 (en) | Method of displaying web pages to enable user access to text information that the user has difficulty reading | |
| Bateman et al. | Explanation videos unravelled: Breaking the waves | |
| Speer et al. | Prosody | |
| Garrish | Accessible epub 3 | |
| Brinton | English historical linguistics: Approaches and perspectives | |
| James | Representing structured information in audio interfaces: A framework for selecting audio marking techniques to represent document structures | |
| Murray et al. | Emergence of working memory in children using aided communication | |
| JPH10171485A (ja) | 音声合成装置 | |
| Karlik | Translation and performance | |
| Garcinuño et al. | Multilingual accessibility in human-screen reader interaction with web content: an exploratory study | |
| Koutalidis et al. | Multimodal marking of focus in German preschoolers’ utterances with the focus-particles also, only, and even/still | |
| de Prada Pérez | Subject pronoun expression and language mode in bilingual Spanish | |
| AU2001286125B2 (en) | Method and system for synchronizing audio and visual presentation in a multi-modal content renderer | |
| Wouters et al. | Authoring tools for speech synthesis using the sable markup standard. | |
| Beißwenger et al. | Language Decline due to Emojis? | |
| Langer et al. | Information Types and Use Cases | |
| AU2001286125A1 (en) | Method and system for synchronizing audio and visual presentation in a multi-modal content renderer | |
| JP2009075526A (ja) | 音声合成利用の総合的英語学習システム | |
| De Sisto et al. | Sign Languages and Machine Translation: Challenges and Opportunities | |
| JP3969689B2 (ja) | 文書作成支援装置、文書作成支援方法及び文書作成支援プログラムを記憶した記憶媒体 |