ES2370218B1

ES2370218B1 - Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo.

Info

Publication number: ES2370218B1
Application number: ES201030758A
Authority: ES
Inventors: Mercedes De Castro Álvarez; Manuel De Pedro Sastre; Belén Ruiz Mezcua; Javier Jimenez Dorado
Original assignee: Universidad Carlos III de Madrid
Current assignee: Universidad Carlos III de Madrid
Priority date: 2010-05-20
Filing date: 2010-05-20
Publication date: 2012-10-18
Anticipated expiration: 2030-05-20
Also published as: EP2574054A1; WO2011144775A1; EP2574054A4; ES2370218A1; EP2574054B1

Abstract

La sincronización de subtítulos y audio en directo que se propone determina un retardo de subtítulo individual {dl}ti de cada subtítulo i y crea una unidad de subtítulo Si con el subtítulo i y el retardo de subtítulo individual {dl}ti. Cada unidad de subtítulo Si se introduce en uno o más paquetes PES de subtítulo con una marca de tiempo de presentación PTS{sub,i} y junto con un retardo de desplazamiento asociado configurable REST. Dichos paquetes forman parte de un flujo de transporte extendido que incluye paquetes de audio que contiene al menos un fragmento de audio j y una marca de tiempo de presentación PTSj. Se realiza una sincronización de los paquetes de subtítulo con paquetes de audio creando un flujo de transporte sincronizado que comprende todos los paquetes del flujo de transporte extendido retardados un tiempo que depende de un l retardo de desplazamiento asociado configurable REST.

Description

Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo.

Campo técnico de la invención

La presente invención tiene su aplicación en el campo de la generación de subtítulos para eventos multimedia en directo, por ejemplo programas de televisión o radio en directo, para su visualización en tiempo real y sincronizados tanto con el audio como con el vídeo.

Antecedentes de la invención

Los subtítulos, como modo de acceder al contenido de audio de eventos multimedia suministrado a través de gran diversidad de dispositivos (equipos de televisión, teléfonos móviles 3G, ordenadores,...) son necesarios para personas con diﬁcultades auditivas o personas que necesitan cierta ayuda para entender el idioma. Los subtítulos también son necesarios cuando se experimentan contenidos multimedia en entornos ruidosos o lugares en los que debe desactivarse el sonido.

Aunque la subtitulación de eventos que no son en directo es una práctica normal hoy en día, la subtitulación de eventos en directo es menos frecuente debido a la complejidad inherente de la tecnología actual. La subtitulación en tiempo real de eventos audiovisuales es una investigación pluridisciplinar que abarca tecnologías de los campos de reconocimiento automático del habla, informática y transmisión y difusión de paquetes en red. En eventos en directo en los que los subtítulos se presentan en una pantalla auxiliar, pero el vídeo y el audio se experimentan directamente, no existe la oportunidad de gestionar el retardo de los subtítulos. Lleva tiempo crear subtítulos a partir del habla, independientemente del procedimiento usado para la transcripción de audio a texto. En las mejores condiciones, el retardo en la creación de subtítulos de texto puede ser de varios segundos. Cualquier procedimiento que intente tratar el problema del retardo entre audio y subtítulos debe proporcionar un procedimiento para determinar la correspondencia temporal entre un fragmento de audio y los subtítulos generados a partir del mismo.

En el actual estado de la técnica para la generación de subtítulos en programas de televisión en directo, siempre hay un retardo signiﬁcativo y variable entre el audio y el momento en el tiempo en el que están listos los subtítulos correspondientes. Como resultado, los subtítulos se muestran en la pantalla del usuario un número variable de segundos después y por tanto de manera no sincronizada con el audio/vídeo. Para entender mejor los procesos implicados en la subtitulación en directo (10), la ﬁgura 1 muestra las etapas relevantes:

Etapa 1)

Transcripción de audio (1): la transcripción inmediata de habla a partir de uno o varios hablantes a texto.

Etapa 2)

Generación de subtítulos (2): la generación de subtítulos a partir de texto.

Etapas3y4)

Segmentación en paquetes (3) y transmisión/difusión (4) a través de los sistemas multimedia, por ejemplo, televisión digital terrestre (41), Internet (42), televisión por protocolo de Internet (43), etc.

Etapa 5)

Recepción y presentación (5) en la pantalla del usuario en, por ejemplo, un receptor de televisión (51), un ordenador (52), un teléfono móvil 3G o una televisión convencional con un codiﬁcador de IPTV (53), por mencionar sólo unos cuantos.

En entornos de generación de subtitulación en directo, el proceso de transcripción de audio (1) suministra el texto correspondiente varios segundos después de haber recibido el fragmento de habla. La transcripción de habla en texto en tiempo real es la causa originaria de los retardos de los subtítulos y es muy difícil de minimizar. En el pasado reciente y todavía hoy, el principal enfoque para la transcripción de audio (1) a texto a partir del habla ha sido el uso de estenotipia (11) en la que el texto transcrito a partir del audio se produce manualmente por estenotipistas. Aunque la calidad y velocidad de la estenotipia (11) son buenas, el coste de este proceso y la baja disponibilidad de estenotipistas hacen difícil que se convierta en una práctica extendida en la subtitulación masiva de eventos en tiempo real. Otra alternativa es el uso de ASR o motores de reconocimiento automático del habla (12) aplicados al audio del hablante, o bien directamente o a través de un rehablador intermedio (13), para reconocer automáticamente las palabras y frases con una mínima intervención humana. Los principales inconvenientes de la subtitulación con la tecnología de ASR actual son los retardos introducidos en los subtítulos con respecto a los ﬂujos de vídeo y audio originales, las tasas de error de reconocimiento de habla y la necesidad de entrenar el sistema para la voz y el vocabulario del hablante.

En la práctica, puede usarse ASR con la ayuda de un operador humano que manipula el texto de salida para mejorar

o corregir los subtítulos. De hecho, para la subtitulación en directo de televisión, el uso de rehablado y manipulación es una práctica normal. El uso de ASR directamente sin un rehablador intermedio implica o bien aplicar un ASR independiente del hablante a cualquier voz en la señal de audio, o aplicar un ASR dependiente del hablante entrenado previamente para las diferentes voces en la señal de audio. El ASR basado en rehablado, en el que una persona habla a un ASR dependiente del hablante, tratando de repetir lo que está escuchando, es de los más usados en difusión de televisión en tiempo real en todo el mundo en la actualidad, por ejemplo, en el Reino Unido o en España. La estenografía se ha usado y todavía se usa ampliamente para subtitulación en tiempo real, por ejemplo en EE. UU., en conexión con un ordenador en el que una aplicación de software traduce los símbolos estenográﬁcos en texto. Hay otros procedimientos, no muy comunes pero que se usan en ocasiones para subtitulación en tiempo real, tales como teclear directamente mediante un teclado o usar un teclado silábico tal como VeyboardTM.

Para la generación de subtitulación (2), los subtítulos se crean a partir de los fragmentos de texto transcritos recibidos desde el subsistema de transcripción de audio (1). El subsistema de generación de subtitulación (2) permite la corrección y el formateo manuales (21), por ejemplo, asignando colores a los fragmentos de texto dependiendo de la información de hablante o de contexto, etc. Los subtítulos ﬁnales se suministran mediante el subsistema de subtitulación en directo (22) junto con otra información importante para su presentación ﬁnal, tal como la duración (tiempo de permanencia en pantalla del subtítulo), el color, la posición en la pantalla, etc.

El posterior proceso de segmentación en paquetes (3) de los ﬂujos de vídeo, audio y subtítulos genera paquetes de ﬂujo de transporte (31) que se envían a través de sistemas de transmisión (4): por ejemplo por televisión digital

: o por IP. Cada paquete transmitido contiene, además de la carga útil e, independientemente de su tipo (vídeo, audio

: o datos), una indicación de un tiempo para la presentación en pantalla (presentation_time_stamp), que se usa en el lado de recepción para una presentación sincronizada de paquetes pertenecientes a los diferentes ﬂujos de un canal de televisión. Dentro de los paquetes de ﬂujo de transporte (31), hay también una referencia de reloj global (100) para la sincronización temporal, de modo que todas las marcas de tiempo de presentación hacen referencia a la misma referencia de reloj común.

Lo que es importante entender es que estas marcas de tiempo de presentación se calculan en el lado de emisión según el reloj en tiempo real (100) del sistema y corresponden al momento en el tiempo en el que se crean los paquetes de ﬂujo de transporte (31). El resultado es que se mantienen los retardos entre audio/vídeo y subtítulos, es decir, los paquetes de audio y vídeo tienen marcas de tiempo de presentación que preceden en el tiempo a las marcas de tiempo de presentación de sus subtítulos correspondientes. En el lado de recepción, el usuario sólo detecta esta falta de alineación entre los ﬂujos cuando activa los subtítulos. Mientras que los ﬂujos de audio y vídeo están sincronizados entre sí, los subtítulos se presentan varios segundos después y nunca se corresponden con el audio y vídeo en la pantalla.

Sumario de la invención

La presente invención sirve para resolver el problema mencionado anteriormente sobre la desincronización entre audio y subtítulos en subtitulación en tiempo real, compensando los retardos individuales de los subtítulos con el ﬁn de conseguir una resincronización eﬁcaz de ﬂujos de audio y de subtítulo antes de que sean presentados al usuario. La presente propuesta describe un sistema de extremo a extremo que permite sincronizar subtítulos y audio/vídeo en directo.

En escenarios de subtitulación en directo, cuando un evento audiovisual (por ejemplo, un programa de televisión en directo, un programa de radio, una obra de teatro o un discurso en una conferencia) se digitaliza y transmite a dispositivos de recepción de usuario, existe la posibilidad de compensar el retardo introducido, principalmente por el proceso de transcripción de audio, entre el audio original y los correspondientes subtítulos. El hecho de que haya una fase de transmisión (a través de una red de comunicación) y una fase de presentación (en el receptor) en la transmisión en tiempo real de eventos en directo, como en la difusión de televisión por protocolo de Internet (IPTV) o de televisión digital terrestre (TDT), ofrece la oportunidad de manejar el proceso de extremo a extremo, lo que permite ﬁnalmente la presentación de vídeo/audio/subtítulos sincronizados en un dispositivo de presentación (por ejemplo, un dispositivo de visualización electrónico). Esto implica retardar el audio y el vídeo con respecto a los subtítulos en algún punto del proceso.

En el contexto de la invención, el ﬂujo de transporte utiliza un protocolo de comunicaciones para audio, vídeo y datos (por ejemplo, subtítulos, teletexto,...), que constituye un tipo de formato de contenedor digital que encapsula ﬂujos elementales segmentados en paquetes para dichos audio/vídeo y datos, y otra información adicional. Un ejemplo de ﬂujo de transporte se especiﬁca en MPEG-2 Parte 1, Sistemas (norma ISO/IEC 13818-1). El ﬂujo de transporte se usa en aplicaciones de difusión tales como DVB (difusión de vídeo digital) para televisión digital terrestre (DVB-T), sistemas por cable (DVB-C), satélite (DVB-S), o en redes basadas en IP (DVB-IPTV) entre otros. El ﬂujo de transporte MPEG es similar al ﬂujo de programa MPEG aunque el primero es para transmisión de datos en la que es probable la pérdida de datos, mientras que el último está diseñado para medios más ﬁables tales como DVD. El ﬂujo de transporte combina uno o más programas con una o más bases de tiempo independientes en un único ﬂujo.

Los datos de audio y vídeo pueden codiﬁcarse como se describe en ITU-T Rec. H.262 | ISO/IEC 13818-2 e ISO/IEC 13818-3. Los ﬂujos elementales de audio y vídeo comprimido resultantes se segmentan en paquetes para producir paquetes de ﬂujo elemental segmentado en paquetes (PES), según se especiﬁca en MPEG-2 Parte 1, Sistemas (norma ISO/IEC 13818-1). Los ﬂujos elementales que forman un programa están constituidos por paquetes PES y comparten una base de tiempo común.

En general, para cualquier escenario aplicable de difusión digital (multimedia, televisión o radio), se construyen lógicamente ﬂujos de transporte a partir de paquetes de ﬂujo elemental (por ejemplo, paquetes PES especiﬁcados en MPEG-2 Parte 1), que son las estructuras de datos usadas para transportar datos de ﬂujo elemental. Esto incluye los ﬂujos elementales del ﬂujo de transporte que contienen paquetes de subtítulo para transportar subtítulos.

Un paquete de ﬂujo elemental consiste en una cabecera de paquete, que incluye una referencia temporal, seguida de un número de bytes contiguos pertenecientes al ﬂujo de datos elemental. Dicha referencia temporal es relativa a la referencia de sincronismo común transportada en el ﬂujo de transporte. Según esta referencia de tiempo, el retardo de extremo a extremo desde la entrada de señal a un codiﬁcador hasta la salida de señal desde un decodiﬁcador es constante.

Un dispositivo de recepción digital puede ser un dispositivo de recepción de radio o televisión digital. Las tecnologías de radio digital para difusión de audio mediante el transporte de señales moduladas digitales se basan en normas que incluyen la difusión de televisión digital. Un dispositivo de recepción de televisión digital puede ser un módulo decodiﬁcador de televisión digital terrestre o un terminal de recepción integrado TDT, un equipo de usuario adaptado para recibir contenido de televisión por IP o difusión multimedia digital, o un receptor de medios digital conectado a una red doméstica que soporta control de televisión en directo (por ejemplo, desde un ordenador).

Un soporte de almacenamiento multimedia puede ser un medio de almacenamiento de disco o un servidor de medios. Una red de distribución multimedia puede ser una red de difusión de televisión digital terrestre, una red de transmisión de televisión por IP o, en general, una red IP conmutada que proporciona sitios web con canales de televisión.

Según un aspecto de la invención, se proporciona un procedimiento para sincronizar subtítulos con audio en sistemas de subtitulación en directo, que genera al menos un subtítulo i a partir de al menos un bloque de transcripción Tj correspondiente a un fragmento de audio j y que comprende los siguientes pasos:

-: determinar un retardo de subtítulo individual Δti de cada subtítulo i;

-: crear una unidad de subtítulo Si que comprende el subtítulo i y el retardo de subtítulo individual Δti;

-: poner cada unidad de subtítulo Si junto con un retardo de desplazamiento asociado conﬁgurable REST en al menos un paquete de subtítulo PES, el cual tiene una marca de tiempo de presentación PTSi, formando dichos paquetes de subtítulo PES parte de un ﬂujo de transporte extendido que incluye al menos un paquete de audio que contiene el fragmento de audio j y una marca de tiempo de presentación PTSj.

-: sincronizar paquetes de subtítulo PES con paquetes de audio creando un ﬂujo de transporte sincronizado que comprende todos los paquetes del ﬂujo de transporte extendido retardados un tiempo que depende del retardo de desplazamiento asociado conﬁgurable REST.

En una posible realización de la invención, cuando la sincronización de subtítulos se hace para ser visualizados seguidamente en un dispositivo de presentación, en la sincronización de paquetes de subtítulo PES con paquetes de audio se retarda cada paquete de subtítulo PES asociándole una marca de tiempo de presentación en el ﬂujo de transporte sincronizado que es igual a PTSi-Δti+REST, y retardar cada paquete de audio asociándole una marca de tiempo de presentación en el ﬂujo de transporte sincronizado que es igual a PTSj+REST, siendo PTSi y PTSj las marcas de tiempo de presentación en el ﬂujo de transporte extendido y REST el retardo de desplazamiento asociado del ﬂujo de transporte extendido.

Según un aspecto adicional de la invención, se proporciona un dispositivo sincronizador de subtítulos, que puede implementarse en un subsistema de subtitulación en directo antes de la transmisión y/o almacenamiento de subtítulos generados o en un receptor, que comprende un controlador con medios de procesamiento para realizar el procedimiento descrito anteriormente. La generación de subtítulos para el almacenamiento y la transmisión y su sincronización por el dispositivo antes de dichas etapas de almacenamiento o transmisión se reﬁeren a transmisión multimedia, de televisión digital o de radio digital. El receptor puede ser un receptor de radio digital, un receptor multimedia digital, un receptor de medios digital, o un receptor de televisión digital tal como un módulo decodiﬁcador de TDT o de IPTV.

El dispositivo sincronizador comprende medios de procesamiento conﬁgurados para:

-: crear un ﬂujo de transporte extendido a partir de un ﬂujo de transporte inicial que comprende todos los paquetes del ﬂujo de transporte inicial, los cuales tienen una marca de tiempo de presentación asociada, comprendiendo el ﬂujo de transporte extendido:

al menos un paquete de audio que contiene un fragmento de audio j,

al menos una unidad de subtítulo Si que comprende un subtítulo i generado a partir de al menos un bloque de transcripción Tj que corresponde al fragmento de audiojyun determinado retardo de subtítulo individual Δti asociado a cada subtítulo i,

y un retardo de desplazamiento asociado REST que es conﬁgurable e indica un retardo ﬁjo para sincronizar paquetes de subtítulo con paquetes de audio,

-: ajustar la marca de tiempo de presentación asociado de cada paquete de subtítulo del ﬂujo de transporte extendido de manera que suasociándole una marca de tiempo de presentación asociada en el ﬂujo de transporte sincronizado sea que es igual a PTSi-Δti+REST, y retardar cada paquete de audio asociándole una de manera que su marca de tiempo de presentación asociada en el ﬂujo de transporte sincronizado que es sea igual a PTSj+REST, siendo PTSi yPTSj unas marcas de tiempo de presentación asociadas en el ﬂujo de transporte extendido al paquete de subtítulo y el paquete de audio respectivamente y REST el retardo de desplazamiento asociado en el ﬂujo de transporte extendido.

Según un último aspecto de la invención, ésta trata de un programa informático que comprende medios de código de programa que ejecutan el procedimiento descrito anteriormente, cuando se cargan en un controlador implementado por un procesador de propósito general, uno o más procesadores de señal digital (DSP), o por una pluralidad de circuitos integrados programables dedicados independientes tales como circuitos integrados de aplicación especíﬁca (ASIO) y dispositivos lógicos programables (PLD) tales como PLA (matriz de lógica programable), FPGA (matriz de puertas programables en campo), etc.

Las principales ventajas de la solución descrita son:

a) Proporciona un enfoque práctico para mejorar la comprensión de eventos subtitulados en directo mediante la compensación de los efectos molestos de la recepción simultánea de entradas no sincronizadas (por ejemplo, audio y subtítulos). Esto puede ser crítico para personas con diﬁcultades auditivas y personas con habilidades limitadas en un idioma no nativo así como en entornos en los que debe desactivarse el audio.

b) La solución descrita permite su aplicación como opción seleccionare por el usuario. Esto permite no afectar a las personas que no están interesadas en subtítulos sincronizados.

c) La implementación de la solución antes de la fase de transmisión no afecta a los receptores actuales.

d) No se requiere ancho de banda adicional en la implementación de la solución en el lado de recepción ni en la opción de difusión “casi-directo”.

e) El sincronizador de subtítulos propuesto puede incorporarse en las tecnologías actuales con modiﬁcaciones menores.

f) Proporciona un modo de sincronizar subtítulos cuando vuelve a emitirse un programa subtitulado en directo sin coste adicional, tanto si esta sincronización se realiza en el momento de la redifusión como si se realiza en el momento del almacenamiento.

g) El uso de un formato común que soporta un modo ﬂexible de adaptarse a múltiples variantes para su implementación en difusión de televisión, cable, radio digital, IPTV, etc.

h) La etapa descrita para calcular retardos de subtítulo individuales para el procedimiento propuesto, permite su conﬁguración y ajuste para adaptarlo a las herramientas, entornos, tipos de programas de televisión o radio y operadores de subtitulación en tiempo real.

Descripción de los dibujos

Para completar la descripción que está realizándose y con el objeto de ayudar a un mejor entendimiento de las características de la invención, según un ejemplo preferido de realización práctica de ésta, adjunto a dicha descripción como parte integrante de la misma, hay un juego de dibujos en los que, a modo de ilustración y de manera no restrictiva, se ha representado lo siguiente:

Figura 1. -Muestra un sistema de extremo a extremo de subtitulación en directo según se conoce en el estado de la técnica.

Figura 2. -Muestra un diagrama de bloques esquemático de un sistema de subtitulación en directo, según una posible realización de la invención.

Figura 3. -Muestra un diagrama de tiempo de un esquema de subtitulación en directo, según otra posible realización de la invención, para hacer un seguimiento de los retardos de subtítulo individuales para algunos casos particulares: (A) relación 1-1 entre bloques de transcripción y subtítulos, (B) relación 1-M entre bloques de transcripción y subtítulos,

(C): relación N-1 entre bloques de transcripción y subtítulos.

Figura 4. -Muestra un diagrama de tiempo de un esquema de subtitulación en directo, según otra posible realización de la invención, para hacer un seguimiento de los retardos de subtítulo individuales para algunos casos particulares:

(D): relación N-M, N<M, entre bloques de transcripción y subtítulos y (E) relación N-M, N>M, entre bloques de transcripción y subtítulos.

Figura 5. -Muestra un diagrama de tiempo de un subsistema de transcripción de audio para hacer un seguimiento de los retardos de subtítulo individuales cuando se realiza transcripción de audio sin intervención humana, según una posible realización de la invención.

Figura 6. -Muestra un diagrama de tiempo de un subsistema de transcripción de audio para hacer un seguimiento de retardos de subtítulo individuales cuando se realiza transcripción de audio con intervención humana, según otra posible realización de la invención.

Figura 7. -Muestra una representación esquemática de las etapas y ﬂujos de datos para sincronización de subtítulos en recepción, según una posible realización de la invención.

Figura 8. -Muestra una representación esquemática de las etapas y ﬂujos de datos para sincronización de subtítulos antes de la transmisión, según otra posible realización de la invención.

Figura 9. -Muestra una representación esquemática de las etapas y ﬂujos de datos para la sincronización de subtítulos antes de su almacenamiento para una posterior difusión/transmisión/distribución de canales de televisión, según una posible realización adicional de la invención.

Figura 10. -Muestra un diagrama de estados con los posibles modos de reproducción para reproducción sincronizada de subtítulos en el lado del receptor, según la realización de la invención mostrada en la ﬁgura 7.

Figura 11.-Muestra una representación esquemática de la utilización de eventos subtitulados en directo y almacenados previamente, para su redifusión o distribución fuera de línea en donde los subtítulos ya están sincronizados, según otra posible realización de la invención.

Descripción detallada de la invención

La ﬁgura 2 muestra un sistema de subtitulación en directo 200, que comprende un subsistema de transcripción de audio 201 y un subsistema de generación de subtítulos 202. El subsistema de transcripción de audio 201 obtiene fragmentos de texto a partir de una fuente de audio (que puede ser la señal de audio asociada a la señal de vídeo u otra fuente de audio tal como el rehablado) y asigna referencias de tiempo a esos fragmentos de texto según sus fragmentos de audio originales correspondientes, según una posible realización de la invención. El subsistema de generación de subtítulos 202 genera unidades de subtítulo a partir de uno o muchos fragmentos de texto obtenidos en el subsistema de transcripción de audio 201, y asigna un retardo de subtítulo individual Δti a cada subtítulo i, i = 1..M. Estos retardos Δti pueden calcularse haciendo un seguimiento del tiempo empleado en cada uno de estos dos subsistemas y estimando el tiempo en el que se produjo el correspondiente audio siempre que no sea posible medirlo con precisión.

El subsistema de transcripción de audio 201 se encarga de obtener una transcripción de textos de una señal de audio 210 y de poner una marca de tiempo en la misma para hacer un seguimiento del comienzo de su fragmento de audio correspondiente, transcrito dentro de un bloque de transcripción 211. La salida del subsistema de transcripción de audio 201 es un grupo de N ≥ 1 bloques de transcripción 211, en el que cada bloque de transcripción generado Tj, j = 1 ... N, contiene un fragmento de texto Txj que es el texto de transcripción correspondiente a un fragmento de audio j y que está asociado con las marcas de tiempo correspondientes tjB ytjE donde:

tjB es el tiempo en el que comienza el fragmento de audio j de la señal de audio 210;

tjE es el tiempo en el que ﬁnaliza el fragmento de audio j.

Cuando el subsistema de transcripción de audio 201 no puede proporcionar valores exactos para tjB ytjE, los estima como se explica a continuación. La notación usada para los valores estimados es tsjB ytsjE. Para mayor simplicidad, la ﬁgura 2 se reﬁere tanto a tjB como a tsjB y como tjB.

El subsistema de generación de subtítulos 202 se encarga de crear subtítulos a partir de los bloques de transcripción 211 obtenidos en el subsistema de transcripción de audio 201 previo. El subsistema de generación de subtítulos 202 permite la entrada de información de formateo 203 generada mediante corrección manual y/o NLP (herramientas de procesamiento de lenguaje natural) de los bloques de transcripción 211, edición, formateo y deﬁnición de duración (si no se proporcionan automáticamente), signos de puntuación, etc. Así, el subsistema de generación de subtítulos 202 también debe evaluar el tiempo total empleado en estas tareas para calcular el retardo de subtítulo individual Δti ﬁnal entre el momento en el tiempo en el que se suministra el subtítulo i, presente, y el tiempo, en el pasado, en el que se produjo el fragmento de audio j correspondiente. Asimismo, este subsistema calcula la duración (longitud de tiempo que un subtítulo tiene que estar presente en la pantalla en el dispositivo terminal del usuario) de cada subtítulo creado. Finalmente, el subsistema de generación de subtítulos 202 suministra cada subtítulo i, por ejemplo, imagen DVB o texto para subtítulo de Teletexto, junto con otra información adicional de subtítulo tal como tiempo de duración, color, posición en la pantalla, etc., formando una unidad de subtítulo Si asociada con su retardo de subtítulo individual Δti, i = 1 ... M. Por tanto, la salida desde el subsistema de generación de subtítulos 202, y por consiguiente del sistema de subtitulación en directo 200 en su conjunto, es un número M ≥ 1 de unidades de subtítulo 212 en el que cada cual comprende su respectivo retardo individual Δti e información de formateo 203.

El número de unidades de subtítulo 212 creadas a partir de un grupo de bloques de transcripción 211 depende de la longitud de los fragmentos de texto Txj y las marcas de tiempo tjB,tjE relacionados con cada bloque de transcripción Tj. Es necesario considerar qué tipo de relación existe entre los bloques de transcripción y los subtítulos con el ﬁn de hacer un seguimiento del tiempo:

Relación 1-1: Un bloque de transcripción Tj obtenido en el subsistema de transcripción de audio 201 puede corresponder sólo a una unidad de subtítulo Si en la salida del subsistema de generación de subtítulos 202.

Relación 1-M: si un bloque de transcripción Tj es muy largo, puede corresponder también a dos o más subtítulos.

Relación N-1: si los bloques de transcripción son muy cortos y las marcas de tiempo están muy próximas en tiempo, es posible crear una unidad de subtítulo Si a partir de más de un bloque de transcripción.

Relación N-M: en general, dependiendo de la longitud y las marcas de tiempo, un conjunto de M unidades de subtítulo 212 puede generarse a partir de un grupo de N bloques de transcripción 211, siendo o bien N ≥ M o bien N

< M.

El subsistema de generación de subtítulos 202 puede ser completamente automático, semiautomático o completamente manual. Esto signiﬁca que este subsistema puede crear automáticamente el texto del subtítulo y toda la información incluida en unidades de subtítulo 212 sin intervención humana en la edición o formateo (usando NLP, por ejemplo). En las otras implementaciones posibles, el subsistema de generación de subtítulos 202 crea automáticamente las unidades de subtítulo 212 mientras que una persona las monitoriza y eventualmente realiza cambios, edición, formateo, etc. O bien la persona puede tener toda la responsabilidad en la creación del conjunto de unidades de subtítulo 212 a partir de los bloques de transcripción 211, dividir los subtítulos, deﬁnir la duración, etc. En cualquier caso, con el ﬁn de calcular cada retardo de subtítulo individual Δti, es necesario medir el tiempo empleado en este subsistema, desde el momento en el que el primer bloque de transcripción T1 de un grupo de N bloques de transcripción (usado para crear un conjunto de M unidades de subtítulo) está disponible hasta que la primera unidad de subtítulo S1 de las M unidades de subtítulo (creadas a partir de estos N bloques de transcripción) se suministra a las fases de segmentación en paquetes y transmisión/difusión. Este tiempo se muestra en las ﬁguras 3 y 4, indicado como ΔtSGi, que indica el retardo de generación de subtítulos de la unidad de subtítulo Si. El tiempo total empleado en la creación de la unidad de subtítulo Si, dentro de un conjunto de unidades de subtítulos, a partir de su(s) fragmento(s) de audio j correspondiente(s) es Δti, calculado como la diferencia entre el tiempo de entrega tsub1 de la primera unidad de subtítulo S1 yel tiempo en el que se produjo el primer fragmento de audio j correspondiente t1B: Δti = tsub1 -t1B. Este retardo de subtítulo Δti puede usarse en combinación con la marca de tiempo de presentación MPEG para permitir la sincronización de audio y subtítulo.

La ﬁgura 3 muestra ejemplos del marcado de tiempo en el subsistema de transcripción de audio 201 y en el subsistema de generación de subtítulos 202 para los siguientes casos de relación entre el número N de bloques de transcripción 211 y el número M de unidades de subtítulo 212:

(A): relación 1-1, hay una unidad de subtítulo S1 que corresponde a un único bloque de transcripción T1;

(B): relación N-1, en el ejemplo de la ﬁgura 3 (B) N=2;

(C): relación 1-M, en el ejemplo de la ﬁgura 3 (C) M=2.

La ﬁgura 4 muestra ejemplos del marcado de tiempo en el subsistema de transcripción de audio 201 y en el subsistema de generación de subtítulos 202 para los siguientes casos de relación entre el número N de bloques de transcripción 211 y el número M de unidades de subtítulo 212:

(D) relación N-M, N < M, en el ejemplo de la ﬁgura 4 (D) N=2, M=3;

(E) relación N-M, N > M, en el ejemplo de la ﬁgura 4 (E) N=3, M=2.

En todos los casos, el retardo para cada unidad de subtítulo individual generada a partir de un conjunto de bloques de transcripción es el mismo. Su valor Δt1 se calcula como la diferencia entre el tiempo en el que se crea la primera unidad de subtítulo en 202 y el tiempo en el que comenzó el fragmento de audio correspondiente al primer bloque de transcripción. La fórmula para el primer subtítulo es: ΔT1 = tsub1 -t1B. En el caso, como el de las Figuras 3C, 4D y 4E, en el que se genera más de un subtítulo, el retardo para el segundo y sucesivos subtítulos es también el mismo: Δt2 = Δt1 =tsub1 -t1B y Δt2 = Δt3 en el ejemplo de la Figura 4E. Las duraciones de subtítulo pueden calcularse según las normas de subtitulación o según otros criterios. En cualquier caso, las duraciones no se ven afectadas por el procedimiento de sincronización descrito en el presente documento y viceversa.

La estimación de las marcas de tiempo de comienzo y de ﬁnalización tjB ytjE de cada bloque de transcripción Tj es crítica para el posterior cálculo del retardo de tiempo de subtítulo Δti de una unidad de subtítulo Si con respecto al (a los) fragmento(s) de audio j correspondiente(s). La ﬁgura5yla ﬁgura 6 muestran estas marcas de tiempo tjB ytjE para cada bloque de transcripción Tj creado por el subsistema de transcripción de audio 201.

En un subsistema de transcripción de audio 201 completamente automático, en el que el proceso de transcripción se basa en ASR sin rehablado, el software de ASR que realiza todo el proceso de transcripción (sin intervención humana) puede proporcionar información acerca del tiempo exacto que corresponde a la transcripción de audio (además de la propia transcripción); por tanto, resulta innecesario estimar el tiempo empleado en esta parte del proceso puesto que se dispone de valores exactos de tjB ytjE como se muestra en la ﬁgura 5. En este caso, las marcas de tiempo tjB ytjE no son medidas de retardo sino referencias de tiempo tj que indican cuándo el fragmento de audio j transcrito se produjo con respecto al reloj de referencia 100, por tanto: tjB =tj ytjE =tj +dj, donde dj es la duración del fragmento de audio

j.

Cuando el proceso de transcripción es manual o semiautomático como en un subsistema de transcripción de audio 201, basado en una persona pulsando teclas en una máquina de estenografía, en un teclado convencional tipo ordenador o en un teclado silábico, o basado en rehablado usando un software de ASR (usado en RTVE en España, por ejemplo), hay una fase de procesamiento de escucha y mental 600 realizada por una persona seguida de un proceso de transcripción (que puede implicar incluso una traducción idiomática) realizada también por una persona aunque usando dispositivos o software especiales (ASR en rehablado, estenografía en estenotipia, etc.), completando así la generación de los bloques de transcripción 211, que son la salida del subsistema de transcripción de audio 201. El bloque de transcripción Tj contiene el texto de los fragmentos de audio transcritos y las marcas de tiempo, que representan el tiempo tjB ytjE de comienzo y de ﬁnal respectivamente del bloque de transcripción Tj, que se estiman según lo siguiente:

El hecho de que haya retardos variables desde la escucha a la transcripción que dependen de la persona (retardo de procesamiento mental) y el fragmento de audio particular, y que sean difíciles de medir con precisión, requiere usar un algoritmo que proporcione una estimación de retardos en la mayoría de los escenarios. En otros escenarios, puede usarse una entrada adicional proporcionada por el operador, para hacer un seguimiento del inicio de cada fragmento de audio por medio de una herramienta auxiliar (pedal, instrucción de voz...) para registrar digitalmente y numerar el fragmento. Por otro lado, el proceso de transcripción (ASR, estenografía u otros) también introduce a su vez un retardo aunque puede obtenerse a partir de las marcas de tiempo thiB ythiE exactos dados por el subsistema de transcripción de audio 201, mostrado en la ﬁgura 6, como se explica posteriormente.

En el escenario representado en la ﬁgura 6, el resultado de la etapa de “escucha y procesamiento mental” 600 sobre el audio original 610 es la transcripción humana (por ejemplo audio del rehablado, tecleo por estenografía, etc.) 611 que se introduce al “proceso de transcripción” 501 (por ejemplo ASR para el rehablado, software de estenotipia para el tecleo de estenografía, etc.) con el ﬁn de generar un conjunto de bloques de transcripción aunque sin tener en cuenta todavía el retardo de procesamiento mental Δtmpj. El proceso de transcripción 501 de la transcripción humana proporciona un texto transcrito y dos marcas de tiempo thiB ythiE. La siguiente etapa 601 es la estimación del retardo de procesamiento mental Δtmpj que va a añadirse a las dos marcas de tiempo thiB ythiE exactos asociados con los bloques 612 transcritos con el ﬁn de obtener una estimación de las marcas de tiempo de comienzo y ﬁnalización, tjB ytjE, de los bloques de transcripción 211. La estimación de tjB ytjE se denomina tsjB ytsjE respectivamente. De ahí:

tSjB =thjB + Δtmpj

tSjE =thjE + Δtmpj

Es necesario resaltar que en el caso ilustrado por la ﬁgura 6 las marcas de tiempo de los bloques de transcripción 211 no son retardos sino referencias de tiempo para el comienzo y la ﬁnalización de los fragmentos de audio transcritos con respecto al reloj de referencia de tiempo real 100. Como los valores exactos de thiB ythiE pueden obtenerse mediante el software o dispositivo correspondiente usado por el rehablador (o estenógrafo, etc.), la parte crítica es calcular el retardo de procesamiento mental Δtmpj introducido por el rehablador (o estenógrafo, etc.). Aunque no se considerase el retardo de procesamiento mental Δtmpj, hacer sólo un seguimiento de thiB ythiE daría como resultado una mejora importante en la sincronización de subtítulos. Sin embargo, para una mejor sincronización, es necesario diseñar un algoritmo para estimar el tiempo empleado en la etapa de “escucha y procesamiento mental” 600. Cuanto mejor sea dicha estimación, mejor será la aproximación de los tiempos de comienzo y ﬁnalización, tjB ytjE, a las referencias de tiempo reales, es decir: tsjB ≈ tjB ytsjE ≈ tjE.

El algoritmo para estimar el retardo de procesamiento mental Δtmpj depende de qué tipo de transcripción mental se lleva a cabo. Se producen dos escenarios principales en la etapa de “escucha y procesamiento mental” 600: (a) una transcripción literal o casi literal en la que hay una transcripción continua tal como ocurre en estenografía, (b) una transcripción con periodos de escucha más largos aunque menos transcripción literal (transcripción discreta tal como ocurre en un sistema de subtitulación de rehablado). Para transcripciones mentales continuas, el retardo de procesamiento mental Δtmpj es corto y casi constante; por tanto, puede considerarse un parámetro conﬁgurable, asignado a la persona según sus capacidades. En transcripciones discretas, el retardo de procesamiento mental Δtmpj es más largo y con una gran variación que depende del grado de interpretación/resumen. Sin embargo, en cualquier escenario, el retardo de procesamiento mental Δtmpj puede estimarse usando un algoritmo general: Δtmpj es directamente proporcional a la longitud del texto transcrito e inversamente proporcional al grado de literalidad de la transcripción. Matemáticamente este algoritmo de estimación de retardo de procesamiento mental puede expresarse como:

Δtmpj = TextLength · (K/μ)+C

donde dicho retardo Δtmpj se estima en segundos; TextLength es la longitud de transcripción del fragmento de audio j (en unidades de longitud, u.l.); K es la duración de una unidad de longitud (en segundos/u.l.); C es una constante de tiempo (en segundos); μ es una variable de grado de literalidad (0≤μ≤1) que representa el grado de parecido a la literalidad de la transcripción (por ejemplo, 1 signiﬁca el 100% de literalidad; 0,5 signiﬁca el 50%, de modo que de 2 palabras o letras pronunciadas en el audio, la persona que transcribe las resume en 1; 0,25 signiﬁca que de 4 palabras/letras, transcribe sólo 1, y así sucesivamente).

El parámetro μ debe ajustarse para reﬂejar las capacidades de la persona que transcribe y también depende del tipo de programa de televisión o escenario en directo, etc. Por ejemplo, la longitud de la transcripción TextLength puede medirse en palabras o en caracteres, y K en segundos/palabra o segundos/carácter. La multiplicación de TextLength y K da como resultado la duración estimada del fragmento de audio. La constante C representa el tiempo empleado en escuchar y procesar que no está relacionado con la duración del audio y se usa como tiempo ﬁjo que también depende de las capacidades humanas.

Para un escenario de transcripción mental continua, pueden considerarse las siguientes suposiciones:

K · TextLength, es un tiempo constante ﬁjado como parámetro (por ejemplo, 2 segundos)

μ es igual a 1 (transcripción literal)

C es una constante de tiempo (por ejemplo, 1 segundo).

Por tanto, el retardo de procesamiento mental Δtmpj es una constante (en este ejemplo, 3 segundos).

Para un escenario de transcripción mental discreta, los valores son diferentes, por ejemplo:

K puede ser 0,33 a 0,5 segundos/palabra ó 0,8 segundos/carácter aproximadamente.

TextLengthj es una variable que depende del bloque de transcripción.

μ, puede ser 0,5 como promedio.

C puede ser 1 segundo.

Un ﬂujo de transporte MPEG contiene ﬂujos elementales para audio, vídeo y subtítulos. Los ﬂujos elementales (PES) de audio, vídeo y datos se codiﬁcan en paquetes de ﬂujo elemental (paquetes PES) que son las unidades de transmisión dentro de un ﬂujo de transporte. Cuando se convierte una señal de audio en un PES cada fragmento de audio j mencionado anteriormente se codiﬁca según la norma ISO 13818-3 y se empaqueta en al menos un paquete PES del ﬂujo elemental de audio correspondiente, junto con la información de sincronismo conocida como marca de tiempo de presentación (PTS). Cada paquete PES de audio contiene una PTS que se reﬁere al tiempo de presentación del paquete de audio cuando se reproduce en un receptor de usuario ﬁnal. Un fragmento de audio j puede transportarse en varios paquetes PES de audio. De manera similar la señal de vídeo, cuando está presente, se transporta en paquetes PES dentro de un ﬂujo elemental de vídeo que también incluye información de sincronismo de PTS. Es importante resaltar que PTS se reﬁere al tiempo en el que se produce la segmentación en paquetes.

Los subtítulos también se codiﬁcan como paquetes dentro de un ﬂujo elemental de subtítulos donde se codiﬁca cada unidad de subtítulo i. Se prevén diferentes procedimientos de codiﬁcación para los subtítulos en un ﬂujo de transporte MPEG/DVB, por ejemplo subtitulación DVB-Sub y de teletexto. Como resultado del procedimiento de codiﬁcación, una unidad de subtítulo i puede dividirse en uno o más paquetes PES del ﬂujo elemental de subtítulos, conteniendo cada uno, además de los datos de la unidad de subtítulo (texto, color, posición en pantalla,...), una PTS como en los casos de audio o vídeo.

El procedimiento de codiﬁcación usado para subtítulos DVB-Sub, deﬁnido en ETSI EN 300 743, establece que una unidad de subtítulo se codiﬁca en un “conjunto de visualización” y que un conjunto de visualización está compuesto de un conjunto de “segmentos de subtítulo”. Todos los segmentos de subtítulo de un conjunto de visualización se segmentan y transportan en paquetes PES que comparten la misma PTS. Esto implica que una unidad de subtítulo se transporta en uno o más paquetes PES del ﬂujo de subtítulos.

Las realizaciones de la invención que se describen usan una extensión de la norma DVB/MPEG en la generación del ﬂujo MPEG en el lado de emisión, para incluir la información de retardo variable calculada para cada subtítulo, como se explicó anteriormente, en los ﬂujos elementales de DVB correspondientes de un canal de televisión: DVB-Sub para subtitulación y DVB-TXT para teletexto. Esta ampliación también soporta la información de control necesaria.

En las diferentes realizaciones de la invención ilustradas en las ﬁguras 7-9, se usa un generador G1 de MPEG/DVB que soporta las ampliaciones requeridas que acepta como entradas:

a) Una o más señales de vídeo 61, si se requiere vídeo (por ejemplo, en un escenario de aplicación de canal de televisión),

b) Una o más señales de audio 62 (por ejemplo, de un canal de televisión o canal de radio), y

c) una secuencia de datos de subtitulado que incluye, para cada subtítulo que va a visualizarse en la pantalla, la información de retardo individual 64 de ese subtítulo (obtenida o estimada según el objetivo de la invención) con respecto al audio/vídeo correspondiente, junto con información de subtítulo típica tal como su texto 63, su tiempo de presentación, parámetros 65 tales como duración o tiempo de ﬁnalización, posición en la pantalla, color, etc.

El generador G1 de MPEG/DVB propuesto, según diferentes implementaciones de sincronización de subtitulación mostradas en las ﬁguras 7-9, comprende medios de generación G2 de MPEG/DVB extendidos para considerar los retardos individuales de cada subtítulo, que puede componer, a partir de las entradas mencionadas anteriormente, un canal de televisión completo en formato MPEG/DVB cuya característica distintiva es que incluye los valores del retardo asociados a cada subtítulo. Para resaltar que este formato incluye las ampliaciones necesarias, se denomina en lo sucesivo en el presente documento MPEG/DVB++.

Las normas MPEG, DVB-Sub y DVB-TXT proporcionan un marco que puede ampliarse fácilmente para soportar la transmisión de estas extensiones. A continuación se dan detalles del formato y procedimiento para crear el ﬂujo MPEG/DVB++. El ﬂujo de salida de MPEG/DVB++ se compone de uno o más canales de televisión, consistiendo cada uno en:

-: Flujos elementales para vídeo (normalmente un único ﬂujo aunque pueden ser más ﬂujos de vídeo).

-: Flujos elementales para audio (uno o más ﬂujos de audio elementales).

-: Flujo(s) elemental(es) para DVB-Sub con información adicional según se detalla a continuación:

Según la norma ETSI EN 300 743 (Sistemas de subtitulación de difusión de vídeo digital), el elemento sintáctico básico de los ﬂujos de subtitulación es el subtitling_segment. A efectos de la invención, se deﬁne un nuevo segmento de subtitulación de DVB que se incluye justo antes del segmento denominado end_of_display_set_segment en la norma DVB-Sub y que denominaremos subtitle_delay_segment, al que se le asigna uno de los valores segment_type que todavía no se haya asignado en la norma ETSI EN 300 743 v1.3.1 (los valores previstos se encuentran en el intervalo de 0x81 -0xEF reservado para datos privados; otros valores son posibles usando el intervalo reservado para un uso futuro en la norma mencionada). El subtitle_delay_segment es un segmento adicional que contiene el tiempo de retardo asociado con un display_set creado (según la norma). Un display_set es el conjunto de segmentos de subtítulo de un servicio de subtitulado especíﬁco al que está asociado el mismo valor de marca de tiempo de presentación (PTS, según se deﬁne en la norma ISO/IEC 13818-1). Cada display_set contiene un subtitle_delay_segment compuesto por dos campos según se muestra en la tabla 1:

TABLA 1

variable_subtitle_delay_time: es el retardo individual aplicable al display_set medido en unidades de 100 milisegundos.

recommended_event_shift_time: es el tiempo mínimo en segundos que debe retardarse el evento para hacer posible la compensación de los retardos de subtítulo individuales; se usa durante el proceso posterior sincronización de subtítulos; es conﬁgurable y normalmente permanece sin cambios durante un evento de televisión dado o incluso para un canal de televisión dado.

-: Flujo(s) elemental(es) para subtítulos de teletexto con información incrustada de retardo variable e insertada para cada subtítulo, que puede incluirse, de manera similar al caso DVB-Sub, en el ﬂujo de salida de MPEG/DVB++.

-: Una tabla de mapa de programa (Program_Map_Table o PMT, según se deﬁne en la norma ISO/IEC 13818-1) para el canal de televisión que contiene un descriptor adicional, que denominaremos synchronizable_subtitling_descriptor, para la entrada correspondiente al ﬂujo elemental DVB-Sub. Este descriptor se deﬁne a continuación según se muestra en la tabla 2:

TABLA 2

descriptor_tag adopta uno de los valores en el intervalo de 0x80 a 0xFE especiﬁcado como deﬁnido por el usuario en la norma ETSI EN 300 468; otros valores son posibles usando el mecanismo de descriptor de extensión deﬁnido en la norma.

descriptor_length es otro campo de la norma anterior que especiﬁca el número de bytes incluidos en los campos de datos inmediatamente siguientes.

synchronizable_subtitle_stream_type: es el nuevo campo deﬁnido para indicar el tipo de ﬂujo de subtítulo sincronizable; especiﬁca información adicional acerca de cómo usar y acceder a los retardos de subtítulo variables individuales transportados en el ﬂujo de subtítulo.

recommended_event_shift_time: es el nuevo campo deﬁnido para indicar es el tiempo mínimo en segundos que el evento debe retardarse con el ﬁn de adaptarse a los retardos de subtítulo individuales; este tiempo se aplica durante el proceso de sincronización de subtítulos.

El synchronizable_subtitling_descriptor mostrado en la Tabla 2 puede seguir normalmente, dentro de la PMT, al subtitling_descriptor existente. Además, el resto de tablas de información especíﬁca de programa (PSI), tales como la tabla de asociación de programa (PAT), la tabla de fecha y hora (TDT), la tabla de desplazamiento de tiempo (TOT), etc., así como las tablas de información de servicio (SI) tales como la tabla de descriptor de servicio (SDT), y la tabla de información de evento (EIT), etc., pueden incluirse en el ﬂujo de salida de MPEG/DVB++ en la forma habitual.

El ﬂujo de salida del generador G1 de MPEG/DVB++ con la información de retardo variable incluida en los ﬂujos de DVB-Sub y en los ﬂujos elementales de Teletexto, está listo para usarse como entrada en un módulo de sincronización de subtítulos (701, 801, 901).

Existen diferentes alternativas de implementación y uso con diversas implicaciones: la ﬁgura 7 muestra el módulo de sincronización de subtítulos 701 implementado en el lado de recepción, mientras que las ﬁguras8y9 muestran el módulo de sincronización de subtítulos (801, 901) implementado en el lado de transmisión. La elección de la alternativa más adecuada debe tener en cuenta los requisitos en cuanto a la asignación de ancho de banda, limitaciones regulatorias y restricciones de uso. En cualquier caso, el módulo de sincronización de subtítulos (701, 801, 901) proporciona un ﬂujo de MPEG/DVB en el que se ha retardado el evento audiovisual una cantidad de tiempo igual al recommended_event_shift_time y en el que los ﬂujos elementales de audio, vídeo y subtítulo están sincronizados (un ﬂujo de este tipo lo denominaremos MPEG/DVBsync).

Puesto que los ﬂujos elementales segmentados en paquetes (PES), especiﬁcados en la norma ISO/IEC 13818-1, correspondientes a ﬂujos elementales de vídeo, audio y subtítulo, se someten a un proceso de puesta en cola/retardo combinado con una manipulación de PTS para alinear los paquetes de subtítulos a su tiempo objetivo en las señales de vídeo y audio (61, 62) originales, el proceso de sincronización realizado por el módulo de sincronización de subtítulos (701, 801, 901) propuesto puede describirse como un proceso de puesta en cola y recálculo que implementa lo siguiente:

donde

Δti es igual al variable_subtitle_delay_time, que es el retardo variable individual para el subtítulo i.

REST es un tiempo de desplazamiento igual o mayor al recommended_event_shift_time que, en este ejemplo de implementación, es el valor del retardo mínimo requerido para compensar el retardo de subtitulación más desfavorable considerado. El retardo aplicado para sincronizar individualmente el paquete de subtítulo i con el audio (y vídeo y/o cualquier otra información sincronizable con el audio como, por ejemplo, un vídeo con lenguaje de signos) es RESTΔti y, por tanto, PTSi = PTSi-Δti+REST. Si se reciben subtítulos con Δti mayor que REST, su retardo con respecto al audio y vídeo se compensa sólo parcialmente (REST segundos).

PTSi es la marca de tiempo de presentación de cada paquete PES en MPEG-2/DVB; la marca de tiempo de presentación PTSi de cada paquete i de vídeo, audio y subtítulo se lleva al presente aumentándolo en REST, con el ﬁn de garantizar que cada PTSi representa los pulsos de reloj en tiempo real actuales.

Todos estos valores (las marcas de tiempo PTSi, los retardos variables Δti, y el valor para REST), requeridos por el módulo de sincronización de subtítulos (701, 801, 901), se reciben desde el generador G1 de MPEG-2/DVB extendido como valores de datos dentro del ﬂujo de salida de MPEG-2/DVB++.

Para generar un servicio sincronizado, es necesaria una memoria intermedia que pueda contener REST segundos de paquetes (un REST de 20 segundos, por ejemplo, requiere un tamaño de memoria intermedia de aproximadamente 12,5 Mbytes para un canal del ﬂujo de transporte con Audio, Video y subtítulos).

Todos los parámetros del formato de ﬂujo salida de MPEG-2/DVB++ propuesto se incluyen de modo que se garantiza plena compatibilidad con las normas MPEG/DVB y los receptores TDT actuales, lo que es indispensable para las alternativas de uso descritas a continuación.

Una posible realización de la invención se reﬁere a sincronización de subtítulos seleccionare por el usuario en el lado de recepción, según se muestra en la ﬁgura 7. A partir de las señales de vídeo y audio (61, 62) originales, el sistema de subtítulos en directo mejorado 200 suministra el retardo de subtítulo individual 64 junto con el subtítulo 63 y el generador G1 de MPEG/DVB extendido genera un ﬂujo de MPEG/DVB++ 70 que incluye dichos retardos variables y datos de señalización relacionados con los subtítulos para una difusión o transmisión de canal de televisión. Los ﬂujos de MPEG/DVB++ 70 pasan a través de una red N1, (por ejemplo, red de difusión TDT o red de transmisión de IPTV) hacia un receptor 702 (por ejemplo, TDT o IPTV) que soporta la sincronización de subtítulos como una opción de usuario (el usuario puede seleccionar si preﬁere ver la versión con subtítulos sincronizados con el vídeo) por medio de un módulo de sincronización de subtítulos 701 según se explicó anteriormente.

A partir de los ﬂujos de MPEG/DVB++ 70 recibidos, el módulo de sincronización de subtítulos 701 obtiene los MPEG/DVBsync 72 mencionados anteriormente en los que los ﬂujos elementales de audio y vídeo del canal de televisión se sincronizan con los subtítulos, proporcionando entonces una reproducción ligeramente retardada (casidirecto) del evento audiovisual.

A partir del ﬂujo de MPEG/DVB++ 70 transmitido, uno de los dos ﬂujos de salida posibles (71, 72) en el receptor de TDT/IPTV es enviado al módulo de reproducción de televisión 704, según la selección del usuario 703:

i) el ﬂujo de salida de MPEG/DVB++ 71 es una opción en directo real, plenamente compatible con los receptores convencionales, que consiste en audio/vídeo y subtítulos que no están sincronizados mediante el módulo de sincronización 701;

ii) el ﬂujo MPEG/DVBsync 72 es una versión casi-directo generada opcionalmente en el lado de recepción si se selecciona el módulo de sincronización 701.

En el lado de recepción tienen lugar las siguientes acciones:

a) El receptor 702 (módulo decodiﬁcador de IPTV, decodiﬁcador TDT,...) reconoce en el ﬂujo de MPEG/DVB++ 70 entrante la existencia de la información adicional que permite al usuario ver un canal de televisión con subtítulos activados y sincronizados con los ﬂujos de audio y vídeo;

b) El receptor 702 muestra al usuario la disponibilidad de este servicio de sincronización de subtítulos;

c) Tras la activación por parte del usuario, el receptor 702 empieza a funcionar para proporcionar una reproducción sincronizada y retardada para el canal de televisión o programa de televisión seleccionado. Dependiendo del receptor, existen diferentes alternativas para la implementación de los menús de control y usuario en el receptor.

Por tanto, con el ﬁn de proporcionar al usuario las dos opciones i) e ii) en la recepción, los nuevos módulos decodiﬁcadores de TDT o IPTV tendrían que implementar el algoritmo de sincronización descrito, manejar el nuevo conjunto de descriptores y actuar en consecuencia. El comportamiento de los antiguos módulos decodiﬁcadores no se ve afectado porque ignoran los nuevos campos, descriptores, o tipos de ﬂujo.

El comportamiento del receptor 702 para implementar sincronización de subtítulos se representa mediante los estados mostrados en la ﬁgura 10, en donde se representa la transición del estado normal 1000 al estado sincronizado y retardado 1002, pasando por un estado intermedio 1001 de transición entre ambos. Es decir, cuando el usuario selecciona ver un programa de televisión en un modo sincronizado y retardado está solicitando al receptor 702 exactamente lo siguiente: “detén la reproducción del vídeo y el audio en mi aparato de televisión hasta que puedas mostrarlos sincronizados con sus subtítulos”.

Después de que el usuario habilita la sincronización de subtítulos y si la entrada de receptor consiste en un MPEG/DVB++ con REST * 0 (transición 1010 entre los estados 1000 y 1001), el receptor 702 entra en el estado de transición 1001 en el que el módulo decodiﬁcador de televisión deja de reproducir el programa de televisión (es decir, la imagen está congelada en la pantalla y el audio está detenido) aunque sigue recibiendo y almacenando en la memoria intermedia paquetes de MPEG a partir del ﬂujo de transporte durante el tiempo de espera necesario, siendo el tiempo de espera ≥ REST, para garantizar que las memorias intermedias de recepción contienen todos los paquetes para audio, vídeo y subtítulos (llegando éstos varios segundos más tarde) necesarios para una presentación sincronizada de subtítulos. Después de que el tiempo de espera ha transcurrido, el sistema entra en el estado sincronizado y retardado 1002.

Durante la transición 1011 del estado 1001 al 1002, todos los paquetes de subtítulos, para los que el recálculo de la marca de tiempo de presentación (PTS) da como resultado una PTS en el pasado, se muestran en una pantalla con la imagen congelada (y sin sonido) ya que estos paquetes contenían subtítulos pertenecientes a muestras de audio que ya han sido reproducidas cuando el usuario conmuta del estado normal 1000 al estado sincronizado y retardado 1002. Además, volver al modo normal (en directo real con subtítulos no sincronizados) da como resultado una pérdida de varios segundos (el tiempo de espera dado) del programa que está difundiéndose. Esto se representa en la ﬁgura 10 mediante el estado de transición 1003 de sincronizado y retardado a normal entre las transiciones 1012 y 1013.

Ambos estados de transición 1001 y 1003 pueden implementarse en una única etapa (por ejemplo, esperando todo el tiempo de espera de una vez) o en etapas incrementales (por ejemplo, esperando varios segundos cada vez) hasta que el retardo requerido (de manera ideal REST) se almacene en la memoria intermedia. Tales implementaciones proporcionan una transición continua (por ejemplo, múltiples aunque más cortos periodos de congelación de imagen) aunque tardan más en alcanzar un estado ﬁnal completamente sincronizado 1002 o en volver al estado normal 1000.

El tiempo de espera puede conﬁgurarse con un valor similar a REST que se recibe como un parámetro para hacer frente al tiempo transcurrido más desfavorable en la preparación de subtítulos. Valores típicos conservadores son de aproximadamente 15 segundos para retardos de generación de subtítulos de rehablado de ASR y de aproximadamente 5 segundos para estenotipia. Cuando ha transcurrido el tiempo de espera, las memorias intermedias para los ﬂujos de vídeo, audio y subtítulo implicados contienen suﬁcientes paquetes para iniciar una reproducción sincronizada que tiene en cuenta los retardos de subtítulos individuales.

Siempre que esté disponible y se seleccione el modo de reproducción sincronizado y retardado 1002, todo el programa de televisión se reproduce con un pequeño retardo, y el receptor 702 recalcula la PTS de cada subtítulo para presentarlo en la pantalla en el mismo momento que el fragmento de audio original. El modo de reproducción sincronizado y retardado 92 ﬁnaliza o bien automáticamente, cuando la entrada al reproductor de televisión ya no contiene datos de sincronización (por ejemplo REST=0, o cuando la entrada ya no es MPEG-2/DVB++), o bien manualmente cuando se desactivan los subtítulos o tras una selección por parte del usuario que deshabilita explícitamente esta opción. Son posibles diferentes implementaciones según preferencias deﬁnidas por el usuario. El reproductor de televisión, o bien ﬁnaliza la presentación de todos los subtítulos almacenados en la memoria intermedia sincronizados con audio/vídeo antes de que el receptor 702 cambie al estado normal 1000, o bien pasa al estado normal inmediatamente cuando es el usuario quien solicita volver al modo de reproducción normal. Ambas son opciones de implementación/conﬁguración en el receptor.

Esta implementación de la opción de sincronización de subtítulos en el receptor es adecuada, por ejemplo, para la difusión de televisión terrestre o por satélite, ya que no requiere ancho de banda adicional, aunque limita la oferta de reproducción con subtítulos sincronizados a usuarios que tienen los nuevos módulos decodiﬁcadores con el receptor 702 mejorado según se muestra en la ﬁgura 7. Los receptores que no implementan la opción son completamente compatibles con esta realización de la invención aunque sólo pueden presentar el evento como en la actualidad, es decir, en directo de manera no sincronizada.

Otra posible realización de la invención se reﬁere a la sincronización de subtítulos con el audio y vídeo correspondiente en el lado de emisión, antes de que tenga lugar la transmisión/difusión de televisión, según se muestra en la ﬁgura 8. Se genera un canal de televisión en casi-directo CH1 con subtítulos sincronizados 81, de modo que los eventos audiovisuales pueden transmitirse o difundirse varios segundos más tarde al receptor 802. La difusión/transmisión del canal de televisión en casi-directo CH1 con subtítulos sincronizados no requiere ancho de banda adicional y puede ser adecuado para difundir eventos para los que una difusión en directo real no implica una ganancia en instantaneidad (por ejemplo lectura de un informe redactado hace 2 horas). Sin embargo, esto puede ser ilegal para la difusión de TDT de algunos eventos (al menos en algunos países). Un canal adicional CH2 para ofrecer también las versiones no sincronizadas originales en directo real 82 es también una posibilidad según se muestra en la ﬁgura 8. Las dos alternativas básicas mostradas en la ﬁgura 8 tienen en común el formato MPEG/DVB++ 80 proporcionado por el Generador MPEG/DVB extendido G1, a partir del cual el módulo de sincronización de subtítulos 801 implementado antes de la red de transmisión/difusión N1 genera la versión sincronizada de subtítulos, a la que se hace referencia como MPEG/DVBsync 81. La ventaja principal de la sincronización de subtítulos antes de la difusión es su plena compatibilidad con receptores de TDT existentes o módulos decodiﬁcadores de IPTV. El uso simultáneo de dos canales, CH1 para la difusión/transmisión en casi-directo y CH2 para la reproducción del mismo evento en directo real, es adecuado cuando está disponible el ancho de banda adicional requerido para el canal de televisión adicional (una alternativa real para IPTV o televisión por Cable/Fibra). En este caso, puesto que el canal CH1 sólo es lógico seleccionarlo cuando se desean subtítulos sincronizados, el uso de subtítulos en abierto es también una alternativa de implementación práctica.

Una posible realización adicional de la invención se reﬁere al uso de la sincronización de subtítulos en la redifusión de eventos o programas que fueron subitulados en directo. Esto es posible en cualquiera de las dos opciones que para el lado de emisión se han descrito en anteriormente, y que se muestran con líneas discontinuas en la ﬁgura 9. Por tanto, a partir de la generación del formato MPEG/DVB++ 90 mediante el Generador MPEG/DVB extendido G1, el almacenamiento de un evento audiovisual de televisión puede realizarse en paralelo a estas dos opciones: o bien almacenar subtítulos sincronizados (en un soporte de almacenamiento multimedia BD1 usando la salida del módulo de sincronización de subtítulos 901) proporcionados desde el MPEG/DVBsync 91 para el canal de televisión casi en directo CH1 o versiones no sincronizadas 92 de eventos audiovisuales subtitulados en directo (en otro soporte de almacenamiento multimedia BD2) del canal de televisión en directo real CH2. La difusión o distribución mediante cualquier medio (DVD, descarga de archivos, televisión por web, etc.) de un evento audiovisual de televisión almacenado previamente, con sus subtítulos sincronizados, puede llevarse a cabo, o bien directamente si se almacena el MPEG/DVBsync 91, o bien requerir una etapa de sincronización previa realizada por el módulo de sincronización de subtítulos 901 implementado en el lado de emisión antes de la transmisión/difusión.

Una de las ventajas de esta realización es que, incluso si se toma la decisión de difundir un evento subtitulado en directo sin aplicar ningún proceso de sincronización a sus subtítulos, la sincronización puede ser aplicada posteriormente de manera sencilla y sin costes adicionales, según se muestra en la ﬁgura 11, para su redifusión (o distribución de DVD, transmisión de televisión por web,...) con audio/vídeo y subtítulos sincronizados.

Para la redifusión o distribución diferida de eventos audiovisuales subtitulados en directo puede utilizarse una versión sincronizada 91 MPEG/DVBsync almacenada en un soporte de almacenamiento multimedia BD1, o una versión no sincronizada 92 MPEG/DVB++ que contiene la información necesaria para ser sincronizada antes de la redifusión mediante la aplicación del módulo de sincronización 901.

Un sistema de subtitulación en directo que implementa el procedimiento de sincronización descrito anteriormente puede proporcionar toda la información relacionada con subtítulos (duración, color, posición,...) junto con sus retardos individuales, a un módulo de generación de MPEG/DVB. Según se muestra en la ﬁgura 9, almacenar esta información en este punto en un soporte de almacenamiento multimedia BD3 también podría usarse para facilitar la edición de subtítulos antes de su posible redifusión) sin perder las capacidades de sincronización.

Todas las opciones anteriores, descritas para canales de televisión, pueden aplicarse directamente a implementaciones de canales de radio digital subtitulados. El subtítulo puede ofrecerse en aparatos de televisión u otros dispositivos.

Las opciones de implementación de sincronización de subtítulos mostradas en el presente documento resaltan el valor de usar el proceso y formato propuestos (es decir, MPEG/DVB con retardos de subtítulo individuales) para proporcionar una fuente común que soporta alternativas de difusión en directo real, casi-directo y redifusión.

Las funcionalidades proporcionadas por las realizaciones descritas de la invención pueden aplicarse por diferentes entidades u organismos para proporcionar nuevas prestaciones de la siguiente manera:

-: Por operadores de televisión para difundir eventos o canales audiovisuales en los que la subtitulación en directo puede sincronizarse opcionalmente en el receptor.

-: Por operadores de televisión para difundir eventos o canales audiovisuales en los que la subtitulación en directo se sincroniza para ofrecer una reproducción en casi-directo del evento.

-: Por operadores de televisión para almacenar programas de televisión subtitulados en directo que van a usarse en futuras transmisiones sincronizadas de IPTV grabadas previamente, redifusiones de TDT u otros medios de distribución.

-: Por emisoras de radio digital para ofrecer subtítulos sincronizados.

-: Fabricantes de receptores de TDT externos o integrados y receptores de IPTV para incluir la sincronización de subtítulos como una opción seleccionare por parte del usuario en futuros receptores.

-: Empresas, instituciones y desarrolladores de capacidades de receptores de TDT para incluir la sincronización de subtítulos en cualquiera de sus productos.

-: En general, organismos, instituciones y empresas que desean ofrecer un servicio que soporte la subtitulación en directo de eventos que pueden reproducirse con audio, vídeo y subtítulos sincronizados.

Obsérvese que, en este texto, el término “comprende” y sus derivaciones (tales como “comprendiendo”, etc.) no deben entenderse en un sentido exclusivo, es decir, estos términos no deben interpretarse como que excluyen la posibilidad de que lo que se describe y deﬁne pueda incluir elementos, etapas, etc., adicionales.

Claims

REIVINDICACIONES

1. Procedimiento para sincronizar subtítulos con audio en sistemas de subtitulación en directo, que comprende:

-

generar al menos un subtítulo i a partir de al menos un bloque de transcripción Tj que corresponde a un fragmento de audio j;

caracterizado porque comprende además:

-

determinar un retardo de subtítulo individual Δti de cada subtítulo i;

-

crear una unidad de subtítulo Si que comprende el subtítulo i y el retardo de subtítulo individual Δti;

-

poner cada unidad de subtítulo Si junto con un retardo de desplazamiento asociado conﬁgurable REST en al menos un paquete de subtítulo PES, el cual tiene una marca de tiempo de presentación PTSi, formando dichos paquetes de subtítulo PES parte de un ﬂujo de transporte extendido que incluye al menos un paquete de audio que contiene el fragmento de audio j y una marca de tiempo de presentación PTSj.

-

sincronizar paquetes de subtítulo PES con paquetes de audio creando un ﬂujo de transporte sincronizado que comprende todos los paquetes del ﬂujo de transporte extendido retardados un tiempo que depende del retardo de desplazamiento asociado conﬁgurable REST.
2.

Procedimiento según la reivindicación 1, en el que la sincronización de paquetes de subtítulo PES con paquetes de audio comprende retardar cada paquete de subtítulo PES asociándole una marca de tiempo de presentación en el ﬂujo de transporte sincronizado que es igual a PTSi-Δti+REST, y retardar cada paquete de audio asociándole una marca de tiempo de presentación en el ﬂujo de transporte sincronizado que es igual a PTSj+REST, siendo PTSi y PTSj las marcas de tiempo de presentación en el ﬂujo de transporte extendido y REST el retardo de desplazamiento asociado del ﬂujo de transporte extendido.
3.

Procedimiento según la reivindicación 2, en el que, si el ﬂujo de transporte extendido incluye al menos un paquete de vídeo o al menos un paquete de datos de cualquier clase de datos sincronizables con paquetes de audio, la sincronización de paquetes de subtítulo comprende además retardar todos los paquetes de vídeo y de datos un tiempo que depende del retardo de desplazamiento asociado conﬁgurable REST.
4.

Procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que la sincronización de paquetes de subtítulo con paquetes de audio se realiza antes de transmitir el ﬂujo de transporte sincronizado a un dispositivo de recepción digital.
5.

Procedimiento según la reivindicación 4, que comprende recibir el ﬂujo de transporte sincronizado en el dispositivo de recepción digital, que es un receptor convencional seleccionado de un receptor de radiodifusión digital, un módulo decodiﬁcador de televisión digital terrestre, un receptor de televisión por IP, un receptor de difusión multimedia digital y un receptor de medios digital con medios de control para televisión en directo.
6.

Procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que la sincronización de paquetes de subtítulo con paquetes de audio se realiza después de recibir el ﬂujo de transporte extendido en un dispositivo de recepción digital.
7.

Procedimiento según la reivindicación 6, que comprende además permitir a un usuario elegir si la sincronización de paquetes de subtítulo con paquetes de audio es realizada por el dispositivo de recepción digital o no.
8.

Procedimiento según cualquiera de las reivindicaciones 6 a 7, que comprende recibir el ﬂujo de transporte extendido en el dispositivo de recepción digital, que se selecciona de un receptor de radiodifusión digital, un módulo decodiﬁcador de televisión digital terrestre, un receptor de televisión por IP, un receptor de difusión multimedia digital y un receptor de medios digital con medios de control para televisión en directo.
9.

Procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que la sincronización de paquetes de subtítulo con paquetes de audio se realiza antes de almacenar el ﬂujo de transporte sincronizado en un soporte de almacenamiento multimedia.
10.

Procedimiento según cualquiera de las reivindicaciones1a3,enelque la sincronización de paquetes de subtítulo con paquetes de audio se realiza después de almacenar el ﬂujo de transporte extendido en un soporte de almacenamiento multimedia y antes de transmitir el ﬂujo de transporte sincronizado a una red de distribución multimedia, que se selecciona de una red de IP, una red de difusión de televisión digital terrestre y una red de radiodifusión digital.
11. Procedimiento según cualquier reivindicación anterior, en el que la determinación de un retardo de subtítulo individual Δti de cada subtítulo i comprende:

-

determinar una marca de tiempo de comienzo tjB que es el momento en el que comienza el primer fragmento de audio correspondiente al primer bloque de transcripción Tj de un grupo de bloques de transcripción, el grupo formado por al menos un bloque de transcripción y creado por un subsistema de transcripción de audio 201, y a partir del cual se genera al menos una unidad de subtítulo Si mediante un subsistema de generación de subtítulos 202, con respecto a un reloj de referencia 100, usándose el reloj de referencia 100 tanto por el subsistema de generación de subtítulos 202 como por el subsistema de transcripción de audio 201;

-

determinar un tiempo de entrega tsubi que es cuando se entrega el primer subtítulo generado a partir de dicho grupo de bloques de transcripción por el subsistema de generación de subtítulos 202;

-

restar la marca de tiempo de comienzo tjB de dicho primer fragmento de audio del tiempo de entrega tsubi para calcular el retardo de subtítulo individual Δti = tsubi -tjB;

-

asignar dicho retardo de subtítulo individual Δti a cada unidad de subtítulo Si creada a partir de dicho grupo de bloques de transcripción.
12.

Procedimiento según la reivindicación 11, que comprende además determinar una marca de tiempo de ﬁnalización tjE que es el momento en el que ﬁnaliza el primer fragmento de audio correspondiente al primer bloque de transcripción Tj del grupo de bloques de transcripción, con respecto al reloj de referencia 100.
13.

Procedimiento según la reivindicación 12, en el que el subsistema de transcripción de audio 201 usa una transcripción mental por parte de una persona y la marca de tiempo de comienzo tjB y la marca de tiempo de ﬁnalización tjE se estiman respectivamente como tjB =thjB + Δtmpj ytjE =thjE + Δtmpj calculando un retardo de procesamiento mental Δtmpj que depende del tipo de transcripción mental, que se selecciona de transcripción mental continua y transcripción mental discreta, thjB es un instante de tiempo marcado cuando la persona comienza la transcripción mental y thjE es un instante de tiempo marcado cuando la persona ﬁnaliza la transcripción mental, ambos tiempos dados automáticamente por el subsistema de transcripción de audio 201 con respecto al reloj de referencia 100.
14.

Procedimiento según la reivindicación 13, en el que el retardo de procesamiento mental Δtmpj es una constante ﬁjada por el subsistema de transcripción de audio 201 cuando usa transcripción mental continua.
15.

Procedimiento según la reivindicación 13, en el que el retardo de procesamiento mental Δtmpj se calcula por el subsistema de transcripción de audio 201 cuando usa transcripción mental discreta como Δtmpj = TextLengthj · (K/μ)

+ C, siendo TextLengthj una longitud en unidades de longitud del fragmento de audio j, K es la duración de tiempo de una unidad de longitud; C es una constante de tiempo conﬁgurable en el subsistema de transcripción de audio 201, y μ es una variable de grado de literalidad, 0≤μ≤1, conﬁgurable y que representa la proximidad de la transcripción mental a la literalidad.
16. Dispositivo sincronizador de subtítulos, caracterizado porque comprende medios de procesamiento conﬁgurados para:

-

crear un ﬂujo de transporte extendido a partir de un ﬂujo de transporte inicial que comprende todos los paquetes del ﬂujo de transporte inicial, los cuales tienen una marca de tiempo de presentación asociada, comprendiendo el ﬂujo de transporte extendido:

al menos un paquete de audio que contiene un fragmento de audio j,

al menos una unidad de subtítulo Si que comprende un subtítulo i generado a partir de al menos un bloque de transcripción Tj que corresponde al fragmento de audiojyun determinado retardo de subtítulo individual Δti asociado a cada subtítulo i,

y un retardo de desplazamiento asociado REST que es conﬁgurable e indica un retardo ﬁjo para sincronizar paquetes de subtítulo con paquetes de audio,

-

ajustar la marca de tiempo de presentación asociado de cada paquete de subtítulo del ﬂujo de transporte extendido asociándole una marca de tiempo de presentación en el ﬂujo de transporte sincronizado que es igual a PTSiΔti+REST, y retardar cada paquete de audio asociándole una marca de tiempo de presentación en el ﬂujo de transporte sincronizado que es igual a PTSj+REST, siendo PTSi yPTSj unas marcas de tiempo de presentación asociadas en el ﬂujo de transporte extendido al paquete de subtítulo y el paquete de audio respectivamente y REST el retardo de desplazamiento asociado en el ﬂujo de transporte extendido.
17. Dispositivo sincronizador de subtítulos según la reivindicación 16, en el que, si el ﬂujo de transporte inicial incluye al menos un paquete de vídeo o al menos un paquete de datos de cualquier clase de datos sincronizables con paquetes de audio, los medios de procesamiento están conﬁgurados para retardar todos los paquetes de vídeo y de datos el tiempo de desplazamiento global.
18.

Dispositivo sincronizador de subtítulos según cualquiera de las reivindicaciones 16 a 17, en el que los medios de procesamiento están conﬁgurados para crear el ﬂujo de transporte sincronizado antes de transmitir dicho ﬂujo a un dispositivo de recepción digital.
19.

Dispositivo sincronizador de subtítulos según cualquiera de las reivindicaciones 16 a 17, en el que los medios de procesamiento están conﬁgurados para permitir a un usuario elegir si la creación del ﬂujo de transporte sincronizado se realiza después de recibir el ﬂujo de transporte extendido en un dispositivo de recepción digital.
20.

Dispositivo sincronizador de subtítulos según la reivindicación 19, que está integrado en el dispositivo de recepción digital seleccionado de un receptor de radiodifusión digital, un módulo decodiﬁcador de televisión digital terrestre, un receptor de televisión por IP, un receptor de difusión multimedia digital y un receptor de medios digital con medios de control para televisión en directo.
21.

Dispositivo sincronizador de subtítulos según cualquiera de las reivindicaciones 16 a 17, en el que los medios de procesamiento están conﬁgurados para crear el ﬂujo de transporte sincronizado antes de almacenar dicho ﬂujo en un soporte de almacenamiento multimedia.
22.

Dispositivo sincronizador de subtítulos según cualquiera de las reivindicaciones 16 a 17, en el que los medios de procesamiento están conﬁgurados para crear el ﬂujo de transporte sincronizado a partir de un ﬂujo de transporte extendido almacenado previamente en un soporte de almacenamiento multimedia y antes de transmitir el ﬂujo de transporte sincronizado a una red de distribución multimedia, que se selecciona de una red de IP, una red de difusión de televisión digital terrestre y una red de radiodifusión digital.
23.

Un producto de programa informático que comprende medios de código de programa que, cuando se cargan en un procesador de propósito general, un procesador de señal digital, circuitos integrados de aplicación especíﬁca o cualquier dispositivo lógico programable, hace que dichos medios de código de programa ejecuten el procedimiento según cualquiera de las reivindicaciones1a15.

OFICINA ESPAÑOLA DE PATENTES Y MARCAS

N.º solicitud: 201030758

ESPAÑA

Fecha de presentación de la solicitud: 20.05.2010

Fecha de prioridad:

INFORME SOBRE EL ESTADO DE LA TECNICA

51 Int. Cl. : H04N7/24 (2011.01)

DOCUMENTOS RELEVANTES

Categoría

Documentos citados Reivindicaciones afectadas

A

US 2004168203 A1 (SEO KANG SOO et al.) 26.08.2004, figuras1 – 3; 1-23

Párrafos [6 -16, 25 -33];

A

EP 1909278 A1 (SONY COMP ENTERTAINMENT INC) 09.04.2008, 1-23

párrafos [9,17-28,40-55,72-82]; figuras 1,3,4,6.

A

US 2005185929 A1 (KANG MAN-SEOK et al.) 25.08.2005, 1-23

figura 1; párrafos [28-35].

Categoría de los documentos citados X: de particular relevancia Y: de particular relevancia combinado con otro/s de la misma categoría A: refleja el estado de la técnica O: referido a divulgación no escrita P: publicado entre la fecha de prioridad y la de presentación de la solicitud E: documento anterior, pero publicado después de la fecha de presentación de la solicitud

El presente informe ha sido realizado • para todas las reivindicaciones • para las reivindicaciones nº:

Fecha de realización del informe 05.10.2011

Examinador B. Pérez García Página 1/4

INFORME DEL ESTADO DE LA TÉCNICA

Nº de solicitud: 201030758

Documentación mínima buscada (sistema de clasificación seguido de los símbolos de clasificación) H04N Bases de datos electrónicas consultadas durante la búsqueda (nombre de la base de datos y, si es posible, términos de

búsqueda utilizados) INVENES, EPODOC, WPI, INSPEC

Informe del Estado de la Técnica Página 2/4

OPINIÓN ESCRITA

Nº de solicitud: 201030758

Fecha de Realización de la Opinión Escrita: 05.10.2011

Declaración

Novedad (Art. 6.1 LP 11/1986)

Reivindicaciones Reivindicaciones 1-23 SI NO

Actividad inventiva (Art. 8.1 LP11/1986)

Reivindicaciones Reivindicaciones 1-23 SI NO

Se considera que la solicitud cumple con el requisito de aplicación industrial. Este requisito fue evaluado durante la fase de examen formal y técnico de la solicitud (Artículo 31.2 Ley 11/1986).

Base de la Opinión.-

La presente opinión se ha realizado sobre la base de la solicitud de patente tal y como se publica.

Informe del Estado de la Técnica Página 3/4

OPINIÓN ESCRITA

Nº de solicitud: 201030758

1. Documentos considerados.-

A continuación se relacionan los documentos pertenecientes al estado de la técnica tomados en consideración para la realización de esta opinión.

Documento

Número Publicación o Identificación Fecha Publicación

D01

US 2004168203 A1 (SEO KANG SOO et al.) 26.08.2004

D02

EP 1909278 A1 (SONY COMP ENTERTAINMENT INC) 09.04.2008

D03

US 2005185929 A1 (KANG MAN-SEOK et al.) 25.08.2005
2. Declaración motivada según los artículos 29.6 y 29.7 del Reglamento de ejecución de la Ley 11/1986, de 20 de marzo, de Patentes sobre la novedad y la actividad inventiva; citas y explicaciones en apoyo de esta declaración

A continuación se comentan en detalle los documentos encontrados en el estado de la técnica, los cuales no afectan a la novedad y /o actividad inventiva de la invención objeto de la solicitud.

D01 describe un método y un aparato para sincronizar vídeo y audio pregrabados junto con datos adicionales, como subtítulos. La sincronización se realiza entre los paquetes de audio/vídeo (PS) incluidos en una cadena de transporte (TS) que contienen una referencia de reloj del programa (PCR -program clock reference) y datos de texto (subtítulos) sin dicha referencia de tiempo PCR.

El audio y vídeo de la cadena de transporte (TS) es decodificado por los decodificadores de audio y de vídeo respectivamente. Cuando se decodifica, cada paquete de datos se determina por comparar el tiempo de referencia de presentación (AV PRT) proporcionado por el controlador ST (system timing clock) con la información PTS (presentation time stamp) incluida en cada cadena elemental.

El compensador de tiempo de referencia (25) obtiene el tiempo de referencia de presentación del texto (TX PRT), a partir del AV PRT y un offset proporcionado por el controlador 30. Este tiempo de offset es la diferencia entre el PTS inicial del audio/vídeo y el PTS inicial de los subtítulos.

El problema técnico que resuelve este documento es sincronizar audio y vídeo pregrabados con sus subtítulos correspondientes. Sin embargo, no se realiza en tiempo real o en directo, es decir, no se recibe un fichero de audio, se realiza la transcripción correspondiente y se presentan el audio y sus subtítulos correspondientes de forma sincronizada. Se trata por tanto de un problema técnico diferente, ya que D01 no se realiza para sistemas en directo, sino con audio pregrabado y además necesita un fichero de texto del que sacar los subtítulos.

Por tanto, este documento no afecta a la novedad y actividad inventiva de la solicitud, según los Arts. 6 y 8 de la Ley 11/1986.

Por su parte, D02 detalla el funcionamiento de un decodificador para sincronizar el video, audio e información secundaria (subtítulos) cuando se accede aleatoriamente a una imagen. Para ello, obtiene el valor de la marca de presentación PTS de los datos de vídeo y calcula el valor de la marca de presentación PTS de la imagen cabecera o de referencia. Dicha PTS se emplea para sincronizar el decodificador de audio y de subtítulos. Este documento tampoco afecta a los requisitos de patentabilidad de la solicitud.

D03 de forma similar a D01, es un sistema para sincronizar el audio/vídeo de un dispositivo de almacenamiento con subtítulos, indicando el momento de inicio y fin de cada subtítulo. Tampoco influye en la novedad y actividad inventiva de la solicitud.

A la luz de los documentos encontrados en el estado de la técnica, se considera que la solicitud cumple los requisitos de novedad y actividad inventiva, según los Arts. 6 y 8 de la Ley Española de Patentes.

Informe del Estado de la Técnica Página 4/4