ES2370218B1 - Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo. - Google Patents

Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo. Download PDF

Info

Publication number
ES2370218B1
ES2370218B1 ES201030758A ES201030758A ES2370218B1 ES 2370218 B1 ES2370218 B1 ES 2370218B1 ES 201030758 A ES201030758 A ES 201030758A ES 201030758 A ES201030758 A ES 201030758A ES 2370218 B1 ES2370218 B1 ES 2370218B1
Authority
ES
Spain
Prior art keywords
subtitle
audio
transcription
delay
packets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES201030758A
Other languages
English (en)
Other versions
ES2370218A1 (es
Inventor
Mercedes De Castro Álvarez
Manuel De Pedro Sastre
Belén Ruiz Mezcua
Javier Jimenez Dorado
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universidad Carlos III de Madrid
Original Assignee
Universidad Carlos III de Madrid
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universidad Carlos III de Madrid filed Critical Universidad Carlos III de Madrid
Priority to ES201030758A priority Critical patent/ES2370218B1/es
Priority to PCT/ES2011/000166 priority patent/WO2011144775A1/es
Priority to EP11783108.1A priority patent/EP2574054B1/en
Publication of ES2370218A1 publication Critical patent/ES2370218A1/es
Application granted granted Critical
Publication of ES2370218B1 publication Critical patent/ES2370218B1/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4305Synchronising client clock from received content stream, e.g. locking decoder clock with encoder clock, extraction of the PCR packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43074Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)

Abstract

La sincronización de subtítulos y audio en directo que se propone determina un retardo de subtítulo individual {dl}ti de cada subtítulo i y crea una unidad de subtítulo Si con el subtítulo i y el retardo de subtítulo individual {dl}ti. Cada unidad de subtítulo Si se introduce en uno o más paquetes PES de subtítulo con una marca de tiempo de presentación PTS{sub,i} y junto con un retardo de desplazamiento asociado configurable REST. Dichos paquetes forman parte de un flujo de transporte extendido que incluye paquetes de audio que contiene al menos un fragmento de audio j y una marca de tiempo de presentación PTSj. Se realiza una sincronización de los paquetes de subtítulo con paquetes de audio creando un flujo de transporte sincronizado que comprende todos los paquetes del flujo de transporte extendido retardados un tiempo que depende de un l retardo de desplazamiento asociado configurable REST.

Description

Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo.
Campo técnico de la invención
La presente invención tiene su aplicación en el campo de la generación de subtítulos para eventos multimedia en directo, por ejemplo programas de televisión o radio en directo, para su visualización en tiempo real y sincronizados tanto con el audio como con el vídeo.
Antecedentes de la invención
Los subtítulos, como modo de acceder al contenido de audio de eventos multimedia suministrado a través de gran diversidad de dispositivos (equipos de televisión, teléfonos móviles 3G, ordenadores,...) son necesarios para personas con dificultades auditivas o personas que necesitan cierta ayuda para entender el idioma. Los subtítulos también son necesarios cuando se experimentan contenidos multimedia en entornos ruidosos o lugares en los que debe desactivarse el sonido.
Aunque la subtitulación de eventos que no son en directo es una práctica normal hoy en día, la subtitulación de eventos en directo es menos frecuente debido a la complejidad inherente de la tecnología actual. La subtitulación en tiempo real de eventos audiovisuales es una investigación pluridisciplinar que abarca tecnologías de los campos de reconocimiento automático del habla, informática y transmisión y difusión de paquetes en red. En eventos en directo en los que los subtítulos se presentan en una pantalla auxiliar, pero el vídeo y el audio se experimentan directamente, no existe la oportunidad de gestionar el retardo de los subtítulos. Lleva tiempo crear subtítulos a partir del habla, independientemente del procedimiento usado para la transcripción de audio a texto. En las mejores condiciones, el retardo en la creación de subtítulos de texto puede ser de varios segundos. Cualquier procedimiento que intente tratar el problema del retardo entre audio y subtítulos debe proporcionar un procedimiento para determinar la correspondencia temporal entre un fragmento de audio y los subtítulos generados a partir del mismo.
En el actual estado de la técnica para la generación de subtítulos en programas de televisión en directo, siempre hay un retardo significativo y variable entre el audio y el momento en el tiempo en el que están listos los subtítulos correspondientes. Como resultado, los subtítulos se muestran en la pantalla del usuario un número variable de segundos después y por tanto de manera no sincronizada con el audio/vídeo. Para entender mejor los procesos implicados en la subtitulación en directo (10), la figura 1 muestra las etapas relevantes:
Etapa 1)
Transcripción de audio (1): la transcripción inmediata de habla a partir de uno o varios hablantes a texto.
Etapa 2)
Generación de subtítulos (2): la generación de subtítulos a partir de texto.
Etapas3y4)
Segmentación en paquetes (3) y transmisión/difusión (4) a través de los sistemas multimedia, por ejemplo, televisión digital terrestre (41), Internet (42), televisión por protocolo de Internet (43), etc.
Etapa 5)
Recepción y presentación (5) en la pantalla del usuario en, por ejemplo, un receptor de televisión (51), un ordenador (52), un teléfono móvil 3G o una televisión convencional con un codificador de IPTV (53), por mencionar sólo unos cuantos.
En entornos de generación de subtitulación en directo, el proceso de transcripción de audio (1) suministra el texto correspondiente varios segundos después de haber recibido el fragmento de habla. La transcripción de habla en texto en tiempo real es la causa originaria de los retardos de los subtítulos y es muy difícil de minimizar. En el pasado reciente y todavía hoy, el principal enfoque para la transcripción de audio (1) a texto a partir del habla ha sido el uso de estenotipia (11) en la que el texto transcrito a partir del audio se produce manualmente por estenotipistas. Aunque la calidad y velocidad de la estenotipia (11) son buenas, el coste de este proceso y la baja disponibilidad de estenotipistas hacen difícil que se convierta en una práctica extendida en la subtitulación masiva de eventos en tiempo real. Otra alternativa es el uso de ASR o motores de reconocimiento automático del habla (12) aplicados al audio del hablante, o bien directamente o a través de un rehablador intermedio (13), para reconocer automáticamente las palabras y frases con una mínima intervención humana. Los principales inconvenientes de la subtitulación con la tecnología de ASR actual son los retardos introducidos en los subtítulos con respecto a los flujos de vídeo y audio originales, las tasas de error de reconocimiento de habla y la necesidad de entrenar el sistema para la voz y el vocabulario del hablante.
En la práctica, puede usarse ASR con la ayuda de un operador humano que manipula el texto de salida para mejorar
o corregir los subtítulos. De hecho, para la subtitulación en directo de televisión, el uso de rehablado y manipulación es una práctica normal. El uso de ASR directamente sin un rehablador intermedio implica o bien aplicar un ASR independiente del hablante a cualquier voz en la señal de audio, o aplicar un ASR dependiente del hablante entrenado previamente para las diferentes voces en la señal de audio. El ASR basado en rehablado, en el que una persona habla a un ASR dependiente del hablante, tratando de repetir lo que está escuchando, es de los más usados en difusión de televisión en tiempo real en todo el mundo en la actualidad, por ejemplo, en el Reino Unido o en España. La estenografía se ha usado y todavía se usa ampliamente para subtitulación en tiempo real, por ejemplo en EE. UU., en conexión con un ordenador en el que una aplicación de software traduce los símbolos estenográficos en texto. Hay otros procedimientos, no muy comunes pero que se usan en ocasiones para subtitulación en tiempo real, tales como teclear directamente mediante un teclado o usar un teclado silábico tal como VeyboardTM.
Para la generación de subtitulación (2), los subtítulos se crean a partir de los fragmentos de texto transcritos recibidos desde el subsistema de transcripción de audio (1). El subsistema de generación de subtitulación (2) permite la corrección y el formateo manuales (21), por ejemplo, asignando colores a los fragmentos de texto dependiendo de la información de hablante o de contexto, etc. Los subtítulos finales se suministran mediante el subsistema de subtitulación en directo (22) junto con otra información importante para su presentación final, tal como la duración (tiempo de permanencia en pantalla del subtítulo), el color, la posición en la pantalla, etc.
El posterior proceso de segmentación en paquetes (3) de los flujos de vídeo, audio y subtítulos genera paquetes de flujo de transporte (31) que se envían a través de sistemas de transmisión (4): por ejemplo por televisión digital
o por IP. Cada paquete transmitido contiene, además de la carga útil e, independientemente de su tipo (vídeo, audio
o datos), una indicación de un tiempo para la presentación en pantalla (presentation_time_stamp), que se usa en el lado de recepción para una presentación sincronizada de paquetes pertenecientes a los diferentes flujos de un canal de televisión. Dentro de los paquetes de flujo de transporte (31), hay también una referencia de reloj global (100) para la sincronización temporal, de modo que todas las marcas de tiempo de presentación hacen referencia a la misma referencia de reloj común.
Lo que es importante entender es que estas marcas de tiempo de presentación se calculan en el lado de emisión según el reloj en tiempo real (100) del sistema y corresponden al momento en el tiempo en el que se crean los paquetes de flujo de transporte (31). El resultado es que se mantienen los retardos entre audio/vídeo y subtítulos, es decir, los paquetes de audio y vídeo tienen marcas de tiempo de presentación que preceden en el tiempo a las marcas de tiempo de presentación de sus subtítulos correspondientes. En el lado de recepción, el usuario sólo detecta esta falta de alineación entre los flujos cuando activa los subtítulos. Mientras que los flujos de audio y vídeo están sincronizados entre sí, los subtítulos se presentan varios segundos después y nunca se corresponden con el audio y vídeo en la pantalla.
Sumario de la invención
La presente invención sirve para resolver el problema mencionado anteriormente sobre la desincronización entre audio y subtítulos en subtitulación en tiempo real, compensando los retardos individuales de los subtítulos con el fin de conseguir una resincronización eficaz de flujos de audio y de subtítulo antes de que sean presentados al usuario. La presente propuesta describe un sistema de extremo a extremo que permite sincronizar subtítulos y audio/vídeo en directo.
En escenarios de subtitulación en directo, cuando un evento audiovisual (por ejemplo, un programa de televisión en directo, un programa de radio, una obra de teatro o un discurso en una conferencia) se digitaliza y transmite a dispositivos de recepción de usuario, existe la posibilidad de compensar el retardo introducido, principalmente por el proceso de transcripción de audio, entre el audio original y los correspondientes subtítulos. El hecho de que haya una fase de transmisión (a través de una red de comunicación) y una fase de presentación (en el receptor) en la transmisión en tiempo real de eventos en directo, como en la difusión de televisión por protocolo de Internet (IPTV) o de televisión digital terrestre (TDT), ofrece la oportunidad de manejar el proceso de extremo a extremo, lo que permite finalmente la presentación de vídeo/audio/subtítulos sincronizados en un dispositivo de presentación (por ejemplo, un dispositivo de visualización electrónico). Esto implica retardar el audio y el vídeo con respecto a los subtítulos en algún punto del proceso.
En el contexto de la invención, el flujo de transporte utiliza un protocolo de comunicaciones para audio, vídeo y datos (por ejemplo, subtítulos, teletexto,...), que constituye un tipo de formato de contenedor digital que encapsula flujos elementales segmentados en paquetes para dichos audio/vídeo y datos, y otra información adicional. Un ejemplo de flujo de transporte se especifica en MPEG-2 Parte 1, Sistemas (norma ISO/IEC 13818-1). El flujo de transporte se usa en aplicaciones de difusión tales como DVB (difusión de vídeo digital) para televisión digital terrestre (DVB-T), sistemas por cable (DVB-C), satélite (DVB-S), o en redes basadas en IP (DVB-IPTV) entre otros. El flujo de transporte MPEG es similar al flujo de programa MPEG aunque el primero es para transmisión de datos en la que es probable la pérdida de datos, mientras que el último está diseñado para medios más fiables tales como DVD. El flujo de transporte combina uno o más programas con una o más bases de tiempo independientes en un único flujo.
Los datos de audio y vídeo pueden codificarse como se describe en ITU-T Rec. H.262 | ISO/IEC 13818-2 e ISO/IEC 13818-3. Los flujos elementales de audio y vídeo comprimido resultantes se segmentan en paquetes para producir paquetes de flujo elemental segmentado en paquetes (PES), según se especifica en MPEG-2 Parte 1, Sistemas (norma ISO/IEC 13818-1). Los flujos elementales que forman un programa están constituidos por paquetes PES y comparten una base de tiempo común.
En general, para cualquier escenario aplicable de difusión digital (multimedia, televisión o radio), se construyen lógicamente flujos de transporte a partir de paquetes de flujo elemental (por ejemplo, paquetes PES especificados en MPEG-2 Parte 1), que son las estructuras de datos usadas para transportar datos de flujo elemental. Esto incluye los flujos elementales del flujo de transporte que contienen paquetes de subtítulo para transportar subtítulos.
Un paquete de flujo elemental consiste en una cabecera de paquete, que incluye una referencia temporal, seguida de un número de bytes contiguos pertenecientes al flujo de datos elemental. Dicha referencia temporal es relativa a la referencia de sincronismo común transportada en el flujo de transporte. Según esta referencia de tiempo, el retardo de extremo a extremo desde la entrada de señal a un codificador hasta la salida de señal desde un decodificador es constante.
Un dispositivo de recepción digital puede ser un dispositivo de recepción de radio o televisión digital. Las tecnologías de radio digital para difusión de audio mediante el transporte de señales moduladas digitales se basan en normas que incluyen la difusión de televisión digital. Un dispositivo de recepción de televisión digital puede ser un módulo decodificador de televisión digital terrestre o un terminal de recepción integrado TDT, un equipo de usuario adaptado para recibir contenido de televisión por IP o difusión multimedia digital, o un receptor de medios digital conectado a una red doméstica que soporta control de televisión en directo (por ejemplo, desde un ordenador).
Un soporte de almacenamiento multimedia puede ser un medio de almacenamiento de disco o un servidor de medios. Una red de distribución multimedia puede ser una red de difusión de televisión digital terrestre, una red de transmisión de televisión por IP o, en general, una red IP conmutada que proporciona sitios web con canales de televisión.
Según un aspecto de la invención, se proporciona un procedimiento para sincronizar subtítulos con audio en sistemas de subtitulación en directo, que genera al menos un subtítulo i a partir de al menos un bloque de transcripción Tj correspondiente a un fragmento de audio j y que comprende los siguientes pasos:
-
determinar un retardo de subtítulo individual Δti de cada subtítulo i;
-
crear una unidad de subtítulo Si que comprende el subtítulo i y el retardo de subtítulo individual Δti;
-
poner cada unidad de subtítulo Si junto con un retardo de desplazamiento asociado configurable REST en al menos un paquete de subtítulo PES, el cual tiene una marca de tiempo de presentación PTSi, formando dichos paquetes de subtítulo PES parte de un flujo de transporte extendido que incluye al menos un paquete de audio que contiene el fragmento de audio j y una marca de tiempo de presentación PTSj.
-
sincronizar paquetes de subtítulo PES con paquetes de audio creando un flujo de transporte sincronizado que comprende todos los paquetes del flujo de transporte extendido retardados un tiempo que depende del retardo de desplazamiento asociado configurable REST.
En una posible realización de la invención, cuando la sincronización de subtítulos se hace para ser visualizados seguidamente en un dispositivo de presentación, en la sincronización de paquetes de subtítulo PES con paquetes de audio se retarda cada paquete de subtítulo PES asociándole una marca de tiempo de presentación en el flujo de transporte sincronizado que es igual a PTSi-Δti+REST, y retardar cada paquete de audio asociándole una marca de tiempo de presentación en el flujo de transporte sincronizado que es igual a PTSj+REST, siendo PTSi y PTSj las marcas de tiempo de presentación en el flujo de transporte extendido y REST el retardo de desplazamiento asociado del flujo de transporte extendido.
Según un aspecto adicional de la invención, se proporciona un dispositivo sincronizador de subtítulos, que puede implementarse en un subsistema de subtitulación en directo antes de la transmisión y/o almacenamiento de subtítulos generados o en un receptor, que comprende un controlador con medios de procesamiento para realizar el procedimiento descrito anteriormente. La generación de subtítulos para el almacenamiento y la transmisión y su sincronización por el dispositivo antes de dichas etapas de almacenamiento o transmisión se refieren a transmisión multimedia, de televisión digital o de radio digital. El receptor puede ser un receptor de radio digital, un receptor multimedia digital, un receptor de medios digital, o un receptor de televisión digital tal como un módulo decodificador de TDT o de IPTV.
El dispositivo sincronizador comprende medios de procesamiento configurados para:
-
crear un flujo de transporte extendido a partir de un flujo de transporte inicial que comprende todos los paquetes del flujo de transporte inicial, los cuales tienen una marca de tiempo de presentación asociada, comprendiendo el flujo de transporte extendido:
al menos un paquete de audio que contiene un fragmento de audio j,
al menos una unidad de subtítulo Si que comprende un subtítulo i generado a partir de al menos un bloque de transcripción Tj que corresponde al fragmento de audiojyun determinado retardo de subtítulo individual Δti asociado a cada subtítulo i,
y un retardo de desplazamiento asociado REST que es configurable e indica un retardo fijo para sincronizar paquetes de subtítulo con paquetes de audio,
-
ajustar la marca de tiempo de presentación asociado de cada paquete de subtítulo del flujo de transporte extendido de manera que suasociándole una marca de tiempo de presentación asociada en el flujo de transporte sincronizado sea que es igual a PTSi-Δti+REST, y retardar cada paquete de audio asociándole una de manera que su marca de tiempo de presentación asociada en el flujo de transporte sincronizado que es sea igual a PTSj+REST, siendo PTSi yPTSj unas marcas de tiempo de presentación asociadas en el flujo de transporte extendido al paquete de subtítulo y el paquete de audio respectivamente y REST el retardo de desplazamiento asociado en el flujo de transporte extendido.
Según un último aspecto de la invención, ésta trata de un programa informático que comprende medios de código de programa que ejecutan el procedimiento descrito anteriormente, cuando se cargan en un controlador implementado por un procesador de propósito general, uno o más procesadores de señal digital (DSP), o por una pluralidad de circuitos integrados programables dedicados independientes tales como circuitos integrados de aplicación específica (ASIO) y dispositivos lógicos programables (PLD) tales como PLA (matriz de lógica programable), FPGA (matriz de puertas programables en campo), etc.
Las principales ventajas de la solución descrita son:
a) Proporciona un enfoque práctico para mejorar la comprensión de eventos subtitulados en directo mediante la compensación de los efectos molestos de la recepción simultánea de entradas no sincronizadas (por ejemplo, audio y subtítulos). Esto puede ser crítico para personas con dificultades auditivas y personas con habilidades limitadas en un idioma no nativo así como en entornos en los que debe desactivarse el audio.
b) La solución descrita permite su aplicación como opción seleccionare por el usuario. Esto permite no afectar a las personas que no están interesadas en subtítulos sincronizados.
c) La implementación de la solución antes de la fase de transmisión no afecta a los receptores actuales.
d) No se requiere ancho de banda adicional en la implementación de la solución en el lado de recepción ni en la opción de difusión “casi-directo”.
e) El sincronizador de subtítulos propuesto puede incorporarse en las tecnologías actuales con modificaciones menores.
f) Proporciona un modo de sincronizar subtítulos cuando vuelve a emitirse un programa subtitulado en directo sin coste adicional, tanto si esta sincronización se realiza en el momento de la redifusión como si se realiza en el momento del almacenamiento.
g) El uso de un formato común que soporta un modo flexible de adaptarse a múltiples variantes para su implementación en difusión de televisión, cable, radio digital, IPTV, etc.
h) La etapa descrita para calcular retardos de subtítulo individuales para el procedimiento propuesto, permite su configuración y ajuste para adaptarlo a las herramientas, entornos, tipos de programas de televisión o radio y operadores de subtitulación en tiempo real.
Descripción de los dibujos
Para completar la descripción que está realizándose y con el objeto de ayudar a un mejor entendimiento de las características de la invención, según un ejemplo preferido de realización práctica de ésta, adjunto a dicha descripción como parte integrante de la misma, hay un juego de dibujos en los que, a modo de ilustración y de manera no restrictiva, se ha representado lo siguiente:
Figura 1. -Muestra un sistema de extremo a extremo de subtitulación en directo según se conoce en el estado de la técnica.
Figura 2. -Muestra un diagrama de bloques esquemático de un sistema de subtitulación en directo, según una posible realización de la invención.
Figura 3. -Muestra un diagrama de tiempo de un esquema de subtitulación en directo, según otra posible realización de la invención, para hacer un seguimiento de los retardos de subtítulo individuales para algunos casos particulares: (A) relación 1-1 entre bloques de transcripción y subtítulos, (B) relación 1-M entre bloques de transcripción y subtítulos,
(C)
relación N-1 entre bloques de transcripción y subtítulos.
Figura 4. -Muestra un diagrama de tiempo de un esquema de subtitulación en directo, según otra posible realización de la invención, para hacer un seguimiento de los retardos de subtítulo individuales para algunos casos particulares:
(D)
relación N-M, N<M, entre bloques de transcripción y subtítulos y (E) relación N-M, N>M, entre bloques de transcripción y subtítulos.
Figura 5. -Muestra un diagrama de tiempo de un subsistema de transcripción de audio para hacer un seguimiento de los retardos de subtítulo individuales cuando se realiza transcripción de audio sin intervención humana, según una posible realización de la invención.
Figura 6. -Muestra un diagrama de tiempo de un subsistema de transcripción de audio para hacer un seguimiento de retardos de subtítulo individuales cuando se realiza transcripción de audio con intervención humana, según otra posible realización de la invención.
Figura 7. -Muestra una representación esquemática de las etapas y flujos de datos para sincronización de subtítulos en recepción, según una posible realización de la invención.
Figura 8. -Muestra una representación esquemática de las etapas y flujos de datos para sincronización de subtítulos antes de la transmisión, según otra posible realización de la invención.
Figura 9. -Muestra una representación esquemática de las etapas y flujos de datos para la sincronización de subtítulos antes de su almacenamiento para una posterior difusión/transmisión/distribución de canales de televisión, según una posible realización adicional de la invención.
Figura 10. -Muestra un diagrama de estados con los posibles modos de reproducción para reproducción sincronizada de subtítulos en el lado del receptor, según la realización de la invención mostrada en la figura 7.
Figura 11.-Muestra una representación esquemática de la utilización de eventos subtitulados en directo y almacenados previamente, para su redifusión o distribución fuera de línea en donde los subtítulos ya están sincronizados, según otra posible realización de la invención.
Descripción detallada de la invención
La figura 2 muestra un sistema de subtitulación en directo 200, que comprende un subsistema de transcripción de audio 201 y un subsistema de generación de subtítulos 202. El subsistema de transcripción de audio 201 obtiene fragmentos de texto a partir de una fuente de audio (que puede ser la señal de audio asociada a la señal de vídeo u otra fuente de audio tal como el rehablado) y asigna referencias de tiempo a esos fragmentos de texto según sus fragmentos de audio originales correspondientes, según una posible realización de la invención. El subsistema de generación de subtítulos 202 genera unidades de subtítulo a partir de uno o muchos fragmentos de texto obtenidos en el subsistema de transcripción de audio 201, y asigna un retardo de subtítulo individual Δti a cada subtítulo i, i = 1..M. Estos retardos Δti pueden calcularse haciendo un seguimiento del tiempo empleado en cada uno de estos dos subsistemas y estimando el tiempo en el que se produjo el correspondiente audio siempre que no sea posible medirlo con precisión.
El subsistema de transcripción de audio 201 se encarga de obtener una transcripción de textos de una señal de audio 210 y de poner una marca de tiempo en la misma para hacer un seguimiento del comienzo de su fragmento de audio correspondiente, transcrito dentro de un bloque de transcripción 211. La salida del subsistema de transcripción de audio 201 es un grupo de N ≥ 1 bloques de transcripción 211, en el que cada bloque de transcripción generado Tj, j = 1 ... N, contiene un fragmento de texto Txj que es el texto de transcripción correspondiente a un fragmento de audio j y que está asociado con las marcas de tiempo correspondientes tjB ytjE donde:
tjB es el tiempo en el que comienza el fragmento de audio j de la señal de audio 210;
tjE es el tiempo en el que finaliza el fragmento de audio j.
Cuando el subsistema de transcripción de audio 201 no puede proporcionar valores exactos para tjB ytjE, los estima como se explica a continuación. La notación usada para los valores estimados es tsjB ytsjE. Para mayor simplicidad, la figura 2 se refiere tanto a tjB como a tsjB y como tjB.
El subsistema de generación de subtítulos 202 se encarga de crear subtítulos a partir de los bloques de transcripción 211 obtenidos en el subsistema de transcripción de audio 201 previo. El subsistema de generación de subtítulos 202 permite la entrada de información de formateo 203 generada mediante corrección manual y/o NLP (herramientas de procesamiento de lenguaje natural) de los bloques de transcripción 211, edición, formateo y definición de duración (si no se proporcionan automáticamente), signos de puntuación, etc. Así, el subsistema de generación de subtítulos 202 también debe evaluar el tiempo total empleado en estas tareas para calcular el retardo de subtítulo individual Δti final entre el momento en el tiempo en el que se suministra el subtítulo i, presente, y el tiempo, en el pasado, en el que se produjo el fragmento de audio j correspondiente. Asimismo, este subsistema calcula la duración (longitud de tiempo que un subtítulo tiene que estar presente en la pantalla en el dispositivo terminal del usuario) de cada subtítulo creado. Finalmente, el subsistema de generación de subtítulos 202 suministra cada subtítulo i, por ejemplo, imagen DVB o texto para subtítulo de Teletexto, junto con otra información adicional de subtítulo tal como tiempo de duración, color, posición en la pantalla, etc., formando una unidad de subtítulo Si asociada con su retardo de subtítulo individual Δti, i = 1 ... M. Por tanto, la salida desde el subsistema de generación de subtítulos 202, y por consiguiente del sistema de subtitulación en directo 200 en su conjunto, es un número M ≥ 1 de unidades de subtítulo 212 en el que cada cual comprende su respectivo retardo individual Δti e información de formateo 203.
El número de unidades de subtítulo 212 creadas a partir de un grupo de bloques de transcripción 211 depende de la longitud de los fragmentos de texto Txj y las marcas de tiempo tjB,tjE relacionados con cada bloque de transcripción Tj. Es necesario considerar qué tipo de relación existe entre los bloques de transcripción y los subtítulos con el fin de hacer un seguimiento del tiempo:
Relación 1-1: Un bloque de transcripción Tj obtenido en el subsistema de transcripción de audio 201 puede corresponder sólo a una unidad de subtítulo Si en la salida del subsistema de generación de subtítulos 202.
Relación 1-M: si un bloque de transcripción Tj es muy largo, puede corresponder también a dos o más subtítulos.
Relación N-1: si los bloques de transcripción son muy cortos y las marcas de tiempo están muy próximas en tiempo, es posible crear una unidad de subtítulo Si a partir de más de un bloque de transcripción.
Relación N-M: en general, dependiendo de la longitud y las marcas de tiempo, un conjunto de M unidades de subtítulo 212 puede generarse a partir de un grupo de N bloques de transcripción 211, siendo o bien N ≥ M o bien N
< M.
El subsistema de generación de subtítulos 202 puede ser completamente automático, semiautomático o completamente manual. Esto significa que este subsistema puede crear automáticamente el texto del subtítulo y toda la información incluida en unidades de subtítulo 212 sin intervención humana en la edición o formateo (usando NLP, por ejemplo). En las otras implementaciones posibles, el subsistema de generación de subtítulos 202 crea automáticamente las unidades de subtítulo 212 mientras que una persona las monitoriza y eventualmente realiza cambios, edición, formateo, etc. O bien la persona puede tener toda la responsabilidad en la creación del conjunto de unidades de subtítulo 212 a partir de los bloques de transcripción 211, dividir los subtítulos, definir la duración, etc. En cualquier caso, con el fin de calcular cada retardo de subtítulo individual Δti, es necesario medir el tiempo empleado en este subsistema, desde el momento en el que el primer bloque de transcripción T1 de un grupo de N bloques de transcripción (usado para crear un conjunto de M unidades de subtítulo) está disponible hasta que la primera unidad de subtítulo S1 de las M unidades de subtítulo (creadas a partir de estos N bloques de transcripción) se suministra a las fases de segmentación en paquetes y transmisión/difusión. Este tiempo se muestra en las figuras 3 y 4, indicado como ΔtSGi, que indica el retardo de generación de subtítulos de la unidad de subtítulo Si. El tiempo total empleado en la creación de la unidad de subtítulo Si, dentro de un conjunto de unidades de subtítulos, a partir de su(s) fragmento(s) de audio j correspondiente(s) es Δti, calculado como la diferencia entre el tiempo de entrega tsub1 de la primera unidad de subtítulo S1 yel tiempo en el que se produjo el primer fragmento de audio j correspondiente t1B: Δti = tsub1 -t1B. Este retardo de subtítulo Δti puede usarse en combinación con la marca de tiempo de presentación MPEG para permitir la sincronización de audio y subtítulo.
La figura 3 muestra ejemplos del marcado de tiempo en el subsistema de transcripción de audio 201 y en el subsistema de generación de subtítulos 202 para los siguientes casos de relación entre el número N de bloques de transcripción 211 y el número M de unidades de subtítulo 212:
(A)
relación 1-1, hay una unidad de subtítulo S1 que corresponde a un único bloque de transcripción T1;
(B)
relación N-1, en el ejemplo de la figura 3 (B) N=2;
(C)
relación 1-M, en el ejemplo de la figura 3 (C) M=2.
La figura 4 muestra ejemplos del marcado de tiempo en el subsistema de transcripción de audio 201 y en el subsistema de generación de subtítulos 202 para los siguientes casos de relación entre el número N de bloques de transcripción 211 y el número M de unidades de subtítulo 212:
(D) relación N-M, N < M, en el ejemplo de la figura 4 (D) N=2, M=3;
(E) relación N-M, N > M, en el ejemplo de la figura 4 (E) N=3, M=2.
En todos los casos, el retardo para cada unidad de subtítulo individual generada a partir de un conjunto de bloques de transcripción es el mismo. Su valor Δt1 se calcula como la diferencia entre el tiempo en el que se crea la primera unidad de subtítulo en 202 y el tiempo en el que comenzó el fragmento de audio correspondiente al primer bloque de transcripción. La fórmula para el primer subtítulo es: ΔT1 = tsub1 -t1B. En el caso, como el de las Figuras 3C, 4D y 4E, en el que se genera más de un subtítulo, el retardo para el segundo y sucesivos subtítulos es también el mismo: Δt2 = Δt1 =tsub1 -t1B y Δt2 = Δt3 en el ejemplo de la Figura 4E. Las duraciones de subtítulo pueden calcularse según las normas de subtitulación o según otros criterios. En cualquier caso, las duraciones no se ven afectadas por el procedimiento de sincronización descrito en el presente documento y viceversa.
La estimación de las marcas de tiempo de comienzo y de finalización tjB ytjE de cada bloque de transcripción Tj es crítica para el posterior cálculo del retardo de tiempo de subtítulo Δti de una unidad de subtítulo Si con respecto al (a los) fragmento(s) de audio j correspondiente(s). La figura5yla figura 6 muestran estas marcas de tiempo tjB ytjE para cada bloque de transcripción Tj creado por el subsistema de transcripción de audio 201.
En un subsistema de transcripción de audio 201 completamente automático, en el que el proceso de transcripción se basa en ASR sin rehablado, el software de ASR que realiza todo el proceso de transcripción (sin intervención humana) puede proporcionar información acerca del tiempo exacto que corresponde a la transcripción de audio (además de la propia transcripción); por tanto, resulta innecesario estimar el tiempo empleado en esta parte del proceso puesto que se dispone de valores exactos de tjB ytjE como se muestra en la figura 5. En este caso, las marcas de tiempo tjB ytjE no son medidas de retardo sino referencias de tiempo tj que indican cuándo el fragmento de audio j transcrito se produjo con respecto al reloj de referencia 100, por tanto: tjB =tj ytjE =tj +dj, donde dj es la duración del fragmento de audio
j.
Cuando el proceso de transcripción es manual o semiautomático como en un subsistema de transcripción de audio 201, basado en una persona pulsando teclas en una máquina de estenografía, en un teclado convencional tipo ordenador o en un teclado silábico, o basado en rehablado usando un software de ASR (usado en RTVE en España, por ejemplo), hay una fase de procesamiento de escucha y mental 600 realizada por una persona seguida de un proceso de transcripción (que puede implicar incluso una traducción idiomática) realizada también por una persona aunque usando dispositivos o software especiales (ASR en rehablado, estenografía en estenotipia, etc.), completando así la generación de los bloques de transcripción 211, que son la salida del subsistema de transcripción de audio 201. El bloque de transcripción Tj contiene el texto de los fragmentos de audio transcritos y las marcas de tiempo, que representan el tiempo tjB ytjE de comienzo y de final respectivamente del bloque de transcripción Tj, que se estiman según lo siguiente:
El hecho de que haya retardos variables desde la escucha a la transcripción que dependen de la persona (retardo de procesamiento mental) y el fragmento de audio particular, y que sean difíciles de medir con precisión, requiere usar un algoritmo que proporcione una estimación de retardos en la mayoría de los escenarios. En otros escenarios, puede usarse una entrada adicional proporcionada por el operador, para hacer un seguimiento del inicio de cada fragmento de audio por medio de una herramienta auxiliar (pedal, instrucción de voz...) para registrar digitalmente y numerar el fragmento. Por otro lado, el proceso de transcripción (ASR, estenografía u otros) también introduce a su vez un retardo aunque puede obtenerse a partir de las marcas de tiempo thiB ythiE exactos dados por el subsistema de transcripción de audio 201, mostrado en la figura 6, como se explica posteriormente.
En el escenario representado en la figura 6, el resultado de la etapa de “escucha y procesamiento mental” 600 sobre el audio original 610 es la transcripción humana (por ejemplo audio del rehablado, tecleo por estenografía, etc.) 611 que se introduce al “proceso de transcripción” 501 (por ejemplo ASR para el rehablado, software de estenotipia para el tecleo de estenografía, etc.) con el fin de generar un conjunto de bloques de transcripción aunque sin tener en cuenta todavía el retardo de procesamiento mental Δtmpj. El proceso de transcripción 501 de la transcripción humana proporciona un texto transcrito y dos marcas de tiempo thiB ythiE. La siguiente etapa 601 es la estimación del retardo de procesamiento mental Δtmpj que va a añadirse a las dos marcas de tiempo thiB ythiE exactos asociados con los bloques 612 transcritos con el fin de obtener una estimación de las marcas de tiempo de comienzo y finalización, tjB ytjE, de los bloques de transcripción 211. La estimación de tjB ytjE se denomina tsjB ytsjE respectivamente. De ahí:
tSjB =thjB + Δtmpj
tSjE =thjE + Δtmpj
Es necesario resaltar que en el caso ilustrado por la figura 6 las marcas de tiempo de los bloques de transcripción 211 no son retardos sino referencias de tiempo para el comienzo y la finalización de los fragmentos de audio transcritos con respecto al reloj de referencia de tiempo real 100. Como los valores exactos de thiB ythiE pueden obtenerse mediante el software o dispositivo correspondiente usado por el rehablador (o estenógrafo, etc.), la parte crítica es calcular el retardo de procesamiento mental Δtmpj introducido por el rehablador (o estenógrafo, etc.). Aunque no se considerase el retardo de procesamiento mental Δtmpj, hacer sólo un seguimiento de thiB ythiE daría como resultado una mejora importante en la sincronización de subtítulos. Sin embargo, para una mejor sincronización, es necesario diseñar un algoritmo para estimar el tiempo empleado en la etapa de “escucha y procesamiento mental” 600. Cuanto mejor sea dicha estimación, mejor será la aproximación de los tiempos de comienzo y finalización, tjB ytjE, a las referencias de tiempo reales, es decir: tsjB ≈ tjB ytsjE ≈ tjE.
El algoritmo para estimar el retardo de procesamiento mental Δtmpj depende de qué tipo de transcripción mental se lleva a cabo. Se producen dos escenarios principales en la etapa de “escucha y procesamiento mental” 600: (a) una transcripción literal o casi literal en la que hay una transcripción continua tal como ocurre en estenografía, (b) una transcripción con periodos de escucha más largos aunque menos transcripción literal (transcripción discreta tal como ocurre en un sistema de subtitulación de rehablado). Para transcripciones mentales continuas, el retardo de procesamiento mental Δtmpj es corto y casi constante; por tanto, puede considerarse un parámetro configurable, asignado a la persona según sus capacidades. En transcripciones discretas, el retardo de procesamiento mental Δtmpj es más largo y con una gran variación que depende del grado de interpretación/resumen. Sin embargo, en cualquier escenario, el retardo de procesamiento mental Δtmpj puede estimarse usando un algoritmo general: Δtmpj es directamente proporcional a la longitud del texto transcrito e inversamente proporcional al grado de literalidad de la transcripción. Matemáticamente este algoritmo de estimación de retardo de procesamiento mental puede expresarse como:
Δtmpj = TextLength · (K/μ)+C
donde dicho retardo Δtmpj se estima en segundos; TextLength es la longitud de transcripción del fragmento de audio j (en unidades de longitud, u.l.); K es la duración de una unidad de longitud (en segundos/u.l.); C es una constante de tiempo (en segundos); μ es una variable de grado de literalidad (0≤μ≤1) que representa el grado de parecido a la literalidad de la transcripción (por ejemplo, 1 significa el 100% de literalidad; 0,5 significa el 50%, de modo que de 2 palabras o letras pronunciadas en el audio, la persona que transcribe las resume en 1; 0,25 significa que de 4 palabras/letras, transcribe sólo 1, y así sucesivamente).
El parámetro μ debe ajustarse para reflejar las capacidades de la persona que transcribe y también depende del tipo de programa de televisión o escenario en directo, etc. Por ejemplo, la longitud de la transcripción TextLength puede medirse en palabras o en caracteres, y K en segundos/palabra o segundos/carácter. La multiplicación de TextLength y K da como resultado la duración estimada del fragmento de audio. La constante C representa el tiempo empleado en escuchar y procesar que no está relacionado con la duración del audio y se usa como tiempo fijo que también depende de las capacidades humanas.
Para un escenario de transcripción mental continua, pueden considerarse las siguientes suposiciones:
K · TextLength, es un tiempo constante fijado como parámetro (por ejemplo, 2 segundos)
μ es igual a 1 (transcripción literal)
C es una constante de tiempo (por ejemplo, 1 segundo).
Por tanto, el retardo de procesamiento mental Δtmpj es una constante (en este ejemplo, 3 segundos).
Para un escenario de transcripción mental discreta, los valores son diferentes, por ejemplo:
K puede ser 0,33 a 0,5 segundos/palabra ó 0,8 segundos/carácter aproximadamente.
TextLengthj es una variable que depende del bloque de transcripción.
μ, puede ser 0,5 como promedio.
C puede ser 1 segundo.
Un flujo de transporte MPEG contiene flujos elementales para audio, vídeo y subtítulos. Los flujos elementales (PES) de audio, vídeo y datos se codifican en paquetes de flujo elemental (paquetes PES) que son las unidades de transmisión dentro de un flujo de transporte. Cuando se convierte una señal de audio en un PES cada fragmento de audio j mencionado anteriormente se codifica según la norma ISO 13818-3 y se empaqueta en al menos un paquete PES del flujo elemental de audio correspondiente, junto con la información de sincronismo conocida como marca de tiempo de presentación (PTS). Cada paquete PES de audio contiene una PTS que se refiere al tiempo de presentación del paquete de audio cuando se reproduce en un receptor de usuario final. Un fragmento de audio j puede transportarse en varios paquetes PES de audio. De manera similar la señal de vídeo, cuando está presente, se transporta en paquetes PES dentro de un flujo elemental de vídeo que también incluye información de sincronismo de PTS. Es importante resaltar que PTS se refiere al tiempo en el que se produce la segmentación en paquetes.
Los subtítulos también se codifican como paquetes dentro de un flujo elemental de subtítulos donde se codifica cada unidad de subtítulo i. Se prevén diferentes procedimientos de codificación para los subtítulos en un flujo de transporte MPEG/DVB, por ejemplo subtitulación DVB-Sub y de teletexto. Como resultado del procedimiento de codificación, una unidad de subtítulo i puede dividirse en uno o más paquetes PES del flujo elemental de subtítulos, conteniendo cada uno, además de los datos de la unidad de subtítulo (texto, color, posición en pantalla,...), una PTS como en los casos de audio o vídeo.
El procedimiento de codificación usado para subtítulos DVB-Sub, definido en ETSI EN 300 743, establece que una unidad de subtítulo se codifica en un “conjunto de visualización” y que un conjunto de visualización está compuesto de un conjunto de “segmentos de subtítulo”. Todos los segmentos de subtítulo de un conjunto de visualización se segmentan y transportan en paquetes PES que comparten la misma PTS. Esto implica que una unidad de subtítulo se transporta en uno o más paquetes PES del flujo de subtítulos.
Las realizaciones de la invención que se describen usan una extensión de la norma DVB/MPEG en la generación del flujo MPEG en el lado de emisión, para incluir la información de retardo variable calculada para cada subtítulo, como se explicó anteriormente, en los flujos elementales de DVB correspondientes de un canal de televisión: DVB-Sub para subtitulación y DVB-TXT para teletexto. Esta ampliación también soporta la información de control necesaria.
En las diferentes realizaciones de la invención ilustradas en las figuras 7-9, se usa un generador G1 de MPEG/DVB que soporta las ampliaciones requeridas que acepta como entradas:
a) Una o más señales de vídeo 61, si se requiere vídeo (por ejemplo, en un escenario de aplicación de canal de televisión),
b) Una o más señales de audio 62 (por ejemplo, de un canal de televisión o canal de radio), y
c) una secuencia de datos de subtitulado que incluye, para cada subtítulo que va a visualizarse en la pantalla, la información de retardo individual 64 de ese subtítulo (obtenida o estimada según el objetivo de la invención) con respecto al audio/vídeo correspondiente, junto con información de subtítulo típica tal como su texto 63, su tiempo de presentación, parámetros 65 tales como duración o tiempo de finalización, posición en la pantalla, color, etc.
El generador G1 de MPEG/DVB propuesto, según diferentes implementaciones de sincronización de subtitulación mostradas en las figuras 7-9, comprende medios de generación G2 de MPEG/DVB extendidos para considerar los retardos individuales de cada subtítulo, que puede componer, a partir de las entradas mencionadas anteriormente, un canal de televisión completo en formato MPEG/DVB cuya característica distintiva es que incluye los valores del retardo asociados a cada subtítulo. Para resaltar que este formato incluye las ampliaciones necesarias, se denomina en lo sucesivo en el presente documento MPEG/DVB++.
Las normas MPEG, DVB-Sub y DVB-TXT proporcionan un marco que puede ampliarse fácilmente para soportar la transmisión de estas extensiones. A continuación se dan detalles del formato y procedimiento para crear el flujo MPEG/DVB++. El flujo de salida de MPEG/DVB++ se compone de uno o más canales de televisión, consistiendo cada uno en:
-
Flujos elementales para vídeo (normalmente un único flujo aunque pueden ser más flujos de vídeo).
-
Flujos elementales para audio (uno o más flujos de audio elementales).
-
Flujo(s) elemental(es) para DVB-Sub con información adicional según se detalla a continuación:
Según la norma ETSI EN 300 743 (Sistemas de subtitulación de difusión de vídeo digital), el elemento sintáctico básico de los flujos de subtitulación es el subtitling_segment. A efectos de la invención, se define un nuevo segmento de subtitulación de DVB que se incluye justo antes del segmento denominado end_of_display_set_segment en la norma DVB-Sub y que denominaremos subtitle_delay_segment, al que se le asigna uno de los valores segment_type que todavía no se haya asignado en la norma ETSI EN 300 743 v1.3.1 (los valores previstos se encuentran en el intervalo de 0x81 -0xEF reservado para datos privados; otros valores son posibles usando el intervalo reservado para un uso futuro en la norma mencionada). El subtitle_delay_segment es un segmento adicional que contiene el tiempo de retardo asociado con un display_set creado (según la norma). Un display_set es el conjunto de segmentos de subtítulo de un servicio de subtitulado específico al que está asociado el mismo valor de marca de tiempo de presentación (PTS, según se define en la norma ISO/IEC 13818-1). Cada display_set contiene un subtitle_delay_segment compuesto por dos campos según se muestra en la tabla 1:
TABLA 1
variable_subtitle_delay_time: es el retardo individual aplicable al display_set medido en unidades de 100 milisegundos.
recommended_event_shift_time: es el tiempo mínimo en segundos que debe retardarse el evento para hacer posible la compensación de los retardos de subtítulo individuales; se usa durante el proceso posterior sincronización de subtítulos; es configurable y normalmente permanece sin cambios durante un evento de televisión dado o incluso para un canal de televisión dado.
-
Flujo(s) elemental(es) para subtítulos de teletexto con información incrustada de retardo variable e insertada para cada subtítulo, que puede incluirse, de manera similar al caso DVB-Sub, en el flujo de salida de MPEG/DVB++.
-
Una tabla de mapa de programa (Program_Map_Table o PMT, según se define en la norma ISO/IEC 13818-1) para el canal de televisión que contiene un descriptor adicional, que denominaremos synchronizable_subtitling_descriptor, para la entrada correspondiente al flujo elemental DVB-Sub. Este descriptor se define a continuación según se muestra en la tabla 2:
TABLA 2
descriptor_tag adopta uno de los valores en el intervalo de 0x80 a 0xFE especificado como definido por el usuario en la norma ETSI EN 300 468; otros valores son posibles usando el mecanismo de descriptor de extensión definido en la norma.
descriptor_length es otro campo de la norma anterior que especifica el número de bytes incluidos en los campos de datos inmediatamente siguientes.
synchronizable_subtitle_stream_type: es el nuevo campo definido para indicar el tipo de flujo de subtítulo sincronizable; especifica información adicional acerca de cómo usar y acceder a los retardos de subtítulo variables individuales transportados en el flujo de subtítulo.
recommended_event_shift_time: es el nuevo campo definido para indicar es el tiempo mínimo en segundos que el evento debe retardarse con el fin de adaptarse a los retardos de subtítulo individuales; este tiempo se aplica durante el proceso de sincronización de subtítulos.
El synchronizable_subtitling_descriptor mostrado en la Tabla 2 puede seguir normalmente, dentro de la PMT, al subtitling_descriptor existente. Además, el resto de tablas de información específica de programa (PSI), tales como la tabla de asociación de programa (PAT), la tabla de fecha y hora (TDT), la tabla de desplazamiento de tiempo (TOT), etc., así como las tablas de información de servicio (SI) tales como la tabla de descriptor de servicio (SDT), y la tabla de información de evento (EIT), etc., pueden incluirse en el flujo de salida de MPEG/DVB++ en la forma habitual.
El flujo de salida del generador G1 de MPEG/DVB++ con la información de retardo variable incluida en los flujos de DVB-Sub y en los flujos elementales de Teletexto, está listo para usarse como entrada en un módulo de sincronización de subtítulos (701, 801, 901).
Existen diferentes alternativas de implementación y uso con diversas implicaciones: la figura 7 muestra el módulo de sincronización de subtítulos 701 implementado en el lado de recepción, mientras que las figuras8y9 muestran el módulo de sincronización de subtítulos (801, 901) implementado en el lado de transmisión. La elección de la alternativa más adecuada debe tener en cuenta los requisitos en cuanto a la asignación de ancho de banda, limitaciones regulatorias y restricciones de uso. En cualquier caso, el módulo de sincronización de subtítulos (701, 801, 901) proporciona un flujo de MPEG/DVB en el que se ha retardado el evento audiovisual una cantidad de tiempo igual al recommended_event_shift_time y en el que los flujos elementales de audio, vídeo y subtítulo están sincronizados (un flujo de este tipo lo denominaremos MPEG/DVBsync).
Puesto que los flujos elementales segmentados en paquetes (PES), especificados en la norma ISO/IEC 13818-1, correspondientes a flujos elementales de vídeo, audio y subtítulo, se someten a un proceso de puesta en cola/retardo combinado con una manipulación de PTS para alinear los paquetes de subtítulos a su tiempo objetivo en las señales de vídeo y audio (61, 62) originales, el proceso de sincronización realizado por el módulo de sincronización de subtítulos (701, 801, 901) propuesto puede describirse como un proceso de puesta en cola y recálculo que implementa lo siguiente:
donde
Δti es igual al variable_subtitle_delay_time, que es el retardo variable individual para el subtítulo i.
REST es un tiempo de desplazamiento igual o mayor al recommended_event_shift_time que, en este ejemplo de implementación, es el valor del retardo mínimo requerido para compensar el retardo de subtitulación más desfavorable considerado. El retardo aplicado para sincronizar individualmente el paquete de subtítulo i con el audio (y vídeo y/o cualquier otra información sincronizable con el audio como, por ejemplo, un vídeo con lenguaje de signos) es RESTΔti y, por tanto, PTSi = PTSi-Δti+REST. Si se reciben subtítulos con Δti mayor que REST, su retardo con respecto al audio y vídeo se compensa sólo parcialmente (REST segundos).
PTSi es la marca de tiempo de presentación de cada paquete PES en MPEG-2/DVB; la marca de tiempo de presentación PTSi de cada paquete i de vídeo, audio y subtítulo se lleva al presente aumentándolo en REST, con el fin de garantizar que cada PTSi representa los pulsos de reloj en tiempo real actuales.
Todos estos valores (las marcas de tiempo PTSi, los retardos variables Δti, y el valor para REST), requeridos por el módulo de sincronización de subtítulos (701, 801, 901), se reciben desde el generador G1 de MPEG-2/DVB extendido como valores de datos dentro del flujo de salida de MPEG-2/DVB++.
Para generar un servicio sincronizado, es necesaria una memoria intermedia que pueda contener REST segundos de paquetes (un REST de 20 segundos, por ejemplo, requiere un tamaño de memoria intermedia de aproximadamente 12,5 Mbytes para un canal del flujo de transporte con Audio, Video y subtítulos).
Todos los parámetros del formato de flujo salida de MPEG-2/DVB++ propuesto se incluyen de modo que se garantiza plena compatibilidad con las normas MPEG/DVB y los receptores TDT actuales, lo que es indispensable para las alternativas de uso descritas a continuación.
Una posible realización de la invención se refiere a sincronización de subtítulos seleccionare por el usuario en el lado de recepción, según se muestra en la figura 7. A partir de las señales de vídeo y audio (61, 62) originales, el sistema de subtítulos en directo mejorado 200 suministra el retardo de subtítulo individual 64 junto con el subtítulo 63 y el generador G1 de MPEG/DVB extendido genera un flujo de MPEG/DVB++ 70 que incluye dichos retardos variables y datos de señalización relacionados con los subtítulos para una difusión o transmisión de canal de televisión. Los flujos de MPEG/DVB++ 70 pasan a través de una red N1, (por ejemplo, red de difusión TDT o red de transmisión de IPTV) hacia un receptor 702 (por ejemplo, TDT o IPTV) que soporta la sincronización de subtítulos como una opción de usuario (el usuario puede seleccionar si prefiere ver la versión con subtítulos sincronizados con el vídeo) por medio de un módulo de sincronización de subtítulos 701 según se explicó anteriormente.
A partir de los flujos de MPEG/DVB++ 70 recibidos, el módulo de sincronización de subtítulos 701 obtiene los MPEG/DVBsync 72 mencionados anteriormente en los que los flujos elementales de audio y vídeo del canal de televisión se sincronizan con los subtítulos, proporcionando entonces una reproducción ligeramente retardada (casidirecto) del evento audiovisual.
A partir del flujo de MPEG/DVB++ 70 transmitido, uno de los dos flujos de salida posibles (71, 72) en el receptor de TDT/IPTV es enviado al módulo de reproducción de televisión 704, según la selección del usuario 703:
i) el flujo de salida de MPEG/DVB++ 71 es una opción en directo real, plenamente compatible con los receptores convencionales, que consiste en audio/vídeo y subtítulos que no están sincronizados mediante el módulo de sincronización 701;
ii) el flujo MPEG/DVBsync 72 es una versión casi-directo generada opcionalmente en el lado de recepción si se selecciona el módulo de sincronización 701.
En el lado de recepción tienen lugar las siguientes acciones:
a) El receptor 702 (módulo decodificador de IPTV, decodificador TDT,...) reconoce en el flujo de MPEG/DVB++ 70 entrante la existencia de la información adicional que permite al usuario ver un canal de televisión con subtítulos activados y sincronizados con los flujos de audio y vídeo;
b) El receptor 702 muestra al usuario la disponibilidad de este servicio de sincronización de subtítulos;
c) Tras la activación por parte del usuario, el receptor 702 empieza a funcionar para proporcionar una reproducción sincronizada y retardada para el canal de televisión o programa de televisión seleccionado. Dependiendo del receptor, existen diferentes alternativas para la implementación de los menús de control y usuario en el receptor.
Por tanto, con el fin de proporcionar al usuario las dos opciones i) e ii) en la recepción, los nuevos módulos decodificadores de TDT o IPTV tendrían que implementar el algoritmo de sincronización descrito, manejar el nuevo conjunto de descriptores y actuar en consecuencia. El comportamiento de los antiguos módulos decodificadores no se ve afectado porque ignoran los nuevos campos, descriptores, o tipos de flujo.
El comportamiento del receptor 702 para implementar sincronización de subtítulos se representa mediante los estados mostrados en la figura 10, en donde se representa la transición del estado normal 1000 al estado sincronizado y retardado 1002, pasando por un estado intermedio 1001 de transición entre ambos. Es decir, cuando el usuario selecciona ver un programa de televisión en un modo sincronizado y retardado está solicitando al receptor 702 exactamente lo siguiente: “detén la reproducción del vídeo y el audio en mi aparato de televisión hasta que puedas mostrarlos sincronizados con sus subtítulos”.
Después de que el usuario habilita la sincronización de subtítulos y si la entrada de receptor consiste en un MPEG/DVB++ con REST * 0 (transición 1010 entre los estados 1000 y 1001), el receptor 702 entra en el estado de transición 1001 en el que el módulo decodificador de televisión deja de reproducir el programa de televisión (es decir, la imagen está congelada en la pantalla y el audio está detenido) aunque sigue recibiendo y almacenando en la memoria intermedia paquetes de MPEG a partir del flujo de transporte durante el tiempo de espera necesario, siendo el tiempo de espera ≥ REST, para garantizar que las memorias intermedias de recepción contienen todos los paquetes para audio, vídeo y subtítulos (llegando éstos varios segundos más tarde) necesarios para una presentación sincronizada de subtítulos. Después de que el tiempo de espera ha transcurrido, el sistema entra en el estado sincronizado y retardado 1002.
Durante la transición 1011 del estado 1001 al 1002, todos los paquetes de subtítulos, para los que el recálculo de la marca de tiempo de presentación (PTS) da como resultado una PTS en el pasado, se muestran en una pantalla con la imagen congelada (y sin sonido) ya que estos paquetes contenían subtítulos pertenecientes a muestras de audio que ya han sido reproducidas cuando el usuario conmuta del estado normal 1000 al estado sincronizado y retardado 1002. Además, volver al modo normal (en directo real con subtítulos no sincronizados) da como resultado una pérdida de varios segundos (el tiempo de espera dado) del programa que está difundiéndose. Esto se representa en la figura 10 mediante el estado de transición 1003 de sincronizado y retardado a normal entre las transiciones 1012 y 1013.
Ambos estados de transición 1001 y 1003 pueden implementarse en una única etapa (por ejemplo, esperando todo el tiempo de espera de una vez) o en etapas incrementales (por ejemplo, esperando varios segundos cada vez) hasta que el retardo requerido (de manera ideal REST) se almacene en la memoria intermedia. Tales implementaciones proporcionan una transición continua (por ejemplo, múltiples aunque más cortos periodos de congelación de imagen) aunque tardan más en alcanzar un estado final completamente sincronizado 1002 o en volver al estado normal 1000.
El tiempo de espera puede configurarse con un valor similar a REST que se recibe como un parámetro para hacer frente al tiempo transcurrido más desfavorable en la preparación de subtítulos. Valores típicos conservadores son de aproximadamente 15 segundos para retardos de generación de subtítulos de rehablado de ASR y de aproximadamente 5 segundos para estenotipia. Cuando ha transcurrido el tiempo de espera, las memorias intermedias para los flujos de vídeo, audio y subtítulo implicados contienen suficientes paquetes para iniciar una reproducción sincronizada que tiene en cuenta los retardos de subtítulos individuales.
Siempre que esté disponible y se seleccione el modo de reproducción sincronizado y retardado 1002, todo el programa de televisión se reproduce con un pequeño retardo, y el receptor 702 recalcula la PTS de cada subtítulo para presentarlo en la pantalla en el mismo momento que el fragmento de audio original. El modo de reproducción sincronizado y retardado 92 finaliza o bien automáticamente, cuando la entrada al reproductor de televisión ya no contiene datos de sincronización (por ejemplo REST=0, o cuando la entrada ya no es MPEG-2/DVB++), o bien manualmente cuando se desactivan los subtítulos o tras una selección por parte del usuario que deshabilita explícitamente esta opción. Son posibles diferentes implementaciones según preferencias definidas por el usuario. El reproductor de televisión, o bien finaliza la presentación de todos los subtítulos almacenados en la memoria intermedia sincronizados con audio/vídeo antes de que el receptor 702 cambie al estado normal 1000, o bien pasa al estado normal inmediatamente cuando es el usuario quien solicita volver al modo de reproducción normal. Ambas son opciones de implementación/configuración en el receptor.
Esta implementación de la opción de sincronización de subtítulos en el receptor es adecuada, por ejemplo, para la difusión de televisión terrestre o por satélite, ya que no requiere ancho de banda adicional, aunque limita la oferta de reproducción con subtítulos sincronizados a usuarios que tienen los nuevos módulos decodificadores con el receptor 702 mejorado según se muestra en la figura 7. Los receptores que no implementan la opción son completamente compatibles con esta realización de la invención aunque sólo pueden presentar el evento como en la actualidad, es decir, en directo de manera no sincronizada.
Otra posible realización de la invención se refiere a la sincronización de subtítulos con el audio y vídeo correspondiente en el lado de emisión, antes de que tenga lugar la transmisión/difusión de televisión, según se muestra en la figura 8. Se genera un canal de televisión en casi-directo CH1 con subtítulos sincronizados 81, de modo que los eventos audiovisuales pueden transmitirse o difundirse varios segundos más tarde al receptor 802. La difusión/transmisión del canal de televisión en casi-directo CH1 con subtítulos sincronizados no requiere ancho de banda adicional y puede ser adecuado para difundir eventos para los que una difusión en directo real no implica una ganancia en instantaneidad (por ejemplo lectura de un informe redactado hace 2 horas). Sin embargo, esto puede ser ilegal para la difusión de TDT de algunos eventos (al menos en algunos países). Un canal adicional CH2 para ofrecer también las versiones no sincronizadas originales en directo real 82 es también una posibilidad según se muestra en la figura 8. Las dos alternativas básicas mostradas en la figura 8 tienen en común el formato MPEG/DVB++ 80 proporcionado por el Generador MPEG/DVB extendido G1, a partir del cual el módulo de sincronización de subtítulos 801 implementado antes de la red de transmisión/difusión N1 genera la versión sincronizada de subtítulos, a la que se hace referencia como MPEG/DVBsync 81. La ventaja principal de la sincronización de subtítulos antes de la difusión es su plena compatibilidad con receptores de TDT existentes o módulos decodificadores de IPTV. El uso simultáneo de dos canales, CH1 para la difusión/transmisión en casi-directo y CH2 para la reproducción del mismo evento en directo real, es adecuado cuando está disponible el ancho de banda adicional requerido para el canal de televisión adicional (una alternativa real para IPTV o televisión por Cable/Fibra). En este caso, puesto que el canal CH1 sólo es lógico seleccionarlo cuando se desean subtítulos sincronizados, el uso de subtítulos en abierto es también una alternativa de implementación práctica.
Una posible realización adicional de la invención se refiere al uso de la sincronización de subtítulos en la redifusión de eventos o programas que fueron subitulados en directo. Esto es posible en cualquiera de las dos opciones que para el lado de emisión se han descrito en anteriormente, y que se muestran con líneas discontinuas en la figura 9. Por tanto, a partir de la generación del formato MPEG/DVB++ 90 mediante el Generador MPEG/DVB extendido G1, el almacenamiento de un evento audiovisual de televisión puede realizarse en paralelo a estas dos opciones: o bien almacenar subtítulos sincronizados (en un soporte de almacenamiento multimedia BD1 usando la salida del módulo de sincronización de subtítulos 901) proporcionados desde el MPEG/DVBsync 91 para el canal de televisión casi en directo CH1 o versiones no sincronizadas 92 de eventos audiovisuales subtitulados en directo (en otro soporte de almacenamiento multimedia BD2) del canal de televisión en directo real CH2. La difusión o distribución mediante cualquier medio (DVD, descarga de archivos, televisión por web, etc.) de un evento audiovisual de televisión almacenado previamente, con sus subtítulos sincronizados, puede llevarse a cabo, o bien directamente si se almacena el MPEG/DVBsync 91, o bien requerir una etapa de sincronización previa realizada por el módulo de sincronización de subtítulos 901 implementado en el lado de emisión antes de la transmisión/difusión.
Una de las ventajas de esta realización es que, incluso si se toma la decisión de difundir un evento subtitulado en directo sin aplicar ningún proceso de sincronización a sus subtítulos, la sincronización puede ser aplicada posteriormente de manera sencilla y sin costes adicionales, según se muestra en la figura 11, para su redifusión (o distribución de DVD, transmisión de televisión por web,...) con audio/vídeo y subtítulos sincronizados.
Para la redifusión o distribución diferida de eventos audiovisuales subtitulados en directo puede utilizarse una versión sincronizada 91 MPEG/DVBsync almacenada en un soporte de almacenamiento multimedia BD1, o una versión no sincronizada 92 MPEG/DVB++ que contiene la información necesaria para ser sincronizada antes de la redifusión mediante la aplicación del módulo de sincronización 901.
Un sistema de subtitulación en directo que implementa el procedimiento de sincronización descrito anteriormente puede proporcionar toda la información relacionada con subtítulos (duración, color, posición,...) junto con sus retardos individuales, a un módulo de generación de MPEG/DVB. Según se muestra en la figura 9, almacenar esta información en este punto en un soporte de almacenamiento multimedia BD3 también podría usarse para facilitar la edición de subtítulos antes de su posible redifusión) sin perder las capacidades de sincronización.
Todas las opciones anteriores, descritas para canales de televisión, pueden aplicarse directamente a implementaciones de canales de radio digital subtitulados. El subtítulo puede ofrecerse en aparatos de televisión u otros dispositivos.
Las opciones de implementación de sincronización de subtítulos mostradas en el presente documento resaltan el valor de usar el proceso y formato propuestos (es decir, MPEG/DVB con retardos de subtítulo individuales) para proporcionar una fuente común que soporta alternativas de difusión en directo real, casi-directo y redifusión.
Las funcionalidades proporcionadas por las realizaciones descritas de la invención pueden aplicarse por diferentes entidades u organismos para proporcionar nuevas prestaciones de la siguiente manera:
-
Por operadores de televisión para difundir eventos o canales audiovisuales en los que la subtitulación en directo puede sincronizarse opcionalmente en el receptor.
-
Por operadores de televisión para difundir eventos o canales audiovisuales en los que la subtitulación en directo se sincroniza para ofrecer una reproducción en casi-directo del evento.
-
Por operadores de televisión para almacenar programas de televisión subtitulados en directo que van a usarse en futuras transmisiones sincronizadas de IPTV grabadas previamente, redifusiones de TDT u otros medios de distribución.
-
Por emisoras de radio digital para ofrecer subtítulos sincronizados.
-
Fabricantes de receptores de TDT externos o integrados y receptores de IPTV para incluir la sincronización de subtítulos como una opción seleccionare por parte del usuario en futuros receptores.
-
Empresas, instituciones y desarrolladores de capacidades de receptores de TDT para incluir la sincronización de subtítulos en cualquiera de sus productos.
-
En general, organismos, instituciones y empresas que desean ofrecer un servicio que soporte la subtitulación en directo de eventos que pueden reproducirse con audio, vídeo y subtítulos sincronizados.
Obsérvese que, en este texto, el término “comprende” y sus derivaciones (tales como “comprendiendo”, etc.) no deben entenderse en un sentido exclusivo, es decir, estos términos no deben interpretarse como que excluyen la posibilidad de que lo que se describe y define pueda incluir elementos, etapas, etc., adicionales.

Claims (24)

  1. REIVINDICACIONES
    1. Procedimiento para sincronizar subtítulos con audio en sistemas de subtitulación en directo, que comprende:
    -
    generar al menos un subtítulo i a partir de al menos un bloque de transcripción Tj que corresponde a un fragmento de audio j;
    caracterizado porque comprende además:
    -
    determinar un retardo de subtítulo individual Δti de cada subtítulo i;
    -
    crear una unidad de subtítulo Si que comprende el subtítulo i y el retardo de subtítulo individual Δti;
    -
    poner cada unidad de subtítulo Si junto con un retardo de desplazamiento asociado configurable REST en al menos un paquete de subtítulo PES, el cual tiene una marca de tiempo de presentación PTSi, formando dichos paquetes de subtítulo PES parte de un flujo de transporte extendido que incluye al menos un paquete de audio que contiene el fragmento de audio j y una marca de tiempo de presentación PTSj.
    -
    sincronizar paquetes de subtítulo PES con paquetes de audio creando un flujo de transporte sincronizado que comprende todos los paquetes del flujo de transporte extendido retardados un tiempo que depende del retardo de desplazamiento asociado configurable REST.
  2. 2.
    Procedimiento según la reivindicación 1, en el que la sincronización de paquetes de subtítulo PES con paquetes de audio comprende retardar cada paquete de subtítulo PES asociándole una marca de tiempo de presentación en el flujo de transporte sincronizado que es igual a PTSi-Δti+REST, y retardar cada paquete de audio asociándole una marca de tiempo de presentación en el flujo de transporte sincronizado que es igual a PTSj+REST, siendo PTSi y PTSj las marcas de tiempo de presentación en el flujo de transporte extendido y REST el retardo de desplazamiento asociado del flujo de transporte extendido.
  3. 3.
    Procedimiento según la reivindicación 2, en el que, si el flujo de transporte extendido incluye al menos un paquete de vídeo o al menos un paquete de datos de cualquier clase de datos sincronizables con paquetes de audio, la sincronización de paquetes de subtítulo comprende además retardar todos los paquetes de vídeo y de datos un tiempo que depende del retardo de desplazamiento asociado configurable REST.
  4. 4.
    Procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que la sincronización de paquetes de subtítulo con paquetes de audio se realiza antes de transmitir el flujo de transporte sincronizado a un dispositivo de recepción digital.
  5. 5.
    Procedimiento según la reivindicación 4, que comprende recibir el flujo de transporte sincronizado en el dispositivo de recepción digital, que es un receptor convencional seleccionado de un receptor de radiodifusión digital, un módulo decodificador de televisión digital terrestre, un receptor de televisión por IP, un receptor de difusión multimedia digital y un receptor de medios digital con medios de control para televisión en directo.
  6. 6.
    Procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que la sincronización de paquetes de subtítulo con paquetes de audio se realiza después de recibir el flujo de transporte extendido en un dispositivo de recepción digital.
  7. 7.
    Procedimiento según la reivindicación 6, que comprende además permitir a un usuario elegir si la sincronización de paquetes de subtítulo con paquetes de audio es realizada por el dispositivo de recepción digital o no.
  8. 8.
    Procedimiento según cualquiera de las reivindicaciones 6 a 7, que comprende recibir el flujo de transporte extendido en el dispositivo de recepción digital, que se selecciona de un receptor de radiodifusión digital, un módulo decodificador de televisión digital terrestre, un receptor de televisión por IP, un receptor de difusión multimedia digital y un receptor de medios digital con medios de control para televisión en directo.
  9. 9.
    Procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que la sincronización de paquetes de subtítulo con paquetes de audio se realiza antes de almacenar el flujo de transporte sincronizado en un soporte de almacenamiento multimedia.
  10. 10.
    Procedimiento según cualquiera de las reivindicaciones1a3,enelque la sincronización de paquetes de subtítulo con paquetes de audio se realiza después de almacenar el flujo de transporte extendido en un soporte de almacenamiento multimedia y antes de transmitir el flujo de transporte sincronizado a una red de distribución multimedia, que se selecciona de una red de IP, una red de difusión de televisión digital terrestre y una red de radiodifusión digital.
  11. 11. Procedimiento según cualquier reivindicación anterior, en el que la determinación de un retardo de subtítulo individual Δti de cada subtítulo i comprende:
    -
    determinar una marca de tiempo de comienzo tjB que es el momento en el que comienza el primer fragmento de audio correspondiente al primer bloque de transcripción Tj de un grupo de bloques de transcripción, el grupo formado por al menos un bloque de transcripción y creado por un subsistema de transcripción de audio 201, y a partir del cual se genera al menos una unidad de subtítulo Si mediante un subsistema de generación de subtítulos 202, con respecto a un reloj de referencia 100, usándose el reloj de referencia 100 tanto por el subsistema de generación de subtítulos 202 como por el subsistema de transcripción de audio 201;
    -
    determinar un tiempo de entrega tsubi que es cuando se entrega el primer subtítulo generado a partir de dicho grupo de bloques de transcripción por el subsistema de generación de subtítulos 202;
    -
    restar la marca de tiempo de comienzo tjB de dicho primer fragmento de audio del tiempo de entrega tsubi para calcular el retardo de subtítulo individual Δti = tsubi -tjB;
    -
    asignar dicho retardo de subtítulo individual Δti a cada unidad de subtítulo Si creada a partir de dicho grupo de bloques de transcripción.
  12. 12.
    Procedimiento según la reivindicación 11, que comprende además determinar una marca de tiempo de finalización tjE que es el momento en el que finaliza el primer fragmento de audio correspondiente al primer bloque de transcripción Tj del grupo de bloques de transcripción, con respecto al reloj de referencia 100.
  13. 13.
    Procedimiento según la reivindicación 12, en el que el subsistema de transcripción de audio 201 usa una transcripción mental por parte de una persona y la marca de tiempo de comienzo tjB y la marca de tiempo de finalización tjE se estiman respectivamente como tjB =thjB + Δtmpj ytjE =thjE + Δtmpj calculando un retardo de procesamiento mental Δtmpj que depende del tipo de transcripción mental, que se selecciona de transcripción mental continua y transcripción mental discreta, thjB es un instante de tiempo marcado cuando la persona comienza la transcripción mental y thjE es un instante de tiempo marcado cuando la persona finaliza la transcripción mental, ambos tiempos dados automáticamente por el subsistema de transcripción de audio 201 con respecto al reloj de referencia 100.
  14. 14.
    Procedimiento según la reivindicación 13, en el que el retardo de procesamiento mental Δtmpj es una constante fijada por el subsistema de transcripción de audio 201 cuando usa transcripción mental continua.
  15. 15.
    Procedimiento según la reivindicación 13, en el que el retardo de procesamiento mental Δtmpj se calcula por el subsistema de transcripción de audio 201 cuando usa transcripción mental discreta como Δtmpj = TextLengthj · (K/μ)
    + C, siendo TextLengthj una longitud en unidades de longitud del fragmento de audio j, K es la duración de tiempo de una unidad de longitud; C es una constante de tiempo configurable en el subsistema de transcripción de audio 201, y μ es una variable de grado de literalidad, 0≤μ≤1, configurable y que representa la proximidad de la transcripción mental a la literalidad.
  16. 16. Dispositivo sincronizador de subtítulos, caracterizado porque comprende medios de procesamiento configurados para:
    -
    crear un flujo de transporte extendido a partir de un flujo de transporte inicial que comprende todos los paquetes del flujo de transporte inicial, los cuales tienen una marca de tiempo de presentación asociada, comprendiendo el flujo de transporte extendido:
    al menos un paquete de audio que contiene un fragmento de audio j,
    al menos una unidad de subtítulo Si que comprende un subtítulo i generado a partir de al menos un bloque de transcripción Tj que corresponde al fragmento de audiojyun determinado retardo de subtítulo individual Δti asociado a cada subtítulo i,
    y un retardo de desplazamiento asociado REST que es configurable e indica un retardo fijo para sincronizar paquetes de subtítulo con paquetes de audio,
    -
    ajustar la marca de tiempo de presentación asociado de cada paquete de subtítulo del flujo de transporte extendido asociándole una marca de tiempo de presentación en el flujo de transporte sincronizado que es igual a PTSiΔti+REST, y retardar cada paquete de audio asociándole una marca de tiempo de presentación en el flujo de transporte sincronizado que es igual a PTSj+REST, siendo PTSi yPTSj unas marcas de tiempo de presentación asociadas en el flujo de transporte extendido al paquete de subtítulo y el paquete de audio respectivamente y REST el retardo de desplazamiento asociado en el flujo de transporte extendido.
  17. 17. Dispositivo sincronizador de subtítulos según la reivindicación 16, en el que, si el flujo de transporte inicial incluye al menos un paquete de vídeo o al menos un paquete de datos de cualquier clase de datos sincronizables con paquetes de audio, los medios de procesamiento están configurados para retardar todos los paquetes de vídeo y de datos el tiempo de desplazamiento global.
  18. 18.
    Dispositivo sincronizador de subtítulos según cualquiera de las reivindicaciones 16 a 17, en el que los medios de procesamiento están configurados para crear el flujo de transporte sincronizado antes de transmitir dicho flujo a un dispositivo de recepción digital.
  19. 19.
    Dispositivo sincronizador de subtítulos según cualquiera de las reivindicaciones 16 a 17, en el que los medios de procesamiento están configurados para permitir a un usuario elegir si la creación del flujo de transporte sincronizado se realiza después de recibir el flujo de transporte extendido en un dispositivo de recepción digital.
  20. 20.
    Dispositivo sincronizador de subtítulos según la reivindicación 19, que está integrado en el dispositivo de recepción digital seleccionado de un receptor de radiodifusión digital, un módulo decodificador de televisión digital terrestre, un receptor de televisión por IP, un receptor de difusión multimedia digital y un receptor de medios digital con medios de control para televisión en directo.
  21. 21.
    Dispositivo sincronizador de subtítulos según cualquiera de las reivindicaciones 16 a 17, en el que los medios de procesamiento están configurados para crear el flujo de transporte sincronizado antes de almacenar dicho flujo en un soporte de almacenamiento multimedia.
  22. 22.
    Dispositivo sincronizador de subtítulos según cualquiera de las reivindicaciones 16 a 17, en el que los medios de procesamiento están configurados para crear el flujo de transporte sincronizado a partir de un flujo de transporte extendido almacenado previamente en un soporte de almacenamiento multimedia y antes de transmitir el flujo de transporte sincronizado a una red de distribución multimedia, que se selecciona de una red de IP, una red de difusión de televisión digital terrestre y una red de radiodifusión digital.
  23. 23.
    Un producto de programa informático que comprende medios de código de programa que, cuando se cargan en un procesador de propósito general, un procesador de señal digital, circuitos integrados de aplicación específica o cualquier dispositivo lógico programable, hace que dichos medios de código de programa ejecuten el procedimiento según cualquiera de las reivindicaciones1a15.
    OFICINA ESPAÑOLA DE PATENTES Y MARCAS
    N.º solicitud: 201030758
    ESPAÑA
    Fecha de presentación de la solicitud: 20.05.2010
    Fecha de prioridad:
    INFORME SOBRE EL ESTADO DE LA TECNICA
    51 Int. Cl. : H04N7/24 (2011.01)
    DOCUMENTOS RELEVANTES
    Categoría
    Documentos citados Reivindicaciones afectadas
    A
    US 2004168203 A1 (SEO KANG SOO et al.) 26.08.2004, figuras1 – 3; 1-23
    Párrafos [6 -16, 25 -33];
    A
    EP 1909278 A1 (SONY COMP ENTERTAINMENT INC) 09.04.2008, 1-23
    párrafos [9,17-28,40-55,72-82]; figuras 1,3,4,6.
    A
    US 2005185929 A1 (KANG MAN-SEOK et al.) 25.08.2005, 1-23
    figura 1; párrafos [28-35].
    Categoría de los documentos citados X: de particular relevancia Y: de particular relevancia combinado con otro/s de la misma categoría A: refleja el estado de la técnica O: referido a divulgación no escrita P: publicado entre la fecha de prioridad y la de presentación de la solicitud E: documento anterior, pero publicado después de la fecha de presentación de la solicitud
    El presente informe ha sido realizado • para todas las reivindicaciones • para las reivindicaciones nº:
    Fecha de realización del informe 05.10.2011
    Examinador B. Pérez García Página 1/4
    INFORME DEL ESTADO DE LA TÉCNICA
    Nº de solicitud: 201030758
    Documentación mínima buscada (sistema de clasificación seguido de los símbolos de clasificación) H04N Bases de datos electrónicas consultadas durante la búsqueda (nombre de la base de datos y, si es posible, términos de
    búsqueda utilizados) INVENES, EPODOC, WPI, INSPEC
    Informe del Estado de la Técnica Página 2/4
    OPINIÓN ESCRITA
    Nº de solicitud: 201030758
    Fecha de Realización de la Opinión Escrita: 05.10.2011
    Declaración
    Novedad (Art. 6.1 LP 11/1986)
    Reivindicaciones Reivindicaciones 1-23 SI NO
    Actividad inventiva (Art. 8.1 LP11/1986)
    Reivindicaciones Reivindicaciones 1-23 SI NO
    Se considera que la solicitud cumple con el requisito de aplicación industrial. Este requisito fue evaluado durante la fase de examen formal y técnico de la solicitud (Artículo 31.2 Ley 11/1986).
    Base de la Opinión.-
    La presente opinión se ha realizado sobre la base de la solicitud de patente tal y como se publica.
    Informe del Estado de la Técnica Página 3/4
    OPINIÓN ESCRITA
    Nº de solicitud: 201030758
    1. Documentos considerados.-
    A continuación se relacionan los documentos pertenecientes al estado de la técnica tomados en consideración para la realización de esta opinión.
    Documento
    Número Publicación o Identificación Fecha Publicación
    D01
    US 2004168203 A1 (SEO KANG SOO et al.) 26.08.2004
    D02
    EP 1909278 A1 (SONY COMP ENTERTAINMENT INC) 09.04.2008
    D03
    US 2005185929 A1 (KANG MAN-SEOK et al.) 25.08.2005
  24. 2. Declaración motivada según los artículos 29.6 y 29.7 del Reglamento de ejecución de la Ley 11/1986, de 20 de marzo, de Patentes sobre la novedad y la actividad inventiva; citas y explicaciones en apoyo de esta declaración
    A continuación se comentan en detalle los documentos encontrados en el estado de la técnica, los cuales no afectan a la novedad y /o actividad inventiva de la invención objeto de la solicitud.
    D01 describe un método y un aparato para sincronizar vídeo y audio pregrabados junto con datos adicionales, como subtítulos. La sincronización se realiza entre los paquetes de audio/vídeo (PS) incluidos en una cadena de transporte (TS) que contienen una referencia de reloj del programa (PCR -program clock reference) y datos de texto (subtítulos) sin dicha referencia de tiempo PCR.
    El audio y vídeo de la cadena de transporte (TS) es decodificado por los decodificadores de audio y de vídeo respectivamente. Cuando se decodifica, cada paquete de datos se determina por comparar el tiempo de referencia de presentación (AV PRT) proporcionado por el controlador ST (system timing clock) con la información PTS (presentation time stamp) incluida en cada cadena elemental.
    El compensador de tiempo de referencia (25) obtiene el tiempo de referencia de presentación del texto (TX PRT), a partir del AV PRT y un offset proporcionado por el controlador 30. Este tiempo de offset es la diferencia entre el PTS inicial del audio/vídeo y el PTS inicial de los subtítulos.
    El problema técnico que resuelve este documento es sincronizar audio y vídeo pregrabados con sus subtítulos correspondientes. Sin embargo, no se realiza en tiempo real o en directo, es decir, no se recibe un fichero de audio, se realiza la transcripción correspondiente y se presentan el audio y sus subtítulos correspondientes de forma sincronizada. Se trata por tanto de un problema técnico diferente, ya que D01 no se realiza para sistemas en directo, sino con audio pregrabado y además necesita un fichero de texto del que sacar los subtítulos.
    Por tanto, este documento no afecta a la novedad y actividad inventiva de la solicitud, según los Arts. 6 y 8 de la Ley 11/1986.
    Por su parte, D02 detalla el funcionamiento de un decodificador para sincronizar el video, audio e información secundaria (subtítulos) cuando se accede aleatoriamente a una imagen. Para ello, obtiene el valor de la marca de presentación PTS de los datos de vídeo y calcula el valor de la marca de presentación PTS de la imagen cabecera o de referencia. Dicha PTS se emplea para sincronizar el decodificador de audio y de subtítulos. Este documento tampoco afecta a los requisitos de patentabilidad de la solicitud.
    D03 de forma similar a D01, es un sistema para sincronizar el audio/vídeo de un dispositivo de almacenamiento con subtítulos, indicando el momento de inicio y fin de cada subtítulo. Tampoco influye en la novedad y actividad inventiva de la solicitud.
    A la luz de los documentos encontrados en el estado de la técnica, se considera que la solicitud cumple los requisitos de novedad y actividad inventiva, según los Arts. 6 y 8 de la Ley Española de Patentes.
    Informe del Estado de la Técnica Página 4/4
ES201030758A 2010-05-20 2010-05-20 Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo. Active ES2370218B1 (es)

Priority Applications (3)

Application Number Priority Date Filing Date Title
ES201030758A ES2370218B1 (es) 2010-05-20 2010-05-20 Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo.
PCT/ES2011/000166 WO2011144775A1 (es) 2010-05-20 2011-05-20 Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo
EP11783108.1A EP2574054B1 (en) 2010-05-20 2011-05-20 Method for synchronising subtitles with audio for live subtitling

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES201030758A ES2370218B1 (es) 2010-05-20 2010-05-20 Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo.

Publications (2)

Publication Number Publication Date
ES2370218A1 ES2370218A1 (es) 2011-12-13
ES2370218B1 true ES2370218B1 (es) 2012-10-18

Family

ID=44991221

Family Applications (1)

Application Number Title Priority Date Filing Date
ES201030758A Active ES2370218B1 (es) 2010-05-20 2010-05-20 Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo.

Country Status (3)

Country Link
EP (1) EP2574054B1 (es)
ES (1) ES2370218B1 (es)
WO (1) WO2011144775A1 (es)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015032928A1 (en) * 2013-09-09 2015-03-12 Thomson Licensing Method for determining a time stamp relating to synchronization and associated device
EP3069522A1 (en) 2013-11-15 2016-09-21 Koninklijke KPN N.V. Synchronization of processing media streams by one or more media processing devices
FR3036904B1 (fr) 2015-06-01 2017-06-09 Enensys Tech Procede de traitement d'un flux global d'origine comprenant au moins un tunnel couche physique encapsulant un flux de transport, dispositif et programme d'ordinateur correspondants
CN105959772B (zh) * 2015-12-22 2019-04-23 合一网络技术(北京)有限公司 流媒体与字幕即时同步显示、匹配处理方法、装置及系统
US9609397B1 (en) 2015-12-28 2017-03-28 International Business Machines Corporation Automatic synchronization of subtitles based on audio fingerprinting
CN106792071A (zh) * 2016-12-19 2017-05-31 北京小米移动软件有限公司 字幕处理方法及装置
CN110992920B (zh) * 2019-11-29 2022-04-29 北京达佳互联信息技术有限公司 直播合唱方法、装置、电子设备及存储介质
CN112995736A (zh) * 2021-04-22 2021-06-18 南京亿铭科技有限公司 语音字幕合成方法、装置、计算机设备及存储介质
CN114900741B (zh) * 2022-05-07 2024-04-16 北京字跳网络技术有限公司 翻译字幕的显示方法、装置、设备、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100939711B1 (ko) * 2002-12-12 2010-02-01 엘지전자 주식회사 텍스트 기반의 서브타이틀 재생장치 및 방법
KR100716973B1 (ko) * 2004-02-21 2007-05-10 삼성전자주식회사 Av 데이터에 동기된 텍스트 서브 타이틀 데이터를기록한 정보저장매체, 재생방법 및 장치
JP4448477B2 (ja) * 2004-12-28 2010-04-07 株式会社テレビ朝日データビジョン 字幕付き映像信号の遅延制御装置及び遅延制御プログラム
JP4311570B2 (ja) * 2005-07-01 2009-08-12 株式会社ソニー・コンピュータエンタテインメント 再生装置、ビデオ復号装置および同期再生方法
JP5274179B2 (ja) * 2008-09-25 2013-08-28 日本テレビ放送網株式会社 字幕放送システム及び字幕放送方法

Also Published As

Publication number Publication date
EP2574054B1 (en) 2016-07-27
EP2574054A1 (en) 2013-03-27
ES2370218A1 (es) 2011-12-13
EP2574054A4 (en) 2014-01-01
WO2011144775A1 (es) 2011-11-24

Similar Documents

Publication Publication Date Title
ES2370218B1 (es) Procedimiento y dispositivo para sincronizar subtítulos con audio en subtitulación en directo.
US20130204605A1 (en) System for translating spoken language into sign language for the deaf
US20060044469A1 (en) Apparatus and method for coordinating synchronization of video and captions
US20040168203A1 (en) Method and apparatus for presenting video data in synchronization with text-based data
CN101809965B (zh) 将接收的流与发送至另外装置的流同步的通信技术
CN100401784C (zh) 数字多媒体数据接收机的数据同步方法和设备
US7480315B2 (en) Method and apparatus for synchronizing clocks
CN106464961B (zh) 接收装置、发送装置以及数据处理方法
JPWO2005043783A1 (ja) 携帯端末向け伝送方法及び装置
US20170180767A1 (en) Method and apparatus for transceiving broadcast signal
US20070286245A1 (en) Digital signal processing apparatus and data stream processing method
US8750389B2 (en) Video data decoder and method for decoding video data
JP2007324872A (ja) 字幕付き映像信号の遅延制御装置及び遅延制御プログラム
Matsumura et al. Personalization of broadcast programs using synchronized internet content
JP2018182677A (ja) 情報処理装置、情報処理方法、プログラム、および記録媒体製造方法
US20080198921A1 (en) Method and apparatus for reproducing digital broadcasting
JP6957186B2 (ja) 情報処理装置、情報処理方法、プログラム、および記録媒体製造方法
EP3280147A1 (en) Method and apparatus for transmitting and receiving broadcast signal
JP5874870B1 (ja) 受信装置、および送信装置、並びにデータ処理方法
KR102435049B1 (ko) 셋탑박스 및 그 동작 방법
JP2010081141A (ja) 字幕放送システム及び字幕放送方法
JP2008245061A (ja) Ipストリーム伝送におけるpcr再生方式
US20100166382A1 (en) Video and audio reproduction system, distribution device, and synchronization adjustment method
US10306298B2 (en) Image processing apparatus and control method thereof
JP2010141498A (ja) 映像受信装置及び映像送信装置

Legal Events

Date Code Title Description
FG2A Definitive protection

Ref document number: 2370218

Country of ref document: ES

Kind code of ref document: B1

Effective date: 20121018