ES2277260T3 - Sistema y metodo para generar un resumen multimedia de flujos multimedia. - Google Patents

Sistema y metodo para generar un resumen multimedia de flujos multimedia. Download PDF

Info

Publication number
ES2277260T3
ES2277260T3 ES04737196T ES04737196T ES2277260T3 ES 2277260 T3 ES2277260 T3 ES 2277260T3 ES 04737196 T ES04737196 T ES 04737196T ES 04737196 T ES04737196 T ES 04737196T ES 2277260 T3 ES2277260 T3 ES 2277260T3
Authority
ES
Spain
Prior art keywords
video
audio
text
importance
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04737196T
Other languages
English (en)
Inventor
Lalitha Agnihotri
Nevenka Dimitrova
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2277260T3 publication Critical patent/ES2277260T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234354Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering signal-to-noise ratio parameters, e.g. requantization
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2402Monitoring of the downstream path of the transmission network, e.g. bandwidth available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26208Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
    • H04N21/26216Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints involving the channel capacity, e.g. network bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4755End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user preferences, e.g. favourite actors or genre
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6131Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via a mobile phone network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8453Structuring of content, e.g. decomposing content into time segments by locking or enabling a set of features, e.g. optional functionalities in an executable program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/165Centralised control of user terminal ; Registering at central
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17318Direct or substantially direct transmission and handling of requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17336Handling of requests in head-ends
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Método para resumir al menos un flujo (101, 102) multimedia, comprendiendo el método: a. recibir o recuperar dicho al menos un flujo (101, 102) multimedia que comprende información de vídeo, audio y texto; b. dividir el al menos un flujo (101, 102) multimedia en un subflujo (303) de vídeo, un subflujo (305) de audio y un subflujo (307) de texto; c. identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), audio (305) y texto (307), respectivamente; d. calcular un valor de importancia para los elementos clave identificados de vídeo, audio y texto identificados en dicha etapa (c); e. filtrar por primera vez los elementos clave de vídeo, audio y texto identificados para excluir aquellos elementos clave cuyo valor de importancia asociado es menor que un umbral de importancia de vídeo, audio y texto predefinido, respectivamente; y f. filtrar por segunda vez los elementos clave restantes de dicha etapa (e) según un perfil de usuario; g. filtrar por tercera vez los elementos clave restantes de dicha etapa (f) según restricciones de red y de dispositivo de usuario; h. emitir un resumen (120) multimedia a partir de los elementos clave restantes de dicha etapa (g).

Description

Sistema y método para generar un resumen multimedia de flujos multimedia.
La presente invención se refiere en general al resumen de imágenes de vídeo o en movimiento, y en particular a un sistema y método para proporcionar un resumen multimedia (vídeo/audio/texto) de una transmisión de noticias para permitir a un usuario navegar mejor y decidir sobre la visualización de la transmisión.
La cantidad del contenido de vídeo está expandiéndose a una velocidad que aumenta cada vez más. Simultáneamente, está disminuyendo el tiempo disponible para los espectadores para consumir o visualizar de otra manera todo el contenido de vídeo deseable. El aumento de la cantidad de contenido de vídeo unido a la disminución del tiempo disponible para visualizar el contenido de vídeo se hace cada vez más problemático para los espectadores a la hora de visualizar todo el contenido potencialmente deseable en su totalidad. Por lo tanto, los espectadores son cada vez más selectivos con respecto al contenido de vídeo que seleccionan visualizar. Para adaptarse a las demandas de los espectadores, se han desarrollado técnicas para proporcionar un resumen del vídeo que representa de alguna manera todo el vídeo. El propósito normal de la creación de un resumen de vídeo es obtener una representación compacta del vídeo original para una visualización posterior.
Se realizan avances continuamente en el campo de la segmentación y la identificación automatizada de historias, tal como lo evidencian el BNE (Broadcast News Editor) y BNN (Broadcast News Navigator) de la entidad MITRE Corporation (Andrew Merlino, Daryl Morey, and Mark Maybury, MITRE Corporation, Bedford MA, Broadcast News Navigation using Story Segmentation, ACM Multimedia Conference Proceeding, 1997, pág. 381-389). Al utilizar el BNE los informativos se dividen automáticamente en segmentos de historias individuales, y la primera línea del texto de subtitulo asociado al segmento se usa como un resumen de cada historia. Las palabras clave del texto de subtítulo o del audio se determinan para cada segmento de historia que corresponde a las palabras de búsqueda. Basándose en la frecuencia de apariciones de las palabras clave correspondientes, el usuario selecciona las historias de interés. Las técnicas de búsqueda y recuperación similares son cada vez más comunes en la técnica. Por ejemplo, las técnicas de búsqueda de texto convencionales pueden aplicarse a una guía de televisión informatizada de manera que una persona puede buscar un nombre de un programa determinado, un artista determinado, programas de un tipo determinado, y similares.
El documento US-A-2002/0157095 describe un sistema que puede generar un resumen de contenidos de un flujo multimedia en el que los niveles de importancia para segmentos de contenido se determinan considerando un perfil de preferencias del usuario.
Una desventaja de las técnicas de búsqueda y recuperación tradicionales es la necesidad de una tarea de búsqueda explícita, y la correspondiente selección entre las alternativas basadas en la búsqueda explícita. Frecuentemente, sin embargo, un usuario no tiene en mente un tema de búsqueda explícita. En un escenario típico de navegación por canales, un usuario no tiene un tema de búsqueda explícita. Un usuario de navegación por canales muestrea aleatoriamente una variedad de canales para cualquiera de un número de temas que pueden ser de interés, en vez de buscar un tema particular específicamente. En otras palabras, por ejemplo, un usuario puede iniciar un muestreo aleatorio sin ningún tema particular en mente, y seleccionar uno de los muchos canales muestreados basándose en el tema que se estaba presentado en ese canal a la hora del muestreo. En otro escenario, un usuario puede estar monitorizando la televisión en un modo secundario, mientras realiza otra tarea, tal como leer o cocinar. Cuando aparece un tema de interés, el usuario redirige su foco de interés hacia la televisión, entonces devuelve su atención a la otra tarea cuando se presenta un tema menos interesante.
En consecuencia, es altamente deseable una técnica para generar automáticamente un resumen multimedia que resuma las partes de vídeo, audio y texto de un flujo de vídeo (transmisión de noticias) independientemente de que un usuario tenga que utilizar explícitamente palabras clave para buscar temas de noticias particulares.
La presente invención supera las deficiencias de la técnica anterior. Generalmente, la presente invención se dirige a un sistema y método para generar un resumen multimedia de una o más secuencias de vídeo de entrada que permite a un usuario navegar mejor y/o decidir sobre la visualización de las secuencias de vídeo en su totalidad. El resumen multimedia se construye automáticamente, basándose en parte en especificaciones del sistema, especificaciones del usuario y restricciones de red y dispositivo. En una aplicación particular de la invención, las secuencias de vídeo de entrada representan transmisiones de noticias.
Una característica de la invención es crear un resumen multimedia de un flujo de vídeo de entrada que es adecuado para el uso con una amplia variedad de dispositivos que van desde dispositivos con ancho de banda restringido tales como PDA y teléfonos móviles hasta dispositivos con ancho de banda no restringido tales como ordenadores personales y estaciones de trabajo multimedia.
Otra característica de la invención es proporcionar flexibilidad en la manera en la que se construye el resumen multimedia. Es decir, la invención permite al usuario personalizar el resumen multimedia para adaptarse a las preferencias de visualización del usuario particular. Más particularmente, un usuario puede proporcionar uno o más parámetros que especifican, por ejemplo, si el resumen multimedia ha de ser exhaustivo o rápido; si el resumen multimedia debería incluir solamente un resumen de una única historia principal o un resumen de las primeras historias principales; si el resumen debería incluir solamente texto, solamente audio o solamente vídeo o combinaciones de los mismos. El usuario también puede proporcionar uno o más parámetros de palabras clave, que utilizará el sistema de resumen para seleccionar las partes apropiadas de texto, audio y vídeo del flujo de vídeo de entrada para la inclusión en el resumen multimedia.
Según un aspecto de la invención, un método para generar un resumen multimedia de una transmisión de noticias comprende los actos de: recibir o recuperar un flujo multimedia que comprende información de vídeo, audio y texto; dividir el flujo multimedia en un subflujo de vídeo, un subflujo de audio y un subflujo de texto; identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo, audio y texto respectivamente; calcular un valor de importancia para los elementos clave identificados de vídeo, audio y texto identificados en dicha etapa de identificación; un primer filtrado de los elementos clave de vídeo, audio y texto identificados para excluir aquellos elementos clave cuyo valor de importancia asociado es menor que un umbral de importancia de vídeo, audio o texto respectivamente; y un segundo filtrado de los elementos clave restantes de dicha etapa de filtrado según un perfil de usuario; un tercer filtrado de los elementos clave restantes de dicha segunda etapa de filtrado según restricciones de red y dispositivo de usuario; y emitir un resumen multimedia a partir de los elementos clave restantes de dicha tercera etapa de filtrado.
Aunque esta invención es particularmente adecuada para transmisiones de noticias, los principios de esta invención también permiten que el usuario reciba un resumen multimedia de otros tipos de transmisiones. Por ejemplo, la invención puede aplicarse a resúmenes multimedia de vídeos de películas para permitir a un usuario navegar mejor y decidir sobre la visualización de la película en su totalidad.
La invención también comprende un artículo de fabricación para llevar a cabo el método. Otras características y ventajas de la invención se harán evidentes a partir de la siguiente descripción detallada, los dibujos y las reivindicaciones adjuntas, consideradas en combinación con los dibujos adjuntos en los que:
la figura 1 es un diagrama esquemático de una visión general de una realización a modo de ejemplo de un sistema de resumen multimedia según la presente invención;
la figura 2 es un diagrama de flujo de un método de resumen según la presente invención;
la figura 3 es un flujo de vídeo a modo de ejemplo de una transmisión de noticias típica;
la figura 4 es un diagrama de flujo de un método de identificación de elementos clave según la presente invención;
la figura 5 muestra un ejemplo de diagrama de bloques del proceso de extracción de características y derivación de características de un flujo multimedia de entrada; y
la figura 6 es una gráfica que muestra cómo los elementos de tiempo que comprenden el subflujo de audio pueden agruparse para formar segmentos; y
las figuras 7a-c son gráficas que muestran varias maneras para identificar elementos clave.
La presente invención se dirige a un sistema y método para resumir uno o más flujos multimedia de entrada a través de tres modalidades (vídeo, audio, texto).
Debe entenderse que los módulos de sistema y métodos a modo de ejemplo que se describen en el presente documento pueden implementarse en varias formas de hardware, software, firmware, procesadores con fines especiales, o una combinación de los mismos. Preferiblemente, la presente invención se implementa en software como un programa de aplicación realizado de manera tangible sobre uno o más dispositivos de almacenamiento de programa. El programa de aplicación puede ejecutarse por una máquina, dispositivo o plataforma que comprende arquitectura adecuada. Debe entenderse además que, debido a que algunos de los módulos de sistema constituyentes y métodos ilustrados en las figuras adjuntas se implementan preferiblemente en software, las conexiones reales entre los componentes del sistema (o actos del proceso) pueden ser distintas dependiendo de la manera en la que se programe la presente invención. Dadas las enseñanzas en el presente documento, un experto en la técnica podrá contemplar o practicar estas implementaciones o configuraciones y otras similares de la presente invención.
La presente invención incluye un producto de programa informático que es un medio (medios) de almacenamiento que tiene instrucciones almacenadas sobre/en el mismo que puede utilizarse para programar un ordenador para realizar cualquiera de los procesos de la presente invención. El producto de programa informático también puede incluir datos, por ejemplo, datos de entrada, que corresponden a cualquiera de los procesos de la presente invención. El medio de almacenamiento puede incluir, pero sin estar limitado a, cualquier tipo de discos incluyendo discos flexibles, discos ópticos, DVD, CD-ROM, microdrive, y discos magneto-ópticos, ROM, RAM, EPROM, EEPROM, DRAM, VRAM, dispositivos de memoria flash, tarjetas magnéticas u ópticas, nanosistemas (incluyendo CI de memoria molecular), o cualquier tipo de medio o dispositivo adecuado para almacenar instrucciones y/o datos.
Almacenado sobre uno cualquiera del medio (medios) legible por ordenador, la presente invención incluye software para controlar tanto el hardware de un ordenador o microprocesador de propósito general/especializado, y para posibilitar que el ordenador o microprocesador interactúe con un usuario humano u otro mecanismo que utiliza los resultados de la presente invención. Tal software puede incluir, pero no está limitado a, controladores de dispositivos, sistemas operativos, y aplicaciones de usuario. En última instancia, tal medio legible por ordenador incluye adicionalmente software para realizar la presente invención, tal como se describió anteriormente.
Arquitectura del Sistema
Con referencia a la figura 1, se muestra una perspectiva general esquemática de una realización de un sistema 100 de resumen multimedia según la presente invención. A modo de ejemplo no limitativo, el sistema 100 de resumen multimedia se presentará en el contexto de un sistema 100 de resumen para resumir historias de noticias, aunque las ampliaciones de los principios presentados en el presente documento a otras aplicaciones multimedia serán evidentes para un experto en la técnica.
En la realización mostrada en la figura 1, el sistema 100 de resumen multimedia recibe un flujo 101 multimedia como entrada desde un selector 110 de canal de transmisión, por ejemplo un sintonizador de televisión o receptor por satélite. El sistema 100 también puede recuperar un flujo 102 multimedia previamente almacenado desde un depósito 112 de almacenamiento de vídeo. El sistema 100 también puede recibir entrada en forma de un flujo de vídeo tal como desde un servidor en una red. Los flujos 101, 102 de entrada multimedia puede estar en forma digital o analógica, y la transmisión puede ser en cualquier forma de medio utilizado para comunicar los flujos 101, 102 incluyendo comunicaciones de punto a punto. En la realización mostrada en la figura 1, a modo de ejemplo no limitativo, los flujos 101, 102 multimedia de entrada corresponden a transmisiones de noticias, e incluyen múltiples historias de noticias con anuncios publicitarios intercalados. La transmisión de noticias podría representar, por ejemplo, un programa de noticias particular, tal como CNN Headline News, NBC Nightly News, etc.
En la realización mostrada en la figura 1, el sistema 100 de resumen multimedia comprende un módulo 103 de división y reconocimiento de modalidad (MRAD) para dividir los flujos 101, 102 multimedia de entrada en tres modalidades, denominados a continuación en el presente documento como subflujo 303 de vídeo, subflujo 305 de audio y subflujo 307 de texto. El módulo 103 MRAD comprende un módulo 103a identificador de segmentos de historias (SSI), un módulo 103b identificador de audio (AI), un módulo 103c identificador de texto (TI) para procesar los flujos 101, 102 multimedia de entrada y emitir los subflujos 303 de vídeo, 305 audio y 307 texto, respectivamente. Los subflujos 303, 305, 307 se emiten desde el módulo 103 MRAD hasta un módulo 105 identificador de elementos clave (KEI) para identificar elementos clave del interior de los subflujos 303, 305 y 307 respectivos. El módulo 105 KEI comprende un módulo 107 de extracción de características (FE), y un módulo 109 de valor de importancia (IV). La funcionalidad del módulo 105 KEI se describe en más detalle a continuación en relación con las figuras 4-7. La salida del módulo 105 KEI se acopla a la entrada del módulo 111 de filtro de elementos clave (KEF) que filtra los elementos clave identificados por el módulo 105 KEI, de una forma que se describe a continuación. Los elementos clave supervivientes emitidos desde KEK 111 se proporcionan como entrada a un filtro 113 de perfil de usuario (UPF) que filtra adicionalmente los elementos clave supervivientes según una preferencia de usuario predeterminada. Tal como se muestra, el módulo 113 UPF se acopla a uno o más dispositivos de almacenamiento (es decir, una base 117 de datos de preferencias de usuario) para almacenar las preferencias de usuario predeterminadas. La salida del módulo 113 UPF se acopla a la entrada del módulo 115 de restricción de red y dispositivo (NADC), que puede filtrar adicionalmente los elementos clave supervivientes emitidos desde el módulo 113 UPF según las condiciones de red imperantes y restricciones de dispositivo de usuario. El módulo 115 NADC emite el resumen 120 multimedia de la invención. Típicamente, un usuario remoto solicitará el resumen multimedia a través de un dispositivo 124 de cliente, estableciendo una interfaz con el sistema 100 de resumen, sobre una red 122 tal como Internet, Intranet o cualquier otra red adecuada. El dispositivo 124 de cliente puede ser cualquier dispositivo electrónico que puede funcionar para conectarse con y transmitir datos sobre la red 122. Por ejemplo, el dispositivo 124 de cliente puede incluir un dispositivo conectado por cable (por ejemplo, un ordenador personal, una estación de trabajo, o una máquina de fax) o un dispositivo inalámbrico (por ejemplo, un ordenador portátil, un ayudante personal digital (PDA), teléfono móvil, busca, teléfono inteligente, un dispositivo informático y de comunicación portátil o comunicador).
Funcionamiento
Se proporciona ahora una exposición general de una realización del método de resumen multimedia de la presente invención con respecto a las figuras 1-3. Después, se proporcionarán a continuación descripciones más detalladas de varios actos asociados con el método descrito.
En la figura 2, se muestra un método de resumen según una realización de la presente invención:
El proceso comienza en la acción 205.
En la acción 210, el sistema 100 de resumen multimedia recupera y/o recibe uno o más flujos 101, 102 multimedia (por ejemplo, transmisiones de noticias) como entrada.
Las figuras 3a-3d muestran, a modo de ejemplo, cómo puede dividirse un flujo multimedia de entrada (por ejemplo el flujo 101) según tres modalidades.
La figura 3a es una ilustración general de un flujo 101 multimedia de entrada (por ejemplo, transmisión 101 de noticias) que comprende componentes de vídeo, audio y texto distribuidos a lo largo del mismo. Tal como se mencionó anteriormente, la transmisión de noticias podría representar, por ejemplo, un programa de noticias particular, por ejemplo, CNN Headline News, NBC Nightly News, etc.
Las figuras 3b-3d muestran cómo puede dividirse el flujo 101 de vídeo de entrada, según tres modalidades.
En referencia primero a la figura 3b, según la modalidad de vídeo, se muestra un subflujo 303 de vídeo que representa el flujo 101 multimedia de entrada procesado para destacar la segmentación de historias de noticias. Se muestra el subflujo 303 de vídeo de la figura 3b como emitido desde el submódulo 103a identificador de segmentos de historias (SSI) del módulo 103 MRSAD. El subflujo 303 de vídeo a modo de ejemplo se divide mediante el submódulo 103a SSI en una pluralidad de tramas de vídeo (por ejemplo, tramas 1-25000) de las cuales solamente se muestran 40 para refacilitar la explicación. La división se basa en la construcción típica de una transmisión de noticias. Es decir, la transmisión de noticias específica sigue un formato común que es particularmente adecuado para la segmentación de historias. Por ejemplo, una primera historia o historia principal podría estar relacionada con acontecimientos políticos en Washington, una segunda historia de noticias podría estar relacionada con una huelga de trabajadores o un incendio en un edificio. Por ejemplo, tal como se muestra en la figura 3b, después de una trama 301 de introducción (trama 1), típicamente aparece 311 un periodista o presentador (tramas 2-4 de presentación) e introduce un primer reportaje 321 (tramas 5-24). Las tramas 2-4 de presentación y las tramas 5-24 de segmentos de historias de noticias se denominan colectivamente una primera historia 311, 321 de noticias. Después de la historia de noticias, el presentador 312 reaparece (tramas 25-29 de presentación) para introducir el segundo reportaje (tramas 30-39), denominadas colectivamente como la segunda historia 312, 322 de noticias. La secuencia de presentador-historia-presentador, intercalada con anuncios, se repite hasta el final de una transmisión de noticias, por ejemplo, trama 2500. Las apariciones repetidas del presentador 311, 312,... típicamente en la misma ubicación escenificada sirve para identificar claramente el comienzo de cada segmento de reportaje y el final del segmento de noticias o anuncio anterior. Además, puesto que se desarrollan estándares como MPEG-7 para describir contenidos de vídeo, puede esperarse que los flujos de vídeo contengan marcadores explícitos que identifiquen el comienzo y el final de segmentos independientes dentro de los flujos.
El documento de patente EP nº 1 057 129 A1, "Personalizad Vídeo Classification and Retrieval System" (Sistema personalizado de clasificación y recuperación de vídeo) publicada el 6 de diciembre de 2000 a Elenbaas, J H; Dimitrova, N; Mcgee, T; Simpson, M; Martino, J; Abdel-Mottaleb, M; Garrett, M; Ramsey, C; Desai, R., cuya divulgación total se incorpora en el presente documento como referencia, proporciona una forma de identificar segmentos de historias de noticias.
En referencia ahora a la figura 3c, se muestra el subflujo 305 de audio. La identificación de audio en el flujo 101 multimedia de entrada es relativamente sencilla porque el submódulo 103b identificador de audio preselecciona un límite de audio, por ejemplo, 20 ms en la realización a modo de ejemplo, y divide el flujo 101 multimedia de entrada en una pluralidad de tramas 304 de TIEMPO de 20 ms desde el comiendo hasta el final para construir el subflujo 305 de audio.
De nuevo en referencia a la figura 1, el módulo 103 MRAD recibe el flujo 101 multimedia de entrada y el submódulo 103b identificador de audio (AI) lo procesa para emitir el subflujo 305 de audio.
En referencia ahora a la figura 3d, se muestra el subflujo 307 de texto. La identificación de texto es relativamente sencilla porque el identificador de texto define una trama 308 sobre límites de palabra identificados dentro del subflujo 307 de texto.
De nuevo en referencia a la figura 1, el módulo 103 MRAD recibe el flujo 101 multimedia de entrada y el submódulo 103c identificador de texto (TI) lo procesa para emitir el subflujo 307 de texto. Los subflujos 303 de vídeo, 305 audio y 307texto, emitidos desde el módulo 103 MRAD, se proporcionan a continuación como flujos de entrada al módulo 105 KEI identificador de elementos clave.
En la acción 220, se realiza un análisis de identificación de elementos clave mediante el módulo 105 KEI sobre los subflujos 301, 303, 305 de entrada para identificar elementos clave dentro de cada subflujo respectivo. Un elemento clave puede identificarse generalmente como un "segmento" de un subflujo 303, 305, 307 que cumple o es superior a un criterio predeterminado, tal como se describirá adicionalmente a continuación.
En la acción 225, aquellos elementos clave identificados en la acción 220 se filtran adicionalmente con lo cual solamente se retienen aquellos elementos clave cuyo valor de importancia calculado cumple o es superior a un criterio predeterminado. El módulo 111 de filtro de elementos clave (KEF) de la figura 1 realiza este proceso de filtrado.
En la acción 230, el módulo 113 de filtro de perfil de usuario (UPF) de la figura 1 determina si el usuario ha proporcionado anteriormente un perfil de usuario que está compuesto por un número de parámetros de personalización de usuario, preferiblemente almacenados en la base 117 de datos de preferencias de usuario. En la acción 232, si existe un perfil de usuario, se utilizará para filtrar adicionalmente aquellos elementos clave supervivientes de la acción 225.
El perfil de usuario puede estar compuesto por un número de parámetros de personalización (preferencias) proporcionados por el usuario. Los parámetros pueden proporcionarse o durante el tiempo de ejecución o preferiblemente recuperarse de la base 117 de datos de preferencias de usuario por el UPF 109, para indicar preferencias de personalización particulares del usuario en cuanto a cómo ha de presentarse el resumen 120 multimedia. En el caso de que se recuperen parámetros de personalización de la base 117 de datos de preferencias de usuario, los usuarios del sistema típicamente almacenarán sus preferencias con el sistema 100 durante una fase de configuración. Los parámetros de personalización determinan en cierta medida cómo ha de personalizarse el resumen 120 multimedia para adecuarse a las preferencias de visualización particulares del usuario.
Los parámetros de personalización proporcionados por un usuario pueden incluir, por ejemplo:
\bullet
si el resumen 120 multimedia ha de ser exhaustivo o rápido.
\bullet
si el resumen 120 multimedia debe incluir solamente texto, audio, imágenes fijas, vídeo o combinaciones de los mismos.
\bullet
Tareas que deben realizarse tal como la navegación para buscar vídeos nuevos frente a recordar una película ya vista.
\bullet
Lugar donde va a visualizarse el resumen 120 (es decir, contexto).
\bullet
Hora del día, semana, mes, año en el que se está visualizando el resumen 120 multimedia.
\bullet
El usuario puede proporcionar parámetros de personalización de "palabras clave" para identificar elementos particulares de interés para el usuario (por ejemplo, personas, lugares o cosas). Como un ejemplo, el usuario puede especificar las palabras clave "Política" y "Baseball" que el sistema 100 de resumen de vídeo utilizará para localizar segmentos de historias de noticias que enfatizan las palabras clave seleccionadas.
Solamente a modo de ejemplo, si el usuario prefiere que el resumen 120 multimedia esté restringido a sólo un resumen de audio, entones puede elegirse un segmento de audio con la clasificación más alta del subflujo 305 de audio y presentarse al usuario. Como un ejemplo adicional, si el usuario prefiere visualizar un resumen 120 multimedia rápido (por ejemplo, un resumen de noticias de dos minutos), entonces las historias de noticias que son de interés para el usuario se eligen según la preferencia de perfil de usuario y solamente se eligen de cada historia de noticias seleccionadas los segmentos de vídeo, audio y texto con la clasificación más alta de los respectivos subflujos 303 de vídeo, 305 audio y 307 texto para construir un resumen 120 multimedia de tiempo limitado.
En la acción 235, aquellos elementos clave que han sobrevivido a la acción anterior de filtrado de perfil de usuario ahora se filtran adicionalmente teniendo en cuenta las restricciones de red y dispositivo. Específicamente, el módulo 1143 de restricciones de red y dispositivo (NADC) considera cualquier restricción de ancho de banda de red de la red sobre la que va a transmitirse el resumen 120 multimedia y adicionalmente considera aquellas restricciones asociadas al dispositivo de visualización del usuario. Los elementos clave supervivientes de la etapa 230 se modifican según cualquier restricción de red y dispositivo conocida, tal como se describirá.
En el caso típico en el que el resumen 120 multimedia se transmite por una red, tal como Internet, las restricciones de dispositivo y el ancho de banda de transmisión disponible dictarán, en cierta medida, la calidad y cantidad de resumen 120 multimedia que habrá de transmitirse. Debido a las demandas inherentes de ancho de banda de vídeo, el resumen 120 multimedia estará típicamente restringido en cuanto a la calidad y/o la cantidad de la parte de vídeo del resumen 120 multimedia. En comparación, las partes de audio y texto de un resumen 120 multimedia no sufrirán restricciones similares.
Las redes inalámbricas representan una aplicación de ancho de banda limitado típica. Tales condiciones de ancho de banda limitado pueden existir debido o bien a las restricciones tecnológicas directas dictadas por el uso de un canal de datos de ancho de banda bajo o restricciones indirectas impuestas sobre canales de ancho de banda relativamente alto por cargas de usuario simultáneas altas. Se contempla que el ancho de banda de red puede monitorizarse de manera transparente en tiempo real para determinar el estado actual de la red. El resumen multimedia puede modificarse según una condición de red imperante. Por ejemplo, en el caso de una condición de red congestionada, el resumen 120 multimedia puede restringirse limitando la calidad de vídeo de cada elemento clave superviviente de la acción 235.
En cuanto a las consideraciones de restricciones de dispositivo, las PDA conectadas por móvil y los teléfonos web son ejemplos de dispositivos que están característicamente limitados en cuanto a potencia de procesamiento, capacidades de visualización, sistemas operativos y similares. Como consecuencia de estas limitaciones, estos dispositivos tienen diferentes capacidades para recibir, procesar y visualizar datos de vídeo. El resumen 120 multimedia puede ajustarse para acomodarse a las restricciones de dispositivo limitando la resolución de vídeo, la velocidad de transmisión de bits, etc.
Si el dispositivo de usuario solamente puede presentar texto, entonces se eligen los segmentos de texto con la clasificación más alta para cada una de las historias de noticias y se envían al dispositivo.
En la acción 240, el resumen 120 multimedia compuesto por aquellos elementos clave que sobreviven a la acción 235 se emite al usuario.
Esta exposición concluye la visión general del sistema y método de resumen de vídeo multimedia. Ahora se proporcionará una descripción más detallada del funcionamiento de varios aspectos del método.
Se ha proporcionado una descripción superficial de una realización del método de la invención con referencia al diagrama de flujo de la figura 2 que incluye, entre otras cosas, la acción 220 que se dirige a la identificación de elementos clave de los respectivos subflujos 303 de vídeo, 305 audio y 307 texto. Se describe ahora una descripción más detallada de la acción 220, la identificación de elementos clave, en referencia a las figuras 3-6.
En referencia a la figura 4, que es un diagrama de flujo detallado de las acciones que comprenden la acción 220 del diagrama de flujo de la figura 2, y también en referencia a la figura 5, que es un diagrama que muestra adicionalmente, solamente a modo de ejemplo no limitativo, el proceso de extracción de características que se describe comprendiendo la extracción y derivación de características, en cada una de las tres modalidades, de los respectivos subflujos 303, 305, 307.
Acción 220.a
Extracción de características
En la acción 220.a, se realiza una extracción de características por la cual se extraen características 510 de nivel bajo, 710 medio y 910 alto de cada trama en cada uno de los subflujos 303 de vídeo, 305 audio y 307 texto respectivos. En cuanto al subflujo 303 de vídeo a modo de ejemplo, se realiza la extracción de características en cada una de las 2500 tramas de vídeo que componen el subflujo 303, de las cuales se muestran 40 para facilitar la explicación. De manera similar, en cuanto al flujo 305 de audio, se realiza la extracción de características en cada una de las 8000 tramas 306 de audio (figura 3c) que componen el subflujo 305 de audio, de las cuales se muestran 12 para facilitar la explicación. De manera similar, en cuanto al flujo 307 de texto, se realiza la extracción de características en cada una de las 6500 tramas 308 de texto (figura 3d) que componen el subflujo 307 de texto, de las cuales se muestran 5 para facilitar la explicación.
Se describen ahora algunos ejemplos de características de nivel bajo, medio y alto que pueden extraerse de las tramas en cada uno de los subflujos (vídeo, audio y texto) respectivos.
Solamente a modo de ejemplo no limitativo, el subflujo de vídeo puede incluir las siguientes características de modo visual de nivel bajo 503, medio 505 y alto 507:
Las características 503 de modo visual de nivel bajo pueden incluir, entre otros, valor de movimiento (movimiento global para la trama o segmento de vídeo), el número total de bordes en una trama y el color dominante.
Las características 703 de modo visual de nivel medio se derivan de las características 503 de modo visual de nivel bajo extraídas y pueden incluir, entre otras cosas, histogramas de conjunto (family histograms), movimiento de cámara, detalle de trama, presencia de texto superpuesto, y otros detectores de objeto.
Las características 903 de modo visual de nivel alto se derivan de las características de modo visual de nivel medio derivadas y pueden incluir, entre otras cosas, varias clasificaciones de trama de vídeo tales como una trama de presentación, una trama de reportaje, una trama de interior, una trama de exterior, una trama natural, una trama de gráficos, una trama de paisaje y una trama de paisaje urbano.
Solamente a modo de ejemplo no limitativo, el subflujo 305 de audio puede incluir las siguientes características de modo de audio de nivel bajo 505, medio 705 y alto 905:
Las características 505 de modo audio de nivel bajo pueden incluir, por ejemplo, MFCC, LPC, energía promedio, ancho de banda, altura tonal, etc.
Las características 705 de modo audio de nivel medio se derivan de las características 505 de modo audio de nivel bajo y pueden incluir, por ejemplo, la clasificación del audio en voz, música, silencio, ruido, voz + voz, voz + ruido, y voz + música.
Las características 905 de modo audio de nivel alto se derivan de las características 705 de modo audio de nivel medio derivadas anteriormente y pueden incluir, entre otros, aplausos del público, habla, risas, explosiones, sirenas, etc. También podría incluir una trascripción de voz a texto.
Solamente a modo de ejemplo no limitativo, el subflujo 307 de texto puede incluir las siguientes características de modo texto de nivel bajo 507, medio 707 y alto 907:
Las características 507 de modo texto de nivel bajo que pueden incluir, por ejemplo, la presencia de palabras clave, avisos, nombres, lugares, etc.
Las características 707 de modo texto de nivel medio se derivan de las características 507 de modo audio de nivel bajo y pueden incluir por ejemplo, temas, categorías, sustantivos importantes.
Las características 907 de modo texto de nivel alto se derivan de las características 707 de modo texto de nivel medio y pueden incluir, entre otros, pasajes de preguntas/respuestas, una conclusión de quién esta hablando, es decir, reportero de noticias frente a presentador frente a invitado y así sucesivamente.
La figura 5 es un diagrama que muestra adicionalmente, solamente a modo de ejemplo no limitativo, el proceso de extracción de características que comprende la extracción y derivación de características, en cada una de las tres modalidades, de los subflujos 303, 305, 307 respectivos. Tal como se muestra, las características 510 de vídeo de nivel bajo tal como borde, forma, color 503 se extraen del subflujo 303 de vídeo. Una o más de las características 503 de vídeo de nivel bajo extraídas pueden utilizarse entonces para derivar una o más características 703 de nivel medio tales como videotexto, caras, histogramas 703 conjunto. Las características 703 de nivel medio puede utilizarse entonces a su vez para derivar una o más características 903 visuales de nivel alto tales como trama de presentación, trama de reportaje, trama de interiores, etc.
Con referencia a la característica visual de nivel medio, los "histogramas conjunto" mostrados como un elemento de 703, la derivación y el uso de esta característica es de particular importancia porque se utiliza para segmentar el subflujo 303 de vídeo en "segmentos", tal como se describirá a continuación. El color es una característica dominante en vídeo y ayuda en la segmentación de vídeo desde un punto de vista de percepción. Adicionalmente, la duración de un histograma conjunto también se corresponde directamente con el "valor de importancia" calculado de un segmento de vídeo, tal como se describirá.
El proceso de derivar histogramas conjunto de las características visuales de nivel bajo extraídas del subflujo 303 de vídeo implica un análisis de cada trama de vídeo del subflujo 303 de vídeo. El análisis se realiza para cuantificar la información de color de cada trama de vídeo en variables (bin) de cuantificación de color. Se determinó experimentalmente que un histograma de color de cuantificación de 9 intervalos era suficiente para identificar los elementos clave. En una variación de este enfoque, pude utilizarse un histograma de color de 256 recipientes dependiendo de la aplicación. El enfoque simple del histograma de color de cuantificación de 9 recipientes asume que solamente habrá diferencias ligeras en la variación de color de trama a trama para cada segmento de conjunto (family segment) contenido dentro de un segmento de historia de noticias). Esto es verdad porque se presupone que hay una similitud de trama sustancial de trama a trama para un elemento clave. Aunque se producen variaciones de color apreciables de una trama a la siguiente cuando se produce un cambio de escena que indica el final de un segmento de conjunto y el comienzo de otro). El enfoque del histograma de color detecta las variaciones de color apreciables (es decir, característica de nivel bajo) mediante un contraste nítido en valores de histograma de color de una trama a la siguiente.
Para encontrar el grado de similitud entre tramas de vídeo, se realizaron experimentos con múltiples medidas de diferencia de histograma. En la acción de cálculo de histogramas conjunto, para cada trama de vídeo, se calcula el histograma y entonces se realiza una búsqueda de los histogramas conjunto calculados anteriormente para encontrar la correspondencia de histograma conjunto más cercana. La comparación entre el histograma H_{C} actual, y los histogramas H_{P} conjunto anteriores, pueden computarse utilizando uno de los siguientes métodos para calcular la diferencia D de histograma.
(1) La diferencia de histograma utilizando la medida L1 de distancia se calcula utilizando la siguiente fórmula:
1
\vskip1.000000\baselineskip
Aquí, N es el número total de intervalos de color utilizados (9 en este caso). Los valores obtenidos que utilizan esta fórmula oscilan entre 0 y dos veces el número máximo de píxeles en imágenes respectivas. Como se quiere obtener el porcentaje de similitud, se normaliza el valor dividiendo por el número total de píxeles. Los valores normalizados están entre 0 y 1, donde los valores próximos a 0 significan que las imágenes son similares, y aquellos próximos a 1 significan que las imágenes son diferentes.
(2) La diferencia de histograma utilizando la medida L2 de distancia se calcula utilizando la siguiente fórmula:
2
\vskip1.000000\baselineskip
De manera similar al caso (1), se normalizan los valores de D.
(3) La intersección de histogramas se calcula utilizando la siguiente fórmula:
3
Los valores obtenidos utilizando esta fórmula oscilan entre 0 y 1. Los valores próximos a 0 significan que las imágenes son diferentes, y los valores próximos a 1 significan que las imágenes son similares. Para comparar histogramas con la misma interpretación de similitud se utiliza D = 1-I como medida de distancia.
(4) La prueba de chi-cuadrado para dos histogramas de imágenes se calcula utilizando la siguiente fórmula:
4
En este caso, los valores oscilan entre 0 y el número de N d intervalos de color, así que se normaliza con N, es decir, D = \chi^{2}/N.
(5) La intersección de histogramas por lo que respecta a los intervalos se calcula utilizando la siguiente fórmula:
5
De manera similar a la intersección de histogramas, los valores inferiores significan diferencia y los valores superiores significan que las imágenes son similares. Para ser coherentes con las medidas anteriores, la distancia se calcula con D = 1 - B/N.
En la técnica se conocen métodos de indexación de colores que utilizan la información de histogramas (véase, por ejemplo, la publicación de M. Stricker y M. Orengo, titulada "Similarity of color images" (Similitud de imágenes en color), In proc. Of IS&T/SPIE Conference on Storage and Retrieval for Image and Video Database II, Vol. SPIE 2420, 1995.
Acción 220.b
Asignación de valores de importancia de característica
En la acción 220.b, a aquellas características de nivel medio 710 y alto 910 extraídas en la acción 220.a en cada trama de cada uno de los subflujos 303, 305, 307 respectivos se les asigna ahora un valor de importancia de característica correspondiente. Pueden emplearse métodos de análisis de características discretos y/o continuos para asignar tales valores de importancia. En el caso discreto, el método de análisis de características emite un valor de importancia discreto indicando la presencia o la falta de presencia de una característica (es decir, valor de importancia = 1 para presencia/0 para característica no presente) o (valor de importancia =1 para deseable de incluir en el resumen 120 multimedia, 0 para no deseable en el resumen 120, y 0,5 si está entre medias). Como un ejemplo, dado que es deseable tener "caras" en el resumen 120 multimedia, puede asignarse un valor de importancia de característica de 1 si están presentes una o dos caras, puede asignarse un valor de 0 si no está presente ninguna cara y puede asignarse un valor de 0,5 en el caso de que existan más de dos caras. Otro ejemplo discreto puede ser asignar un 0 para la presencia de un presentador y un 1 para la presencia de un pasaje de reportaje. Otro ejemplo discreto puede ser asignar un 0 para una trama si pertenece a un histograma conjunto cuya duración es inferior a n% de la duración total de la historia de noticias y en otro caso asignar un valor de 1. Aquí n podría fijarse a 10 etc.
Con respecto al subflujo 305 de audio, puede ser deseable tener voz en el resumen 120 multimedia, así que un valor de importancia podría ajustarse a 1 para la presencia de voz, 0 para ruido y silencio, 0,5 para {música, voz + música, voz + voz, voz + ruido}.
Con respecto a un subflujo 307 de texto, si está presente un nombre o una palabra clave importante, entonces el valor de importancia puede fijarse a 1, en otro caso se fija a 0.
En un caso continuo, en el caso de un histograma conjunto, el valor de importancia podría fijarse a la duración del segmento al que pertenece una trama dividido por la duración total de la historia de noticias.
Alternativamente, en el caso continuo, los métodos de análisis de características pueden emplear una distribución de probabilidad para asignar valores de importancia a las características extraídas. La distribución de probabilidad da la probabilidad de que la característica esté presente en el resumen. Los métodos de análisis de características utilizados con este enfoque pueden emitir un valor de probabilidad que oscila de 0 a 1, indicando un grado de confianza con respecto a la presencia de una característica.
La distribución de probabilidad para derivar valores de importancia en el caso continuo puede derivarse de una distribución gaussiana normal. Alternativamente, los valores de importancia también podrían corresponderse como distribuciones de Poisson, Rayleigh o Bernoulli. La ecuación (2) muestra a modo de ejemplo, una forma de calcular el valor de la característica para la trama como una distribución gaussiana normal.
6
en la que:
S es la probabilidad de que la característica esté en el resumen
\theta generalmente representa cualquiera de las características;
\theta_{1} es la media del valor de la característica; y
\theta_{2} es la desviación esperada.
Como un ejemplo, si "caras" representa una característica de vídeo de nivel medio que debe considerarse, es decir, representado como \theta en la ecuación 6, entonces las caras muy pequeñas o muy grandes apenas aparecerán. Más frecuentemente, cada vez que aparece una "cara" en el flujo de vídeo, está típicamente presente a una altura de sustancialmente el 50% de la altura de la pantalla. En este caso, \theta_{1} es igual a 0,5 (la media) y \theta_{2} es igual a 0,2, por ejemplo. Se observa que puede utilizarse un enfoque de estimación de probabilidad máxima para determinar los parámetros \theta_{1} y \theta_{2}.
Se observa que cada una de las características puede elevar o disminuir potencialmente el valor de importancia de un elemento clave para la selección potencial en el resumen 120 multimedia
220.c
Valores de importancia de cálculo por trama en cada modalidad
En la acción 220.c, se calculan los valores de importancia de trama basándose en los valores de importancia de característica calculados en la acción 220.b. Para determinar los valores de importancia de trama, puede emplearse bien un enfoque de suma ponderada o escrutinio de los valores de importancia de las características extraídas, tal como se describirá.
La tablas 1, 2 y 3 muestran, solamente a modo de ejemplo no limitativo, los valores de importancia de característica calculados en la acción 220.b para cada una de las características extraídas identificadas en la acción 220.a en cada una de las modalidades respectivas (vídeo, audio, texto). Los valores de importancia se usan para calcular el valor de importancia por trama. Los encabezados de columna de las tablas representan características de nivel bajo, medio y alto extraídas anteriormente tales como bordes, color, caras, silencio, trama de interiores y así sucesiva-
mente.
TABLA 1 Probabilidades de Características Visuales
7
TABLA 2 Probabilidades de Características de Audio
8
TABLA 3 Probabilidades de Características de Texto
9
Los valores de las tablas están combinados de una forma que va a describirse para proporcionar una medida de cuánto "vale" una trama. Un "valor" de la trama es una medida de la importancia de la trama para posible inclusión en el resumen 120 multimedia. Un "valor" de la trama puede calcularse de varias maneras incluyendo la manera determinística, estadística y a través de probabilidades condicionales.
Cálculo determinístico del "valor" de una trama
En una realización, el "valor" de la trama puede calcularse como una función linear determinística de las características de vídeo de nivel bajo, medio y alto, calculado como:
Ecuación (7)Importancia del elemento clave = \sum w_{i}f_{i}
en la que:
f_{i} es un valor de una característica de nivel bajo, medio y alto particular en el vector de característica; y
w_{i} es una ponderación para esa característica.
Las características f_{i} podrían ser características de nivel bajo así como valor de movimiento (movimiento global para la trama o segmento del vídeo), numero total de bordes, color dominante, y características de nivel medio tales como importancia de conjunto (family importance), movimiento de camera, detalle de trama, tamaño de la cara, tamaño de la caja de texto superpuesto. La característica de nivel alto puede ser una clasificación tal como presentador/reportaje, escenas de interiores/exteriores, natural/gráficos, paisaje natural/paisaje urbano. La lista de características no es exhaustiva y sólo se proporciona a modo de ejemplo de los tipos de características que pueden incluirse en el cálculo de valor de importancia.
Puede observarse que las ponderaciones, w_{i}, asociadas a cada característica pueden determinarse a priori por el sistema 100 de resumen o alternativamente determinarse según una preferencia de usuario. Por ejemplo, si un usuario quiere oír música en el resumen 120 multimedia, entonces un valor de ponderación para música puede fijare a 1. Como otro ejemplo, si el usuario prefiere no ver ningún videotexto en el resumen, a la ausencia de videotexto en una trama se le da una importancia de 1 y así sucesivamente.
Se supone que para cada una de las modalidades, los valores de importancia de característica se combinan de alguna manera para emitir un valor de importancia de elemento clave por trama utilizando o bien una función de probabilidad o una función determinística que da lugar a una lista tal como la lista a modo de ejemplo no limitativo mostrada en la tabla 4:
TABLA 4 Importancia del valor (por trama) para diferentes modalidades
10
En otra realización más, el "valor" de una trama puede calcularse encontrando la probabilidad condicional utilizando una clasificación de patrones de redes de creencias bayesianas. La clasificación de patrones de redes de creencias bayesianas se conoce en la técnica. Véase por ejemplo, "Bayesian Belief Network Pattern Classification" (segunda edición) de Richard O. Duda, Peter E. Hart, David G. Stork, cuya descripción se incorpora en su totalidad en el presente documento como referencia.
220.d
Creación de segmentos
En la acción 220.d, después de cumplir los valores de importancia de trama para cada trama en cada modalidad en 220.c, se utilizan loa valores de importancia de trama para combinar o agrupar las tramas en segmentos para cada modalidad.
Creación de segmentos visuales
Para crear segmentos visuales a partir de las tramas de vídeo respectivas (es decir, Trama 1, Trama 2,..., Trama N) que componen el subflujo 303 de vídeo, se realiza o bien un cálculo de histogramas conjunto o una detección de cambio de toma. Una forma de combinar tramas en segmentos es utilizar detección de cambio de toma. La detección de cambio de toma se conoce bien y se describe en el documento US 6.125.229 del 26 de septiembre del 2000, también publicada como el documento EP 0 916 120 A2, del 19 de mayo de 1999, concedido a Dimitrova, N; Mcgee, T; Elenbaas, J H, "Visual Indexing System" (Sistema de indexación visual), cuya descripción se incorpora en su totalidad en el presente documento como referencia. Otra forma de crear segmentos visuales de las tramas de vídeo respectivas del subflujo 303 de vídeo es a través del uso de histogramas conjunto, tal como se describió anterior-
mente.
\vskip1.000000\baselineskip
Creación de segmentos audio
Para crear segmentos de audio de las respectivas tramas de TIEMPO (es decir, TIEMPO 1, TIEMPO 2, y así sucesivamente) que componen el subflujo 305 de audio, los límites de segmentos pueden ser los límites de distintas clasificaciones. Es decir, un clasificador de audio clasifica audio en voz (1), música (2), silencio (3), ruido (4), voz + voz (5), voz + ruido (6), y voz + música (7). La figura 6 es una gráfica que muestra, a modo de ejemplo, cómo los elementos de tiempo que comprenden el subflujo 305 de audio de la figura 3 pueden agruparse para formar segmentos. La gráfica representa la clasificación de audio frente a tramas de tiempo (trama de tiempo [x]). Tal como se muestra, las tramas iniciales (tramas 1-20.000) se clasifican mayoritariamente como tramas de música (2). Después de lo cual, las tramas sucesivas se clasifican mayoritariamente como tramas (4) de ruido, seguidos de tramas (7) de voz y música (7).
Los detalles de la clasificación de audio se describen adicionalmente en "Classification of general audio data for content-based retrieval" (Clasificación de datos de audio generales para la recuperación basada en contenidos), Pattern Recognition Letters, Vol. 22, número 5, páginas 533-544 (2001), Dongge Li, Ishwar K. Sethi, Nevanka Dimitrova, incorporado como referencia en el presente documento en su totalidad.
\vskip1.000000\baselineskip
Creación de segmentos de texto
Para crear segmentos de texto, los límites de segmento podrían definirse para ser límites de sentencia basándose en la puntuación proporcionada en la parte de subtítulo (closed-caption) de la secuencia 101, 102 de vídeo de entrada.
\vskip1.000000\baselineskip
220.e
Determinación del valor de importancia de segmento
La determinación del valor de importancia de segmento puede realizarse de una forma promediando los valores de importancia de trama de las tramas que comprenden cada segmento para generar una única clasificación o puntuación. Otra forma de calcular una determinación de valor de importancia de segmento es tomar el valor de importancia de trama más alto dentro del segmento y asignarlo al segmento entero.
\vskip1.000000\baselineskip
220.f
Clasificación de segmentos
En la acción 220.e, se calcula una clasificación (puntuación) de segmentos para cada segmento identificado en la etapa 220.d en cada una de las modalidades respectivas. Adicionalmente, se clasifican los segmentos clasificados en orden de importancia basándose en la clasificación o puntuación calculada.
La tabla 6 muestra, a modo de ejemplo, cómo se clasifican los segmentos de vídeo (columna 1) y sus valores de importancia de segmento asociados (columna 2). Las tablas 7 y 8 muestran una construcción similar para las modalidades de audio y texto, respectivamente.
TABLA 6 Clasificación de importancia de segmento visual
11
TABLA 7 Clasificación de importancia de segmento de audio
13
TABLA 8 Clasificación de importancia de segmento de texto
14
220.g
Identificación de elementos clave
En la acción 220.f, se identifican los elementos clave basándose en las clasificaciones de segmentos de la acción 220.e
Las figuras 7a-c ilustran a modo de ejemplo, varias formas de identificar elementos clave. A modo de ejemplo, las figuras 7a-c son gráficas de (valor de importancia de trama por) frente a (segmento) que podrían representar cualquiera de las modalidades descritas anteriormente, es decir, las tablas 6, 7 u 8.
La figura 7a es una gráfica que muestra un primer método de identificación de elementos clave. Los elementos clave se identifican seleccionando cualquier segmento que aparece por encima de un umbral predeterminado.
La figura 7b es una gráfica que muestra un segundo método de identificación de elementos clave. Los elementos clave se identifican seleccionando los máximos locales, es decir, "A", "B", "C", que aparecen por encima de un umbral, Th, predeterminado.
La figura 7c es una gráfica que muestra un tercer método de identificación de elementos clave. Los elementos clave se identifican seleccionando los primeros máximos N locales sin considerar un criterio de umbral.
Se observa que el proceso de identificación de elementos clave descrito anteriormente y mostrado con referencia a las figuras 7a-c puede modificarse adicionalmente según un perfil de visualización de usuario. Se conoce bien que los sistemas de recomendación generalmente funcionan recomendando elementos a usuarios particulares basándose en la información conocida sobre los usuarios. Normalmente tales sistemas desarrollan perfiles de clientes basándose en la visualización anterior o hábitos de adquisición del cliente. En el presente contexto, un perfil de visualización de usuario puede crearse y preferiblemente almacenarse en la base 117 de datos de preferencia del usuario junto con otros datos de perfil de usuario descritos anteriormente. El perfil de visualización del usuario puede entonces utilizarse para crear una función de correspondencia para trazar la gráfica descrita anteriormente de (valor de importancia) frente a (segmento), tal como muestran las figuras 7a-c, a una segunda función que explica las preferencias de visualización del usuario. Este proceso es opcional y puede implementarse para cualquiera o todas las modalidades.
Obviamente, son posibles numerosas modificaciones y variaciones de la presente invención en vistas a las enseñanzas anteriores. Por lo tanto, debe entenderse que la invención puede ponerse en práctica de una forma distinta a la especificada en el presente documento dentro del alcance de las reivindicaciones adjuntas.

Claims (33)

1. Método para resumir al menos un flujo (101, 102) multimedia, comprendiendo el método:
a.
recibir o recuperar dicho al menos un flujo (101, 102) multimedia que comprende información de vídeo, audio y texto;
b.
dividir el al menos un flujo (101, 102) multimedia en un subflujo (303) de vídeo, un subflujo (305) de audio y un subflujo (307) de texto;
c.
identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), audio (305) y texto (307), respectivamente;
d.
calcular un valor de importancia para los elementos clave identificados de vídeo, audio y texto identificados en dicha etapa (c);
e.
filtrar por primera vez los elementos clave de vídeo, audio y texto identificados para excluir aquellos elementos clave cuyo valor de importancia asociado es menor que un umbral de importancia de vídeo, audio y texto predefinido, respectivamente; y
f.
filtrar por segunda vez los elementos clave restantes de dicha etapa (e) según un perfil de usuario;
g.
filtrar por tercera vez los elementos clave restantes de dicha etapa (f) según restricciones de red y de dispositivo de usuario;
h.
emitir un resumen (120) multimedia a partir de los elementos clave restantes de dicha etapa (g).
2. Método según la reivindicación 1, en el que dicho al menos un flujo (101, 102) multimedia es uno de un flujo multimedia analógico y digital.
3. Método según la reivindicación 1, en el que la etapa de dividir el al menos un flujo (101, 102) multimedia en un subflujo (303) de vídeo comprende además la etapa de identificar y agrupar dicho al menos un flujo (101, 102) multimedia en una pluralidad de historias (330) de noticias en la que cada historia (330) de noticias identificada comprende una parte (311, 312) de presentación y una parte (321, 322) de reportaje.
4. Método según la reivindicación 1, en el que la etapa de dividir el al menos un flujo (101, 102) multimedia en un subflujo (305) de audio comprende además dividir dicho al menos un flujo (101, 102) multimedia en una pluralidad de tramas (306) de igual tamaño de una duración de tiempo fija.
5. Método según la reivindicación 1, en el que la etapa de dividir el al menos un flujo (101, 102) multimedia en un subflujo (307) de texto comprende además dividir dicho al menos un flujo (101, 102) multimedia en una pluralidad de tramas (308) en la que cada trama de dicha pluralidad de tramas se define en un límite de palabra.
6. Método según la reivindicación 1, en el que la acción de identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), audio (305) y texto (307) comprende además las acciones de:
1.)
identificar características de bajo (510), medio (710) y alto (910) nivel de la pluralidad de tramas que comprenden dichos subflujos de vídeo (303), audio (305) y texto (307);
2.)
determinar un valor de importancia para cada una de dichas características de bajo (510), medio (710) y alto (910) nivel extraídas de dicha acción de identificación;
3.)
calcular un valor de importancia de trama para cada una de dicha pluralidad de tramas que comprenden dichos subflujos de vídeo (303), audio (305) y texto (307) como una función de los valores de importancia de los valores de importancia de característica determinados en dicha acción de determina- ción;
4.)
combinar las tramas en segmentos en cada uno de dichos subflujos de vídeo (303), audio (305) y texto (307);
5.)
calcular un valor de importancia por segmento para cada segmento de dicha acción de combinación;
6.)
clasificar los segmentos en base a dicho valor de importancia calculado en dicha etapa de cálculo; e
7.)
identificar elementos clave en base a dichos segmentos clasificados.
\newpage
7. Método según la reivindicación 6, en el que dicha acción (3) de calcular un valor de importancia de trama para cada una de dichas características de bajo (510), medio (710) y alto (910) nivel extraídas comprende además calcular dicho valor de importancia mediante uno de los medios de probabilidad determinística, estadística y condicional.
8. Método según la reivindicación 7, en el que dicho medio probabilístico comprende calcular dicho valor de importancia de trama como una de las distribuciones Gaussiana, de Poisson, de Rayleigh y de Bernoulli.
9. Método según la reivindicación 8, en el que dicha distribución Gaussiana para calcular dicho valor de importancia de trama se calcula como:
\vskip1.000000\baselineskip
15
donde:
\theta es cualquiera de las características;
\theta_{1} es la media del valor de característica; y
\theta_{2} es la desviación esperada.
10. Método según la reivindicación 7, en el que dicho medio determinístico comprende calcular dicho valor de importancia de trama como:
\vskip1.000000\baselineskip
Importancia de trama = \sum w_{i}f_{i}
donde:
f_{i} representa características de nivel bajo, de nivel medio y de nivel alto; y
w_{i} representa los factores de ponderación para ponderar dichas características.
11. Método según la reivindicación 6, en el que dicha etapa (4) de combinar las tramas en segmentos de vídeo comprende adicionalmente combinar dichas tramas mediante uno de medios de cálculo de histograma de conjunto y medios de detección de cambio de toma.
12. Método según la reivindicación 6, en el que dicha etapa (4) de combinar las tramas en segmentos de audio comprende adicionalmente las etapas de:
categorizar cada trama de dicho subflujo (305) de audio como una de trama de voz, trama de música, trama de silencio, trama de ruido, trama de voz + voz, trama de voz + ruido y trama de voz + música; y
agrupar tramas consecutivas que tienen la misma categorización.
13. Método según la reivindicación 6, en el que la etapa (4) de la acción de combinar las tramas en segmentos de texto comprende adicionalmente combinar dichas tramas en base a la puntuación incluida en dicho subflujo (307) de texto.
14. Método según la reivindicación 6, en el que dicha etapa (5) de calcular un valor de importancia por segmento comprende adicionalmente promediar los valores de importancia de trama para aquellas tramas que comprenden dicho segmento.
15. Método según la reivindicación 6, en el que dicha etapa (5) de calcular un valor de importancia por segmento comprende adicionalmente utilizar el valor de importancia de trama más alto en dicho segmento.
16. Método según la reivindicación 6, en el que dicha etapa (7) de identificar elementos clave en base a dichas clasificaciones comprende adicionalmente identificar elementos clave cuya clasificación de segmento es superior a un umbral de clasificación de segmento predeterminado.
17. Método según la reivindicación 6, en el que dicha etapa (7) de identificar elementos clave en base a dichas clasificaciones comprende adicionalmente identificar elementos clave cuya clasificación de segmento es superior a un umbral de clasificación de segmento predeterminado y constituye un máximo local.
18. Método según la reivindicación 6, en el que dicha etapa (7) de identificar elementos clave en base a dichas clasificaciones comprende adicionalmente identificar elementos clave cuya clasificación de segmento constituye un máximo local.
19. Sistema (100) para resumir al menos un flujo (101, 102) multimedia que comprende: un módulo (103) de división y reconocimiento de modalidad (MRAD) que comprende un módulo (103a) identificador de segmento de historia (SSI), un módulo (103b) identificador de audio (AI) y un módulo (103c) identificador de texto (TI), estando el módulo (103) MRAD acoplado de manera comunicativa a una primera fuente (110) externa para recibir dicho al menos un flujo (101, 102) multimedia, estando el módulo (103) MRAD acoplado de manera comunicativa a una segunda fuente (112) externa para recibir dicho al menos un flujo (101, 102) multimedia, dividiendo el módulo (103) MRAD dicho al menos un flujo (101, 102) multimedia en un subflujo de vídeo (303), de audio (305) y de texto (307) y emitiendo dichos subflujos de vídeo (303), de audio (305) y de texto (307) a un módulo (105) KEI, comprendiendo el módulo (105) KEI un módulo (107) de extracción de características (FE) y un módulo (109) de valor de importancia (IV) para identificar elementos clave de dentro de dichos subflujos de vídeo (303), de audio (305) y de texto (307) y asignando valores de importancia a los mismos, estando el módulo (105) KEI acoplado de manera comunicativa a un filtro (111) de elementos clave (KEF) para recibir los elementos clave identificados y filtrar dichos elementos clave que son superiores a un criterio de umbral predeterminado, estando el módulo (111) KEF acoplado de manera comunicativa a un filtro (113) de perfil de usuario (UPF) para recibir elementos clave filtrados y filtrando adicionalmente dichos elementos clave filtrados según un perfil de usuario, estando el módulo (113) UPF acoplado de manera comunicativa a un módulo (115) de restricción de dispositivo y red (NADC), recibiendo dicho módulo (115) NADC dichos elementos clave filtrados adicionalmente y filtrando adicionalmente dichos elementos clave filtrados adicionalmente según restricciones de red y/o dispositivo de usuario, emitiendo el módulo (115) NADC un resumen (120) multimedia de dicho al menos un flujo (101, 102) multimedia.
20. Sistema según la reivindicación 19, que comprende adicionalmente una base (117) de datos de preferencia de usuario acoplada de manera comunicativa a dicho módulo (113) UPF para almacenar perfiles de usuario.
21. Sistema según la reivindicación 19, en el que la primera fuente (110) externa es un selector de canal de transmisión.
22. Sistema según la reivindicación 19, en el que la primera fuente (110) externa es una fuente de flujo de vídeo.
23. Sistema según la reivindicación 19, en el que dicho al menos un flujo (101, 102) multimedia es uno de un flujo multimedia analógico y digital.
24. Sistema según la reivindicación 19, en el que el módulo (115) NADC está conectado de manera comunicativa a una red (122) externa acoplada a un dispositivo (124) de usuario.
25. Sistema según la reivindicación 19, en el que la red (122) es Internet.
26. Artículo de fabricación para resumir al menos un flujo (101, 102) multimedia, que comprende: un medio legible por ordenador que tiene medios de código legibles por ordenador realizados sobre el mismo, comprendiendo dichos medios de código de programa legible por ordenador:
una acción de recibir o recuperar dicho al menos un flujo (101, 102) multimedia que comprende información de vídeo, audio y texto;
una acción de dividir dicho al menos un flujo (101, 102) multimedia en un subflujo (303) de vídeo, un subflujo (305) de audio y un subflujo (307) de texto;
una acción de identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), audio (305) y texto (307), respectivamente;
una acción de calcular un valor de importancia para los elementos clave identificados de vídeo, audio y texto identificados en dicha acción de identificación;
una acción de primer filtrado de los elementos clave de vídeo, audio y texto identificados para excluir aquellos elementos clave cuyo valor de importancia asociado es menor que un umbral de importancia predefinido de vídeo, audio y texto, respectivamente;
y
una acción de segundo filtrado de los elementos clave restantes de dicha primera acción de filtrado según un perfil de usuario;
una acción de tercer filtrado de los elementos clave restantes de dicha segunda acción de filtrado según restricciones de red y dispositivo de usuario; y
una acción de emitir un resumen (120) multimedia de los elementos clave restantes de dicha tercera acción de tercer filtrado.
27. Artículo de fabricación según la reivindicación 26, en el que adicionalmente la acción de identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), de audio (305) y de texto (307), respectivamente, comprende adicionalmente:
una acción de identificar características de nivel bajo (510), medio (710) y alto (910) de la pluralidad de tramas que comprenden dichos subflujos de vídeo (303), de audio (305) y de texto (307);
una acción de determinar un valor de importancia para cada una de dichas características de nivel bajo (510), medio (710) y alto (910) de dicha acción de identificación;
una acción de calcular un valor de importancia de trama para cada una de dicha pluralidad de tramas que comprenden dichos subflujos de vídeo (303), de audio (305) y de texto (307) como una función de los valores de importancia de los valores de importancia de característica determinados en dicha etapa de determinación;
una acción de combinar las tramas en segmentos en cada uno de dichos subflujos de vídeo (303), de audio (305) y de texto (307);
una acción de calcular un valor de importancia por segmento para cada segmento de dicha acción de combinación;
una acción de clasificar los segmentos en base a dicho valor de importancia calculado en dicha acción de cálculo; y
una acción de identificar elementos clave en base a segmentos clasificados.
ES04737196T 2003-06-30 2004-06-28 Sistema y metodo para generar un resumen multimedia de flujos multimedia. Expired - Lifetime ES2277260T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US48376503P 2003-06-30 2003-06-30
US483765P 2003-06-30

Publications (1)

Publication Number Publication Date
ES2277260T3 true ES2277260T3 (es) 2007-07-01

Family

ID=33552073

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04737196T Expired - Lifetime ES2277260T3 (es) 2003-06-30 2004-06-28 Sistema y metodo para generar un resumen multimedia de flujos multimedia.

Country Status (8)

Country Link
US (1) US7738778B2 (es)
EP (1) EP1642212B1 (es)
JP (1) JP2007519053A (es)
KR (1) KR101150748B1 (es)
AT (1) ATE347143T1 (es)
DE (1) DE602004003497T2 (es)
ES (1) ES2277260T3 (es)
WO (1) WO2005001715A1 (es)

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6769128B1 (en) 1995-06-07 2004-07-27 United Video Properties, Inc. Electronic television program guide schedule system and method with data feed access
CA2297039C (en) 1997-07-21 2002-02-12 Ronald Alexander Systems and methods for displaying and recording control interface with television programs, videos, advertising information and program scheduling information
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
US6898762B2 (en) 1998-08-21 2005-05-24 United Video Properties, Inc. Client-server electronic program guide
US9477665B2 (en) * 1999-05-05 2016-10-25 Virtual Creative Artists, LLC Revenue-generating electronic multi-media exchange and process of operating same
KR20170128620A (ko) 2000-10-11 2017-11-22 로비 가이드스, 인크. 매체 콘텐츠 배달 시스템 및 방법
US7493646B2 (en) 2003-01-30 2009-02-17 United Video Properties, Inc. Interactive television systems with digital video recording and adjustable reminders
JP2005277531A (ja) * 2004-03-23 2005-10-06 Seiko Epson Corp 動画像処理装置
JP4935355B2 (ja) * 2004-08-10 2012-05-23 ソニー株式会社 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
US8266019B2 (en) * 2004-12-22 2012-09-11 Hewlett-Packard Development Company, L.P. Optimizing retrieval of object-associated information
US20060152504A1 (en) * 2005-01-11 2006-07-13 Levy James A Sequential retrieval, sampling, and modulated rendering of database or data net information using data stream from audio-visual media
DE102005016866A1 (de) * 2005-04-12 2006-10-19 Siemens Ag Verfahren sowie Vorrichtung zum Synchronisieren von inhaltsbezogenen ersten Datensegmenten einer ersten Datendatei und inhaltsbezogenen zweiten Datensegmenten einer zweiten Datendatei
JP4556752B2 (ja) * 2005-04-18 2010-10-06 株式会社日立製作所 コマーシャル視聴制御機能を有する録画再生装置
US7684566B2 (en) * 2005-05-27 2010-03-23 Microsoft Corporation Encryption scheme for streamed multimedia content protected by rights management system
US8321690B2 (en) 2005-08-11 2012-11-27 Microsoft Corporation Protecting digital media of various content types
WO2007043348A1 (ja) * 2005-10-13 2007-04-19 Pioneer Corporation 録画データ再生装置およびプログラム
KR100703801B1 (ko) * 2005-10-21 2007-04-06 삼성전자주식회사 Av 태스크 계산 방법, av 태스크 계산을 위한 요약정보 제공 방법 및 이를 위한 장치
US7761293B2 (en) * 2006-03-06 2010-07-20 Tran Bao Q Spoken mobile engine
JP2007274556A (ja) * 2006-03-31 2007-10-18 Toshiba Corp コンテンツデータ送信装置
WO2007127695A2 (en) * 2006-04-25 2007-11-08 Elmo Weber Frank Prefernce based automatic media summarization
US20080222120A1 (en) * 2007-03-08 2008-09-11 Nikolaos Georgis System and method for video recommendation based on video frame features
KR100785927B1 (ko) 2006-06-02 2007-12-17 삼성전자주식회사 데이터 요약 생성 방법 및 장치
US8094997B2 (en) * 2006-06-28 2012-01-10 Cyberlink Corp. Systems and method for embedding scene processing information in a multimedia source using an importance value
JP2009543411A (ja) * 2006-07-04 2009-12-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ置換の方法
US8930984B2 (en) 2006-07-04 2015-01-06 Koninklijke Philips N.V. Method of content substitution
JP4835321B2 (ja) * 2006-08-21 2011-12-14 ソニー株式会社 番組提供方法、番組提供方法のプログラム、番組提供方法のプログラムを記録した記録媒体及び番組提供装置
KR100803747B1 (ko) * 2006-08-23 2008-02-15 삼성전자주식회사 요약 클립 생성 시스템 및 이를 이용한 요약 클립 생성방법
US20080051029A1 (en) * 2006-08-25 2008-02-28 Bradley James Witteman Phone-based broadcast audio identification
US20080049704A1 (en) * 2006-08-25 2008-02-28 Skyclix, Inc. Phone-based broadcast audio identification
EP1919216A1 (en) * 2006-10-30 2008-05-07 British Telecommunications Public Limited Company Personalised media presentation
US8090694B2 (en) 2006-11-02 2012-01-03 At&T Intellectual Property I, L.P. Index of locally recorded content
US7801888B2 (en) 2007-03-09 2010-09-21 Microsoft Corporation Media content search results ranked by popularity
US10528629B2 (en) * 2007-04-03 2020-01-07 Oath Inc. Systems and methods for providing syndicated content
US20090019492A1 (en) 2007-07-11 2009-01-15 United Video Properties, Inc. Systems and methods for mirroring and transcoding media content
US20090060469A1 (en) * 2007-08-31 2009-03-05 United Video Properties, Inc. Systems and methods for recording popular media in an interactive media delivery system
JP2009124510A (ja) * 2007-11-15 2009-06-04 Canon Inc 表示制御装置及びその方法、プログラム、記録媒体
US8422787B2 (en) * 2007-12-27 2013-04-16 Nec Corporation Apparatus, method and program for text segmentation
FR2926695B1 (fr) * 2008-01-21 2013-08-09 Alcatel Lucent Procede de preparation de contenus de programmes audiovisuels, et systeme associe
DE102008018679B4 (de) * 2008-04-14 2010-11-25 Siemens Aktiengesellschaft Vorrichtung zum Filtern und Übertragen dynamischer Daten und Verfahren zum Filtern und Übertragen dynamischer Daten
US8655953B2 (en) * 2008-07-18 2014-02-18 Porto Technology, Llc System and method for playback positioning of distributed media co-viewers
US8818803B2 (en) * 2008-10-27 2014-08-26 Frank Elmo Weber Character-based automated text summarization
US10063934B2 (en) 2008-11-25 2018-08-28 Rovi Technologies Corporation Reducing unicast session duration with restart TV
WO2010109613A1 (ja) * 2009-03-25 2010-09-30 富士通株式会社 再生制御プログラム、再生制御方法及び再生装置
US9014546B2 (en) 2009-09-23 2015-04-21 Rovi Guides, Inc. Systems and methods for automatically detecting users within detection regions of media devices
KR101786051B1 (ko) * 2009-11-13 2017-10-16 삼성전자 주식회사 데이터 제공 방법 및 장치와 데이터 수신 방법 및 장치
US8495105B2 (en) * 2009-12-22 2013-07-23 International Business Machines Corporation Consolidating input messages for social activity summarization
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US20110191141A1 (en) * 2010-02-04 2011-08-04 Thompson Michael L Method for Conducting Consumer Research
JP2011205217A (ja) * 2010-03-24 2011-10-13 Sony Corp 情報処理装置、情報処理方法、プログラム
US20120183271A1 (en) * 2011-01-17 2012-07-19 Qualcomm Incorporated Pressure-based video recording
US9137573B2 (en) * 2011-06-06 2015-09-15 Netgear, Inc. Systems and methods for managing media content based on segment-based assignment of content ratings
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
US9015109B2 (en) 2011-11-01 2015-04-21 Lemi Technology, Llc Systems, methods, and computer readable media for maintaining recommendations in a media recommendation system
US8903911B2 (en) * 2011-12-05 2014-12-02 International Business Machines Corporation Using text summaries of images to conduct bandwidth sensitive status updates
US8805418B2 (en) 2011-12-23 2014-08-12 United Video Properties, Inc. Methods and systems for performing actions based on location-based rules
EP2739061A1 (en) * 2012-11-30 2014-06-04 Alcatel Lucent Multi resolutions adaptive video summarization and its adaptive delivery
US20140181668A1 (en) 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
US20140201103A1 (en) * 2013-01-14 2014-07-17 National Cheng Kung University System for research and development information assisting in investment, and a method, a computer program, and a readable and recordable media for computer thereof
US9807474B2 (en) 2013-11-15 2017-10-31 At&T Intellectual Property I, Lp Method and apparatus for generating information associated with a lapsed presentation of media content
US9286938B1 (en) 2014-01-02 2016-03-15 Google Inc. Generating and providing different length versions of a video
US9940099B2 (en) * 2014-01-03 2018-04-10 Oath Inc. Systems and methods for content processing
US10664687B2 (en) * 2014-06-12 2020-05-26 Microsoft Technology Licensing, Llc Rule-based video importance analysis
US20160041998A1 (en) * 2014-08-05 2016-02-11 NFL Enterprises LLC Apparatus and Methods for Personalized Video Delivery
US20160267175A1 (en) * 2014-08-27 2016-09-15 Samsung Electronics Co., Ltd. Electronic apparatus and method of extracting highlight section of sound source
US10331398B2 (en) 2015-05-14 2019-06-25 International Business Machines Corporation Reading device usability
US10090020B1 (en) * 2015-06-30 2018-10-02 Amazon Technologies, Inc. Content summarization
US10158983B2 (en) 2015-07-22 2018-12-18 At&T Intellectual Property I, L.P. Providing a summary of media content to a communication device
ES2946807T3 (es) 2015-09-01 2023-07-26 Dream It Get It Ltd Recuperación de unidad de medios y procesos relacionados
US9965680B2 (en) 2016-03-22 2018-05-08 Sensormatic Electronics, LLC Method and system for conveying data from monitored scene via surveillance cameras
US10733231B2 (en) * 2016-03-22 2020-08-04 Sensormatic Electronics, LLC Method and system for modeling image of interest to users
US10140259B2 (en) 2016-04-28 2018-11-27 Wipro Limited Method and system for dynamically generating multimedia content file
US10440431B1 (en) * 2016-11-28 2019-10-08 Amazon Technologies, Inc. Adaptive and automatic video scripting
US10783315B2 (en) * 2016-12-15 2020-09-22 Microsoft Technology Licensing, Llc Contextually sensitive summary
US10423409B2 (en) * 2017-04-21 2019-09-24 Semmle Limited Weighting static analysis alerts
US10587919B2 (en) 2017-09-29 2020-03-10 International Business Machines Corporation Cognitive digital video filtering based on user preferences
US11363352B2 (en) 2017-09-29 2022-06-14 International Business Machines Corporation Video content relationship mapping
JP6904428B2 (ja) 2017-10-17 2021-07-14 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
KR102542788B1 (ko) * 2018-01-08 2023-06-14 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품
CN108650558B (zh) * 2018-05-30 2021-01-15 互影科技(北京)有限公司 基于交互视频的视频前情提要的生成方法及装置
WO2020029235A1 (en) * 2018-08-10 2020-02-13 Microsoft Technology Licensing, Llc Providing video recommendation
US20200186852A1 (en) * 2018-12-07 2020-06-11 Arris Enterprises Llc Methods and Systems for Switching Between Summary, Time-shifted, or Live Content
KR102124825B1 (ko) * 2018-12-27 2020-06-19 주식회사 산타 자동적으로 영상을 트리밍하는 방법 및 그를 이용한 서버
KR20200107758A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
TWI716033B (zh) * 2019-07-15 2021-01-11 李姿慧 影像配樂智能系統
CN111163366B (zh) * 2019-12-30 2022-01-18 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
US11308331B2 (en) * 2019-12-31 2022-04-19 Wipro Limited Multimedia content summarization method and system thereof
US11315568B2 (en) 2020-06-09 2022-04-26 International Business Machines Corporation Summarizing multi-modal conversations in a multi-user messaging application
US11675822B2 (en) * 2020-07-27 2023-06-13 International Business Machines Corporation Computer generated data analysis and learning to derive multimedia factoids
US11314970B1 (en) * 2020-11-19 2022-04-26 Adobe Inc. Reinforcement learning techniques for automated video summarization
CN113052149B (zh) * 2021-05-20 2021-08-13 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN113660541B (zh) * 2021-07-16 2023-10-13 北京百度网讯科技有限公司 新闻视频的摘要生成方法及装置
US20230068502A1 (en) * 2021-08-30 2023-03-02 Disney Enterprises, Inc. Multi-Modal Content Based Automated Feature Recognition

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5798785A (en) * 1992-12-09 1998-08-25 Discovery Communications, Inc. Terminal for suggesting programs offered on a television program delivery system
US6125229A (en) 1997-06-02 2000-09-26 Philips Electronics North America Corporation Visual indexing system
US6100941A (en) * 1998-07-28 2000-08-08 U.S. Philips Corporation Apparatus and method for locating a commercial disposed within a video data stream
CN1116649C (zh) * 1998-12-23 2003-07-30 皇家菲利浦电子有限公司 个性化视频分类与获取系统
JP2002259720A (ja) 2001-03-02 2002-09-13 Internatl Business Mach Corp <Ibm> コンテンツ要約システム、映像要約システム、ユーザ端末、要約映像生成方法、要約映像受信方法、およびプログラム
US20030107592A1 (en) * 2001-12-11 2003-06-12 Koninklijke Philips Electronics N.V. System and method for retrieving information related to persons in video programs

Also Published As

Publication number Publication date
JP2007519053A (ja) 2007-07-12
DE602004003497T2 (de) 2007-09-13
US20060165379A1 (en) 2006-07-27
EP1642212A1 (en) 2006-04-05
EP1642212B1 (en) 2006-11-29
ATE347143T1 (de) 2006-12-15
KR20060027377A (ko) 2006-03-27
WO2005001715A1 (en) 2005-01-06
US7738778B2 (en) 2010-06-15
KR101150748B1 (ko) 2012-06-08
DE602004003497D1 (de) 2007-01-11

Similar Documents

Publication Publication Date Title
ES2277260T3 (es) Sistema y metodo para generar un resumen multimedia de flujos multimedia.
KR100711948B1 (ko) 개인화된 비디오 분류 및 검색 시스템
US9202523B2 (en) Method and apparatus for providing information related to broadcast programs
US20190320003A1 (en) Media production system with score-based display feature
US11412293B2 (en) Modifying digital video content
JP2006525755A (ja) ビデオコンテンツを閲覧する方法及びシステム
US11551723B2 (en) Computing system with DVE template selection and video content item generation feature
US20090213269A1 (en) Content Slider
WO2004091210A1 (ja) 動画処理装置、情報処理装置およびそのプログラム
KR20160098951A (ko) 컨텐츠 공유 서버, 컨텐츠 공유 서버의 컨텐츠 리스트 제공 방법 및 컴퓨터 프로그램
KR20050004216A (ko) 프리젠테이션 합성기
Canella Video goes vertical: Local news videographers discuss the problems and potential of vertical video
KR20020072111A (ko) 비디오 텍스트 합성 키 프레임 추출방법
JP2015039094A (ja) コンテンツ提供装置、コンテンツ提供装置にて実行されるプログラム、テレビ受像機、プログラムを記憶した記憶媒体
EP1500271A1 (en) Method and system for providing personalized news
KR100757422B1 (ko) 방송 프로그램의 시청 이력 관리 방법
CN116828270B (zh) 一种视频数据流智能分段标签方法
KR102287281B1 (ko) 시선 분석 방법 및 이를 수행하기 위한 장치
KR102331268B1 (ko) 장소 정보 기반의 추천 시스템
KR101860357B1 (ko) 사용자 행위에 기반한 영상 서비스 방법 및 장치
CA3044685A1 (en) Video production system with dynamic character generator output
JP2018098721A (ja) 情報処理装置及び情報処理方法