ES2277260T3

ES2277260T3 - Sistema y metodo para generar un resumen multimedia de flujos multimedia.

Info

Publication number: ES2277260T3
Application number: ES04737196T
Authority: ES
Inventors: Lalitha Agnihotri; Nevenka Dimitrova
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-06-30
Filing date: 2004-06-28
Publication date: 2007-07-01
Anticipated expiration: 2024-06-28
Also published as: JP2007519053A; DE602004003497T2; US20060165379A1; EP1642212A1; EP1642212B1; ATE347143T1; KR20060027377A; WO2005001715A1; US7738778B2; KR101150748B1; DE602004003497D1

Abstract

Método para resumir al menos un flujo (101, 102) multimedia, comprendiendo el método: a. recibir o recuperar dicho al menos un flujo (101, 102) multimedia que comprende información de vídeo, audio y texto; b. dividir el al menos un flujo (101, 102) multimedia en un subflujo (303) de vídeo, un subflujo (305) de audio y un subflujo (307) de texto; c. identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), audio (305) y texto (307), respectivamente; d. calcular un valor de importancia para los elementos clave identificados de vídeo, audio y texto identificados en dicha etapa (c); e. filtrar por primera vez los elementos clave de vídeo, audio y texto identificados para excluir aquellos elementos clave cuyo valor de importancia asociado es menor que un umbral de importancia de vídeo, audio y texto predefinido, respectivamente; y f. filtrar por segunda vez los elementos clave restantes de dicha etapa (e) según un perfil de usuario; g. filtrar por tercera vez los elementos clave restantes de dicha etapa (f) según restricciones de red y de dispositivo de usuario; h. emitir un resumen (120) multimedia a partir de los elementos clave restantes de dicha etapa (g).

Description

Sistema y método para generar un resumen multimedia de flujos multimedia.

La presente invención se refiere en general al resumen de imágenes de vídeo o en movimiento, y en particular a un sistema y método para proporcionar un resumen multimedia (vídeo/audio/texto) de una transmisión de noticias para permitir a un usuario navegar mejor y decidir sobre la visualización de la transmisión.

La cantidad del contenido de vídeo está expandiéndose a una velocidad que aumenta cada vez más. Simultáneamente, está disminuyendo el tiempo disponible para los espectadores para consumir o visualizar de otra manera todo el contenido de vídeo deseable. El aumento de la cantidad de contenido de vídeo unido a la disminución del tiempo disponible para visualizar el contenido de vídeo se hace cada vez más problemático para los espectadores a la hora de visualizar todo el contenido potencialmente deseable en su totalidad. Por lo tanto, los espectadores son cada vez más selectivos con respecto al contenido de vídeo que seleccionan visualizar. Para adaptarse a las demandas de los espectadores, se han desarrollado técnicas para proporcionar un resumen del vídeo que representa de alguna manera todo el vídeo. El propósito normal de la creación de un resumen de vídeo es obtener una representación compacta del vídeo original para una visualización posterior.

Se realizan avances continuamente en el campo de la segmentación y la identificación automatizada de historias, tal como lo evidencian el BNE (Broadcast News Editor) y BNN (Broadcast News Navigator) de la entidad MITRE Corporation (Andrew Merlino, Daryl Morey, and Mark Maybury, MITRE Corporation, Bedford MA, Broadcast News Navigation using Story Segmentation, ACM Multimedia Conference Proceeding, 1997, pág. 381-389). Al utilizar el BNE los informativos se dividen automáticamente en segmentos de historias individuales, y la primera línea del texto de subtitulo asociado al segmento se usa como un resumen de cada historia. Las palabras clave del texto de subtítulo o del audio se determinan para cada segmento de historia que corresponde a las palabras de búsqueda. Basándose en la frecuencia de apariciones de las palabras clave correspondientes, el usuario selecciona las historias de interés. Las técnicas de búsqueda y recuperación similares son cada vez más comunes en la técnica. Por ejemplo, las técnicas de búsqueda de texto convencionales pueden aplicarse a una guía de televisión informatizada de manera que una persona puede buscar un nombre de un programa determinado, un artista determinado, programas de un tipo determinado, y similares.

El documento US-A-2002/0157095 describe un sistema que puede generar un resumen de contenidos de un flujo multimedia en el que los niveles de importancia para segmentos de contenido se determinan considerando un perfil de preferencias del usuario.

Una desventaja de las técnicas de búsqueda y recuperación tradicionales es la necesidad de una tarea de búsqueda explícita, y la correspondiente selección entre las alternativas basadas en la búsqueda explícita. Frecuentemente, sin embargo, un usuario no tiene en mente un tema de búsqueda explícita. En un escenario típico de navegación por canales, un usuario no tiene un tema de búsqueda explícita. Un usuario de navegación por canales muestrea aleatoriamente una variedad de canales para cualquiera de un número de temas que pueden ser de interés, en vez de buscar un tema particular específicamente. En otras palabras, por ejemplo, un usuario puede iniciar un muestreo aleatorio sin ningún tema particular en mente, y seleccionar uno de los muchos canales muestreados basándose en el tema que se estaba presentado en ese canal a la hora del muestreo. En otro escenario, un usuario puede estar monitorizando la televisión en un modo secundario, mientras realiza otra tarea, tal como leer o cocinar. Cuando aparece un tema de interés, el usuario redirige su foco de interés hacia la televisión, entonces devuelve su atención a la otra tarea cuando se presenta un tema menos interesante.

En consecuencia, es altamente deseable una técnica para generar automáticamente un resumen multimedia que resuma las partes de vídeo, audio y texto de un flujo de vídeo (transmisión de noticias) independientemente de que un usuario tenga que utilizar explícitamente palabras clave para buscar temas de noticias particulares.

La presente invención supera las deficiencias de la técnica anterior. Generalmente, la presente invención se dirige a un sistema y método para generar un resumen multimedia de una o más secuencias de vídeo de entrada que permite a un usuario navegar mejor y/o decidir sobre la visualización de las secuencias de vídeo en su totalidad. El resumen multimedia se construye automáticamente, basándose en parte en especificaciones del sistema, especificaciones del usuario y restricciones de red y dispositivo. En una aplicación particular de la invención, las secuencias de vídeo de entrada representan transmisiones de noticias.

Una característica de la invención es crear un resumen multimedia de un flujo de vídeo de entrada que es adecuado para el uso con una amplia variedad de dispositivos que van desde dispositivos con ancho de banda restringido tales como PDA y teléfonos móviles hasta dispositivos con ancho de banda no restringido tales como ordenadores personales y estaciones de trabajo multimedia.

Otra característica de la invención es proporcionar flexibilidad en la manera en la que se construye el resumen multimedia. Es decir, la invención permite al usuario personalizar el resumen multimedia para adaptarse a las preferencias de visualización del usuario particular. Más particularmente, un usuario puede proporcionar uno o más parámetros que especifican, por ejemplo, si el resumen multimedia ha de ser exhaustivo o rápido; si el resumen multimedia debería incluir solamente un resumen de una única historia principal o un resumen de las primeras historias principales; si el resumen debería incluir solamente texto, solamente audio o solamente vídeo o combinaciones de los mismos. El usuario también puede proporcionar uno o más parámetros de palabras clave, que utilizará el sistema de resumen para seleccionar las partes apropiadas de texto, audio y vídeo del flujo de vídeo de entrada para la inclusión en el resumen multimedia.

Según un aspecto de la invención, un método para generar un resumen multimedia de una transmisión de noticias comprende los actos de: recibir o recuperar un flujo multimedia que comprende información de vídeo, audio y texto; dividir el flujo multimedia en un subflujo de vídeo, un subflujo de audio y un subflujo de texto; identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo, audio y texto respectivamente; calcular un valor de importancia para los elementos clave identificados de vídeo, audio y texto identificados en dicha etapa de identificación; un primer filtrado de los elementos clave de vídeo, audio y texto identificados para excluir aquellos elementos clave cuyo valor de importancia asociado es menor que un umbral de importancia de vídeo, audio o texto respectivamente; y un segundo filtrado de los elementos clave restantes de dicha etapa de filtrado según un perfil de usuario; un tercer filtrado de los elementos clave restantes de dicha segunda etapa de filtrado según restricciones de red y dispositivo de usuario; y emitir un resumen multimedia a partir de los elementos clave restantes de dicha tercera etapa de filtrado.

Aunque esta invención es particularmente adecuada para transmisiones de noticias, los principios de esta invención también permiten que el usuario reciba un resumen multimedia de otros tipos de transmisiones. Por ejemplo, la invención puede aplicarse a resúmenes multimedia de vídeos de películas para permitir a un usuario navegar mejor y decidir sobre la visualización de la película en su totalidad.

La invención también comprende un artículo de fabricación para llevar a cabo el método. Otras características y ventajas de la invención se harán evidentes a partir de la siguiente descripción detallada, los dibujos y las reivindicaciones adjuntas, consideradas en combinación con los dibujos adjuntos en los que:

la figura 1 es un diagrama esquemático de una visión general de una realización a modo de ejemplo de un sistema de resumen multimedia según la presente invención;

la figura 2 es un diagrama de flujo de un método de resumen según la presente invención;

la figura 3 es un flujo de vídeo a modo de ejemplo de una transmisión de noticias típica;

la figura 4 es un diagrama de flujo de un método de identificación de elementos clave según la presente invención;

la figura 5 muestra un ejemplo de diagrama de bloques del proceso de extracción de características y derivación de características de un flujo multimedia de entrada; y

la figura 6 es una gráfica que muestra cómo los elementos de tiempo que comprenden el subflujo de audio pueden agruparse para formar segmentos; y

las figuras 7a-c son gráficas que muestran varias maneras para identificar elementos clave.

La presente invención se dirige a un sistema y método para resumir uno o más flujos multimedia de entrada a través de tres modalidades (vídeo, audio, texto).

Debe entenderse que los módulos de sistema y métodos a modo de ejemplo que se describen en el presente documento pueden implementarse en varias formas de hardware, software, firmware, procesadores con fines especiales, o una combinación de los mismos. Preferiblemente, la presente invención se implementa en software como un programa de aplicación realizado de manera tangible sobre uno o más dispositivos de almacenamiento de programa. El programa de aplicación puede ejecutarse por una máquina, dispositivo o plataforma que comprende arquitectura adecuada. Debe entenderse además que, debido a que algunos de los módulos de sistema constituyentes y métodos ilustrados en las figuras adjuntas se implementan preferiblemente en software, las conexiones reales entre los componentes del sistema (o actos del proceso) pueden ser distintas dependiendo de la manera en la que se programe la presente invención. Dadas las enseñanzas en el presente documento, un experto en la técnica podrá contemplar o practicar estas implementaciones o configuraciones y otras similares de la presente invención.

La presente invención incluye un producto de programa informático que es un medio (medios) de almacenamiento que tiene instrucciones almacenadas sobre/en el mismo que puede utilizarse para programar un ordenador para realizar cualquiera de los procesos de la presente invención. El producto de programa informático también puede incluir datos, por ejemplo, datos de entrada, que corresponden a cualquiera de los procesos de la presente invención. El medio de almacenamiento puede incluir, pero sin estar limitado a, cualquier tipo de discos incluyendo discos flexibles, discos ópticos, DVD, CD-ROM, microdrive, y discos magneto-ópticos, ROM, RAM, EPROM, EEPROM, DRAM, VRAM, dispositivos de memoria flash, tarjetas magnéticas u ópticas, nanosistemas (incluyendo CI de memoria molecular), o cualquier tipo de medio o dispositivo adecuado para almacenar instrucciones y/o datos.

Almacenado sobre uno cualquiera del medio (medios) legible por ordenador, la presente invención incluye software para controlar tanto el hardware de un ordenador o microprocesador de propósito general/especializado, y para posibilitar que el ordenador o microprocesador interactúe con un usuario humano u otro mecanismo que utiliza los resultados de la presente invención. Tal software puede incluir, pero no está limitado a, controladores de dispositivos, sistemas operativos, y aplicaciones de usuario. En última instancia, tal medio legible por ordenador incluye adicionalmente software para realizar la presente invención, tal como se describió anteriormente.

Arquitectura del Sistema

Con referencia a la figura 1, se muestra una perspectiva general esquemática de una realización de un sistema 100 de resumen multimedia según la presente invención. A modo de ejemplo no limitativo, el sistema 100 de resumen multimedia se presentará en el contexto de un sistema 100 de resumen para resumir historias de noticias, aunque las ampliaciones de los principios presentados en el presente documento a otras aplicaciones multimedia serán evidentes para un experto en la técnica.

En la realización mostrada en la figura 1, el sistema 100 de resumen multimedia recibe un flujo 101 multimedia como entrada desde un selector 110 de canal de transmisión, por ejemplo un sintonizador de televisión o receptor por satélite. El sistema 100 también puede recuperar un flujo 102 multimedia previamente almacenado desde un depósito 112 de almacenamiento de vídeo. El sistema 100 también puede recibir entrada en forma de un flujo de vídeo tal como desde un servidor en una red. Los flujos 101, 102 de entrada multimedia puede estar en forma digital o analógica, y la transmisión puede ser en cualquier forma de medio utilizado para comunicar los flujos 101, 102 incluyendo comunicaciones de punto a punto. En la realización mostrada en la figura 1, a modo de ejemplo no limitativo, los flujos 101, 102 multimedia de entrada corresponden a transmisiones de noticias, e incluyen múltiples historias de noticias con anuncios publicitarios intercalados. La transmisión de noticias podría representar, por ejemplo, un programa de noticias particular, tal como CNN Headline News, NBC Nightly News, etc.

En la realización mostrada en la figura 1, el sistema 100 de resumen multimedia comprende un módulo 103 de división y reconocimiento de modalidad (MRAD) para dividir los flujos 101, 102 multimedia de entrada en tres modalidades, denominados a continuación en el presente documento como subflujo 303 de vídeo, subflujo 305 de audio y subflujo 307 de texto. El módulo 103 MRAD comprende un módulo 103a identificador de segmentos de historias (SSI), un módulo 103b identificador de audio (AI), un módulo 103c identificador de texto (TI) para procesar los flujos 101, 102 multimedia de entrada y emitir los subflujos 303 de vídeo, 305 audio y 307 texto, respectivamente. Los subflujos 303, 305, 307 se emiten desde el módulo 103 MRAD hasta un módulo 105 identificador de elementos clave (KEI) para identificar elementos clave del interior de los subflujos 303, 305 y 307 respectivos. El módulo 105 KEI comprende un módulo 107 de extracción de características (FE), y un módulo 109 de valor de importancia (IV). La funcionalidad del módulo 105 KEI se describe en más detalle a continuación en relación con las figuras 4-7. La salida del módulo 105 KEI se acopla a la entrada del módulo 111 de filtro de elementos clave (KEF) que filtra los elementos clave identificados por el módulo 105 KEI, de una forma que se describe a continuación. Los elementos clave supervivientes emitidos desde KEK 111 se proporcionan como entrada a un filtro 113 de perfil de usuario (UPF) que filtra adicionalmente los elementos clave supervivientes según una preferencia de usuario predeterminada. Tal como se muestra, el módulo 113 UPF se acopla a uno o más dispositivos de almacenamiento (es decir, una base 117 de datos de preferencias de usuario) para almacenar las preferencias de usuario predeterminadas. La salida del módulo 113 UPF se acopla a la entrada del módulo 115 de restricción de red y dispositivo (NADC), que puede filtrar adicionalmente los elementos clave supervivientes emitidos desde el módulo 113 UPF según las condiciones de red imperantes y restricciones de dispositivo de usuario. El módulo 115 NADC emite el resumen 120 multimedia de la invención. Típicamente, un usuario remoto solicitará el resumen multimedia a través de un dispositivo 124 de cliente, estableciendo una interfaz con el sistema 100 de resumen, sobre una red 122 tal como Internet, Intranet o cualquier otra red adecuada. El dispositivo 124 de cliente puede ser cualquier dispositivo electrónico que puede funcionar para conectarse con y transmitir datos sobre la red 122. Por ejemplo, el dispositivo 124 de cliente puede incluir un dispositivo conectado por cable (por ejemplo, un ordenador personal, una estación de trabajo, o una máquina de fax) o un dispositivo inalámbrico (por ejemplo, un ordenador portátil, un ayudante personal digital (PDA), teléfono móvil, busca, teléfono inteligente, un dispositivo informático y de comunicación portátil o comunicador).

Funcionamiento

Se proporciona ahora una exposición general de una realización del método de resumen multimedia de la presente invención con respecto a las figuras 1-3. Después, se proporcionarán a continuación descripciones más detalladas de varios actos asociados con el método descrito.

En la figura 2, se muestra un método de resumen según una realización de la presente invención:

El proceso comienza en la acción 205.

En la acción 210, el sistema 100 de resumen multimedia recupera y/o recibe uno o más flujos 101, 102 multimedia (por ejemplo, transmisiones de noticias) como entrada.

Las figuras 3a-3d muestran, a modo de ejemplo, cómo puede dividirse un flujo multimedia de entrada (por ejemplo el flujo 101) según tres modalidades.

La figura 3a es una ilustración general de un flujo 101 multimedia de entrada (por ejemplo, transmisión 101 de noticias) que comprende componentes de vídeo, audio y texto distribuidos a lo largo del mismo. Tal como se mencionó anteriormente, la transmisión de noticias podría representar, por ejemplo, un programa de noticias particular, por ejemplo, CNN Headline News, NBC Nightly News, etc.

Las figuras 3b-3d muestran cómo puede dividirse el flujo 101 de vídeo de entrada, según tres modalidades.

En referencia primero a la figura 3b, según la modalidad de vídeo, se muestra un subflujo 303 de vídeo que representa el flujo 101 multimedia de entrada procesado para destacar la segmentación de historias de noticias. Se muestra el subflujo 303 de vídeo de la figura 3b como emitido desde el submódulo 103a identificador de segmentos de historias (SSI) del módulo 103 MRSAD. El subflujo 303 de vídeo a modo de ejemplo se divide mediante el submódulo 103a SSI en una pluralidad de tramas de vídeo (por ejemplo, tramas 1-25000) de las cuales solamente se muestran 40 para refacilitar la explicación. La división se basa en la construcción típica de una transmisión de noticias. Es decir, la transmisión de noticias específica sigue un formato común que es particularmente adecuado para la segmentación de historias. Por ejemplo, una primera historia o historia principal podría estar relacionada con acontecimientos políticos en Washington, una segunda historia de noticias podría estar relacionada con una huelga de trabajadores o un incendio en un edificio. Por ejemplo, tal como se muestra en la figura 3b, después de una trama 301 de introducción (trama 1), típicamente aparece 311 un periodista o presentador (tramas 2-4 de presentación) e introduce un primer reportaje 321 (tramas 5-24). Las tramas 2-4 de presentación y las tramas 5-24 de segmentos de historias de noticias se denominan colectivamente una primera historia 311, 321 de noticias. Después de la historia de noticias, el presentador 312 reaparece (tramas 25-29 de presentación) para introducir el segundo reportaje (tramas 30-39), denominadas colectivamente como la segunda historia 312, 322 de noticias. La secuencia de presentador-historia-presentador, intercalada con anuncios, se repite hasta el final de una transmisión de noticias, por ejemplo, trama 2500. Las apariciones repetidas del presentador 311, 312,... típicamente en la misma ubicación escenificada sirve para identificar claramente el comienzo de cada segmento de reportaje y el final del segmento de noticias o anuncio anterior. Además, puesto que se desarrollan estándares como MPEG-7 para describir contenidos de vídeo, puede esperarse que los flujos de vídeo contengan marcadores explícitos que identifiquen el comienzo y el final de segmentos independientes dentro de los flujos.

El documento de patente EP nº 1 057 129 A1, "Personalizad Vídeo Classification and Retrieval System" (Sistema personalizado de clasificación y recuperación de vídeo) publicada el 6 de diciembre de 2000 a Elenbaas, J H; Dimitrova, N; Mcgee, T; Simpson, M; Martino, J; Abdel-Mottaleb, M; Garrett, M; Ramsey, C; Desai, R., cuya divulgación total se incorpora en el presente documento como referencia, proporciona una forma de identificar segmentos de historias de noticias.

En referencia ahora a la figura 3c, se muestra el subflujo 305 de audio. La identificación de audio en el flujo 101 multimedia de entrada es relativamente sencilla porque el submódulo 103b identificador de audio preselecciona un límite de audio, por ejemplo, 20 ms en la realización a modo de ejemplo, y divide el flujo 101 multimedia de entrada en una pluralidad de tramas 304 de TIEMPO de 20 ms desde el comiendo hasta el final para construir el subflujo 305 de audio.

De nuevo en referencia a la figura 1, el módulo 103 MRAD recibe el flujo 101 multimedia de entrada y el submódulo 103b identificador de audio (AI) lo procesa para emitir el subflujo 305 de audio.

En referencia ahora a la figura 3d, se muestra el subflujo 307 de texto. La identificación de texto es relativamente sencilla porque el identificador de texto define una trama 308 sobre límites de palabra identificados dentro del subflujo 307 de texto.

De nuevo en referencia a la figura 1, el módulo 103 MRAD recibe el flujo 101 multimedia de entrada y el submódulo 103c identificador de texto (TI) lo procesa para emitir el subflujo 307 de texto. Los subflujos 303 de vídeo, 305 audio y 307texto, emitidos desde el módulo 103 MRAD, se proporcionan a continuación como flujos de entrada al módulo 105 KEI identificador de elementos clave.

En la acción 220, se realiza un análisis de identificación de elementos clave mediante el módulo 105 KEI sobre los subflujos 301, 303, 305 de entrada para identificar elementos clave dentro de cada subflujo respectivo. Un elemento clave puede identificarse generalmente como un "segmento" de un subflujo 303, 305, 307 que cumple o es superior a un criterio predeterminado, tal como se describirá adicionalmente a continuación.

En la acción 225, aquellos elementos clave identificados en la acción 220 se filtran adicionalmente con lo cual solamente se retienen aquellos elementos clave cuyo valor de importancia calculado cumple o es superior a un criterio predeterminado. El módulo 111 de filtro de elementos clave (KEF) de la figura 1 realiza este proceso de filtrado.

En la acción 230, el módulo 113 de filtro de perfil de usuario (UPF) de la figura 1 determina si el usuario ha proporcionado anteriormente un perfil de usuario que está compuesto por un número de parámetros de personalización de usuario, preferiblemente almacenados en la base 117 de datos de preferencias de usuario. En la acción 232, si existe un perfil de usuario, se utilizará para filtrar adicionalmente aquellos elementos clave supervivientes de la acción 225.

El perfil de usuario puede estar compuesto por un número de parámetros de personalización (preferencias) proporcionados por el usuario. Los parámetros pueden proporcionarse o durante el tiempo de ejecución o preferiblemente recuperarse de la base 117 de datos de preferencias de usuario por el UPF 109, para indicar preferencias de personalización particulares del usuario en cuanto a cómo ha de presentarse el resumen 120 multimedia. En el caso de que se recuperen parámetros de personalización de la base 117 de datos de preferencias de usuario, los usuarios del sistema típicamente almacenarán sus preferencias con el sistema 100 durante una fase de configuración. Los parámetros de personalización determinan en cierta medida cómo ha de personalizarse el resumen 120 multimedia para adecuarse a las preferencias de visualización particulares del usuario.

Los parámetros de personalización proporcionados por un usuario pueden incluir, por ejemplo:

\bullet: si el resumen 120 multimedia ha de ser exhaustivo o rápido.

\bullet: si el resumen 120 multimedia debe incluir solamente texto, audio, imágenes fijas, vídeo o combinaciones de los mismos.

\bullet: Tareas que deben realizarse tal como la navegación para buscar vídeos nuevos frente a recordar una película ya vista.

\bullet: Lugar donde va a visualizarse el resumen 120 (es decir, contexto).

\bullet: Hora del día, semana, mes, año en el que se está visualizando el resumen 120 multimedia.

\bullet: El usuario puede proporcionar parámetros de personalización de "palabras clave" para identificar elementos particulares de interés para el usuario (por ejemplo, personas, lugares o cosas). Como un ejemplo, el usuario puede especificar las palabras clave "Política" y "Baseball" que el sistema 100 de resumen de vídeo utilizará para localizar segmentos de historias de noticias que enfatizan las palabras clave seleccionadas.

Solamente a modo de ejemplo, si el usuario prefiere que el resumen 120 multimedia esté restringido a sólo un resumen de audio, entones puede elegirse un segmento de audio con la clasificación más alta del subflujo 305 de audio y presentarse al usuario. Como un ejemplo adicional, si el usuario prefiere visualizar un resumen 120 multimedia rápido (por ejemplo, un resumen de noticias de dos minutos), entonces las historias de noticias que son de interés para el usuario se eligen según la preferencia de perfil de usuario y solamente se eligen de cada historia de noticias seleccionadas los segmentos de vídeo, audio y texto con la clasificación más alta de los respectivos subflujos 303 de vídeo, 305 audio y 307 texto para construir un resumen 120 multimedia de tiempo limitado.

En la acción 235, aquellos elementos clave que han sobrevivido a la acción anterior de filtrado de perfil de usuario ahora se filtran adicionalmente teniendo en cuenta las restricciones de red y dispositivo. Específicamente, el módulo 1143 de restricciones de red y dispositivo (NADC) considera cualquier restricción de ancho de banda de red de la red sobre la que va a transmitirse el resumen 120 multimedia y adicionalmente considera aquellas restricciones asociadas al dispositivo de visualización del usuario. Los elementos clave supervivientes de la etapa 230 se modifican según cualquier restricción de red y dispositivo conocida, tal como se describirá.

En el caso típico en el que el resumen 120 multimedia se transmite por una red, tal como Internet, las restricciones de dispositivo y el ancho de banda de transmisión disponible dictarán, en cierta medida, la calidad y cantidad de resumen 120 multimedia que habrá de transmitirse. Debido a las demandas inherentes de ancho de banda de vídeo, el resumen 120 multimedia estará típicamente restringido en cuanto a la calidad y/o la cantidad de la parte de vídeo del resumen 120 multimedia. En comparación, las partes de audio y texto de un resumen 120 multimedia no sufrirán restricciones similares.

Las redes inalámbricas representan una aplicación de ancho de banda limitado típica. Tales condiciones de ancho de banda limitado pueden existir debido o bien a las restricciones tecnológicas directas dictadas por el uso de un canal de datos de ancho de banda bajo o restricciones indirectas impuestas sobre canales de ancho de banda relativamente alto por cargas de usuario simultáneas altas. Se contempla que el ancho de banda de red puede monitorizarse de manera transparente en tiempo real para determinar el estado actual de la red. El resumen multimedia puede modificarse según una condición de red imperante. Por ejemplo, en el caso de una condición de red congestionada, el resumen 120 multimedia puede restringirse limitando la calidad de vídeo de cada elemento clave superviviente de la acción 235.

En cuanto a las consideraciones de restricciones de dispositivo, las PDA conectadas por móvil y los teléfonos web son ejemplos de dispositivos que están característicamente limitados en cuanto a potencia de procesamiento, capacidades de visualización, sistemas operativos y similares. Como consecuencia de estas limitaciones, estos dispositivos tienen diferentes capacidades para recibir, procesar y visualizar datos de vídeo. El resumen 120 multimedia puede ajustarse para acomodarse a las restricciones de dispositivo limitando la resolución de vídeo, la velocidad de transmisión de bits, etc.

Si el dispositivo de usuario solamente puede presentar texto, entonces se eligen los segmentos de texto con la clasificación más alta para cada una de las historias de noticias y se envían al dispositivo.

En la acción 240, el resumen 120 multimedia compuesto por aquellos elementos clave que sobreviven a la acción 235 se emite al usuario.

Esta exposición concluye la visión general del sistema y método de resumen de vídeo multimedia. Ahora se proporcionará una descripción más detallada del funcionamiento de varios aspectos del método.

Se ha proporcionado una descripción superficial de una realización del método de la invención con referencia al diagrama de flujo de la figura 2 que incluye, entre otras cosas, la acción 220 que se dirige a la identificación de elementos clave de los respectivos subflujos 303 de vídeo, 305 audio y 307 texto. Se describe ahora una descripción más detallada de la acción 220, la identificación de elementos clave, en referencia a las figuras 3-6.

En referencia a la figura 4, que es un diagrama de flujo detallado de las acciones que comprenden la acción 220 del diagrama de flujo de la figura 2, y también en referencia a la figura 5, que es un diagrama que muestra adicionalmente, solamente a modo de ejemplo no limitativo, el proceso de extracción de características que se describe comprendiendo la extracción y derivación de características, en cada una de las tres modalidades, de los respectivos subflujos 303, 305, 307.

Acción 220.a

Extracción de características

En la acción 220.a, se realiza una extracción de características por la cual se extraen características 510 de nivel bajo, 710 medio y 910 alto de cada trama en cada uno de los subflujos 303 de vídeo, 305 audio y 307 texto respectivos. En cuanto al subflujo 303 de vídeo a modo de ejemplo, se realiza la extracción de características en cada una de las 2500 tramas de vídeo que componen el subflujo 303, de las cuales se muestran 40 para facilitar la explicación. De manera similar, en cuanto al flujo 305 de audio, se realiza la extracción de características en cada una de las 8000 tramas 306 de audio (figura 3c) que componen el subflujo 305 de audio, de las cuales se muestran 12 para facilitar la explicación. De manera similar, en cuanto al flujo 307 de texto, se realiza la extracción de características en cada una de las 6500 tramas 308 de texto (figura 3d) que componen el subflujo 307 de texto, de las cuales se muestran 5 para facilitar la explicación.

Se describen ahora algunos ejemplos de características de nivel bajo, medio y alto que pueden extraerse de las tramas en cada uno de los subflujos (vídeo, audio y texto) respectivos.

Solamente a modo de ejemplo no limitativo, el subflujo de vídeo puede incluir las siguientes características de modo visual de nivel bajo 503, medio 505 y alto 507:

Las características 503 de modo visual de nivel bajo pueden incluir, entre otros, valor de movimiento (movimiento global para la trama o segmento de vídeo), el número total de bordes en una trama y el color dominante.

Las características 703 de modo visual de nivel medio se derivan de las características 503 de modo visual de nivel bajo extraídas y pueden incluir, entre otras cosas, histogramas de conjunto (family histograms), movimiento de cámara, detalle de trama, presencia de texto superpuesto, y otros detectores de objeto.

Las características 903 de modo visual de nivel alto se derivan de las características de modo visual de nivel medio derivadas y pueden incluir, entre otras cosas, varias clasificaciones de trama de vídeo tales como una trama de presentación, una trama de reportaje, una trama de interior, una trama de exterior, una trama natural, una trama de gráficos, una trama de paisaje y una trama de paisaje urbano.

Solamente a modo de ejemplo no limitativo, el subflujo 305 de audio puede incluir las siguientes características de modo de audio de nivel bajo 505, medio 705 y alto 905:

Las características 505 de modo audio de nivel bajo pueden incluir, por ejemplo, MFCC, LPC, energía promedio, ancho de banda, altura tonal, etc.

Las características 705 de modo audio de nivel medio se derivan de las características 505 de modo audio de nivel bajo y pueden incluir, por ejemplo, la clasificación del audio en voz, música, silencio, ruido, voz + voz, voz + ruido, y voz + música.

Las características 905 de modo audio de nivel alto se derivan de las características 705 de modo audio de nivel medio derivadas anteriormente y pueden incluir, entre otros, aplausos del público, habla, risas, explosiones, sirenas, etc. También podría incluir una trascripción de voz a texto.

Solamente a modo de ejemplo no limitativo, el subflujo 307 de texto puede incluir las siguientes características de modo texto de nivel bajo 507, medio 707 y alto 907:

Las características 507 de modo texto de nivel bajo que pueden incluir, por ejemplo, la presencia de palabras clave, avisos, nombres, lugares, etc.

Las características 707 de modo texto de nivel medio se derivan de las características 507 de modo audio de nivel bajo y pueden incluir por ejemplo, temas, categorías, sustantivos importantes.

Las características 907 de modo texto de nivel alto se derivan de las características 707 de modo texto de nivel medio y pueden incluir, entre otros, pasajes de preguntas/respuestas, una conclusión de quién esta hablando, es decir, reportero de noticias frente a presentador frente a invitado y así sucesivamente.

La figura 5 es un diagrama que muestra adicionalmente, solamente a modo de ejemplo no limitativo, el proceso de extracción de características que comprende la extracción y derivación de características, en cada una de las tres modalidades, de los subflujos 303, 305, 307 respectivos. Tal como se muestra, las características 510 de vídeo de nivel bajo tal como borde, forma, color 503 se extraen del subflujo 303 de vídeo. Una o más de las características 503 de vídeo de nivel bajo extraídas pueden utilizarse entonces para derivar una o más características 703 de nivel medio tales como videotexto, caras, histogramas 703 conjunto. Las características 703 de nivel medio puede utilizarse entonces a su vez para derivar una o más características 903 visuales de nivel alto tales como trama de presentación, trama de reportaje, trama de interiores, etc.

Con referencia a la característica visual de nivel medio, los "histogramas conjunto" mostrados como un elemento de 703, la derivación y el uso de esta característica es de particular importancia porque se utiliza para segmentar el subflujo 303 de vídeo en "segmentos", tal como se describirá a continuación. El color es una característica dominante en vídeo y ayuda en la segmentación de vídeo desde un punto de vista de percepción. Adicionalmente, la duración de un histograma conjunto también se corresponde directamente con el "valor de importancia" calculado de un segmento de vídeo, tal como se describirá.

El proceso de derivar histogramas conjunto de las características visuales de nivel bajo extraídas del subflujo 303 de vídeo implica un análisis de cada trama de vídeo del subflujo 303 de vídeo. El análisis se realiza para cuantificar la información de color de cada trama de vídeo en variables (bin) de cuantificación de color. Se determinó experimentalmente que un histograma de color de cuantificación de 9 intervalos era suficiente para identificar los elementos clave. En una variación de este enfoque, pude utilizarse un histograma de color de 256 recipientes dependiendo de la aplicación. El enfoque simple del histograma de color de cuantificación de 9 recipientes asume que solamente habrá diferencias ligeras en la variación de color de trama a trama para cada segmento de conjunto (family segment) contenido dentro de un segmento de historia de noticias). Esto es verdad porque se presupone que hay una similitud de trama sustancial de trama a trama para un elemento clave. Aunque se producen variaciones de color apreciables de una trama a la siguiente cuando se produce un cambio de escena que indica el final de un segmento de conjunto y el comienzo de otro). El enfoque del histograma de color detecta las variaciones de color apreciables (es decir, característica de nivel bajo) mediante un contraste nítido en valores de histograma de color de una trama a la siguiente.

Para encontrar el grado de similitud entre tramas de vídeo, se realizaron experimentos con múltiples medidas de diferencia de histograma. En la acción de cálculo de histogramas conjunto, para cada trama de vídeo, se calcula el histograma y entonces se realiza una búsqueda de los histogramas conjunto calculados anteriormente para encontrar la correspondencia de histograma conjunto más cercana. La comparación entre el histograma H_{C} actual, y los histogramas H_{P} conjunto anteriores, pueden computarse utilizando uno de los siguientes métodos para calcular la diferencia D de histograma.

(1) La diferencia de histograma utilizando la medida L1 de distancia se calcula utilizando la siguiente fórmula:

1

\vskip1.000000\baselineskip

Aquí, N es el número total de intervalos de color utilizados (9 en este caso). Los valores obtenidos que utilizan esta fórmula oscilan entre 0 y dos veces el número máximo de píxeles en imágenes respectivas. Como se quiere obtener el porcentaje de similitud, se normaliza el valor dividiendo por el número total de píxeles. Los valores normalizados están entre 0 y 1, donde los valores próximos a 0 significan que las imágenes son similares, y aquellos próximos a 1 significan que las imágenes son diferentes.

(2) La diferencia de histograma utilizando la medida L2 de distancia se calcula utilizando la siguiente fórmula:

2

\vskip1.000000\baselineskip

De manera similar al caso (1), se normalizan los valores de D.

(3) La intersección de histogramas se calcula utilizando la siguiente fórmula:

3

Los valores obtenidos utilizando esta fórmula oscilan entre 0 y 1. Los valores próximos a 0 significan que las imágenes son diferentes, y los valores próximos a 1 significan que las imágenes son similares. Para comparar histogramas con la misma interpretación de similitud se utiliza D = 1-I como medida de distancia.

(4) La prueba de chi-cuadrado para dos histogramas de imágenes se calcula utilizando la siguiente fórmula:

4

En este caso, los valores oscilan entre 0 y el número de N d intervalos de color, así que se normaliza con N, es decir, D = \chi^{2}/N.

(5) La intersección de histogramas por lo que respecta a los intervalos se calcula utilizando la siguiente fórmula:

5

De manera similar a la intersección de histogramas, los valores inferiores significan diferencia y los valores superiores significan que las imágenes son similares. Para ser coherentes con las medidas anteriores, la distancia se calcula con D = 1 - B/N.

En la técnica se conocen métodos de indexación de colores que utilizan la información de histogramas (véase, por ejemplo, la publicación de M. Stricker y M. Orengo, titulada "Similarity of color images" (Similitud de imágenes en color), In proc. Of IS&T/SPIE Conference on Storage and Retrieval for Image and Video Database II, Vol. SPIE 2420, 1995.

Acción 220.b

Asignación de valores de importancia de característica

En la acción 220.b, a aquellas características de nivel medio 710 y alto 910 extraídas en la acción 220.a en cada trama de cada uno de los subflujos 303, 305, 307 respectivos se les asigna ahora un valor de importancia de característica correspondiente. Pueden emplearse métodos de análisis de características discretos y/o continuos para asignar tales valores de importancia. En el caso discreto, el método de análisis de características emite un valor de importancia discreto indicando la presencia o la falta de presencia de una característica (es decir, valor de importancia = 1 para presencia/0 para característica no presente) o (valor de importancia =1 para deseable de incluir en el resumen 120 multimedia, 0 para no deseable en el resumen 120, y 0,5 si está entre medias). Como un ejemplo, dado que es deseable tener "caras" en el resumen 120 multimedia, puede asignarse un valor de importancia de característica de 1 si están presentes una o dos caras, puede asignarse un valor de 0 si no está presente ninguna cara y puede asignarse un valor de 0,5 en el caso de que existan más de dos caras. Otro ejemplo discreto puede ser asignar un 0 para la presencia de un presentador y un 1 para la presencia de un pasaje de reportaje. Otro ejemplo discreto puede ser asignar un 0 para una trama si pertenece a un histograma conjunto cuya duración es inferior a n% de la duración total de la historia de noticias y en otro caso asignar un valor de 1. Aquí n podría fijarse a 10 etc.

Con respecto al subflujo 305 de audio, puede ser deseable tener voz en el resumen 120 multimedia, así que un valor de importancia podría ajustarse a 1 para la presencia de voz, 0 para ruido y silencio, 0,5 para {música, voz + música, voz + voz, voz + ruido}.

Con respecto a un subflujo 307 de texto, si está presente un nombre o una palabra clave importante, entonces el valor de importancia puede fijarse a 1, en otro caso se fija a 0.

En un caso continuo, en el caso de un histograma conjunto, el valor de importancia podría fijarse a la duración del segmento al que pertenece una trama dividido por la duración total de la historia de noticias.

Alternativamente, en el caso continuo, los métodos de análisis de características pueden emplear una distribución de probabilidad para asignar valores de importancia a las características extraídas. La distribución de probabilidad da la probabilidad de que la característica esté presente en el resumen. Los métodos de análisis de características utilizados con este enfoque pueden emitir un valor de probabilidad que oscila de 0 a 1, indicando un grado de confianza con respecto a la presencia de una característica.

La distribución de probabilidad para derivar valores de importancia en el caso continuo puede derivarse de una distribución gaussiana normal. Alternativamente, los valores de importancia también podrían corresponderse como distribuciones de Poisson, Rayleigh o Bernoulli. La ecuación (2) muestra a modo de ejemplo, una forma de calcular el valor de la característica para la trama como una distribución gaussiana normal.

6

en la que:

S es la probabilidad de que la característica esté en el resumen

\theta generalmente representa cualquiera de las características;

\theta_{1} es la media del valor de la característica; y

\theta_{2} es la desviación esperada.

Como un ejemplo, si "caras" representa una característica de vídeo de nivel medio que debe considerarse, es decir, representado como \theta en la ecuación 6, entonces las caras muy pequeñas o muy grandes apenas aparecerán. Más frecuentemente, cada vez que aparece una "cara" en el flujo de vídeo, está típicamente presente a una altura de sustancialmente el 50% de la altura de la pantalla. En este caso, \theta_{1} es igual a 0,5 (la media) y \theta_{2} es igual a 0,2, por ejemplo. Se observa que puede utilizarse un enfoque de estimación de probabilidad máxima para determinar los parámetros \theta_{1} y \theta_{2}.

Se observa que cada una de las características puede elevar o disminuir potencialmente el valor de importancia de un elemento clave para la selección potencial en el resumen 120 multimedia

220.c

Valores de importancia de cálculo por trama en cada modalidad

En la acción 220.c, se calculan los valores de importancia de trama basándose en los valores de importancia de característica calculados en la acción 220.b. Para determinar los valores de importancia de trama, puede emplearse bien un enfoque de suma ponderada o escrutinio de los valores de importancia de las características extraídas, tal como se describirá.

La tablas 1, 2 y 3 muestran, solamente a modo de ejemplo no limitativo, los valores de importancia de característica calculados en la acción 220.b para cada una de las características extraídas identificadas en la acción 220.a en cada una de las modalidades respectivas (vídeo, audio, texto). Los valores de importancia se usan para calcular el valor de importancia por trama. Los encabezados de columna de las tablas representan características de nivel bajo, medio y alto extraídas anteriormente tales como bordes, color, caras, silencio, trama de interiores y así sucesiva-
mente.

TABLA 1 Probabilidades de Características Visuales

7

TABLA 2 Probabilidades de Características de Audio

8

TABLA 3 Probabilidades de Características de Texto

9

Los valores de las tablas están combinados de una forma que va a describirse para proporcionar una medida de cuánto "vale" una trama. Un "valor" de la trama es una medida de la importancia de la trama para posible inclusión en el resumen 120 multimedia. Un "valor" de la trama puede calcularse de varias maneras incluyendo la manera determinística, estadística y a través de probabilidades condicionales.

Cálculo determinístico del "valor" de una trama

En una realización, el "valor" de la trama puede calcularse como una función linear determinística de las características de vídeo de nivel bajo, medio y alto, calculado como:

Ecuación (7)Importancia del elemento clave = \sum w_{i}f_{i}

en la que:

f_{i} es un valor de una característica de nivel bajo, medio y alto particular en el vector de característica; y

w_{i} es una ponderación para esa característica.

Las características f_{i} podrían ser características de nivel bajo así como valor de movimiento (movimiento global para la trama o segmento del vídeo), numero total de bordes, color dominante, y características de nivel medio tales como importancia de conjunto (family importance), movimiento de camera, detalle de trama, tamaño de la cara, tamaño de la caja de texto superpuesto. La característica de nivel alto puede ser una clasificación tal como presentador/reportaje, escenas de interiores/exteriores, natural/gráficos, paisaje natural/paisaje urbano. La lista de características no es exhaustiva y sólo se proporciona a modo de ejemplo de los tipos de características que pueden incluirse en el cálculo de valor de importancia.

Puede observarse que las ponderaciones, w_{i}, asociadas a cada característica pueden determinarse a priori por el sistema 100 de resumen o alternativamente determinarse según una preferencia de usuario. Por ejemplo, si un usuario quiere oír música en el resumen 120 multimedia, entonces un valor de ponderación para música puede fijare a 1. Como otro ejemplo, si el usuario prefiere no ver ningún videotexto en el resumen, a la ausencia de videotexto en una trama se le da una importancia de 1 y así sucesivamente.

Se supone que para cada una de las modalidades, los valores de importancia de característica se combinan de alguna manera para emitir un valor de importancia de elemento clave por trama utilizando o bien una función de probabilidad o una función determinística que da lugar a una lista tal como la lista a modo de ejemplo no limitativo mostrada en la tabla 4:

TABLA 4 Importancia del valor (por trama) para diferentes modalidades

10

En otra realización más, el "valor" de una trama puede calcularse encontrando la probabilidad condicional utilizando una clasificación de patrones de redes de creencias bayesianas. La clasificación de patrones de redes de creencias bayesianas se conoce en la técnica. Véase por ejemplo, "Bayesian Belief Network Pattern Classification" (segunda edición) de Richard O. Duda, Peter E. Hart, David G. Stork, cuya descripción se incorpora en su totalidad en el presente documento como referencia.

220.d

Creación de segmentos

En la acción 220.d, después de cumplir los valores de importancia de trama para cada trama en cada modalidad en 220.c, se utilizan loa valores de importancia de trama para combinar o agrupar las tramas en segmentos para cada modalidad.

Creación de segmentos visuales

Para crear segmentos visuales a partir de las tramas de vídeo respectivas (es decir, Trama 1, Trama 2,..., Trama N) que componen el subflujo 303 de vídeo, se realiza o bien un cálculo de histogramas conjunto o una detección de cambio de toma. Una forma de combinar tramas en segmentos es utilizar detección de cambio de toma. La detección de cambio de toma se conoce bien y se describe en el documento US 6.125.229 del 26 de septiembre del 2000, también publicada como el documento EP 0 916 120 A2, del 19 de mayo de 1999, concedido a Dimitrova, N; Mcgee, T; Elenbaas, J H, "Visual Indexing System" (Sistema de indexación visual), cuya descripción se incorpora en su totalidad en el presente documento como referencia. Otra forma de crear segmentos visuales de las tramas de vídeo respectivas del subflujo 303 de vídeo es a través del uso de histogramas conjunto, tal como se describió anterior-
mente.

\vskip1.000000\baselineskip

Creación de segmentos audio

Para crear segmentos de audio de las respectivas tramas de TIEMPO (es decir, TIEMPO 1, TIEMPO 2, y así sucesivamente) que componen el subflujo 305 de audio, los límites de segmentos pueden ser los límites de distintas clasificaciones. Es decir, un clasificador de audio clasifica audio en voz (1), música (2), silencio (3), ruido (4), voz + voz (5), voz + ruido (6), y voz + música (7). La figura 6 es una gráfica que muestra, a modo de ejemplo, cómo los elementos de tiempo que comprenden el subflujo 305 de audio de la figura 3 pueden agruparse para formar segmentos. La gráfica representa la clasificación de audio frente a tramas de tiempo (trama de tiempo [x]). Tal como se muestra, las tramas iniciales (tramas 1-20.000) se clasifican mayoritariamente como tramas de música (2). Después de lo cual, las tramas sucesivas se clasifican mayoritariamente como tramas (4) de ruido, seguidos de tramas (7) de voz y música (7).

Los detalles de la clasificación de audio se describen adicionalmente en "Classification of general audio data for content-based retrieval" (Clasificación de datos de audio generales para la recuperación basada en contenidos), Pattern Recognition Letters, Vol. 22, número 5, páginas 533-544 (2001), Dongge Li, Ishwar K. Sethi, Nevanka Dimitrova, incorporado como referencia en el presente documento en su totalidad.

\vskip1.000000\baselineskip

Creación de segmentos de texto

Para crear segmentos de texto, los límites de segmento podrían definirse para ser límites de sentencia basándose en la puntuación proporcionada en la parte de subtítulo (closed-caption) de la secuencia 101, 102 de vídeo de entrada.

\vskip1.000000\baselineskip

220.e

Determinación del valor de importancia de segmento

La determinación del valor de importancia de segmento puede realizarse de una forma promediando los valores de importancia de trama de las tramas que comprenden cada segmento para generar una única clasificación o puntuación. Otra forma de calcular una determinación de valor de importancia de segmento es tomar el valor de importancia de trama más alto dentro del segmento y asignarlo al segmento entero.

\vskip1.000000\baselineskip

220.f

Clasificación de segmentos

En la acción 220.e, se calcula una clasificación (puntuación) de segmentos para cada segmento identificado en la etapa 220.d en cada una de las modalidades respectivas. Adicionalmente, se clasifican los segmentos clasificados en orden de importancia basándose en la clasificación o puntuación calculada.

La tabla 6 muestra, a modo de ejemplo, cómo se clasifican los segmentos de vídeo (columna 1) y sus valores de importancia de segmento asociados (columna 2). Las tablas 7 y 8 muestran una construcción similar para las modalidades de audio y texto, respectivamente.

TABLA 6 Clasificación de importancia de segmento visual

11

TABLA 7 Clasificación de importancia de segmento de audio

13

TABLA 8 Clasificación de importancia de segmento de texto

14

220.g

Identificación de elementos clave

En la acción 220.f, se identifican los elementos clave basándose en las clasificaciones de segmentos de la acción 220.e

Las figuras 7a-c ilustran a modo de ejemplo, varias formas de identificar elementos clave. A modo de ejemplo, las figuras 7a-c son gráficas de (valor de importancia de trama por) frente a (segmento) que podrían representar cualquiera de las modalidades descritas anteriormente, es decir, las tablas 6, 7 u 8.

La figura 7a es una gráfica que muestra un primer método de identificación de elementos clave. Los elementos clave se identifican seleccionando cualquier segmento que aparece por encima de un umbral predeterminado.

La figura 7b es una gráfica que muestra un segundo método de identificación de elementos clave. Los elementos clave se identifican seleccionando los máximos locales, es decir, "A", "B", "C", que aparecen por encima de un umbral, Th, predeterminado.

La figura 7c es una gráfica que muestra un tercer método de identificación de elementos clave. Los elementos clave se identifican seleccionando los primeros máximos N locales sin considerar un criterio de umbral.

Se observa que el proceso de identificación de elementos clave descrito anteriormente y mostrado con referencia a las figuras 7a-c puede modificarse adicionalmente según un perfil de visualización de usuario. Se conoce bien que los sistemas de recomendación generalmente funcionan recomendando elementos a usuarios particulares basándose en la información conocida sobre los usuarios. Normalmente tales sistemas desarrollan perfiles de clientes basándose en la visualización anterior o hábitos de adquisición del cliente. En el presente contexto, un perfil de visualización de usuario puede crearse y preferiblemente almacenarse en la base 117 de datos de preferencia del usuario junto con otros datos de perfil de usuario descritos anteriormente. El perfil de visualización del usuario puede entonces utilizarse para crear una función de correspondencia para trazar la gráfica descrita anteriormente de (valor de importancia) frente a (segmento), tal como muestran las figuras 7a-c, a una segunda función que explica las preferencias de visualización del usuario. Este proceso es opcional y puede implementarse para cualquiera o todas las modalidades.

Obviamente, son posibles numerosas modificaciones y variaciones de la presente invención en vistas a las enseñanzas anteriores. Por lo tanto, debe entenderse que la invención puede ponerse en práctica de una forma distinta a la especificada en el presente documento dentro del alcance de las reivindicaciones adjuntas.

Claims

1. Método para resumir al menos un flujo (101, 102) multimedia, comprendiendo el método:

a.: recibir o recuperar dicho al menos un flujo (101, 102) multimedia que comprende información de vídeo, audio y texto;

b.: dividir el al menos un flujo (101, 102) multimedia en un subflujo (303) de vídeo, un subflujo (305) de audio y un subflujo (307) de texto;

c.: identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), audio (305) y texto (307), respectivamente;

d.: calcular un valor de importancia para los elementos clave identificados de vídeo, audio y texto identificados en dicha etapa (c);

e.: filtrar por primera vez los elementos clave de vídeo, audio y texto identificados para excluir aquellos elementos clave cuyo valor de importancia asociado es menor que un umbral de importancia de vídeo, audio y texto predefinido, respectivamente; y

f.: filtrar por segunda vez los elementos clave restantes de dicha etapa (e) según un perfil de usuario;

g.: filtrar por tercera vez los elementos clave restantes de dicha etapa (f) según restricciones de red y de dispositivo de usuario;

h.: emitir un resumen (120) multimedia a partir de los elementos clave restantes de dicha etapa (g).

2. Método según la reivindicación 1, en el que dicho al menos un flujo (101, 102) multimedia es uno de un flujo multimedia analógico y digital.

3. Método según la reivindicación 1, en el que la etapa de dividir el al menos un flujo (101, 102) multimedia en un subflujo (303) de vídeo comprende además la etapa de identificar y agrupar dicho al menos un flujo (101, 102) multimedia en una pluralidad de historias (330) de noticias en la que cada historia (330) de noticias identificada comprende una parte (311, 312) de presentación y una parte (321, 322) de reportaje.

4. Método según la reivindicación 1, en el que la etapa de dividir el al menos un flujo (101, 102) multimedia en un subflujo (305) de audio comprende además dividir dicho al menos un flujo (101, 102) multimedia en una pluralidad de tramas (306) de igual tamaño de una duración de tiempo fija.

5. Método según la reivindicación 1, en el que la etapa de dividir el al menos un flujo (101, 102) multimedia en un subflujo (307) de texto comprende además dividir dicho al menos un flujo (101, 102) multimedia en una pluralidad de tramas (308) en la que cada trama de dicha pluralidad de tramas se define en un límite de palabra.

6. Método según la reivindicación 1, en el que la acción de identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), audio (305) y texto (307) comprende además las acciones de:

1.): identificar características de bajo (510), medio (710) y alto (910) nivel de la pluralidad de tramas que comprenden dichos subflujos de vídeo (303), audio (305) y texto (307);

2.): determinar un valor de importancia para cada una de dichas características de bajo (510), medio (710) y alto (910) nivel extraídas de dicha acción de identificación;

3.): calcular un valor de importancia de trama para cada una de dicha pluralidad de tramas que comprenden dichos subflujos de vídeo (303), audio (305) y texto (307) como una función de los valores de importancia de los valores de importancia de característica determinados en dicha acción de determina- ción;

4.): combinar las tramas en segmentos en cada uno de dichos subflujos de vídeo (303), audio (305) y texto (307);

5.): calcular un valor de importancia por segmento para cada segmento de dicha acción de combinación;

6.): clasificar los segmentos en base a dicho valor de importancia calculado en dicha etapa de cálculo; e

7.): identificar elementos clave en base a dichos segmentos clasificados.

\newpage

7. Método según la reivindicación 6, en el que dicha acción (3) de calcular un valor de importancia de trama para cada una de dichas características de bajo (510), medio (710) y alto (910) nivel extraídas comprende además calcular dicho valor de importancia mediante uno de los medios de probabilidad determinística, estadística y condicional.

8. Método según la reivindicación 7, en el que dicho medio probabilístico comprende calcular dicho valor de importancia de trama como una de las distribuciones Gaussiana, de Poisson, de Rayleigh y de Bernoulli.

9. Método según la reivindicación 8, en el que dicha distribución Gaussiana para calcular dicho valor de importancia de trama se calcula como:

\vskip1.000000\baselineskip

15

donde:

\theta es cualquiera de las características;

\theta_{1} es la media del valor de característica; y

\theta_{2} es la desviación esperada.

10. Método según la reivindicación 7, en el que dicho medio determinístico comprende calcular dicho valor de importancia de trama como:

\vskip1.000000\baselineskip

Importancia de trama = \sum w_{i}f_{i}

donde:

f_{i} representa características de nivel bajo, de nivel medio y de nivel alto; y

w_{i} representa los factores de ponderación para ponderar dichas características.

11. Método según la reivindicación 6, en el que dicha etapa (4) de combinar las tramas en segmentos de vídeo comprende adicionalmente combinar dichas tramas mediante uno de medios de cálculo de histograma de conjunto y medios de detección de cambio de toma.

12. Método según la reivindicación 6, en el que dicha etapa (4) de combinar las tramas en segmentos de audio comprende adicionalmente las etapas de:

categorizar cada trama de dicho subflujo (305) de audio como una de trama de voz, trama de música, trama de silencio, trama de ruido, trama de voz + voz, trama de voz + ruido y trama de voz + música; y

agrupar tramas consecutivas que tienen la misma categorización.

13. Método según la reivindicación 6, en el que la etapa (4) de la acción de combinar las tramas en segmentos de texto comprende adicionalmente combinar dichas tramas en base a la puntuación incluida en dicho subflujo (307) de texto.

14. Método según la reivindicación 6, en el que dicha etapa (5) de calcular un valor de importancia por segmento comprende adicionalmente promediar los valores de importancia de trama para aquellas tramas que comprenden dicho segmento.

15. Método según la reivindicación 6, en el que dicha etapa (5) de calcular un valor de importancia por segmento comprende adicionalmente utilizar el valor de importancia de trama más alto en dicho segmento.

16. Método según la reivindicación 6, en el que dicha etapa (7) de identificar elementos clave en base a dichas clasificaciones comprende adicionalmente identificar elementos clave cuya clasificación de segmento es superior a un umbral de clasificación de segmento predeterminado.

17. Método según la reivindicación 6, en el que dicha etapa (7) de identificar elementos clave en base a dichas clasificaciones comprende adicionalmente identificar elementos clave cuya clasificación de segmento es superior a un umbral de clasificación de segmento predeterminado y constituye un máximo local.

18. Método según la reivindicación 6, en el que dicha etapa (7) de identificar elementos clave en base a dichas clasificaciones comprende adicionalmente identificar elementos clave cuya clasificación de segmento constituye un máximo local.

19. Sistema (100) para resumir al menos un flujo (101, 102) multimedia que comprende: un módulo (103) de división y reconocimiento de modalidad (MRAD) que comprende un módulo (103a) identificador de segmento de historia (SSI), un módulo (103b) identificador de audio (AI) y un módulo (103c) identificador de texto (TI), estando el módulo (103) MRAD acoplado de manera comunicativa a una primera fuente (110) externa para recibir dicho al menos un flujo (101, 102) multimedia, estando el módulo (103) MRAD acoplado de manera comunicativa a una segunda fuente (112) externa para recibir dicho al menos un flujo (101, 102) multimedia, dividiendo el módulo (103) MRAD dicho al menos un flujo (101, 102) multimedia en un subflujo de vídeo (303), de audio (305) y de texto (307) y emitiendo dichos subflujos de vídeo (303), de audio (305) y de texto (307) a un módulo (105) KEI, comprendiendo el módulo (105) KEI un módulo (107) de extracción de características (FE) y un módulo (109) de valor de importancia (IV) para identificar elementos clave de dentro de dichos subflujos de vídeo (303), de audio (305) y de texto (307) y asignando valores de importancia a los mismos, estando el módulo (105) KEI acoplado de manera comunicativa a un filtro (111) de elementos clave (KEF) para recibir los elementos clave identificados y filtrar dichos elementos clave que son superiores a un criterio de umbral predeterminado, estando el módulo (111) KEF acoplado de manera comunicativa a un filtro (113) de perfil de usuario (UPF) para recibir elementos clave filtrados y filtrando adicionalmente dichos elementos clave filtrados según un perfil de usuario, estando el módulo (113) UPF acoplado de manera comunicativa a un módulo (115) de restricción de dispositivo y red (NADC), recibiendo dicho módulo (115) NADC dichos elementos clave filtrados adicionalmente y filtrando adicionalmente dichos elementos clave filtrados adicionalmente según restricciones de red y/o dispositivo de usuario, emitiendo el módulo (115) NADC un resumen (120) multimedia de dicho al menos un flujo (101, 102) multimedia.

20. Sistema según la reivindicación 19, que comprende adicionalmente una base (117) de datos de preferencia de usuario acoplada de manera comunicativa a dicho módulo (113) UPF para almacenar perfiles de usuario.

21. Sistema según la reivindicación 19, en el que la primera fuente (110) externa es un selector de canal de transmisión.

22. Sistema según la reivindicación 19, en el que la primera fuente (110) externa es una fuente de flujo de vídeo.

23. Sistema según la reivindicación 19, en el que dicho al menos un flujo (101, 102) multimedia es uno de un flujo multimedia analógico y digital.

24. Sistema según la reivindicación 19, en el que el módulo (115) NADC está conectado de manera comunicativa a una red (122) externa acoplada a un dispositivo (124) de usuario.

25. Sistema según la reivindicación 19, en el que la red (122) es Internet.

26. Artículo de fabricación para resumir al menos un flujo (101, 102) multimedia, que comprende: un medio legible por ordenador que tiene medios de código legibles por ordenador realizados sobre el mismo, comprendiendo dichos medios de código de programa legible por ordenador:

una acción de recibir o recuperar dicho al menos un flujo (101, 102) multimedia que comprende información de vídeo, audio y texto;

una acción de dividir dicho al menos un flujo (101, 102) multimedia en un subflujo (303) de vídeo, un subflujo (305) de audio y un subflujo (307) de texto;

una acción de identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), audio (305) y texto (307), respectivamente;

una acción de calcular un valor de importancia para los elementos clave identificados de vídeo, audio y texto identificados en dicha acción de identificación;

una acción de primer filtrado de los elementos clave de vídeo, audio y texto identificados para excluir aquellos elementos clave cuyo valor de importancia asociado es menor que un umbral de importancia predefinido de vídeo, audio y texto, respectivamente;

y

una acción de segundo filtrado de los elementos clave restantes de dicha primera acción de filtrado según un perfil de usuario;

una acción de tercer filtrado de los elementos clave restantes de dicha segunda acción de filtrado según restricciones de red y dispositivo de usuario; y

una acción de emitir un resumen (120) multimedia de los elementos clave restantes de dicha tercera acción de tercer filtrado.

27. Artículo de fabricación según la reivindicación 26, en el que adicionalmente la acción de identificar elementos clave de vídeo, audio y texto de dichos subflujos de vídeo (303), de audio (305) y de texto (307), respectivamente, comprende adicionalmente:

una acción de identificar características de nivel bajo (510), medio (710) y alto (910) de la pluralidad de tramas que comprenden dichos subflujos de vídeo (303), de audio (305) y de texto (307);

una acción de determinar un valor de importancia para cada una de dichas características de nivel bajo (510), medio (710) y alto (910) de dicha acción de identificación;

una acción de calcular un valor de importancia de trama para cada una de dicha pluralidad de tramas que comprenden dichos subflujos de vídeo (303), de audio (305) y de texto (307) como una función de los valores de importancia de los valores de importancia de característica determinados en dicha etapa de determinación;

una acción de combinar las tramas en segmentos en cada uno de dichos subflujos de vídeo (303), de audio (305) y de texto (307);

una acción de calcular un valor de importancia por segmento para cada segmento de dicha acción de combinación;

una acción de clasificar los segmentos en base a dicho valor de importancia calculado en dicha acción de cálculo; y

una acción de identificar elementos clave en base a segmentos clasificados.