ES2288859T3 - Aparato para registrar informacion de busqueda de imagenes dinamicas, y dispositivo de busqueda de imagenes dinamicas. - Google Patents

Aparato para registrar informacion de busqueda de imagenes dinamicas, y dispositivo de busqueda de imagenes dinamicas. Download PDF

Info

Publication number
ES2288859T3
ES2288859T3 ES00940880T ES00940880T ES2288859T3 ES 2288859 T3 ES2288859 T3 ES 2288859T3 ES 00940880 T ES00940880 T ES 00940880T ES 00940880 T ES00940880 T ES 00940880T ES 2288859 T3 ES2288859 T3 ES 2288859T3
Authority
ES
Spain
Prior art keywords
information
recovery
scene
video
mentioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00940880T
Other languages
English (en)
Inventor
Shuichi Watanabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Application granted granted Critical
Publication of ES2288859T3 publication Critical patent/ES2288859T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8227Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being at least another television signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate

Abstract

Un aparato (40) para la generación de información de recuperación de video, que genera información de recuperación para recuperar datos de video formados por una o más escenas (140, 142, 144, 146, 160) divididas temporalmente en una pluralidad de sucesivas imágenes, comprendiendo el aparato: una sección de generación de información de recuperación (102, 103, 104, 105), para generar información de recuperación correspondiente a cada una de las mencionadas una, o más, escenas en base a los mencionados datos de video, donde la mencionada sección de generación de información de recuperación (102, 103, 104, 105) comprende: un primer medio (103) de generación de información resumen para formar, para cada una de las mencionadas escenas, una pluralidad de bloques separados espacialmente mediante dividir temporalmente la escena a lo largo del eje temporal, en una pluralidad de imágenes, del mismo modo separar espacialmente la totalidad de las mencionadas imágenes de la escena en bloques divididos, ycombinar los bloques divididos en correspondientes posiciones de imágenes respectivas de la mencionada pluralidad de imágenes, para formar un mencionado bloque dividido espacialmente de la escena (140, 142, 144, 146, 160), para generar información resumen (188) en unidades de un bloque de la escena dividido espacialmente, la información de recuperación comprendiendo la mencionada información resumen.

Description

Aparato para registrar información de búsqueda de imágenes dinámicas, y dispositivo de búsqueda de imágenes dinámicas.
Campo técnico
La presente invención se refiere a un aparato para generar información para la recuperación de un vídeo (un aparato de generación de información para recuperar vídeo) y a un aparato para la recuperación de un vídeo (un aparato para recuperar vídeo), y más en concreto se refiere a un aparato para generar información de recuperación de vídeo y a un aparato para la recuperación de vídeo, capaces de recuperar y extraer eficazmente una escena deseada, de entre una pluralidad de escenas que constituyen un vídeo.
Arte previo
Con las mejoras en el rendimiento de los ordenadores, la realización de un aparato de almacenamiento con gran capacidad, la expansión de una estructura de comunicación y otros progresos, se ha utilizado ampliamente un servicio, o similar, que mantiene una base de datos de gran cantidad de imágenes y distribuye el vídeo necesario cuando surge tal necesidad. Desde que la tecnología para digitalizar un vídeo ha progresado, una persona puede construir una base de datos de vídeos.
Cuando ha sido construida una base de datos de vídeos, como recuperar un vídeo deseado a partir de aquella se convierte en un problema. La presente invención se refiere una mejora sobre tal tecnología para la recuperación de un vídeo.
El término "vídeo" utilizado en la presente especificación, incluye tanto los tipos de datos de vídeo no procesados y constituidos por señales RGB (Red, Green and Blue; rojo, verde y azul), como los tipos de datos de vídeo digitalizados y codificados de acuerdo con un formato de compresión de vídeo tal como MPEG (Moving Picture Experts Group; grupo de expertos en imágenes en movimiento) o similar.
El término "escena" significa una unidad constituyente de un vídeo, que incluye una pluralidad de imágenes de vídeo y, por ejemplo, de un vídeo obtenido de una vez rodando desde el comienzo al final de la grabación, o de un vídeo para el que la edición ha finalizado, una longitud del vídeo separada con dos puntos de edición en ambos extremos de esta. Un punto de edición incluye, en un caso, efectos especiales tales como atenuar y disolver. Además, una escena puede incluir una pluralidad de escenas.
El término "un punto de cambio de escena" significa una posición en el eje temporal, en el que se cambia de escena, y una imagen delantera inmediatamente posterior a que una escena es conmutada, es aludida como "una imagen de cambio de escena".
El término "imagen clave" significa una imagen distintiva utilizada en recuperación u otro proceso o similar, que representa una escena o la totalidad de un vídeo.
Los datos de un vídeo son "contenidos" constituidos de información de imagen, que cambia a lo largo del eje temporal. Los datos del vídeo constituyen un objeto de recuperación en su totalidad. Por lo tanto, el método más sencillo para la recuperación de un vídeo deseado es seleccionar un vídeo deseado, mediante la visualización de la totalidad de un vídeo. Sin embargo, requiere un tiempo ver la totalidad de un vídeo. Por lo tanto, cuando se incrementa el número de vídeos registrados en la base de datos, requiere un tiempo extremadamente largo recuperar un vídeo deseado. Por consiguiente este método no es realista.
En un método adoptado generalmente para la recuperación eficiente de un vídeo, se prepara diversas clases de información para recuperar contenidos representativos (información de recuperación) de respectivos vídeos, de modo que sea de uso fácil en la recuperación de las respectivos vídeos, y la recuperación se lleva a cabo en base a la información de recuperación.
La información utilizada como información de recuperación incluye información anexa a un vídeo (información anexa), información que expresa características de un vídeo (información característica) e información que expresa el perfil de un vídeo (información del perfil). La información anexa incluye un título o un texto descriptivo preparado, que acompaña a un vídeo. La información característica incluye información que expresa características del vídeo, tal como la frecuencia de un valor de luminancia derivado de una señal del vídeo, información del movimiento entre imágenes, o similar. La información del perfil incluye información de puntos de cambios de escena, imágenes clave, o similares, que están determinados por la información característica de un vídeo, o por una entrada desde el
exterior.
De la información descrita arriba, la información característica es especialmente práctica e importante. Por ejemplo, puede seleccionarse una imagen clave que representa un vídeo, mediante utilizar información característica. La información característica se digitaliza fácilmente, y si una característica de un vídeo deseado está digitalizada en forma de información característica, puede ser fácil extraer un vídeo que tenga una característica coincidente con una información característica solicitada. En la siguiente descripción, el término "información de recuperación" se refiere a la información característica.
En general un vídeo incluye varias escenas. Cuando un dispositivo de recuperación recupera un vídeo, la recuperación se lleva a cabo para detectar una imagen deseada o una escena deseada incluidos en un vídeo, incluidas en un vídeo, de entre uno o entre una pluralidad de vídeos que son objeto de recuperación. Un método fundamental para detectar una imagen o una escena deseadas en un vídeo, utilizando información de recuperación, es seguir un procedimiento en el que se obtiene por adelantado la información de recuperación relativa a las imágenes o la información de recuperación relativa a las escenas, y se selecciona una imagen o una escena en base a tal información de recuperación.
En relación con este punto, se revela un aparato y un proceso en la Patente Japonesa no examinada número 9 - 284 702, donde una suma total de vectores en movimiento de cada imagen, y una continuidad de una pluralidad de pequeñas regiones que constituyen una imagen son adoptadas, en una imagen y entre imágenes, como característica de una imagen para la detección de un punto de cambio de escena.
Además, se revela un método de control en la Patente Japonesa no examinada número 7 - 38 842, en un caso en que se utiliza el promedio de la magnitud de vectores de movimiento, en histogramas de color de imágenes en cada escena, como característica de la escena, y se visualiza una imagen representativa de cada escena como un índice de imagen.
Si se fabrica un aparato teniendo en consideración tales técnicas del arte previo, para almacenar información al objeto de recuperar un vídeo (un aparato de almacenamiento de información para la recuperación de vídeo) y un aparato para recuperar un vídeo (un aparato para recuperar un vídeo), el aparato será como se muestra más abajo.
En referencia a la figura 1, se considera un aparato para el almacenamiento de información de recuperación de vídeo, que incluye: una sección de análisis 601 para analizar datos introducidos de vídeo, al objeto de dividir los datos en escenas y entregar información que expresa una estructura de vídeo tal como las posiciones que dividen la escena (cambio de escena); una sección de generación de información de recuperación 602 para una unidad de imagen, conectada para recibir una salida de la sección de análisis 601 y datos de vídeo introducidos, y para generar y entregar información resumida de un vídeo, tal como la suma total de vectores de movimiento correspondientes a cada una de las imágenes en una escena, como información de recuperación en base a la información de la estructura del vídeo y a los datos del vídeo entregados de la sección de análisis 601, una sección de generación de información de recuperación 603 para una unidad de escena, conectada para recibir una salida de la sección de generación de información de recuperación 602 para una unidad de imagen, y generar y entregar información resumida tal como el valor promedio en magnitud de los vectores de movimiento, para la totalidad de una escena, como información de recuperación en base a la información resumida de una unidad de imagen entregada desde la sección de generación de información de recuperación 602 para una unidad de imagen; una sección de generación de información de recuperación 604 para un vídeo, para disponer, en un formato prescrito, información de la estructura del vídeo entregada desde la sección de análisis 601, información de recuperación de cada imagen entregada desde la sección de generación de información de recuperación 602 para una unidad de imagen, e información de recuperación para la totalidad de una escena entregada desde la sección de generación de información de recuperación 603 para una unidad de escena, al objeto de generar y entregar información de recuperación correspondiente a un vídeo; y una sección de almacenamiento 605 para almacenar el vídeo original y la información de recuperación correspondiente a un vídeo, entregada desde la sección de generación de la información de recuperación 604 para un vídeo, en un estado de relación mutua, en un medio de almacenamiento 606.
Nótese que una imagen puede considerarse como una unidad de un vídeo, obtenida por división temporal del vídeo. Así, una imagen puede considerarse como un ejemplo de un bloque dividido temporalmente.
En esta especificación se utiliza la notación de "información de recuperación de una unidad de imagen" para expresar información de recuperación proporcionada con una imagen como unidad. De forma similar, se utiliza la notación de "información de recuperación de una unidad de escena" para expresar información de recuperación proporcionada con una escena como unidad.
En referencia a la figura 2, se considera el aparato de recuperación de vídeos del arte previo, que incluye: una sección de lectura 711 para leer información de recuperación de vídeo, y datos de vídeo, desde el medio de almacenamiento 606; una sección de gestión de la información de recuperación 702, para contener cada información de recuperación de vídeo suministrada desde la sección de lectura 701 y recibir una solicitud de información de recuperación, para entregar información de recuperación de una unidad de escena y recibir información de una unidad de imagen junto con información de la estructura de un vídeo; una sección de ejecución de recuperación 703 para una unidad de escena, para recibir una solicitud de recuperación con una escena como unidad, para solicitar información de recuperación de una unidad de escena, e información de estructura del vídeo, de la sección de gestión de la información de recuperación 702, y detectar una escena que satisface las solicitud de recuperación, en base a la información de recuperación de una unidad de escena y a la información de estructura del vídeo de una escena, recibida, para entregar información sobre la escena detectada; una sección de ejecución de la recuperación 704 para una unidad de imagen, para recibir una solicitud de recuperación con una imagen como unidad, para solicitar información de recuperación de una unidad de imagen en una escena, e información de la estructura del vídeo, de la sección de gestión de la información de recuperación 702, y detectar una escena o una imagen que satisface las solicitud de recuperación, en base a la información de recuperación de una unidad de imagen en una escena, y a la información de estructura del vídeo recibida, para entregar una información sobre la escena o imagen detectadas; una sección de gestión de datos 705 para extraer y entregar datos de vídeo correspondientes a una escena o imagen detectadas, a través de la sección de lectura 701, en base a la información sobre la escena detectada o a la información sobre la imagen detectada, entregada desde la sección de ejecución de la recuperación 703 para una unidad de escena, y la sección de ejecución de recuperación 704 para una unidad de imagen; y una sección de control de recuperación 706, para responder a una instrucción de recuperación proporcionada por un operador, al objeto de proporcionar una solicitud de recuperación a la sección de ejecución de recuperación 703 para una unidad de escena, o a la sección de ejecución de recuperación 704 para una unidad de imagen, y para repetir un proceso que muestra datos del vídeo proporcionados desde la sección de gestión de datos 705 como resultado de recuperación, al objeto de entregar el resultado de recuperación al término de la recuperación.
Se tiene que el aparato mostrado en la figura 1 funciona como sigue: cuando se introduce de datos del vídeo, la sección de análisis 601 divide los datos de vídeo en unidades de escena. La sección de análisis 601 entrega además la información de la estructura del vídeo.
La sección de generación de la información de recuperación 602 para una unidad de imagen, genera información de resumen correspondiente a una imagen en una escena, en base a la información de estructura del vídeo entregada desde la sección de análisis 601, y a los datos del vídeo. La sección de generación de la información de recuperación 602 para una unidad de imagen, introduce además la información resumen así generada, a la sección de generación de información de recuperación 603 para una unidad de escena, y a la sección de generación de información de recuperación 604 para un vídeo, como información de recuperación.
La sección de generación de información de recuperación 603 para una unidad de escena, genera información de resumen para una escena completa, en base a la información resumen de una unidad de imagen proporcionada desde la sección de generación de información de recuperación 602 para una unidad de imagen. La sección de generación de información de recuperación 603 para una unidad de escena, proporciona además la información resumen así generada, a la sección de generación de información de recuperación 604 para un vídeo, como información de recuperación.
La sección de generación de información de recuperación 604 para un vídeo, recibe de la información de la estructura del vídeo, la información de recuperación de una unidad de imagen y la información de recuperación para una escena completa, desde la sección de análisis 601, la sección de generación de información de recuperación 602 para una unidad de imagen, y la sección de generación de información de recuperación 603 para una unidad de escena, respectivamente, y genera la información de recuperación correspondiente a un vídeo, disponiendo la información en un formato prescrito. La sección de generación de información de recuperación 604 para un vídeo, proporciona la información de recuperación correspondiente a un vídeo, así generada, a la sección de almacenamiento
605.
La sección de almacenamiento 605 almacena los datos originales del vídeo, y la información de recuperación proporcionada desde la sección de generación de información de recuperación 604 para un vídeo, en el medio de almacenamiento 606. En este momento, la sección de almacenamiento 605 une información indicativa de que los datos del vídeo y la información de recuperación, ambos a ser almacenados en aquella, se corresponden mutuamente a uno o ambos entre los datos del vídeo y la información de recuperación; o almacena la información de la correspondencia por separado, de los datos del vídeo y la información de recuperación.
En referencia a la figura 2, se asume que el aparato de recuperación del arte previo funciona del siguiente modo: al comienzo de la recuperación, un operador proporciona una instrucción de recuperación a la sección de control de recuperación 706. La sección de control de recuperación 706 selecciona la recuperación de una unidad de escena, o la recuperación de una unidad de imagen, en respuesta a la instrucción de recuperación.
Por ejemplo, se asume que se selecciona la recuperación de una escena. Entonces la sección de control de recuperación 706 proporciona una solicitud de recuperación, a la sección de ejecución de recuperación 703 para una unidad de escena. La sección de ejecución de recuperación 703 responde esta solicitud para solicitar la información de recuperación de una unidad de escena y la información de la estructura del vídeo, procedente de la sección de gestión de la información de recuperación 702, y recibe la información de recuperación de una unidad de escena y la información de estructura del vídeo, entregadas desde la sección de gestión de la información de recuperación 702.
La sección de ejecución de la recuperación 703 para una unidad de escena, detecta una escena que satisface la solicitud de recuperación proporcionada desde la sección de control de recuperación 706, en base a la información de recuperación y a la información de estructura del vídeo, de una unidad de escena. La sección de ejecución de la recuperación 703 para una unidad de escena, entrega información sobre la escena detectada, a la sección de gestión de datos 705.
La sección de gestión de datos 705 lee los correspondientes datos de vídeo procedentes del medio de almacenamiento 606, a través de la sección de lectura 701, en base a la información sobre una escena proporcionada desde la sección de ejecución de la recuperación 703 para una unidad de escena, para proporcionar los datos de vídeo a la sección de control de recuperación 706.
La sección de control de recuperación 706 visualiza los datos de vídeo. El operador ve los datos de vídeo mostrados, para determinar una siguiente política de recuperación, y proporciona una siguiente instrucción de recuperación a la sección de control de recuperación 706. A continuación se repite de un proceso similar.
Un vídeo que el operador desea extraer desde la base de datos es extraído de semejante forma, y a continuación finaliza la recuperación. Un resultado de recuperación es entregado desde la sección de control de recuperación 706.
En el arte previo, la información de recuperación de la escena se genera en base a la información de recuperación de unidades de imagen incluidas en la escena. Esto se debe al acuerdo general de que la unidad mínima que constituye una escena es una imagen.
De esta forma, la información de recuperación de la escena se genera en base a la información de recuperación de unidades de imagen, y después puede utilizarse las características espaciales de cada imagen, obtenidas mediante dividir la imagen en pequeñas regiones (información de recuperación de unidades de bloque de una pantalla dividida), como información de recuperación. Sin embargo se ha encontrado un problema consistente en que, en un aparato del arte previo, no puede manejarse las características espaciales del vídeo sobre una escena completa, que tiene una longitud en el eje temporal. En la presente especificación, tales características espaciales del vídeo sobre la totalidad de una escena, son aludidas como "información de recuperación de una unidad de bloque dividido espacialmente".
Por ejemplo, considérese un caso en el que se extrae una escena que tiene una característica consistente en que se muestra un objeto en movimiento enérgico, en una parte intermedia de la pantalla. En el arte previo no había posibilidad de extraer tal escena a partir de la información de recuperación de una unidad de escena, sino que se presentaba la necesidad de recuperar utilizando información de recuperación unida a cada una de las imágenes incluidas en una escena. Por esta razón, en el arte previo tal recuperación se llevaba a cabo con una eficiencia muy baja.
El documento EP 0 878 767 revela un método y un aparato de recuperación de imagen, en los que las características (por ejemplo el promedio de color) son extraídas desde las imágenes de entrada, y convertidas en una serie característica que es temporalmente comprimida y almacenada, para la recuperación mediante la comparación en una base de imagen, con características correspondientes de imágenes a ser recuperadas.
El documento XP 000 571 334 revela una técnica para buscar en un vídeo, características de secuencia de imagen en cambios de toma, definiéndose una toma como una sola parte continua de un vídeo realizada por una cámara, y siendo un cambio de toma limítrofe entre tomas consecutivas. La característica, sea el promedio de color, es codificada y almacenada para la búsqueda de vídeo sobre una base de de imágenes.
El documento WO 98/55 942 revela un sistema de indexación de vídeo, que analiza contenidos de un vídeo fuente, y desarrolla una tabla de contenidos utilizando imágenes seleccionadas. Se detecta cortes de vídeo entre una escena y otra, y se selecciona imágenes clave para la creación de un índice visual, desde el que un usuario puede llevar a cabo la selección de imagen.
El documento XP 000 703 541 revela una técnica de indexación espacio-temporal de secuencias de vídeo de rector cuantificado (VQ). Las imágenes de una secuencia de vídeo comprimida VQ se representan mediante un mapa de uso, un conjunto de etiquetas VQ y un conjunto de vectores de movimiento. La secuencia se divide en tomas y cada toma se indexa de acuerdo con el contenido espacial de una imagen representativa comprimida, y de acuerdo con el contenido temporal, así como con el movimiento y las operaciones de la cámara dentro de la toma.
La presente invención se ha realizado a la luz del problema descrito arriba, y es un objetivo de la presente invención proporcionar un aparato de generación de información de recuperación de vídeo, y un aparato de recuperación de vídeo, capaces de llevar a cabo de forma eficiente la recuperación de un vídeo utilizando un nuevo índice que expresa con exactitud una característica de una escena.
Revelación de la invención
De acuerdo con un aspecto de la invención, se proporciona un aparato de generación de información de recuperación de vídeo, se genera información de recuperación para recuperar datos de vídeo, formados por una o más escenas divididas temporalmente en una pluralidad de imágenes sucesivas, comprendiendo el aparato: una sección de generación de información de recuperación, para generar información de recuperación correspondiente a cada una de las mencionadas una o más escenas, en base a los mencionados datos del vídeo, donde la mencionada sección de generación de información de recuperación comprende: un primer medio de generación de información resumen, para formar, para cada una de las mencionadas escenas, una pluralidad de bloques divididos espacialmente, mediante dividir temporalmente la escena a lo largo del eje temporal en una pluralidad de imágenes, dividiendo igualmente la totalidad de las mencionadas imágenes de la escena espacialmente, en bloques divididos, y combinando los bloques divididos en las posiciones correspondientes en las respectivas, de la mencionada pluralidad de imágenes, para formar un mencionado bloque de la escena dividido espacialmente, para generar información resumen en unidades de un bloque de la escena dividido espacialmente, la información de recuperación comprendiendo la mencionada información resumen.
La información resumen se genera a partir de los bloques divididos espacialmente obtenidos mediante dividir cada una de las escenas. Esta información resumen ha sido introducida en la presente invención, por primera vez en el arte, y es diferente respecto de la información obtenida solo a partir de un bloque dividido temporalmente. Esta información resumen se obtiene desde un bloque dividido espacialmente, que forma solo una parte del vídeo en el dominio espacial, pero se extiende sobre la totalidad de la escena en el eje temporal. Por lo tanto, esta información resumen expresa una característica espacial de las escenas, sobre la totalidad de la escena en el eje temporal. Mediante el uso de este nuevo índice, la recuperación se lleva a cabo eficientemente poniendo más énfasis sobre una característica espacial del vídeo parcial en movimiento, que sobre una característica temporal de esta.
De acuerdo con otro aspecto de la invención, se proporciona un vídeo deseado utilizando información de recuperación correspondiente a cada una de las una, o más, escenas que forman los datos del vídeo, donde los mencionados datos del vídeo están relacionados con la mencionada información de recuperación, y la mencionada información de recuperación comprende, para cada una de las mencionadas escenas, información resumen en unidades de bloques divididos espacialmente, mediante dividir temporalmente la escena lo largo del eje temporal en una pluralidad de imágenes, dividiendo espacialmente la totalidad de las mencionadas imágenes de la escena del mismo modo, en bloques divididos, y combinando los bloques divididos en posiciones correspondientes sobre respectivas imágenes, de la mencionada pluralidad de imágenes, para formar un mencionado bloque de la escena dividido espacialmente, al objeto de generar la información resumen en unidades del mencionado bloque de la escena dividido espacialmente, comprendiendo el aparato: medios de gestión de la información, para leer y gestionar la mencionada información de recuperación; y primeros medios de recuperación de escena, conectados a los mencionados medios de gestión de información, y sensibles a una primera solicitud de recuperación, para recuperar una escena que satisfaga la mencionada primera solicitud de recuperación, utilizando la mencionada información resumen, en unidades de un bloque dividido espacialmente incluido en la mencionada información de recuperación.
Breve descripción de los dibujos
la figura 1 es un diagrama de bloques esquemático, de un aparato imaginario del arte previo, de registro de información de recuperación de vídeo;
la figura 2 es un diagrama de bloques esquemático, de un aparato imaginario del arte previo, de recuperación de vídeo;
la figura 3 es un diagrama de bloques de un aparato de almacenamiento de información de recuperación de vídeo, relativo a una realización de la presente invención;
la figura 4 es una representación que muestra un proceso en el que un vídeo es dividido en escenas, en el aparato de almacenamiento de información de recuperación vídeo, relativo a la realización de la presente invención;
la figura 5 es una representación que muestra un proceso en el que la información de recuperación de una unidad de bloque dividida temporalmente, es generada en el aparato de almacenamiento de información de recuperación de vídeo, relativo una realización de la presente invención;
la figura 6 es una representación que muestra un proceso en el que la información de recuperación de una unidad de bloque dividido espacialmente, es generada en el aparato de almacenamiento de información de recuperación de vídeo, relativo a la realización de la presente invención;
la figura 7 es una representación para describir un concepto de la información de recuperación de una unidad de escena, en el aparato de almacenamiento de información de recuperación de vídeo relativo la realización de la presente invención;
la figura 8 es una representación para describir un concepto de la información de recuperación de una unidad de bloque dividido espacialmente, en el aparato de almacenamiento de información de recuperación de vídeo relativo a la realización de la presente invención;
la figura 9 es una representación para describir un concepto de la información de recuperación de una unidad de bloque dividido espacialmente, excluyendo redundancia, en el aparato de almacenamiento de información de recuperación de vídeo relativo la realización de la presente invención;
la figura 10 es un diagrama de bloques, de un aparato de recuperación de vídeo relativo a la realización de la presente invención;
la figura 11 es una representación gráfica que muestra una escena de referencia en la recuperación por similitud, utilizando información de recuperación de unidad de escena;
la figura 12 es una representación gráfica que muestra una escena en recuperación por similitud, utilizando información de recuperación de unidad de escena;
\newpage
la figura 13 es una representación gráfica que muestra otra escena en recuperación por similitud, utilizando información de recuperación de unidad de escena;
la figura 14 es una representación gráfica que muestra una escena de referencia en recuperación por similitud, que utiliza información de recuperación por unidad de bloque dividido espacialmente;
la figura 15 es una representación gráfica que muestra una escena en recuperación por similitud, que utiliza información de recuperación por unidad de bloque dividido espacialmente;
la figura 16 es una representación gráfica que muestra otra escena en recuperación por similitud, que utiliza información de recuperación por unidad de bloque dividido espacialmente;
la figura 17 es una representación para mostrar un concepto de almacenamiento de información de recuperación de unidad de escena, y almacenamiento selectivo de información de recuperación de una unidad de bloque dividido espacialmente, en el aparato de almacenamiento de información de recuperación de vídeo, relativo la realización de la presente invención;
la figura 18 es una tabla que muestra el significado de un valor de un indicador que especifica el número de divisiones;
la figura 19 es una representación que expresa un concepto de almacenamiento de la información de recuperación de escena, y el almacenamiento jerárquico de la información de recuperación de una unidad de bloque dividido espacialmente, en el aparato de almacenamiento de información de recuperación de vídeo, relativo a la realización de la presente invención,
la figura 20 es una representación que muestra una división ejemplar, cuando una imagen es dividida en 2^{2} partes;
la figura 21 es una representación que muestra una división ejemplar, cuando una imagen es dividida en 2^{3} partes;
la figura 22 es una representación que muestra una división ejemplar, cuando una imagen es dividida en 2^{4} partes;
la figura 23 es una representación que muestra una división ejemplar, cuando una imagen es dividida en 2^{5} partes;
la figura 24 es una representación que muestra una división ejemplar, cuando una imagen es dividida en 2^{6} partes;
la figura 25 es una representación que muestra una base de datos de vídeo, en la que los datos de vídeo se almacenan divididos en unidades de escena.
Mejor modo de llevar a cabo la invención
La figura 3 muestra un diagrama de bloques de un aparato de almacenamiento de información de recuperación de vídeo 40 relativo a la realización. En referencia a la figura 3, el aparato de almacenamiento de información de recuperación de vídeo 40 incluye: una sección de análisis 101 para recibir datos de vídeo, y analizar una estructura de un vídeo para dividir los datos en escenas y entregar información de la estructura del vídeo, tal como puntos de cambio de escena: una primera sección de generación de la información de la recuperación 102 para recibir los datos del vídeo, el información de estructura de vídeo entregada desde la sección de análisis 101, y generar y entregar información resumen de datos de vídeo, de cada una de las imágenes incluidas en una escena (información resumen con un bloque dividido temporalmente como imagen, en una unidad), una segunda sección de generación de la información de recuperación 103, para recibir la información de la estructura de vídeo entregada desde la sección de análisis 101 y los datos del vídeo, y generar y entregar información resumen de un bloque dividido espacialmente, constituido por datos de vídeo en la misma posición del bloque dividido, de la totalidad de las imágenes en una escena, como información de recuperación de cada una de las escenas; una tercera sección de generación de información de recuperación 104, para recibir como entradas la información resumen de cada una de las imágenes (bloques divididos temporalmente) en una escena entregada desde la primera sección de generación de información de recuperación 102, y/o la información resumen de cada uno de los bloques divididos parcialmente en una escena, entregada desde la segunda sección de generación de información de recuperación 103, generar y entregar información resumen de toda la escena en base a la información resumen procedente de la primera sección de generación de información de recuperación 102 y/o a la información resumen procedente de la segunda sección de generación de información de recuperación 103; una cuarta sección de generación de información de recuperación 105 para disponer la información resumen entregada desde la primera sección de generación de información de recuperación 102, la información resumen entregada desde la segunda sección de generación de información de recuperación 103, la información resumen entregada desde la tercera sección de generación de información de recuperación 104 y la información de estructura del vídeo entregada desde la sección de análisis 101, en un formato prescrito para generar de ese modo una información de recuperación de salida, correspondiente al vídeo; y una sección de almacenamiento 106 para recibir la información de recuperación de vídeo, entregada desde la cuarta sección de generación de información de recuperación 105 y los datos del vídeo original, y almacenar la correspondencia de información entre la información de recuperación y los datos originales del vídeo, o similar, uniendo la información correspondiente o similar, a uno o ambos de entre la información de recuperación y los datos originales del vídeo, o la información de correspondencia o similar, como datos separados procedentes de la información de recuperación y el vídeo original, en un medio de almacenamiento
107.
Los datos de vídeo que maneja un aparato de la presente invención, pueden ser cualquiera de las señales originales de vídeo tales como señales RGB, y datos de vídeo codificados de acuerdo con un formato de compresión de vídeo, tal como MPEG (Moving Picture Experts Group) u otro similar. En la descripción de la realización se asume por conveniencia que los datos de vídeo son datos codificados.
En subsiguiente la figura 3 se mostrará una descripción más detallada de las funciones de los bloques: la sección de análisis 101 divide un vídeo en pequeñas unidades temporales (escenas). Con este objeto, la sección de análisis 101 lleva a cabo la detección de puntos de cambio de escena, en los datos del vídeo. En este ejemplo, la sección de análisis 101 detecta un punto de cambio de escena utilizando información de frecuencia en una imagen, en modo predictivo, de bloques codificados incluidos en los datos del vídeo codificado.
Por ejemplo en referencia a la figura 4, la sección de análisis 101 detecta una primera imagen 130 de cambio de escena, una segunda imagen 132 de cambio de escena, una tercera imagen 134 de cambio de escena y una cuarta imagen 136 de cambio de escena, de un vídeo 120. De ese modo, la sección de análisis 101 divide el vídeo 120 en una primera escena 140 constituida por datos de vídeo entre la primera imagen 130 de cambio de escena y la segunda imagen 132 de cambio de escena (incluyendo la primera imagen 130 de cambio de escena), una segunda escena 142 constituida por datos de vídeo entre la segunda imagen de cambio de escena 132 y la tercera imagen de cambio de escena 134 (incluyendo la segunda imagen de cambio de escena 132), una tercera escena 144 constituida por datos de vídeo entre la tercera imagen de cambio de escena 134 y la cuarta imagen de cambio de escena 136 (incluyendo la tercera imagen de cambio de escena 134), y una cuarta escena 146 constituida por datos de vídeo desde la cuarta imagen de cambio de vídeo 136 hasta la última imagen del vídeo 120 (incluyendo la cuarta imagen de cambio de vídeo 136). Es decir, la sección de análisis 101 divide el vídeo 120 en cuatro escenas 140, 142, 144 y 146, en este
ejemplo.
La sección de análisis 101 tiene la función de entregar información que expresa posiciones en los datos del vídeo en una primera imagen de cambio de escena 130, una segunda imagen de cambio de escena 132, una tercera imagen de cambio de escena 134, una cuarta imagen de cambio de escena 136, etc., como información de estructura del vídeo.
En referencia a la figura 5, la primera sección de generación de información de recuperación 102 lleva a cabo el proceso que se describe más abajo sobre la escena 160 obtenida mediante dividir los datos de vídeo, en base a la información de estructura de vídeo entregada desde la sección de análisis 101, para preparar la información resumen de cada una de las imágenes incluidas en la escena 160. Nótese que la escena 160 incluye datos de vídeo desde una imagen 162A hasta una imagen 162N.
La primera sección de generación de información de recuperación 102 obtiene información de frecuencia 166A a 166N de vectores de movimiento, en las respectivas imágenes 162A a 162N. Además, la primera sección de generación de información de recuperación 102 obtiene promedios 168A a 168N, de vectores de movimiento en las respectivas imágenes 162A a 162N.
La información de frecuencia 166 y la información de promedio 168 así obtenidas, constituyen aquí una información resumen 170 de cada imagen. La información resumen se proporciona como una función de un número de imagen (es decir, una función del tiempo).
La información resumen es información de recuperación obtenida por compresión de la información distribuida espacialmente, en cada una de las imágenes incluidas en la escena 160. Una imagen es una clase de bloque dividido temporalmente, puesto que una imagen es una unidad obtenida mediante dividir temporalmente un vídeo. Así, puede decirse que la información resumen 170 es información de recuperación de una unidad de bloque dividida temporalmente.
La segunda sección de generación de información de recuperación 103 recibe la información de estructura del vídeo (información sobre posiciones de cambio de escena) entregada desde la sección de análisis 101, y los datos del vídeo. La segunda sección de generación de información de recuperación 103 genera información resumen de un bloque dividido espacialmente, utilizando la información de estructura de vídeo y los datos del vídeo, del siguiente modo.
Nótese que el bloque dividido espacialmente es aquí un bloque como el que se describe a continuación. Todas y cada una de las imágenes en una escena están divididas espacialmente en una pluralidad de bloques divididos del mismo modo. La totalidad de la pluralidad de bloques, en las posiciones correspondientes de todas las respectivas imágenes, son denominados colectivamente un bloque de la escena dividido espacialmente. Por lo tanto, cuando una escena incluye n imágenes y cada imagen está dividida espacialmente en m bloques, la escena está dividida en m bloques divididos espacialmente, y cada bloque dividido espacialmente incluye n bloques.
Específicamente en referencia a la figura 6, en la segunda sección de generación de información de recuperación 103 se aplica el siguiente proceso a la escena 160. Como se ha descrito previamente, se asume que la escena 160 incluye una pluralidad de imágenes 162A a 162N. Las imágenes 162A a 162N están, cada una, divididas espacialmente en M bloques divididos, donde un bloque dividido significa cada una de las pequeñas regiones obtenidas cuando el plano del vídeo se divide en una pluralidad de partes. Por ejemplo, la imagen 162A mostrada en la figura 6 está dividida en una pluralidad de bloques divididos 180A1 a 180AM. Esto aplica a cada una de las otras imágenes 162B a 162N.
Un bloque dividido espacialmente, de la escena 160, está formado a partir de bloques divididos en la misma posición, en la pluralidad de imágenes 162A a 162N. Por ejemplo, el bloque dividido espacial 182-M está formado por una colección de los M-ésimos bloques de las respectivas N imágenes (el número de elementos es igual a N). Los otros bloques espaciales divididos están formados de modo similar.
Se genera información resumen 188 mediante comprimir información distribuida en la dirección del eje temporal, para cada uno de los bloques divididos espacialmente M así obtenidas. La información resumen 188 aquí aludida, es información resumen de cada bloque dividido espacialmente, y es un valor función de una posición (coordenadas) en una imagen de un bloque dividido incluido en cada uno de los bloques divididos espacialmente.
Típicamente, la información resumen 188 incluye información de frecuencia 184 e información promedio 186. La información de frecuencia en un bloque dividido espacial en modo predictivo, de cada bloque codificado, o la información de frecuencia en un bloque dividido espacialmente de vectores de movimiento, en codificación de predicción compensatoria del movimiento, pueden utilizarse como información de frecuencia 184. Por ejemplo, la información de frecuencia 184A se obtiene desde el bloque dividido espacialmente 182-1, aunque no se muestra, y la información de frecuencia 184B se obtiene desde el bloque dividido espacialmente 182-2, aunque no se muestra, y la otra información de frecuencia se obtiene de forma similar; finalmente, la información de frecuencia 184M se obtiene a partir de un bloque dividido espacialmente 182M.
Puede utilizarse una suma total de los vectores de movimiento en un bloque dividido espacialmente, como información promedio 186. Por ejemplo, la información promedio 186A se obtiene a partir de un bloque dividido espacialmente 182\cdot1, no mostrado, la información promedio 186B se obtiene a partir de un bloque dividido espacialmente 182\cdot2, no mostrado, y la otra información promedio se obtiene de forma similar; finalmente, la información promedio 186\cdotM se obtiene a partir de un bloque dividido espacialmente 182\cdotM.
Adicionalmente a la suma total y el promedio, como información resumen puede utilizarse también una desviación estándar, o similar, de los vectores de movimiento en un bloque dividido espacialmente.
La tercera sección de generación de información de recuperación 104 recibe información resumen entregada desde la primera sección de generación de información de recuperación 102, e información resumen entregada desde la segunda sección de generación de información de recuperación 103, y genera y entrega información resumen de todas las escenas, basándose en una o ambas informaciones resumen.
Aquí, la información resumen de la totalidad de una escena es información de recuperación utilizada en la recuperación de la escena. En tanto que información resumen de toda la escena, puede utilizarse la información de frecuencia, el promedio, una desviación estándar o similar, de toda la escena con respecto a los vectores de movimiento, los valores de luminancia, diferencias de color u otro parámetro similar.
En esta especificación se utiliza la notación de "información de recuperación de una unidad de bloque dividido en el tiempo (unidad de imagen)", para expresar información de recuperación proporcionada con un bloque dividido temporalmente (imagen), como una unidad. De forma similar, se utiliza la notación "información de recuperación de una unidad de bloque dividido espacialmente" e " información de recuperación de una unidad de escena", para expresar la información de recuperación proporcionada con un bloque dividido espacialmente, y de una escena como una unidad.
La cuarta sección de generación de información de recuperación 105 organiza la información resumen entregada desde la primera sección de generación de información de recuperación 102, la información resumen entregada desde la segunda sección de generación de información de recuperación 103, la información resumen entregada desde la tercera sección de generación de información de recuperación 104 y la información de la estructura del vídeo entregada desde la sección de análisis 101, en un formato prescrito para generar y entregar información de recuperación correspondiente al vídeo, y proporcionar la información de recuperación a la sección de almacenamiento 106.
La sección de almacenamiento 106 recibe la información de recuperación correspondiente al vídeo, entregada desde la cuarta sección de generación de información de recuperación 105, y los datos originales del vídeo, para almacenar solo la información de recuperación, o la información de recuperación y los datos del vídeo, en el medio de almacenamiento 107. En este momento la sección de almacenamiento 106 almacena información que muestra que los datos del vídeo y la información de recuperación se corresponden entre sí, uniéndose a una o ambas de, o como datos separados respecto de, los datos de vídeo y la información de recuperación.
La información de una magnitud del movimiento obtenido en base a los vectores de movimiento incluidos en los datos de vídeo codificados para la predicción compensatoria del movimiento, se usa como información de recuperación adoptada en un aparato 40 de almacenamiento de información de recuperación de vídeo, relativo a la realización descrita arriba en relación con la estructura y operación general de este.
Específicamente, se obtiene la información de recuperación de una unidad de bloque dividido temporalmente (imagen) para cada una de las imágenes en una escena, como una suma total de los valores absolutos de los vectores en movimiento en la totalidad de una imagen, obtenidos a partir de los vectores de movimiento unidos a cada uno de los bloques codificados. Nótese que la información de recuperación puede obtenerse como el promedio de los valores absolutos de los vectores de movimiento, en lugar de como la suma total de los valores absolutos de los vectores en movimiento, con el mismo efecto. Realmente, si se determina el número de bloques codificados incluidos en una imagen, tanto la suma total como el promedio de los valores absolutos de los vectores de movimiento, pueden obtenerse fácilmente el uno a partir del otro.
Una suma total de los valores absolutos de los vectores de movimiento, en cada uno de los bloques divididos espacialmente, se utiliza como información de recuperación de una unidad de bloque dividido espacialmente. Además, aquí puede utilizarse el promedio de los valores absolutos de los vectores de movimiento, en lugar de la suma total de los vectores de movimiento. En el caso en que los bloques divididos que constituyen un bloque dividido espacialmente, coinciden con los bloques codificados, el número de vectores de movimiento correspondiente a cada uno de los bloques divididos es 1. En un caso en que cada bloque dividido incluye una pluralidad de bloques codificados, el número de vectores de movimiento que corresponde a cada uno de los bloques divididos, es igual al número de bloques codificados incluidos en cada bloque dividido.
Alternativamente, la información de recuperación de cada unidad de bloque dividido espacialmente, puede ser una suma total de los valores absolutos de los vectores de movimiento en cada bloque dividido espacialmente, dividida por el número de bloques divididos (en una imagen) que constituyen cada bloque dividido espacialmente. El número de bloques divididos, en este caso es igual al número de imágenes que constituyen una escena. Además, la información de recuperación de cada unidad de bloque dividido espacialmente puede ser una suma total de los valores absolutos de los vectores de movimiento en cada unidad de bloque dividido espacialmente, dividida por el número de bloques codificados incluidos en los bloques divididos (en una imagen) que constituyen cada bloque dividido espacialmente.
Si se adopta la suma total de valores absolutos de vectores de movimiento, como información de recuperación de un bloque dividido temporalmente o de un bloque dividido espacialmente, puede calcularse una suma total de los valores absolutos de todos los vectores de movimiento incluidos en una escena. En la realización, la suma total así obtenida se utiliza como información de recuperación de una unidad de escena.
A continuación se proporcionará la descripción de un ejemplo específico de un bloque dividido, para ser utilizado en la generación de información de recuperación de una unidad de bloque dividido espacialmente. Como se muestra en la figura 7, se asume que la escena 160 está construida por las imágenes 162A hasta 162N. La información I de recuperación de unidad de escena, para la escena 160, se obtiene a partir de una suma total de los valores absolutos de los vectores de movimiento de las imágenes 162A a 162N.
Como se muestra en la figura 8, se asume que cada una de las imágenes 162A a 162N está dividida en bloques divididos 2 x 2. Es decir, cada una de las imágenes 162A a 162N está divididas en 4 bloques divididos. Por ejemplo, la imagen 162A está dividida en 4 bloques divididos 190A1 a 190A4. Esto aplica las otras imágenes no mostradas, de forma similar. Por ejemplo, la imagen 162B está dividida en las imágenes 190B1 a 190B4. Por consiguiente, como puede verse a partir de la descripción anterior de un bloque dividido espacialmente, la escena 160 está dividida en 4 bloques divididos espacialmente, y la información de recuperación I_{1} a I_{4} de unidades de bloques divididos espacialmente, se obtiene a partir de la suma total de los valores absolutos de vectores de movimiento en los respectivos 4 bloques divididos espacialmente, todos como números reales.
Por consiguiente, puesto que la información de recuperación de escena, para la escena 160, puede utilizarse {I, I_{1}, I_{2}, I_{3}, I_{4}} obtenida mediante ordenar la información de recuperación I, I_{1}, I_{2}, I_{3}, I_{4} en orden ascendente. La información de recuperación solo tiene que ser almacenada junto con los datos originales del vídeo.
Sin embargo, la información de recuperación descrita arriba incluye redundancia. En este ejemplo, esto significa que la unidad de información de recuperación de escena I es igual a la suma de la información de recuperación de unidades de bloques divididos espacialmente. Por ejemplo, la información I de recuperación de la unidad de escena puede obtenerse a partir de la información de recuperación I_{1} a I_{4}, de unidades de bloque dividido espacialmente. Además, una de las informaciones de recuperación de unidades de bloque dividido espacialmente puede calcularse a partir de las otras tres informaciones de recuperación I_{1} a I_{4} de unidades de bloque dividido espacialmente, y de la información de recuperación de la unidad de escena.
Por lo tanto, en un aparato de la realización se lleva a cabo el funcionamiento de modo que I_{4} no está incluido en la información de recuperación. Además, en un aparato de la realización se muestra un valor de cada una de las informaciones de recuperación de la unidad de bloque dividido espacialmente, como un porcentaje de esta en relación con la información de recuperación de una unidad de escena como 100, sin utilizar un valor original de cada información de recuperación de unidad de bloque dividido espacialmente, como tal. Si se asume que las proporciones de las informaciones de recuperación de bloque dividido espacialmente primera a tercera, frente a la información I de recuperación de unidad de escena, valen P_{1} y P_{2} y P_{3}, en este momento la información de recuperación de las unidades de bloque dividido espacialmente se obtiene de la forma mostrada en la figura 9. Es decir, la información de recuperación P_{1} del primer bloque dividido espacialmente, se calcula a partir de la información de recuperación del primer bloque dividido espacialmente y la unidad de escena. La información de recuperación P_{2} del segundo bloque dividido espacialmente, se calcula a partir de la información de recuperación del segundo bloque dividido espacialmente y la unidad de escena. La información de recuperación P_{3} del tercer bloque dividido espacialmente, se calcula a partir de la información de recuperación del tercer bloque dividido espacialmente y la unidad de escena. Puesto que se produce redundancia si va a obtenerse la información de recuperación del cuarto bloque dividido espacialmente, no se obtiene la información de recuperación del cuarto bloque dividido espacialmente. Es decir, la escena 160 es dividida en 4 bloques divididos espacialmente, y solo tiene que obtenerse la información de recuperación de 3 de los 4 bloques. En general, se obtiene P_{k} a partir de la ecuación P_{k} = 100 x I_{k}/I.
Si la información de recuperación de los bloques divididos espacialmente se almacena como porcentajes relativos a la información de recuperación de la unidad de escena como 100, puede tenerse ventajas como las descritas más abajo. En primer lugar, puesto que el rango dinámico de una señal para almacenar información de recuperación está limitado, la información de recuperación puede ser almacenada con mayor eficiencia. Es decir, la cantidad de información a ser almacenada disminuye en comparación con el caso en que no se almacena como porcentaje. En segundo lugar, puesto que el valor de la información de recuperación está normalizado, puede compararse entre sí la información de recuperación anexa a diferentes escenas. En tercer lugar, como ya se ha descrito, puede ser omitirse el almacenamiento de una variable.
De tal forma, la información de recuperación de vídeo se genera mediante la cuarta sección de generación de información de recuperación 105, y es almacenada en el medio de almacenamiento 107 a través de la sección de almacenamiento 106.
Se proporcionará la descripción de un aparato que recupera un vídeo, mediante el uso de los datos del vídeo y la información de recuperación almacenada en el medio de almacenamiento 107, con la ayuda del aparato 40 de almacenamiento informático de recuperación de vídeo, mostrado más abajo en la figura 3: en referencia a la figura 10, un aparato de recuperación de vídeo 50 relativo a la realización incluye: una sección de lectura 501 para leer datos de vídeo e información de recuperación de este, almacenados en el medio de almacenamiento 107; una sección de gestión de la información de recuperación 502 para contener la información de recuperación de un vídeo, leída mediante la sección de lectura 501, para entregar información de recuperación de la unidad de escena, información de recuperación de la unidad de bloque dividido espacialmente, o información de recuperación de la unidad de bloque dividido temporalmente, en respuesta a una solicitud de recuperación, junto con información de estructura de vídeo; una primera sección de ejecución de la recuperación 503 para emitir una solicitud a la sección de gestión de la información de recuperación 502, en respuesta a una solicitud de recuperación de la unidad de escena, recibiendo la información de recuperación de la totalidad de la escena y la información de estructura del vídeo, desde la sección de gestión de la información de recuperación 502, y detectando una escena que satisface la solicitud de recuperación de una unidad de escena, para entregar la información de la escena detectada; una segunda sección de ejecución de recuperación 504 para emitir una solicitud a la sección de gestión de la información de recuperación 502, en respuesta a una solicitud de recuperación de una unidad de bloque dividido espacialmente, y detectar una escena que satisface la solicitud de recuperación, en base a la información resumen de cada uno de los bloques divididos espacialmente en una escena, y la información de estructura del vídeo, recibidas desde la sección de gestión de la información de recuperación 502, para entregar la información de la escena detectada; una tercera sección de ejecución de recuperación 505, para emitir una solicitud a la sección de gestión de información de recuperación 502, en respuesta a una solicitud de recuperación para una unidad de bloque dividido temporalmente, y detectar una escena o una imagen que satisface la solicitud de recuperación en base a la información resumen de cada una de las imágenes en una escena y la información de estructura del vídeo, recibidas desde la sección de gestión de información de recuperación 502, para entregar la información de la escena o imagen detectadas; una sección de gestión de datos 506 para contener información del vídeo leída por la sección de lectura 501 y entregar datos del vídeo, de una escena o una imagen, detectadas en base al resultado de recuperación entregado desde la primera sección de ejecución de recuperación 503, de la segunda sección de ejecución de recuperación 504 o de la tercera sección de ejecución de recuperación 505; y una sección de control de recuperación 507, para emitir una solicitud de recuperación para una unidad de escena, a la primera sección de ejecución de recuperación 503, una solicitud de recuperación para una unidad de bloque dividido espacialmente, a la segunda sección de ejecución de recuperación 504, o una solicitud de recuperación para una unidad de bloque dividido temporalmente, a la tercera sección de ejecución de recuperación 505, en respuesta a la entrada de una instrucción de recuperación procedente de un operador, visualizando como resultado datos de vídeo de una escena o imagen entregadas desde la sección de gestión de datos 506, y entregando un resultado de recuperación cuando finaliza la
recuperación.
El aparato de recuperación de vídeo 50 funciona como se describe a continuación. Al comienzo de la recuperación, un operador proporciona una instrucción de recuperación, a la sección de control de recuperación 507. La sección de control de recuperación 507 selecciona una opción entre recuperación en unidades de escena, recuperación en unidades de bloque dividido espacialmente, o recuperación en unidades de bloque dividido temporalmente, y emite una solicitud de recuperación a una correspondiente entre la primera sección de ejecución de recuperación 503, la segunda sección de ejecución de recuperación 504 y la tercera sección de ejecución de recuperación 505.
La sección correspondiente que ha recibido la solicitud de recuperación procedente de la sección de control de recuperación 504, de entre la primera sección de ejecución de recuperación 503, la segunda sección de ejecución de recuperación 504 y la tercera sección de ejecución de recuperación 505, detecta una escena o una imagen que satisfacen la solicitud de recuperación, en base a la información de estructura del vídeo, la información resumen de una unidad de escena, una unidad de bloque dividido espacialmente o una unidad de bloque dividido temporalmente (imagen), proporcionadas desde la sección de gestión de información de recuperación 502, para proporcionar información sobre la escena o imagen detectadas, a la sección de gestión de datos 506.
La sección de gestión de datos 506 extrae datos de vídeo de una escena o una imagen, a partir de los datos del vídeo, cuando el vídeo de una escena o imagen se corresponden con la información de la escena o imagen detectadas que se ha recibido desde la primera sección de ejecución de recuperación 503, la segunda sección de ejecución de recuperación 504 o la tercera sección de ejecución de recuperación 505, para proporcionar los datos de vídeo de una escena o imagen, a la sección de control de recuperación 507.
La sección de control de recuperación 507 visualiza el vídeo proporcionado desde la sección de gestión de datos 506. El operador determina si el vídeo es o no un escena deseada para emitir una instrucción, de forma que se entrega un resultado del recuperación si el vídeo es la escena deseada, a la sección de control de recuperación 507. La sección de control recuperación 507 entrega el resultado de recuperación en respuesta a esta instrucción.
Si el vídeo en la mostrado por la sección de control de recuperación 507 no es la que reproduce la escena deseada, el operador proporciona una siguiente instrucción de recuperación a la sección de control de recuperación 507. A continuación, la sección de control recuperación 507 lleva a cabo un procedimiento similar al descrito arriba, para visualizar una escena como resultado de recuperación. La operación se repite hasta que finaliza la recuperación.
Se proporcionará la descripción de un ejemplo concreto de recuperación de vídeo. En esta realización, se utiliza información sobre una magnitud del movimiento, obtenida en la base de vectores de movimiento incluidos en los datos de vídeo, sometidos a la codificación de predicción de compensación del movimiento.
Se recupera una escena deseada o una imagen deseada, como se describe abajo.
Cuando se utiliza información de recuperación en unidades de escena, la selección puede llevarse a cabo entre una escena grande en movimiento como un todo, y un escena pequeña en movimiento como un todo.
Cuando se utiliza información de recuperación en unidades de bloque dividido espacialmente, por ejemplo puede llevarse a cabo la selección entre una escena que tenga movimientos distribuidos de forma desigual en el espacio, a través de la escena, y una escena que tenga movimientos distribuidos de forma comparativamente homogénea en el espacio, a través de la escena. Además, puede especificarse qué parte de los movimientos del vídeo están localizados dentro. Por ejemplo, puede efectuarse la selección en una escena que tenga una parte (el objeto de la toma) con movimiento enérgico en la parte media de un vídeo, una escena que tenga una parte con movimiento enérgico en la mitad inferior de un vídeo (un vídeo que incluye una parte de cielo), etcétera.
En la realización, la información de recuperación con un bloque dividido espacialmente, que no se había concebido en el arte previo, se utiliza como una unidad en la recuperación de una escena. Por lo tanto, se consigue siguiente efecto.
En referencia a las figuras 11 a 13, se considera un caso en el que se calcula la similitud con una escena de referencia mostrada en la figura 11(A), sobre una escena A mostrada en la figura 12(A), y sobre una escena B mostrada en la figura 13(A). Con tal cálculo de similitud adoptado, puede detectarse una escena que tenga una característica de movimiento análoga a la escena de referencia. Las figuras 12 a 13 muestran casos de los que, en cada uno, se utiliza solo información de recuperación de una unidad de escena.
En las partes (B) de las figuras 11 a 13, se muestra la información de recuperación de una unidad de escena, para imágenes mostradas en las respectivas partes (A) de los dibujos. Como se muestra, en las partes (A) de los dibujos 11 a 13, una escena A y una escena B tienen una intensidad de movimiento similar, en la totalidad de la escena. Por este motivo, como se muestra en las partes (B) de las figuras 11 a 13, la información de recuperación de la unidad de escena para cada una de las escenas, es un valor similar. Es decir, se determina que ambas escenas A y B son análogas a la escena de referencia.
Tras esto, en referencia a las figuras 14 a 16, se proporcionará la descripción de una característica de la recuperación por similitud, en un caso en el que se adopta la información de recuperación en unidades de bloque dividido espacialmente. En las partes (A) de las figuras 14 y 16, se muestra respectivamente una escena de referencia, escenas A y B. Como se muestra los dibujos, cada imagen de cada una de las escenas tiene cuatro bloques divididos. Se calcula la información de recuperación P_{1}, P_{2} y P_{3} de los bloques divididos espacialmente, para los bloques divididos espacialmente en que consisten los tres respectivos tres, de entre los cuatro bloques divididos de cada escena. Además, como se muestra en las partes (B) de las figuras 14 y 16, la información de recuperación en unidades de escena de una escena de referencia, escenas A y B, es casi del mismo valor.
Sin embargo, como se muestra en las partes (C) de las figuras 14 a 16, se encuentra los siguientes hechos cuando se compara las escenas entre sí, en términos de información de recuperación en unidades de bloque dividido espacialmente. A saber, la escena A tiene una distribución más similar a una distribución de la información de recuperación de la unidad de bloque dividido espacialmente de la escena de referencia. Esto se debe a que en la escena B, la persona está desplazada hacia el lado derecho, de modo que se observa espacialmente movimientos desiguales. La escena de referencia y la escena A tienen ambas una persona casi en el centro de el vídeo. Por lo tanto, mientras que la escena A se detecta como una escena análoga a la escena de referencia, la escena B no se detecta como tal. Es decir, incluso en el caso en que las escenas A y B son análogas a la escena de referencia en movimiento como un todo, puede discriminarse entre ambas escenas, de acuerdo con si los movimientos están, o no, homogéneamente distribuidos.
Además, si se utiliza la información de recuperación en unidades de imagen (bloque dividido temporalmente), por ejemplo, puede llevarse a cabo la selección entre una imagen en movimiento enérgico y una imagen que está, por el contrario, sin movimiento en una escena.
Combinando la información de recuperación en unidades de escena, la información de recuperación en unidades de bloque dividido espacialmente y la unidad de recuperación en unidades de bloque dividido temporalmente, puede llevarse a cabo de forma más detallada la recuperación de una escena deseada.
Por ejemplo, la recuperación del vídeo puede llevarse a cabo de tal forma que se selecciona escenas grandes en movimiento como un todo, se selecciona también menos escenas que tengan una parte intermedia en movimiento enérgico, y se extrae todavía menos escenas o imágenes con una imagen en movimiento especialmente enérgico, como imagen clave.
Como se discutido arriba, de acuerdo con un aparato de la realización, puede recuperarse el vídeo de una escena deseada, en base a las características gráficas tales como los movimientos en un vídeo, mediante especificar condiciones a partir de múltiples aspectos. Además, se reduce el tiempo necesario para la recuperación.
Las realizaciones descritas arriba son solo un ejemplo para llevar a cabo la presente invención. Puede llevarse a cabo diversas modificaciones o alteraciones de los aparatos, añadiéndose a la invención.
Por ejemplo en un aparato de la realización, la sección de análisis 101 encuentra automáticamente puntos de cambio de escena a través del análisis de la señal de los datos del vídeo. No obstante, la presente invención no se limita esto sino que puede adaptarse otro procedimiento en el que, por ejemplo, un operador ve un vídeo y analiza una estructura del vídeo en función de su punto de vista personal, para unir un indicador a una posición de división, al objeto de dividir el vídeo en escenas. En este caso, mientras la sección de análisis 101 analiza los datos del vídeo forma similar, el vídeo se divide en escenas viendo los indicadores unidos a los datos del vídeo.
En la realización descrita arriba, se utiliza la información de frecuencia en la imagen de vectores en movimiento, en la codificación de predicción de compensación del movimiento, como información de frecuencia 166 de la información resumen de una imagen. Sin embargo en la presente invención no se impone limitación esto, sino que también puede utilizarse como información de frecuencia, la información de frecuencia en la imagen en modo predictivo de cada uno de los bloques codificados.
Además, como información resumen puede también utilizarse una suma total de una desviación estándar de los vectores de movimiento en la imagen, o la luminancia promedio o el promedio de la diferencia de color en la imagen, calculados utilizando una señal original de vídeo o una señal descodificada de vídeo, junto con lo descrito arriba.
El método y el procedimiento para la recuperación no se limitan las combinaciones mostradas aquí. Otra posibilidad es cambiar el orden en que se visualiza los candidatos a ser seleccionados. Además, se genera asimismo un método y un procedimiento para recuperar cambios de acuerdo con la información de recuperación.
Adicionalmente, por ejemplo en un aparato de la realización descrita arriba, se eligió una colección a través de una escena, de bloques divididos obtenidos cada uno mediante dividir una imagen en 2 x 2 = 4 partes, como bloque dividido espacialmente. El número de partes divididas no se limita a cuatro. Por ejemplo, como se muestra en la figura 17, existe la posibilidad de dividir una imagen en 4 x 4, 8 x 8, o en un número mayor. En el caso de una división 4 x 4, la información de recuperación de la unidad de bloque dividido espacialmente, se expresa mediante un porcentaje que varía desde P_{1} hasta P_{15}. Puede obtenerse P_{16}, mediante restar la suma de la información de recuperación de los otros bloques divididos espacialmente, del 100%. En el caso de una división 8 x 8, la información de recuperación de la unidad de bloque dividido espacialmente, se expresa en rangos porcentuales P_{1} a P_{63}. P_{64} puede también obtenerse mediante restar la suma de la información de recuperación de los otros bloques divididos espacialmente, del 100%.
Además, puede utilizarse de forma selectiva cualquiera de una pluralidad de métodos de división tales como los descritos arriba. En este caso, los bloques divididos espacialmente están, cada uno, construidos de bloques divididos, cada división acorde con el número de partes seleccionadas (lo que puede denominarse "resolución"), para obtener información de recuperación de cada bloque dividido espacialmente. Junto a esto, cuando se almacena información de recuperación, además de la información de recuperación de la unidad de escena y de la información de recuperación en unidades de bloque dividido espacialmente según una resolución seleccionada, se anexa un indicador que especifica el número de divisiones, cuyo valor se corresponde con el número de divisiones mostrado en la figura 18, a la información de recuperación. Si el indicador que especifica el número de divisiones es "0", se almacena información de recuperación en unidades de bloque dividido espacialmente {P_{1}, P_{2}, P_{3}}; si el indicador que especifica el número de divisiones es "1", se almacena información de recuperación de unidades de bloque dividido espacialmente {P_{1}, P_{2}, ..., P_{15}}; si el indicador que especifica el número de división es "2", se almacena información de recuperación de unidades de bloque dividido espacialmente {P_{1}, P_{2}, ... P_{63}}, y si el indicador que especifica el número de división es "3", se almacena información de recuperación de unidades de bloque de dividido espacialmente {P_{1}, P_{2}, ..., P_{255}}.
Mediante habilitar resoluciones de bloques divididos espacialmente, que se especifican de una pluralidad de formas, se produce los siguientes efectos.
En una base de datos en la que se requiere solo una recuperación comparativamente simple y sencilla, en la que se desea conocer una distribución grosera de movimientos de un vídeo, hacia arriba o hacia abajo, o hacia la derecha o hacia la izquierda, se utiliza un número de división pequeño, tal como 2 x 2. Puede suprimirse cierta cantidad de almacenamiento de la información de recuperación.
En una base de datos en la que se produce frecuentemente la solicitud de extraer una escena larga en movimiento, en una parte específica de un vídeo, o dos partes separadas espacialmente entre sí, se utiliza un número de división comparativamente largo, tal como 8 x 8. Puede realizarse una recuperación altamente funcional. La información de recuperación de alta resolución, incluye la información de recuperación de baja resolución; por lo tanto, no es necesario que se proporcione por duplicado adicionalmente la información de recuperación de baja resolución, incluso cuando se necesita la información de recuperación de baja resolución.
En la realización descrita arriba, los números de divisiones en la dirección longitudinal y en la dirección lateral son iguales entre sí, como en los casos de 2 x 2, 4 x 4 y 4 x 8, y cada uno de los números son 2 elevado a la enésima potencia, donde n es un número natural. Cuando se utiliza selectivamente semejante número de división, puede tenerse una correspondencia entre la información de recuperación procedente de bases de datos que almacenan información de recuperación de unidad de bloque dividido espacialmente, que tengan respectivas resoluciones de división diferentes. Además, las informaciones de recuperación con diferentes resoluciones de división, puede también compararse entre sí.
Además, como se muestra en la figura 19, puede llevarse a cabo el almacenamiento jerárquico de la información de recuperación, en unidades de bloque dividido especialmente, con los respectivos niveles de resolución. Por ejemplo, la información de recuperación de una escena incluye la información de recuperación 200 de una unidad de escena, la información de recuperación 202 en unidades de bloque dividido espacialmente de acuerdo con división 2 x 2, la información de recuperación 204 en unidades de bloque dividido espacialmente de acuerdo con la división 4 x 4, y la información de recuperación 206 en unidades de bloque dividido espacialmente de acuerdo con la división 8 x 8.
En la estructura jerárquica, la información de recuperación de una unidad de bloque dividida espacialmente, en una capa, se expresa con la información de recuperación en 4 unidades de bloque dividido espacialmente, de una resolución un grado superior. Por lo tanto, incluso en un caso en el que, en cada capa, no se almacene una de las informaciones de recuperación de las cuatro unidades de bloque dividido espacialmente, puede obtenerse toda la información necesaria para la recuperación.
La información de recuperación acorde con el ejemplo mostrado en la figura 19 incluye la información de recuperación con la misma resolución que en el almacenamiento de la información de recuperación con un bloque dividido espacialmente, como una unidad, formada mediante dividir la imagen en 8 x 8 partes, mostrada en la figura 17. Por otra parte, de acuerdo con la información de recuperación mostrada en la figura 19, surge la ventaja de que puede obtenerse fácilmente la información de recuperación de otras resoluciones.
En la realización descrita arriba, todas las imágenes de una escena son divididas en disposiciones n x n, tales como 2 x 2, 4 x 4 y 8 x 8, para formar bloques divididos espacialmente. Sin embargo de acuerdo con la presente invención, los métodos de división para una imagen no se limitan a aquellos. Por ejemplo, puede adoptarse un método de división en el que una imagen se divide de la forma mostrada en las figuras 20 a 24, y la información de recuperación se genera utilizando los bloques divididos espacialmente así obtenidos, como unidades. En los ejemplos mostrados en las figuras 20 a 24, todas las imágenes en una escena son divididas en 2 elevado a la enésima potencia (2^{n}) (n =2 en la figura 20, n = 3 en la figura 21, n = 4 en la figura 22 n = 5 en la figura 23, y n =6 en la figura 24). Incluso cuando se utiliza tales métodos de división, puede generarse información de recuperación para conseguir una función de recuperación similar a la obtenida en un aparato de la realización descrita arriba.
Mediante los métodos de división para una imagen según se muestra en las figuras 20 a 24, la correspondencia entre la información de recuperación que tiene respectivas resoluciones diferentes es sencilla, de una forma similar a como ocurre en la realización descrita arriba. Además, puede llevarse a cabo una fácil comparación entre informaciones de recuperación que tienen respectivas resoluciones diferentes.
Nótese que en un ejemplo mostrado en la figura 5, por ejemplo, se obtiene información de recuperación con la imagen 162N, como un bloque dividido temporalmente 164N. Sin embargo la presente invención no se limita a tal ejemplo. Por ejemplo, un bloque dividido temporalmente puede incluir dos o más imágenes. Además, puede determinarse el llevar a cabo un sub-muestreo en cada imagen para formar sub-imágenes, de forma que un bloque dividido temporalmente incluye una pluralidad de sub-imágenes. Es más, puede determinarse retirar parcialmente imágenes en una escena, de forma apropiada, y se utiliza la información resumen de las imágenes que permanecen.
Nótese que en los ejemplos mostrados en las figuras 6 y 8, la información resumen de un bloque dividido espacialmente se obtiene utilizando la totalidad de los bloques divididos incluidos en el bloque dividido espacialmente. Sin embargo la presente invención no se limita a tales ejemplos. No se necesita utilizar obligatoriamente datos de vídeo correspondientes a la totalidad de los bloques divididos, en un bloque dividido espacialmente, sino que se permite que se retire parcialmente los bloques divididos de manera apropiada, o que se retire parcialmente los datos de vídeo en cada bloque dividido, de una manera apropiada, para formar información resumen del bloque dividido espacialmente.
Nótese que, cuando se genera información de recuperación en unidades de bloque dividido temporalmente, o en unidades de bloque dividido espacialmente, o información de recuperación en unidades de escena, que han sido descritas arriba con referencia a las figuras 5 y 6, para eliminar la influencia de los movimientos de una cámara rodando un vídeo, sobre los movimientos del fondo, puede generarse información de recuperación que corrija una influencia debida a los vectores de movimiento correspondientes a los movimientos de una cámara.
Además en la realización descrita arriba, el aparato 40 de almacenamiento de información de recuperación de vídeo y el aparato 50 de recuperación de vídeo, son aparatos separados. La información de recuperación se transfiere desde el aparato 40 de almacenamiento de la información de recuperación de vídeo, al aparato 50 de recuperación de vídeo, a través del medio de almacenamiento 107. En lugar de esta configuración, por ejemplo, puede transmitirse clases de información de recuperación generadas por la primera sección de generación de información de recuperación 102, la segunda sección de generación de información de recuperación 103 y la tercera sección de generación de información de recuperación 104, mostradas en la figura 3, directamente a la sección 502 de gestión de la información de recuperación de la figura 10, junto con información de la estructura del vídeo entregada desde la sección de análisis 101. En este caso, el proceso de recuperación se denomina recuperación en tiempo real.
Los bloques divididos, obtenidos mediante dividir una imagen en la realización descrita arriba, pueden coincidir con bloques codificados. Puede definirse de nuevo bloques de un tamaño apropiado, diferentes respecto de los bloques codificados. En la realización descrita arriba, los bloques divididos tienen forma simétrica y la disposición de los bloques divididos es también simétrica. Sin embargo, cuando se define de nuevo bloques divididos, no necesariamente se tiene que la forma de los bloques sea simétrica. Además, tampoco se tiene necesidad de que la disposición de los bloques divididos sea simétrica. Es más, puede llevarse a cabo apropiadamente la retirada parcial en un plano de la imagen. Es decir, una región que no está incluida en ningún bloque dividido puede presentarse en un plano de imagen. Además los bloques divididos pueden solaparse parcialmente entre sí. Es decir, una región que está incluida en una pluralidad de bloques divididos puede presentarse en un plano de imagen.
En la realización descrita arriba, la tercera sección de generación de información de recuperación 104, mostrada en la figura 3, recibe información resumen entregada desde la primera sección de generación de información de recuperación 102, e información resumen entregada desde la segunda sección de generación de información de recuperación 103, para generar información resumen de la totalidad de la escena. Sin embargo la presente invención se limita a tal ejemplo. Por ejemplo la tercera sección de generación de información de recuperación 104 puede generar información resumen de la totalidad de una escena, directamente desde los datos del vídeo de entrada.
Adicionalmente, en la realización descrita arriba se obtiene diversas clases de información resumen (información de recuperación), con una escena definida físicamente como una unidad. Sin embargo, no necesariamente se requiere que la información de recuperación sea obtenida con una escena, como una unidad. Por ejemplo, puede obtenerse la información de recuperación con una sub-escena obtenida mediante dividir una escena en una pluralidad de partes, como una unidad. Es decir, la palabra "escena" también significa "sub-escena". A la inversa, puede también obtenerse información de recuperación con una escena compuesta, que se compone de una pluralidad de escenas, como una unidad. Es decir, la palabra "escena" también significa "colección de varias escenas".
Además, si bien en la realización descrita arriba se ha generado y almacenado información de recuperación para los datos de un vídeo, y se ha llevado a cabo la recuperación, la presente realización no se limita a tal ejemplo. Es decir, se considera un caso en el que se adopta una pluralidad de datos de vídeo, como objeto para recuperación, se genera y almacena información de recuperación, y se recupera una escena deseada una imagen deseada, entre una pluralidad de piezas de datos de vídeo.
Como ejemplo de este caso, se considera la recuperación de vídeos desde una base de datos de vídeo, mostrada en la figura 25, en la que cada una de una pluralidad de escenas está almacenada como datos de vídeo, de forma independiente. En un caso en el que se rueda de un vídeo, utilizando una cámara digital o similar, capaz de rodar un vídeo, disponible en los últimos años, cada toma de vídeo, es decir los datos de vídeo que expresan una escena de una grabación temporal de vídeo desde el comienzo su fin, se generan como un archivo de datos, independiente de los demás. Por lo tanto, puede concebirse fácilmente la base de datos de vídeo mostrada en la figura 25.
Se genera información de recuperación mediante el aparato 40 de almacenamiento de información de recuperación de vídeo, mostrado en la figura 3, para semejante base de datos de imágenes. En este momento, los datos de vídeo introducidos son una pluralidad de piezas de datos de vídeo, presentes en la base de datos. Los datos de vídeo almacenados están ya divididos en escenas (cada unidad de datos de vídeo incluye solo una escena); por lo tanto, no surge la necesidad de información de estructura del vídeo. Por lo tanto, en la sección de análisis 101 no surge la necesidad de un análisis estructural de un vídeo. Las secciones de generación de información de recuperación primera, segunda y tercera, 102, 103 y 104, generan respectivamente información resumen de una imagen (un bloque dividido temporalmente), un bloque dividido espacialmente, y la totalidad de una escena. La cuarta sección de generación de información de recuperación 105 genera información de recuperación de un vídeo, disponiendo información resumen procedente de las secciones, en un formato prescrito. La sección de almacenamiento 106 recibe cada uno de los datos de vídeo y de información de recuperación, correspondientes a cada uno de los vídeos, para almacenar información de correspondencia entre cada uno de los datos de vídeo y la información de recuperación, unida a uno o ambos de los datos de vídeo y de la información de recuperación, o como datos separados respecto de estos, en el medio de almacenamiento 107. El medio de almacenamiento 107 puede proporcionarse en una base de datos para el vídeo original. Además, cada información de recuperación puede almacenarse bien de forma independiente respecto de las otras, o colectivamente como información de recuperación correspondiente a una base de datos de vídeo.
Además, la recuperación se lleva a cabo mediante el aparato de recuperación de vídeo mostrado en la figura 10, utilizando semejantes base de datos e información de recuperación generadas y almacenadas. En este momento, la información leída por la sección de lectura 501 y gestionada por el aparato 502 de gestión de la información de recuperación, es información de recuperación correspondiente a una pluralidad de piezas de datos de vídeo, presentes en una base de datos, y no hay necesidad de información de estructura del vídeo, correspondiente a cada uno de los datos de vídeo. Las secciones de ejecución de recuperación primera, segunda y tercera, 503, 504 y 505, detectan una escena una imagen que satisface una solicitud recuperación, utilizando la correspondiente información de recuperación, para entregar información sobre la escena o imagen detectadas. La sección de gestión de datos 506 y la sección de control de recuperación 507, funcionan de modo similar a la realización descrita arriba, para obtener un resultado de recuperación.
La realización revelada en esta ocasión debe interpretarse de forma ilustrativa y ejemplar, pero no limitativa en ningún aspecto. Se entiende que el alcance de la presente invención no consiste en la descripción realizada arriba, sino en lo expresado en los términos de las reivindicaciones.
Aplicabilidad industrial
Como se ha descrito arriba, un aparato de almacenamiento de información de recuperación de vídeo y un aparato de recuperación de vídeo, relativos a la presente invención, generan información de recuperación de una escena, con un bloque dividido espacialmente, no obtenido por división temporal de la escena sino por división espacial de la escena, como una unidad, para recibir una escena en base a la información de recuperación; por lo tanto, los aparatos son adecuados para ser utilizados en un sistema en el que se recupera, entre vídeos, de forma eficiente una escena deseada de acuerdo con una característica espacial observada a través de la escena.
\vskip1.000000\baselineskip
Referencias citadas en la descripción La lista de referencias citadas por el solicitante es solo para comodidad del lector. No forma parte del documento de Patente Europea. Incluso aunque se ha tomado especial cuidado en recopilar las referencias, no puede descartarse errores u omisiones y la EPO rechaza toda responsabilidad a este respecto. Documentos de patente citados en la descripción
\bullet
\hskip0.2cm
JP9284702A [0013]
\bullet
\hskip0.2cm
JP7038842A [0014]
\bullet
\hskip0.2cm
EP0878767A [0034]
\bullet
\hskip0.2cm
WO9855942A [0036]

Claims (9)

1. Un aparato (40) para la generación de información de recuperación de vídeo, que genera información de recuperación para recuperar datos de vídeo formados por una o más escenas (140, 142, 144, 146, 160) divididas temporalmente en una pluralidad de sucesivas imágenes, comprendiendo el aparato:
una sección de generación de información de recuperación (102, 103, 104, 105), para generar información de recuperación correspondiente a cada una de las mencionadas una, o más, escenas en base a los mencionados datos de vídeo,
donde la mencionada sección de generación de información de recuperación (102, 103, 104, 105) comprende: un primer medio (103) de generación de información resumen para formar, para cada una de las mencionadas escenas, una pluralidad de bloques separados espacialmente mediante dividir temporalmente la escena a lo largo del eje temporal, en una pluralidad de imágenes, del mismo modo separar espacialmente la totalidad de las mencionadas imágenes de la escena en bloques divididos, y combinar los bloques divididos en correspondientes posiciones de imágenes respectivas de la mencionada pluralidad de imágenes, para formar un mencionado bloque dividido espacialmente de la escena (140, 142, 144, 146, 160), para generar información resumen (188) en unidades de un bloque de la escena dividido espacialmente, la información de recuperación comprendiendo la mencionada información
resumen.
2. Un aparato de generación de información de recuperación de vídeo, acorde con la reivindicación 1, en el que las mencionadas escenas (140, 142, 144, 146, 160) se obtienen mediante dividir datos de vídeo consecutivos, en el eje temporal, el aparato comprendiendo además:
una sección (101) de entrega de la información de estructura del vídeo, que entrega información de la estructura del vídeo, que expresa posiciones, en los mencionados datos del vídeo, de cada una de las mencionadas escenas,
donde la mencionada sección de generación de información de recuperación (102, 103, 104, 105) genera información de recuperación correspondiente a cada una de las mencionadas escenas (140, 142, 144, 146, 160), basándose en la mencionada información de estructura del vídeo y en los mencionados datos del vídeo.
3. Un aparato de generación de información de recuperación de vídeo, acorde con la reivindicación 1, en el que
el mencionado primer medio de generación de información resumen (103) divide espacialmente la totalidad de las imágenes en una escena (140, 142, 144, 146, 160), en un número predeterminado de partes en cada una de las dos direcciones definidas espacialmente.
4. Un aparato de generación de información de recuperación de vídeo, acorde con la reivindicación 1, en el que
el mencionado primer medio de generación de información resumen (103) divide la totalidad de las imágenes en una escena (140, 142, 144, 146, 170) en 2 a la enésima potencia partes, siendo n un número predeterminado.
5. Un aparato de generación de información de recuperación de vídeo, acorde con cualquiera de las reivindicaciones 1, 3 y 4, en el que
la mencionada sección de generación de información de recuperación (102, 103, 104, 105) comprende además: un segundo medio (102) de generación de información resumen para dividir temporalmente cada una de las mencionadas escenas (140, 142, 144, 146, 160), al objeto de formar la mencionada pluralidad de imágenes como bloques divididos temporalmente, que tienen espacialmente un tamaño de imagen de la mencionada escena, y generar información resumen en unidades de un bloque dividido temporalmente.
6. Un aparato de generación de información de recuperación de vídeo acorde con cualquiera de las reivindicaciones 1, y 3 a 5, en el que
la mencionada sección de generación de información de recuperación (102, 103, 104, 105) comprende además: un tercer medio de generación de información resumen (104), para generar información resumen para cada una de las mencionadas escenas (140, 142, 144, 146, 160), de la totalidad de las mencionadas imágenes de la escena.
7. Un aparato de recuperación de vídeo (50), para recuperar una imagen deseada utilizando información de recuperación correspondiente a cada una de las una, o más, escenas (140, 142, 144, 146, 160) que forman los datos de vídeo, donde los mencionados datos de vídeo están relacionados con la mencionada información de recuperación, y la mencionada información de recuperación comprende, para cada una de las mencionadas escenas, información resumen (188) en unidades de bloques separados espacialmente, mediante dividir temporalmente la escena a lo largo del eje temporal en una pluralidad de imágenes, del mismo modo dividir espacialmente la totalidad de las mencionadas imágenes de la escena en bloques divididos, y combinar los bloques divididos en posiciones correspondientes sobre imágenes respectivas de la mencionada pluralidad de imágenes, para formar un mencionado bloque de la escena (140, 142, 144, 146, 160) dividido espacialmente, al objeto de generar la información resumen en unidades de un mencionado bloque de la escena separado espacialmente, el aparato comprendiendo:
medios de gestión de información (501, 502), para leer y gestionar la mencionada información de recuperación; y
primeros medios de recuperación de escena (504), conectados a los mencionados medios de gestión de información, y sensibles a una primera solicitud de recuperación, para recuperar una escena (140, 142, 144, 146, 160) que satisface la mencionada primera solicitud de recuperación, utilizando la mencionada información resumen en unidades de un bloque dividido espacialmente, incluida en la mencionada información de recuperación.
8. Un aparato (50) de recuperación de vídeo acorde con la reivindicación 7, en el que
la mencionada información del recuperación comprende además, para cada una de las mencionadas escenas: información resumen en unidades de imágenes de la escena, como bloques divididos temporalmente que tienen espacialmente un tamaño de imagen de la mencionada escena, obtenidos mediante dividir temporalmente cada una de las mencionadas escenas (140, 142, 144, 146, 160),
el aparato comprendiendo además:
segundos medios de recuperación de escena (505), conectados a los mencionados medios de gestión de la información (501, 502), y sensibles a una segunda solicitud de recuperación para recuperar una escena (140, 142, 144, 146, 160) que satisface la mencionada segunda solicitud de recuperación, utilizando la mencionada información resumen en unidades de un bloque dividido temporalmente, incluida en la mencionada información de recuperación.
9. Un aparato de recuperación de vídeo (50), acorde con la reivindicación 7 o la reivindicación 8, en el que:
la mencionada información de recuperación comprende además: información resumen en unidades de una escena (140, 142, 144, 146, 160),
el aparato comprendiendo además:
terceros medios de recuperación de escena (503), conectados a los mencionados medios de gestión de información (501, 502), y sensibles a una tercera solicitud de recuperación para recuperar una escena (140, 142, 144, 146, 160) que satisface la mencionada tercera solicitud de recuperación, utilizando la mencionada información resumen en unidades de una escena (140, 142, 144, 146, 160), incluida en la mencionada información de recuperación.
ES00940880T 1999-06-30 2000-06-29 Aparato para registrar informacion de busqueda de imagenes dinamicas, y dispositivo de busqueda de imagenes dinamicas. Expired - Lifetime ES2288859T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP18460699 1999-06-30
JP11-184606 1999-06-30
JP11-339019 1999-11-30
JP33901999 1999-11-30

Publications (1)

Publication Number Publication Date
ES2288859T3 true ES2288859T3 (es) 2008-02-01

Family

ID=26502587

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00940880T Expired - Lifetime ES2288859T3 (es) 1999-06-30 2000-06-29 Aparato para registrar informacion de busqueda de imagenes dinamicas, y dispositivo de busqueda de imagenes dinamicas.

Country Status (8)

Country Link
US (2) US7092040B1 (es)
EP (2) EP1835421A3 (es)
JP (2) JP4027662B2 (es)
KR (1) KR100486047B1 (es)
CN (1) CN1371502B (es)
DE (1) DE60036288T2 (es)
ES (1) ES2288859T3 (es)
WO (1) WO2001003005A1 (es)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7075683B1 (en) * 1999-02-15 2006-07-11 Canon Kabushiki Kaisha Dynamic image digest automatic editing system and dynamic image digest automatic editing method
CN1371502B (zh) 1999-06-30 2010-05-05 夏普公司 活动图像检索信息记录装置及活动图像检索装置
US7996191B2 (en) * 2001-08-10 2011-08-09 Jon Milton Foster Property development utilizing structure depicted in a motion picture or television show
US7167574B2 (en) 2002-03-14 2007-01-23 Seiko Epson Corporation Method and apparatus for content-based image copy detection
JP2004234613A (ja) * 2002-12-02 2004-08-19 Nec Corp 映像記述システムおよび方法、映像識別システムおよび方法
US7532804B2 (en) 2003-06-23 2009-05-12 Seiko Epson Corporation Method and apparatus for video copy detection
EP1498848A3 (en) * 2003-07-18 2007-03-07 Samsung Electronics Co., Ltd. GoF/GoP texture description, and texture-based GoF/GoP retrieval
US7856054B1 (en) * 2003-11-14 2010-12-21 Apple Inc. Scene change identification during encoding of compressed video
JP4699476B2 (ja) * 2005-10-27 2011-06-08 三菱電機株式会社 映像要約装置
US8009861B2 (en) * 2006-04-28 2011-08-30 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures
US20090079840A1 (en) * 2007-09-25 2009-03-26 Motorola, Inc. Method for intelligently creating, consuming, and sharing video content on mobile devices
JP4487018B2 (ja) * 2008-08-22 2010-06-23 パナソニック株式会社 関連シーン付与装置及び関連シーン付与方法
WO2010084739A1 (ja) * 2009-01-23 2010-07-29 日本電気株式会社 映像識別子抽出装置
US8731292B2 (en) * 2011-01-07 2014-05-20 Alcatel Lucent Method and apparatus for comparing videos
CN102595116B (zh) 2011-01-14 2014-03-12 华为技术有限公司 多图像块划分的编解码方法和装置
JP5798497B2 (ja) * 2012-01-20 2015-10-21 ルネサスエレクトロニクス株式会社 移動量検出装置、移動体検出装置及び移動量検出方法
JP2013210845A (ja) * 2012-03-30 2013-10-10 Secom Co Ltd 移動物体照合装置
WO2020182213A1 (en) * 2019-03-13 2020-09-17 Beijing Bytedance Network Technology Co., Ltd. Sub-block transform in transform skip mode
US20220366538A1 (en) * 2019-07-03 2022-11-17 Korea Advanced Institute Of Science And Technology Video processing method and apparatus
KR102364628B1 (ko) * 2019-07-03 2022-02-18 한국과학기술원 비디오 처리 방법 및 장치
US20230171328A1 (en) * 2021-12-01 2023-06-01 Tencent America LLC Method and apparatus for split rendering for lightfield/immersive media using proxy edge cloud architecture

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3060433B2 (ja) * 1991-08-12 2000-07-10 日本電信電話株式会社 動きベクトル算出方法
JPH06153146A (ja) * 1992-11-04 1994-05-31 Matsushita Electric Ind Co Ltd 動画像のシーンチェンジ検出装置および編集装置
JPH0738842A (ja) 1993-06-29 1995-02-07 Toshiba Corp 動画編集装置
US5719643A (en) * 1993-08-10 1998-02-17 Kokusai Denshin Denwa Kabushiki Kaisha Scene cut frame detector and scene cut frame group detector
JPH07152779A (ja) * 1993-11-29 1995-06-16 Toshiba Corp 動画インデックス検出処理方法及び動画インデックス検出処理機能を持つ動画処理装置
US5805733A (en) * 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
US5485611A (en) * 1994-12-30 1996-01-16 Intel Corporation Video database indexing and method of presenting video database index to a user
US5779108A (en) * 1995-06-15 1998-07-14 Calmar Inc. Pressure venting trigger sprayer
JP3597271B2 (ja) * 1995-09-19 2004-12-02 Kddi株式会社 動画像のカット点画像検出装置
US5819286A (en) * 1995-12-11 1998-10-06 Industrial Technology Research Institute Video database indexing and query method and system
JPH09182019A (ja) * 1995-12-26 1997-07-11 Sony Corp 映像信号記録装置及び再生装置
US5661524A (en) * 1996-03-08 1997-08-26 International Business Machines Corporation Method and apparatus for motion estimation using trajectory in a digital video encoder
JPH09284702A (ja) 1996-04-09 1997-10-31 Oki Electric Ind Co Ltd シーン変化フレーム検出方法および装置
DE19618625C1 (de) * 1996-05-09 1997-10-23 Daimler Benz Ag Flüssigkeitsgekühlter Kolben für Verbrennungsmotoren
US5778108A (en) * 1996-06-07 1998-07-07 Electronic Data Systems Corporation Method and system for detecting transitional markers such as uniform fields in a video signal
US6400853B1 (en) * 1997-03-19 2002-06-04 Canon Kabushiki Kaisha Image retrieval apparatus and method
US6427048B2 (en) * 1997-04-28 2002-07-30 Sony Corporation Apparatus and method for recording, reproducing and displaying a video signal received by a signal receiver
JP3780623B2 (ja) * 1997-05-16 2006-05-31 株式会社日立製作所 動画像の記述方法
US6125229A (en) * 1997-06-02 2000-09-26 Philips Electronics North America Corporation Visual indexing system
JPH11103441A (ja) * 1997-09-26 1999-04-13 Matsushita Electric Ind Co Ltd クリップ表示方法とその表示装置
CN1371502B (zh) 1999-06-30 2010-05-05 夏普公司 活动图像检索信息记录装置及活动图像检索装置

Also Published As

Publication number Publication date
EP1835421A2 (en) 2007-09-19
EP1195692B1 (en) 2007-09-05
US7884884B2 (en) 2011-02-08
US20060164560A1 (en) 2006-07-27
US7092040B1 (en) 2006-08-15
DE60036288T2 (de) 2008-05-29
EP1835421A3 (en) 2009-04-22
CN1371502A (zh) 2002-09-25
JP4462922B2 (ja) 2010-05-12
JP2004104836A (ja) 2004-04-02
EP1195692A4 (en) 2004-04-21
KR20020019482A (ko) 2002-03-12
WO2001003005A1 (fr) 2001-01-11
DE60036288D1 (de) 2007-10-18
JP4027662B2 (ja) 2007-12-26
EP1195692A1 (en) 2002-04-10
CN1371502B (zh) 2010-05-05
KR100486047B1 (ko) 2005-05-03

Similar Documents

Publication Publication Date Title
ES2288859T3 (es) Aparato para registrar informacion de busqueda de imagenes dinamicas, y dispositivo de busqueda de imagenes dinamicas.
CN100501742C (zh) 表示图像组的方法和装置
US9491366B2 (en) Electronic device and image composition method thereof
US6356658B1 (en) Method for fast return of abstracted images from a digital image database
TWI361619B (en) Image managing apparatus and image display apparatus
CN102156751B (zh) 一种提取视频指纹的方法及装置
JP5387366B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20170083543A1 (en) System, apparatus, method, program and recording medium for processing image
US20050128305A1 (en) Apparatus and method for image-classifying, and recording medium storing computer-readable program for the same
US8704913B2 (en) Image recording apparatus, image recording method, and storage medium storing program, for use in recording shot images
CN102014250B (zh) 图像控制装置以及图像控制方法
JP2010283802A (ja) 画像処理装置及び画像管理方法
US8320609B2 (en) Device and method for attaching additional information
CN103984778A (zh) 一种视频检索方法及系统
WO2014065033A1 (ja) 類似画像検索装置
JP2006303707A (ja) 画像処理装置及び画像処理方法
US20210019908A1 (en) Building Recognition via Object Detection and Geospatial Intelligence
JP2013165413A (ja) 画像表示装置
JP2012256119A (ja) 情報処理装置、その処理方法及びプログラム
KR100563085B1 (ko) 수치지도와 사진영상의 복합 디스플레이 방법
JP5852530B2 (ja) 移動体追跡表示装置、移動体追跡表示方法およびプログラム
JP6037443B2 (ja) 映像間対応関係表示システム及び映像間対応関係表示方法
JP2011082864A (ja) 画像データ管理装置、方法及びプログラム
KR101624273B1 (ko) 컨텐츠 검색을 위한 자동 영상 쿼리 추천 방법 및 이를 이용한 컨텐츠 플레이 단말
JP4102933B2 (ja) 撮影画像管理装置、撮影画像管理方法及び撮影画像管理プログラム