ES2844851T3 - Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual - Google Patents

Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual Download PDF

Info

Publication number
ES2844851T3
ES2844851T3 ES16805476T ES16805476T ES2844851T3 ES 2844851 T3 ES2844851 T3 ES 2844851T3 ES 16805476 T ES16805476 T ES 16805476T ES 16805476 T ES16805476 T ES 16805476T ES 2844851 T3 ES2844851 T3 ES 2844851T3
Authority
ES
Spain
Prior art keywords
audiovisual content
procedure
different
elements
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16805476T
Other languages
English (en)
Inventor
Estrella Luis Garcia
Iglesias Pedro Fierro
Rodriguez Miguel Rameau
Perez Beatriz Blanco
Medio Julio Enrique Juliana
Lopez Sergio Sanchez
Miguel Jonathan Castro
Ruiz Daniel Marino
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tagsonomy S L
Original Assignee
Tagsonomy S L
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tagsonomy S L filed Critical Tagsonomy S L
Application granted granted Critical
Publication of ES2844851T3 publication Critical patent/ES2844851T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Procedimiento que permite la asignación de metadatos a un contenido audiovisual con diferentes referencias temporales generando de manera semiautomática información ampliada relacionada con un contenido audiovisual, que comprende: la reordenación del contenido audiovisual en subescenas; la identificación de elementos en cada una de las subescenas mediante la realización de una anotación temporal y una anotación informativa de las diferentes relaciones; la búsqueda de correspondencias comerciales en los elementos identificados; la deduplicación, anotación y edición experta. La invención permite la obtención, de manera semiautomática, rápida y expansible, de una base de datos compuesta por un conjunto de fichas y lapsos de tiempo relativos a los contenidos audiovisuales.

Description

DESCRIPCIÓN
Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual
OBJETO DE LA INVENCIÓN
Como especifica el título de la invención, el objeto de la presente invención es un procedimiento para la generación de una base de datos vinculada a un contenido audiovisual a través de diferentes referencias temporales, de manera que sea posible asignar metadatos a dicho contenido audiovisual; es decir, se refiere a un procedimiento que genera, de manera semiautomática, una serie de datos o información enriquecida, y los vincula automáticamente a un contenido audiovisual a través de diferentes referencias temporales.
Por lo tanto, la base de datos contiene una serie de datos enriquecidos conectados a una referencia temporal precisa del contenido audiovisual.
La presente invención se caracteriza por las características de cada una de las acciones realizadas durante cada etapa del procedimiento de generación de base de datos, de tal manera que, en su conjunto, se logra un procedimiento que asigna, de manera semiautomática, datos registrados enriquecidos que están conectados con precisión a una referencia temporal.
Por lo tanto, la presente invención se enmarca dentro del campo del contenido audiovisual e información adicional. La invención se define por las características de las reivindicaciones independientes. Otras realizaciones son la materia objeto de las reivindicaciones dependientes.
ANTECEDENTES DE LA INVENCIÓN
Actualmente, cuando se desea vincular información a un contenido audiovisual, se realiza de forma manual, identificando cada uno de los elementos a mostrar y estableciendo una marca de tiempo potencial para el inicio y el final de la difusión, así como la información adicional o los metadatos a mostrar.
En el estado de la técnica se conocen los siguientes documentos:
Documento US2011113444, que describe un sistema para indexar objetos físicos, ubicaciones y personas, denominados colectivamente objetos de vídeo, que aparecen en vídeos. El sistema permite la identificación a nivel de objeto de vídeo de contenido de TV y vídeo, y hace que estos objetos de vídeo sean indexables, enlazables y consultables.
Documento US2007250901, un procedimiento y aparato para anotar flujos de medios. En una realización, el procedimiento facilita la creación de un flujo de medios anotado por un usuario que incluye recibir el flujo de medios del usuario, mapear al menos un elemento de contenido complementario con respecto al menos a una porción del flujo de medios para producir el flujo de medios anotado, y almacenar el flujo de medios anotado. En otra realización, el procedimiento distribuye un flujo de medios anotado proporcionado por un usuario que incluye recibir el flujo de medios anotado del usuario.
Por lo tanto, el objeto de la presente invención es desarrollar un procedimiento para obtener, de manera rápida, semiautomática y escalable, una base de datos formada por un conjunto de archivos y lapsos de tiempo, es decir, datos relevantes (sobre actores, personajes, datos de interés, vestimenta, música, lugares, objetos, etc.) relacionados con diversos contenidos audiovisuales (películas, series de televisión, documentales, vídeos musicales, etc.) y los intervalos de tiempo de interés, que son obviamente dependientes de y diferentes para cada uno de los diferentes contenidos, con las siguientes características que lo hacen único:
DESCRIPCIÓN DE LA INVENCIÓN
El objeto de la presente invención es un procedimiento de asignación de metadatos a un contenido audiovisual a través de diferentes referencias temporales, que comprende las siguientes etapas:
• Reordenación óptima del contenido audiovisual en subescenas: En su formato original, un contenido audiovisual puede verse como una sucesión de escenas, planos o incluso fotogramas dispuestos de tal manera que narran una historia o, más generalmente, dispuestos en la forma en que se van a consumir por los espectadores. Esta ordenación puede no ser la óptima cuando el contenido audiovisual está destinado a servir como entrada para diferentes procedimientos automáticos; por ejemplo, para la identificación automática de objetos en pantalla, es mucho más eficiente agrupar los mismos planos de una escena, incluso si no son consecutivos en el tiempo. Por esta razón, la primera etapa de este procedimiento implica un reordenamiento de las subescenas basándose en métricas de similitud entre imágenes y la detección de cambios repentinos en estas similitudes.
• Identificación de elementos en cada una de las subescenas y anotación temporal e informativa de los mismos: Los elementos de entrada utilizados en esta parte del procedimiento son el contenido audiovisual previamente reordenado y una base de datos con información relevante obtenida automáticamente de Internet en base a diferentes categorías (descripciones de objetos, fotografías de lugares, datos técnicos sobre vehículos, premios obtenidos por las películas, etc.), de tal forma que todas las coincidencias localizadas se proponen semiautomáticamente a la persona que dirige el procedimiento.
Dos datos muy importantes que se añaden a los elementos durante esta parte del procedimiento son:
- por un lado, el lapso de tiempo, o marca de tiempo con respecto a la ordenación original del contenido audiovisual, que indica el momento exacto en el que cada pieza de información se identifica en pantalla y deja de ser visible en pantalla; esta operación se realiza de manera automática;
- y, por otro lado, las diferentes relaciones (coincidencia, contenido o continente, lugar, pertenencia, parentesco, relación por compartir un tercer elemento, etc.) entre los diferentes elementos o diferentes piezas de información; esta acción se realiza de manera semiautomática.
• Búsqueda de correspondencias comerciales para los elementos identificados: De manera similar a la búsqueda de información adicional sobre todos los elementos identificados en el contenido, la siguiente etapa del procedimiento utiliza la información identificada hasta ese momento para buscar correspondencias comerciales.
Las correspondencias comerciales se buscan en una base de datos compuesta por todos los catálogos disponibles gracias a acuerdos con diferentes tipos de tiendas y distribuidores. A diferencia de las búsquedas informativas, en las que es necesario encontrar correspondencias exactas, en las búsquedas comerciales es interesante encontrar, además de estas coincidencias exactas, coincidencias similares o coincidencias con objetos que pueden resultar comercialmente interesantes para los consumidores del contenido, aunque estos no sean exactamente iguales; por ejemplo, una prenda similar, otro álbum de música del mismo artista que se está escuchando, otra película con el mismo actor, etc.
La búsqueda de correspondencias comerciales se realiza en base a diferentes tipos de sujetos, por ejemplo, personas, escenarios, música, vehículos, contexto histórico y vestimenta, de manera que, cuando se localiza un tipo de sujeto utilizando diferentes medios informáticos de reconocimiento automático, es posible identificar el nombre del actor, la marca del vehículo, la música que se está reproduciendo, etc., para cargar la información adicional en los elementos de las subescenas en la base de datos; esta información puede ser recuperada automáticamente de sitios web preasignados o de una base de datos previamente creada diseñada para otorgar un contenido uniforme a todos los contenidos audiovisuales con los mismos elementos.
La información relacionada con un elemento se denomina archivo. Un archivo contiene diferentes tipos de información relacionada con el elemento que lo define. Tendrá un título, y puede incluir fotografías del elemento, texto descriptivo o definiciones del mismo, tablas con características o datos, contenidos comerciales que puedan ser de interés para una persona interesada en dicho elemento, mapas de lugares, enlaces a sitios de interés. etc.
• Desduplicación, anotación y edición experta:
Una vez que el contenido ha sido reordenado de manera eficiente y anotado semiautomáticamente con información enriquecida, se han identificado las relaciones entre las piezas de información y se han encontrado correspondencias comerciales, toda la información acumulada es revisada por un experto. Los expertos revisan las piezas de información relacionada con su campo de conocimiento y pueden desduplicar o evitar que una pieza de información sea identificada varias veces cuando realmente es la misma, así como corregir aquellos aspectos que no hayan sido identificados automáticamente de una manera totalmente correcta, y añadir o explicar con más profundidad aquellos contenidos que decidan. Esta última parte permite obtener una base de datos con un nivel único de detalle y calidad sin aumentar significativamente la duración total del procedimiento.
Salvo que se especifique lo contrario, todos los elementos técnicos y científicos usados en la presente memoria descriptiva tienen el significado que habitualmente entienden los expertos habituales en la técnica a la que pertenece esta invención. En la implementación de la presente invención, pueden usarse procedimientos y materiales similares o equivalentes a los descritos en la memoria descriptiva.
A lo largo de la descripción y las reivindicaciones, la palabra «comprende» y variantes de la misma no pretenden excluir otras características técnicas, aditivos, componentes o etapas. Para los expertos en la técnica, surgirán otros objetos, ventajas y características de la invención, en parte de la descripción y en parte de la implementación de la invención.
DESCRIPCIÓN DE LAS FIGURAS
Con el fin de complementar la descripción realizada, y contribuir a una mejor comprensión de las características de la invención, según una realización preferida de la misma, se adjunta a dicha descripción como parte integrante de la misma un conjunto de dibujos, donde se representa lo siguiente con fines ilustrativos, no limitativos:
En la figura 1, se puede observar una representación simplificada de un contenido audiovisual.
La figura 2 muestra un posible registro de la base de datos y una posible configuración de los campos en cada registro.
REALIZACIÓN PREFERIDA DE LA INVENCIÓN
A la luz de las figuras, a continuación, se describe una realización preferida de la invención propuesta.
En la figura 1 se puede observar un posible contenido audiovisual simplificado (1), en el que se han seleccionado las subescenas (2), posteriormente se han identificado los elementos (3), teniendo cada uno de los elementos (3) una marca de tiempo para el inicio de la difusión (t1) y otra marca de tiempo para el final de la difusión (t2), y se ha asignado un archivo de información (4) a cada elemento relacionado con el elemento que lo define. Tendrá un título, y puede incluir fotografías del elemento, texto descriptivo o definiciones del mismo, tablas con características o datos, contenidos comerciales que puedan ser de interés para una persona interesada en dicho elemento, mapas de lugares, y enlaces a sitios de interés.
Las técnicas utilizadas para la separación automática del contenido audiovisual en subescenas en base a la sucesión de escenas, planos o incluso fotogramas, comprende dos partes:
- La primera parte implica una separación de planos que detecta cambios repentinos en las imágenes que se considerarán cambios de plano. Para ello, se comparan varios histogramas bloque por bloque.
- La segunda parte supone la separación en escenas e identifica aquellos planos extraídos que, por su similitud, pueden considerarse pertenecientes a una misma escena o, al menos, puede considerarse una buena idea hacerlos interactivos para aprovechar al máximo el trabajo. Para ello, se agrupan juntos el momento inicial y final de cada plano identificado.
La identificación de elementos en cada una de las subescenas se realiza en base a diferentes categorías, o tipos de archivos, que, en una realización potencial, no limitativa, pueden ser: Hombres, mujeres, niños, criaturas y robots, moda, transporte, comida y bebida, hogar, tecnología, deportes y ocio, salud y belleza, fauna y flora, armas, arte, negocio, lugar, tiempo, acción, música, referencias, curiosidades, miscelánea, citas, arquitectura, etc.
Para reconocer cada elemento particular dentro de cada categoría, se utilizan diferentes técnicas.
En el caso del reconocimiento automático de actores, el procedimiento se divide en dos fases:
- La primera es la detección de rostros en todos los fotogramas de la película. Para ello, se utiliza un algoritmo complejo que combina diversos procedimientos, tales como los gradientes orientados, para localizar determinadas formas; pirámides de imágenes, para encontrar estas formas a diferentes escalas; barrido espacial, para encontrarlas en diferentes lugares; y una toma de decisiones binaria final basada en máquinas de vectores de soporte. Dado que este procedimiento puede ser menos preciso para determinados fotogramas en los que las caras están cubiertas o giradas, se añade un seguimiento de los objetos detectados como caras y un agrupamiento de sus trayectorias, lo que ayuda a encontrarlas incluso en las condiciones más difíciles.
- La segunda parte implica la identificación específica de actores. Con este fin, se entrena un modelo de red neuronal convolucional que tiene un procedimiento de puntuación que es altamente paralelizable.
Por lo tanto, la base de datos obtenida contendrá una serie de registros, donde cada registro tendrá con los siguientes campos, como se muestra en la figura 2.
- Subescena (2)
- Elemento (3)
- Marca de tiempo para el comienzo de la difusión (t1)
- Marca de tiempo para el final de la difusión (t2)
- Un archivo
Cada archivo puede contener además una serie de campos, tales como, por ejemplo, título, fotografías, descripción, tablas de datos, contenidos comerciales, etc.
Habiendo descrito suficientemente la naturaleza de la presente invención, así como la forma de implementarla, se plantea que, dentro de su esencialidad, puede implementarse en otras realizaciones que pueden diferir en algunos detalles de la descrita a modo de ejemplo, y que igualmente recibirán la protección solicitada, siempre que estén dentro del alcance de las reivindicaciones adjuntas.

Claims (2)

REIVINDICACIONES
1. Procedimiento de generación de una base de datos vinculada a un contenido audiovisual a través de diferentes referencias temporales, caracterizado por que comprende las siguientes etapas:
- reorganización del contenido audiovisual (1) en subescenas (2), en base a la sucesión de escenas, planos, fotogramas, que comprende dos partes:
- La primera parte implica una separación de tomas, que detecta cambios repentinos en las imágenes, - La segunda parte implica una separación en escenas e identifica aquellos planos extraídos que, por ser muy similares, pueden considerarse pertenecientes a la misma escena,
- identificación de elementos (3) en cada una de las subescenas (2), que utiliza, como elementos de entrada (3), el contenido audiovisual previamente reordenado (1) y una base de datos con información relevante obtenida automáticamente de Internet en base a diferentes categorías, realizándose lo siguiente para cada uno de los elementos (3):
o una anotación temporal e informativa de los mismos, en la que la anotación temporal indica el momento exacto en el que cada pieza de información se identifica en pantalla y deja de ser visible en pantalla, en base a la ordenación original del contenido audiovisual (1);
o una anotación informativa de las diferentes relaciones (coincidencia, contenido o continente, lugar, pertenencia, parentesco, relación por compartir un tercer elemento, etc.) entre los diferentes elementos (3),
- búsqueda de correspondencias comerciales en los elementos (3) identificados,
- desduplicación, anotación y edición experta,
en las que las diferentes categorías en base a las cuales se identifican los elementos (3) de cada una de las subescenas (2) son: Hombres, mujeres, personajes, actores, niños, criaturas y robots, moda, transporte, comida y bebida, hogar, tecnología, deportes y ocio, salud y belleza, fauna y flora, armas, arte, negocio, lugar, tiempo, acción, música, referencias, curiosidades, miscelánea, citas, arquitectura,
caracterizado por que
el procedimiento de reconocimiento automático de actores se divide en dos fases:
- la primera fase es una detección de rostros en todos los fotogramas del contenido audiovisual, mediante el uso de un algoritmo complejo que combina; gradientes orientados, para localizar determinadas formas; pirámides de imágenes, para encontrar estas formas a diferentes escalas; barrido espacial, para encontrarlas en diferentes lugares; y una toma de decisiones binaria final basada en máquinas de vectores de soporte; se añade un seguimiento de los objetos detectados como caras y un agrupamiento de sus trayectorias,
- la segunda fase implica la identificación específica de actores, mediante el entrenamiento de un modelo de red neuronal convolucional que tiene un procedimiento de puntuación altamente paralelizable.
2. Procedimiento de generación de una base de datos vinculada a un contenido audiovisual a través de diferentes referencias temporales según la reivindicación 1, en el que la separación de planos que detecta cambios repentinos en las imágenes se realiza comparando varios histogramas bloque por bloque.
ES16805476T 2016-08-18 2016-08-18 Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual Active ES2844851T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/ES2016/070605 WO2018033652A1 (es) 2016-08-18 2016-08-18 Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual

Publications (1)

Publication Number Publication Date
ES2844851T3 true ES2844851T3 (es) 2021-07-22

Family

ID=57471911

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16805476T Active ES2844851T3 (es) 2016-08-18 2016-08-18 Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual

Country Status (3)

Country Link
EP (1) EP3502924B1 (es)
ES (1) ES2844851T3 (es)
WO (1) WO2018033652A1 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230044233A1 (en) * 2021-08-03 2023-02-09 Objectvideo Labs, Llc Fast user enrollment for facial recognition using face clustering
CN118521942A (zh) * 2024-06-19 2024-08-20 北京网藤科技有限公司 一种基于计算机视觉的复杂场景下原油泄漏检测方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020108112A1 (en) * 2001-02-02 2002-08-08 Ensequence, Inc. System and method for thematically analyzing and annotating an audio-visual sequence
US8645991B2 (en) * 2006-03-30 2014-02-04 Tout Industries, Inc. Method and apparatus for annotating media streams
US20110113444A1 (en) * 2009-11-12 2011-05-12 Dragan Popovich Index of video objects
US20130276008A1 (en) * 2012-04-12 2013-10-17 Google Inc. Content Based Advertising

Also Published As

Publication number Publication date
EP3502924A1 (en) 2019-06-26
EP3502924B1 (en) 2020-10-21
WO2018033652A1 (es) 2018-02-22

Similar Documents

Publication Publication Date Title
Radenović et al. Revisiting oxford and paris: Large-scale image retrieval benchmarking
Plummer et al. Enhancing video summarization via vision-language embedding
CN102737089B (zh) 图像处理装置和图像处理方法
CN100501742C (zh) 表示图像组的方法和装置
Quack et al. World-scale mining of objects and events from community photo collections
KR100738069B1 (ko) 디지털 사진 앨범의 카테고리 기반 클러스터링 방법 및시스템
Dang Nguyen et al. Overview of ImageCLEFlifelog 2019: solve my life puzzle and lifelog moment retrieval
Penatti et al. A visual approach for video geocoding using bag-of-scenes
Ahmad et al. Used: a large-scale social event detection dataset
US8971639B2 (en) Semantic theme based shape collage representation for an image collection
ES2844851T3 (es) Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual
Vonikakis et al. Emotion-based sequence of family photos
JP5633647B2 (ja) 映像処理システム、映像処理方法、映像処理用データベースの作成方法とそのデータベース、映像処理装置およびその制御方法と制御プログラム
Egan et al. Cult Film Stardom: Offbeat Attractions and Processes of Cultification
JP2004341940A (ja) 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム
CN102595206A (zh) 基于体育赛事视频的数据同步方法及装置
Csurka et al. Building look & feel concept models from color combinations: With applications in image classification, retrieval, and color transfer
CN106971004B (zh) 搜索结果提供方法及装置
Bolton et al. Lasting Screen Stars
Papadopoulos et al. ClustTour: City exploration by use of hybrid photo clustering
Lin et al. Automatic tourist attraction and representative icon determination for tourist map generation
Stupar et al. Picasso: automated soundtrack suggestion for multi-modal data
KR102585576B1 (ko) 규칙 기반 보조 데이터
McGuinness et al. The AXES research video search system
Zhang et al. A biologically inspired automatic system for media quality assessment