ES2388413B1 - Método para la clasificación de videos. - Google Patents

Método para la clasificación de videos. Download PDF

Info

Publication number
ES2388413B1
ES2388413B1 ES201031019A ES201031019A ES2388413B1 ES 2388413 B1 ES2388413 B1 ES 2388413B1 ES 201031019 A ES201031019 A ES 201031019A ES 201031019 A ES201031019 A ES 201031019A ES 2388413 B1 ES2388413 B1 ES 2388413B1
Authority
ES
Spain
Prior art keywords
video
measurement
frame
characteristic
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
ES201031019A
Other languages
English (en)
Other versions
ES2388413A1 (es
Inventor
Anush Moorty
Pere Obrador
Nuria Oliver Ramírez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonica SA
Original Assignee
Telefonica SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonica SA filed Critical Telefonica SA
Priority to ES201031019A priority Critical patent/ES2388413B1/es
Priority to US13/807,375 priority patent/US8942469B2/en
Priority to EP11728833.2A priority patent/EP2588995A1/en
Priority to PCT/EP2011/060917 priority patent/WO2012001048A1/en
Priority to ARP110102327A priority patent/AR082047A1/es
Publication of ES2388413A1 publication Critical patent/ES2388413A1/es
Application granted granted Critical
Publication of ES2388413B1 publication Critical patent/ES2388413B1/es
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

Método para la clasificación de vídeos.#Un método para clasificar un vídeo respecto a una característica subjetiva, comprendiendo el método:#- medir una pluralidad de características básicas (11) por fotograma obteniendo así una pluralidad de mediciones de características básicas;#- crear una pluralidad de características de segundo nivel agrupando (12) dichas mediciones de características básicas (11) usando una pluralidad de estadísticas de dichas mediciones de características básicas en un periodo de tiempo determinado de metraje;#- crear una pluralidad de características de vídeo agrupando (13) dicha pluralidad de características de segundo nivel usando una pluralidad de estadísticas de dichas características de segundo nivel a lo largo de la duración del vídeo;#- elegir al menos una característica de vídeo de dicha pluralidad de características de vídeo para clasificar un vídeo respecto a una característica subjetiva.

Description

MÉTODO PARA LA CLASIFICACIÓN DE VÍDEOS
CAMPO TÉCNICO
La presente invención se refiere a la valoración y evaluación de vídeos. Más particularmente la presente invención se refiere a la clasificación de vídeos basándose en sus características técnicas.
DESCRIPCIÓN DE LA TÉCNICA ANTERIOR
En el mundo digital de hoy en día existe el reto de desarrollar herramientas eficaces de gestión de datos multimedia que permitan a los usuarios organizar y buscar contenido multimedia a partir de repositorios cada vez mayores de medios digitales. Las capacidades de almacenamiento crecientes a precios bajos combinado con dispositivos generalizados para capturar imágenes digitales y vídeos permiten la generación y el archivado de cantidades sin precedentes de contenido multimedia personal. Por ejemplo, en mayo de 2009, se cargaron aproximadamente 20 horas de metraje de vídeo (la mayoría generado por usuarios) en el popular sitio de vídeos compartidos YouTube cada minuto [R. Junee, quot;20 hours of Vídeo Uploaded Every minute!quot;, htt¡;¿:l/yputube-gjobal.bloqsoot.coml, 2009]. Además, se espera que el número de creadores de vídeos generados por usuarios crezca en los EE.UU. en un 77% desde 2008 hasta 2013 [P.
Verna, quot;A spotlíght on UGC Partícípantsquot;, httQ:I/www.emarketer.com/Article.asg_x?R=1006914, 2009].
Los planteamientos de búsqueda de vídeos e imágenes basada en consultas de texto se basan en gran medida en la similitud entre la consulta textual introducida y los metadatos textuales (por ejemplo: etiquetas, comentarios, etc.) que se han añadido previamente al contenido por los usuarios. La relevancia ciertamente es crítica para la satisfacción de los usuarios con los resultados de su búsqueda, aunque no suficiente. Por ejemplo, cualquier persona que visite YouTube avalará el hecho de que los resultados de búsqueda más relevantes incluyen hoy en día una gran cantidad de datos generados por los usuarios de calidad estética variable (entendiendo estética como la creación y apreciación de la belleza); el filtrado y la nueva clasificación de estos datos con una medida de su valor estético probablemente mejoraría las experiencias y satisfacción de los usuarios. Además de mejorar los resultados de búsqueda, otro reto al que se enfrentan los sitios de vídeos compartidos es el de atraer publicidad al contenido generado por usuarios, particularmente dado que parte del mismo se considera que no se
puede ver [B. Wayne, httpJíwww.busínessinsíder.com/es-voutube-doomed-2009-4, 2009]
, y los publicistas se muestran reacios normalmente a colocar las marcas de sus clientes
cerca de cualquier material que pueda dañar la reputación de sus clientes [P. Messarís,
quot;Visual Persuasíon: the role of ímages in advertísíngquot;, Sage Publícatíons lnc. 1997J. El
5
análisis estético de vídeos de este tipo será probablemente una de las herramientas
usadas para identificar automáticamente el material que es quot;digno de llevar publicidadquot;
frente al que no. Además, las herramientas de gestión de vídeos que incluyen modelos
de atractivo estético pueden demostrar ser útiles para ayudar a los usuarios a navegar en
sus colecciones personales de vídeos cada vez más grandes.
1O
Obsérvese que la valoración estética de vídeos difiere de la valoración de la
calidad de los vídeos (VQA) [Wang, Z., Sheíkh, H.R. y Bovík, A.C., quot;Objectíve vídeo
Qualíty assessmentquot;, The Handbook of Vídeo Databases: Desígn and Applícatíons, 1041-
1078, 2003] en que la primera trata de evaluar un atractivo integral de un vídeo y, por
tanto, engloba a la segunda. Por ejemplo, un vídeo de baja calidad con una intensa
15
distorsión por bloques tendrá bajo atractivo estético. Sin embargo, un vídeo sin
distorsiones con escasa luminosidad, con colores apagados puede tener alta calidad pero
también ser poco atractivo estéticamente. Aunque la valoración estética de imágenes ha
recibido recientemente la atención de la comunidad investigadora [Datta, R., Joshí, 0., U,
J. y Wang, J.Z. , quot;Studyíng Aesthetícs in photographíc ímages usíng a computatíonal
20
approachquot;, Vol. 3953, 288, Lec. Notes. in Comp. Scí.-Sprínger, año 2006], [Ke, Y., Tang,
X. y Jíng, F., ''The desígn of hígh-level features for photo qualíty assessmentquot;, IEEE Conf.
Comp. Vis. Pat. Recog., 2006], [Luo, Y. y Tang, X., quot;Photo and Vídeo qualíty evaluatíon:
Focusíng on the subjectquot;, Eur. Conf,. Comp. Vis., 386-399, Sprínger-Verlag Berlín
Heidelberg, 2008], [Obrador, P., quot;Regían based ímage appeal metríc for consumer
25
photosquot;, IEEE Work. Mult. Síg. Proc., 696-701, 2008], [Tong, H., U, M, Zhang, H.J., He,
J. y Zhang, C., quot;Ciassífícatíon of digital photos taken by photographers or home usersquot;,
Lec. Notes. in Comp. Scí., 198-205, Sprínger, 2004], la valoración estética de vídeos
todavía no se ha explorado mucho.
La mayor parte del trabajo previo en el área del atractivo estético visual se ha
30
realizado con imágenes fijas. Uno de los trabajos iniciales en este campo es el de
Savakis et al [Savakís, A.E., Etz, S.P. y Louí, A.C., quot;Evaluatíon of ímage appeal in
consumer photographyquot;, SPIE Proc., Human Vis. Elec. lmg, 111-121, 2000] en el que
realizaron un estudio a gran escala de las posibles características que podrían influir en la
clasificación estética de una imagen. Sin embargo, los autores no propusieron ningún
35
algoritmo para determinar automáticamente el atractivo estético de la imagen.
En [Tong, H., U, M, Zhang, H.J., He, J., Zhang, C., quot;Ciassífícatíon of digital photos taken by photographers or home usersquot;, 2004], Tong et al utilizaron un planteamiento basado en características en el que se extrajeron muchas características, incluyendo medidas de color, energía, textura y forma, de las imágenes y se propuso un clasificador de dos clases (alto frente a bajo atractivo estético) y se evaluó usando una gran base de datos de imágenes con fotos de COREL y Microsoft Office Online (alto atractivo estético) y del personal en Microsoft Research Asia (bajo atractivo estético). Un inconveniente de este planteamiento es que algunas de las características seleccionadas carecían de justificación fotográfica/perceptiva.
Además, su conjunto de datos suponía que los usuarios domésticos son peores fotógrafos que los profesionales, lo que puede no ser siempre cierto.
En un intento por tender un puente entre los planteamientos centrados en datos y centrados en la fotografía, Datta et al propusieron un algoritmo de estética computacional para imágenes que extrajo un gran conjunto de características basándose en reglas fotográficas. Usando un conjunto de datos de una comunidad de imágenes compartidas online, los autores extrajeron las 15 características principales en cuanto a su rendimiento de validación cruzada con respecto a las clasificaciones de imágenes. El vector de características global se formó usando un planteamiento basado en filtrar y envolver (tí/ter and wrapper). Los autores notificaron una clasificación (alta frente a baja precisión de atractivo estético del 70,12%.
Ke et al utilizaron un planteamiento descendente, en el que se extrajo un pequeño conjunto de características basándose en reglas fotográficas (por ejemplo, distribución de bordes, recuento de tonalidades, borrosidad). Se usó un conjunto de datos obtenido rastreando en DPChallenge.com y se utilizó la clasificación promedio de la foto como realidad de campo. En su trabajo, Luo y Tang promovieron el planteamiento propuesto en el trabajo de Ke et al mediante la extracción de la zona del objeto principal (usando un mapa de nitidez) en la fotografía. Se sometió a prueba un pequeño conjunto de características en la misma base de datos que en la contribución de Ke, y se demostró que su planteamiento tenía un mejor rendimiento que el de Datta et al y Ke et al.
Finalmente, Obrador propuso recientemente un planteamiento basado en la región de interés para calcular el atractivo estético de imágenes en el que se extrae la región de interés usando una combinación de nitidez, contraste y colorido. El tamaño de la región de interés, su aislamiento del fondo y su exposición se calcularon entonces para cuantificar el atractivo estético con buenos resultados en un conjunto de datos de fotos creado por el autor.
Sólo el trabajo de Luo y Tang ha abordado el reto de modelar la estética de vídeos. Aplicaron medidas estéticas de imágenes, en las que se calculó cada característica en un subconjunto de los fotogramas de vídeo a una tasa de 1 fotograma por segundo (fps), asociadas con dos características específicas del vídeo (longitud del movimiento de la zona del objeto principal y estabilidad de movimiento). El valor medio de cada característica a través de la totalidad del vídeo se utilizó como la representación del vídeo. Su objetivo era distinguir automáticamente entre vídeos de baja calidad (de aficionados) y alta calidad (de profesionales). Evaluaron su planteamiento en una gran base de datos de vídeos de YouTube y lograron un buen rendimiento de clasificación (una precisión de aproximadamente el 95%).
SUMARIO DE LA INVENCIÓN
Esta descripción representa el primer esfuerzo por caracterizar automáticamente el atractivo visual o cualquier otra característica subjetiva de vídeos y clasificarlos según sus características técnicas. Se proponen varias características de bajo nivel, calculadas por fotograma, que se correlacionan con características subjetivas, seguido por estrategias novedosas para combinar estas características a nivel de los fotogramas para producir características a nivel de vídeo. El trabajo previo en esta área simplemente ha usado el valor medio de cada característica a través del vídeo [Luo, Y. y Tang, X., quot;Photo and Vídeo qualíty evaluatíon: Focusíng on the subjectquot;, Eur. Conf,. Comp. Vis., 386-399, Sprínger-Verlag Berlín Heidelberg, 2008], lo que no consigue capturar las peculiaridades asociadas con la percepción humana [Moorthy, A.K. y Bovík, A.C., quot;Visual lmportance poolíng for lmage Qualíty Assessmentquot;, IEEE Jnl. Se/. Top. Síg. Proc., 3:193-201, abril de 2009].
En un primer aspecto, se da a conocer un método para clasificar un vídeo respecto a una característica subjetiva, comprendiendo el método:
medir una pluralidad de características básicas por fotograma, obteniendo esto una pluralidad de mediciones de características básicas;
crear una pluralidad de características de segundo nivel agrupando dichas mediciones de características básicas usando una pluralidad de estadísticas de dichas mediciones de características básicas en un periodo de tiempo determinado de metraje;
crear una pluralidad de características de vídeo agrupando dicha pluralidad de características de segundo nivel usando una pluralidad de estadísticas de dichas características de segundo level a lo largo de la duración del vídeo;
elegir al menos una característica de vídeo de dicha pluralidad de características de vídeo para clasificar un vídeo respecto a una característica subjetiva. Preferiblemente, dicha pluralidad de mediciones de características básicas
comprende al menos una de las siguientes mediciones de características:
5 • al menos una de las siguientes mediciones de características de movimiento: razón de movimiento y razón de tamaño, en el que dicha razón de movimiento es la razón de las magnitudes de movimiento entre las zonas en primer plano y en segundo plano del vídeo y dicha razón de tamaño es la razón de los tamaños de dichas zonas en primer plano y en segundo plano;
1 O • una medición del enfoque de la región de interés;
una medición del colorido;
una medición de la luminancia;
una medición de la armonía de color, en el que dicha medición considera el efecto que tiene la combinación de diferentes colores sobre el valor de cada fotograma;
15 • una medición de la calidad de distorsión por bloques, en el que dicha distorsión por bloques es la consecuencia de que partes de un fotograma se dividen en pequeños cuadrados;
• una medición de la regla de los tercios, en el que dicha característica de la regla de los tercios da cuenta de cómo deben situarse elementos composicionales
20 importantes de la imagen. Las características de movimiento se calculan de la siguiente manera:
• realizar una estimación de movimiento, mediante filtrado paso bajo del fotograma de vídeo y submuestreo de dicho fotograma de vídeo en un factor de 2;
• calcular para cada ubicación de píxel en dicho fotograma, la magnitud del vector 25 de movimiento;
• ejecutar un algoritmo de k-medias con 2 agrupamientos para segregar los vectores de movimiento en dos clases; • obtener un histograma, dentro de cada una de dichas clases, de las magnitudes
de los vectores de movimiento y elegir la magnitud del vector de movimiento que 30 corresponde al máximo del histograma;
la razón de movimiento se calcula como f2 = (mb+ 1 )/(m,+ 1 ), en el que m1 y mb indican la magnitud de los vectores de movimiento para cada una de dichas clases;
la razón de tamaño se calcula como f3 = (sb+ 1)/(s,+ 1), en el que St y sb indican el
tamaño (en píxeles) de cada una de dichas zonas en primer plano y en segundo
plano respectivamente.
La medición del enfoque sobre la región de interés se calcula mediante la extracción de dicha región de interés y el ajuste de la mediana el nivel de enfoque de dicha región de interés.
Los valores de rojo, verde y azul (RGB) del fotograma se usan en las siguientes expresiones:
a=R-8, ~=0,5x(R+G)-B, ¡..ta=E[a], ¡..t~=E[~], cr2a=E[(a-¡..ta)2], y cr2~=E[(~-¡..t~)2] donde, E es el operador esperanza, 11 es la media y a la desviación estándar, para calcular dicha medición de la característica de colorido como:
fs= \}aza + Qquot;2~ + 0,3 X \}¡..t2a+¡..t2~; La medición de la luminancia se calcula como el valor medio de la luminancia dentro de un fotograma. La medición de la armonía de color se calcula de la siguiente manera:
calcular el histograma de tonalidades normalizado de cada fotograma;
realizar una convolución de dicho histograma de tonalidades con cada una de siete plantillas armónicas sobre el canal de tonalidad en el espacio de tonalidad, saturación, valor (HSV);
seleccionar el máximo de dicha convolución como una medida de la similitud del histograma del fotograma con respecto a una de dichas plantillas particulares;
seleccionar el valor máximo de dichas medidas de la similitud como el valor de la característica de armonía de color. La medición de la calidad de distorsión por bloques se calcula buscando
artefactos de distorsión por bloques.
La medición de la regla de los tercios se calcula como la distancia mínima del centroide de la región de interés a una de las cuatro intersecciones de las líneas que dividen la imagen en nueve rectángulos iguales.
Preferiblemente, la pluralidad de estadísticas de mediciones de características básicas usadas para crear dichas características de segundo nivel comprende al menos uno de los siguientes: media, mediana, mínimo, máximo, primer cuartil y tercer cuartil y la pluralidad de estadísticas de mediciones de características de segundo nivel usadas para crear características de vídeo comprende el promedio y la desviación estándar.
Además, opcionalmente, se crea una característica de vídeo adicional midiendo la tasa de fotogramas real del vídeo, calculándose dicha tasa de fotogramas real usando un algoritmo de índice de similitud estructural (SSIM) como una medida de la similitud entre fotogramas.
Se realiza un experimento particular en el que se seleccionan la tasa de fotogramas real junto con las siguientes características de vídeo para caracterizar un vídeo como de alto/bajo atractivo, haciéndose referencia a dichas características de vídeo siguientes como estadística de característica de segundo nivel-estadística de
5 característica básica-característica básica: Media -tercer cuartil -colorido
Desviación estándar-mediana-regla de los tercios
Media-primer cuartil -enfoque de la región de interés Media-máximo -luminancia
• 1O • Media-primer cuartil -calidad de distorsión por bloques
• Desviación estándar-mediana -enfoque de la región de interés En otro aspecto, se presenta un sistema que comprende medios adaptados para realizar el método descrito previamente. Finalmente, se da a conocer un programa informático, que comprende medios de
15 código de programa informático adaptados para realizar el método, según la descripción anterior, cuando se ejecuta dicho programa en un ordenador, un procesador de señal digital, una disposición de puertas programables en campo, un circuito integrado de aplicación específica, un microprocesador, un microcontrolador, o cualquier otra forma de hardware programable.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
Para completar la descripción y para proporcionar un mejor entendimiento de la invención, se proporciona un juego de dibujos y una tabla. Dichos dibujos forman parte integral de la descripción e ilustran una realización preferida de la invención, que no debe
25 interpretarse como limitativa del alcance de la invención, sino más bien como un ejemplo de cómo puede realizarse la invención. Los dibujos comprenden las siguientes figuras: La figura 1 es un diagrama de bloques del método según una realización de la invención, que comprende todas las etapas implicadas. La figura 2 es el histograma de atractivo visual MOS del estudio con usuarios. 30 La tabla 1 muestra las 14 características con mejor rendimiento en las pruebas de validación cruzada realizadas. Los números y los símbolos correspondientes en las diferentes figuras se refieren a partes correspondientes a menos que se indique lo contrario.
35 DESCRIPCIÓN DE REALIZACIONES PREFERIDAS
Esta descripción se refiere a un método jerárquico para caracterizar vídeos a través de diferentes características medibles y clasificarlos automáticamente como alto/bajo respecto a determinadas características subjetivas (es decir, contenido, atractivo visual, estética, etc.).
En el contexto de la presente descripción, una microtoma se define como un conjunto de fotogramas que representan una determinada duración de metraje de vídeo. Preferiblemente esta duración es de aproximadamente 1 segundo. El método se explica a continuación:
En primer lugar se toma una pluralidad de M mediciones de características de bajo nivel (también denominadas mediciones de características básicas), preferiblemente 8 características básicas por fotograma y 1 medición de características básicas para la totalidad del vídeo. Estas M mediciones de características básicas se describen en detalle más adelante.
En segundo lugar, se toman más características a niveles superiores, para lo que se usa una pluralidad de estrategias de agrupación a nivel de microtoma y de vídeo. Estas características de nivel superior se basan en una pluralidad de medidas estadísticas de los valores de cada una de las características a través de las microtomas y la totalidad del vídeo. En otras palabras, se realiza una agrupación en dos niveles, como se observa en la figura 1.
La principal diferencia entre una imagen y un vídeo es la presencia de la dimensión temporal. De hecho, los seres humanos no perciben una serie de imágenes del mismo modo en que perciben un vídeo. Así, las características que van a extraerse de los vídeos incorporan información sobre esta dimensión temporal. Por tanto, se usa un planteamiento de agrupación jerárquica para agrupar cada una de las características extraídas fotograma por fotograma en un único valor para la totalidad del vídeo, definiéndose agrupación como el proceso de agrupar un conjunto de características, ya sea espacial o temporalmente.
Como se muestra en la figura 1, en primer lugar, se extraen características básicas 11 fotograma por fotograma. A continuación, estas características básicas (o características de bajo nivel) se agrupan dentro de cada microtoma 12, usando una pluralidad de N técnicas de agrupación diferentes, generando N características a nivel de microtoma correspondientes para cada característica básica. En esta descripción, las características a nivel de microtoma también se denominan características de segundo nivel. Preferiblemente, se usan 6 técnicas de agrupación diferentes y por tanto se generan 6 características a nivel de microtoma correspondientes. Finalmente, las características a nivel de microtoma se agrupan a través de la totalidad del vídeo 13 usando dos métodos (media y desviación estándar), generándose así un conjunto de 2N características a nivel de vídeo para cada una de las características básicas. Puesto que preferiblemente N=6, se generan 12 características a nivel de vídeo para cada una de las características básicas.
Finalmente, para clasificar el vídeo según una característica subjetiva, se selecciona al menos una de estas características a nivel de vídeo. A continuación, se explican las M (preferiblemente 9) características básicas 11
(f¡ ... fg):
• Tasa de fotogramas real (f1):
Analizando vídeos, es evidente que muchos de ellos contienen fotogramas repetidos, lo que significa que la tasa de fotogramas extraída de la cabecera del archivo no siempre es fiable. Con el fin de detectar la repetición de fotogramas, las simples diferencias entre fotogramas no funcionan satisfactoriamente debido a mecanismos de compresión. Por tanto, se usa el algoritmo de índice de similitud estructural (SSIM) como una medida de la similitud entre fotogramas.
Este algoritmo funciona de la siguiente manera: Una medida de la similitud perceptiva de fotogramas consecutivos viene dada por Q = 1-SS/M, y se calcula entre fotogramas vecinos para todos los fotogramas del vídeo para producir un vector m. Un valor bajo de Q significa que los fotogramas correspondientes son equivalentes desde un punto de vista perceptivo. Para medir la periodicidad debida a inserciones de fotogramas, se calcula la siguiente expresión:
mº = {ind(m¡)l m¡ lt;= 0,02}, donde el umbral fijado permite una pequeña cantidad de disimilitud entre fotogramas adyacentes (debido a mecanismos de codificación). Esta señal se diferencia (con un filtro de primer orden h[í]=[1 -1]), para obtener dm. Si es una señal periódica, significa que se han insertado fotogramas, y se calcula la tasa de fotogramas verdadera como:
f1 =fps * (MAX(dm)-1)/Tm, donde Tm es el número de muestras en m que corresponde al periodo en dm.
• Características de movimiento (razón de movimiento (f2) y razón de tamaño (f3)):
El sistema visual humano dedica una gran cantidad de recursos al procesamiento del movimiento. El movimiento de una cámara con sacudidas, el temblor de la cámara y el movimiento rápido de objetos en un vídeo distraen y pueden afectar significativamente al atractivo visual del vídeo. El planteamiento usado proviene de la hipótesis de que un buen vídeo contiene dos zonas: el primer plano (principal objeto de interés) y el segundo plano. La razón de las magnitudes de movimiento entre estas dos zonas y sus tamaños relativos tiene un impacto directo sobre la percepción subjetiva del vídeo. Basándose en esto, las características de movimiento se calculan de la siguiente manera:
En primer lugar se aplica un algoritmo de estimación de movimiento basado en bloques para calcular vectores de movimiento entre fotogramas adyacentes. Puesto que los vídeos podrían estar comprimidos, artefactos de bloques podrían dificultar las estimaciones de movimiento. Por tanto, se realiza una estimación de movimiento tras el filtrado paso bajo y el submuestreo (en un factor de 2) de cada fotograma de vídeo. Para cada ubicación de píxel en un fotograma se calcula la magnitud del vector de movimiento. Entonces, se ejecuta un algoritmo de k-medias con 2 agrupamientos para segregar los vectores de movimiento en dos clases. Dentro de cada clase se obtiene un histograma de las magnitudes de los vectores de movimiento y se elige la magnitud del vector de movimiento que corresponde al máximo del histograma como un vector representativo para esa clase. Supongamos que m, y mb indican la magnitud de los vectores de movimiento para cada una de las clases, donde m,gt;mb, y supongamos que s,y sb indican el tamaño (en píxeles) de cada una de las zonas, respectivamente. La razón de movimiento se calcula como
y la razón de tamaño como
f3 =(Sb+ 1)/(St+ 1).
Se añade la constante 1 para impedir inestabilidades numéricas en los casos en los que la magnitud de movimiento o tamaño tiende a cero.
• Nitidez/enfoque de la región de interés (f4):
Puesto que el interés del método reside en vídeos, en los que las cámaras se enfocan normalmente al infinito óptico, medir zonas enfocadas supone un reto. Para extraer la región de interés (ROl), es decir la zona enfocada, se usa el algoritmo propuesto en [Dai, J.Z. y Wu, Y. quot;Where are focused places of a photo?quot;, Lec. Notes in Comp. Sci., 487, pág. 73, Springer, 2007J y la mediana del nivel de enfoque de la ROl se fija como característica f4.
• Colorido (f5):
Los vídeos con colorido tienden a verse como más atractivos que aquellos en los que los colores son quot;apagadosquot;. El colorido de un fotograma se evalúa usando la técnica propuesta en [Hasler, D. y Susstrunk, S. y GmbH, L. y Steinfurt, G., quot;Measuring Colourfulness in natural imagesquot;, SPIE/ES\& T Hum. Vis. E lec. lmag., 5007, 87-95, 2003].
Los valores de RGB del fotograma se usan para calcular las medidas: a=R-8,
~=0,5x(R+G)-B, !-la=E[a], ¡..t~=E[~], cr2a=E[(a-¡..ta)2], y cr2~=E[(~-¡..t~)2] donde, E es el operador esperanza, 11 es la media y a la desviación estándar de los valores de interés. El colorido se calcula como:
fs= \}aza + Qquot;2~ + 0,3 X \}¡..t2a+¡..t2~;
Esta medida se ha usado previamente en [Obrador, P., quot;Regían based ímage appeal metríc for consumer photosquot;, IEEE Work. Mult. Síg. Proc., 696-701, 2008] para cuantificar el atractivo estético de imágenes.
• Luminancia (f6):
Se ha demostrado que la luminancia desempeña un papel importante en la percepción visual de imágenes [Oatta, R., Joshí, 0., U, J. y Wang, J.Z., quot;Studyíng aesthetícs in photographíc ímages usíng computatíonal approachquot;, Lec. Notes in Comp. Scí., 3953, 288, Sprínger, 2006]. Las imágenes (y los vídeos) en cualquier extremo de la escala de luminancia (es decir, escasamente iluminadas o con una luminancia extremadamente alta) se clasifican normalmente como que tiene un bajo valor de atractivo. Por tanto, la característica de luminancia f6 se calcula como el valor medio de la luminancia dentro de un fotograma.
• Armonía de color (f7):
La medida de colorido no tiene en cuenta el efecto que tiene la combinación de diferentes colores sobre el valor de cada fotograma. Para ello se evalúa la armonía de color usando una variación de la técnica de Cohen-Or et al. [Cohen-Or, 0., Sorkíne, 0., Gal, R. Leyvand, T. y Xu, Y.Q., quot;Color Harmonízatíonquot;, Proc. ACM SIGGRAPH, 25, 624-630, ACM Nueva York, NY, EE.UU., 2006] en la que se usan ocho plantillas o tipos armónicos sobre el canal de tonalidad en el espacio de HSV. Obsérvese que una de estas plantillas (tipo N) corresponde a imágenes en la escala de grises y, por tanto, no se usa en este caso puesto que los vídeos que son el objeto de este procedimiento son inherentemente vídeos en color. Se calcula el histograma de tonalidades (normalizado) de cada fotograma y se realiza una convolución de este histograma con cada una de las 7 plantillas. El máximo de la convolución se selecciona como una medida de la similitud del histograma del fotograma con una plantilla particular. El valor máximo de estas 7 medidas de armonía (una para cada plantilla) se elige como el valor de la característica de armonía de color.
• Calidad de distorsión por bloques (f8):
El planteamiento basado en bloques usado en los algoritmos de compresión de vídeos actuales conduce a la presencia de distorsión por bloques en vídeos. La distorsión por bloques es un aspecto de calidad importante y, para vídeos comprimidos, se ha mostrado que ensombrece otros aspectos subjetivos. En el presente método, se evalúa la calidad buscando artefactos de distorsión por bloques como en [Wang, Z., Sheíkh, H. R. y Bovík, A.C., quot;No reference perceptual qualíty assessment of JPEG compressed ímagesquot;, IEEE lntl. Conf. lmage Proc., 1, 477-480, 2002]. Puesto que este algoritmo se propuso para la compresión JPEG, está definido sólo para bloques de 8x8. Por tanto, se usa la valoración de la calidad basada en bloques de 8x8 en esta evaluación de característica.
• Regla de los tercios (f9):
Esta regla establece que elementos composicionales importantes de la fotografía deben situarse en uno de los cuatro posibles quot;terciosquot; de una imagen (es decir, en una de las cuatro intersecciones de las líneas que dividen la imagen en nueve rectángulos iguales, creando potencialmente una composición más interesante. Para evaluar una característica que corresponde a la regla de los tercios, se utiliza la región de interés (ROl) extraída como se describió anteriormente. La medida de la regla de los tercios f9 es la distancia mínima del centroide a la ROl con respecto a estos cuatro puntos.
El objetivo del proceso de extracción de características es generar una colección de características que caracterice aspectos subjetivos de un vídeo completo. Por tanto, una vez que se han calculado las 8 características a nivel de fotograma (f2 a f9) 11 en cada fotograma, se combinan (o agrupan) para generar características a nivel de microtoma (es decir, 1 segundo de metraje de vídeo) 12 que se combinan adicionalmente para producir características a nivel de vídeo 13. Puesto que el mejor poder discriminatorio de este diverso conjunto de características puede obtenerse mediante diferentes medidas estadísticas dependiendo de la característica a nivel de fotograma, se calculan N técnicas de agrupación de características diferentes para cada característica básica, para generar las características a nivel de microtoma 12. Preferiblemente, N=6:
medía,
mediana,
mín,
máx,
primer cuartíl (marcado como cuarto) y
tercer cuartíl (marcado como tres cuartos).
Finalmente a nivel de vídeo, las características a nivel de microtoma se agrupan con dos estadísticas diferentes para generar características a nivel de vídeo 13:
promedio, calculado como la medía de las características a través de todas las microtomas y
desviación estándar (marcado como std), calculado de nuevo a través de todas las
microtomas en el vídeo.
Por tanto, se genera una bolsa de ((M-1) x N x 2) + 1 características a nivel de vídeo para cada vídeo. Puesto que preferiblemente M=9 y N=6, hay: 8 características básicas a nivel de fotograma x 6 técnicas de agrupación a nivel de microtoma x 2 técnicas de agrupación a nivel de vídeo +f1•
En el resto de este texto, las características a nivel de vídeo se denominan nivel de vídeo-nivel de mícrotoma-característíca básica. Por ejemplo, la característica básica armonía de color (f7), agrupada usando la mediana a nivel de microtoma y la media a nivel de vídeo se denomina: medía-mediana-armonía.
El uso de estas técnicas de agrupación es una de las principales contribuciones de esta invención. El trabajo previo [Luo, Y y Tang, X., quot;Photo and Vídeo qualíty evaluatíon: Focusíng on the subjectquot;, Eur. Conf. Comp. Vis, 386-399, Sprínger-Verlag Berlín, Heidelberg, 2008] sólo ha considerado un planteamiento de submuestreo a nivel de microtoma, y una técnica de agrupación mediante promediado a nivel de vídeo, que genera una única característica a nivel de vídeo para cada característica básica que no puede modelar su variabilidad temporal.
A continuación, se detalla un experimento particular del método, eligiendo determinadas características a nivel de vídeo para clasificar los vídeos en alto frente a bajo atractivo visual usando una máquina de vectores de soporte (SVM) 14 (figura 1) [ Vapník, V., 'The nature of statístícal learníng theoryquot;, Sprínger Verlag, 2000] como clasificador.
Con este fin se realizó una recopilación previa de datos de realidad de campo, que se resume en las siguientes etapas:
Se seleccionó un total de 160 vídeos, 1 O vídeos x 16 consultas diferentes, para el estudio.
Un total de 33 participantes (25 hombres) tomaron parte en el estudio, en el que se pidió a los participantes que clasificasen a través de una interfaz Web tanto el contenido como el atractivo visual de 40 vídeos (1 O vídeos x 4 consultas). Cada vídeo se incluyó en la interfaz web con dos escalas de clasificación subyacentes: una para el contenido y la otra para el atractivo. Las escalas fueron: muy malo (-2), malo (-1 ), regular (0), bueno (1 ), muy bueno (2). Así, se obtuvo un total de 160 vídeos con realidad de campo sobre su atractivo visual en forma de una puntuación de opinión media (MOS). La figura 2 representa el histograma de esta MOS estética para los 160 vídeos, en el que 82 vídeos se clasificaron por debajo de cero, y 78 vídeos se clasificaron por encima de cero. Todas las puntuaciones
por encima del valor de la mediana se marcan como atractivos (80 vídeos) y
aquellos por debajo se marcan como no atractivos (80 vídeos).
Para clasificar los vídeos en estas dos clases, usando sólo unas cuantas características determinadas del método, se usa una máquina de vectores de soporte (SVM) [ Vapnik, V., 'The nature of statistical learning theoryquot;, Springer Verlag, 2000] con un núcleo de función de base radial (RBF) (C,y)=(1 ,3.7) [Chang, C. y Un, C. quot;LIBSVM: a líbrary for support vector machinesquot;, httQ:IIwww.csíe.ntu.edu.tv:tícjlinllíbsvm/, 2001] y el paquete LibSVM para la implementación.
Los datos se clasifican con una validación cruzada cinco veces en la que se llevan a cabo 200 ejecuciones de entrenamiento/prueba con los conjuntos de características que están sometiéndose a prueba. Esta clasificación se realiza con la MOS del estudio de los usuarios con cada una de las 97 características a nivel de vídeo. Las 14 características que tienen un mejor rendimiento en estas pruebas de validación cruzada se muestran en la tabla 1 . El rendimiento de clasificación de estas características es bastante estable: la desviación estándar promedio de la precisión de clasificación a través de las características y en las 200 ejecuciones es de 2,1211 (mín = 0,5397, máx = 3,2779).
Sin embargo, para combinar las características individuales se usa un híbrido de un planteamiento basado en filtrado y basado en envolvimiento, similar a [Datta, R., Joshi, 0., U, J. y Wang, J. quot;Studying aesthetics in photographic images using a computational approachquot;, Lec. Notes in Comp. Sci., 3953:288, 2006], que sólo considera las características a nivel de vídeo que tienen un rendimiento individualmente por encima del 50%. En primer lugar, se elige la característica a nivel de vídeo que clasifica mejor los datos. Todas las demás características a nivel de vídeo derivadas a partir de la misma característica básica y agrupadas con el mismo método de agrupación a nivel de vídeo (es decir, o bien la media o bien la desviación estándar) se descartan de la bolsa antes de seleccionar la siguiente característica. La siguiente características seleccionada es la que clasifica mejor los datos junto con la primera característica seleccionada, etcétera. Así se forma un vector de características heptadimensional. El vector de características se limita a 7 dimensiones debido al número relativamente pequeño de vídeos en la realidad de campo (160) y para evitar el sobreajuste.
Se obtiene el mejor rendimiento con las siguientes características (éstas serían la entrada al clasificador:
Fps real Media-tres cuartos-colorido
Std-mediana-tercios
Media-cuarto-enfoque Media-máx-luminancia
• Media-cuarto-calidad
• 5 • Std-mediana-enfoque Las características seleccionadas para su rendimiento de clasificación tras combinarse con las características seleccionadas previamente son: fps real (58,8%, cr=1 ,5); media-tres cuartos-colorido (67%, cr=1 ,8); std-mediana-tercios (69,5%, cr=1 ,9); media-cuarto-enfoque (69,6%, cr=2,2); media-máx-luminancia (71%, cr=1 ,9); media-lO cuarto-calidad (72,0%, cr=1 ,9); y std-mediana-enfoque (73,0%, cr=2,0). Así se obtiene una precisión de clasificación global del 73,03%.

Claims (15)

  1. 1. Un método para clasificar un vídeo respecto a una característica subjetiva, comprendiendo el método:
    medir una pluralidad de características básicas (11) por fotograma obteniendo así una pluralidad de mediciones de características básicas;
    crear una pluralidad de características de segundo nivel agrupando (12) dichas mediciones de características básicas (11) usando una pluralidad de estadísticas de dichas mediciones de características básicas en un periodo de tiempo determinado de metraje;
    crear una pluralidad de características de vídeo agrupando (13) dicha pluralidad de características de segundo nivel usando una pluralidad de estadísticas de dichas características de segundo level a lo largo de la duración del vídeo;
    elegir al menos una característica de vídeo de dicha pluralidad de características de vídeo para clasificar un vídeo respecto a una característica subjetiva.
  2. 2. El método según la reivindicación 1 , en el que dicha pluralidad de mediciones de características básicas (11) comprende al menos una de las siguientes mediciones de características:
    al menos una de las siguientes mediciones de características de movimiento: razón de movimiento y razón de tamaño, en el que dicha razón de movimiento es la razón de las magnitudes de movimiento entre las zonas en primer plano y en segundo plano del vídeo y dicha razón de tamaño es la razón de los tamaños de dichas zonas en primer plano y en segundo plano;
    una medición del enfoque de la región de interés;
    una medición del colorido;
    una medición de la luminancia;
    una medición de la armonía de color, en el que dicha medición considera el efecto que tiene la combinación de diferentes colores sobre el valor de cada fotograma;
    una medición de la calidad de distorsión por bloques, en el que dicha distorsión por bloques es la consecuencia de que partes de un fotograma se dividen en pequeños cuadrados;
    una medición de la regla de los tercios, en el que dicha característica de la regla de los tercios da cuenta de cómo deben situarse elementos
    composicionales importantes de la imagen.
  3. 3. El método según la reivindicación 2, en el que dichas características de movimiento se calculan de la siguiente manera:
    realizar una estimación de movimiento, mediante filtrado paso bajo del fotograma de vídeo y submuestreo de dicho fotograma de vídeo en un factor de 2;
    calcular para cada ubicación de píxel en dicho fotograma, la magnitud del vector de movimiento;
    ejecutar un algoritmo de k-medias con 2 agrupamientos para segregar los vectores de movimiento en dos clases;
    • obtener un histograma, dentro de cada una de dichas clases, de las magnitudes de los vectores de movimiento y elegir la magnitud del vector de movimiento que corresponde al máximo del histograma;
    la razón de movimiento se calcula como f2 = (mb+ 1)/(m,+ 1), en el que m, y mb indican la magnitud de los vectores de movimiento para cada una de dichas clases;
    la razón de tamaño se calcula como f3 = (sb+ 1 )/(s,+ 1 ), donde s, y sb indican el tamaño (en píxeles) de cada una de dichas zonas en primer plano y en segundo plano respectivamente.
  4. 4. El método según la reivindicación 2, en el que dicha medición del enfoque sobre la región de interés se calcula mediante la extracción de dicha región de interés y el ajuste de la mediana del nivel de enfoque de dicha región de interés.
  5. 5. El método según la reivindicación 2, en el que se usan los valores de rojo, verde y azul (RGB) del fotograma en las siguientes expresiones: a=R-8, ~=0,5x(R+G)-B, ¡..ta=E[a], ¡..t~=E[~], cr2a=E[(a-¡..ta)2], y cr2~=E[(~-¡..t~)2] donde, E es el operador esperanza, 11 es la media y a la desviación estándar, para calcular dicha medición de la característica de colorido como: fs= \}aza + Qquot;2~ + 0,3 X \}¡..t2a+¡..t2~;
  6. 6.
    El método según la reivindicación 2, en el que dicha medición de la luminancia se calcula como el valor medio de la luminancia dentro de un fotograma.
  7. 7.
    El método según la reivindicación 2, en el que dicha medición de la armonía de color se calcula de la siguiente manera:
    calcular el histograma de tonalidades normalizado de cada fotograma;
    realizar una convolución de dicho histograma de tonalidades con cada una de siete plantillas armónicas sobre el canal de tonalidad en el espacio de
  8. 8.
  9. 9.
    1O.
  10. 11.
  11. 12.
  12. 13.
  13. 14.
    tonalidad, saturación, valor (HSV);
    seleccionar el máximo de dicha convolución como una medida de la similitud del histograma del fotograma con respecto a una de dichas plantillas particulares;
    seleccionar el valor máximo de dichas medidas de la similitud como el valor de
    la característica de armonía de color. El método según la reivindicación 2, en el que dicha medición de la calidad de distorsión por bloques se calcula buscando artefactos de distorsión por bloques. El método según la reivindicación 2, en el que dicha medición de la regla de los tercios se calcula como la distancia mínima del centroide de la región de interés a una de las cuatro intersecciones de las líneas que dividen la imagen en nueve rectángulos iguales. El método según cualquier reivindicación anterior, en el que dicha pluralidad de estadísticas de mediciones de características básicas (11) usadas para crear dichas características de segundo nivel comprende al menos uno de los siguientes: media, mediana, mínimo, máximo, primer cuartil y tercer cuartil. El método según cualquier reivindicación anterior, en el que dicha pluralidad de estadísticas de mediciones de características de segundo nivel usadas para crear características de vídeo comprende el promedio y la desviación estándar. El método según cualquier reivindicación anterior, en el que se crea una característica de vídeo adicional midiendo la tasa de fotogramas real de dicho vídeo. El método según la reivindicación 12, en el que dicha tasa de fotogramas real se calcula usando un algoritmo de índice de similitud estructural (SSIM) como una medida de la similitud entre fotogramas. El método según las reivindicaciones 1 a 13, en el que se seleccionan la tasa de fotogramas real junto con las siguientes características de vídeo para caracterizar un vídeo como de alto/bajo atractivo, haciéndose referencia a dichas características de vídeo siguientes como estadística de característica-estadística de segundo nivel de característica-básica:
    Media -tercer cuartil -colorido
    Desviación estándar-mediana-regla de los tercios
    Media-primer cuartil -enfoque de la región de interés
    Media-máximo -luminancia
    Media-primer cuartil -calidad de distorsión por bloques
    • Desviación estándar-mediana -enfoque de la región de interés
  14. 15.
    Un sistema que comprende medios adaptados para realizar el método según
    cualquier reivindicación anterior.
  15. 16.
    Un programa informático que comprende medios de código de programa
    5
    informático adaptados para realizar el método según cualquiera de las
    reivindicaciones 1 a 19, cuando se ejecuta dicho programa en
    un ordenador, un
    procesador de señal digital, una disposición de puertas programables en campo,
    un
    circuito integrado de aplicación específica, un microprocesador,
    un
    microcontrolador, o cualquier otra forma de hardware programable.
ES201031019A 2010-07-01 2010-07-01 Método para la clasificación de videos. Expired - Fee Related ES2388413B1 (es)

Priority Applications (5)

Application Number Priority Date Filing Date Title
ES201031019A ES2388413B1 (es) 2010-07-01 2010-07-01 Método para la clasificación de videos.
US13/807,375 US8942469B2 (en) 2010-07-01 2011-06-29 Method for classification of videos
EP11728833.2A EP2588995A1 (en) 2010-07-01 2011-06-29 Method for classification of videos
PCT/EP2011/060917 WO2012001048A1 (en) 2010-07-01 2011-06-29 Method for classification of videos
ARP110102327A AR082047A1 (es) 2010-07-01 2011-06-30 Metodo para la clasificacion de videos

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES201031019A ES2388413B1 (es) 2010-07-01 2010-07-01 Método para la clasificación de videos.

Publications (2)

Publication Number Publication Date
ES2388413A1 ES2388413A1 (es) 2012-10-15
ES2388413B1 true ES2388413B1 (es) 2013-08-22

Family

ID=44627769

Family Applications (1)

Application Number Title Priority Date Filing Date
ES201031019A Expired - Fee Related ES2388413B1 (es) 2010-07-01 2010-07-01 Método para la clasificación de videos.

Country Status (5)

Country Link
US (1) US8942469B2 (es)
EP (1) EP2588995A1 (es)
AR (1) AR082047A1 (es)
ES (1) ES2388413B1 (es)
WO (1) WO2012001048A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474875B2 (en) 2010-06-07 2019-11-12 Affectiva, Inc. Image analysis using a semiconductor processor for facial evaluation
EP2806401A1 (en) * 2013-05-23 2014-11-26 Thomson Licensing Method and device for processing a picture
EP2947865B1 (en) 2014-05-19 2017-03-22 Thomson Licensing Method for harmonizing colors, corresponding computer program and device
US9652675B2 (en) * 2014-07-23 2017-05-16 Microsoft Technology Licensing, Llc Identifying presentation styles of educational videos
US10068138B2 (en) * 2015-09-17 2018-09-04 Canon Kabushiki Kaisha Devices, systems, and methods for generating a temporal-adaptive representation for video-event classification
CN105528786B (zh) * 2015-12-04 2019-10-01 小米科技有限责任公司 图像处理方法及装置
KR101936947B1 (ko) 2017-12-04 2019-01-09 포항공과대학교 산학협력단 비디오 인식을 위한 영상 세그먼트 프레임별 특징점의 시간 정보 인코딩 방법
US10417501B2 (en) 2017-12-06 2019-09-17 International Business Machines Corporation Object recognition in video
CN108154509B (zh) * 2018-01-12 2022-11-11 平安科技(深圳)有限公司 癌症识别方法、装置及存储介质
KR20200079835A (ko) * 2018-12-26 2020-07-06 삼성전자주식회사 광고 비용을 산출하기 위한 디스플레이 시스템
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110675959B (zh) * 2019-08-19 2023-07-07 平安科技(深圳)有限公司 数据智能分析方法、装置、计算机设备及存储介质
US11538247B2 (en) * 2020-09-29 2022-12-27 Wipro Limited Method and system for manufacturing operations workflow monitoring using structural similarity index based activity detection
US11887314B2 (en) * 2021-11-08 2024-01-30 SmartThings, Inc. Compressed domain motion detection

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6798919B2 (en) * 2000-12-12 2004-09-28 Koninklijke Philips Electronics, N.V. System and method for providing a scalable dynamic objective metric for automatic video quality evaluation
US7010159B2 (en) * 2001-04-25 2006-03-07 Koninklijke Philips Electronics N.V. Apparatus and method for combining random set of video features in a non-linear scheme to best describe perceptual quality of video sequences using heuristic search methodology
AU2002347754A1 (en) * 2002-11-06 2004-06-07 Agency For Science, Technology And Research A method for generating a quality oriented significance map for assessing the quality of an image or video
JP2005277981A (ja) * 2004-03-26 2005-10-06 Seiko Epson Corp 画像処理のための対象画像の選択
US7840898B2 (en) * 2005-11-01 2010-11-23 Microsoft Corporation Video booklet
US20070283269A1 (en) * 2006-05-31 2007-12-06 Pere Obrador Method and system for onboard camera video editing
US8736535B2 (en) * 2007-03-29 2014-05-27 Nlt Technologies, Ltd. Hold type image display system
WO2009018168A2 (en) * 2007-07-27 2009-02-05 Synergy Sports Technology, Llc Using a website containing video playlists as input to a download manager
EP2114080A1 (en) 2008-04-30 2009-11-04 Thomson Licensing Method for assessing the quality of a distorted version of a frame sequence
US8405691B2 (en) * 2008-09-22 2013-03-26 Rambus Inc. Field sequential color encoding for displays
US8564669B2 (en) * 2009-07-30 2013-10-22 General Instrument Corporation System and method of analyzing video streams for detecting black/snow or freeze
US8639053B2 (en) * 2011-01-18 2014-01-28 Dimension, Inc. Methods and systems for up-scaling a standard definition (SD) video to high definition (HD) quality

Also Published As

Publication number Publication date
US20130156304A1 (en) 2013-06-20
ES2388413A1 (es) 2012-10-15
WO2012001048A1 (en) 2012-01-05
EP2588995A1 (en) 2013-05-08
US8942469B2 (en) 2015-01-27
AR082047A1 (es) 2012-11-07

Similar Documents

Publication Publication Date Title
ES2388413B1 (es) Método para la clasificación de videos.
Moorthy et al. Towards computational models of the visual aesthetic appeal of consumer videos
Ke et al. The design of high-level features for photo quality assessment
Lee et al. Semantic line detection and its applications
ES2731327T3 (es) Método para caracterizar imágenes adquiridas a través de un dispositivo médico de vídeo
Datta et al. Studying aesthetics in photographic images using a computational approach
EP2481025B1 (en) Estimating aesthetic quality of digital images
CN103530638B (zh) 多摄像头下的行人匹配方法
Khan et al. Evaluating visual aesthetics in photographic portraiture
US20150117783A1 (en) Iterative saliency map estimation
US20110074966A1 (en) Method for measuring photographer's aesthetic quality progress
JP2001202522A (ja) 消費者画像の強調及び魅力の自動評価方法
US8213741B2 (en) Method to generate thumbnails for digital images
Guo et al. Assessment model for perceived visual complexity of painting images
Yeh et al. Relative features for photo quality assessment
Simon et al. Scene segmentation using the wisdom of crowds
Redi et al. Bridging the aesthetic gap: The wild beauty of web imagery
Wang et al. Where2stand: A human position recommendation system for souvenir photography
US11222208B2 (en) Portrait image evaluation based on aesthetics
Kuzovkin et al. Image selection in photo albums
Zhang et al. Pulse coupled neural network edge-based algorithm for image text locating
CN108764040A (zh) 一种图像检测方法、终端及计算机存储介质
Jinda-Apiraksa et al. A Keyframe Selection of Lifelog Image Sequences.
Yin et al. Crowdsourced learning to photograph via mobile devices
Kuzovkin et al. Context-aware clustering and assessment of photo collections

Legal Events

Date Code Title Description
FG2A Definitive protection

Ref document number: 2388413

Country of ref document: ES

Kind code of ref document: B1

Effective date: 20130822

FD2A Announcement of lapse in spain

Effective date: 20210915