ES2684690B1

ES2684690B1 - Método para la captura de imágenes desde un dispositivo portable

Info

Publication number: ES2684690B1
Application number: ES201700449A
Authority: ES
Inventors: Gutierrez Felipe Segura; Sandoval Rubén Martinez; Pasquin Antonio Robles
Original assignee: Biyectiva Sl; Biyectiva S L
Current assignee: Biyectiva Sl
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2019-07-10
Anticipated expiration: 2037-03-30
Also published as: ES2684690A1

Description

DESCRIPCIÓN

Método para la captura de imágenes desde un dispositivo portable.

Objeto

La presente invención se refiere a un método para la captura de imágenes desde una cámara de un dispositivo portable que permite crear un puente comunicativo directo entre cualquier pantalla que proyecte un contenido multimedia y cualquier cámara que capture el contenido multimedia en un contexto de realidad cotidiana.

Estado de la técnica

Cualquier reproducción multimedia tal como una película contiene información que puede ser de interés para el espectador. En la mayoría de los casos, el espectador debe atenerse exclusivamente a la información visualizada y sólo en excepciones el contenido multimedia cuenta con referencias tal como hashtags, que permiten acceder a un contenido adicional al mostrado por pantalla.

Hoy en día, el número de espectadores que utilizan una pantalla audiovisual de un dispositivo portable con cámara para visualizar contenidos multimedia aumenta muy rápidamente.

El documento US2012008821 describe un sistema para la captura de contenidos multimedia, visualizados por medio de una pantalla audiovisual, desde una cámara de un teléfono móvil. Este método se basa en la detección de las diferencias de luminosidad existentes entre la pantalla, en la cual se emite el contenido, y el entorno que rodea a la misma pantalla audiovisual; es decir, en medir el contraste de luz entre la pantalla audiovisual y la región periférica de la misma. Si el nivel de contraste no es muy pronunciado, el sistema no es capaz de diferenciar el contenido multimedia del entorno de la pantalla de reproducción.

Sumario

La presente invención busca resolver uno o más de los inconvenientes expuestos anteriormente mediante un método para la captura de imágenes desde una cámara de un dispositivo portable como está definido en las reivindicaciones.

El método comprende las etapas de enfocar la cámara de un dispositivo portable hacia una pantalla audiovisual en la cual se está reproduciendo un contenido multimedia de interés para un usuario del dispositivo portable; captura de al menos una imagen origen del contenido multimedia reproducido desde la cámara del dispositivo portable, la captura de las imágenes origen se realiza de forma continua o discontinua; es decir, las imágenes origen están espaciadas en el tiempo a intervalos regulares o irregulares; el conjunto de imágenes origen son almacenadas en un primer repositorio de almacenamiento del dispositivo portable con el fin de ser transmitidas a través de una primera interfaz de comunicación bidireccional desde el dispositivo portable hacia un servidor de aplicación, el cual recibe la secuencia de imágenes origen capturadas por medio de una segunda interfaz de comunicación bidireccional; las imágenes origen recibidas son enviadas a una unidad procesadora que está conectada a un segundo repositorio el cual almacena un conjunto de contenidos multimedia donde cada contenido multimedia almacenado tiene asociado al menos un contenido multimedia complementario; la unidad procesadora está configurada para llevar a cabo un procedimiento de búsqueda de coincidencia entre el conjunto de imágenes recibidas y contenidos multimedia almacenados en el segundo repositorio; cuando el resultado de la ejecución del procedimiento de búsqueda es positivo; es decir, el conjunto de imágenes recibidas en el servidor de aplicación es coincidente con imágenes de un contenido multimedia almacenado, la unidad procesadora proporciona un enlace a un contenido multimedia complementario asociado al contenido multimedia almacenado; de manera que el enlace suministrado por la unidad procesadora es transmitido desde el servidor de aplicación, vía la segunda interfaz de comunicación, hacia la primera interfaz de comunicación del dispositivo portable. Consecuentemente, el contenido multimedia complementario es puesto a disposición del usuario del dispositivo para su visualización, por ejemplo.

El contenido multimedia complementario está asociado al contenido multimedia reproducido en la pantalla audiovisual de interés para el usuario del dispositivo portable.

Un contenido multimedia almacenado puede tener asociados una pluralidad de contenidos multimedia complementarios asociados cada uno de ellos a un instante de reproducción distinto del contenido multimedia almacenado. Por ejemplo, cada 5 segundos de reproducción de un contenido multimedia almacenado tiene asociado un contenido multimedia complementario distinto.

La pantalla audiovisual en la cual se está reproduciendo un contenido multimedia de interés para un usuario del dispositivo portable puede ser la pantalla de un ordenador portátil, de una televisión o similar. El dispositivo portable puede ser un dispositivo del tipo un ordenador portátil, un netbook, una Tablet, un Smartphone o similar.

El servidor de aplicación ejecuta el programa de búsqueda de coincidencia entre un mensaje de petición, que incluye un conjunto de imágenes capturadas, y contenidos multimedia almacenados en el segundo repositorio, y en caso de encontrar una coincidencia proporciona un enlace a un contenido multimedia complementario. En el procedimiento de captura de imágenes origen, la cámara del dispositivo portable captura imágenes origen que incluyen contenido multimedia reproducido por la pantalla audiovisual y del entorno exterior circundante de la misma pantalla audiovisual.

El dispositivo portable captura y transmite una secuencia de imágenes origen espaciadas temporalmente de forma regular o irregular hacia el servidor de aplicación.

Una vez recibidas las imágenes origen por el servidor de aplicación, la unidad procesadora realiza una etapa de redimensionamiento y alineamiento de las imágenes recibidas, las cuales son escaladas a un tamaño de imagen reducido para disminuir el tiempo de computación de la unidad procesadora del servidor de aplicación.

Seguidamente, la unidad procesadora alinea entre sí las imágenes redimensionadas previamente.

Una vez que las imágenes recibidas han sido redimensionadas y alineadas, la unidad procesadora ejecuta una etapa de análisis de luminosidad para determinar el nivel de luminosidad de las imágenes alineadas, con el objetivo de determinar las condiciones lumínicas de la imagen alineada con el fin de determinar que porción de la imagen corresponde a la pantalla audiovisual y que porción de la imagen corresponde al entorno circundante a la misma pantalla, en el momento de la captura de las imágenes origen.

Consecuentemente, en esta etapa se identifica, de entre todos los elementos que componen la imagen alineada, la porción de imagen que corresponde a la pantalla; a saber, región de interés, ROI. La porción de imagen distinta de la región de interés corresponde a la región potencialmente de no pantalla, RNP.

La unidad procesadora determina la región de interés ROI mediante la detección de cambios bruscos en el nivel de luminosidad RGB presentes en cada imagen alineada. Si la evaluación de la luminosidad, nivel RGB, en la región potencialmente no pantalla RNP de las imágenes es homogénea y está por debajo de un predeterminado primer umbral ThresholdRGB, la región de interés ROI quedará delimitada por la geometría marcada por el fuerte contraste existente en cada una de las imágenes alineadas.

Si el resultado del procedimiento anterior no es satisfactorio; es decir, no es posible definir la región de interés a partir del nivel de luminosidad; la unidad procesadora ejecuta un procedimiento de detección de movimiento, para lo cual la unidad procesadora identifica qué puntos de la imagen alineada se han movido como respuesta a una vibración del dispositivo portable en el momento de la captura de la imagen origen, por ejemplo, frente a los puntos de la imagen alineada se han movido por cambios entre la secuencia de imágenes alineadas; es decir, por cambios naturales presentes en un contenido multimedia. El resultado de este procedimiento es poder determinar la región de interés ROI, que corresponderá a la porción de pantalla estudiando el análisis de movimiento de las características de la imagen.

Una vez ha sido delimitada la región de interés de las imágenes alineadas por el procedimiento de detección de movimiento, la unidad procesadora ejecuta un procedimiento de detección de posibles marcos donde se determina el cuadrilátero que optimice la superficie ocupada por la pantalla mediante el estudio geométrico de la imagen.

Una vez finalizado el procedimiento de detección de posibles marcos, la unidad procesadora ejecuta un procedimiento de homogeneización cuyo objetivo es el de complementar las conclusiones extraídas del procedimiento de detección de posibles marcos, proporcionando una reevaluación de todas las regiones de interés obtenidas por el procedimiento de detección de posibles marcos.

Finalmente, la unidad procesadora ejecuta un procedimiento de unificación que combina los resultados de los procedimientos anteriores y que suministra como resultado la región de interés objetivo; es decir, define una solución única de entre todas las posibles regiones de interés ROI.

Una vez ha sido establecida la región de interés ROI, la unidad procesadora extrae de las imágenes origen capturadas con el dispositivo portable aquella región correspondiente al ROI, para ejecutar el procedimiento de búsqueda de coincidencia entre las anteriores imágenes y los contenidos multimedia almacenados en el segundo repositorio.

El procedimiento de búsqueda de coincidencia se basa en un método de reconocimiento de imágenes dentro de una base de datos mediante una arquitectura de detección de imágenes compuesta por la suma de los métodos SURF (“Speeded- Up Robust Features"), BOWV (“Bags of Visual Words”) y complementada con los resultados ofrecidos por tf-idf (“Term frequency -Inverse document frequency”).

El resultado de la búsqueda es afirmativo cuando existe en el segundo repositorio un contenido multimedia asociado al contenido de la región de interés delimitada anteriormente, teniendo el contenido multimedia asociado un contenido multimedia complementario que puede ser proporcionado al usuario.

Este procedimiento de búsqueda de coincidencias incluye tres etapas:

Etapa SURF: permite describir una imagen en términos numéricos y permite localizar dentro de cada imagen puntos relevantes objetivo tal como aristas, salientes o esquinas.

Una vez encontrados los puntos relevantes; a saber, puntos característicos de la imagen se procede a describirlos matemáticamente. Esta descripción es independiente a ciertas transformaciones como son distorsiones producidas por cambios de ratio de las pantallas o el suavizado que se produce en la imagen origen cuando la captura ha sido realizada a distancia.

Los puntos característicos encontrados son tratados en función de la distancia de los mismos al centro de la región de interés ROI. Todos los puntos característicos dentro de la región de interés son tomados en su totalidad. El resto de los puntos característicos, que se encuentren en una región perimetral de la región de interés, son descartados según lo que se acerquen al perímetro.

Etapa BOVW: Cuando la imagen ha sido descrita y caracterizada mediante el algoritmo SURF, las características generadas por la etapa SURF entran en una fase de procesamiento basada en un algoritmo BOVW, que permite agrupar los puntos característicos del algoritmo SURF en un histograma de palabras visuales. Normalmente, los histogramas son comparados mediante una medida de disimilitud que suele ser implementada en términos de una distancia matemática tal como distancia euclídea, distancia coseno o similar. En esta etapa la comparación entre ambos histogramas considera además la frecuencia de aparición de palabras visuales parecidas, mejorando los resultados ante posibles distorsiones en la toma de imágenes.

Para ello, es necesario un reajuste de las frecuencias de aparición de cada una de las palabras visuales en el histograma obtenido en el método BOWV. Esto es, una vez computado el histograma BOVW, cada valor de éste, que representa la frecuencia de aparición de la palabra visual correspondiente, se re-ponderará de acuerdo a la siguiente fórmula:

^BOVW _i ^BOVW _J ^{* A} £ ^N ( d (W - ^Wj )) *B

_iJi

Donde BOVWi es el valor de la palabra visual i (valor i-ésimo del histograma), N (•) representa el valor de la función de probabilidad gaussiana de media 0 y variancia a , d(Wi, Wj) representa la distancia, por ejemplo, por ejemplo euclídea, entre las palabras visuales i-ésima y j-ésima, y |||| es la norma L1.

Los términos A y B son términos de peso que ajustan el impacto que tienen las palabras visuales parecidas en la re-evaluación. A+B siempre es 1. Valores normales de A y B podrían ser A=0.8 y B=0.2.

Así, la reponderación considera que los valores en el histograma BOVW de las palabras visuales parecidas a la palabra i - entendiendo parecidas como aquellas que presentan una menor distancia - deben modificar el valor en el histograma BOVW del término i.

El procedimiento de búsqueda en el segundo repositorio evita redundancias. Es decir, si las diferencias entre imágenes alineadas son reducidas, se compara una imagen con los contenidos multimedia del segundo repositorio. Por ejemplo, en una escena estática de un contenido multimedia se analizan imágenes iguales entre sí. Si no sólo aquellas imágenes que aportan información útil.

Etapa tf-idf: la aplicación de tf-idf permite reevaluar cómo de relevante es una palabra visual dentro del conjunto de palabras consideradas por el método BOVW. Así, determinadas palabras aportan una mayor información que otras, por su rareza global, y deben ser tenidas más en cuenta. La etapa tf-idf se aplicará antes la etapa de reponderación del histograma BOVW.

Al terminar la etapa BOVW, se proporciona una imagen caracterizada por un histograma creado a partir de los descriptores de la misma. Estos histogramas representan la frecuencia con que las palabras visuales del vocabulario aparecen en la imagen bajo análisis. Así, la manera de encontrar una imagen alineada en el segundo repositorio se lleva a cabo mediante la comparación del histograma de la imagen analizada con los histogramas incluidos dentro del segundo repositorio.

Si el resultado de la comparación es afirmativo, el servidor de aplicación suministra un enlace a un contenido multimedia complementario al usuario del dispositivo portable.

Este enlace puede suministrar además de contenido multimedia, una orden de apertura de una aplicación móvil, unas coordenadas gps, un hipervínculo o una orden de compra.

Además, el contenido multimedia complementario puede ser editado antes de ser, proporcionado al usuario en función de la localización del usuario, del perfil del mismo o según sea la temporización de la emisión del contenido multimedia origen. Por lo tanto, un mismo contenido multimedia almacenado puede dar origen a una pluralidad de diferentes contenidos multimedia complementarios.

Este método, por último, identifica regiones parciales dentro de la región de interés delimitada lo que permite reconocer contenidos multimedia sin necesidad de delimitar con total precisión la región de interés ROI.

Breve descripción de los dibujos

Una explicación más detallada se da en la descripción que sigue y que se basa en las figuras adjuntas.

La figura 1 muestra en un esquema la captura de imágenes desde una cámara de un dispositivo portable.

La figura 2 muestra en un esquema una pluralidad de regiones de interés para una secuencia de dos imágenes origen.

La figura 3 muestra en un esquema de la región de interés ROI la disposición de una región potencialmente pantalla RPP y la región potencialmente no pantalla RNP.

La figura 4 representa las regiones de interés ROI para una secuencia de imágenes origen capturadas por la cámara del dispositivo portable.

La figura 5 muestra el flujo lógico en diagrama de bloques del camino seguido en el procedimiento de toma de la muestra, redimensionamiento, alineamiento y análisis de luminosidad.

La figura 6 muestra el flujo lógico en diagrama de bloques del camino seguido en la primera fase del procedimiento de detección de movimiento.

La figura 7 muestra en un esquema la división de la región de interés ROI en cuatro cuadrantes.

La figura 8 muestra el flujo lógico en diagrama de bloques del camino seguido en la segunda fase del procedimiento de detección de movimiento.

La figura 9 muestra el flujo lógico en diagrama de bloques del camino seguido en el procedimiento de detección de posibles marcos.

La figura 10 muestra el flujo lógico en diagrama de bloques del camino seguido en el procedimiento de homogeneización.

La figura 11 muestra el flujo lógico en diagrama de bloques del camino seguido en el procedimiento de unificación.

La figura 12 muestra para el procedimiento de búsqueda de coincidencia el tratamiento de los puntos característicos de la imagen en función de su distancia al centro de la misma.

La figura 13 representa un ejemplo de aplicación de la presente invención.

Descripción

En relación con la figura 1, un usuario visualiza en una pantalla audiovisual 13 un contenido multimedia y toma la decisión de capturar al menos una imagen origen 14 de la pantalla 13 con la cámara 12 de un dispositivo portable 11.

La secuencia de imágenes origen 14 capturadas son almacenadas en un primer repositorio del dispositivo portable 11, el cual comprende una primera interfaz de comunicación bidireccional por medio de la cual la secuencia de imágenes origen 14 son transmitidas hacia un servidor de aplicación 15 que recibe las imágenes capturadas por medio de una segunda interfaz de comunicación.

El servidor de aplicación 15 comprende una unidad procesadora conectada a la segunda interfaz de comunicación bidireccional y a un segundo repositorio el cual almacena contenidos multimedia y contenidos multimedia complementarios asociados a los contenidos multimedia almacenados.

El contenido multimedia ha sido almacenado mediante su histograma de palabras visuales, de manera que las imágenes origen 14 puedan compararse con el contenido multimedia almacenado en el repositorio del servidor de aplicación 15 pero no pueden ser visualizados a través de una pantalla de visualización 13.

La unidad procesadora ejecuta un procedimiento de búsqueda de una coincidencia entre las imágenes recibidas y los contenidos multimedia almacenados en el segundo repositorio; si el resultado de la búsqueda es afirmativo; es decir, existe una coincidencia, la unidad procesadora proporciona un enlace a un contenido multimedia complementario relativo al contenido multimedia coincidente con las imágenes recibidas. El servidor de aplicación 15 transmite el enlace proporcionado al dispositivo portable 11 por medio de la segunda interfaz de comunicación.

El usuario puede acceder al contenido multimedia complementario a través del enlace recibido en el dispositivo portable 11. El contenido multimedia complementario está asociado al contenido multimedia visualizado en la pantalla audiovisual 13.

En relación ahora con las figuras 2 y 3, la unidad procesadora del servidor de aplicación determina la región de interés ROI, mostrada en la figura como una región rayada, para cada imagen alineada en el servidor de aplicación 15. Cada una de las imágenes capturadas por la cámara 12 del dispositivo portable 11 incluye la pantalla audiovisual 13 y otros elementos dispuestos en la zona donde se haya localizada la pantalla 13.

La región de interés de la imagen se refiere a la porción de la imagen relativa a la pantalla 13. En el ejemplo mostrado en la figura 2, dos imágenes alineadas I1, I2 relativas a imágenes origen son analizadas para extraer sus respectivas zonas de interés ROI, RO2 respectivamente.

La región de interés ROI para cada imagen alineada se divide en una región potencialmente no pantalla RNP y una región potencialmente pantalla RPP, donde la región potencialmente pantalla RPP es aquella zona de la imagen alineada en cuyo interior se encuentra la pantalla audiovisual 13 con seguridad. La región potencialmente no pantalla RNP es aquella zona de la imagen alineada que no contempla ninguna parte de pantalla con seguridad.

Esta consideración toma en cuenta el hecho de que al ser el usuario quien oriente el dispositivo portable 11 hacia la pantalla 13, no se puede garantizar que la secuencia de imágenes capturadas 14 se ajuste a la perfección a la extensión de la pantalla 13.

En relación con la figura 4 donde las imágenes origen 14 representa una secuencia de imágenes capturadas por la cámara 12 del dispositivo 11. En la nomenclatura utilizada se numera la secuencia de imágenes origen como F0, F1, F2... Fn, Fn+1. Siendo F0 la primera imagen origen de la secuencia capturada por el dispositivo portable 11.

En la figura 4 para cada imagen alineada ya se ha extraído la respectiva región de interés ROI; estableciendo para la primera imagen alineada cero F0 la región de interés ROI1, para la imagen alineada uno F1 la región de interés ROI2, respectivamente, y así sucesivamente para la secuencia completa de imágenes alineadas.

En relación ahora con la figura 5, se muestra en un diagrama de bloques funcional parcial la ejecución del procedimiento de toma de la muestra, redimensionamiento, alineamiento y análisis de luminosidad donde se requiere el estudio de las condiciones lumínicas exteriores, que rodean a la pantalla audiovisual 13.

En un primer momento, las imágenes origen 14 que van siendo capturadas por el dispositivo 11 se escalan a menor tamaño. Este redimensionamiento se realiza para reducir el tiempo de cómputo de la unidad de procesamiento del servidor 15.

En segundo lugar, las imágenes que ya han sido redimensionadas se van alineando. Esto permite conseguir similares condiciones geométricas entre imágenes para mejorar los resultados. El trabajo de redimensionado se realiza imagen a imagen, secuencialmente, según sean capturadas las imágenes origen por el dispositivo 11. En la etapa de alineamiento, también secuencial, cada imagen Fi es alineada con la primera de la secuencia F0.

Una vez que las imágenes han sido redimensionadas y alineadas, se analiza el nivel de luminosidad de la región potencialmente no pantalla RNP con el objetivo de determinar las condiciones lumínicas que rodean la pantalla audiovisual 13, que muestra el contenido multimedia de interés para el usuario.

Se considerará que el dispositivo 11 está apuntando a la pantalla 13 en condiciones nocturnas o de oscuridad cuando el nivel luminosidad en la región potencialmente no pantalla RNP no supere un predeterminado primer valor umbral ThresholdRGB; siendo el umbral ThresholdRGB el impuesto por valores de luminosidad más reducidos. Por ejemplo, R=25, G= 25, B=25.

En relación ahora con la figura 6, se muestra en un diagrama de bloques funcional parcial la ejecución del procedimiento de detección de movimiento.

En un primer momento se realiza un análisis de las características visuales de la primera imagen alineada F0 en la región no pantalla RNP y la busca en la adyacente F1. Este camino es secuencial, de forma que la característica encontrada en la imagen n, Fn se buscará en la región no pantalla RNP de la imagen n+1, Fn+1.

Una vez analizado el movimiento de todas las características de la región no pantalla RNP y almacenadas con una función de probabilidad en el segundo repositorio; por ejemplo, con una función Gaussiana se modela el movimiento de todas las imágenes en ejes cartesianos. Para el modelado de este movimiento se usa el método de máxima verosimilitud MLE.

Una vez modelado el movimiento de todas las características de la región no pantalla RNP mediante el método MLE en los dos ejes de coordenadas cartesianos, se procede a encontrar las características de la imagen n en la región potencialmente pantalla RPP para luego buscarlas en la imagen n+1.

Con el movimiento de las características de la región potencialmente pantalla RPP analizadas, se comparan los resultados con el modelo MLE del movimiento de la región no pantalla RNP. Para identificar si el movimiento de un punto característico de la región potencialmente pantalla RPP corresponde al movimiento del contenido multimedia mostrado por pantalla 13, es necesario estudiar la probabilidad que tiene ese punto de encajar su movimiento dentro de los modelos de la etapa anterior, referente a la región no pantalla RNP. La fórmula que mide esta probabilidad queda definida como:

P t = P x * P y

Siendo Px la probabilidad de que el movimiento en el eje horizontal x del punto de RPP analizado, pueda ser modelado mediante los parámetros del modelo de la etapa anterior para el movimiento de la región no pantalla RNP en el eje x.

Siendo Py la probabilidad de que el movimiento en el eje vertical y del punto de la región potencialmente pantalla RPP analizado, pueda ser modelado mediante los parámetros del modelo de la etapa anterior para el movimiento de la región no pantalla RNP en el eje y.

Si la probabilidad obtenida para cada punto Pt es menor que un predeterminado segundo valor umbral Threshold2, se almacena como punto potencialmente pantalla PPP en una imagen buffer dentro del repositorio del servidor de aplicación 15.

Si Pt > Threshold2 se descarta que ese punto sea parte del contenido multimedia mostrado por la pantalla 13.

La figura 7 muestra la división de la región de interés ROI en cuatro cuadrantes 1 a 4.

En relación ahora con la figura 8, se muestra en un diagrama de bloques funcional parcial la segunda fase del procedimiento de detección de movimiento donde se divide cada imagen buffer, resultado de almacenar la nube de puntos obtenidos en la primera fase del procedimiento de detección de movimiento en cuatro cuadrantes, figuras 6 y 7. Cada cuadrante debe ser transformado para conseguir que el sistema de referencia sea el mismo para todos ellos.

Dispuesta la imagen buffer correctamente, se computa la imagen integral I; que acumula los puntos PPP desde el origen de coordenadas hacia las esquinas para cada cuadrante. Con la imagen integral calculada, se computa la matriz distancia D que determina cómo de alejado se encuentra un punto PPP desde el centro de la imagen.

Ya obtenidas las relaciones anteriores, se procede a obtener la matriz relación R; siendo R=l/D, cuyos valores máximos ofrecen, para cada cuadrante, los puntos que se estiman como esquina de pantalla. Pues el valor máximo para cada cuadrante refleja el punto que presenta la mayor relación entre un mayor número de puntos PPP y una menor distancia al origen de coordenadas.

Con esos cuatro puntos definidos, uno por cuadrante, se computa el rectángulo que estima la región pantalla.

En relación ahora con la figura 9, se muestra en un diagrama de bloques funcional el camino seguido en el procedimiento de detección de posibles marcos donde se pretende obtener el cuadrilátero que optimice la superficie ocupada por la pantalla mediante el estudio geométrico de la imagen. Para ello, se calcula el histograma de gradientes orientados de la imagen HOG sobre la región potencialmente pantalla RPP y se divide la misma en cuatro cuadrantes.

El objetivo del procedimiento anterior es evaluar, para cada cuadrante, cual es el punto del mapa HOG que tiene una mayor probabilidad de caer sobre una cruceta. Esto significa, el punto que tiene una mayor probabilidad de caer sobre una línea predominantemente horizontal y una línea predominantemente vertical al mismo tiempo. Pues el punto que tenga mayor probabilidad cruzada será aquel que tenga mayor probabilidad de representar una esquina de la pantalla.

El primer paso es obtener, para cada punto del cuadrante HOG, la probabilidad de que el punto se encuentre sobre una línea horizontal Ph y la probabilidad de que el punto se encuentre sobre una línea vertical Pv y desde ahí obtener una matriz Pcruceta como:

P cruceta = P h P v

Siendo Ph para cada punto, la probabilidad acumulada sobre su horizontal de estar situado en una línea recta de dirección horizontal.

Siendo Pv para cada punto, la probabilidad acumulada sobre su vertical de estar situado en una línea recta de dirección vertical.

En un segundo paso, calculamos para cada cuadrante la correlación estadística de la matriz Pcruceta con sus cuadrantes adyacentes. Para ello a los valores de la matriz de cada cuadrante le sumamos el valor máximo, por fila, de su matriz adyacente horizontal. Y le sumamos el valor máximo, por columna, de su matriz adyacente en vertical.

De esta correlación estadística se obtiene una matriz correlada Pc que fortalece la coherencia geométrica entre los resultados de cada cuadrante, y favorece que los puntos obtenidos como potenciales esquinas en cada cuadrante estén relacionados con su cuadrante adyacente.

Una vez que hemos obtenido la matriz correlada para cada cuadrante, se computa la matriz distancia D. Que determina cómo de alejado se encuentra cada punto HOG del centro de la P

imagen. Y se opera para conseguir una matriz relación R, siendo R = .

De esta matriz se toman, para cada cuadrante, los Z puntos de mayor valor. Cada uno de estos puntos representa, el punto que mayor probabilidad tiene de ser esquina de la pantalla.

Para cada cuadrante, los Z puntos que presente mayor valor en la matriz R, se agrupan en M subconjuntos: agrupando los puntos que estén cercanos y analizando como centroide el punto con mayor valor de la agrupación en la matriz R. Uniendo los M centroides de cada uno de los cuatro cuadrantes entre sí estimamos un número N de cuadriláteros, donde N es igual a M4. Este procedimiento de agrupación se realiza para reducir el tiempo de cómputo; agrupar por conjuntos reduce el número de puntos a evaluar, dado que M4 es siempre menor o igual que Z4, es decir, M<Z.

En una etapa posterior, los cuadriláteros resultantes se reevalúan. Dándole mayor valor a aquellos que tengan sus esquinas mejor alineadas y a aquellos que presenten una relación -ratio- más próxima 16:9. Pues esta relación es la más común para las pantallas actuales.

Una vez reevaluado cada cuadrilátero, se seleccionan del total de ellos, los N’ cuadriláteros que presenten mayor probabilidad de representar la ROI. De esta etapa se desprenden N’ soluciones por imagen.

La figura 10 muestra el flujo lógico en diagrama de bloques funcional del camino seguido en el procedimiento de homogeneización siendo el propósito de este procedimiento el de complementar las conclusiones extraídas de la etapa anterior, ver Figura 9, ofreciendo una reevaluación de los N’ cuadriláteros obtenidos en cada imagen. En la primera fase, cada imagen alineada es procesada para detectar bordes característicos. Este procedimiento, que se lleva a cabo en escala de grises, permite estudiar si las líneas del cuadrilátero coinciden con un borde. Una vez realizado esta etapa, se analiza la varianza de la intensidad de la imagen a lo largo de cada línea del cuadrilátero, potencial borde de pantalla, y se registran los resultados.

Usando los resultados anteriores como métricas, se pondera cada cuadrilátero y se devuelven los N’ cuadriláteros con las puntuaciones reevaluadas de acuerdo a:

- El valor de la varianza. Cuanto menor sea la varianza a lo largo de las líneas del cuadrilátero, mayor será la reevaluación del mismo, pues un marco de pantalla suele tener colores sólidos y homogéneos con poca varianza en la intensidad.

- El nivel de alineamiento entre el borde detectado y las líneas del cuadrilátero. Si los bordes característicos detectados para la imagen coinciden con las líneas detectadas para el cuadrilátero los resultados de la reevaluación mejorarán para éste. Pues la probabilidad de que un cuadrilátero represente un marco de pantalla aumenta si sus líneas coinciden con bordes característicos detectados en la imagen.

La figura 11 muestra el flujo lógico en un diagrama de bloques del camino seguido en el procedimiento de unificación de los resultados que ofrece el procedimiento de detección de posibles marcos, Figura 9, y de homogeneidad, figura 10, se seleccionan sólo aquellos cuadriláteros que contengan el rectángulo ofrecido por el procedimiento de detección de movimiento, Figura 6 y 8, con un error máximo de un porcentaje P de las dimensiones de la imagen alineada.

Una vez filtrado este paso, se reevalúa la puntuación de cada uno de los cuadriláteros seleccionados, dándole una mayor puntuación a aquellos que se encuentren más cerca del rectángulo ofrecido por el procedimiento de detección de movimiento. A continuación, se almacena el cuadrilátero con mayor puntuación para cada uno de los fotogramas.

Ahora, para cada imagen, se obtiene el punto de esquina del rectángulo en cada cuadrante. Y de entre todas las esquinas de cada cuadrante, se seleccionan aquellas que sean más cercanas al centro de la imagen. Finalmente, ya con las esquinas definidas para cada cuadrante, definimos la región de interés ROI.

La figura 12 muestra como las características encontradas para cada región de interés ROI de las imágenes alineadas son tratadas dependiendo de lo lejos que éstas se encuentren del centro de la región de interés ROI. Las características identificadas en la región interior de la imagen son tomadas en su totalidad. Y las características que se encuentren en una región perimetral de la imagen son descartadas según lo que se acerquen al perímetro. Esta tendencia de descarte en el perímetro externo de la región de interés ROI es lineal y se realiza de forma que para el borde de la imagen ninguna característica sea evaluada. La gráfica de la izquierda muestra, porcentualmente, el número de características evaluadas en relación al ancho de la región de interés ROI. La gráfica de la derecha muestra, porcentualmente, el número de características evaluadas en relación al alto de la región de interés ROI.

La figura 13 muestra un ejemplo de sistema que ejecuta el método para la captura de imágenes desde una cámara 12 de un dispositivo portable 11 de una pantalla audiovisual 13 en la cual se reproduce un contenido multimedia de interés para un usuario del dispositivo portable 11.

Claims

REIVINDICACIONES

1. Un método para la captura de imágenes desde una cámara (12) de un dispositivo portable (11) de una pantalla audiovisual (13) en la cual se reproduce un contenido multimedia de interés para un usuario del dispositivo portable (11); caracterizado porque el método comprende las etapas de capturar, por medio de al menos una cámara (12), de al menos una imagen origen (14) de la pantalla audiovisual (13); almacenamiento, en un primer repositorio del dispositivo portable (11), de la pluralidad de imágenes origen (14); transmisión, a través de una primera interfaz de comunicaciones bidireccionales, de las imágenes origen (14) hacia un servidor de aplicación; recepción, por medio de una segunda interfaz de comunicación bidireccional incluida en el servidor de aplicación, de las imágenes origen (14); envío de las imágenes recibidas a una unidad procesadora conectable a un segundo repositorio, el cual almacena un conjunto de contenidos multimedia donde cada contenido multimedia almacenado tiene asociado al menos un contenido multimedia complementario; realización de una búsqueda de coincidencia, por medio de la unidad procesadora, entre el conjunto de imágenes recibidas y los contenidos multimedia almacenados en el segundo repositorio; proporciona un enlace a un contenido multimedia complementario asociado al contenido multimedia almacenado, por medio de la unidad procesadora, en caso de que el resultado del procedimiento de búsqueda es afirmativo; transmisión del enlace proporcionado desde la segunda interfaz de comunicación hacia la primera interfaz de comunicación; y suministro del enlace al usuario del dispositivo portable (11) para su visualización.

2. Método de acuerdo a la reivindicación 1; caracterizado porque la captura de las imágenes origen se realiza de forma continua o discontinua; estando espaciadas en el tiempo a intervalos regulares o irregulares.

3. Método de acuerdo a la reivindicación 1; caracterizado porque el contenido multimedia almacenado tiene asociado al menos un contenido multimedia complementario.

4. Método de acuerdo a la reivindicación 2; caracterizado porque el contenido multimedia complementario es editable en función de la localización del usuario, del perfil del mismo y de la temporización de la emisión del contenido multimedia origen.

5. Método de acuerdo a la reivindicación 1; caracterizado porque la etapa de búsqueda de coincidencia comprende realizar una medida del nivel de luminosidad de las imágenes recibidas.

6. Método de acuerdo a la reivindicación 5; caracterizado porque la etapa de búsqueda de coincidencia comprende redimensionar y alinear las imágenes recibidas con la primera imagen recibida.

7. Método de acuerdo a la reivindicación 6; caracterizado porque la etapa de búsqueda de coincidencia comprende la detección de la región pantalla (ROI) para las imágenes alineadas.

8. Método de acuerdo a la reivindicación 6; caracterizado porque la etapa de búsqueda de coincidencia comprende un procedimiento de detección de movimiento basado en la obtención de un rectángulo de máxima superficie definido por los puntos esquina.

9. Método de acuerdo a la reivindicación 8; caracterizado porque el procedimiento de detección de movimiento define los puntos esquina del rectángulo de máxima superficie a partir de una nube de puntos resultante de evaluar para cada imagen alineada el movimiento de sus características o descriptores.

10. Método de acuerdo a la reivindicación 9; caracterizado porque la detección de las esquinas, de entre toda la nube de puntos, coincide con aquellos puntos que tengan mayor valor en la relación obtenida de dividir una matriz imagen integral (I) entre una matriz distancia (D) para cada una de las imágenes alineadas.

11. Método de acuerdo a la reivindicación 10; caracterizado porque la etapa de detección de las esquinas se divide la imagen alineada en cuatro cuadrantes e identifica la esquina como el valor máximo, para cada cuadrante, de la matriz relación obtenida de dividir la matriz imagen integral (I) entre la matriz distancia (D).

12. Método de acuerdo a la reivindicación 6; caracterizado porque la etapa de búsqueda de coincidencias comprende un procedimiento de detección de posibles marcos en función de la identificación geométrica de elementos similares a un marco de pantalla, dentro de cada imagen alineada.

13. Método de acuerdo a la reivindicación 12; caracterizado porque la identificación geométrica de elementos similares a un marco de pantalla se basa en la evaluación los resultados de una matriz que computa, para cada punto de la imagen, la probabilidad acumulada de ser esquina en función de la distancia al centro de la imagen alineada.

14. Método de acuerdo a la reivindicación 13; caracterizado porque la probabilidad acumulada para cada punto de la imagen queda definida a partir de la evaluación de las orientaciones HOG para cada una de las líneas, horizontal y vertical, en las que se encuentra el punto.

15. Método de acuerdo a la reivindicación 14; caracterizado porque los resultados de la matriz se reevalúan en función de lo alineados que se encuentren sus lados y lo cerca que se encuentren de la relación 16:9.

16. Método de acuerdo a la reivindicación 6; caracterizado porque la etapa de búsqueda de coincidencia comprende un procedimiento de homogeneización que reinterpreta los resultados obtenidos por el procedimiento de detección de posibles marcos.

17. Método de acuerdo a la reivindicación 16; caracterizado porque el resultado obtenido por el procedimiento de homogeneización se reevalúa positivamente si la intensidad de color a lo largo de líneas de marco es homogénea.

18. Método de acuerdo a la reivindicación 16; caracterizado porque el resultado obtenido para el procedimiento de homogeneización se reevalúa positivamente si la línea de marco detectado recae sobre un borde de la imagen.

19. Método de acuerdo a la reivindicación 6; caracterizado porque la etapa de búsqueda de coincidencias comprende un procedimiento de unificación que permite obtener una solución común y unificada para los resultados del procedimiento de detección de movimiento y de detección de posibles marcos y homogeneización.

20. Método de acuerdo a la reivindicación 19; caracterizado porque la selección de la solución única comprende la obtención de un cuadrilátero final que depende de la cercanía de resultados de la etapa de detección de movimiento y de posibles marcos y homogeneidad.

21. Método de acuerdo a la reivindicación 9; caracterizado porque la evaluación de los descriptores encontrados en la región de interés (ROI) basada en un descarte lineal de descriptores de la periferia, en función de la distancia de los descriptores a la periferia de la región de interés (ROI).

22. Método de acuerdo a la reivindicación 1; caracterizado porque la búsqueda de coincidencia comprende la comparación entre histogramas de palabras visuales en función de la frecuencia de aparición de palabras visuales parecidas.