DESCRIPCIÓN
Método para la captura de imágenes desde un dispositivo portable.
Objeto 5
La presente invención se refiere a un método para la captura de imágenes desde una cámara de un dispositivo portable que permite crear un puente comunicativo directo entre cualquier pantalla que proyecte un contenido multimedia y cualquier cámara que capture el contenido multimedia en un contexto de realidad cotidiana. 10
Estado de la técnica
Cualquier reproducción multimedia tal como una película contiene información que puede ser de interés para el espectador. En la mayoría de los casos, el espectador debe atenerse 15 exclusivamente a la información visualizada y sólo en excepciones el contenido multimedia cuenta con referencias tal como hashtags, que permiten acceder a un contenido adicional al mostrado por pantalla.
Hoy en día, el número de espectadores que utilizan una pantalla audiovisual de un dispositivo 20 portable con cámara para visualizar contenidos multimedia aumenta muy rápidamente.
El documento US2012008821 describe un sistema para la captura de contenidos multimedia, visualizados por medio de una pantalla audiovisual, desde una cámara de un teléfono móvil. Este método se basa en la detección de las diferencias de luminosidad existentes entre la 25 pantalla, en la cual se emite el contenido, y el entorno que rodea a la misma pantalla audiovisual; es decir, en medir el contraste de luz entre la pantalla audiovisual y la región periférica de la misma. Si el nivel de contraste no es muy pronunciado, el sistema no es capaz de diferenciar el contenido multimedia del entorno de la pantalla de reproducción.
30
Sumario
La presente invención busca resolver uno o más de los inconvenientes expuestos anteriormente mediante un método para la captura de imágenes desde una cámara de un dispositivo portable como está definido en las reivindicaciones. 35
El método comprende las etapas de enfocar la cámara de un dispositivo portable hacia una pantalla audiovisual en la cual se está reproduciendo un contenido multimedia de interés para un usuario del dispositivo portable; captura de al menos una imagen origen del contenido multimedia reproducido desde la cámara del dispositivo portable, la captura de las imágenes 40 origen se realiza de forma continua o discontinua; es decir, las imágenes origen están espaciadas en el tiempo a intervalos regulares o irregulares; el conjunto de imágenes origen son almacenadas en un primer repositorio de almacenamiento del dispositivo portable con el fin de ser transmitidas a través de una primera interfaz de comunicación bidireccional desde el dispositivo portable hacia un servidor de aplicación, el cual recibe la secuencia de imágenes 45 origen capturadas por medio de una segunda interfaz de comunicación bidireccional; las imágenes origen recibidas son enviadas a una unidad procesadora que está conectada a un segundo repositorio el cual almacena un conjunto de contenidos multimedia donde cada contenido multimedia almacenado tiene asociado al menos un contenido multimedia complementario; la unidad procesadora está configurada para llevar a cabo un procedimiento 50 de búsqueda de coincidencia entre el conjunto de imágenes recibidas y contenidos multimedia almacenados en el segundo repositorio; cuando el resultado de la ejecución del procedimiento de búsqueda es positivo; es decir, el conjunto de imágenes recibidas en el servidor de aplicación es coincidente con imágenes de un contenido multimedia almacenado, la unidad
procesadora proporciona un enlace a un contenido multimedia complementario asociado al contenido multimedia almacenado; de manera que el enlace suministrado por la unidad procesadora es transmitido desde el servidor de aplicación, vía la segunda interfaz de comunicación, hacia la primera interfaz de comunicación del dispositivo portable. Consecuentemente, el contenido multimedia complementario es puesto a disposición del 5 usuario del dispositivo para su visualización, por ejemplo.
El contenido multimedia complementario está asociado al contenido multimedia reproducido en la pantalla audiovisual de interés para el usuario del dispositivo portable.
10
Un contenido multimedia almacenado puede tener asociados una pluralidad de contenidos multimedia complementarios asociados cada uno de ellos a un instante de reproducción distinto del contenido multimedia almacenado. Por ejemplo, cada 5 segundos de reproducción de un contenido multimedia almacenado tiene asociado un contenido multimedia complementario distinto. 15
La pantalla audiovisual en la cual se está reproduciendo un contenido multimedia de interés para un usuario del dispositivo portable puede ser la pantalla de un ordenador portátil, de una televisión o similar. El dispositivo portable puede ser un dispositivo del tipo un ordenador portátil, un netbook, una Tablet, un Smartphone o similar. 20
El servidor de aplicación ejecuta el programa de búsqueda de coincidencia entre un mensaje de petición, que incluye un conjunto de imágenes capturadas, y contenidos multimedia almacenados en el segundo repositorio, y en caso de encontrar una coincidencia proporciona un enlace a un contenido multimedia complementario. En el procedimiento de captura de 25 imágenes origen, la cámara del dispositivo portable captura imágenes origen que incluyen contenido multimedia reproducido por la pantalla audiovisual y del entorno exterior circundante de la misma pantalla audiovisual.
El dispositivo portable captura y transmite una secuencia de imágenes origen espaciadas 30 temporalmente de forma regular o irregular hacia el servidor de aplicación.
Una vez recibidas las imágenes origen por el servidor de aplicación, la unidad procesadora realiza una etapa de redimensionamiento y alineamiento de las imágenes recibidas, las cuales son escaladas a un tamaño de imagen reducido para disminuir el tiempo de computación de la 35 unidad procesadora del servidor de aplicación.
Seguidamente, la unidad procesadora alinea entre sí las imágenes redimensionadas previamente.
40
Una vez que las imágenes recibidas han sido redimensionadas y alineadas, la unidad procesadora ejecuta una etapa de análisis de luminosidad para determinar el nivel de luminosidad de las imágenes alineadas, con el objetivo de determinar las condiciones lumínicas de la imagen alineada con el fin de determinar que porción de la imagen corresponde a la pantalla audiovisual y que porción de la imagen corresponde al entorno circundante a la misma 45 pantalla, en el momento de la captura de las imágenes origen.
Consecuentemente, en esta etapa se identifica, de entre todos los elementos que componen la imagen alineada, la porción de imagen que corresponde a la pantalla; a saber, región de interés, ROI. La porción de imagen distinta de la región de interés corresponde a la región 50 potencialmente de no pantalla, RNP.
La unidad procesadora determina la región de interés ROI mediante la detección de cambios bruscos en el nivel de luminosidad RGB presentes en cada imagen alineada. Si la evaluación
de la luminosidad, nivel RGB, en la región potencialmente no pantalla RNP de las imágenes es homogénea y está por debajo de un predeterminado primer umbral ThresholdRGB, la región de interés ROI quedará delimitada por la geometría marcada por el fuerte contraste existente en cada una de las imágenes alineadas.
5
Si el resultado del procedimiento anterior no es satisfactorio; es decir, no es posible definir la región de interés a partir del nivel de luminosidad; la unidad procesadora ejecuta un procedimiento de detección de movimiento, para lo cual la unidad procesadora identifica qué puntos de la imagen alineada se han movido como respuesta a una vibración del dispositivo portable en el momento de la captura de la imagen origen, por ejemplo, frente a los puntos de 10 la imagen alineada se han movido por cambios entre la secuencia de imágenes alineadas; es decir, por cambios naturales presentes en un contenido multimedia. El resultado de este procedimiento es poder determinar la región de interés ROI, que corresponderá a la porción de pantalla estudiando el análisis de movimiento de las características de la imagen.
15
Una vez ha sido delimitada la región de interés de las imágenes alineadas por el procedimiento de detección de movimiento, la unidad procesadora ejecuta un procedimiento de detección de posibles marcos donde se determina el cuadrilátero que optimice la superficie ocupada por la pantalla mediante el estudio geométrico de la imagen.
20
Una vez finalizado el procedimiento de detección de posibles marcos, la unidad procesadora ejecuta un procedimiento de homogeneización cuyo objetivo es el de complementar las conclusiones extraídas del procedimiento de detección de posibles marcos, proporcionando una reevaluación de todas las regiones de interés obtenidas por el procedimiento de detección de posibles marcos. 25
Finalmente, la unidad procesadora ejecuta un procedimiento de unificación que combina los resultados de los procedimientos anteriores y que suministra como resultado la región de interés objetivo; es decir, define una solución única de entre todas las posibles regiones de interés ROI. 30
Una vez ha sido establecida la región de interés ROI, la unidad procesadora extrae de las imágenes origen capturadas con el dispositivo portable aquella región correspondiente al ROI, para ejecutar el procedimiento de búsqueda de coincidencia entre las anteriores imágenes y los contenidos multimedia almacenados en el segundo repositorio. 35
El procedimiento de búsqueda de coincidencia se basa en un método de reconocimiento de imágenes dentro de una base de datos mediante una arquitectura de detección de imágenes compuesta por la suma de los métodos SURF (“Speeded- Up Robust Features"), BOWV (“Bags of Visual Words”) y complementada con los resultados ofrecidos por tf-idf (“Term frequency - 40 Inverse document frequency”).
El resultado de la búsqueda es afirmativo cuando existe en el segundo repositorio un contenido multimedia asociado al contenido de la región de interés delimitada anteriormente, teniendo el contenido multimedia asociado un contenido multimedia complementario que puede ser 45 proporcionado al usuario.
Este procedimiento de búsqueda de coincidencias incluye tres etapas:
Etapa SURF: permite describir una imagen en términos numéricos y permite localizar dentro de 50 cada imagen puntos relevantes objetivo tal como aristas, salientes o esquinas.
Una vez encontrados los puntos relevantes; a saber, puntos característicos de la imagen se procede a describirlos matemáticamente. Esta descripción es independiente a ciertas
transformaciones como son distorsiones producidas por cambios de ratio de las pantallas o el suavizado que se produce en la imagen origen cuando la captura ha sido realizada a distancia.
Los puntos característicos encontrados son tratados en función de la distancia de los mismos al centro de la región de interés ROI. Todos los puntos característicos dentro de la región de 5 interés son tomados en su totalidad. El resto de los puntos característicos, que se encuentren en una región perimetral de la región de interés, son descartados según lo que se acerquen al perímetro.
Etapa BOVW: Cuando la imagen ha sido descrita y caracterizada mediante el algoritmo SURF, 10 las características generadas por la etapa SURF entran en una fase de procesamiento basada en un algoritmo BOVW, que permite agrupar los puntos característicos del algoritmo SURF en un histograma de palabras visuales. Normalmente, los histogramas son comparados mediante una medida de disimilitud que suele ser implementada en términos de una distancia matemática tal como distancia euclídea, distancia coseno o similar. En esta etapa la 15 comparación entre ambos histogramas considera además la frecuencia de aparición de palabras visuales parecidas, mejorando los resultados ante posibles distorsiones en la toma de imágenes.
Para ello, es necesario un reajuste de las frecuencias de aparición de cada una de las palabras 20 visuales en el histograma obtenido en el método BOWV. Esto es, una vez computado el histograma BOVW, cada valor de éste, que representa la frecuencia de aparición de la palabra visual correspondiente, se re-ponderará de acuerdo a la siguiente fórmula:
BWWdNABOVWBOVWijijiji))((
25
Donde BOVWi es el valor de la palabra visual i (valor i-ésimo del histograma), N (∙) representa el valor de la función de probabilidad gaussiana de media 0 y variancia , d(Wi, Wj) representa la distancia, por ejemplo, por ejemplo euclídea, entre las palabras visuales i-ésima y j-ésima, y ||∙|| es la norma L1. 30
Los términos A y B son términos de peso que ajustan el impacto que tienen las palabras visuales parecidas en la re-evaluación. A+B siempre es 1. Valores normales de A y B podrían ser A=0.8 y B=0.2.
35
Así, la reponderación considera que los valores en el histograma BOVW de las palabras visuales parecidas a la palabra i - entendiendo parecidas como aquellas que presentan una menor distancia - deben modificar el valor en el histograma BOVW del término i.
El procedimiento de búsqueda en el segundo repositorio evita redundancias. Es decir, si las 40 diferencias entre imágenes alineadas son reducidas, se compara una imagen con los contenidos multimedia del segundo repositorio. Por ejemplo, en una escena estática de un contenido multimedia se analizan imágenes iguales entre sí. Si no sólo aquellas imágenes que aportan información útil.
45
Etapa tf-idf: la aplicación de tf-idf permite reevaluar cómo de relevante es una palabra visual dentro del conjunto de palabras consideradas por el método BOVW. Así, determinadas palabras aportan una mayor información que otras, por su rareza global, y deben ser tenidas más en cuenta. La etapa tf-idf se aplicará antes la etapa de reponderación del histograma BOVW. 50
Al terminar la etapa BOVW, se proporciona una imagen caracterizada por un histograma creado a partir de los descriptores de la misma. Estos histogramas representan la frecuencia con que las palabras visuales del vocabulario aparecen en la imagen bajo análisis. Así, la manera de encontrar una imagen alineada en el segundo repositorio se lleva a cabo mediante la comparación del histograma de la imagen analizada con los histogramas incluidos dentro del 5 segundo repositorio.
Si el resultado de la comparación es afirmativo, el servidor de aplicación suministra un enlace a un contenido multimedia complementario al usuario del dispositivo portable.
10
Este enlace puede suministrar además de contenido multimedia, una orden de apertura de una aplicación móvil, unas coordenadas gps, un hipervínculo o una orden de compra.
Además, el contenido multimedia complementario puede ser editado antes de ser, proporcionado al usuario en función de la localización del usuario, del perfil del mismo o según 15 sea la temporización de la emisión del contenido multimedia origen. Por lo tanto, un mismo contenido multimedia almacenado puede dar origen a una pluralidad de diferentes contenidos multimedia complementarios.
Este método, por último, identifica regiones parciales dentro de la región de interés delimitada 20 lo que permite reconocer contenidos multimedia sin necesidad de delimitar con total precisión la región de interés ROI.
Breve descripción de los dibujos
25
Una explicación más detallada se da en la descripción que sigue y que se basa en las figuras adjuntas.
La figura 1 muestra en un esquema la captura de imágenes desde una cámara de un dispositivo portable. 30
La figura 2 muestra en un esquema una pluralidad de regiones de interés para una secuencia de dos imágenes origen.
La figura 3 muestra en un esquema de la región de interés ROI la disposición de una región 35 potencialmente pantalla RPP y la región potencialmente no pantalla RNP.
La figura 4 representa las regiones de interés ROI para una secuencia de imágenes origen capturadas por la cámara del dispositivo portable.
40
La figura 5 muestra el flujo lógico en diagrama de bloques del camino seguido en el procedimiento de toma de la muestra, redimensionamiento, alineamiento y análisis de luminosidad.
La figura 6 muestra el flujo lógico en diagrama de bloques del camino seguido en la primera 45 fase del procedimiento de detección de movimiento.
La figura 7 muestra en un esquema la división de la región de interés ROI en cuatro cuadrantes.
La figura 8 muestra el flujo lógico en diagrama de bloques del camino seguido en la segunda 50 fase del procedimiento de detección de movimiento.
La figura 9 muestra el flujo lógico en diagrama de bloques del camino seguido en el procedimiento de detección de posibles marcos.
La figura 10 muestra el flujo lógico en diagrama de bloques del camino seguido en el procedimiento de homogeneización.
La figura 11 muestra el flujo lógico en diagrama de bloques del camino seguido en el procedimiento de unificación. 5
La figura 12 muestra para el procedimiento de búsqueda de coincidencia el tratamiento de los puntos característicos de la imagen en función de su distancia al centro de la misma.
La figura 13 representa un ejemplo de aplicación de la presente invención. 10
Descripción
En relación con la figura 1, un usuario visualiza en una pantalla audiovisual 13 un contenido multimedia y toma la decisión de capturar al menos una imagen origen 14 de la pantalla 13 con 15 la cámara 12 de un dispositivo portable 11.
La secuencia de imágenes origen 14 capturadas son almacenadas en un primer repositorio del dispositivo portable 11, el cual comprende una primera interfaz de comunicación bidireccional por medio de la cual la secuencia de imágenes origen 14 son transmitidas hacia un servidor de 20 aplicación 15 que recibe las imágenes capturadas por medio de una segunda interfaz de comunicación.
El servidor de aplicación 15 comprende una unidad procesadora conectada a la segunda interfaz de comunicación bidireccional y a un segundo repositorio el cual almacena contenidos 25 multimedia y contenidos multimedia complementarios asociados a los contenidos multimedia almacenados.
El contenido multimedia ha sido almacenado mediante su histograma de palabras visuales, de manera que las imágenes origen 14 puedan compararse con el contenido multimedia 30 almacenado en el repositorio del servidor de aplicación 15 pero no pueden ser visualizados a través de una pantalla de visualización 13.
La unidad procesadora ejecuta un procedimiento de búsqueda de una coincidencia entre las imágenes recibidas y los contenidos multimedia almacenados en el segundo repositorio; si el 35 resultado de la búsqueda es afirmativo; es decir, existe una coincidencia, la unidad procesadora proporciona un enlace a un contenido multimedia complementario relativo al contenido multimedia coincidente con las imágenes recibidas. El servidor de aplicación 15 transmite el enlace proporcionado al dispositivo portable 11 por medio de la segunda interfaz de comunicación. 40
El usuario puede acceder al contenido multimedia complementario a través del enlace recibido en el dispositivo portable 11. El contenido multimedia complementario está asociado al contenido multimedia visualizado en la pantalla audiovisual 13.
45
En relación ahora con las figuras 2 y 3, la unidad procesadora del servidor de aplicación determina la región de interés ROI, mostrada en la figura como una región rayada, para cada imagen alineada en el servidor de aplicación 15. Cada una de las imágenes capturadas por la cámara 12 del dispositivo portable 11 incluye la pantalla audiovisual 13 y otros elementos dispuestos en la zona donde se haya localizada la pantalla 13. 50
La región de interés de la imagen se refiere a la porción de la imagen relativa a la pantalla 13. En el ejemplo mostrado en la figura 2, dos imágenes alineadas I1, I2 relativas a imágenes
origen son analizadas para extraer sus respectivas zonas de interés ROI, RO2 respectivamente.
La región de interés ROI para cada imagen alineada se divide en una región potencialmente no pantalla RNP y una región potencialmente pantalla RPP, donde la región potencialmente 5 pantalla RPP es aquella zona de la imagen alineada en cuyo interior se encuentra la pantalla audiovisual 13 con seguridad. La región potencialmente no pantalla RNP es aquella zona de la imagen alineada que no contempla ninguna parte de pantalla con seguridad.
Esta consideración toma en cuenta el hecho de que al ser el usuario quien oriente el dispositivo 10 portable 11 hacia la pantalla 13, no se puede garantizar que la secuencia de imágenes capturadas 14 se ajuste a la perfección a la extensión de la pantalla 13.
En relación con la figura 4 donde las imágenes origen 14 representa una secuencia de imágenes capturadas por la cámara 12 del dispositivo 11. En la nomenclatura utilizada se 15 numera la secuencia de imágenes origen como F0, F1, F2... Fn, Fn+1. Siendo F0 la primera imagen origen de la secuencia capturada por el dispositivo portable 11.
En la figura 4 para cada imagen alineada ya se ha extraído la respectiva región de interés ROI; estableciendo para la primera imagen alineada cero F0 la región de interés ROI1, para la 20 imagen alineada uno F1 la región de interés ROI2, respectivamente, y así sucesivamente para la secuencia completa de imágenes alineadas.
En relación ahora con la figura 5, se muestra en un diagrama de bloques funcional parcial la ejecución del procedimiento de toma de la muestra, redimensionamiento, alineamiento y 25 análisis de luminosidad donde se requiere el estudio de las condiciones lumínicas exteriores, que rodean a la pantalla audiovisual 13.
En un primer momento, las imágenes origen 14 que van siendo capturadas por el dispositivo 11 se escalan a menor tamaño. Este redimensionamiento se realiza para reducir el tiempo de 30 cómputo de la unidad de procesamiento del servidor 15.
En segundo lugar, las imágenes que ya han sido redimensionadas se van alineando. Esto permite conseguir similares condiciones geométricas entre imágenes para mejorar los resultados. El trabajo de redimensionado se realiza imagen a imagen, secuencialmente, según 35 sean capturadas las imágenes origen por el dispositivo 11. En la etapa de alineamiento, también secuencial, cada imagen Fi es alineada con la primera de la secuencia F0.
Una vez que las imágenes han sido redimensionadas y alineadas, se analiza el nivel de luminosidad de la región potencialmente no pantalla RNP con el objetivo de determinar las 40 condiciones lumínicas que rodean la pantalla audiovisual 13, que muestra el contenido multimedia de interés para el usuario.
Se considerará que el dispositivo 11 está apuntando a la pantalla 13 en condiciones nocturnas o de oscuridad cuando el nivel luminosidad en la región potencialmente no pantalla RNP no 45 supere un predeterminado primer valor umbral ThresholdRGB; siendo el umbral ThresholdRGB el impuesto por valores de luminosidad más reducidos. Por ejemplo, R=25, G= 25, B=25.
En relación ahora con la figura 6, se muestra en un diagrama de bloques funcional parcial la ejecución del procedimiento de detección de movimiento.
50
En un primer momento se realiza un análisis de las características visuales de la primera imagen alineada F0 en la región no pantalla RNP y la busca en la adyacente F1. Este camino es secuencial, de forma que la característica encontrada en la imagen n, Fn se buscará en la región no pantalla RNP de la imagen n+1, Fn+1.
Una vez analizado el movimiento de todas las características de la región no pantalla RNP y almacenadas con una función de probabilidad en el segundo repositorio; por ejemplo, con una función Gaussiana se modela el movimiento de todas las imágenes en ejes cartesianos. Para el modelado de este movimiento se usa el método de máxima verosimilitud MLE.
5
Una vez modelado el movimiento de todas las características de la región no pantalla RNP mediante el método MLE en los dos ejes de coordenadas cartesianos, se procede a encontrar las características de la imagen n en la región potencialmente pantalla RPP para luego buscarlas en la imagen n+1.
10
Con el movimiento de las características de la región potencialmente pantalla RPP analizadas, se comparan los resultados con el modelo MLE del movimiento de la región no pantalla RNP. Para identificar si el movimiento de un punto característico de la región potencialmente pantalla RPP corresponde al movimiento del contenido multimedia mostrado por pantalla 13, es necesario estudiar la probabilidad que tiene ese punto de encajar su movimiento dentro de los 15 modelos de la etapa anterior, referente a la región no pantalla RNP. La fórmula que mide esta probabilidad queda definida como:
Pt = Px * Py
20
Siendo Px la probabilidad de que el movimiento en el eje horizontal x del punto de RPP analizado, pueda ser modelado mediante los parámetros del modelo de la etapa anterior para el movimiento de la región no pantalla RNP en el eje x.
Siendo Py la probabilidad de que el movimiento en el eje vertical y del punto de la región 25 potencialmente pantalla RPP analizado, pueda ser modelado mediante los parámetros del modelo de la etapa anterior para el movimiento de la región no pantalla RNP en el eje y.
Si la probabilidad obtenida para cada punto Pt es menor que un predeterminado segundo valor umbral Threshold2, se almacena como punto potencialmente pantalla PPP en una imagen 30 buffer dentro del repositorio del servidor de aplicación 15.
Si Pt > Threshold2 se descarta que ese punto sea parte del contenido multimedia mostrado por la pantalla 13.
35
La figura 7 muestra la división de la región de interés ROI en cuatro cuadrantes 1 a 4.
En relación ahora con la figura 8, se muestra en un diagrama de bloques funcional parcial la segunda fase del procedimiento de detección de movimiento donde se divide cada imagen buffer, resultado de almacenar la nube de puntos obtenidos en la primera fase del 40 procedimiento de detección de movimiento en cuatro cuadrantes, figuras 6 y 7. Cada cuadrante debe ser transformado para conseguir que el sistema de referencia sea el mismo para todos ellos.
Dispuesta la imagen buffer correctamente, se computa la imagen integral I; que acumula los 45 puntos PPP desde el origen de coordenadas hacia las esquinas para cada cuadrante. Con la imagen integral calculada, se computa la matriz distancia D que determina cómo de alejado se encuentra un punto PPP desde el centro de la imagen.
Ya obtenidas las relaciones anteriores, se procede a obtener la matriz relación R; siendo R=l/D, 50 cuyos valores máximos ofrecen, para cada cuadrante, los puntos que se estiman como esquina de pantalla. Pues el valor máximo para cada cuadrante refleja el punto que presenta la mayor relación entre un mayor número de puntos PPP y una menor distancia al origen de coordenadas.
Con esos cuatro puntos definidos, uno por cuadrante, se computa el rectángulo que estima la región pantalla.
En relación ahora con la figura 9, se muestra en un diagrama de bloques funcional el camino seguido en el procedimiento de detección de posibles marcos donde se pretende obtener el 5 cuadrilátero que optimice la superficie ocupada por la pantalla mediante el estudio geométrico de la imagen. Para ello, se calcula el histograma de gradientes orientados de la imagen HOG sobre la región potencialmente pantalla RPP y se divide la misma en cuatro cuadrantes.
El objetivo del procedimiento anterior es evaluar, para cada cuadrante, cual es el punto del 10 mapa HOG que tiene una mayor probabilidad de caer sobre una cruceta. Esto significa, el punto que tiene una mayor probabilidad de caer sobre una línea predominantemente horizontal y una línea predominantemente vertical al mismo tiempo. Pues el punto que tenga mayor probabilidad cruzada será aquel que tenga mayor probabilidad de representar una esquina de la pantalla. 15
El primer paso es obtener, para cada punto del cuadrante HOG, la probabilidad de que el punto se encuentre sobre una línea horizontal Ph y la probabilidad de que el punto se encuentre sobre una línea vertical Pv y desde ahí obtener una matriz Pcruceta como:
20
Pcruceta = Ph + Pv
Siendo Ph para cada punto, la probabilidad acumulada sobre su horizontal de estar situado en una línea recta de dirección horizontal.
25
Siendo Pv para cada punto, la probabilidad acumulada sobre su vertical de estar situado en una línea recta de dirección vertical.
En un segundo paso, calculamos para cada cuadrante la correlación estadística de la matriz Pcruceta con sus cuadrantes adyacentes. Para ello a los valores de la matriz de cada cuadrante 30 le sumamos el valor máximo, por fila, de su matriz adyacente horizontal. Y le sumamos el valor máximo, por columna, de su matriz adyacente en vertical.
De esta correlación estadística se obtiene una matriz correlada Pc que fortalece la coherencia geométrica entre los resultados de cada cuadrante, y favorece que los puntos obtenidos como 35 potenciales esquinas en cada cuadrante estén relacionados con su cuadrante adyacente.
Una vez que hemos obtenido la matriz correlada para cada cuadrante, se computa la matriz distancia D. Que determina cómo de alejado se encuentra cada punto HOG del centro de la imagen. Y se opera para conseguir una matriz relación R, siendo R = . 40 DPc
De esta matriz se toman, para cada cuadrante, los Z puntos de mayor valor. Cada uno de estos puntos representa, el punto que mayor probabilidad tiene de ser esquina de la pantalla.
Para cada cuadrante, los Z puntos que presente mayor valor en la matriz R, se agrupan en M 45 subconjuntos: agrupando los puntos que estén cercanos y analizando como centroide el punto con mayor valor de la agrupación en la matriz R. Uniendo los M centroides de cada uno de los cuatro cuadrantes entre sí estimamos un número N de cuadriláteros, donde N es igual a M4. Este procedimiento de agrupación se realiza para reducir el tiempo de cómputo; agrupar por conjuntos reduce el número de puntos a evaluar, dado que M4 es siempre menor o igual que 50 Z4, es decir, M≤Z.
En una etapa posterior, los cuadriláteros resultantes se reevalúan. Dándole mayor valor a aquellos que tengan sus esquinas mejor alineadas y a aquellos que presenten una relación -ratio- más próxima 16:9. Pues esta relación es la más común para las pantallas actuales.
Una vez reevaluado cada cuadrilátero, se seleccionan del total de ellos, los N’ cuadriláteros 5 que presenten mayor probabilidad de representar la ROI. De esta etapa se desprenden N’ soluciones por imagen.
La figura 10 muestra el flujo lógico en diagrama de bloques funcional del camino seguido en el procedimiento de homogeneización siendo el propósito de este procedimiento el de 10 complementar las conclusiones extraídas de la etapa anterior, ver Figura 9, ofreciendo una reevaluación de los N’ cuadriláteros obtenidos en cada imagen. En la primera fase, cada imagen alineada es procesada para detectar bordes característicos. Este procedimiento, que se lleva a cabo en escala de grises, permite estudiar si las líneas del cuadrilátero coinciden con un borde. Una vez realizado esta etapa, se analiza la varianza de la intensidad de la imagen a 15 lo largo de cada línea del cuadrilátero, potencial borde de pantalla, y se registran los resultados.
Usando los resultados anteriores como métricas, se pondera cada cuadrilátero y se devuelven los N’ cuadriláteros con las puntuaciones reevaluadas de acuerdo a: 20
- El valor de la varianza. Cuanto menor sea la varianza a lo largo de las líneas del cuadrilátero, mayor será la reevaluación del mismo, pues un marco de pantalla suele tener colores sólidos y homogéneos con poca varianza en la intensidad.
25
- El nivel de alineamiento entre el borde detectado y las líneas del cuadrilátero. Si los bordes característicos detectados para la imagen coinciden con las líneas detectadas para el cuadrilátero los resultados de la reevaluación mejorarán para éste. Pues la probabilidad de que un cuadrilátero represente un marco de pantalla aumenta si sus líneas coinciden con bordes característicos detectados en la imagen. 30
La figura 11 muestra el flujo lógico en un diagrama de bloques del camino seguido en el procedimiento de unificación de los resultados que ofrece el procedimiento de detección de posibles marcos, Figura 9, y de homogeneidad, figura 10, se seleccionan sólo aquellos cuadriláteros que contengan el rectángulo ofrecido por el procedimiento de detección de 35 movimiento, Figura 6 y 8, con un error máximo de un porcentaje P de las dimensiones de la imagen alineada.
Una vez filtrado este paso, se reevalúa la puntuación de cada uno de los cuadriláteros seleccionados, dándole una mayor puntuación a aquellos que se encuentren más cerca del 40 rectángulo ofrecido por el procedimiento de detección de movimiento. A continuación, se almacena el cuadrilátero con mayor puntuación para cada uno de los fotogramas.
Ahora, para cada imagen, se obtiene el punto de esquina del rectángulo en cada cuadrante. Y de entre todas las esquinas de cada cuadrante, se seleccionan aquellas que sean más 45 cercanas al centro de la imagen. Finalmente, ya con las esquinas definidas para cada cuadrante, definimos la región de interés ROI.
La figura 12 muestra como las características encontradas para cada región de interés ROI de las imágenes alineadas son tratadas dependiendo de lo lejos que éstas se encuentren del 50 centro de la región de interés ROI. Las características identificadas en la región interior de la imagen son tomadas en su totalidad. Y las características que se encuentren en una región perimetral de la imagen son descartadas según lo que se acerquen al perímetro. Esta tendencia de descarte en el perímetro externo de la región de interés ROI es lineal y se realiza
de forma que para el borde de la imagen ninguna característica sea evaluada. La gráfica de la izquierda muestra, porcentualmente, el número de características evaluadas en relación al ancho de la región de interés ROI. La gráfica de la derecha muestra, porcentualmente, el número de características evaluadas en relación al alto de la región de interés ROI.
5
La figura 13 muestra un ejemplo de sistema que ejecuta el método para la captura de imágenes desde una cámara 12 de un dispositivo portable 11 de una pantalla audiovisual 13 en la cual se reproduce un contenido multimedia de interés para un usuario del dispositivo portable 11.
10