ES2395102B1 - Metodo y sistema para segmentacion de primer plano de imagenes en tiempo real - Google Patents

Metodo y sistema para segmentacion de primer plano de imagenes en tiempo real Download PDF

Info

Publication number
ES2395102B1
ES2395102B1 ES201001297A ES201001297A ES2395102B1 ES 2395102 B1 ES2395102 B1 ES 2395102B1 ES 201001297 A ES201001297 A ES 201001297A ES 201001297 A ES201001297 A ES 201001297A ES 2395102 B1 ES2395102 B1 ES 2395102B1
Authority
ES
Spain
Prior art keywords
segmentation
color
pixel
image
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
ES201001297A
Other languages
English (en)
Other versions
ES2395102A1 (es
Inventor
Jaume Civit
Óscar Divorra
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonica SA
Original Assignee
Telefonica SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonica SA filed Critical Telefonica SA
Priority to PCT/EP2011/004021 priority Critical patent/WO2012041419A1/en
Priority to EP11748574.8A priority patent/EP2622574A1/en
Priority to US13/877,020 priority patent/US20130243313A1/en
Priority to ARP110103638 priority patent/AR083274A1/es
Publication of ES2395102A1 publication Critical patent/ES2395102A1/es
Application granted granted Critical
Publication of ES2395102B1 publication Critical patent/ES2395102B1/es
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

Método y sistema para segmentación de primer plano de imágenes en tiempo real.#El método comprende:#- generar un conjunto de funciones de coste para modelos o clases de segmentación de primer plano, de segundo plano y de sombra, en el que los modelos de segmentación de segundo plano y de sombra son una función de distorsión cromática y distorsión de brillo y color, y en el que dichas funciones de coste están relacionadas con medidas de probabilidad de que una región o un pixel dado pertenezca a cada una de dichas clases de segmentación; y#- aplicar a datos de pixeles de una imagen dicho conjunto de funciones de coste generadas;#El método comprende además definir dichos funcionales de coste de segmentación de segundo plano y de sombra introduciendo información de profundidad de la escena que ha adquirido dicha imagen.#El sistema comprende medios de cámara previstos para adquirir, a partir de una escena, información de color y profundidad, y medios de procesamiento previstos para llevar a cabo dicha segmentación de primer plano mediante elementos de hardware y/o software que implementan el método.

Description

MÉTODO Y SISTEMA PARA SEGMENTACIÓN DE PRIMER PLANO DE IMÁGENES
EN TIEMPO REAL
La presente invención se refiere, en general, en un primer aspecto, a un método para segmentación de primer plano de imágenes en tiempo real, basándose en la aplicación de un conjunto de funciones de coste y, más en particular, a un método que comprende definir dichas funciones de coste introduciendo información de color y profundidad de la escena que han adquirido la imagen o imágenes analizadas.
Un segundo aspecto de la invención se refiere a un sistema adaptado para implementar el método del primer aspecto, preferiblemente mediante procesamiento paralelo.
Estado de la técnica anterior
La
segmentación de primer plano es una clave de
funcionamiento
para un amplio intervalo de aplicaciones
multimedia.
Entre otras, la reconstrucción en 3D basada en
siluetas
y la estimación de profundidad en tiempo real para
videoconferencias en 3D son aplicaciones que pueden beneficiarse mucho de segmentaciones de primer plano sin parpadeo con precisión en los bordes y flexibles respecto a los cambios de ruido y sombra de primer plano. Sin embargo, la segmentación de primer plano basada en colores simples, aunque puede basarse en diseños de algoritmo de una robustez interesante, puede tener problemas en regiones con sombras sobre el segundo plano o en áreas de primer plano con una baja diferencia de color con respecto al segundo plano. El uso adicional de información de profundidad puede tener una importancia clave con el fin de solucionar tales situaciones ambiguas.
Además, la segmentación basada sólo en profundidad no puede proporcionar un contorno de primer plano preciso y tiene problemas en regiones oscuras. Esto se ve influido en gran medida por la calidad de los datos Z/de profundidad obtenidos
por sistemas de adquisición de profundidad actuales tales como
cámaras
ToF (Time of Flight, Tiempo de Vuelo) tales como SR4000.
Además,
sin información de color, las sombras de modelado se
convierten
en un desafío significativo.
Antecedentes técnicos/tecnología existente
La segmentación de primer plano se ha estudiado desde una serie de puntos de vista (véanse las referencias [3, 4, 5, 6, 7]) , cada uno con sus ventajas y desventajas en cuanto a la robustez y las posibilidades para adecuarse apropiadamente a una GPGPU. Los modelos de clasificación locales, basados en píxeles y basados en umbrales [3, 4] pueden aprovechar las capacidades paralelas de arquitecturas de GPU ya que pueden adecuarse muy fácilmente a éstas. Por otro lado, carecen de robustez frente al ruido y sombras. Enfoques más elaborados que incluyen un postprocesamiento morfológico [5], aunque son más robustos, puede que no les resulte fácil aprovechar las GPU debido a su naturaleza de procesamiento secuencial. Además, utilizan suposiciones fuertes con respecto a la estructura de los objetos, lo que se convierte en una segmentación errónea cuando el objeto de primer plano incluye huecos cerrados. Enfoques basados de manera más global pueden adecuarse mejor tal como en el documento [6]. Sin embargo, el marco estadístico propuesto es demasiado simple y conlleva a inestabilidades temporales del resultacto segmentado. Finalmente, modelos de segmentación muy elaborados que incluyen seguimiento temporal [7] pueden ser
demasiado complejos para adecuarse a sistemas en tiempo real. Ninguna de estas técnicas puede segmentar apropiadamente
primeros planos con grandes regiones con colores similares al segundo plano.
• [2, 3, 4, 5, 6]: son técnicas basadas en intensidad/color para segmentación de primer plano, de segundo plano y de sombra. La mayoría de los algoritmos se basan en modelos de color que separan el brillo de la componente de cromaticidad, o se basan en la sustracción de segundo
plano que pretende hacer frente a cambios de iluminación
local, tales como sombras y zonas iluminadas, así como
cambios de iluminación global. Algunos enfoques usan
etapas de reconstrucción morfológica con el fin de reducir
el ruido y una incorrecta clasificación suponiendo que las
formas de los objetos se definen apropiadamente a lo largo
de la mayor parte de sus contornos tras la detección
inicial, y considerando que los objetos son contornos
cerrados sin orificios en su interior. En algunos casos,
se introduce una etapa de optimización global con el fin
de maximizar la probabilidad de una clasificación
apropiada. En cualquier caso, ninguna de estas técnicas
puede segmentar apropiadamente los primeros planos con
grandes regiones con colores similares al segundo plano.
De hecho, situaciones ambiguas en las que el primer plano
y el segundo plano tienen colores similares conducirán a
clasificaciones erróneas.
• [13, 12] : introducen de cierta manera el uso de profundidad en su segmentación de primer plano. En los mismos, no obstante, se supone completamente que la profundidad determina el primer plano. De hecho, suponen que cuanto más está un objeto en la parte frontal, más probable será que se encuentre en el primer plano. En la práctica, esto puede ser incorrecto en muchas aplicaciones puesto que el segundo plano (que se entiende que son las componentes estáticas o permanentes en una escena) puede tener objetos que están más cerca de la cámara que el primer plano (u objeto de interés que va a segmentarse) . Además, éstos carecen de una fusión de información de profundidad y color al no aprovechar la disponibilidad de información visual multimodal.
Problemas con las soluciones existentes En general, las soluciones actuales presentan problemas a
la hora de integrar una segmentación de primer plano buena,
robusta y flexible con eficacia computacional. O bien los métodos disponibles son demasiado simples, o bien son demasiado complejos, intentando tener en cuenta demasiados factores en la decisión de si cierta cantidad de datos de imagen es de primer plano o de segundo plano. Éste es el caso en la visión general del estado de la técnica que se ha expuesto en el presente documento. Véase un comentario individualizado:
[2, 3, 4, 5, 6]: ninguna de estas técnicas puede segmentar apropiadamente primeros planos con grandes regiones con colores similares al segundo plano. De hecho, situaciones ambiguas en las que el primer plano y el segundo plano tienen colores similares conducirán a clasificaciones erróneas.
[13, 12 J : introducen de cierta manera el uso de profundidad en su segmentación de primer plano. En los mismos, no obstante, se supone completamente que la profundidad determina el primer plano. De hecho, suponen que cuanto más está un objeto en la parte frontal, más probable será que se encuentre en el primer plano. En la práctica, esto puede ser incorrecto en muchas aplicaciones puesto que el segundo plano (que se entiende que son las componentes estáticas o permanentes en una escena) puede tener objetos que están más cerca de la cámara que el primer plano (u objeto de interés que va a segmentarse) . Además, éstos carecen de una fusión de información de profundidad y color al no aprovechar la disponibilidad de información visual multimodal. Todas estas técnicas no pueden solucionar la segmentación
cuando el primer plano contiene grandes regiones con colores que son muy similares al segundo plano.
Descripción de la invención Es necesario ofrecer una alternativa al estado de la técnica que rellene los vacíos que se encuentran en el mismo,
superando las limitaciones expresadas anteriormente en el presente documento, que permita tener un marco de segmentación para hardware habilitado en GPU con calidad mejorada y un alto
rendimiento
y teniendo en cuenta la información tanto de
profundidad
como de color.
Con
este fin, la presente invención proporciona, en un
primer
aspecto, un método para segmentación de primer plano de
imágenes
en tiempo real, que comprende:
-generar
un conjunto de funciones de coste para clases de
segmentación
de primer plano, de segundo plano y de sombra, en
el que los costes de segmentación de segundo plano y de sombra se basan en distorsión cromática y distorsión de brillo y color, y en el que dichas funciones de coste están relacionadas con medidas de probabilidad de que una región o píxel dado pertenezca a cada una de dichas clases de segmentación; y
aplicar a los datos de píxeles de una imagen dicho conjunto de funciones de coste generadas.
El método del primer aspecto de la invención difiere, de manera característica, de los métodos de la técnica anterior, en que comprende definir dichos funcionales de coste de segmentación de segundo plano y de sombra introduciendo información de profundidad de la escena que ha adquirido dicha imagen.
En una realización del método del primer aspecto de la invención dicha información de profundidad es una información de profundidad procesada obtenida adquiriendo información de profundidad inicial con una cámara de tiempo de vuelo, ToF, y procesándola para desdistorsionarla, rectificarla y ajustarla a escala de manera ascendente para adecuarla con contenido de color, respecto a dicha imagen, capturada con una cámara a color. En una realización alternativa, el método comprende adquirir tanto contenido de color con respecto a dicha imagen como dicha información de profundidad con una única cámara que puede adquirir y suministrar información de profundidad y color.
En una realización, el método según la invención comprende
definir dichos modelos de segmentación según una formulación
bayesiana.
Según una realización, el método de la invención comprende, además de un modelado local de clases de primer plano, de segundo plano y de sombra llevado a cabo por dichas funciones de coste, en el que la estructura de imagen se aprovecha localmente, aprovechar la estructura espacial de contenido de al menos dicha imagen de una manera más global.
Dicho aprovechamiento de la estructura espacial local de
contenido
de al menos dicha imagen se lleva a cabo, en una
realización,
estimando los costes como un promedio sobre
regiones
de color homogéneo.
El método del primer aspecto de la invención comprende además, en una realización, aplicar una operación de algoritmo a las expresiones de probabilidad, o funciones de coste, generadas con el fin de derivar costes aditivos.
Según una realización, la estimación mencionada de costes de píxeles se lleva a cabo mediante las siguientes acciones secuenciales:
i) sobresegmentar la imagen usando criterios de color homogéneo basados en un enfoque de k-medias;
ii) forzar una correlación temporal en centroides de color de k-medias, con el fin de garantizar la estabilidad y consistencia temporal de segmentos homogéneos, y
iii) calcular dichas funciones de coste por segmento de color homogéneo.
Y dicho aprovechamiento de la estructura espacial de contenido de la imagen de una manera más global se lleva a cabo mediante la siguiente acción:
iv) usar un algoritmo de optimización para encontrar la mejor solución global posible optimizando costes.
En la siguiente sección se describirán diferentes realizaciones del método del primer aspecto de la invención, incluyendo funciones de coste específicas definidas según formulaciones bayesianas, y descripciones más detalladas de
dichas etapas i) a iv).
La presente invención proporciona por tanto un enfoque de segmentación de primer plano de profundidad-color híbrido robusto, en el que la información de profundidad y color se fusiona localmente con el fin de mejorar el rendimiento de segmentación, que puede aplicarse entre otras cosas, a un sistema de telepresencia de múltiples perspectivas en 30 inmersivo para comunicaciones entre muchos participantes con contacto visual con los ojos.
Tal como se dio a conocer anteriormente, la invención se basa en una minimización de costes de un conjunto de modelos de probabilidad (es decir de primer plano, de segundo plano y de sombra) por medio de, en una realización, propagación de creencias jerárquica.
En algunas realizaciones, que se explicarán detalladamente en una sección posterior, el método incluye reducción de valores atípicos mediante regularización en regiones sobresegmentadas. Se ha diseñado un conjunto híbrido de profundidad-color de modelos de coste bayesianos de segundo plano, de primer plano y de sombra para usarse dentro de un marco de campo aleatorio de Markov para su optimización.
La naturaleza iterativa del método lo hace ajustable a escala en cuanto a su complejidad, permitiéndole aumentar la capacidad de precisión y tamaño de imagen a medida que el hardware de computación se vuelve más rápido. En este método, el diseño de profundidad-color híbrido particular de modelos de coste y el algoritmo que implementa las acciones del método es particularmente adecuado para una ejecución eficaz en el nuevo hardware de GPGPU.
Un segundo aspecto de la invención proporciona un sistema para segmentación de primer plano de imágenes en tiempo real, que comprende medios de cámara previstos para adquirir imágenes a partir de una escena, incluyendo información de color, medios de procesamiento conectados a dicha cámara para recibir imágenes adquiridas por la misma y procesarlas para llevar a cabo una
segmentación de primer plano de imágenes en tiempo real.
El sistema del segundo aspecto de la invención difiere de los sistemas convencionales, de manera característica, en que dichos medios de cámara están previstos también para adquirir, a partir de dicha escena, información de profundidad, y en que dichos medios de procesamiento están previstos para llevar a cabo dicha segmentación de primer plano mediante elementos de hardware y/o software que implementan al menos parte de las acciones del método del primer aspecto, incluyendo dicha aplicación de dichas funciones de coste a datos de píxeles de imágenes.
En una realización, dichos elementos de hardware y/o software implementan las etapas i) a iv) del método del primer aspecto.
Dependiendo de la realización, dichos medios de cámara comprenden una cámara a color para adquirir dichas imágenes incluyendo información de color, y una cámara de tiempo de vuelo, ToF, para adquirir dicha información de profundidad, o los medios de cámara comprenden una única cámara que puede adquirir y suministrar información de color y profundidad.
Sea cual sea la realización, la cámara o cámaras usadas han de ser capaces de capturar información tanto de color como de profundidad, y ésta ha de procesarse en conjunto por el sistema proporcionado por esta invención.
Breve descripción de los dibujos
Las ventajas y características previas y otras se entenderán mejor a partir de la siguiente descripción detallada de realizaciones, algunas de ellas con referencia a los dibujos adjuntos, que deben considerarse de manera ilustrativa y no limitativa, en los que:
la figura 1 muestra esquemáticamente la funcionalidad de la invención, para una realización en la que un sujeto de primer plano se segmenta a partir del segundo plano, en la que las vistas a la izquierda corresponden a una segmentación de sólo el
color de
la escena, y las vistas a la derecha corresponden a una
segmentación
de profundidad y color híbrida de la escena, es
decir,
a la aplicación del método del primer aspecto de la
invención;
la
figura 2 es un diagrama de flujo algorítmico de una
segmentación
de secuencia de vídeo completa según una
realización del método
del primer aspecto de la invención;
la figura 3 es un diagrama de flujo algorítmico para segmentación de 1 fotograma; la figura 4 es una arquitectura de bloques algorítmica de segmentación; la figura 5 ilustra una realización del sistema del segundo aspecto de la invención; y la figura 6 muestra, esquemáticamente, otra realización del sistema del segundo aspecto de la invención.
Descripción detallada de diversas realizaciones
La vista superior de la figura 1 muestra esquemáticamente una imagen en color (representada en gris para cumplir los requisitos formales de las oficinas de patentes) sobre la que se ha aplicado el método del primer aspecto de la invención, con el fin de obtener el sujeto de primer plano segmentado a partir del segundo plano, tal como se ilustra mediante la vista inferior a la derecha de la figura 1, realizando una secuencia cuidadosamente estudiada de operaciones de procesamiento de imágenes que llevan a un enfoque mejorado y más flexible para la segmentación de primer plano (entendiéndose el primer plano como el conjunto de objetos y superficies que se sitúan delante de un segundo plano).
La funcionalidad que implementa esta invención se describe claramente mediante las vistas a la derecha de la figura 1, en las que un sujeto de primer plano se segmenta a partir del segundo plano. La imagen superior a la derecha representa la escena, la imagen intermedia a la derecha muestra el segundo plano (negro), la sombra (gris) y el primer plano con la textura superpuesta, la imagen inferior a la derecha muestra lo mismo que la intermedia pero con el primer plano etiquetado en blanco.
Al comparar dichas vistas intermedia e inferior a la derecha con las vistas intermedia e inferior a la izquierda, correspondientes a una segmentación de sólo color, puede observarse claramente cómo las vistas a la derecha obtenidas con el método del primer aspecto de la invención mejoran de manera significativa el resultado obtenido.
De hecho, el color claro de la camisa del sujeto de la figura 1 hace difícil que un algoritmo de segmentación de sólo color segmente apropiadamente el primer plano a partir del segundo plano y a partir de la sombra. Básicamente, si se intenta hacer que el algoritmo sea más sensible para seleccionar el primer plano sobre la camisa, entonces mientras que la segmentación sigue siendo mala para el primer plano, las regiones de la sombra en la pared se fusionan en el primer plano, tal como es el caso de las vistas intermedia e inferior a la izquierda, en las que áreas grises y negras pasan sobre el cuerpo del sujeto.
La fusión de sombras en el primer plano no ocurre en las vistas intermedia e inferior a la derecha de la figura 1, lo que demuestra que por medio de la fusión de datos de color y profundidad la segmentación de primer plano parece ser mucho más robusta, y los datos de color de alta resolución garantizan una buena precisión de los bordes y una segmentación de áreas oscuras apropiada.
En el método del primer aspecto de la invención, el proceso de segmentación se plantea como un problema de minimización de costes. Para un pixel dado, se deriva un conjunto de costes a partir de sus probabilidades de pertenecer a las clases de primer plano, de segundo plano o de sombra. A cada pixel se le asignará la etiqueta que tiene el coste asociado más bajo:
(1)
PixelLabel (e) argmin {Costa (e)}
aE{BG,FG,SH}
Para calcular estos costes, se dan una serie de pasos de manera que tengan el menor ruido y la menor cantidad de valores atípicos posible. En esta invención, esto se hace calculando costes región a región en áreas de color homogéneo,
temporalmente
coherentes, seguido de un procedimiento de
optimización
robusto. Para conseguir una buena capacidad de
discriminación
entre segundo plano, primer plano y sombra, se
han diseñado costes bayesianos de segundo plano, de primer plano y de sombra basándose en la fusión de información de color y profundidad.
Con el fin de definir el conjunto de funciones de coste correspondientes a las tres clases de segmentación, se han construido según el documento [5]. Sin embargo, según el método de la invención, las definiciones de costes de segundo plano y de sombra se redefinen para hacerlos más precisos y reducir la inestabilidad temporal en la fase de clasificación. En esta invención, los funcionales de coste de segundo plano y de sombra introducen información adicional que tiene en cuenta la información de profundidad de una cámara ToF. Para ello, se ha vuelto a recurrir al documento [3] para así derivar modelos de probabilidad de segundo plano y de sombra equivalentes basándose en medidas de distorsión cromática (3), de distancia de color y brillo (2). Tal como se muestra a continuación, un término de diferencia de profundidad se incluye también en las expresiones de coste de segundo plano y de sombra para tener en cuenta la información en 30. A diferencia del documento [3] sin embargo, en el que los funcionales de clasificación se definen totalmente para funcionar en un clasificador basado en umbrales, las expresiones de coste del método de la invención se formulan desde un punto de vista bayesiano. Esto se realiza de manera que se derivan costes aditivos después de aplicar el logaritmo a las expresiones de probabilidad halladas. Gracias a esto, los funcionales de coste se usan entonces en el marco de optimización elegido para esta invención. En un ejemplo, la distorsión de color y brillo (con respecto a un modelo de
segundo plano entrenado) se definen de la siguiente manera. En
primer lugar, el brillo (BD) es tal que
er · erm + eg · e9m + eb · ebm (2)
BD(C) =
er~ + eg~ + eb~
es un color de segmento o píxel con
Crn = { Crrn, Cgrn, Cbrn} es la media entrenada correspondiente para el color de segmento o píxel en el modelo de segundo plano entrenado.
La distorsión cromática puede expresarse simplemente como:
eD(C) (Cr-BD(C) · Crm)2 + (C9 -BD(C)· <3l
J(
... egm)2+ (eb-BD(C) · ebm)2).
Basándose en esto, el método comprende definir el coste para el segundo plano como:
....
IIC-Cmll 2 CD(C) 2 (4)
CosiBc(C)
2 + 2 +
5 · am · K1 5 · aCDm · K2
IIToF-ToFmll 2
5. afoFm. /(5
donde a2 representa la varianza de ese píxel o segmento en el
rn 2 segundo plano, y acDm es la correspondiente a la distorsión cromática, es la varianza de un modelo de profundidad de segundo plano entrenado, ToF es la profundidad medida y ToFm es la media de profundidad entrenada para un píxel o segmento dado en el segundo plano. Al igual que el documento [ 5] , el coste de primer plano puede definirse simplemente como:
(5)
(e-) 16.64 · Ka
eOStFG = .
El coste relativo a la probabilidad de sombra se define
mediante el método del primer aspecto de la invención como:
(6)
CostsH(C)
En (4), (5) y (6), K1 , K2 , K3 , K4 y K5 son constantes de proporcionalidad ajustable correspondientes a cada una de las distancias en uso en los costes anteriores. En esta invención, gracias a los factores de normalización en las expresiones, una vez fijados todos los parámetros Kx, los resultados se mantienen bastante independientes de la escena, sin necesidad de afinado adicional basado en el contenido.
Los funcionales de coste descritos anteriormente, aunque
pueden
aplicarse píxel a píxel de manera directa, no
proporcionarán
resultados suficientemente satisfactorios si no
se
usan en un marco computacional más estructurado. La
segmentación
robusta requiere, al menos, aprovechar la
estructura
espacial de contenido más allá de una medición de
costes píxel a píxel de clases de primer plano, de segundo plano y de sombra. Con este fin, en esta invención, los costes de píxeles se estiman localmente como un promedio respecto a regiones de color homogéneo, temporalmente estables [ 8] y entonces se regularizan adicionalmente a través de un algoritmo de optimización global tal como propagación de creencias
jerárquica. Esto se lleva a cabo mediante las etapas i) a i v) anteriormente indicadas.
En primer lugar, en la etapa i), la imagen se sobresegmenta usando criterios de color homogéneo. Esto se realiza mediante un enfoque de k-medias. Además, para garantizar la estabilidad y consistencia temporal de segmentos homogéneos, se fuerza una correlación temporal en centroides de color de k-medias en la etapa ii) (los centroides resultantes finales tras las
segmentación de k-medias de un marco se usan para inicializar la sobresegmentación del siguiente) . Entonces se calculan los costes de los modelos de segmentación por segmento de color, en la etapa iii). Según el método del primer aspecto de la invención, los costes calculados por segmento incluyen información de color así como información relacionada con la diferencia entre información de profundidad de primer plano con respecto al segundo plano.
Después de que se hayan calculado los costes de colorprofundidad, para llevar a cabo dicho aprovechamiento de manera más global, se lleva a cabo la etapa i v) , es decir usando un algoritmo de optimización, tal como propagación de creencias jerárquica [9], para encontrar la mejor solución global posible
(a
nivel de imagen) optimizando y regularizando costes.
Opcionalmente,
y después de que se haya llevado a cabo la
etapa
iv), el método comprende tomar la decisión final píxel a
píxel
o región a región sobre costes promediados finales
calculados
por regiones de color uniforme para refinir
adicionalmente
los límites de primer plano.
La figura 3 representa la arquitectura de bloques de un algoritmo que implementa dichas etapas i) a iv), y otras etapas, del método del primer aspecto de la invención.
Con el fin de usar la estructura espacial local de la imagen de una manera computacionalmente asequible, se han considerado varios métodos teniendo en cuenta también el hardware común habitualmente disponible en sistemas informáticos de consumo o de estaciones de trabajo. Para ello, aunque hay disponible un gran número de técnicas de segmentación de imagen, no son adecuadas para aprovechar la potencia de arquitecturas paralelas tal como las unidades de procesamiento gráfico (GPU) disponibles en los ordenadores de hoy en día. Sabiendo que la segmentación inicial sólo va a usarse como una fase de soporte para una computación adicional, un buen enfoque para dicha etapa i) es una segmentación basada en agrupamiento de k-medias [11]. El agrupamiento de k-medias es un algoritmo muy conocido para el
análisis de agrupamientos usado en numerosas aplicaciones. Dado un grupo de muestras (x1 , x2 , ... , Xn), donde cada muestra es un vector real de d dimensiones, en este caso (R,G,B, x, y), donde R, G y B son componentes de color de pixel, y x, y son sus coordenadas en el espacio de imagen, se pretende dividir las n muestras en k conjuntos S = S1, S2, ••• , Sk de manera que:
k
arg min L:: L:: IIX; -J.Li 11 ,
S i=l XjESí
donde J.li es la media de puntos en Si. El agrupamiento es un proceso que tarda mucho tiempo, sobre todo para conjuntos de datos grandes.
El algoritmo de k-medias común continúa alternando entre etapas de asignación y actualización:
• Asignación: Asigna cada muestra al agrupamiento con la media más próxima.
{X;: IIX;-J.L~t)ll < IIX;-J.L~!>II, ... Vi* = 1, ....k}
• Actualización: Calcula las nuevas medias para que sean el centroide del agrupamiento.
El algoritmo converge cuando las asignaciones ya no cambian.
Según el método del primer aspecto de la invención, dicho enfoque de k-medias es una segmentación basada en agrupamiento de k-medias modificada para adecuarse mejor al problema y a la arquitectura de GPU particular (es decir número de núcleos,
hilos de ejecución por bloque, etc.) que va a usarse.
Modificar dicha segmentación basada en agrupamiento de kmedias comprende restringir el conjunto de asignación inicial a la arquitectura paralela de la GPU por medio de un número de conjuntos que también dependen del tamaño de imagen. La entrada se divide en una rejilla de n x n cuadrados, alcanzándose agrupamientos, donde N y M son las dimensiones de la imagen. La etapa de actualización inicial se calcula a partir de los píxeles en esas regiones. Con esto, se ayuda a que el algoritmo converja en un menor número de iteraciones.
Una segunda restricción introducida, como parte de dicha modificación de la segmentación basada en agrupamiento de k-medias, es en la etapa de asignación. Cada píxel sólo puede cambiar la asignación de agrupamiento a un agrupamiento de k-medias estrictamente vecino de manera que se garantice la continuidad espacial.
La rejilla inicial, y el máximo número de iteraciones permitido, influye enormemente en el tamaño y la forma final de segmentos homogéneos. En estas etapas, n se refiere al tamaño de bloque usado en la ejecución de núcleos de proceso en la GPU. La restricción anterior lleva a:
donde N (i) es el vecindario del agrupamiento i (en otras palabras, el conjunto de agrupamientos que rodean el agrupamiento i), y es un vector que representa una muestra de
x1
píxel donde R G B representan componentes de color en
(R G B , ' 'x, y) 1 1
cualquier espacio de color seleccionado y x, y son la posición espacial de dicho píxel en una de dichas imágenes.
En una realización preferida, el método del primer aspecto de la invención se aplica a una pluralidad de imágenes correspondientes a fotogramas diferentes y consecutivos de una secuencia de vídeo.
Para secuencias de vídeo en las que hay una fuerte
correlación temporal de un fotograma a otro, el método comprende además usar centroides resultantes finales tras la segmentación de k-medias de un fotograma para inicializar la sobresegmentación del siguiente, consiguiendo así dicho forzado de una correlación temporal en centroides de color de k-medias, para garantizar la estabilidad y consistencia temporal de segmentos homogéneos de la etapa ii) En otras palabras, esto ayuda a acelerar aún más la convergencia de la segmentación inicial al tiempo que también mejora la consistencia temporal del resultado final entre fotogramas consecutivos.
Las regiones resultantes de la primera etapa de sobresegmentación del método de la invención son pequeñas pero suficientemente grandes para tener en cuenta la estructura espacial local de la imagen en el cálculo. En cuanto a la implementación, en una realización de esta invención, todo el proceso de segmentación se desarrolla en CUDA (extensiones NVIDIA C para sus tarjetas gráficas). Cada etapa, asignación y actualización, se construye como núcleos CUDA para procesamiento paralelo. Cada uno de los hilos de ejecución de la GPU trabaja sólo sobre los píxeles dentro de un agrupamiento. Los datos de centroide resultantes se almacenan como memoria de textura mientras se evita una desalineación de memoria. Un núcleo CUDA para la etapa de asignación almacena la decisión por píxel en un registro. El núcleo CUDA de actualización consulta el registro previamente almacenado en la memoria de textura y calcula el nuevo centroide para cada agrupamiento. Puesto que el tiempo
real
es un requisito para nuestro objetivo, el número de
iteraciones
puede limitarse a n, siendo n el tamaño de la
rejilla de
inicialización en esta realización particular.
Después de la segmentación geométrica inicial, la siguiente etapa es la generación de los promedios región a región para distorsión cromática (CD) , brillo (BD) y otras estadísticas requeridas en costes de primer plano/segundo plano/sombra. Después de esto, la siguiente etapa es encontrar una solución global del problema de segmentación de primer plano. Una vez que se ha considerado la estructura espacial local de la imagen a través de la regularización de los costes de estimación en los segmentos obtenidos mediante el método de agrupamiento de k
medias
adaptado, es necesario un algoritmo de minimización
global
para aprovechar la estructura espacial global que se
adecue
a las restricciones de tiempo real. Un algoritmo muy
conocido es el introducido en el documento [9], que implementa un enfoque de propagación de creencias jerárquica. De nuevo se usa una implementación CUDA de este algoritmo para maximizar el procesamiento paralelo en cada una de sus iteraciones. Específicamente, en una realización de esta invención se consideran tres niveles en la jerarquía con 8, 2 y 1 iteraciones por nivel (niveles desde una resolución más fina hasta una más basta) En una realización de la invención, pueden asignarse menos iteraciones para capas más bastas de la pirámide, con el fin de equilibrar la velocidad de convergencia respecto a las pérdidas de resolución en el resultado final. Un mayor número de iteraciones en niveles más bastos hace que todo el proceso converja más rápido pero también compromete la precisión del resultacto en pequeños detalles. Finalmente, el resultacto de la etapa de optimización global se usa para la clasificación basada en (1) , o bien pixel a pixel o bien región a región, con una reproyección en las regiones iniciales obtenidas del primer proceso de sobresegmentación con el fin de mejorar la precisión de los límites.
En una realización, el método de la invención comprende usar los resultactos de la etapa i v) para llevar a cabo una clasificación basada o bien pixel a pixel o bien región a región con una reproyección en el espacio de segmentación con el fin de mejorar la precisión de los límites de dicho primer plano.
En referencia ahora al diagrama de flujo de la figura 2, se muestra en el mismo un enfoque de segmentación general usado para procesar secuencialmente cada imagen, o fotograma de una secuencia de vídeo, según el método del primer aspecto de la
invención, en el que se realizan modelos de segundo plano basados en estadísticas de color y profundidad a partir de datos de segundo plano entrenados.
La figura 4 muestra el diagrama de bloques general relativo al método del primer aspecto de la invención. Básicamente muestra la conectividad entre los diferentes módulos funcionales que llevan a cabo el proceso de segmentación.
Como se observa en la imagen, cada fotograma de entrada se procesa para generar un primer resultado sobresegmentado de regiones conectadas. Esto se realiza en un proceso de segmentaciones de regiones homogéneas, que, entre otras cosas, puede basarse en un método de crecimiento de región usando
agrupamiento
basado en k-medias. Con el fin de mejorar la
consistencia
temporal y espacial, se almacenan parámetros de
segmentación
(tal como agrupamientos de k-medias) de un
fotograma
a otro con el fin de inicializar el proceso de
sobresegmentación
en el siguiente fotograma de entrada.
El primer resultacto sobresegmentado se usa entonces para generar un análisis estadístico región a región regularizado del fotograma de entrada. Esto se realiza región a región, de manera que las características de color, brillo, u otras, visuales se calculan en promedio (u otras alternativas tales como la mediana) por cada región. Tales estadísticas región a región se usan entonces para inicializar un modelo de costes de primer plano/segundo plano/sombra región a región o píxel a píxel. Este conjunto de costes por píxel o por región se optimiza entonces de manera cruzada mediante un algoritmo de optimización que, entre otros puede ser de propagación de creencias por ejemplo. En esta invención, una versión de profundidad rectificada y registrada de la imagen se introduce también para generar las estadísticas de costes para una estimación de costes de segmentación de color-profundidad conjunta.
Después de la optimización de los costes iniciales de primer plano/segundo plano/sombra, estos se analizan entonces con el fin de decidir qué es primer plano y qué es segundo plano. Esto se realiza o bien píxel a píxel o bien puede realizarse también región a región usando las regiones iniciales obtenidas de la sobresegmentación generada al inicio del proceso.
La reproyección anteriormente indicada en el espacio de segmentación, para mejorar la precisión de los límites del primer plano, también se incluye en el diagrama de la figura 4, obteniendo finalmente un segmento o una máscara de segmentación como el correspondiente a la vista intermedia a la derecha de la figura 1, y una escena enmascarada como la de la vista inferior a la derecha de la figura l.
La figura 3 representa el diagrama de flujo correspondiente a los procesos de segmentación llevados a cabo mediante el método del primer aspecto de la invención, para una realización que incluye diferentes alternativas, tales como la indicada por el cuadro disyuntivo, que pregunta si se realiza una reproyección de regiones para contornos más nítidos.
En relación con el sistema proporcionado por el segundo aspecto de la invención, que implica la captura de dos modalidades de una escena compuesta por datos de imagen de color y datos de imagen de profundidad, la figura 5 ilustra una realización básica del mismo, incluyendo una cámara a color para adquirir imágenes en color, una cámara de detección de profundidad para adquirir información de profundidad, una unidad de procesamiento constituida por los medios de procesamiento anteriormente indicados, y una salida y/o pantalla para entregar los resultados obtenidos.
Dicha unidad de procesamiento puede ser cualquier dispositivo con capacidad computacional, tal como hardware dedicado, un ordenador personal, y un sistema integrado, etc. y la salida de tal sistema después del procesamiento de los datos de entrada puede usarse para la visualización, o como entrada en otros sistemas y subsistemas que usan una segmentación de primer plano.
En algunas realizaciones, los medios de procesamiento están previstos también para generar imágenes tridimensionales reales y/o virtuales, a partir de siluetas generadas a partir de la segmentación de primer plano de imágenes, y visualizarlas a través de dicha pantalla.
En una realización, el sistema constituye o forma parte de un sistema de telepresencia.
Un ejemplo más detallado se muestra en la figura 6, en la que esto se representa después de la unidad de procesamiento que crea una versión segmentada híbrida (de color y profundidad) de la entrada y que como salida puede dar el resultado segmentado más, en caso necesario, datos adicionales en la entrada del módulo de segmentación. La entrada híbrida del módulo de segmentación de primer plano (una realización de esta invención) puede generarse mediante cualquier combinación de dispositivos que pueden generar modalidades de datos de imagen tanto de profundidad como color. En la realización de la figura 6, esto se genera mediante dos cámaras (una para color y la otra para profundidad, por ejemplo una cámara ToF). La salida puede usarse en al menos uno de los procesos descritos: analizador de imagen/vídeo, pantalla de segmentación, unidad de procesamiento de visión por ordenador, unidad codificadora de datos de imagen, etc.
Para implementar el sistema del segundo aspecto de la invención en un caso real, con el fin de capturar información de color y profundidad acerca de la escena, el inventor ha usado dos cámaras. De hecho, no está disponible ahora mismo en el mercado ninguna cámara de color + profundidad de HD real; y cámaras sensibles a la profundidad activas tales como ToF sólo están disponibles con una resolución bastante pequeña. Por tanto, para dicha implementación de una realización del sistema del segundo aspecto de la invención, se han usado una cámara de alta resolución 1338xl038 y una cámara SR4000 ToF. Para fusionar información tanto de color como de profundidad usando los costes anteriormente descritos, la información de profundidad de la cámara SR4000 ha de desdistorsionarse, rectificarse y ajustarse
a escala de manera ascendente para adecuarse con el contenido capturado de la cámara a color. Puesto que ambas cámaras tienen diferentes ejes ópticos, sólo pueden rectificarse apropiadamente para un intervalo de profundidad limitado. En este trabajo, la homografía aplicada en la imagen de profundidad se optimiza para adecuarse a la región de escena en la que van a realizarse pruebas.
En otras realizaciones, no ilustradas, una cámara híbrida puede usarse igualmente en las que la cámara puede suministrar ambas modalidades de datos de imagen: color y profundidad. En una realización de este tipo en la que una cámara puede suministrar información de color y profundidad sobre el mismo eje óptico, una rectificación no sería necesaria y no habría ninguna limitación respecto a la correspondencia de profundidad y color dependiente de la profundidad.
En un sistema más complejo, una realización de esta invención puede usarse como etapa intermedia para un procesamiento más complejo de los datos de entrada.
Esta invención es un enfoque novedoso para segmentación de primer plano robusta para funcionamiento en tiempo real en arquitecturas de GPU, y tiene las siguientes ventajas:
La invención incluye la fusión de información de
profundidad
con datos de color que hacen que la
segmentación
sea más robusta y flexible a primeros planos
con
propiedades de color similares con el segundo plano.
Además,
los funcionales de coste proporcionados en este
trabajo,
más el uso de regiones sobresegmentadas para
estimación
de estadísticas, han podido hacer que la
segmentación
de primer plano sea más estable en el espacio
y
el tiempo.
La invención aprovecha la estructura de imagen local y
global
para mejorar la calidad de segmentación, su
consistencia
y estabilidad espacial así como su
consistencia y
estabilidad temporal.
Este enfoque es adecuado para su combinación con otras
técnicas de visión por ordenador y procesamiento de imágenes tales como algoritmos de estimación de profundidad en tiempo real para aceleración de correspondencia estéreo, reducción de valores atípicos en región plana y mejora de límites de profundidad entre regiones.
Los modelos estadísticos proporcionados en esta invención, más el uso de regiones sobresegmentadas para estimación estadística han logrado hacer que la segmentación de primer plano sea más estable en espacio y tiempo, al tiempo que puede utilizarse en tiempo real en hardware de GPU actual disponible en el mercado.
La invención también proporciona la funcionalidad de ser "ajustable a escala" en cuanto a la complejidad. Esto es, la invención permite adaptar el equilibrio entre precisión de resultado final y complejidad computacional en función de al menos un valor escalar. Esto permite mejorar la calidad de la segmentación y la capacidad para procesar imágenes más grandes a medida que el hardware de GPU mejora cada vez más.
La invención proporciona un enfoque de segmentación que supera las limitaciones del estado de la técnica actualmente disponible. La invención no se basa en modelos de objetos de contorno cerrado ad hoc, y permite detectar y segmentar objetos de primer plano que incluyen huecos y contornos muy detallados.
La invención proporciona también una estructura algorítmica adecuada para un procesamiento fácil, de múltiples hilos de ejecución y de múltiples núcleos paralelos.
La invención proporciona un método de segmentación flexible a cambios de sombreado y flexible a áreas de primer plano con débil discriminación con respecto al segundo plano si estas áreas "débilesu son suficientemente pequeñas.
La invención no se basa en ningún modelo de alto nivel, lo que hace que pueda aplicarse de manera general a diferentes situaciones en las que se requiere segmentación de primer plano (independientemente de la escena o el objeto que vaya a segmentarse).
Un experto en la técnica puede introducir cambios y modificaciones en las realizaciones descritas sin apartarse del alcance de la invención tal como se define en las reivindicaciones adjuntas.
Referencias
[1] O. Divorra Escoda, J. Civit, F. Zuo, H. Belt, I. Feldmann, O. Schreer, E. Yellin, W. Ijsselsteijn, R. van Eijk, D. Espinola, P. Hagendorf, W. Waizenneger, y R. Braspenning, "Towards 3d-aware telepresence: Working on technologies behind the scene, 11 en New Frontiers in Telepresence workshop at ACM CSCW, Savannah, GA, febrero de 2010.
[2] C. L. Kleinke, "Gaze and eye contact: A research review, 11 Psychological Bulletin, vol. 100, págs. 78100, 1986. [3] A. Elgammal, R. Duraiswami, D.
Harwood,
y L. S. Davis, "Non-parametric model for
background
subtraction, 11 en Proceedings of
International
Conference on Computer Vision. Sept
1999,
IEEE Computer Society.
[3] T. Horpraset, D. Harwood, y L. Davis, "A statistical approach for real-time robust background subtraction and shadow detection, 11 en IEEE ICCV, Kerkyra, Grecia, 1999.
[4] J. L. Landabaso, M. Pard'as, y L.-Q. Xu, "Shadow removal wi th blob-based morphological reconstruction for error correction, 11 en IEEE ICASSP, Filadelfia, PA, EE.UU., marzo de 2005.
[5] J.-L. Landabaso, J.-e Pujol, T. Montserrat, D. Marimon, J. Civit, y O. Divorra, "A global probabilistic framework for the foreground, background and shadow classification task, 11 en IEEE ICIP, Cairo, noviembre de 2009.
[6] J. Gallego Vi la, "Foreground segmentation and tracking based on foreground and background modeling techniques11 , Tesis doctoral, Departamento de Procesamiento de Imágenes, Universidad Politécnica de Cataluña, 2009.
[7] I. Feldmann, O. Schreer, R. Shfer, F. Zuo, H. Belt, y O. Divorra Escoda, "Immersive multi-user 3d
video
cormnunication," en IBC, Amsterdam, Países
Bajos,
septiembre de 2009.
[8]
C. Lawrence Zitnick y Sing Bing Kang, "Stereo
for
imagebased rendering using image over
segmentation," en Interna tional Journal in Computer Vision, 2007.
[9] P. F. Felzenszwalb y D. P. Huttenlocher, "Efficient belief propagation for early vision," en CVPR, 2004, págs. 261-268.
[10] J. B. MacQueen, "Sorne methods for classification and analysis of mul tivariate observations," en Proc. of the fifth Berkeley Symposium on Mathematical Statistics and Probability, L. M. Le Cam y J. Neyman, Eds. 1967, vol. 1, págs. 281-297, University of California Press.
[11] O. Schreer N. Atzpadin, P. Kauff, "Stereo analysis by hybrid recursive matching for real-time irmnersive video stereo analysis by hybrid recursive matching for real-time irmnersive video conferencing," vol. 14, n. 0 3, marzo de 2004.
[12] R. Crabb, C. Tracey, A. Puranik y J. Davis. Real-time foreground segmentation via range and colour imaging. En IEEE CVPR, Anchorage, Alaska, junio de 2008.
[13] A. Bleiweiss y M. Weman. Fusing time-of-flight depth and colour for real-time segmentation and tracking. En DAGM 2009 Workshop on Dynamic 3D Imaging, Saint Malo, Francia, octubre de 2009.

Claims (25)

  1. REIVINDICACIONES
  2. 1 .
    Método para segmentación de primer plano de imágenes en
    tiempo real, que comprende :
    -generar un conjunto de funciones de coste para modelos o
    clases de segmentación de primer pl ano, de segundo plano y
    de sombra , en el que los funcionales de coste de
    segmentación de segundo plano y de sombra son una función
    de d i storsión cromática y distorsión de brillo y color, y
    en el que dichas funciones de coste están relacionadas con
    medidas de probabilidad de que una región o un pixel dado
    pertenezca a cada una de dichas clases de segmentación; y
    -aplicar a datos de pi xeles de una imagen dicho conjunto
    de funciones de coste generadas ;
    estando dicho método caracterizado porque comprende
    definir dichos modelos de segmentación de segundo p l ano y
    de sombra introduciendo información de profundidad de la
    escena que ha adquirido dicha imagen .
  3. 2 .
    Método según la reivindi cación L que comprende definir
    dichos modelos de segmentación según una formulación
    bayesiana.
  4. 3 .
    Método según la reivindicación 2 , que comprende, además de
    un modelado local de clases de primer p lano, de segundo
    plano y de sombra llevado a cabo por dichas funciones de
    coste en el que la estructura de imagen se aprovecha
    localmente, aprovechar la estructura espacial de contenido
    de al menos dicha imagen de una manera más global .
  5. 4.
    Método según la reivindicación 3 , en el que dicho
    aprovechamiento de la estruct.ura espacial local de
    contenido de al menos dicha imagen se lleva a cabo
    estimando los costes como un promedio sobre regiones de
    color homogéneo .
  6. 5.
    Método según cualquiera de las reivindicaciones
    anteriores, que comprende aplicar una operación de
    algoritmo a las expresiones de probabilidad, o funciones de
    coste , generadas para derivar costes aditivos.
  7. 2.
  8. 6. Método según cualquiera de las reivindicaciones anteriores, que comprende definir dicha distorsión de brillo como :
    Cr . Crrr¡ + Oy . Cgrn + eb . Cbm
    BD(é) =
    Cr~\ + Co~ + Cb~
    donde e= {Cr,Cg,Cb } es un color de segmento o pixel con componentes rgb, y
    ém = {Crm,Cgm>Cbm } es la media entrenada
    correspondiente para el color de segmento o pixel en un
    modelo de segundo plano entrenado.
  9. 7. Método según la reivindicación 6, que comprende definir dicha distorsión cromática como:
    CD(C) = (Cr -BD(C) . Crm)2 + (Cg -BD(C).
    J
    ... Cgn.)' + (Cb -BD(C). Cbm)2).
  10. 8. Método según la reivindicación 7, que comprende definir dicha función de coste para la clase de segmentación de segundo plano como :
    donde Kt , K2 Y K5 son constantes de proporcionalidad ajustable correspondientes a las distancias en uso en
    dicha función de coste de primer plano, representa la varianza de ese pixel o segmento en un modelo de segundo 2
    plano
    entrenado, G"CDrn es la correspondiente a la
    distorsión
    cromática, es la varianza de un modelo de
    profundidad
    de segundo plano entrenado, ToF es la
    profundidad medida y ToFm es la media de profundidad entrenada para un segmento o pixel dado en el segundo
    plano .
  11. 9 .
    Método según la reívindicación 8 , que comprende definir
    dicha función de coste para la clase de segmentación de
    primer plano como :
    5
    16.64· K 3
    5
    donde K3 es una constante de proporcionalidad ajustable
    corr espondiente a las distancias en uso en dicha función
    10
    de coste de primer plano .
  12. 10.
    Método según la reivindicación 9 , que comprende definir
    dicha función de coste para la clase de sombra corno :
    15
    donde K4 Y Ks son constantes de proporcionalidad ajustable
    20
    correspondientes a las distancias en uso en dicha función
    de coste de sombra .
  13. 11 .
    Método según la reivindicación 4, el que d icha estimación
    de costes de pixeles se lleva a cabo mediante las
    siguientes acciones secuenciales :
    25
    i) sobr esegmentar la imagen usando un criteri o de color
    homogéneo basado en un enfoque de k-medias ;
    ii) forzar una correlación temporal sobre centroides de
    color de k-medias , con el fin de garantizar la estabilidad
    y consistencia temporal de segmentos homogéneos ,
    30
    iii) calcular dichas funciones de coste por segmento de
    color homogéneo ; y
    en el que dicho aprovechamiento de la estructura espacial
    de contenido de al menos dicha imagen de una manera más
    global se lleva a cabo mediante la siguiente acción :
    35
    iv) usar un algoritmo de optimización par a encontrar la
    mejor solución global posible optimizando costes .
  14. 12 . Método según la reivindicación 11, en el que dicho algoritmo de optimización es un algoritmo de propagación de creencias jerárquica .
  15. 13 . Método según la reivindicación 11 Ó 12 , que comprende,
    5 después de que dicha etapa Lv) se haya llevado a cabo , tomar la decisión final pixel a píxel o región a región sobre costes promediados finales calculados sobre regiones de color uniforme para refinar adicional mente los límites de primer plano .
  16. 14. Método según la reivindicación 11, 12 6 13, en el que
    dicho enfoque de k-medias es una segmentación basada en
    agrupamiento de k-medias modificada para adaptarse a una arquit ectura de unidad de procesamiento gráfico, o GPU .
    15 15 . Método según la reivindicación 14 , en e l que modificar dicha segmentación basada en agrupamiento de k-medias comprende restringir el conjunto de asignación inicial
    (1l~1) " 1I~1) a la
    n ~ arquitectura paralela de la GPU por medio de
    un número de conj untos que también dependen del tamaño de 20
    la imagen, mediante la división de la entrada en una rejilla de n x n cuadrados, donde n se refi ere al tamaño de bl oque usado en la ej ecución de núcleos de proceso dentro
    (M xN)
    de la GPU, logrando 1 agrupamientos , donde N y M son
    n
    las dimensiones de imagen, y Pi es la media de puntos en el conjunto de muestras s, , y calcular la etapa de actualización inicial de dicha segmentación basada en agrupamiento de k-medi as a partir de los píxeles en dichas reqiones cuadradas, de manera que un algoritmo que
    implementa di cha segmentación basada en agrupamiento de kmedias modificada converge en un número inferior de iteraciones .
  17. 16 . Método según la reivindicación 15, en el que modificar
    dicha segmentación basada en agrupamiento de k-medias 35
    comprende además, en la etapa de asignación de dicha
    segmentación basada
    en agrupamiento de k-medias , restringir
    los
    agrupamientos a los que cada pixel puede cambiar la
    asignación
    de agrupamiento a un agrupamiento de k-medias
    estrictamente
    vecino, de manera que se garantiza la
    5
    continuidad espacial .
  18. 17 .
    Método según la reivindicaci ón 16, en el que d i chas
    restricciones
    llevan a la siguiente etapa de asignaci ón
    modificada :
    10
    donde
    N (i) es el vecindario de l agrupamiento i , y Xj es un
    vector que
    repr esenta una muestra de pixel (R,G,B,x,y) ,
    donde
    R, G, B representan componentes de color en
    cualquier
    espacio de color seleccionado y x, y son la
    15
    posi ción espacial de dicho pixel en una de dichas
    imágenes .
  19. 18.
    Método según cualquiera de las rei vindicaciones
    anteriores,
    en el que se aplica a una pluralidad de
    imágenes
    correspondientes a fotogramas diferentes y
    20
    consecutivos de una secuencia de vídeo .
  20. 19 .
    Método según la reivindicación 18 , cuando depende de la
    reivindicación
    17, en el que para secuencias de video en
    las
    que hay una fuerte correl ación temporal de un fotograma
    a
    otro, el método comp rende usar centroides resultantes
    25
    finales después de la segmentación de k-medias de un
    fotograma
    para inicializar la sobresegmentaci6n del
    siguiente,
    consiguiendo asi dicho forzado de una
    correlación temporal sobre centroides de
    color de k-medias ,
    con
    el fin de garantizar la estabilidad y consistencia
    30
    temporal de segmentos homogéneos .
  21. 20 .
    Método según la reivindicación 19, que comprende usar los
    resul tados
    de la etapa iv) para llevar a cabo una
    clasificación basándose
    o bien de pixel a pixel o de región
    a
    región con una reproyección en e l espacio de segmentación
    35
    con el f in de mejorar la precisión de l os limites de dicho
    primer plano .
    2l.
    Método según cualquiera de las reivindicaciones
    anteriores, en el que dicha información de profundidad es
    información de profundidad procesada obtenida adquiriendo
    5
    i nformación de profundidad preliminar con una cámara de
    tiempo de vuelo, ToF, y procesándola para
    desdistorsionarla, rectificarla y ajustarla a escala de
    manera ascendente para adecuarla con contenido de color,
    con respecto a dicha imagen , capturada con una cámara a
    10
    color.
  22. 22 .
    Método según cualquiera de las reivindicaciones 1 a 20 ,
    que comprende adquirir tanto contenido de color, con
    respecto a dicha imagen, como dicha información de
    profundidad con una única cámara que puede adquirir y
    15
    suministrar información de color y profundidad.
  23. 23.
    Sistema para segmentación de primer plano de imágenes en
    tiempo real , que comprende medios de cámara previstos para
    adquirir imágenes a partir de una escena , incluyendo
    información de color, medios de procesamiento conectados a
    20
    dicha cámara para recibir imágenes adquiridas por la misma
    y para procesarlas con el fin de llevar a cabo una
    segmentación de primer plano de imágenes en tiempo real ,
    caracterizado porque dichos medios de cámara están
    previstos también para adquirir, a partir de dicha escena,
    25
    información de profundidad, y porque dichos medios de
    procesamiento están previstos para llevar a cabo dicha
    segmentación de primer plano mediante elementos de hardware
    y/o software que implementan al menos dicha aplicación de
    dichas funciones de coste del método según cualquiera de
    30
    las reivindicaciones 1 a 22.
  24. 24 .
    Sistema según la reivindicación 23 , en el que dichos
    elementos de hardware y/o software implementan dichas
    etapas i) a iv) del método según cualquiera de las
    reivindicaciones 11 a 22 .
    35 25. Sistema según la reivindicación 23 ó 24 , en el que dichos
    medios
    de cámara comprenden una cámara a color para
    adquirir dichas
    imágenes incluyendo información de color, y
    una
    cámara de t i empo de vuelo, ToF, para adquirir dicha
    información de profundidad .
    5
    26 . Sistema según la reivindicación 23 6 24 , en el que dichos
    medios
    de cámara comprenden una única cámara que puede
    adquirir
    y suministrar información de color y profundidad.
  25. 27 .
    Sistema según la reivindicación 23 , que comprende una
    pantalla
    conectada a la salida de dichos medios de
    10
    procesamiento, estando estos últimos previstos también para
    generar
    imágenes tridimensionales reales y/o virtuales , a
    partir de
    siluetas generadas a partir de dicha segmentación
    de
    primer plano de imágenes , y visualizarlas a través
    de
    dicha pantalla .
    15
    28 . Sistema según la reivindicación 27 , caracterizado porque
    constituye
    o forma parte de un sistema de telepresencia .
ES201001297A 2010-10-01 2010-10-08 Metodo y sistema para segmentacion de primer plano de imagenes en tiempo real Expired - Fee Related ES2395102B1 (es)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/EP2011/004021 WO2012041419A1 (en) 2010-10-01 2011-08-11 Method and system for images foreground segmentation in real-time
EP11748574.8A EP2622574A1 (en) 2010-10-01 2011-08-11 Method and system for images foreground segmentation in real-time
US13/877,020 US20130243313A1 (en) 2010-10-01 2011-08-11 Method and system for images foreground segmentation in real-time
ARP110103638 AR083274A1 (es) 2010-10-08 2011-09-30 Metodo y sistema para segmentacion de primer plano de imagenes en tiempo real

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP10380122 2010-10-01
EP10380122.1 2010-10-01

Publications (2)

Publication Number Publication Date
ES2395102A1 ES2395102A1 (es) 2013-02-08
ES2395102B1 true ES2395102B1 (es) 2013-10-18

Family

ID=47566160

Family Applications (1)

Application Number Title Priority Date Filing Date
ES201001297A Expired - Fee Related ES2395102B1 (es) 2010-10-01 2010-10-08 Metodo y sistema para segmentacion de primer plano de imagenes en tiempo real

Country Status (4)

Country Link
US (1) US20130243313A1 (es)
EP (1) EP2622574A1 (es)
ES (1) ES2395102B1 (es)
WO (1) WO2012041419A1 (es)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443800A (zh) * 2019-08-22 2019-11-12 深圳大学 视频图像质量的评价方法

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8787663B2 (en) * 2010-03-01 2014-07-22 Primesense Ltd. Tracking body parts by combined color image and depth processing
US9628722B2 (en) 2010-03-30 2017-04-18 Personify, Inc. Systems and methods for embedding a foreground video into a background feed based on a control input
US8649592B2 (en) 2010-08-30 2014-02-11 University Of Illinois At Urbana-Champaign System for background subtraction with 3D camera
ES2384732B1 (es) * 2010-10-01 2013-05-27 Telefónica, S.A. Método y sistema para segmentación de primer plano de imágenes en tiempo real.
KR101682137B1 (ko) * 2010-10-25 2016-12-05 삼성전자주식회사 텍스처 및 움직임 감지를 사용한 시간적으로-일관된 변이 추정을 위한 방법 및 장치
US9672609B1 (en) 2011-11-11 2017-06-06 Edge 3 Technologies, Inc. Method and apparatus for improved depth-map estimation
US8885885B2 (en) * 2012-10-05 2014-11-11 International Business Machines Corporation Multi-cue object association
CN102982539B (zh) * 2012-11-09 2015-05-27 电子科技大学 一种基于图像复杂性的特征自适应图像共分割方法
US9201580B2 (en) 2012-11-13 2015-12-01 Adobe Systems Incorporated Sound alignment user interface
US9355649B2 (en) 2012-11-13 2016-05-31 Adobe Systems Incorporated Sound alignment using timing information
US10249321B2 (en) 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
US9451304B2 (en) 2012-11-29 2016-09-20 Adobe Systems Incorporated Sound feature priority alignment
US10455219B2 (en) 2012-11-30 2019-10-22 Adobe Inc. Stereo correspondence and depth sensors
US10249052B2 (en) 2012-12-19 2019-04-02 Adobe Systems Incorporated Stereo correspondence model fitting
US9208547B2 (en) 2012-12-19 2015-12-08 Adobe Systems Incorporated Stereo correspondence smoothness tool
US9124762B2 (en) 2012-12-20 2015-09-01 Microsoft Technology Licensing, Llc Privacy camera
US9214026B2 (en) * 2012-12-20 2015-12-15 Adobe Systems Incorporated Belief propagation and affinity measures
US9857470B2 (en) * 2012-12-28 2018-01-02 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
US9275277B2 (en) * 2013-02-22 2016-03-01 Kaiser Foundation Hospitals Using a combination of 2D and 3D image data to determine hand features information
US9940553B2 (en) 2013-02-22 2018-04-10 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates
CN103164855B (zh) * 2013-02-26 2016-04-27 清华大学深圳研究生院 一种结合反射光照的贝叶斯决策前景提取方法
US9305332B2 (en) 2013-03-15 2016-04-05 Samsung Electronics Company, Ltd. Creating details in an image with frequency lifting
US9349188B2 (en) 2013-03-15 2016-05-24 Samsung Electronics Co., Ltd. Creating details in an image with adaptive frequency strength controlled transform
US9536288B2 (en) 2013-03-15 2017-01-03 Samsung Electronics Co., Ltd. Creating details in an image with adaptive frequency lifting
US9191643B2 (en) * 2013-04-15 2015-11-17 Microsoft Technology Licensing, Llc Mixing infrared and color component data point clouds
CN104427291B (zh) * 2013-08-19 2018-09-28 华为技术有限公司 一种图像处理方法及设备
CN105723300B (zh) 2013-09-24 2020-10-27 惠普发展公司,有限责任合伙企业 基于表示对象的图像确定分割边界
US10324563B2 (en) 2013-09-24 2019-06-18 Hewlett-Packard Development Company, L.P. Identifying a target touch region of a touch-sensitive surface based on an image
US10210618B1 (en) * 2013-12-27 2019-02-19 Google Llc Object image masking using depth cameras or three-dimensional (3D) models
US9485433B2 (en) 2013-12-31 2016-11-01 Personify, Inc. Systems and methods for iterative adjustment of video-capture settings based on identified persona
US9414016B2 (en) 2013-12-31 2016-08-09 Personify, Inc. System and methods for persona identification using combined probability maps
US9774793B2 (en) * 2014-08-01 2017-09-26 Adobe Systems Incorporated Image segmentation for a live camera feed
CN104408747B (zh) * 2014-12-01 2017-02-22 杭州电子科技大学 一种适用于深度图像的人体运动检测方法
US9652829B2 (en) 2015-01-22 2017-05-16 Samsung Electronics Co., Ltd. Video super-resolution by fast video segmentation for boundary accuracy control
US9563962B2 (en) 2015-05-19 2017-02-07 Personify, Inc. Methods and systems for assigning pixels distance-cost values using a flood fill technique
US9916668B2 (en) 2015-05-19 2018-03-13 Personify, Inc. Methods and systems for identifying background in video data using geometric primitives
US9438769B1 (en) * 2015-07-23 2016-09-06 Hewlett-Packard Development Company, L.P. Preserving smooth-boundaried objects of an image
US9607397B2 (en) 2015-09-01 2017-03-28 Personify, Inc. Methods and systems for generating a user-hair-color model
CN105488791B (zh) * 2015-11-25 2018-02-13 北京奇虎科技有限公司 自然背景中图像边缘的定位方法及装置
WO2017100903A1 (en) * 2015-12-14 2017-06-22 Motion Metrics International Corp. Method and apparatus for identifying fragmented material portions within an image
KR102537416B1 (ko) * 2016-06-03 2023-05-26 우트쿠 부육사힌 3d 이미지를 캡처 및 생성하기 위한 시스템 및 방법
US9883155B2 (en) 2016-06-14 2018-01-30 Personify, Inc. Methods and systems for combining foreground video and background video using chromatic matching
CN107770433B (zh) * 2016-08-15 2020-08-04 广州立景创新科技有限公司 影像获取装置及其影像平顺缩放方法
US9881207B1 (en) 2016-10-25 2018-01-30 Personify, Inc. Methods and systems for real-time user extraction using deep learning networks
US10373316B2 (en) * 2017-04-20 2019-08-06 Ford Global Technologies, Llc Images background subtraction for dynamic lighting scenarios
CN108427940B (zh) * 2018-04-04 2023-11-17 徐育 基于深度相机的饮水机出水智能控制装置及其控制方法
CN109741331B (zh) * 2018-12-24 2021-10-26 北京航空航天大学 一种图像前景物体分割方法
CN110503061B (zh) * 2019-08-28 2022-02-11 燕山大学 一种融合多特征的多因素视频遮挡区域检测方法及系统
CN112927178B (zh) * 2019-11-21 2023-04-07 中移物联网有限公司 遮挡检测方法、装置、电子设备以及存储介质
US11800056B2 (en) 2021-02-11 2023-10-24 Logitech Europe S.A. Smart webcam system
US11800048B2 (en) 2021-02-24 2023-10-24 Logitech Europe S.A. Image generating system with background replacement or modification capabilities
CN114359123B (zh) * 2022-01-12 2024-09-20 广东汇天航空航天科技有限公司 一种图像处理方法和装置
CN116452459B (zh) * 2023-04-25 2024-05-24 北京优酷科技有限公司 阴影遮罩生成方法、阴影去除方法及装置
CN118552581B (zh) * 2024-07-24 2024-10-15 陕西晟思智能测控有限公司 用于电子枪阴极测温图像的智能分割方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847737B1 (en) * 1998-03-13 2005-01-25 University Of Houston System Methods for performing DAF data filtering and padding
US20120045132A1 (en) * 2010-08-23 2012-02-23 Sony Corporation Method and apparatus for localizing an object within an image
ES2384732B1 (es) * 2010-10-01 2013-05-27 Telefónica, S.A. Método y sistema para segmentación de primer plano de imágenes en tiempo real.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443800A (zh) * 2019-08-22 2019-11-12 深圳大学 视频图像质量的评价方法

Also Published As

Publication number Publication date
WO2012041419A1 (en) 2012-04-05
ES2395102A1 (es) 2013-02-08
US20130243313A1 (en) 2013-09-19
EP2622574A1 (en) 2013-08-07

Similar Documents

Publication Publication Date Title
ES2395102B1 (es) Metodo y sistema para segmentacion de primer plano de imagenes en tiempo real
ES2384732B1 (es) Método y sistema para segmentación de primer plano de imágenes en tiempo real.
Pawan Kumar et al. Learning layered motion segmentations of video
Vazquez-Reina et al. Multiple hypothesis video segmentation from superpixel flows
Herrera C et al. Depth map inpainting under a second-order smoothness prior
Ren et al. Star3d: Simultaneous tracking and reconstruction of 3d objects using rgb-d data
Tung et al. Simultaneous super-resolution and 3D video using graph-cuts
Huang Robust pseudo random fields for light-field stereo matching
Hog et al. Superrays for efficient light field processing
EP2980754A1 (en) Method and apparatus for generating temporally consistent superpixels
US10176401B2 (en) Method and apparatus for generating temporally consistent superpixels
Brodský et al. Structure from motion: Beyond the epipolar constraint
Kumar et al. Dense depth estimation of a complex dynamic scene without explicit 3d motion estimation
Djelouah et al. N-tuple color segmentation for multi-view silhouette extraction
Reinbacher et al. Fast variational multi-view segmentation through backprojection of spatial constraints
Lin et al. High-resolution multi-view stereo with dynamic depth edge flow
Kim et al. Multi-view object extraction with fractional boundaries
US20210241430A1 (en) Methods, devices, and computer program products for improved 3d mesh texturing
Mudenagudi et al. Super resolution of images of 3d scenecs
Bhavsar et al. Inpainting large missing regions in range images
Dogaru et al. Sphere-guided training of neural implicit surfaces
Ramnath et al. Increasing the density of active appearance models
Arun et al. Multi-shot deblurring for 3d scenes
Chen et al. Depth estimation of stereo matching based on microarray camera
Civit et al. Robust foreground segmentation for GPU architecture in an immersive 3D videoconferencing system

Legal Events

Date Code Title Description
FG2A Definitive protection

Ref document number: 2395102

Country of ref document: ES

Kind code of ref document: B1

Effective date: 20131018

FD2A Announcement of lapse in spain

Effective date: 20210915