ES2657378A1

ES2657378A1 - PROCEDURE FOR THE DETECTION AND LOCALIZATION OF HUMANS IN PICTURES ACQUIRED BY OMNIDIRECTIONAL CAMERAS (Machine-translation by Google Translate, not legally binding)

Info

Publication number: ES2657378A1
Application number: ES201730478A
Authority: ES
Inventors: Carlos ROBERTO DEL BLANCO ADÁN; Pablo CARBALLEIRA LÓPEZ; Fernando JAUREGUIZAR NUÑEZ; Narciso GARCÍA SANTOS; Lorena GARCIA DE LUCAS
Original assignee: Universidad Politecnica de Madrid
Current assignee: Universidad Politecnica de Madrid
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2018-03-05
Anticipated expiration: 2037-03-30
Also published as: ES2657378B2

Abstract

Procedure to detect and locate humans in images acquired by omnidirectional cameras. The procedure consists of two sub-procedures. The sub-procedure A of detection and localization of humans comprising the steps of capturing images of an omnidirectional camera, description of each image by a single vector of characteristics, distribution of the vector of characteristics to a set of foveal classifiers, binary prediction of the foveal classifiers, and approximate location and subsequently accurate of humans in the image, resulting in human detection in the image plane. The detection is robust to changes in pose, scale and lighting, to partial occlusions, and to geometric distortions of the omnidirectional images. The sub-procedure B of parameter adjustment uses a database of images with point annotations to adaptively generate positive and negative samples for each foveal classifier, which are used to train the parameters of the set of classifiers. (Machine-translation by Google Translate, not legally binding)

Description

55

1010

15fifteen

20twenty

2525

3030

PROCEDIMIENTO PARA LA DETECCIÓN Y LOCALIZACIÓN DE HUMANOS EN IMÁGENES ADQUIRIDAS POR CÁMARAS OMNIDIRECCIONALESPROCEDURE FOR THE DETECTION AND LOCATION OF HUMANS IN PICTURES ACQUIRED BY OMNIDIRECTIONAL CAMERAS

SECTOR TÉCNICOTECHNICAL SECTOR

La presente invención se engloba en el sector de las Tecnologías de la información y las comunicaciones y tiene aplicaciones en los sectores industriales de seguridad (video-vigilancia, defensa), transporte (gestión de flujos de personas), sanidad (monitorización de pacientes), deporte y ocio (análisis de comportamientos, interacción hombre-máquina). Y más en concreto en la detección y localización de humanos en situaciones complejas en entornos no controlados usando cámaras omnidireccionales para cubrir amplias regiones de una escena real tridimensional.The present invention encompasses the information and communications technologies sector and has applications in the industrial security (video surveillance, defense), transportation (people flow management), healthcare (patient monitoring) sectors, sport and leisure (behavior analysis, man-machine interaction). And more specifically in the detection and location of humans in complex situations in uncontrolled environments using omnidirectional cameras to cover large regions of a real three-dimensional scene.

ANTECEDENTES DE LA INVENCIÓNBACKGROUND OF THE INVENTION

La detección de humanos en una escena adquirida por una cámara convencional (o de perspectiva) es una tarea compleja debido a la gran variabilidad de la apariencia humana, la cual cambia drásticamente según la vestimenta, pose, condiciones de iluminación y punto de perspectiva de la cámara. Sin embargo es una tecnología muy deseable por su carácter no intrusivo y no colaborativo por parte de la persona a ser detectada, a diferencia de otras técnicas biométricas como reconocimiento de iris, huellas dactilares, etc.The detection of humans in a scene acquired by a conventional (or perspective) camera is a complex task due to the great variability of human appearance, which changes dramatically according to the dress, pose, lighting conditions and perspective point of the camera. However, it is a very desirable technology due to its non-intrusive and non-collaborative nature on the part of the person to be detected, unlike other biometric techniques such as iris recognition, fingerprints, etc.

El uso de cámaras omnidireccionales en el sistema de detección, en vez de convencionales o de perspectiva, entraña dificultadas adicionales debido a las graves distorsiones geométricas que introduce la óptica omnidireccional de la cámara. No obstante, tiene la notable ventaja de que es capaz de adquirir una mayor extensión de la escena real, reduciendo el número de cámaras necesarias (y el subyacente coste, mantenimiento, instalación y configuración) para monitorizar una escena de interés.The use of omnidirectional cameras in the detection system, instead of conventional or perspective, entails additional difficulties due to the serious geometric distortions introduced by the omnidirectional optics of the camera. However, it has the remarkable advantage that it is capable of acquiring a greater extent of the real scene, reducing the number of cameras needed (and the underlying cost, maintenance, installation and configuration) to monitor a scene of interest.

En general existen dos familias de métodos para la detección de humanos en imágenes adquiridas por cámaras dentro del campo de la visiónIn general there are two families of methods for the detection of humans in images acquired by cameras within the field of vision

55

1010

15fifteen

20twenty

2525

3030

artificial: los basados en detección por partes y aquellos basados en el concepto de ventana deslizante.artificial: those based on detection by parts and those based on the concept of sliding window.

Los métodos de detección basados por partes tratan de encontrar partes de un humano en una imagen, generando una detección final si alguna o todas las partes configuran una disposición geométricamente plausible.Part-based detection methods try to find parts of a human in an image, generating a final detection if any or all of the parts configure a geometrically plausible arrangement.

Los métodos de detección basados en el concepto de ventana deslizante detectan directamente a un humano en una cierta región de una imagen limitada por una ventana rectangular. Para detectar humanos en posiciones arbitrarias de una imagen, se desliza dicha ventana sobre toda la imagen, repitiéndose el proceso para ventanas con distintas escalas y proporciones con el objetivo de adaptarse a múltiples poses y tamaños de un humano en escena.Detection methods based on the sliding window concept directly detect a human in a certain region of an image limited by a rectangular window. To detect humans in arbitrary positions of an image, said window slides over the entire image, repeating the process for windows with different scales and proportions in order to adapt to multiple poses and sizes of a human on stage.

En la patente US 20140169664, se describe un aparato y un procedimiento orientado a la detección de personas en imágenes que adopta el esquema de ventana deslizante, usando como descriptores de regiones Patrones Locales Binarios y una combinación de los métodos de Máquinas Vectores Soporte y Adaboost para la tarea de clasificación.In US Patent 20140169664, an apparatus and a procedure oriented to the detection of people in images that adopt the sliding window scheme are described, using as Binary Local Pattern region descriptors and a combination of the Vector Support and Adaboost Vector Machine methods for The classification task.

Similarmente, la patente US 9008365 propone varios sistemas y métodos de detección de personas que utilizan como descriptores variaciones de los Patrones Locales Binarios que son procesados por Máquinas Vectores Soporte para la tarea de clasificación.Similarly, US 9008365 patent proposes several systems and methods for detecting people who use as variations descriptors of Binary Local Patterns that are processed by Vector Machines Support for the classification task.

DESCRIPCIÓN DE LA INVENCIÓNDESCRIPTION OF THE INVENTION

La invención referida en este documento describe un nuevo procedimiento de detección de personas que no pertenece a ninguna familia de los métodos anteriores, que además puede operar sobre imágenes adquiridas con cámaras omnidireccionales, a diferencia de los otros métodos. Este procedimiento tiene una mayor capacidad de detección que otros métodos, especialmente en situaciones complicadas (oclusiones, personas parcialmente fuera del marco imagen, apariencias distorsionadas por ópticas omnidireccionales), con un menor coste computacional y una menor complejidad en la instalación y configuración del sistema de detección.The invention referred to in this document describes a new method of detecting people who does not belong to any family of the above methods, which can also operate on images acquired with omnidirectional cameras, unlike the other methods. This procedure has a greater detection capacity than other methods, especially in complicated situations (occlusions, people partially outside the image frame, appearances distorted by omnidirectional optics), with a lower computational cost and less complexity in the installation and configuration of the system. detection.

55

1010

15fifteen

20twenty

2525

3030

El procedimiento para la detección y localización de humanos en secuencias de imágenes adquiridas por cámaras omnidireccionales de la presente invención comprende los siguientes sub-procedimientos:The method for the detection and localization of humans in image sequences acquired by omnidirectional cameras of the present invention comprises the following sub-procedures:

a. Sub-procedimiento A para la detección y localización de humanos sobre imágenes adquiridas por una cámara estática omnidireccional, el cual está configurado para la detección y localización de humanos en un entorno/escena específico; y,to. Sub-procedure A for the detection and location of humans on images acquired by an omnidirectional static camera, which is configured for the detection and location of humans in a specific environment / scene; Y,

b. Sub-procedimiento B de configuración de parámetros para la detección y localización en imágenes de humanos en un entorno/escena específico.b. Sub-procedure B for configuring parameters for the detection and localization of human images in a specific environment / scene.

El sub-procedimiento A comprende las siguientes etapas:Sub-procedure A comprises the following stages:

a. Etapa A.1: adquisición de imágenes con una cámara omnidireccional en posición estática;to. Stage A.1: image acquisition with an omnidirectional camera in static position;

b. Etapa A.2: extracción de un único super-vector de características por cada una de las imágenes adquiridas;b. Stage A.2: extraction of a single super-feature vector for each of the acquired images;

c. Etapa A.3: distribución del super-vector de características asociado a cada una de las imágenes a un conjunto de M clasificadores foveales;C. Stage A.3: distribution of the characteristics super-vector associated to each of the images to a set of M foveal classifiers;

d. Etapa A.4: predicción binaria por cada uno de los M clasificadores foveales en las categorías "humano presente en la fóvea del clasificador” y su complementario "humano no presente en la fóvea del clasificador”;d. Stage A.4: binary prediction for each of the M foveal classifiers in the categories "human present in the fovea of the classifier" and its complementary "human not present in the fovea of the classifier";

e. Etapa A.5: localización aproximada en la imagen de los humanos detectados; y,and. Stage A.5: approximate location in the image of the humans detected; Y,

f. Etapa A.6: localización precisa en la imagen de los humanos detectados.F. Stage A.6: precise location in the image of the humans detected.

La etapa A.2 comprende tres sub-etapas:Stage A.2 comprises three sub-stages:

a. Sub-etapa A.2.1: división de la imagen en bloques de NxN píxeles, los cuales pueden estar solapados o no;to. Sub-stage A.2.1: division of the image into blocks of NxN pixels, which may be overlapping or not;

b. Sub-etapa A.2.2: extracción de un vector de características por cada bloque de NxN píxeles referido en la sub-etapa anterior; donde el algoritmo de extracción de características estáb. Sub-stage A.2.2: extraction of a feature vector for each block of NxN pixels referred to in the previous sub-stage; where the feature extraction algorithm is

55

1010

15fifteen

20twenty

2525

3030

seleccionado entre: Histogramas de Gradientes Orientados, Patrones Binarios Locales, Transformada de Características Invariantes a Escala, y Características Haar.selected from: Histograms of Oriented Gradients, Local Binary Patterns, Transformed Scale Invariant Features, and Haar Features.

c. Sub-etapa A.2.3: concatenación de los vectores de características de cada bloque de la imagen en un único super- vector de características que representa a toda la imagen.C. Sub-stage A.2.3: concatenation of the feature vectors of each block of the image into a single feature vector that represents the entire image.

Los Histogramas de Gradientes Orientados representan la estructura de objeto por medio de histogramas de gradientes, donde cada histograma se construye a partir de regiones distintas del objeto, de tal forma que la fase del gradiente de un píxel de una región determina a qué intervalo del histograma contribuye y el la magnitud del gradiente especifica en qué cantidad. Los Patrones Binarios Locales codifican la estructura de un objeto mediante un histograma de patrones locales. Cada patrón local se calcula mediante las diferencias en intensidad de cada pixel con su vecindad, las cuales se umbralizan por la función signo dando lugar a una palabra código binaria que se convierte a un número decimal que determina la contribución en el histograma. La Transformada de Características Invariantes a Escala se basa en los Histogramas de Gradientes Orientados pero añade una etapa inicial de procesado multi-escala y además solo calcula un histograma de gradientes que representa todo el objeto sin considerar sub-partes. Por último, las características Haar es un tipo de transformada Wavelet muy eficiente desde el punto de vista computacional que construye una representación dispersa del objeto.Oriented Gradient Histograms represent the object structure by means of gradient histograms, where each histogram is constructed from regions other than the object, so that the gradient phase of a pixel of a region determines at what interval of the histogram contributes and the magnitude of the gradient specifies in what quantity. Local Binary Patterns encode the structure of an object through a histogram of local patterns. Each local pattern is calculated by the differences in intensity of each pixel with its neighborhood, which are thresholded by the sign function resulting in a binary code word that is converted to a decimal number that determines the contribution in the histogram. The Invariant Scale Characteristics Transform is based on Oriented Gradient Histograms but adds an initial multi-scale processing stage and also only calculates a gradient histogram that represents the entire object without considering sub-parts. Finally, Haar features is a very efficient type of Wavelet transform from the computational point of view that builds a scattered representation of the object.

La etapa A.4, que consta de un conjunto de M clasificadores foveales, cada uno de los cuales tiene asociado una fóvea y una referencia puntual sobre el plano imagen. La fóvea es una cierta región de la imagen en la que se centra la detección de humanos para un clasificador dado y cuya área y morfología es inferida por el Sub-procedimiento B, y que por tanto está automáticamente adaptada al entorno/escena. La referencia puntual es un par de coordenadas del plano imagen que representan la fóvea de un clasificador. El conjunto de referencias puntuales de los M clasificadores foveales forman una rejilla/malla espacial bidimensional que cubre el área de la imagen adquirida por la cámara.Stage A.4, which consists of a set of M foveal classifiers, each of which has a fovea and a specific reference on the image plane. The fovea is a certain region of the image that focuses on the detection of humans for a given classifier and whose area and morphology is inferred by Sub-procedure B, and therefore is automatically adapted to the environment / scene. The point reference is a pair of coordinates of the image plane that represent the fovea of a classifier. The set of point references of the M foveal classifiers form a two-dimensional spatial grid / mesh that covers the area of the image acquired by the camera.

55

1010

15fifteen

20twenty

2525

3030

Dicha rejilla/maNa espacial es configurable mediante diferentes patrones (hexagonal, rectangular, polar, etc.) y diferente número de clasificadores (por ejemplo, M=825). Cada clasificador foveal está entrenado/configurado para detectar humanos en su fóvea utilizando como entrada el super-vector de características de la imagen común a todos los clasificadores foveales. Las fóveas de los clasificadores pueden solaparse. El algoritmo de clasificación no está restringido, pudiendo usarse entre otros los siguientes clasificadores: Maquinas Vectores Soporte, Redes Neuronales, y Regresión Logística.Said spatial grid / hand is configurable by different patterns (hexagonal, rectangular, polar, etc.) and different number of classifiers (for example, M = 825). Each foveal classifier is trained / configured to detect humans in its fovea using as input the super-vector image features common to all foveal classifiers. The foveas of the classifiers may overlap. The classification algorithm is not restricted, and the following classifiers can be used among others: Support Vector Machines, Neural Networks, and Logistic Regression.

La etapa A.5 utiliza las referencias puntuales de los clasificadores foveales activos, es decir aquellos que han detectado un humano en sus fóveas, para determinar de forma aproximada la localización del humano en un área de la imagen.Stage A.5 uses the specific references of the active foveal classifiers, that is, those that have detected a human in their foveas, to roughly determine the location of the human in an area of the image.

La etapa A.6 que fusiona los resultados de detección de cada clasificador foveal activo para refinar la localización de los humanos y producir la detección final y única. Consta de tres sub-etapas:Stage A.6 that merges the detection results of each active foveal classifier to refine the location of humans and produce the final and unique detection. It consists of three sub-stages:

a. Sub-etapa A.6.1: extracción de agrupaciones/vecindades de detecciones de acuerdo a la rejilla/malla que forman las referencias puntuales de los clasificadores foveales; Las agrupaciones/vecindades de detecciones deben superar un umbral mínimo para su consideración, ya que el área del humano sobre la imagen se solapa con múltiples fóveas de detectores foveales vecinos.to. Sub-stage A.6.1: extraction of clusters / neighborhoods of detections according to the grid / mesh that form the point references of the foveal classifiers; Clusters / neighborhoods of detections must exceed a minimum threshold for consideration, since the area of the human on the image overlaps with multiple foveas of neighboring foveal detectors.

b. Sub-etapa A.6.2: supresión de no-máximos de lasb. Sub-stage A.6.2: deletion of non-maximums of

agrupaciones/vecindades extraídas, obteniéndose una única agrupación/vecindad por humano;extracted groups / neighborhoods, obtaining a single grouping / neighborhood per human;

c. Sub-etapa A.6.3: localización precisa del humano sobre la imagen mediante la interpolación de las coordenadas de las referencias puntuales de los clasificadores foveales que forma parte de cada agrupación/vecindad obtenida en la etapa anterior;C. Sub-stage A.6.3: precise location of the human on the image by interpolating the coordinates of the specific references of the foveal classifiers that is part of each grouping / neighborhood obtained in the previous stage;

de tal forma que se genera una única localización puntual por humano, que representa a su vez la detección final del mismo.in such a way that a single point location is generated per human, which in turn represents its final detection.

55

1010

15fifteen

20twenty

2525

3030

El sub-procedimiento B comprende las siguientes etapas:Sub-procedure B comprises the following steps:

a. Etapa B.1: creación de una base de datos de imágenes de una escena/entorno específico y que contiene instancias de humanos; donde las imágenes se adquieren con una cámara omnidireccional, la cual debe estar situada en la misma posición que la cámara utilizada en la detección;to. Stage B.1: creation of an image database of a specific scene / environment that contains human instances; where the images are acquired with an omnidirectional camera, which must be located in the same position as the camera used in the detection;

b. Etapa B.2: anotación puntual de los humanos en la base de datos de imágenes. La anotación puntual consiste en la especificación de las coordenadas de un punto representativo del humano sobre la imagen. El punto representativo elegido debe ser consistente en todas las instancias del objeto anotadas (por ejemplo, la cabeza).b. Stage B.2: punctual annotation of humans in the image database. The punctual annotation consists in the specification of the coordinates of a representative point of the human on the image. The representative point chosen must be consistent in all instances of the object noted (for example, the head).

c. Etapa B.3: generación adaptativa de muestras positivas y negativas para cada clasificador foveal a partir de las anotaciones puntuales; Una anotación puntual genera una muestra positiva para un determinado clasificador foveal si la distancia entre las coordenadas de la anotación puntual y las coordenadas del punto de referencia del clasificador foveal es menor que un umbral. Si supera dicho umbral, se genera una muestra negativa para el clasificador implicado. Como resultado una misma anotación puntual generará un conjunto de muestras positivas para un subconjunto de clasificadores foveales y otro conjunto de muestras negativas para un subconjunto clasificadores foveales disjunto del anterior.C. Stage B.3: Adaptive generation of positive and negative samples for each foveal classifier from the point annotations; A point annotation generates a positive sample for a given foveal classifier if the distance between the coordinates of the point annotation and the coordinates of the reference point of the foveal classifier is less than a threshold. If this threshold is exceeded, a negative sample is generated for the classifier involved. As a result, the same punctual annotation will generate a set of positive samples for a subset of foveal classifiers and another set of negative samples for a subset of foveal classifiers disjoint from the previous one.

d. Etapa B.4: ajuste de los parámetros (entrenamiento en el argot de clasificadores) de cada clasificador foveal para la óptima detección de humanos usando las muestras positivas y negativas generadas.d. Stage B.4: adjustment of the parameters (training in the jargon of classifiers) of each foveal classifier for the optimal detection of humans using the positive and negative samples generated.

El procedimiento de la presente invención no requiere información de la escena, más allá de las anotaciones puntuales en la base de datos, o calibración de la cámara.The process of the present invention does not require scene information, beyond the specific annotations in the database, or camera calibration.

El procedimiento de la presente invención puede extenderse a la localización y detección de objetos genéricos contenidos en imágenes adquiridas por cámaras omnidireccionales o perspectiva.The process of the present invention can be extended to the location and detection of generic objects contained in images acquired by omnidirectional cameras or perspective.

55

1010

15fifteen

20twenty

2525

3030

La invención anteriormente descrita tiene las siguientes ventajas y diferencias respecto del estado de la técnica.The invention described above has the following advantages and differences with respect to the state of the art.

La primera diferencia fundamental es que cada imagen se describe mediante un único vector de características global, en vez de extraerse numerosos vectores procedentes de cada desplazamiento de una ventana de detección (en el caso de los métodos basados en ventana deslizante), o bien de diferentes regiones de la imagen que conforman sub-partes del humano (en el caso de los métodos basados en partes). Esta diferencia tiene un gran impacto en la reducción del coste computacional, permitiendo la operación en tiempo real del sistema en arquitecturas hardware de bajo coste.The first fundamental difference is that each image is described by a single global feature vector, instead of extracting numerous vectors from each displacement of a detection window (in the case of sliding window based methods), or of different regions of the image that make up sub-parts of the human (in the case of part-based methods). This difference has a great impact on the reduction of computational cost, allowing the real-time operation of the system in low-cost hardware architectures.

La segunda diferencia radical es que para detectar humanos en las escenas capturadas por la cámara en el método propuesto, se usa un conjunto de clasificadores independientes foveales que analizan un único vector de características correspondiente a toda la imagen. Cada clasificador foveal tiene asociado una fóvea (de la cual recibe su nombre) o área de atención en el plano de imagen que le permite detectar humanos con diferentes apariencias, poses, tamaños, localizaciones y con oclusiones arbitrarias. Esta característica es fundamental para los sistemas basados en cámaras omnidireccionales, en los cuales la apariencia de una persona cambia radicalmente en función de su posición sobre el plano imagen debido a la gran distorsión introducida por la óptica. Por otra parte, como cada clasificador foveal procesa el mismo vector de características correspondiente con toda la imagen, también tiene acceso a la información contextual de la escena. De esta forma cada clasificador no solo usa su fóvea para la detección de humanos, sino también el resto de áreas de la imagen, lo que le permite ser robusto a oclusiones parciales, y personas parcialmente fuera del área de la imagen. En cuanto al proceso de determinación de la fóvea de cada clasificador, este sigue un procedimiento automático basado en aprendizaje máquina (entrenamiento supervisado), de tal forma que el clasificador foveal aprende automáticamente el tamaño y forma de su fóvea a partir de una base de datos de anotaciones puntuales de humanos. Como resultado, cada clasificador foveal tiene que lidiar con un subconjunto limitado de variaciones de la apariencia humana, lo que simplifica la tarea deThe second radical difference is that to detect humans in the scenes captured by the camera in the proposed method, a set of foveal independent classifiers that analyze a single vector of characteristics corresponding to the entire image is used. Each foveal classifier is associated with a fovea (from which it receives its name) or attention area in the image plane that allows it to detect humans with different appearances, poses, sizes, locations and with arbitrary occlusions. This characteristic is essential for systems based on omnidirectional cameras, in which the appearance of a person changes radically depending on their position on the image plane due to the great distortion introduced by the optics. On the other hand, since each foveal classifier processes the same characteristic vector corresponding to the entire image, it also has access to the contextual information of the scene. In this way, each classifier not only uses its fovea for the detection of humans, but also the rest of the image areas, which allows it to be robust to partial occlusions, and people partially outside the image area. As for the process of determining the fovea of each classifier, this follows an automatic procedure based on machine learning (supervised training), so that the foveal classifier automatically learns the size and shape of its fovea from a database of specific human annotations. As a result, each foveal classifier has to deal with a limited subset of variations in human appearance, which simplifies the task of

55

1010

15fifteen

20twenty

2525

3030

clasificación y permite mejorar el rendimiento de sistema de detección de humanos. De forma totalmente diferente, otros métodos y sistemas utilizan el mismo conjunto de clasificadores para analizar diferentes vectores de características procedentes de cada región de la imagen (determinada por una ventana deslizante o sub-partes de imagen parcialmente solapadas) con el objetivo de ser robusto a la gran variabilidad de la apariencia de un humano. Sin embargo, esta estrategia clásica de otros métodos tiene dos desventajas fundamentales. La primera es que incurre en un gran coste computacional al tener que calcular un elevado número de vectores de características por imagen. La segunda dificultad deriva del hecho de que se utiliza el mismo conjunto de clasificadores para cada región de la imagen, por lo que tiene que lidiar con todas las distorsiones geométricas que introduce una cámara omnidireccional, y que provoca que un mismo humano con una misma pose tenga una apariencia muy distinta en función de la posición del mismo sobre el plano imagen.classification and allows to improve the performance of human detection system. In a totally different way, other methods and systems use the same set of classifiers to analyze different feature vectors from each region of the image (determined by a sliding window or partially overlapping image sub-parts) in order to be robust to the great variability of the appearance of a human. However, this classic strategy of other methods has two fundamental disadvantages. The first is that it incurs a large computational cost by having to calculate a high number of feature vectors per image. The second difficulty derives from the fact that the same set of classifiers is used for each region of the image, so it has to deal with all the geometric distortions that an omnidirectional camera introduces, and that causes the same human with the same pose It has a very different appearance depending on its position on the image plane.

La tercera diferencia fundamental es el proceso de entrenamiento de los clasificadores. El resto de métodos necesitan especificar/etiquetar regiones de la imagen (normalmente rectangulares) que contengan humanos (muestras positivas) y otras que no contengan humanos (muestras negativas). Todo ello conlleva una ingente labor y mano de obra en el desarrollo de tal etiquetado. Sin embargo, el método de entrenamiento para los clasificadores foveales, no es solo diferente, sino además menos laborioso y por tanto eficiente. Para empezar, el etiquetado se reduce a una representación puntual que identifica al humano en la imagen. Entonces, las muestras positivas y negativas se generan automáticamente y de forma independiente para cada clasificador, de tal forma que el mismo vector de características de una imagen puede ser positivo para un clasificador foveal pero negativo para otros clasificadores, dependiendo de proximidad del etiquetado puntual del humano a las fóveas de cada clasificador.The third fundamental difference is the training process of the classifiers. The rest of the methods need to specify / label regions of the image (usually rectangular) that contain humans (positive samples) and others that do not contain humans (negative samples). All this entails an enormous labor and labor force in the development of such labeling. However, the training method for foveal classifiers is not only different, but also less laborious and therefore efficient. To begin with, the labeling is reduced to a punctual representation that identifies the human in the image. Then, positive and negative samples are generated automatically and independently for each classifier, so that the same feature vector of an image can be positive for a foveal classifier but negative for other classifiers, depending on the proximity of the point labeling of the human to the foveas of each classifier.

Además de las ventajas descritas anteriormente, una ventaja competitiva adicional del procedimiento de detección de personas referido en esta invención es que se caracteriza por no requerir información de la escena (másIn addition to the advantages described above, an additional competitive advantage of the method of detecting persons referred to in this invention is that it is characterized by not requiring scene information (more

55

1010

15fifteen

20twenty

2525

3030

allá de las anotaciones puntuales en la base de datos), ni calibración de la cámara omnidireccional. Por lo tanto, no solo se prescinde de la necesidad de etapas de calibración de la cámara y corrección geométrica de las imágenes capturadas, sino que también se evita los errores y dificultades derivadas de ellas y que reducen el rendimiento de detección.beyond punctual entries in the database), or omnidirectional camera calibration. Therefore, not only the need for camera calibration and geometric correction stages of the captured images is ignored, but also the errors and difficulties derived from them and that reduce the detection performance are avoided.

BREVE DESCRIPCIÓN DE LAS FIGURASBRIEF DESCRIPTION OF THE FIGURES

La Fig. 1 muestra un diagrama de bloques del procedimiento de detección y localización de humanos de la invención referida en este documento, el cual está compuesto por el sub-procedimiento A para la detección y localización de humanos sobre imágenes adquiridas por una cámara estática omnidireccional y el sub-procedimiento B de configuración (o entrenamiento) de parámetros del sub-procedimiento A que permite la correcta detección y localización de humanos en imágenes en un entorno/escena específico.Fig. 1 shows a block diagram of the human detection and location procedure of the invention referred to herein, which is composed of sub-procedure A for the detection and location of humans on images acquired by an omnidirectional static camera and sub-procedure B of configuration (or training) of parameters of sub-procedure A that allows the correct detection and location of humans in images in a specific environment / scene.

La Fig. 2 muestra las seis etapas del sub-procedimiento A, desde la adquisición de imágenes hasta la detección y localización final de humanos en esas imágenes.Fig. 2 shows the six stages of sub-procedure A, from the acquisition of images to the detection and final location of humans in those images.

La Fig. 3 muestra las cuatro etapas del sub-procedimiento B, desde la creación de una base anotada de imágenes hasta la configuración de los parámetros del sub-procedimiento A.Fig. 3 shows the four stages of sub-procedure B, from the creation of an annotated base of images to the configuration of the parameters of sub-procedure A.

La Fig. 4 ilustra a etapa A.2 la cual genera un único super-vector de características por cada imagen adquirida mediante la división de la imagen en bloques, el cálculo de un vector de características por cada bloque y la concatenación de los vectores de características de todos los bloques para forma un super-vector que representa la imagen.Fig. 4 illustrates step A.2 which generates a single super-feature vector for each image acquired by dividing the image into blocks, calculating a feature vector for each block and concatenating the vector vectors. characteristics of all the blocks to form a super-vector that represents the image.

La Fig.5 muestra un patrón de rejilla hexagonal/quincuncial de M clasificadores foveales utilizado en una realización de la invención, y una agrupación/vecindad de Np clasificadores.Fig. 5 shows a hexagonal / quincuncial grid pattern of M foveal classifiers used in an embodiment of the invention, and a cluster / neighborhood of Np classifiers.

La Fig. 6 ilustra la etapa A.4 en la que los M clasificadores foveales realizan una predicción binaria para determinar si hay un humano presente en sus fóveas, generando en su caso una activación representada por el punto deFig. 6 illustrates step A.4 in which the M foveal classifiers make a binary prediction to determine if there is a human present in their foveas, generating an activation represented by the point of

55

1010

15fifteen

20twenty

2525

3030

referencia activo del clasificador foveal, y la etapa A.6 que localiza de forma precisa en la imagen los humanos detectados mediante la selección y filtrado de agrupaciones/vecindades de detecciones sobre la malla/rejilla de puntos de referencia de los clasificadores foveales y finalmente la interpolación de las coordenadas de los puntos de referencia de cada agrupación/vecindad.active reference of the foveal classifier, and step A.6 that accurately locates in the image the humans detected by selecting and filtering clusters / neighborhoods of detections on the mesh / grid of reference points of the foveal classifiers and finally the interpolation of the coordinates of the reference points of each grouping / neighborhood.

La Fig. 7 ilustra la etapa B.2 de anotación puntual de humanos en las imágenes que componen la base de datos.Fig. 7 illustrates step B.2 of human point annotation in the images that make up the database.

La Fig. 8 ilustra la etapa B.3 de generación adaptativa de muestras positivas y negativas para cada clasificador puntual a partir de las anotaciones puntuales de humanos de la base de datos.Fig. 8 illustrates step B.3 of adaptive generation of positive and negative samples for each point classifier from the human point annotations in the database.

DESCRIPCIÓN DE LA FORMA DE REALIZACIÓN PREFERIDADESCRIPTION OF THE PREFERRED EMBODIMENT

Un procedimiento acorde con una realización de la invención integra dos sub-procedimientos diferenciados (Fig. 1). Sub-procedimiento A para la detección y localización de humanos (1) sobre imágenes (3) adquiridas por una cámara estática omnidireccional (2), el cual está explícitamente configurado para la detección y localización de humanos en un entorno/escena específico. La detección de humanos opera en tiempo real en un ordenador de propósito general y es robusta a la visibilidad parcial de humanos (1) en la escena (bien por oclusión o por estar parcialmente fuera de los márgenes de la imagen (3)), a cambios de iluminación, a variaciones de la apariencia humana (diferentes morfologías, poses y escalas), y a las distorsiones geométricas de la óptica de la cámara omnidireccional (2). Y sub-procedimiento B de configuración (o entrenamiento) de parámetros del sub-procedimiento A que permite la correcta detección y localización de humanos (1) en imágenes (2) en un entorno/escena específico.A method according to an embodiment of the invention integrates two differentiated sub-procedures (Fig. 1). Sub-procedure A for the detection and location of humans (1) on images (3) acquired by an omnidirectional static camera (2), which is explicitly configured for the detection and location of humans in a specific environment / scene. Human detection operates in real time on a general purpose computer and is robust to the partial visibility of humans (1) on the scene (either by occlusion or by being partially outside the margins of the image (3)), a lighting changes, variations in human appearance (different morphologies, poses and scales), and geometric distortions of the optics of the omnidirectional chamber (2). And sub-procedure B of configuration (or training) of parameters of sub-procedure A that allows the correct detection and location of humans (1) in images (2) in a specific environment / scene.

El sub-procedimiento A comprende seis etapas desde la adquisición de imágenes (3) hasta la detección y localización final (4) de humanos en esas imágenes (Fig. 2).Sub-procedure A comprises six stages from the acquisition of images (3) to the detection and final location (4) of humans in those images (Fig. 2).

La primera etapa A.1 adquiere imágenes (3) desde una cámara omnidireccional (2) en posición estática. Como ejemplo práctico, la cámara omnidireccional (2) se podría situar en el techo de la sala de oficinas para queThe first stage A.1 acquires images (3) from an omnidirectional camera (2) in static position. As a practical example, the omnidirectional chamber (2) could be placed on the ceiling of the office room so that

55

1010

15fifteen

20twenty

2525

3030

las imágenes (3) adquiridas abarquen todo el interior de la sala. La misma configuración de la cámara debe respetarse para el sub-procedimiento B. Las imágenes adquiridas tienen una resolución de 800x600 píxeles.the acquired images (3) cover the entire interior of the room. The same camera configuration must be respected for sub-procedure B. The acquired images have a resolution of 800x600 pixels.

La etapa A.2 genera un único vector de características (8) por cada imagen (3) adquirida (Fig. 4). Esta extracción del vector de características (8) se desglosa en tres sub-etapas. La primera sub-etapa A.2.1 divide la imagen (3) en bloques de NxN píxeles (6), los cuales pueden estar solapados o no. La sub-etapa A.2.2 genera un vector de características (7) por cada bloque de NxN píxeles (6) de la sub-etapa anterior. El procedimiento para la generación del vector de características (7) para cada bloque (6) puede ser uno de los siguientes: Histogramas de Gradientes Orientados (HOG), Patrones Binarios Locales, Transformada de Características Invariantes a Escala, y Características Haar. No obstante, no existe limitación a priori para el uso de otras técnicas de extracción de características. Como ejemplo preferible, la imagen (3) se ha dividido en bloques (6) de 16x16 píxeles no solapados. El descriptor de características de Histogramas de Gradientes Orientados (HOG) (N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection,” Conference on Computer Vision and Pattern Recognition (CVPR), 2005) ha sido calculado por cada bloque (6), utilizando los siguientes parámetros: tamaño de celda de 8x8 píxeles, solapamiento de área entre celdas de 1/2, y nueve intervalos orientados por histograma. Y finalmente, se ha concatenado todos los vectores HOG (7) en un único super-vector (8). La diferencia principal con respecto a la implementación estándar de HOG es el tamaño del bloque (6), el cual era originalmente de un tamaño de 64x128 píxeles. En este ejemplo de realización se utilizan bloques más pequeños (16x16 píxeles) para reducir el tamaño final del super-vector concatenado (8).Step A.2 generates a single feature vector (8) for each image (3) acquired (Fig. 4). This extraction of the feature vector (8) is broken down into three sub-stages. The first sub-stage A.2.1 divides the image (3) into blocks of NxN pixels (6), which may or may not be overlapping. Sub-stage A.2.2 generates a feature vector (7) for each block of NxN pixels (6) of the previous sub-stage. The procedure for generating the feature vector (7) for each block (6) can be one of the following: Oriented Gradient Histograms (HOG), Local Binary Patterns, Transforming Scale Invariant Features, and Haar Features. However, there is no a priori limitation for the use of other feature extraction techniques. As a preferable example, the image (3) has been divided into blocks (6) of 16x16 non-overlapping pixels. The descriptor of features of Oriented Gradient Histograms (HOG) (N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," Conference on Computer Vision and Pattern Recognition (CVPR), 2005) has been calculated for each block (6), using the following parameters: 8x8 pixel cell size, area overlap between 1/2 cells, and nine histogram-oriented intervals, and finally, all HOG vectors (7) have been concatenated into a single super -vector (8) The main difference with respect to the standard HOG implementation is the block size (6), which was originally a size of 64x128 pixels, in this embodiment example smaller blocks (16x16 pixels are used) ) to reduce the final size of the concatenated super-vector (8).

La sub-etapa A.2.3 concatena los vectores de características (7) de cada bloque (6) de la imagen (3) en un único super-vector de características (8) que representa a toda la imagen.Sub-stage A.2.3 concatenates the feature vectors (7) of each block (6) of the image (3) into a single feature super-vector (8) that represents the entire image.

La etapa A.3 distribuye el super-vector de características (8) de la imagen a un conjunto de M clasificadores foveales (9).Step A.3 distributes the super-feature vector (8) of the image to a set of M foveal classifiers (9).

55

1010

15fifteen

20twenty

2525

3030

En la etapa A.4, los M clasificadores foveales (9) realizan una predicción binaria en las categorías "humano presente en la fóvea del clasificador” y su complementario "humano no presente en la fóvea del clasificador”. La fóvea de un clasificador (10) es una cierta región de la imagen (3) en la que se centra la detección de humanos (1) y cuya área y morfología es automáticamente inferida por el Sub-procedimiento B de configuración de parámetros. Cada clasificador foveal tiene además asociado una referencia puntual (10) sobre el plano imagen, la cual es un par de coordenadas del plano imagen que representan la fóvea del clasificador. El conjunto de referencias puntuales de los M clasificadores foveales (9) forman una rejilla/malla espacial bidimensional que cubre el área de la imagen (3) adquirida por la cámara (Fig. 6). Dicha rejilla/malla espacial es configurable mediante diferentes patrones (hexagonal, rectangular, polar, etc.) y diferente número de clasificadores. La Fig. 5 muestra un ejemplo de patrón hexagonal/quincuncial. Cada clasificador foveal (10) está entrenado/configurado para detectar humanos (1) en su fóvea utilizando como entrada el super-vector de características (8) de la imagen (3), el cual es común a todos los clasificadores foveales. Esto supone una gran ventaja competitiva desde el punto de vista de coste computacional, ya que el número de operaciones es sensiblemente menor que otras técnicas basadas en el concepto de ventana deslizante o de detección por partes, ya que los clasificadores (9) solo tienen que procesar un único vector de características (8) por imagen (3). Por otra parte, el algoritmo de clasificación usado por los clasificadores foveales (9) no está a priori restringido, pudiendo usarse entre otros los siguientes clasificadores: Maquinas Vectores Soporte, Redes Neuronales, y Regresión Logística. Como ejemplo particular, se han utilizado 825 clasificadores (9) Máquinas Vectores Soporte (SVM) con un núcleo lineal, cuyas referencias puntuales (10) están dispuestas en una malla/rejilla con un patrón hexagonal/quincuncial.In step A.4, the M foveal classifiers (9) make a binary prediction in the categories "human present in the fovea of the classifier" and its complementary "human not present in the fovea of the classifier". The fovea of a classifier (10) is a certain region of the image (3) in which the detection of humans (1) is centered and whose area and morphology is automatically inferred by Sub-procedure B of parameter configuration. Each foveal classifier also has an associated reference point (10) on the image plane, which is a pair of coordinates of the image plane that represent the fovea of the classifier. The set of point references of the M foveal classifiers (9) form a two-dimensional spatial grid / mesh that covers the area of the image (3) acquired by the camera (Fig. 6). Said spatial grid / mesh is configurable by different patterns (hexagonal, rectangular, polar, etc.) and different number of classifiers. Fig. 5 shows an example of a hexagonal / quincuncial pattern. Each foveal classifier (10) is trained / configured to detect humans (1) in its fovea using as input the super-feature vector (8) of the image (3), which is common to all foveal classifiers. This supposes a great competitive advantage from the point of view of computational cost, since the number of operations is significantly smaller than other techniques based on the concept of sliding window or part detection, since the classifiers (9) only have to process a single feature vector (8) per image (3). On the other hand, the classification algorithm used by the foveal classifiers (9) is not a priori restricted, and the following classifiers can be used among others: Support Vector Machines, Neural Networks, and Logistic Regression. As a particular example, 825 classifiers (9) Support Vector Machines (SVM) have been used with a linear core, whose point references (10) are arranged in a mesh / grid with a hexagonal / quincuncial pattern.

La etapa A.5 localiza de forma aproximada en la imagen (3) los humanos detectados, utilizando las referencias puntuales (10) de los clasificadores foveales activos (12) (aquellos que han detectado un humano en su fóvea).Stage A.5 approximates in the image (3) the humans detected, using the specific references (10) of the active foveal classifiers (12) (those who have detected a human in their fovea).

55

1010

15fifteen

20twenty

2525

3030

Nótese que varios clasificadores foveales (12) se activan por un mismo humano si sus fóveas están solapadas.Note that several foveal classifiers (12) are activated by the same human if their foveas are overlapping.

La última etapa A.6 localiza de forma precisa en la imagen (3) los humanos detectados, fusionando los resultados de detección de cada clasificador foveal (10), lo que permite refinar la localización y producir una detección final y única (4) por humano (1) (Fig. 6). La etapa A.6 consta de tres sub-etapas. La primera sub-etapa A.6.1 selecciona agrupaciones/vecindades (11) de detecciones acordes con la estructura espacial de la rejilla/malla (9) que forman las referencias puntuales (10) de los clasificadores foveales (Np clasificadores forman una vecindad en la Fig.5). Las agrupaciones/vecindades (11) de detecciones deben superar un umbral mínimo para su consideración, ya que el área que ocupa un humano (1) sobre la imagen (3) corresponde a una región en la que se solapan múltiples fóveas de clasificadores foveales vecinos (11). Esta restricción evita falsos positivos por detecciones aisladas de los clasificadores (9). La sub-etapa A.6.2 realiza una supresión de no-máximos de las agrupaciones/vecindades (11) activadas, obteniéndose una única agrupación/vecindad por humano (1). La última sub-etapa A.6.3 localiza de forma precisa el humano (1) sobre la imagen (3) mediante la interpolación de las coordenadas de las referencias puntuales (10) de los clasificadores foveales pertenecientes a la agrupación/vecindad (11) seleccionada en la etapa anterior. Esta interpolación está ponderada por la medida de confianza en la detección de cada clasificador foveal (10). Se genera, por tanto, una única localización puntual (4) por humano (1), que representa a su vez la detección final del mismo. Típicamente, se selecciona agrupaciones/vecindades (11) que contienen al menos 5 detecciones de acuerdo a la estructura espacial de la rejilla/malla (9). La localización precisa (4) de un humano (1) detectado sobre la imagen (3) se realiza mediante la interpolación de las coordenadas de todas las referencias puntuales (10) de los clasificadores foveales que forman parte de una agrupación/vecindad (11) que ha superado los criterios de número mínimo de detecciones por agrupación/vecindad y supresión de no-máximos.The last stage A.6 accurately locates in the image (3) the humans detected, merging the detection results of each foveal classifier (10), which allows to refine the location and produce a final and unique detection (4) by human (1) (Fig. 6). Stage A.6 consists of three sub-stages. The first sub-stage A.6.1 selects clusters / neighborhoods (11) of detections according to the spatial structure of the grid / mesh (9) that form the point references (10) of the foveal classifiers (Np classifiers form a neighborhood in the Fig. 5). Clusters / neighborhoods (11) of detections must exceed a minimum threshold for consideration, since the area that a human occupies (1) on the image (3) corresponds to a region in which multiple foveas of neighboring foveal classifiers overlap (eleven). This restriction avoids false positives due to isolated detectors of the classifiers (9). Sub-stage A.6.2 deletes non-maximums from activated clusters / neighborhoods (11), obtaining a single cluster / neighborhood per human (1). The last sub-stage A.6.3 accurately locates the human (1) on the image (3) by interpolating the coordinates of the point references (10) of the foveal classifiers belonging to the selected cluster / neighborhood (11) in the previous stage. This interpolation is weighted by the measure of confidence in the detection of each foveal classifier (10). Therefore, a single point location (4) per human (1) is generated, which in turn represents its final detection. Typically, clusters / neighborhoods (11) are selected that contain at least 5 detections according to the spatial structure of the grid / mesh (9). The precise location (4) of a human (1) detected on the image (3) is done by interpolating the coordinates of all the point references (10) of the foveal classifiers that are part of a cluster / neighborhood (11) which has exceeded the criteria of minimum number of detections by grouping / neighborhood and suppression of non-maximums.

El sub-procedimiento B comprende cuatro etapas desde la creación de una base anotada de imágenes (5) hasta la configuración de los parámetros delSub-procedure B comprises four stages from the creation of an annotated base of images (5) to the configuration of the parameters of the

55

1010

15fifteen

20twenty

2525

3030

sub-procedimiento A (Fig. 3). La primera etapa B.1 crea de una base de datos de imágenes (5) de una escena/entorno específico y que contiene instancias de humanos (1). Las imágenes (3) se adquieren con una cámara omnidireccional (2), la cual debe estar situada en la misma posición que la cámara utilizada en la detección. Por ejemplo, la cámara omnidireccional (2) se sitúa en el techo de la sala de oficinas para que las imágenes (3) adquiridas abarquen todo el interior de la sala. La misma configuración de la cámara debe respetarse para el sub-procedimiento A. La etapa B.2 realiza una anotación puntual de los humanos (1) en la base de datos de imágenes (5) (Fig. 7). La anotación puntual consiste en la especificación de las coordenadas de un punto representativo del humano (1) sobre la imagen (3). El punto representativo elegido debe ser consistente en todas las instancias del objeto anotadas. Por ejemplo, el punto representativo del humano (1) sobre la imagen (3) para realizar la anotación de humanos es la cabeza, por ser esta una referencia que se ve mínimamente afectada por las oclusiones con objetos de la sala y otros humanos para la localización de la cámara considerada. La anotación puntual supone una gran ventaja competitiva en el coste de generación de una base de datos anotada en comparación con otras técnicas de detección en imágenes que requiere anotaciones más complejas (rectángulos u otros polígonos, áreas de imagen, etc.). La etapa B.3 genera adaptativamente un conjunto de muestras positivas y negativas para cada clasificador foveal (10) a partir de las anotaciones puntuales (Fig. 8). Una anotación puntual genera una muestra positiva para un determinado clasificador foveal (10) si la distancia entre las coordenadas de la anotación puntual y las coordenadas del punto de referencia del clasificador foveal es menor que un umbral. Si supera dicho umbral, se genera una muestra negativa para el clasificador implicado (10). Como resultado, una misma anotación puntual generará un conjunto de muestras positivas para un subconjunto de clasificadores foveales (11) y otro conjunto de muestras negativas para el subconjunto de clasificadores foveales complementario al anterior. Por ejemplo, para el conjunto de muestras positivas y negativas para cada clasificador foveal, se determina que una anotación puntual genera una muestra positiva para siete clasificadores foveales (Np=7), que son aquellossub-procedure A (Fig. 3). The first stage B.1 creates an image database (5) of a specific scene / environment that contains human instances (1). The images (3) are acquired with an omnidirectional camera (2), which must be located in the same position as the camera used in the detection. For example, the omnidirectional camera (2) is placed on the ceiling of the office room so that the acquired images (3) cover the entire interior of the room. The same camera configuration must be respected for sub-procedure A. Step B.2 makes a timely annotation of the humans (1) in the image database (5) (Fig. 7). The point annotation consists in the specification of the coordinates of a representative point of the human (1) on the image (3). The representative point chosen must be consistent in all instances of the object noted. For example, the representative point of the human (1) on the image (3) to perform the human annotation is the head, as this is a reference that is minimally affected by occlusions with objects in the room and other humans for location of the camera considered. The punctual annotation supposes a great competitive advantage in the cost of generating an annotated database in comparison with other techniques of detection in images that requires more complex annotations (rectangles or other polygons, image areas, etc.). Step B.3 adaptively generates a set of positive and negative samples for each foveal classifier (10) from the point annotations (Fig. 8). A point annotation generates a positive sample for a given foveal classifier (10) if the distance between the coordinates of the point annotation and the coordinates of the reference point of the foveal classifier is less than a threshold. If this threshold is exceeded, a negative sample is generated for the classifier involved (10). As a result, the same punctual annotation will generate a set of positive samples for a subset of foveal classifiers (11) and another set of negative samples for the subset of foveal classifiers complementary to the previous one. For example, for the set of positive and negative samples for each foveal classifier, it is determined that a punctual annotation generates a positive sample for seven foveal classifiers (Np = 7), which are those

con una distancia menor entre las coordenadas de la anotación puntual y las coordenadas del punto de referencia de los clasificadores foveales. La anotación puntual genera una muestra negativa para el resto de clasificadores foveales. La última etapa B.4 realiza el ajuste de los parámetros (entrenamiento 5 en el argot de clasificadores) de cada clasificador foveal (10) para la óptima detección de humanos, usando las muestras positivas y negativas generadas en la sub-etapa anterior. Como ejemplo, se puede utilizar el algoritmo de entrenamiento estándar de las Máquinas Vectores Soporte con regularización.with a smaller distance between the coordinates of the point annotation and the coordinates of the reference point of the foveal classifiers. The punctual annotation generates a negative sample for the rest of the foveal classifiers. The last stage B.4 performs the adjustment of the parameters (training 5 in the classifier jargon) of each foveal classifier (10) for the optimal detection of humans, using the positive and negative samples generated in the previous sub-stage. As an example, you can use the standard training algorithm of Support Vector Machines with regularization.

Nótese que el procedimiento referido en esta invención se caracteriza 10 por no requerir información de la escena (más allá de las anotaciones puntuales en la base de datos (5)) o calibración de la cámara (2). Esto supone ventajas competitivas en el despliegue, configuración y aplicación práctica del procedimiento de detección y localización de humanos. Además, dicho procedimiento podría extenderse a la localización y detección de objetos 15 genéricos contenidos en imágenes (3) adquiridas por cámaras omnidireccionales (2) y perspectiva, ya que por un lado solo es necesaria la anotación consiste de un objeto en una base de datos (5) (no existe una particularización especial a la características de un humano), y por otro no se realiza ningún tratamiento específico para la óptica de la cámara (prueba de 20 ello es la ausencia de una etapa de calibración).Note that the procedure referred to in this invention is characterized by not requiring information from the scene (beyond the specific annotations in the database (5)) or calibration of the camera (2). This implies competitive advantages in the deployment, configuration and practical application of the human detection and location procedure. Furthermore, said procedure could be extended to the location and detection of generic objects contained in images (3) acquired by omnidirectional cameras (2) and perspective, since on the one hand only the annotation is necessary consisting of an object in a database (5) (there is no special particularization to the characteristics of a human), and on the other there is no specific treatment for the optics of the camera (proof of this is the absence of a calibration stage).

Claims

5

10

fifteen

twenty

25

30

1. Procedure for the detection and location of humans (1) in image sequences (3) acquired by omnidirectional cameras (2), characterized in that it comprises the following sub-procedures:

to. Sub-procedure A for the detection and location of humans (1) on images (3) acquired by an omnidirectional static camera (2), which is configured for the detection and location of humans in a specific environment / scene through the following stages :

i. Stage A.1: acquisition of images (3) with an omnidirectional camera (2) in static position;

ii. Stage A.2: extraction of a single super-vector of characteristics (8) for each of the acquired images (3);

iii. Stage A.3: distribution of the characteristics super-vector (8) associated to each of the images (3) to a set of M foveal classifiers (9);

iv. Stage A.4: binary prediction for each of the M foveal classifiers (10) in the categories "human present in the fovea of the classifier" and its complementary "human not present in the fovea of the classifier";

v. Stage A.5: approximate location (12) in the image (3) of the humans detected; Y,

saw. Stage A.6: precise location (4) in the image (3) of the humans detected;

b. Sub-procedure B for configuring parameters for the detection and location in images (3) of humans (1) in a specific environment / scene through the following stages:

i. Stage B.1: creation of a database (5) of images (3) of a specific scene / environment and containing instances of humans (1); where images are acquired with a

5

10

fifteen

twenty

25

30

omnidirectional camera (2), which must be located in the same position as the camera used in the detection;

ii. Stage B.2: punctual annotation of humans (1) in the image database (3);

iii. Stage B.3: adaptive generation of positive and negative samples for each foveal classifier (10) from the point annotations;

iv. Stage B.4: adjustment of the parameters of each foveal classifier (10) for optimal human detection (3) using the positive and negative samples generated;

where stage A.2 comprises three sub-stages:

to. Sub-stage A.2.1: division of the image (3) into blocks of NxN pixels (6), which may be overlapping or not;

b. Sub-stage A.2.2: extraction of a feature vector (7) for each block of NxN pixels (6) referred to in the previous sub-stage; where the feature extraction algorithm is selected from: Histograms of Oriented Gradients, Local Binary Patterns, Transformed Scale Invariant Features, and Haar Features;

C. Sub-stage A.2.3: concatenation of the feature vectors (7) of each block of the image into a single feature super-vector (8) representing the entire image (3);

where stage A.4, which consists of a set of M foveal classifiers (9), each of which (10) has associated a fovea and a specific reference on the image plane;

where stage A.5 uses the specific references of the active foveal classifiers (12);

where stage A.6 comprises three sub-stages:

to. Sub-stage A.6.1: extraction of clusters / neighborhoods (11) of detections according to the grid / mesh (9) that form the point references (10) of the foveal classifiers;

10

b. Sub-stage A.6.2: deletion of non-maximums of the groups / neighborhoods (11) extracted, obtaining a single group / neighborhood per human (1);

C. Sub-stage A.6.3: precise location (4) of the human (1) on the image (3) by interpolating the coordinates of the point references (10) of the foveal classifiers that is part of each grouping / neighborhood (11 ) obtained in the previous stage;

in such a way that a single point location is generated per human (1), which in turn represents the final detection (4) thereof.