EP2556467A1 - Procede de detection de cibles dans des images stereoscopiques - Google Patents

Procede de detection de cibles dans des images stereoscopiques

Info

Publication number
EP2556467A1
EP2556467A1 EP11713292A EP11713292A EP2556467A1 EP 2556467 A1 EP2556467 A1 EP 2556467A1 EP 11713292 A EP11713292 A EP 11713292A EP 11713292 A EP11713292 A EP 11713292A EP 2556467 A1 EP2556467 A1 EP 2556467A1
Authority
EP
European Patent Office
Prior art keywords
images
image
learning
target
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP11713292A
Other languages
German (de)
English (en)
Inventor
Nicolas Allezard
Sabri Bayoudh
Patrick Sayd
Laurent Lucat
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Original Assignee
Commissariat a lEnergie Atomique CEA
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat a lEnergie Atomique CEA, Commissariat a lEnergie Atomique et aux Energies Alternatives CEA filed Critical Commissariat a lEnergie Atomique CEA
Publication of EP2556467A1 publication Critical patent/EP2556467A1/fr
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Definitions

  • the present invention relates to a method for detecting targets in stereoscopic images. It can be applied in any area using cameras to detect objects. It may be for example surveillance applications, assistance or safety embedded in a vehicle.
  • the general problem is to look in images for the presence of targets of various types, whether objects or people, the targets having certain characteristics conform to a model.
  • a model For example, it can be a parametric model, such as a ratio between width and height that must be worth a given ⁇ value or a three-dimensional model of CAD type.
  • Such a model-based method of target detection becomes difficult to implement in the event of large variability in the appearance of the targets. For example, a person's appearance can vary greatly depending on their posture or dress. The method may even become impossible to implement. For example, the operator of a car park will have great difficulty in detecting trucks when he does not have the CAD models of the different types of truck, since the truck manufacturers do not distribute the CAD models of their trucks.
  • a known solution consists in implementing an OFF-LINE statistical learning step, that is to say prior to the operation of the detection system, and an ONLINE classification step, that is to say simultaneously with the operation of the detection system.
  • the classification stage is an integral part of the detection process: if we consider a system to detect pedestrians, a detection takes place once a target has been classified as "pedestrian".
  • the preliminary step of statistical learning consists of learning to recognize targets through an algorithm, which automatically extracts the most relevant parameters from the targets, in order to discriminate them by other elements that may be present on the images. These discriminant parameters are used later in the simultaneous classification step.
  • the simultaneous classification stage is performed in real time on the most recent images provided by the cameras.
  • the operating conditions during the simultaneous classification step are not necessarily exactly the same as the development conditions during the prior learning step. This may be due to factors specific to the detection system. Indeed, the height and / or inclination of the cameras may vary from one installation to another, for example because of a variation in height and / or inclination of the support on which they are fixed. In particular, the angle of inclination of cameras fixed on the front of a vehicle changes according to the load of the vehicle.
  • the learning step can be performed with people standing and cameras mounted horizontally on a car. But on a slope or a temporary bump, people tend to lean to compensate for the slope, so that their appearance is tilted compared to the learning stage. Whether the factors are proper or external to the system, this results in a significant deterioration of performance, including cases of non-detections, the target observed during the classification stage not having exactly the same appearance as when of the learning stage.
  • a typical solution is to re-learn for each usage configuration. But this solution has many disadvantages, it is particularly long and not automatable and requires real expertise as well as ad hoc tools, which excludes most users.
  • Another conventional solution is to change the detection thresholds to recover undetected targets.
  • a major drawback of this solution is the increase in the number of false alarms. The number of false alarms can be reduced by adding post-processing steps, including a step of tracking targets. But the complexity of the implementation software then becomes much higher and does not guarantee to correct all errors.
  • the US patent application published under US No. 2008/0310678 A1 discloses a device for detecting pedestrians. This device implements a learning step and a classification step based, inter alia, on a pedestrian appearance model.
  • This device has the aforementioned drawbacks, resulting in a significant expected number of false alarms, due to the variability of the appearance of pedestrians, not compensated by a corrective system taking into account the differences in configuration between learning and ON-LINE detection.
  • the article entitled "B-spline modeling of road surfaces with an application to free-space estimation” discloses a method of representing the surface of a road by a B-spline and measuring it V-disparities to detect obstacles on the road.
  • a major disadvantage of such a method using a parametric model B-spline is that it can easily be faulted if the reality deviates significantly from the model.
  • Another disadvantage of such a method based on V-disparity is that it does not take into account the variations on the transverse axis and that it is therefore unsuitable for generic traffic contexts. that is, other than the road.
  • the invention aims in particular to limit the number of non-detections without increasing the number of false alarms, this even in case of significant variability between operating conditions and learning conditions.
  • the invention proposes an image recovery step intended to bring back the images observed by the cameras during operation in a configuration close to the configuration during the learning, this recovery diminishing or even canceling the geometric perspective distortions, so as to facilitate the correspondence between the targets learned during the learning and those observed during the operation .
  • the subject of the invention is a method for detecting a target present on at least two images of the same scene captured by separate cameras.
  • the method comprises a preliminary step of learning targets under focusing conditions and, under operating conditions, a simultaneous step of classifying objects present on the images, the target being deemed detected as soon as an object is classified as one of the targets learned during the learning step.
  • the classification step includes a step of matching at least one of the images to the focus conditions in which the learning step took place.
  • the image adaptation step may include an image recovery step, such that the plane of the rectified image is parallel to the plane of the images used for the step learning.
  • the image adaptation step may then include a step of rectifying a disparity map between the two images, so that the rectified card takes account of the image recovery.
  • the adjustment parameters can be adjusted on demand.
  • the rectification parameters may be slaved to an inclination angle ⁇ of the axis of the cameras relative to the ground in a vertical plane.
  • the angle ⁇ can be estimated from the slope of a straight line in a collection of disparity histograms.
  • the angle ⁇ can be estimated from a vertical offset between a position of an area of interest detected on one of the images, the target being likely to be in said zone, and a position on said image where the target is actually detected.
  • the angle a can be estimated incrementally according to a n + i where n is an integer, F is a function and ⁇ is a learning rate.
  • the main advantage of the present invention is that it limits the use of external components, thereby reducing costs and facilitating integration.
  • another advantage of a device according to the invention is that it automatically adapts to any change in operating conditions, in the medium term as well as in the short term.
  • FIG. 2a and 2b by a functional diagram and a rectified disparity card, a second embodiment of the invention
  • a histogram an example of distribution of disparity points around a line.
  • FIG. 1a illustrates, by a functional diagram, a first exemplary embodiment of the invention from a conventional statistical classification detection chain comprising in particular two cameras 1 and 2, a module 6 for calculating the disparities (or depths ) between the images of the camera 1 and the images of the camera 2, a module 7 for managing the card disparity constructed from the disparity values calculated by the module 6, a detection module 8 of areas of interest and a module 9 classification "target" or "non-target”.
  • At each interval of disparity values (or 3D depth) at the level of a pixel can correspond to a level of gray, that is why we will talk about indifferently map or disparity image (or 3D depth) .
  • Disparity is the difference in pixel position between two images for the same point in the observed space. The disparity is first calculated, it can be transformed into 3D depth.
  • the invention proposes to add modules 3 and 4 of image recovery, which operate a projective transformation on images respectively from the camera 1 disposed to the left of a vehicle and the camera 2 to the right of the vehicle, so that these images are geometrically corrected.
  • the image on the left in FIG. 1b is an example of an image coming from camera 1 or 2 before rectification, this same image being shown after right-hand rectification in FIG. 1b.
  • the person appears vertical.
  • it is the plane of the image that has been straightened so as to be parallel to the plane of the images used during the learning.
  • the plane of an image is understood here as any plane perpendicular to the axis of the camera that captured the image. It should be noted that the parameters of the image, especially its luminance, are not directly affected by the straightening, except for a few pixels, for example pixels of the bottom which are included in the feet.
  • FIG. 2a illustrates, by a functional diagram, a second exemplary embodiment of the invention through an image recovery module 14 and a disparity card recovery module 13.
  • the module 14 operates a projective transformation on the images from the camera 2, that is to say, it changes the orientation of the plane of the images from the camera 2 as explained above.
  • a change of orientation of the plane of an image from the camera 2 is accompanied by a change in distance from the optical center of the camera 2, so a change of disparity values in the map of disparity between the images from the cameras 1 and 2, including the pixels of the image that do not change the allocation area as the pixels that were considered in the background before recovery and remain there after recovery.
  • the module 13 operates a correction of the disparity values in the disparity map between the images from the cameras 1 and 2.
  • the angle to straightening is known with limited precision, it does not come to disturb the calculation of the disparity which requires however a lot of precision.
  • the map on the left in FIG. 2b is an example, in grayscale, of a map of disparity between the images coming from the cameras 1 and 2 before recovery, this same map being shown after rightward righting in FIG. 2b.
  • the correctness of the disparity values is shown on the right, as shown by differences in the gray level with respect to the uncorrected disparity image on the left.
  • the rectification parameters can be adjusted by means of a module 5 illustrated in FIGS. 1a and 2a. Indeed, even if it is possible to specify the parameters thanks to a physical measurement, that is to say to measure the positioning height of the cameras 1 and 2, to measure their angle of inclination in a vertical plane by ground ratio and then to inject once for all this information in the recovery modules 3, 4, 13 and 14, it is still better to update these parameters from time to time. It may be for example to recalculate punctually or on demand, from a calibration procedure. Additional sensors can then provide the angle of inclination in a vertical plane of the cameras 1 and 2 with respect to the vertical.
  • the module 5 can, for example, adjust the rectification parameters from the disparity card managed by the module 7, as illustrated in FIGS. 1a and 2a by an arrow going from the module 7 to the module 5. Indeed, it is possible to estimate, from the disparity image, the inclination in a vertical plane of the axis of the cameras 1 and 2 with respect to the ground. For this, histograms of the disparities can be constructed as illustrated in FIG. 3. In FIG. 3, the horizontal axis of the abscissae represents the line indices i of the pixels (i, j) of the image and the vertical axis. ordinates represent the k possible disparity values at a pixel level.
  • the histogram of the disparity is constructed vertically along said line i of pixels.
  • the vertical of a value of index i are as many points as possible values of the disparity (or 3D depth), that is to say, k possible values.
  • it is the histogram of values that is reported vertically, not the values themselves. For example, if the depth can go from 0 to 20 meters sampled every 10 centimeters, that makes k 200 points vertically, this whatever the number of pixels j on the line i.
  • the number of pixels related to each discretized depth value is translated by a specific gray level of the point.
  • the i ° x ° k points are distributed around an inclined line D, as shown in Figure 3.
  • the slope of this line is directly related to the angle of inclination in a vertical plane between the ground and the ground.
  • axis of the cameras 1 and 2 which gives the vertical inclination of the cameras 1 and 2 in the case of a flat ground.
  • Horizontal elements 31 and 32 observable in Figure 3 then correspond to vertical objects, possibly pedestrians.
  • the module 5 can also adjust the rectification parameters from the positions of the zones of interest detected by the module 8 and the targets detected by the module 9, as illustrated in FIGS. 1a and 2a by an arrow going from module 8 to module 5 and an arrow from the module 9 to the module 5.
  • positions of areas of interest can be extracted, first three-dimensional in (x, y , z) and then two-dimensional in (x, y) by reprojection in the image, these areas of interest being likely to contain targets.
  • the reprojection (x, y) of the position of the targets is shifted vertically with respect to reality.
  • offset positions (x, y) are transmitted to the classification module 9 for analysis, which operates its analysis on a window wider than the simple zone (x, y), including in particular the real position (x 0 , yo), unknown so far, to compensate for detection uncertainties. If the classification module 9 works well and there is indeed a "real target", the module 9 finds this target well positioned in (x 0 , yo) - The difference between y and y 0 can then be used to analyze the detection bias, which is related to the vertical inclination of the camera.
  • This bias can also be estimated incrementally according to a formula of the type a n + i where ⁇ denotes a learning rate to be specified to ensure a compromise between stability and responsiveness.
  • the module 5 can adjust the recovery parameters by combining the two methods described above, that is to say from the map disparity and from the positions of the areas of interest and the targets detected.
  • the invention described above is applicable to all kinds of target recognition applications, since they are based on the use of video sensors and the use of a statistical classification method comprising a preliminary learning phase. followed by a simultaneous detection phase.
  • target recognition applications such as the visual recognition of badges, the detection or classification of objects such as parcels abandoned at airports, the detection or classification of vehicles.
  • surveillance applications such as the visual recognition of badges, the detection or classification of objects such as parcels abandoned at airports, the detection or classification of vehicles.
  • assistance and safety applications such as pedestrian detection or signage to equip cars or any other type of mobile device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Vascular Medicine (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

La présente invention concerne un procédé de détection d'une cible présente sur au moins deux images d'une même scène capturées par des caméras distinctes. Le procédé comporte une étape préalable d'apprentissage de cibles dans des conditions de mise au point. Il comporte également, dans des conditions d'exploitation, une étape simultanée de classification d'objets présents sur les images, la cible étant réputée détectée dès lors qu'un objet est classifié comme étant l'une des cibles apprises pendant l'étape d'apprentissage. L'étape de classification inclut une étape d'adaptation d'au moins une des images aux conditions de mise au point dans lesquelles a eu lieu l'étape d'apprentissage. Application : surveillance, assistance et sécurité à partir d'images stéréoscopiques.

Description

Procédé de détection de cibles dans des images stéréoscopiques
La présente invention concerne un procédé de détection de cibles dans des images stéréoscopiques. Elle peut s'appliquer dans tout domaine utilisant des caméras pour détecter des objets. Il peut s'agir par exemple d'applications de surveillance, d'assistance ou encore de sécurité embarquées à bord d'un véhicule.
La problématique générale est de rechercher dans des images la présence de cibles de divers types, qu'il s'agisse d'objets ou de personnes, les cibles présentant certaines caractéristiques conformes à un modèle. Par exemple, il peut s'agir d'un modèle paramétrique, comme un rapport entre largeur et hauteur qui doit valoir une valeur λ donnée ou encore d'un modèle tridimensionnelle de type CAO.
Une telle méthode de détection de cibles basée sur un modèle devient difficile à mettre en œuvre en cas de grande variabilité d'apparence des cibles. Par exemple, l'apparence d'une personne peut varier grandement en fonction de sa posture ou de son habillement. La méthode peut même devenir impossible à mettre en œuvre. Par exemple, l'exploitant d'un parking aura d'immenses difficultés à détecter des camions dès lors qu'il ne dispose pas des modèles CAO des différents types de camion, dans la mesure où les constructeurs de camion ne distribuent pas les modèles CAO de leurs camions.
Dans ces cas où la modélisation des cibles s'avère difficile voire impossible, une solution connue consiste à mettre en œuvre une étape d'apprentissage statistique OFF-LINE, c'est-à-dire préalablement à l'exploitation du système de détection, et une étape de classification ONLINE, c'est-à-dire simultanément à l'exploitation du système de détection. En fait, l'étape de classification fait partie intégrante du processus de détection: si l'on considère un système pour détecter des piétons, une détection a lieu dès lors qu'une cible a été classifiée "piéton".
L'étape préalable d'apprentissage statistique consiste à apprendre à reconnaître des cibles grâce à un algorithme, qui extrait automatiquement les paramètres les plus pertinents des cibles, afin de les discriminer par rapport aux autres éléments pouvant être présents sur les images. Ces paramètres discriminants sont utilisés plus tard lors de l'étape simultanée de classification. L'étape simultanée de classification est effectuée en temps réel sur les images les plus récemment fournies par les caméras. Cependant, les conditions d'exploitation durant l'étape simultanée de classification ne sont pas forcément exactement les mêmes que les conditions de mise au point durant l'étape préalable d'apprentissage. Ceci peut être dû à des facteurs propres au système de détection. En effet, la hauteur et/ou l'inclinaison des caméras peut varier d'une installation à une autre, par exemple du fait d'une variation de hauteur et/ou d'inclinaison du support sur lequel ils sont fixés. Notamment, l'angle d'inclinaison de caméras fixées sur l'avant d'un véhicule change en fonction de la charge du véhicule. Mais ceci peut également être dû à des facteurs extérieurs au système de détection. Ainsi, si l'on considère un système pour détecter des piétons, l'étape d'apprentissage peut être réalisée avec des personnes se tenant debout et des caméras montées bien horizontalement sur une voiture. Mais sur une pente ou une bosse passagère, les personnes ont tendance à se pencher pour compenser la pente, de sorte que leur apparence se retrouve inclinée par rapport à l'étape d'apprentissage. Qu'il s'agisse de facteurs propres ou extérieurs au système, il en résulte une nette dégradation des performances, notamment des cas de non-détections, la cible observée durant l'étape de classification n'ayant plus exactement la même apparence que lors de l'étape d'apprentissage.
Une solution classique consiste à effectuer un réapprentissage pour chaque configuration d'utilisation. Mais cette solution présente de nombreux inconvénients, elle est notamment longue et non automatisable et nécessite une réelle expertise ainsi que des outils ad hoc, ce qui exclut la plupart des utilisateurs. Une autre solution classique consiste à changer les seuils de détection pour récupérer les cibles non détectées. Un inconvénients majeur de cette solution est l'augmentation du nombre de fausses alarmes. Le nombre de fausses alarmes peut être réduit en ajoutant des étapes de post-traitement, notamment une étape de pistage des cibles. Mais la complexité du logiciel de mise en œuvre devient alors beaucoup plus élevée et ne garantit pas de pouvoir corriger toutes les erreurs. La demande de brevet américain publiée sous le No US 2008/0310678 A1 divulgue un dispositif pour détecter les piétons. Ce dispositif met en œuvre une étape d'apprentissage et une étape de classification basées, entre autres, sur un modèle d'apparence de piéton. Ce dispositif présente les inconvénients précités, résultant en un nombre significatif attendu de fausses alarmes, du fait de la variabilité de l'apparence des piétons, non compensée par un système correctif prenant en compte les différences de configuration entre apprentissage et détection ON-LINE. L'article intitulé "B-spline modeling of road surfaces with an application to free-space estimation" (A.Wedel et al) divulgue une méthode consistant à représenter la surface d'une route par une B-spline et d'y mesurer des V-disparités afin de détecter les obstacles sur la route. Un inconvénient majeur d'une telle méthode utilisant un modèle paramétrique par B-spline, c'est qu'elle peut facilement être mise en défaut si la réalité s'écarte sensiblement du modèle. Un autre inconvénient d'une telle méthode basée sur la V-disparité, c'est qu'elle ne prend pas en compte les variations sur l'axe transversal et qu'elle est par conséquent inadaptée à des contextes génériques de circulation, c'est-à-dire autres que la route.
L'article intitulé "Real Time Obstacle Détection in Stereovision on Non Fiat Road Geometry Through V-disparity Représentation" (R.Labayrade et al) divulgue une méthode consistant à modéliser, à partir d'images stéréoscopiques, une route ainsi que les obstacles sur la route. Un inconvénient de cette méthode est qu'elle ne permet pas de classifier les obstacles. De plus, en faisant l'hypothèse que la route ne présente aucune inclinaison oblique par rapport au repère de la caméra, cette méthode est peu fiable dans un contexte générique de route non damée ou non goudronnée.
L'invention a notamment pour but de limiter le nombre de non détections sans pour autant augmenter le nombre de fausses alarmes, ceci même en cas de variabilité importante entre les conditions d'exploitation et les conditions d'apprentissage. Pour cela, l'invention propose une étape de redressement d'image visant à ramener les images observées par les caméras durant l'exploitation dans une configuration proche de la configuration durant l'apprentissage, ce redressement diminuant voire annulant les distorsions géométriques de perspective, de manière à faciliter la correspondance entre les cibles apprises lors de l'apprentissage et celles observées durant l'exploitation. A cet effet, l'invention a pour objet un procédé de détection d'une cible présente sur au moins deux images d'une même scène capturées par des caméras distinctes. Le procédé comporte une étape préalable d'apprentissage de cibles dans des conditions de mise au point ainsi que, dans des conditions d'exploitation, une étape simultanée de classification d'objets présents sur les images, la cible étant réputée détectée dès lors qu'un objet est classifié comme étant l'une des cibles apprises pendant l'étape d'apprentissage. L'étape de classification inclut une étape d'adaptation d'au moins une des images aux conditions de mise au point dans lesquelles a eu lieu l'étape d'apprentissage.
Dans un mode de réalisation préférentiel, l'étape d'adaptation de l'image peut inclure une étape de redressement de l'image, de telle sorte que le plan de l'image redressée soit parallèle au plan des images utilisées pour l'étape d'apprentissage.
Avantageusement, l'étape d'adaptation de l'image peut alors inclure une étape de redressement d'une carte de disparité entre les deux images, de telle sorte que la carte redressée tienne compte du redressement de l'image.
Les étapes de redressement dépendant de paramètres de redressement, lesdits paramètres peuvent avantageusement être ajustables.
Par exemple, les paramètres de redressement peuvent être ajustés à la demande.
Dans un mode de réalisation préférentiel, les paramètres de redressement peuvent être asservis sur un angle a d'inclinaison de l'axe des caméras par rapport au sol dans un plan vertical.
Par exemple, l'angle a peut être estimé à partir de la pente d'une droite dans une collection d'histogrammes de disparités.
Par exemple, l'angle a peut être estimé à partir d'un décalage vertical entre une position d'une zone d'intérêt détectée sur une des images, la cible étant susceptible de se trouver dans ladite zone, et une position sur ladite image où la cible est effectivement détectée. L'angle a peut être estimé selon ao=°F(y-y0), où F est une fonction.
L'angle a peut être estimé de façon incrémentale selon an+i où n est un entier, F est une fonction et λ est un taux d'apprentissage.
Par exemple, F peut être la fonction identité ou la fonction signe qui à tout réel x associe -1 si x est négatif, associe 0 si x=0 et associe +1 si x est positif.
La présente invention a encore pour principal avantage qu'elle limite le recours à des composants extérieurs, ce qui permet de réduire les coûts et de faciliter l'intégration. De plus, un autre avantage d'un dispositif selon l'invention est qu'il s'adapte automatiquement à tout changement des conditions d'exploitation, à moyen terme comme à court terme.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'aide de la description qui suit faite en regard de dessins annexés qui représentent :
- les figures 1 a et 1 b, par un diagramme fonctionnel et une image redressée, un premier exemple de réalisation selon l'invention;
- la figure 2a et 2b, par un diagramme fonctionnel et une carte de disparité redressée, un deuxième exemple de réalisation selon l'invention;
- la figure 3, par un histogramme, un exemple de distribution de points de disparité autour d'une droite.
La figure 1 a illustre, par un diagramme fonctionnel, un premier exemple de réalisation de l'invention à partir d'une chaîne de détection par classification statistique classique comportant notamment deux caméras 1 et 2, un module 6 de calcul des disparités (ou profondeurs) entre les images de la caméra 1 et les images de la caméra 2, un module 7 de gestion de la carte de disparité construite à partir des valeurs de disparité calculées par le module 6, un module 8 de détection des zones d'intérêt et un module 9 de classification en "cible" ou "non cible". A chaque intervalle de valeurs de disparité (ou de profondeur 3D) au niveau d'un pixel peut correspondre un niveau de gris, c'est pourquoi on parlera par la suite indifféremment de carte ou d'image de disparité (ou de profondeur 3D). La disparité est la différence en position de pixel entre deux images pour un même point de l'espace observé. La disparité est d'abord calculée, elle peut-être transformée en profondeur 3D.
L'invention propose d'ajouter des module 3 et 4 de redressement d'images, qui opèrent une transformation projective sur des images issues respectivement de la caméra 1 disposée à gauche d'un véhicule et de la caméra 2 disposée à droite du véhicule, de sorte que ces images sont corrigées géométriquement.
L'image à gauche sur la figure 1 b est un exemple d'image issue de la caméra 1 ou 2 avant redressement, cette même image étant représentée après redressement à droite sur la figure 1 b.
Sur l'image à gauche avant redressement, une personne se tenant debout, c'est-à-dire sensiblement verticale, apparaît franchement inclinée vers l'avant. Dans le haut de l'image, la tête de la personne apparaît rétrécie, alors que dans le bas de l'image, les pieds de la personne apparaissent agrandis.
Sur l'image à droite après redressement, la personne apparaît bien verticale. En fait, c'est le plan de l'image qui a été redressé de manière à être parallèle au plan des images utilisée durant l'apprentissage. Le plan d'une image s'entend ici comme tout plan perpendiculaire à l'axe de la caméra ayant capturé l'image. Il convient de noter que les paramètres de l'image, sa luminance notamment, ne sont pas directement affectés par le redressement, sauf pour quelques pixels, par exemple des pixels du fond qui se trouvent englobés dans les pieds.
La figure 2a illustre, par un diagramme fonctionnel, un deuxième exemple de réalisation de l'invention grâce à un module 14 de redressement d'image et un module 13 de redressement de carte de disparité. Le module 14 opère une transformation projective sur les images issues de la caméra 2, c'est-à-dire qu'il change l'orientation du plan des images issues de la caméra 2 comme explicité précédemment. Or, un changement d'orientation du plan d'une image issue de la caméra 2 s'accompagne d'un changement de distance par rapport au centre optique de la caméra 2, donc d'un changement de valeurs de disparité dans la carte de disparité entre les images issues des caméras 1 et 2, y compris pour les pixels de l'image qui ne changent pas de zone d'attribution comme les pixels qui étaient considérés dans le fond avant redressement et qui y restent après redressement. C'est pourquoi le module 13 opère une correction des valeurs de disparité dans la carte de disparité entre les images issues des caméras 1 et 2. Il convient de noter que, dans ce deuxième mode de réalisation, bien que le redressement de l'image comporte des approximations, l'angle à redresser n'étant connu qu'avec une précision limitée, celui-ci ne vient pas perturber le calcul de la disparité qui requiert pourtant beaucoup de précision.
La carte à gauche sur la figure 2b est un exemple, en niveaux de gris, de carte de disparité entre les images issues des caméras 1 et 2 avant redressement, cette même carte étant représentée après redressement à droite sur la figure 2b. On constate bien à droite, outre les corrections géométriques, la correction des valeurs de disparité, illustrée par des différences de niveau de gris par rapport à l'image de disparité non corrigée à gauche.
Dans un mode de réalisation préférentiel, les paramètres de redressement peuvent être ajustés grâce à un module 5 illustré sur les figures 1 a et 2a. En effet, même s'il est possible de spécifier les paramètres grâce à une mesure physique, c'est-à-dire de mesurer la hauteur de positionnement des caméras 1 et 2, de mesurer leur angle d'inclinaison dans un plan vertical par rapport au sol puis d'injecter une fois pour toutes ces informations dans les modules de redressement 3, 4, 13 et 14, il est quand même préférable de mettre à jour ces paramètres de temps en temps. Il peut s'agir par exemple de les recalculer ponctuellement ou à la demande, à partir d'une procédure de calibration. Des capteurs additionnels peuvent alors fournir l'angle d'inclinaison dans un plan vertical des caméras 1 et 2 par rapport à la verticale.
Néanmoins, il est préférable d'asservir les paramètres de redressement à partir de données issues directement de la chaîne de détection. Tout d'abord, il n'est alors plus nécessaire d'utiliser des composants extérieurs, ce qui permet de réduire les coûts et de faciliter l'intégration du système. De plus, un ajustement régulier et fréquent des paramètres permet de s'adapter à tout changement à moyen terme, comme le chargement du véhicule qui modifie son inclinaison par rapport au sol et donc l'inclinaison des caméras 1 et 2. Mais surtout, l'ajustement régulier et fréquent des paramètres permet de s'adapter à toute perturbation plus éphémère, comme les modifications de pentes du terrain ou même les bosses. L'asservissement des paramètres peut être réalisé de plusieurs façons, comme illustrés par les figures 1 a et 2a.
Le module 5 peut par exemple ajuster les paramètres de redressement à partir de la carte de disparité gérée par le module 7, comme illustré sur les figures 1 a et 2a par une flèche allant du module 7 au module 5. En effet, il est possible d'estimer, à partir de l'image de disparité, l'inclinaison dans un plan vertical de l'axe des caméras 1 et 2 par rapport au sol. Pour cela, des histogrammes des disparités peuvent être construits comme illustré par la figure 3. Sur la figure 3, l'axe horizontal des abscisses représente les indices de ligne i des pixels (i, j) de l'image et l'axe vertical des ordonnées représente les k valeurs possibles de disparité au niveau d'un pixel. Pour chaque valeur d'abscisse correspondant à une ligne i de pixels de la carte de disparité, on construit verticalement l'histogramme de la disparité (ou de la profondeur 3D) le long de ladite ligne i de pixels. Ainsi, à la verticale d'une valeur d'indice i se trouvent autant de points que de valeurs possibles de la disparité (ou de la profondeur 3D), c'est-à-dire k valeurs possibles. En effet, c'est l'histogramme des valeurs qui est reporté verticalement, pas les valeurs elles-même. Par exemple, si la profondeur peut aller de 0 à 20 mètres échantillonnée tous les 10 centimètres, cela fait k=200 points verticalement, ceci quel que soit le nombre de pixels j sur la ligne i. Le nombre de pixels apparentés à chaque valeur de profondeur discrétisée se traduit par un niveau de gris spécifique du point. Idéalement, les i °x°k points se distribuent autour d'une droite D inclinée, comme illustré par la figure 3. La pente de cette droite est directement liée à l'angle d'inclinaison dans un plan vertical entre le sol et l'axe des caméras 1 et 2, ce qui donne l'inclinaison verticale des caméras 1 et 2 dans le cas d'un sol plat. Des éléments horizontaux 31 et 32 observables sur la figure 3 correspondent alors à des objets verticaux, éventuellement des piétons.
Le module 5 peut également ajuster les paramètres de redressement à partir des positions des zones d'intérêt détectées par le module 8 et des cibles détectées par le module 9, comme illustré sur les figures 1 a et 2a par une flèche allant du module 8 au module 5 et par une flèche allant du module 9 au module 5. En effet, à partir de la carte de disparité gérée par le module 7, des positions de zones d'intérêt peuvent être extraites, d'abord tridimensionnelles en (x,y,z) puis bidimensionnelle en (x,y) par reprojection dans l'image, ces zones d'intérêt étant susceptibles de contenir des cibles. En cas d'inclinaison verticale de la caméra par rapport à l'inclinaison utilisée durant l'apprentissage, la reprojection (x,y) de la position des cibles est décalée verticalement par rapport à la réalité. Ces positions décalées (x,y) sont transmises au module 9 de classification pour analyse, qui opère son analyse sur une fenêtre plus large que la simple zone (x,y), incluant notamment la position réelle (x0,yo), inconnue jusqu'ici, afin de compenser les incertitudes de détection. Si le module 9 de classification fonctionne bien et qu'il y a bien une "vraie cible", le module 9 retrouve cette cible bien positionnée en (x0,yo)- La différence entre y et y0 peut alors être utilisée pour analyser le biais de la détection, qui est lié à l'inclinaison verticale de la caméra. Pour estimer ce biais, la différence (y - yO) peut être convertie en un angle a d'inclinaison dans un plan vertical selon une formule du type ao=°F(y-y0), où F désigne une fonction ajustable selon les besoins, par exemple la fonction identité ou la fonction signe. Ce biais peut également être estimé de façon incrémentale selon une formule du type an+i où λ désigne un taux d'apprentissage à spécifier pour assurer un compromis entre stabilité et réactivité. Pour rendre la méthode plus robuste, il est possible de calculer une correction moyenne à effectuer, basée sur l'ensemble des différences entre y et y0 pour l'ensemble des cibles détectées dans l'image. En effet, une différence systématiquement de même signe et d'amplitude comparable entre y et y0 pour l'ensemble des cibles de l'image renforce la probabilité que la différence observée soit bien révélatrice d'une erreur d'angle plutôt que la conséquence d'un bruit local.
Dans un mode de réalisation préférentiel, comme les modes de réalisation illustrés par les figures 1 a et 2a, le module 5 peut ajuster les paramètres de redressement en combinant les deux méthodes décrites précédemment, c'est-à-dire à partir de la carte de disparité et à partir des positions des zones d'intérêt et des cibles détectées.
L'invention décrite précédemment est applicable à toutes sortes d'applications de reconnaissance de cibles, dès lors qu'elles sont basées sur l'utilisation de capteurs vidéos et l'utilisation d'une méthode de classification statistique comportant une phase préalable d'apprentissage suivie d'une phase simultanée de détection. Il peut s'agir par exemple d'applications de surveillance, comme la reconnaissance visuelle de badges, la détection ou la classification d'objets comme les colis abandonnés dans les aéroports, la détection ou la classification de véhicules. Il peut s'agir également d'applications d'assistance et de sécurité, comme la détection de piétons ou de panneaux de signalisation pour équiper des voitures ou tout autre type d'engin mobile.

Claims

REVENDICATIONS
1 . Procédé de détection d'une cible parmi une pluralité de cibles possibles, la cible étant présente sur au moins deux images d'une même scène capturées par des caméras distinctes, le procédé étant caractérisé en ce qu'il comporte:
- dans des conditions de mise au point, une étape préalable d'apprentissage des cibles possibles, et;
- dans des conditions d'exploitation, une étape simultanée de classification d'objets présents sur les images, la cible étant réputée détectée dès lors qu'un objet est classifié comme étant l'une des cibles apprises pendant l'étape d'apprentissage; l'étape de classification incluant une étape d'adaptation d'au moins une des images aux conditions de mise au point dans lesquelles a eu lieu l'étape d'apprentissage.
2. Procédé selon la revendication 1 , caractérisé en ce que l'étape d'adaptation de l'image inclut une étape de redressement de l'image, de telle sorte que le plan de l'image redressée soit parallèle au plan des images utilisées pour l'étape d'apprentissage.
3. Procédé selon la revendication 2, caractérisé en ce que l'étape d'adaptation de l'image inclut une étape de redressement d'une carte de disparité entre les deux images, de telle sorte que la carte redressée tienne compte du redressement de l'image.
4. Procédé selon la revendication 3, caractérisé en ce que, les étapes de redressement dépendant de paramètres de redressement, lesdits paramètres sont ajustables.
5. Procédé selon la revendication 4, caractérisé en ce que les paramètres de redressement sont ajustés à la demande.
6. Procédé selon la revendication 4, caractérisé en ce que les paramètres de redressement sont asservis sur un angle a d'inclinaison de l'axe des caméras par rapport au sol dans un plan vertical.
7. Procédé selon la revendication 6, caractérisé en ce que l'angle a est estimé à partir de la pente d'une droite (D) dans une collection d'histogrammes de disparités.
5
8. Procédé selon la revendication 6, caractérisé en ce que l'angle a est estimé à partir d'un décalage vertical y-y0 entre une position (x, y) d'une zone d'intérêt détectée sur une des images, la cible étant susceptible de se trouver dans ladite zone, et une position (x0, yo) sur ladite image où la o cible est effectivement détectée.
9. Procédé selon la revendication 8, caractérisé en ce que l'angle a est estimé selon a°=°F(y-y0), où F est une fonction. 5 10. Procédé selon la revendication 8, caractérisé en ce que l'angle a est estimé de façon incrémentale selon an+i où n est un entier, F est une fonction et λ est un taux d'apprentissage.
1 1 . Procédé selon la revendication 9 ou 10, caractérisé en ce que F est la0 fonction identité ou la fonction signe, qui à tout réel x associe -1 si x est négatif, associe 0 si x=0 et associe +1 si x est positif.
EP11713292A 2010-04-09 2011-04-11 Procede de detection de cibles dans des images stereoscopiques Ceased EP2556467A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1052721A FR2958767B1 (fr) 2010-04-09 2010-04-09 Procede de detection de cibles dans des images stereoscopiques.
PCT/EP2011/055591 WO2011124719A1 (fr) 2010-04-09 2011-04-11 Procede de detection de cibles dans des images stereoscopiques

Publications (1)

Publication Number Publication Date
EP2556467A1 true EP2556467A1 (fr) 2013-02-13

Family

ID=43510834

Family Applications (1)

Application Number Title Priority Date Filing Date
EP11713292A Ceased EP2556467A1 (fr) 2010-04-09 2011-04-11 Procede de detection de cibles dans des images stereoscopiques

Country Status (4)

Country Link
US (1) US9098774B2 (fr)
EP (1) EP2556467A1 (fr)
FR (1) FR2958767B1 (fr)
WO (1) WO2011124719A1 (fr)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8831337B2 (en) * 2011-11-11 2014-09-09 Texas Instruments Incorporated Method, system and computer program product for identifying locations of detected objects
CN103164851B (zh) * 2011-12-09 2016-04-20 株式会社理光 道路分割物检测方法和装置
DE102012209316A1 (de) * 2012-06-01 2013-12-05 Robert Bosch Gmbh Verfahren und Vorrichtung zum Verarbeiten von Sensordaten eines Stereosensorsystems
KR102281184B1 (ko) 2014-11-20 2021-07-23 삼성전자주식회사 영상 보정 방법 및 장치
WO2019166142A1 (fr) * 2018-03-01 2019-09-06 Jaguar Land Rover Limited Procédés et appareil d'acquisition et de suivi, de classification d'objets et d'inférence de terrain
JP7056496B2 (ja) * 2018-10-03 2022-04-19 株式会社豊田自動織機 位置検出装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0865637A4 (fr) * 1995-12-04 1999-08-18 Sarnoff David Res Center Systeme et procede de reconnaissance a champ de vision grand angulaire et petit angulaire
US6788809B1 (en) * 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
JP4937844B2 (ja) 2007-06-12 2012-05-23 富士重工業株式会社 歩行者検出装置
TW201005673A (en) * 2008-07-18 2010-02-01 Ind Tech Res Inst Example-based two-dimensional to three-dimensional image conversion method, computer readable medium therefor, and system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LLORCA D R ET AL: "An Experimental Study on Pitch Compensation in Pedestrian-Protection Systems for Collision Avoidance and Mitigation", IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, IEEE, PISCATAWAY, NJ, USA, vol. 10, no. 3, 1 September 2009 (2009-09-01), pages 469 - 474, XP011347185, ISSN: 1524-9050, DOI: 10.1109/TITS.2009.2018958 *
MATHIAS PERROLLAZ ET AL: "A Three Resolution Framework for Reliable Road Obstacle Detection using Stereovision", MACHINE VISION AND APPLICATIONS, 16 May 2007 (2007-05-16), pages 671212, XP055501642 *
See also references of WO2011124719A1 *

Also Published As

Publication number Publication date
FR2958767B1 (fr) 2016-11-11
US20130057658A1 (en) 2013-03-07
US9098774B2 (en) 2015-08-04
FR2958767A1 (fr) 2011-10-14
WO2011124719A1 (fr) 2011-10-13

Similar Documents

Publication Publication Date Title
US9460353B2 (en) Systems and methods for automated water detection using visible sensors
EP2275971B1 (fr) Procédé de détection d'un obstacle pour véhicule automobile
EP2556467A1 (fr) Procede de detection de cibles dans des images stereoscopiques
EP1999484B1 (fr) Detection d'obstacle
CN108028023A (zh) 信息处理装置、信息处理方法和程序
EP2924671A1 (fr) Système de classification automatique de véhicules automobiles
WO1993021596A1 (fr) Procede et dispositif d'analyse de sequences d'images routieres pour la detection d'obstacles
CN105313782A (zh) 车辆行驶辅助系统及其方法
EP2937812B1 (fr) Système de localisation d'un même véhicule dans plusieurs zones différentes les unes des autres dans lesquelles ledit véhicule passe consécutivement
WO2015082293A1 (fr) Reconnaissance de formes par correction d'image
WO2010133785A1 (fr) Procede et dispositif pour etendre une zone de visibilite
FR2899363A1 (fr) Procede et dispositif de detection de mouvement d'objets sur des images d'une scene
FR3027432A1 (fr) Estimation de distance d'un pieton par un systeme d'imagerie embarque sur un vehicule automobile
EP0588815A1 (fr) Procede et dispositif d'analyse de sequences d'images routieres pour la detection d'obstacles
FR3059133B1 (fr) Procede et systeme de detection d'un objet en relief dans un parking
FR3047589A1 (fr) Procede et dispositif d'estimation de la position laterale d'un vehicule dans une voie de circulation
WO2017093057A1 (fr) Procede de caracterisation d'une scene par calcul d'orientation 3d
EP4177839A1 (fr) Procédé de détermination de paramètres de calibration d'un dispositif de prise de vue et produit programme d'ordinateur associé
Ling et al. Motorcycle detection and counting using stereo camera, IR camera, and microphone array
FR3052581B1 (fr) Procede de realisation d'une carte de profondeurs a partir d'images successives d'une camera unique (mono) embarquee dans un vehicule automobile
EP4409543A1 (fr) Procédé de détection d'obstacles
FR3129235A1 (fr) Procédé de détermination de coordonnées d’un point d’un élément d’intérêt dans le monde réel en fonction de coordonnées dudit point dans une image
FR3036204A1 (fr) Procede et systeme de compensation d'erreurs pour un systeme de detection d'objets embarque sur un vehicule automobile
FR3103301A1 (fr) Procédé de détection de pics d’intensité de faisceau lumineux réfléchi de manière spéculaire
FR3146523A1 (fr) Procédé d’estimation de la vitesse d’un véhicule

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20121005

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20161118

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20190402