EP2415013A1 - Procédé d'extension virtuelle et d'enrichissement du champ d'observation d'une scène - Google Patents

Procédé d'extension virtuelle et d'enrichissement du champ d'observation d'une scène

Info

Publication number
EP2415013A1
EP2415013A1 EP10721356A EP10721356A EP2415013A1 EP 2415013 A1 EP2415013 A1 EP 2415013A1 EP 10721356 A EP10721356 A EP 10721356A EP 10721356 A EP10721356 A EP 10721356A EP 2415013 A1 EP2415013 A1 EP 2415013A1
Authority
EP
European Patent Office
Prior art keywords
scene
field
view
mosaic
contextual data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP10721356A
Other languages
German (de)
English (en)
Inventor
Denis Marraud
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Airbus SAS
Original Assignee
European Aeronautic Defence and Space Company EADS France
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by European Aeronautic Defence and Space Company EADS France filed Critical European Aeronautic Defence and Space Company EADS France
Publication of EP2415013A1 publication Critical patent/EP2415013A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images

Definitions

  • the invention is in the field of image processing and relates to the observation of a scene from a still image or a video.
  • the invention relates to a method of virtual extension and enrichment of the field of view of the current image of a scene described by a video comprising several images in order to extract relevant information.
  • the known solutions consist in exploiting the location metadata of the on-board cameras.
  • auxiliary data are generally not precise enough to allow a precise location of the image on the geographical reference.
  • some systems including video surveillance, propose to project the fields of view of each camera in a 3D view of the scene. The operator then has access to camera views by navigating the real-time 3D model.
  • This solution solves the problem of the perception of the location of each camera but is subject to potential problems of deformation of 3D objects after reprojection and also has the disadvantage of displaying to the operator a transformed image (depending on the point from an operator point of view is generally very poorly perceived
  • the object of the invention is to overcome the disadvantages of the prior art described above.
  • This goal is achieved by means of a method in which the mosaic potentially uses all of the available video and the missing information can be updated from contextual information such as a larger field image available on the area, an aerial image, a 3D model recaled according to the good point of view, a map, ....
  • a method of virtual extension and enrichment of the field of view of the current image of a scene described by a video comprising several images comprising the following steps: a- extending said field of view by at least one mosaic obtained from said images and by inserting at least one contextual datum into the geographic reference frame of the current image of said scene, b- enriching said field of view with at least one information referenced in said datum contextualized method, characterized in that it further comprises the steps of: c- insert auxiliary location data in the current image, d- complete the field of view of the current image of said scene by portions mosaic stored in the field of observation extended by step a).
  • step a) is obtained by real-time multi-resolution mosaicization of said video in a fixed frame of reference.
  • step a) is obtained by multi-resolution time-delayed mosaicing performed on all the images of said video.
  • the number of resolution levels of the mosaic is estimated from the characteristics of said video.
  • the method according to the invention further comprises a contextual referencing of the current image of said scene either by direct registration between said current image and said contextual data, or by matching the mosaic available with said contextual data.
  • the auxiliary location data inserted in the current image is for example an aerial image of the unwinding zone of said scene, a 3D model texture or not of the unwinding zone of said scene, images of said scene taken according to different points of view, or contextual data of geographical map type. Thanks to the method according to the invention, the interpretation of the current image is then facilitated by its inclusion in its more global context and its semantic enrichment.
  • FIG. 1 schematically illustrates the extension of the field of view of a video scene by combined use of a multi-resolution mosaic and contextual data according to the invention
  • FIG. 2 schematically illustrates the enrichment of the field of view of the scene of FIG. 1 by transmission of semantic information referenced in the contextual data.
  • the method according to the invention occurs in the context of the use of images or videos for the observation or monitoring of an extended scene.
  • the applications are multiple: zone surveillance from a fixed or mobile camera, installed on the ground or on board any flying machine (drone, dirigible, plane, helicopter, ...), navigation in a network of CCTV cameras , sports broadcast (Tour de France, Formula 1, horse races, ...) ....
  • the proposed method makes it possible to observe a scene with a maximum of resolution (high focal length) while maintaining a good perception of the location of the scene observed within the whole area of interest.
  • the global area of interest may be, depending on the application a combat zone observed by a drone, a city observed by a network of CCTV cameras, the route of a stage of the Tour de France.
  • the area observed at all times by the video is then, respectively, centered on a convoy moving in the combat zone, one of the views of CCTV cameras, a view centered on the peloton (cycling race).
  • the objective of the virtual extension mechanism of the field of view is to give the possibility to the operator to reduce virtually the focal point of his objective ("virtual dezoom") so as to better locate the current observed area relative to the area of global interest.
  • the dezoom results in the embedding of the current field of view in a larger field image whose out-of-field current view pixels are derived from the available contextual information.
  • FIG. 1 illustrates the virtual extension mechanism of the field of view of an area 2 in a video scene composed of several images 4.
  • Step 6 consists in generating, from said video, a multi-resolution mosaic 10.
  • Mosaic is multi-resolution in the sense that it is constructed as a pyramid of tiles corresponding to different resolution levels and allowing to take into account large variations of the ground resolution of the video.
  • a video presenting a continuous zoom on an area leads to a mosaic made of tiles more and more resolved and more and more localized within the initial low resolution tile.
  • the real field of view of zone 2 is then completed, in part by reprojection (step 14) of the mosaic formed in step 6, partly by resetting (step 14) and reprojection of one or more contextual data 16 in the repository of the current image.
  • the contextual data is a map of the area to be observed.
  • it can be a 3D model texture or not, other images taken from different points of view or aerial image of said area.
  • an extended field of view 20 comprising a current image of the zone 2 replaced in the reconstituted context from the mosaic 6 and including the contextual data 16.
  • the multi-resolution mosaic is made in real time, in a fixed repository (typically geographical reference, reference of the first image, etc.), then the mosaic portions included in the extended field of view. are used to complete the current field of view.
  • a fixed repository typically geographical reference, reference of the first image, etc.
  • the use of a stored mosaic makes it possible to extend the possibilities of expansion of the field of view with respect to a mosaicization limited to the last images of the video.
  • the multi-resolution mosaic is operated in deferred mode over the entire video, and then the multi-resolution mosaic is used every time the video is delayed.
  • the field of view extension capabilities from the video data are therefore potentially increased since the method then relies not only on past but also future images.
  • the number of resolution levels of the mosaic is fixed and defined at the input of the algorithm.
  • the number of resolution levels can be estimated from the characteristics of the video such as, for example, the variation of the ground resolution over the entire video to be mosaicized.
  • the mosaicing is done in the resolution of the selected reference frame (geographical reference, first image, 3)
  • the multi-resolution mosaic is completed in both real-time and deferred modes by contextual referencing of the current image.
  • This referencing uses either a direct registration between the current image and contextual data (aerial image, image according to another point of view, map, 3D model, ...), or is done via the registration of the mosaic available (real time mosaic in real-time mode or complete mosaic mode in delayed mode) with the contextual data.
  • the referencing can help any optional auxiliary location data (case of an observation drone for example).
  • the matching between the current data and the contextual data is used: a) To reproject the contextual data in the extended field of view, thus allowing a better interpretability of the image, b) According to the type of reference data allowing to estimate the shooting conditions of the current data (typically position and 3D orientation). In the case of using 3D reference data, the estimated shooting conditions are used to reproject the 3D model optimally.
  • this mechanism includes an additional step of enriching the contextual data 16 with semantic or asemantic information such as the name of the street 24 or the tracking pads 26.
  • This mechanism allows thus, thanks to the permanent registration 14 of the current image with the contextual data, to transmit, at the request of the operator, said semantic or asemantic information on the contents of the scene directly in the observed image (and if appropriate in the extended field) in an "augmented reality" approach.
  • the semantic information displayable directly in the image are for example:
  • Asemantic information can typically result from the processing of the current image for the detection of changes with respect to the real time mosaic and / or with respect to the reference data. Such a change detection makes it possible to draw the attention of the operator to an object present in the current image and absent from the previous observation, for example.
  • the method according to the invention applies in the case where an extended scene is observed by one or more sensors.
  • Examples include: • Reconnaissance UAV ground station: Virtual extension and field of view enhancement are particularly relevant in an urban surveillance environment where ground-based resolution requirements impose a reduced field of view. and therefore a difficulty on the part of the operator to precisely locate the current image relative to its surveillance zone (neighborhood, city, ...),

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

L'invention concerne un procédé d'extension virtuelle et d'enrichissement du champ d'observation de l'image courante d'une scène décrite par une vidéo comportant plusieurs images. Ce procédé comporte les étapes suivantes : (a-) étendre ledit champ d' observation par au moins une mosaïque obtenue à partir desdites images et par insertion d'au moins une donnée contextuelle dans le référentiel de l'image courante de ladite scène, (b-) enrichir ledit champ de vue par au moins une information référencée dans ladite donnée contextuelle.

Description

PROCEDE D'EXTENSION VIRTUELLE ET D'ENRICHISSEMENT DU CHAMP D'OBSERVATION D'UNE SCÈNE
DESCRIPTION
DOMAINE TECHNIQUE
L' invention se situe dans le domaine de traitement d'images et se rapporte à l'observation d'une scène à partir d'une image fixe ou d'une vidéo.
Plus spécifiquement, l'invention concerne un procédé d'extension virtuelle et d'enrichissement du champ d'observation de l'image courante d'une scène décrite par une vidéo comportant plusieurs images afin d'en extraire des informations pertinentes.
ÉTAT DE LA TECHNIQUE ANTÉRIEURE Les solutions utilisées dans l'art antérieur pour étendre et enrichir le champ d'observation d'une scène consistent généralement à exploiter des méta-données de localisation de la source d'images pour projeter l'emprise du champ de vue de ladite source ou l'image elle-même sur une référence géographique (carte, ortho-image, modèle 3D, ...). Ceci permet de localiser l'image courante fournie par la source d'image sur une zone particulière à observer.
Ainsi, dans le cas des applications de type vidéosurveillance ou station sol de drones, les solutions connues consistent à exploiter les méta- données de localisation des caméras embarquées.
Un inconvénient de cette solution provient du fait que l'opérateur doit regarder deux sources d'informations (l'image et la référence géographique) ce qui, en conditions de stress (opérations militaires, attaques terroristes...) nuit à l'efficacité et à la réactivité .
Par ailleurs, les données auxiliaires ne sont généralement pas suffisamment précises pour permettre une localisation précise de l'image sur la référence géographique. Enfin, selon les conditions d'acquisition de l'image, et malgré la visualisation de l'empreinte, il peut être fastidieux de désigner des points de correspondance (bâtiments, rues, ...) entre l'image et la référence.
Pour pallier cet inconvénient, certains systèmes, notamment de vidéosurveillance, proposent de projeter les champs de vue de chaque caméra dans une vue 3D de la scène. L'opérateur a alors accès aux vues des caméras en naviguant dans le modèle 3D enrichi en temps réel. Cette solution résout le problème de la perception de la localisation de chaque caméra mais est sujette à des problèmes potentiels de déformations des objets 3D après reprojection et présente par ailleurs l'inconvénient d'afficher à l'opérateur une image transformée (en fonction du point de vue), ce qui, d'un point de vue opérateur est généralement très mal perçu
(nécessité d'avoir accès à tout instant à l'information brute issue du capteur la moins transformée possible) .
La problématique d'extension du champ de vue d'une scène a déjà été proposée par Honda et al
(Pseudo Expansion of Field of View for Immersive
Projection Displays — K. Honda, N. Hashimoto, M. Sato — SIGGRAPH' 07) ainsi que Magjarevic et al (Non-Optical Expansion of Field of View of the Rigid Endoscope - R. Magjarevic et al, World Congress on Médical Physics and Biomédical Engineering 2006) . Cependant, les techniques décrites dans ces documents n'utilisent que les images récentes de la vidéo (N dernières images) dans une approche mosaïquage temps réel et ne fonctionne donc que dans des déplacements en rapprochement pour lesquels l'image courante est toujours entièrement incluse dans l'image précédente.
Le but de l'invention est de pallier les inconvénients de l'art antérieur décrits ci-dessus.
EXPOSÉ DE L'INVENTION
Ce but est atteint au moyen d'un procédé dans lequel le mosaïquage utilise potentiellement l'ensemble de la vidéo disponible et l'information manquante peut être mise à jour à partir d'informations contextuelles telles qu'une image de plus grand champ disponible sur la zone, une image aérienne, un modèle 3D recalé selon le bon point de vue, une carte,... .
Ceci est obtenu par un procédé d'extension virtuelle et d'enrichissement du champ d'observation de l'image courante d'une scène décrite par une vidéo comportant plusieurs images comportant les étapes suivantes : a- étendre ledit champ d' observation par au moins une mosaïque obtenue à partir desdites images et par insertion d'au moins une donnée contextuelle dans le référentiel géographique de l'image courante de ladite scène, b- enrichir ledit champ de vue par au moins une information référencée dans ladite donnée contextuelle, procédé caractérisé en ce qu'il comporte en outre les étapes consistant à : c- insérer des données auxiliaires de localisation dans l'image courante, d- compléter le champ d' observation de l'image courante de ladite scène par des portions de mosaïque préalablement mémorisées comprises dans le champ d'observation étendu par l'étape a).
Dans une première variante de réalisation, l'étape a) est obtenue par mosaïquage multi-résolution en temps réel de ladite vidéo dans un référentiel fixe.
Ladite mosaïque préalablement mémorisée comporte un nombre de niveaux de résolution fixe prédéfini . Dans une autre variante de réalisation, l'étape a) est obtenue par mosaïquage multi-résolution en temps différé opéré sur toutes les images de ladite vidéo .
Dans ce cas, le nombre de niveaux de résolution de la mosaïque est estimé à partir des caractéristiques de ladite vidéo.
Le procédé selon l'invention comporte en outre un référencement contextuel de l'image courante de ladite scène soit par recalage direct entre ladite image courante et lesdites données contextuelles, soit par recalage de la mosaïque disponible avec lesdites données contextuelles.
Les données auxiliaires de localisation insérées dans l'image courante sont par exemple une image aérienne de la zone de déroulement de ladite scène, un modèle 3D texture ou non de la zone de déroulement de ladite scène, des images de ladite scène prises selon des points de vue différents, ou une donnée contextuelle de type carte géographique. Grâce au procédé selon l'invention, l'interprétation de l'image courante est alors facilitée par son inclusion dans son contexte plus global et son enrichissement sémantique.
BRÈVE DESCRIPTION DES DESSINS D'autres caractéristiques et avantages ressortiront de la description qui va suivre, prise à titre d'exemple non limitatif, en référence aux figures annexées dans lesquelles :
- la figure 1 illustre schématiquement l'extension du champ de vue d'une scène vidéo par utilisation combinée d'une mosaïque multi-résolution et de données contextuelles selon l'invention,
- la figure 2 illustre schématiquement l'enrichissement du champ de vue de la scène de la figure 1 par transmission d'informations sémantiques référencées dans les données contextuelles.
EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS
Le procédé selon l'invention intervient dans le contexte de l'utilisation d'images ou de vidéos pour l'observation ou la surveillance d'une scène étendue. Les applications sont multiples : surveillance de zone à partir d'une caméra fixe ou mobile, installée au sol ou à bord de tout engin volant (drone, dirigeable, avion, hélicoptère, ...), navigation dans un réseau de caméras de vidéosurveillance, retransmission sportive (tour de France, Formule 1, courses hippiques, ...)....
Ces applications ont pour point commun l'observation à un instant donné d'une petite partie de la scène à observer. En effet, un compromis est nécessaire entre les dimensions des objets qui peuvent être observés (résolution) et la couverture de l'observation (champ de vue). Ce compromis se traduit par la focale utilisée : une focale élevée ("zoom") correspond à une résolution fine de la scène observée mais offre un champ de vue réduit qui nuit à la perception globale de la scène et notamment à la localisation de la scène observée au sein de ladite zone. A l'inverse, une focale faible ("grand angle") permet une bonne perception de l'ensemble de la scène mais ne permet pas une observation fine des objets, véhicules, personnes, présents sur le terrain.
Le procédé proposé permet d' observer une scène avec un maximum de résolution (focale élevée) tout en conservant une bonne perception de la localisation de la scène observée au sein de l'ensemble de la zone d'intérêt. A titre d'exemple la zone globale d'intérêt peut être, selon l'application une zone de combat observée par un drone, une ville observée par un réseau de caméras de vidéosurveillance, le trajet d'une étape du tour de France. La zone observée à tout moment par la vidéo est alors, respectivement, centrée sur un convoi se déplaçant dans la zone de combat, l'une des vues des caméras de vidéosurveillance, une vue centrée sur le peloton (course cycliste) . Dans ces trois cas, pouvoir visualiser les vues rapprochées dans leur contexte global (zone d'intérêt globale) apporterait une information particulièrement pertinente pour l'interprétation de la scène observée (de quoi se rapproche le convoi dans quelle direction se dirige la voiture observée par la caméra X, où se situe le peloton par rapport à l'arrivée...)
L'objectif du mécanisme d'extension virtuelle du champ de vue est de donner la possibilité à l'opérateur de diminuer virtuellement la focale de son objectif ("dézoom virtuel") de manière à pouvoir mieux localiser la zone observée courante par rapport à la zone d'intérêt globale. En pratique, le dézoom se traduit par l'incrustation du champ de vue courant dans une image de plus grand champ dont les pixels hors champ de vue courant sont issus des informations contextuelles disponibles.
La figure 1 illustre le mécanisme d'extension virtuelle du champ de vue d'une zone 2 dans scène vidéo composée de plusieurs images 4. L'étape 6 consiste à générer, à partir de ladite vidéo, une mosaïque multi-résolution 10.
Le mosaïquage est multi-résolution en ce sens qu'il est construit sous la forme d'une pyramide de tuiles correspondant à des niveaux de résolution différents et permettant de prendre en compte de grandes variations de la résolution au sol de la vidéo.
Ainsi, une vidéo présentant un zoom continu sur une zone (passage d'un plan large à un plan serré) conduit à une mosaïque constituée de tuiles de plus en plus résolues et de plus en plus localisées au sein de la tuile basse résolution initiale. Le champ de vue réel de la zone 2 est ensuite complété, en partie par reprojection (étape 14) de la mosaïque constituée à l'étape 6, en partie par recalage (étape 14) et reprojection d'une ou plusieurs données contextuelles 16 dans le référentiel de l'image courante .
Dans le cas de la figure 1, la donnée contextuelle est une carte de la zone à observer.
Cependant, elle peut être un modèle 3D texture ou non, d'autres images prises selon des points de vue différents ou image aérienne de ladite zone.
Après reprojection, on obtient un champ de vue étendu 20 comportant une image courante de la zone 2 replacée dans le contexte reconstitué à partir de la mosaïque 6 et comportant les données contextuelles 16.
Dans un premier mode de réalisation, le mosaïquage multi-résolution est réalisé en temps réel, dans un référentiel fixe (typiquement référentiel géographique, référentiel de la première image,...), puis les portions de mosaïque comprises dans le champ de vue étendu sont utilisées pour compléter le champ de vue courant .
L'utilisation d'un référentiel fixe pour le calcul de la mosaïque permet d'éviter de recalculer la mosaïque complète à chaque image ce qui induirait une charge de calcul inutile et une dégradation rapide de la qualité image.
Par ailleurs, l'utilisation d'une mosaïque mémorisée permet d'étendre les possibilités d'expansion du champ de vue par rapport à un mosaïquage limité aux dernières images de la vidéo. Dans un deuxième mode de réalisation, le mosaïquage multi-résolution est opéré en mode différé sur l'ensemble de la vidéo, puis la mosaïque multi- résolution complète est utilisée à chaque visualisation différée de la vidéo.
Par rapport au temps réel, les capacités d'extension du champ de vue à partir des données vidéo sont donc potentiellement accrues puisque le procédé s'appuie alors non seulement sur les images passées mais également futures.
En mode temps réel, le nombre de niveaux de résolution de la mosaïque est figé et défini en entrée de l'algorithme.
En mode différé en revanche, le nombre de niveaux de résolution peut être estimé à partir des caractéristiques de la vidéo telles que, par exemple, la variation de la résolution au sol sur l'ensemble de la vidéo à mosaïquer.
Dans le cas où un seul niveau de résolution est imposé, le mosaïquage se fait dans la résolution du référentiel choisi (référentiel géographique, première image, ... )
Le mosaïquage multi-résolution est complété dans les deux modes temps réel et différé par un référencement contextuel de l'image courante. Ce référencement utilise soit un recalage direct entre l'image courante et des données contextuelles (image aérienne, image selon un autre point de vue, carte, modèle 3D,...), soit se fait par l'intermédiaire du recalage de la mosaïque disponible (mosaïque temps réel en mode temps réel ou mosaïque complète en mode différé) avec les données contextuelles.
Dans les deux cas, le référencement peut s'aider des éventuelles données auxiliaires de localisation disponibles (cas d'un drone d'observation par exemple) .
L ' appariement entre les données courantes et les données contextuelles est utilisé : a) Pour reprojeter les données contextuelles dans le champ de vue étendu, permettant ainsi une meilleure interprétabilité de l'image, b) En fonction du type de donnée de référence permettant d'estimer les conditions de prise de vue de la donnée courante (typiquement position et orientation 3D) . Dans le cas de l'utilisation de données de référence 3D, les conditions de prise de vue estimées sont utilisées pour reprojeter le modèle 3D de manière optimale.
L'intérêt d'un « dé-zoom virtuel » par rapport à un « dé-zoom réel » est de plusieurs ordres : d'une part le « dé-zoom » est potentiellement illimité : la limite n'est donnée que par l'étendue des données contextuelles disponibles. Par ailleurs, dans un cadre temps réel, le dé-zoom réel présente le risque de perdre de vue l'objet d'intérêt notamment si celui- ci est pisté par un algorithme de suivi automatique. Enfin, en mode différé (investigation, montage, ...), l'opérateur n'a plus la faculté d'influer sur les paramètres de prise de vue et donc d'opérer un dé-zoom réel. La figure 2 illustre le mécanisme d'enrichissement du champ de vue de la zone 2 pour accroître l'intelligibilité de la scène.
Outre les étapes décrites précédemment par référence à la figure 1, ce mécanisme comporte une étape supplémentaire consistant à enrichir la donnée contextuelle 16 d'une information sémantique ou asémantique telle que le nom de la rue 24 ou des plots de pistage 26. Ce mécanisme permet ainsi, grâce au recalage 14 permanent de l'image courante avec les données contextuelles, de transmettre, à la demande de l'opérateur, lesdites informations sémantiques ou asémantiques sur le contenu de la scène directement dans l'image observée (et le cas échéant dans le champ étendu) dans une approche de type «réalité augmentée».
Une telle approche contribue à synthétiser l'information disponible sur une scène donnée au sein d'une seule et unique visualisation, accroît considérablement l'intelligibilité de la scène observée et au final améliore l'efficacité de l'opérateur.
Dans le cas d'un drone en surveillance aérienne sur zone urbaine par exemple, les informations sémantiques affichables directement dans l'image sont par exemple :
• un bâtiment d'intérêt,
• les noms de rues,
• une cible mobile pistée par un autre moyen, • Les informations asémantiques peuvent typiquement résulter du traitement de l'image courante pour la détection de changements par rapport à la mosaïque temps réel et/ou par rapport à la donnée de référence. Une telle détection de changement permet d'attirer l'attention de l'opérateur sur un objet présent dans l'image courante et absent de la précédente observation par exemple.
Le procédé selon l'invention s' applique dans le cas où une scène étendue est observée par un ou plusieurs senseurs . A type d'exemples, citons : • Station sol de drone de reconnaissance : l'extension virtuelle et l'enrichissement du champ de vue sont particulièrement pertinents dans un cadre de surveillance urbaine où les exigences de résolution au sol imposent un champ de vue réduit et donc une difficulté de la part de l'opérateur à localiser précisément l'image courante relativement à sa zone de surveillance (quartier, ville, ...) ,
• Tenue de situation à partir d'un réseau de vidéosurveillance : les fonctionnalités apportées par le procédé selon l'invention permettent de faciliter le suivi multi-caméras d'un objet d'intérêt, la localisation globale d'un objet observé .

Claims

REVENDICATIONS
1. Procédé d'extension virtuelle et d'enrichissement du champ d'observation de l'image courante d'une scène décrite par une vidéo comportant plusieurs images: a- étendre ledit champ d' observation par au moins une mosaïque obtenue à partir desdites images et par insertion d'au moins une donnée contextuelle dans le référentiel de l'image courante de ladite scène, b- enrichir ledit champ de vue par au moins une information référencée dans ladite donnée contextuelle, procédé caractérisé en ce qu'il comporte en outre les étapes consistant à : c- insérer des données auxiliaires de localisation dans l'image courante, d- compléter le champ d' observation de l'image courante de ladite scène par des portions de mosaïque préalablement mémorisées comprises dans le champ d'observation étendu par l'étape a).
2. Procédé selon la revendication 1, dans lequel l'étape a) est obtenue par mosaïquage multi- résolution en temps réel de ladite vidéo dans un référentiel fixe.
3. Procédé selon la revendication 1, dans lequel l'étape a) est obtenue par mosaïquage multi- résolution en temps différé opéré sur toutes les images de ladite vidéo.
4. Procédé selon la revendication 3, dans lequel ladite mosaïque préalablement mémorisée comporte un nombre de niveaux de résolution fixe prédéfini.
5. Procédé selon la revendication 4, dans lequel le nombre de niveaux de résolution de la mosaïque est estimé à partir des caractéristiques de ladite vidéo.
6. Procédé selon la revendication 2 ou la revendication 3, comportant en outre un référencement contextuel de l'image courante de ladite scène soit par recalage direct entre ladite image courante et lesdites données contextuelles, soit par recalage de la mosaïque disponible avec lesdites données contextuelles.
7. Procédé selon la revendication 1, dans lequel ladite donnée contextuelle est une image aérienne de la zone de déroulement de ladite scène.
8. Procédé selon la revendication 1, dans lequel ladite donnée contextuelle est un modèle 3D texture ou non de la zone de déroulement de ladite scène .
9. Procédé selon la revendication 1, dans lequel ladite donnée contextuelle est constituée par des images de ladite scène prises selon des points de vue différents.
10. Procédé selon la revendication 1, dans lequel ladite donnée contextuelle est une carte géographique.
EP10721356A 2009-04-03 2010-04-02 Procédé d'extension virtuelle et d'enrichissement du champ d'observation d'une scène Withdrawn EP2415013A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0952197A FR2944174B1 (fr) 2009-04-03 2009-04-03 Procede d'extension virtuelle et d'enrichissement du champ d'observation d'une scene.
PCT/EP2010/054462 WO2010112604A1 (fr) 2009-04-03 2010-04-02 Procédé d'extension virtuelle et d'enrichissement du champ d'observation d'une scène

Publications (1)

Publication Number Publication Date
EP2415013A1 true EP2415013A1 (fr) 2012-02-08

Family

ID=41328546

Family Applications (1)

Application Number Title Priority Date Filing Date
EP10721356A Withdrawn EP2415013A1 (fr) 2009-04-03 2010-04-02 Procédé d'extension virtuelle et d'enrichissement du champ d'observation d'une scène

Country Status (4)

Country Link
US (1) US8995751B2 (fr)
EP (1) EP2415013A1 (fr)
FR (1) FR2944174B1 (fr)
WO (1) WO2010112604A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11049175B2 (en) * 2006-07-07 2021-06-29 Joseph R. Dollens Method and system for managing and displaying product images with progressive resolution display with audio commands and responses
US10861224B2 (en) 2013-07-23 2020-12-08 Hover Inc. 3D building analyzer
US11670046B2 (en) 2013-07-23 2023-06-06 Hover Inc. 3D building analyzer
JP6973141B2 (ja) * 2018-02-07 2021-11-24 トヨタ自動車株式会社 車両用表示装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953054A (en) * 1996-05-31 1999-09-14 Geo-3D Inc. Method and system for producing stereoscopic 3-dimensional images
KR20030059399A (ko) * 2001-12-29 2003-07-10 엘지전자 주식회사 모자이크 영상 생성장치 및 방법과 모자이크 영상 기반동영상 재생방법
JP4859205B2 (ja) * 2005-02-04 2012-01-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
SE529157C2 (sv) * 2005-07-01 2007-05-15 Daniel Forsgren Bildförbättring vid registrering av sporthändelser
US7623683B2 (en) * 2006-04-13 2009-11-24 Hewlett-Packard Development Company, L.P. Combining multiple exposure images to increase dynamic range
US8098881B2 (en) * 2008-03-11 2012-01-17 Sony Ericsson Mobile Communications Ab Advertisement insertion systems and methods for digital cameras based on object recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2010112604A1 *

Also Published As

Publication number Publication date
US20120051627A1 (en) 2012-03-01
FR2944174A1 (fr) 2010-10-08
US8995751B2 (en) 2015-03-31
WO2010112604A1 (fr) 2010-10-07
FR2944174B1 (fr) 2017-12-08

Similar Documents

Publication Publication Date Title
US10301041B2 (en) Systems and methods for tracking moving objects
Binas et al. DDD17: End-to-end DAVIS driving dataset
US10339689B2 (en) Intelligent camera
US9240074B2 (en) Network-based real time registered augmented reality for mobile devices
US9001116B2 (en) Method and system of generating a three-dimensional view of a real scene for military planning and operations
EP3278301B1 (fr) Procede de determination d'une direction d'un objet a partir d'une image de l'objet
US20130278715A1 (en) System and method for discreetly collecting 3d immersive/panoramic imagery
Paton et al. Expanding the limits of vision‐based localization for long‐term route‐following autonomy
JP6397617B2 (ja) 空中又は衛星写真の影除去方法及びその装置
WO2018025001A1 (fr) Procede d'elaboration d'une image numerique, produit programme d'ordinateur et systeme optique associes
EP2415013A1 (fr) Procédé d'extension virtuelle et d'enrichissement du champ d'observation d'une scène
Carmichael et al. Dataset and benchmark: Novel sensors for autonomous vehicle perception
WO2014199085A1 (fr) Systemes de reperage de la position de la camera de tournage pour le tournage de films video
Kweon et al. Image-processing based panoramic camera employing single fisheye lens
EP3167434A2 (fr) Equipement optronique aeroporte pour l'imagerie, la surveillance et/ou la designation de cibles
EP3072110B1 (fr) Procédé d'estimation du mouvement d'un objet
Diskin et al. Dense point-cloud creation using superresolution for a monocular 3d reconstruction system
FR3074595A1 (fr) Procede d’identification d’une cible au moyen d’une camera embarquee haute resolution
Boehrer et al. Onboard ROI selection for aerial surveillance using a high resolution, high framerate camera
EP3324338B1 (fr) Procédé d'indexation de vidéos, et procédé de recherche d'une séquence vidéo dans une base de vidéos
WO2017216465A1 (fr) Procédé et dispositif de traitement d'images acquises par une caméra d'un véhicule automobile
Deschaud et al. Colorisation et texturation temps r\'eel d'environnements urbains par syst\eme mobile avec scanner laser et cam\'era fish-eye
WO2023052448A1 (fr) Procédé de détection d'obstacles
Kushwah et al. Comparative Analysis of Image Defogging with its Techniques and Types
EP3591610B1 (fr) Procede de visualisation d'une image multispectrale

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20111004

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20130812

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: AIRBUS (SAS)

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Effective date: 20180913