EP2415013A1 - Method for virtually extending and enhancing the field of view of a scene - Google Patents

Method for virtually extending and enhancing the field of view of a scene

Info

Publication number
EP2415013A1
EP2415013A1 EP10721356A EP10721356A EP2415013A1 EP 2415013 A1 EP2415013 A1 EP 2415013A1 EP 10721356 A EP10721356 A EP 10721356A EP 10721356 A EP10721356 A EP 10721356A EP 2415013 A1 EP2415013 A1 EP 2415013A1
Authority
EP
European Patent Office
Prior art keywords
scene
field
view
mosaic
contextual data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP10721356A
Other languages
German (de)
French (fr)
Inventor
Denis Marraud
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Airbus SAS
Original Assignee
European Aeronautic Defence and Space Company EADS France
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by European Aeronautic Defence and Space Company EADS France filed Critical European Aeronautic Defence and Space Company EADS France
Publication of EP2415013A1 publication Critical patent/EP2415013A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4038Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images

Definitions

  • the invention is in the field of image processing and relates to the observation of a scene from a still image or a video.
  • the invention relates to a method of virtual extension and enrichment of the field of view of the current image of a scene described by a video comprising several images in order to extract relevant information.
  • the known solutions consist in exploiting the location metadata of the on-board cameras.
  • auxiliary data are generally not precise enough to allow a precise location of the image on the geographical reference.
  • some systems including video surveillance, propose to project the fields of view of each camera in a 3D view of the scene. The operator then has access to camera views by navigating the real-time 3D model.
  • This solution solves the problem of the perception of the location of each camera but is subject to potential problems of deformation of 3D objects after reprojection and also has the disadvantage of displaying to the operator a transformed image (depending on the point from an operator point of view is generally very poorly perceived
  • the object of the invention is to overcome the disadvantages of the prior art described above.
  • This goal is achieved by means of a method in which the mosaic potentially uses all of the available video and the missing information can be updated from contextual information such as a larger field image available on the area, an aerial image, a 3D model recaled according to the good point of view, a map, ....
  • a method of virtual extension and enrichment of the field of view of the current image of a scene described by a video comprising several images comprising the following steps: a- extending said field of view by at least one mosaic obtained from said images and by inserting at least one contextual datum into the geographic reference frame of the current image of said scene, b- enriching said field of view with at least one information referenced in said datum contextualized method, characterized in that it further comprises the steps of: c- insert auxiliary location data in the current image, d- complete the field of view of the current image of said scene by portions mosaic stored in the field of observation extended by step a).
  • step a) is obtained by real-time multi-resolution mosaicization of said video in a fixed frame of reference.
  • step a) is obtained by multi-resolution time-delayed mosaicing performed on all the images of said video.
  • the number of resolution levels of the mosaic is estimated from the characteristics of said video.
  • the method according to the invention further comprises a contextual referencing of the current image of said scene either by direct registration between said current image and said contextual data, or by matching the mosaic available with said contextual data.
  • the auxiliary location data inserted in the current image is for example an aerial image of the unwinding zone of said scene, a 3D model texture or not of the unwinding zone of said scene, images of said scene taken according to different points of view, or contextual data of geographical map type. Thanks to the method according to the invention, the interpretation of the current image is then facilitated by its inclusion in its more global context and its semantic enrichment.
  • FIG. 1 schematically illustrates the extension of the field of view of a video scene by combined use of a multi-resolution mosaic and contextual data according to the invention
  • FIG. 2 schematically illustrates the enrichment of the field of view of the scene of FIG. 1 by transmission of semantic information referenced in the contextual data.
  • the method according to the invention occurs in the context of the use of images or videos for the observation or monitoring of an extended scene.
  • the applications are multiple: zone surveillance from a fixed or mobile camera, installed on the ground or on board any flying machine (drone, dirigible, plane, helicopter, ...), navigation in a network of CCTV cameras , sports broadcast (Tour de France, Formula 1, horse races, ...) ....
  • the proposed method makes it possible to observe a scene with a maximum of resolution (high focal length) while maintaining a good perception of the location of the scene observed within the whole area of interest.
  • the global area of interest may be, depending on the application a combat zone observed by a drone, a city observed by a network of CCTV cameras, the route of a stage of the Tour de France.
  • the area observed at all times by the video is then, respectively, centered on a convoy moving in the combat zone, one of the views of CCTV cameras, a view centered on the peloton (cycling race).
  • the objective of the virtual extension mechanism of the field of view is to give the possibility to the operator to reduce virtually the focal point of his objective ("virtual dezoom") so as to better locate the current observed area relative to the area of global interest.
  • the dezoom results in the embedding of the current field of view in a larger field image whose out-of-field current view pixels are derived from the available contextual information.
  • FIG. 1 illustrates the virtual extension mechanism of the field of view of an area 2 in a video scene composed of several images 4.
  • Step 6 consists in generating, from said video, a multi-resolution mosaic 10.
  • Mosaic is multi-resolution in the sense that it is constructed as a pyramid of tiles corresponding to different resolution levels and allowing to take into account large variations of the ground resolution of the video.
  • a video presenting a continuous zoom on an area leads to a mosaic made of tiles more and more resolved and more and more localized within the initial low resolution tile.
  • the real field of view of zone 2 is then completed, in part by reprojection (step 14) of the mosaic formed in step 6, partly by resetting (step 14) and reprojection of one or more contextual data 16 in the repository of the current image.
  • the contextual data is a map of the area to be observed.
  • it can be a 3D model texture or not, other images taken from different points of view or aerial image of said area.
  • an extended field of view 20 comprising a current image of the zone 2 replaced in the reconstituted context from the mosaic 6 and including the contextual data 16.
  • the multi-resolution mosaic is made in real time, in a fixed repository (typically geographical reference, reference of the first image, etc.), then the mosaic portions included in the extended field of view. are used to complete the current field of view.
  • a fixed repository typically geographical reference, reference of the first image, etc.
  • the use of a stored mosaic makes it possible to extend the possibilities of expansion of the field of view with respect to a mosaicization limited to the last images of the video.
  • the multi-resolution mosaic is operated in deferred mode over the entire video, and then the multi-resolution mosaic is used every time the video is delayed.
  • the field of view extension capabilities from the video data are therefore potentially increased since the method then relies not only on past but also future images.
  • the number of resolution levels of the mosaic is fixed and defined at the input of the algorithm.
  • the number of resolution levels can be estimated from the characteristics of the video such as, for example, the variation of the ground resolution over the entire video to be mosaicized.
  • the mosaicing is done in the resolution of the selected reference frame (geographical reference, first image, 3)
  • the multi-resolution mosaic is completed in both real-time and deferred modes by contextual referencing of the current image.
  • This referencing uses either a direct registration between the current image and contextual data (aerial image, image according to another point of view, map, 3D model, ...), or is done via the registration of the mosaic available (real time mosaic in real-time mode or complete mosaic mode in delayed mode) with the contextual data.
  • the referencing can help any optional auxiliary location data (case of an observation drone for example).
  • the matching between the current data and the contextual data is used: a) To reproject the contextual data in the extended field of view, thus allowing a better interpretability of the image, b) According to the type of reference data allowing to estimate the shooting conditions of the current data (typically position and 3D orientation). In the case of using 3D reference data, the estimated shooting conditions are used to reproject the 3D model optimally.
  • this mechanism includes an additional step of enriching the contextual data 16 with semantic or asemantic information such as the name of the street 24 or the tracking pads 26.
  • This mechanism allows thus, thanks to the permanent registration 14 of the current image with the contextual data, to transmit, at the request of the operator, said semantic or asemantic information on the contents of the scene directly in the observed image (and if appropriate in the extended field) in an "augmented reality" approach.
  • the semantic information displayable directly in the image are for example:
  • Asemantic information can typically result from the processing of the current image for the detection of changes with respect to the real time mosaic and / or with respect to the reference data. Such a change detection makes it possible to draw the attention of the operator to an object present in the current image and absent from the previous observation, for example.
  • the method according to the invention applies in the case where an extended scene is observed by one or more sensors.
  • Examples include: • Reconnaissance UAV ground station: Virtual extension and field of view enhancement are particularly relevant in an urban surveillance environment where ground-based resolution requirements impose a reduced field of view. and therefore a difficulty on the part of the operator to precisely locate the current image relative to its surveillance zone (neighborhood, city, ...),

Abstract

The invention relates to a method for virtually extending and enhancing the field of view of the common image of a scene created by a video comprising a plurality of images. Said method comprises the following steps: (a-) extending said field of view by at least one mosaic produced from said images and by inserting at least one contextual datum in the repository of the common image of said scene; and (b-) enhancing said field of view by at least one piece of information referenced in said contextual datum.

Description

PROCEDE D'EXTENSION VIRTUELLE ET D'ENRICHISSEMENT DU CHAMP D'OBSERVATION D'UNE SCÈNE METHOD FOR VIRTUAL EXTENSION AND ENRICHMENT OF THE SCENE OBSERVATION FIELD
DESCRIPTIONDESCRIPTION
DOMAINE TECHNIQUETECHNICAL AREA
L' invention se situe dans le domaine de traitement d'images et se rapporte à l'observation d'une scène à partir d'une image fixe ou d'une vidéo.The invention is in the field of image processing and relates to the observation of a scene from a still image or a video.
Plus spécifiquement, l'invention concerne un procédé d'extension virtuelle et d'enrichissement du champ d'observation de l'image courante d'une scène décrite par une vidéo comportant plusieurs images afin d'en extraire des informations pertinentes.More specifically, the invention relates to a method of virtual extension and enrichment of the field of view of the current image of a scene described by a video comprising several images in order to extract relevant information.
ÉTAT DE LA TECHNIQUE ANTÉRIEURE Les solutions utilisées dans l'art antérieur pour étendre et enrichir le champ d'observation d'une scène consistent généralement à exploiter des méta-données de localisation de la source d'images pour projeter l'emprise du champ de vue de ladite source ou l'image elle-même sur une référence géographique (carte, ortho-image, modèle 3D, ...). Ceci permet de localiser l'image courante fournie par la source d'image sur une zone particulière à observer.STATE OF THE PRIOR ART The solutions used in the prior art for extending and enriching the field of view of a scene generally consist in exploiting image source location meta-data to project the right-of-way of the field of view. view of said source or the image itself on a geographical reference (map, ortho-image, 3D model, ...). This makes it possible to locate the current image provided by the image source on a particular area to be observed.
Ainsi, dans le cas des applications de type vidéosurveillance ou station sol de drones, les solutions connues consistent à exploiter les méta- données de localisation des caméras embarquées.Thus, in the case of CCTV or UAV ground station applications, the known solutions consist in exploiting the location metadata of the on-board cameras.
Un inconvénient de cette solution provient du fait que l'opérateur doit regarder deux sources d'informations (l'image et la référence géographique) ce qui, en conditions de stress (opérations militaires, attaques terroristes...) nuit à l'efficacité et à la réactivité .A disadvantage of this solution stems from the fact that the operator must look at two sources of information (the image and the geographical reference) which, under stress conditions (military operations, terrorist attacks ...) undermines efficiency and responsiveness.
Par ailleurs, les données auxiliaires ne sont généralement pas suffisamment précises pour permettre une localisation précise de l'image sur la référence géographique. Enfin, selon les conditions d'acquisition de l'image, et malgré la visualisation de l'empreinte, il peut être fastidieux de désigner des points de correspondance (bâtiments, rues, ...) entre l'image et la référence.Furthermore, the auxiliary data are generally not precise enough to allow a precise location of the image on the geographical reference. Finally, depending on the conditions of acquisition of the image, and despite the visualization of the footprint, it can be tedious to designate points of correspondence (buildings, streets, ...) between the image and the reference.
Pour pallier cet inconvénient, certains systèmes, notamment de vidéosurveillance, proposent de projeter les champs de vue de chaque caméra dans une vue 3D de la scène. L'opérateur a alors accès aux vues des caméras en naviguant dans le modèle 3D enrichi en temps réel. Cette solution résout le problème de la perception de la localisation de chaque caméra mais est sujette à des problèmes potentiels de déformations des objets 3D après reprojection et présente par ailleurs l'inconvénient d'afficher à l'opérateur une image transformée (en fonction du point de vue), ce qui, d'un point de vue opérateur est généralement très mal perçuTo overcome this disadvantage, some systems, including video surveillance, propose to project the fields of view of each camera in a 3D view of the scene. The operator then has access to camera views by navigating the real-time 3D model. This solution solves the problem of the perception of the location of each camera but is subject to potential problems of deformation of 3D objects after reprojection and also has the disadvantage of displaying to the operator a transformed image (depending on the point from an operator point of view is generally very poorly perceived
(nécessité d'avoir accès à tout instant à l'information brute issue du capteur la moins transformée possible) .(need to have access at any moment to the raw information coming from the least transformed sensor possible).
La problématique d'extension du champ de vue d'une scène a déjà été proposée par Honda et alThe issue of extending the field of view of a scene has already been proposed by Honda et al.
(Pseudo Expansion of Field of View for Immersive(Nickname Expanding Field of View for Immersive
Projection Displays — K. Honda, N. Hashimoto, M. Sato — SIGGRAPH' 07) ainsi que Magjarevic et al (Non-Optical Expansion of Field of View of the Rigid Endoscope - R. Magjarevic et al, World Congress on Médical Physics and Biomédical Engineering 2006) . Cependant, les techniques décrites dans ces documents n'utilisent que les images récentes de la vidéo (N dernières images) dans une approche mosaïquage temps réel et ne fonctionne donc que dans des déplacements en rapprochement pour lesquels l'image courante est toujours entièrement incluse dans l'image précédente.Projection Displays - K. Honda, N. Hashimoto, M. Sato - SIGGRAPH '07) and Magjarevic et al (Non-Optical Expansion of the Field of View of the Rigid Endoscope - R. Magjarevic et al, World Congress on Medical Physics and Biomedical Engineering 2006). However, the techniques described in these documents use only the recent images of the video (N last images) in a real-time mosaicization approach and therefore only work in close-up movements for which the current image is always entirely included in the previous image.
Le but de l'invention est de pallier les inconvénients de l'art antérieur décrits ci-dessus.The object of the invention is to overcome the disadvantages of the prior art described above.
EXPOSÉ DE L'INVENTIONSTATEMENT OF THE INVENTION
Ce but est atteint au moyen d'un procédé dans lequel le mosaïquage utilise potentiellement l'ensemble de la vidéo disponible et l'information manquante peut être mise à jour à partir d'informations contextuelles telles qu'une image de plus grand champ disponible sur la zone, une image aérienne, un modèle 3D recalé selon le bon point de vue, une carte,... .This goal is achieved by means of a method in which the mosaic potentially uses all of the available video and the missing information can be updated from contextual information such as a larger field image available on the area, an aerial image, a 3D model recaled according to the good point of view, a map, ....
Ceci est obtenu par un procédé d'extension virtuelle et d'enrichissement du champ d'observation de l'image courante d'une scène décrite par une vidéo comportant plusieurs images comportant les étapes suivantes : a- étendre ledit champ d' observation par au moins une mosaïque obtenue à partir desdites images et par insertion d'au moins une donnée contextuelle dans le référentiel géographique de l'image courante de ladite scène, b- enrichir ledit champ de vue par au moins une information référencée dans ladite donnée contextuelle, procédé caractérisé en ce qu'il comporte en outre les étapes consistant à : c- insérer des données auxiliaires de localisation dans l'image courante, d- compléter le champ d' observation de l'image courante de ladite scène par des portions de mosaïque préalablement mémorisées comprises dans le champ d'observation étendu par l'étape a).This is achieved by a method of virtual extension and enrichment of the field of view of the current image of a scene described by a video comprising several images comprising the following steps: a- extending said field of view by at least one mosaic obtained from said images and by inserting at least one contextual datum into the geographic reference frame of the current image of said scene, b- enriching said field of view with at least one information referenced in said datum contextualized method, characterized in that it further comprises the steps of: c- insert auxiliary location data in the current image, d- complete the field of view of the current image of said scene by portions mosaic stored in the field of observation extended by step a).
Dans une première variante de réalisation, l'étape a) est obtenue par mosaïquage multi-résolution en temps réel de ladite vidéo dans un référentiel fixe.In a first variant embodiment, step a) is obtained by real-time multi-resolution mosaicization of said video in a fixed frame of reference.
Ladite mosaïque préalablement mémorisée comporte un nombre de niveaux de résolution fixe prédéfini . Dans une autre variante de réalisation, l'étape a) est obtenue par mosaïquage multi-résolution en temps différé opéré sur toutes les images de ladite vidéo .Said mosaic previously stored includes a number of predefined fixed resolution levels. In another variant embodiment, step a) is obtained by multi-resolution time-delayed mosaicing performed on all the images of said video.
Dans ce cas, le nombre de niveaux de résolution de la mosaïque est estimé à partir des caractéristiques de ladite vidéo.In this case, the number of resolution levels of the mosaic is estimated from the characteristics of said video.
Le procédé selon l'invention comporte en outre un référencement contextuel de l'image courante de ladite scène soit par recalage direct entre ladite image courante et lesdites données contextuelles, soit par recalage de la mosaïque disponible avec lesdites données contextuelles.The method according to the invention further comprises a contextual referencing of the current image of said scene either by direct registration between said current image and said contextual data, or by matching the mosaic available with said contextual data.
Les données auxiliaires de localisation insérées dans l'image courante sont par exemple une image aérienne de la zone de déroulement de ladite scène, un modèle 3D texture ou non de la zone de déroulement de ladite scène, des images de ladite scène prises selon des points de vue différents, ou une donnée contextuelle de type carte géographique. Grâce au procédé selon l'invention, l'interprétation de l'image courante est alors facilitée par son inclusion dans son contexte plus global et son enrichissement sémantique.The auxiliary location data inserted in the current image is for example an aerial image of the unwinding zone of said scene, a 3D model texture or not of the unwinding zone of said scene, images of said scene taken according to different points of view, or contextual data of geographical map type. Thanks to the method according to the invention, the interpretation of the current image is then facilitated by its inclusion in its more global context and its semantic enrichment.
BRÈVE DESCRIPTION DES DESSINS D'autres caractéristiques et avantages ressortiront de la description qui va suivre, prise à titre d'exemple non limitatif, en référence aux figures annexées dans lesquelles :BRIEF DESCRIPTION OF THE DRAWINGS Other characteristics and advantages will emerge from the description which follows, taken by way of non-limiting example, with reference to the appended figures in which:
- la figure 1 illustre schématiquement l'extension du champ de vue d'une scène vidéo par utilisation combinée d'une mosaïque multi-résolution et de données contextuelles selon l'invention,FIG. 1 schematically illustrates the extension of the field of view of a video scene by combined use of a multi-resolution mosaic and contextual data according to the invention,
- la figure 2 illustre schématiquement l'enrichissement du champ de vue de la scène de la figure 1 par transmission d'informations sémantiques référencées dans les données contextuelles.FIG. 2 schematically illustrates the enrichment of the field of view of the scene of FIG. 1 by transmission of semantic information referenced in the contextual data.
EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERSDETAILED PRESENTATION OF PARTICULAR EMBODIMENTS
Le procédé selon l'invention intervient dans le contexte de l'utilisation d'images ou de vidéos pour l'observation ou la surveillance d'une scène étendue. Les applications sont multiples : surveillance de zone à partir d'une caméra fixe ou mobile, installée au sol ou à bord de tout engin volant (drone, dirigeable, avion, hélicoptère, ...), navigation dans un réseau de caméras de vidéosurveillance, retransmission sportive (tour de France, Formule 1, courses hippiques, ...)....The method according to the invention occurs in the context of the use of images or videos for the observation or monitoring of an extended scene. The applications are multiple: zone surveillance from a fixed or mobile camera, installed on the ground or on board any flying machine (drone, dirigible, plane, helicopter, ...), navigation in a network of CCTV cameras , sports broadcast (Tour de France, Formula 1, horse races, ...) ....
Ces applications ont pour point commun l'observation à un instant donné d'une petite partie de la scène à observer. En effet, un compromis est nécessaire entre les dimensions des objets qui peuvent être observés (résolution) et la couverture de l'observation (champ de vue). Ce compromis se traduit par la focale utilisée : une focale élevée ("zoom") correspond à une résolution fine de la scène observée mais offre un champ de vue réduit qui nuit à la perception globale de la scène et notamment à la localisation de la scène observée au sein de ladite zone. A l'inverse, une focale faible ("grand angle") permet une bonne perception de l'ensemble de la scène mais ne permet pas une observation fine des objets, véhicules, personnes, présents sur le terrain.These applications have in common the observation at a given moment of a small part of the scene to be observed. Indeed, a compromise is necessary between the dimensions of the objects that can be observed (resolution) and the coverage of the observation (field of view). This compromise is reflected in the focal length used: a high focal length ("zoom") corresponds to a fine resolution of the observed scene but offers a reduced field of view which is detrimental to the overall perception of the scene and in particular to the location of the scene observed within said zone. Conversely, a weak focal length ("wide angle") allows a good perception of the whole scene but does not allow a fine observation of objects, vehicles, people, present on the ground.
Le procédé proposé permet d' observer une scène avec un maximum de résolution (focale élevée) tout en conservant une bonne perception de la localisation de la scène observée au sein de l'ensemble de la zone d'intérêt. A titre d'exemple la zone globale d'intérêt peut être, selon l'application une zone de combat observée par un drone, une ville observée par un réseau de caméras de vidéosurveillance, le trajet d'une étape du tour de France. La zone observée à tout moment par la vidéo est alors, respectivement, centrée sur un convoi se déplaçant dans la zone de combat, l'une des vues des caméras de vidéosurveillance, une vue centrée sur le peloton (course cycliste) . Dans ces trois cas, pouvoir visualiser les vues rapprochées dans leur contexte global (zone d'intérêt globale) apporterait une information particulièrement pertinente pour l'interprétation de la scène observée (de quoi se rapproche le convoi dans quelle direction se dirige la voiture observée par la caméra X, où se situe le peloton par rapport à l'arrivée...)The proposed method makes it possible to observe a scene with a maximum of resolution (high focal length) while maintaining a good perception of the location of the scene observed within the whole area of interest. For example, the global area of interest may be, depending on the application a combat zone observed by a drone, a city observed by a network of CCTV cameras, the route of a stage of the Tour de France. The area observed at all times by the video is then, respectively, centered on a convoy moving in the combat zone, one of the views of CCTV cameras, a view centered on the peloton (cycling race). In all three cases, you can view the close-up views in their global context (global area of interest) would provide particularly relevant information for the interpretation of the observed scene (what is the convoy approaching in which direction is the car observed by the camera X, where is the peloton compared to the arrival...)
L'objectif du mécanisme d'extension virtuelle du champ de vue est de donner la possibilité à l'opérateur de diminuer virtuellement la focale de son objectif ("dézoom virtuel") de manière à pouvoir mieux localiser la zone observée courante par rapport à la zone d'intérêt globale. En pratique, le dézoom se traduit par l'incrustation du champ de vue courant dans une image de plus grand champ dont les pixels hors champ de vue courant sont issus des informations contextuelles disponibles.The objective of the virtual extension mechanism of the field of view is to give the possibility to the operator to reduce virtually the focal point of his objective ("virtual dezoom") so as to better locate the current observed area relative to the area of global interest. In practice, the dezoom results in the embedding of the current field of view in a larger field image whose out-of-field current view pixels are derived from the available contextual information.
La figure 1 illustre le mécanisme d'extension virtuelle du champ de vue d'une zone 2 dans scène vidéo composée de plusieurs images 4. L'étape 6 consiste à générer, à partir de ladite vidéo, une mosaïque multi-résolution 10.FIG. 1 illustrates the virtual extension mechanism of the field of view of an area 2 in a video scene composed of several images 4. Step 6 consists in generating, from said video, a multi-resolution mosaic 10.
Le mosaïquage est multi-résolution en ce sens qu'il est construit sous la forme d'une pyramide de tuiles correspondant à des niveaux de résolution différents et permettant de prendre en compte de grandes variations de la résolution au sol de la vidéo.Mosaic is multi-resolution in the sense that it is constructed as a pyramid of tiles corresponding to different resolution levels and allowing to take into account large variations of the ground resolution of the video.
Ainsi, une vidéo présentant un zoom continu sur une zone (passage d'un plan large à un plan serré) conduit à une mosaïque constituée de tuiles de plus en plus résolues et de plus en plus localisées au sein de la tuile basse résolution initiale. Le champ de vue réel de la zone 2 est ensuite complété, en partie par reprojection (étape 14) de la mosaïque constituée à l'étape 6, en partie par recalage (étape 14) et reprojection d'une ou plusieurs données contextuelles 16 dans le référentiel de l'image courante .Thus, a video presenting a continuous zoom on an area (passage from a wide plane to a tight plane) leads to a mosaic made of tiles more and more resolved and more and more localized within the initial low resolution tile. The real field of view of zone 2 is then completed, in part by reprojection (step 14) of the mosaic formed in step 6, partly by resetting (step 14) and reprojection of one or more contextual data 16 in the repository of the current image.
Dans le cas de la figure 1, la donnée contextuelle est une carte de la zone à observer.In the case of Figure 1, the contextual data is a map of the area to be observed.
Cependant, elle peut être un modèle 3D texture ou non, d'autres images prises selon des points de vue différents ou image aérienne de ladite zone.However, it can be a 3D model texture or not, other images taken from different points of view or aerial image of said area.
Après reprojection, on obtient un champ de vue étendu 20 comportant une image courante de la zone 2 replacée dans le contexte reconstitué à partir de la mosaïque 6 et comportant les données contextuelles 16.After reprojection, an extended field of view 20 is obtained comprising a current image of the zone 2 replaced in the reconstituted context from the mosaic 6 and including the contextual data 16.
Dans un premier mode de réalisation, le mosaïquage multi-résolution est réalisé en temps réel, dans un référentiel fixe (typiquement référentiel géographique, référentiel de la première image,...), puis les portions de mosaïque comprises dans le champ de vue étendu sont utilisées pour compléter le champ de vue courant .In a first embodiment, the multi-resolution mosaic is made in real time, in a fixed repository (typically geographical reference, reference of the first image, etc.), then the mosaic portions included in the extended field of view. are used to complete the current field of view.
L'utilisation d'un référentiel fixe pour le calcul de la mosaïque permet d'éviter de recalculer la mosaïque complète à chaque image ce qui induirait une charge de calcul inutile et une dégradation rapide de la qualité image.Using a fixed repository for calculating the mosaic dataset avoids recalculating the complete mosaic dataset for each image, which would lead to unnecessary computational workload and rapid degradation of image quality.
Par ailleurs, l'utilisation d'une mosaïque mémorisée permet d'étendre les possibilités d'expansion du champ de vue par rapport à un mosaïquage limité aux dernières images de la vidéo. Dans un deuxième mode de réalisation, le mosaïquage multi-résolution est opéré en mode différé sur l'ensemble de la vidéo, puis la mosaïque multi- résolution complète est utilisée à chaque visualisation différée de la vidéo.Moreover, the use of a stored mosaic makes it possible to extend the possibilities of expansion of the field of view with respect to a mosaicization limited to the last images of the video. In a second embodiment, the multi-resolution mosaic is operated in deferred mode over the entire video, and then the multi-resolution mosaic is used every time the video is delayed.
Par rapport au temps réel, les capacités d'extension du champ de vue à partir des données vidéo sont donc potentiellement accrues puisque le procédé s'appuie alors non seulement sur les images passées mais également futures.Compared to real-time, the field of view extension capabilities from the video data are therefore potentially increased since the method then relies not only on past but also future images.
En mode temps réel, le nombre de niveaux de résolution de la mosaïque est figé et défini en entrée de l'algorithme.In real-time mode, the number of resolution levels of the mosaic is fixed and defined at the input of the algorithm.
En mode différé en revanche, le nombre de niveaux de résolution peut être estimé à partir des caractéristiques de la vidéo telles que, par exemple, la variation de la résolution au sol sur l'ensemble de la vidéo à mosaïquer.In deferred mode, on the other hand, the number of resolution levels can be estimated from the characteristics of the video such as, for example, the variation of the ground resolution over the entire video to be mosaicized.
Dans le cas où un seul niveau de résolution est imposé, le mosaïquage se fait dans la résolution du référentiel choisi (référentiel géographique, première image, ... )In the case where a single level of resolution is imposed, the mosaicing is done in the resolution of the selected reference frame (geographical reference, first image, ...)
Le mosaïquage multi-résolution est complété dans les deux modes temps réel et différé par un référencement contextuel de l'image courante. Ce référencement utilise soit un recalage direct entre l'image courante et des données contextuelles (image aérienne, image selon un autre point de vue, carte, modèle 3D,...), soit se fait par l'intermédiaire du recalage de la mosaïque disponible (mosaïque temps réel en mode temps réel ou mosaïque complète en mode différé) avec les données contextuelles.The multi-resolution mosaic is completed in both real-time and deferred modes by contextual referencing of the current image. This referencing uses either a direct registration between the current image and contextual data (aerial image, image according to another point of view, map, 3D model, ...), or is done via the registration of the mosaic available (real time mosaic in real-time mode or complete mosaic mode in delayed mode) with the contextual data.
Dans les deux cas, le référencement peut s'aider des éventuelles données auxiliaires de localisation disponibles (cas d'un drone d'observation par exemple) .In both cases, the referencing can help any optional auxiliary location data (case of an observation drone for example).
L ' appariement entre les données courantes et les données contextuelles est utilisé : a) Pour reprojeter les données contextuelles dans le champ de vue étendu, permettant ainsi une meilleure interprétabilité de l'image, b) En fonction du type de donnée de référence permettant d'estimer les conditions de prise de vue de la donnée courante (typiquement position et orientation 3D) . Dans le cas de l'utilisation de données de référence 3D, les conditions de prise de vue estimées sont utilisées pour reprojeter le modèle 3D de manière optimale.The matching between the current data and the contextual data is used: a) To reproject the contextual data in the extended field of view, thus allowing a better interpretability of the image, b) According to the type of reference data allowing to estimate the shooting conditions of the current data (typically position and 3D orientation). In the case of using 3D reference data, the estimated shooting conditions are used to reproject the 3D model optimally.
L'intérêt d'un « dé-zoom virtuel » par rapport à un « dé-zoom réel » est de plusieurs ordres : d'une part le « dé-zoom » est potentiellement illimité : la limite n'est donnée que par l'étendue des données contextuelles disponibles. Par ailleurs, dans un cadre temps réel, le dé-zoom réel présente le risque de perdre de vue l'objet d'intérêt notamment si celui- ci est pisté par un algorithme de suivi automatique. Enfin, en mode différé (investigation, montage, ...), l'opérateur n'a plus la faculté d'influer sur les paramètres de prise de vue et donc d'opérer un dé-zoom réel. La figure 2 illustre le mécanisme d'enrichissement du champ de vue de la zone 2 pour accroître l'intelligibilité de la scène.The interest of a "virtual de-zoom" compared to a "real de-zoom" is of several kinds: on the one hand the "de-zoom" is potentially unlimited: the limit is given only by the scope of available contextual data. Furthermore, in a real-time context, the real de-zooming has the risk of losing sight of the object of interest, especially if it is tracked by an automatic tracking algorithm. Finally, in deferred mode (investigation, editing, ...), the operator no longer has the ability to influence the shooting parameters and thus to perform a real de-zoom. Figure 2 illustrates the enhancement mechanism of the field of view of zone 2 to increase the intelligibility of the scene.
Outre les étapes décrites précédemment par référence à la figure 1, ce mécanisme comporte une étape supplémentaire consistant à enrichir la donnée contextuelle 16 d'une information sémantique ou asémantique telle que le nom de la rue 24 ou des plots de pistage 26. Ce mécanisme permet ainsi, grâce au recalage 14 permanent de l'image courante avec les données contextuelles, de transmettre, à la demande de l'opérateur, lesdites informations sémantiques ou asémantiques sur le contenu de la scène directement dans l'image observée (et le cas échéant dans le champ étendu) dans une approche de type «réalité augmentée».In addition to the steps described above with reference to FIG. 1, this mechanism includes an additional step of enriching the contextual data 16 with semantic or asemantic information such as the name of the street 24 or the tracking pads 26. This mechanism allows thus, thanks to the permanent registration 14 of the current image with the contextual data, to transmit, at the request of the operator, said semantic or asemantic information on the contents of the scene directly in the observed image (and if appropriate in the extended field) in an "augmented reality" approach.
Une telle approche contribue à synthétiser l'information disponible sur une scène donnée au sein d'une seule et unique visualisation, accroît considérablement l'intelligibilité de la scène observée et au final améliore l'efficacité de l'opérateur.Such an approach contributes to synthesizing the information available on a given scene within a single visualization, considerably increases the intelligibility of the observed scene and in the end improves the efficiency of the operator.
Dans le cas d'un drone en surveillance aérienne sur zone urbaine par exemple, les informations sémantiques affichables directement dans l'image sont par exemple :In the case of a drone aerial surveillance urban area for example, the semantic information displayable directly in the image are for example:
• un bâtiment d'intérêt,• a building of interest,
• les noms de rues,• street names,
• une cible mobile pistée par un autre moyen, • Les informations asémantiques peuvent typiquement résulter du traitement de l'image courante pour la détection de changements par rapport à la mosaïque temps réel et/ou par rapport à la donnée de référence. Une telle détection de changement permet d'attirer l'attention de l'opérateur sur un objet présent dans l'image courante et absent de la précédente observation par exemple.• a moving target tracked by other means, • Asemantic information can typically result from the processing of the current image for the detection of changes with respect to the real time mosaic and / or with respect to the reference data. Such a change detection makes it possible to draw the attention of the operator to an object present in the current image and absent from the previous observation, for example.
Le procédé selon l'invention s' applique dans le cas où une scène étendue est observée par un ou plusieurs senseurs . A type d'exemples, citons : • Station sol de drone de reconnaissance : l'extension virtuelle et l'enrichissement du champ de vue sont particulièrement pertinents dans un cadre de surveillance urbaine où les exigences de résolution au sol imposent un champ de vue réduit et donc une difficulté de la part de l'opérateur à localiser précisément l'image courante relativement à sa zone de surveillance (quartier, ville, ...) ,The method according to the invention applies in the case where an extended scene is observed by one or more sensors. Examples include: • Reconnaissance UAV ground station: Virtual extension and field of view enhancement are particularly relevant in an urban surveillance environment where ground-based resolution requirements impose a reduced field of view. and therefore a difficulty on the part of the operator to precisely locate the current image relative to its surveillance zone (neighborhood, city, ...),
• Tenue de situation à partir d'un réseau de vidéosurveillance : les fonctionnalités apportées par le procédé selon l'invention permettent de faciliter le suivi multi-caméras d'un objet d'intérêt, la localisation globale d'un objet observé . • Situation keeping from a video surveillance network: the features provided by the method according to the invention make it possible to facilitate the multi-camera tracking of an object of interest, the global location of an object observed.

Claims

REVENDICATIONS
1. Procédé d'extension virtuelle et d'enrichissement du champ d'observation de l'image courante d'une scène décrite par une vidéo comportant plusieurs images: a- étendre ledit champ d' observation par au moins une mosaïque obtenue à partir desdites images et par insertion d'au moins une donnée contextuelle dans le référentiel de l'image courante de ladite scène, b- enrichir ledit champ de vue par au moins une information référencée dans ladite donnée contextuelle, procédé caractérisé en ce qu'il comporte en outre les étapes consistant à : c- insérer des données auxiliaires de localisation dans l'image courante, d- compléter le champ d' observation de l'image courante de ladite scène par des portions de mosaïque préalablement mémorisées comprises dans le champ d'observation étendu par l'étape a).1. A method of virtual extension and enrichment of the field of view of the current image of a scene described by a video comprising several images: a- extending said field of observation by at least one mosaic obtained from said images and insertion of at least one contextual data in the repository of the current image of said scene, b- enrich said field of view by at least one information referenced in said contextual data, characterized in that it comprises in in addition to the steps of: c- inserting auxiliary location data in the current image, completing the field of view of the current image of said scene by previously stored mosaic portions included in the field of view extended by step a).
2. Procédé selon la revendication 1, dans lequel l'étape a) est obtenue par mosaïquage multi- résolution en temps réel de ladite vidéo dans un référentiel fixe.The method of claim 1, wherein step a) is obtained by real-time multi-resolution mosaicization of said video in a fixed repository.
3. Procédé selon la revendication 1, dans lequel l'étape a) est obtenue par mosaïquage multi- résolution en temps différé opéré sur toutes les images de ladite vidéo. 3. The method of claim 1, wherein step a) is obtained by multi-resolution mosaicization delayed time operated on all the images of said video.
4. Procédé selon la revendication 3, dans lequel ladite mosaïque préalablement mémorisée comporte un nombre de niveaux de résolution fixe prédéfini.4. The method according to claim 3, wherein said mosaic previously stored comprises a number of predefined fixed resolution levels.
5. Procédé selon la revendication 4, dans lequel le nombre de niveaux de résolution de la mosaïque est estimé à partir des caractéristiques de ladite vidéo.The method of claim 4, wherein the number of resolution levels of the mosaic is estimated from the characteristics of said video.
6. Procédé selon la revendication 2 ou la revendication 3, comportant en outre un référencement contextuel de l'image courante de ladite scène soit par recalage direct entre ladite image courante et lesdites données contextuelles, soit par recalage de la mosaïque disponible avec lesdites données contextuelles.6. Method according to claim 2 or claim 3, further comprising a contextual referencing of the current image of said scene either by direct registration between said current image and said contextual data, or by matching the mosaic available with said contextual data. .
7. Procédé selon la revendication 1, dans lequel ladite donnée contextuelle est une image aérienne de la zone de déroulement de ladite scène.The method of claim 1, wherein said contextual data is an aerial image of the unwinding area of said scene.
8. Procédé selon la revendication 1, dans lequel ladite donnée contextuelle est un modèle 3D texture ou non de la zone de déroulement de ladite scène .8. The method of claim 1, wherein said contextual data is a 3D model texture or not the unwinding area of said scene.
9. Procédé selon la revendication 1, dans lequel ladite donnée contextuelle est constituée par des images de ladite scène prises selon des points de vue différents. The method of claim 1, wherein said contextual data is images of said scene taken from different viewpoints.
10. Procédé selon la revendication 1, dans lequel ladite donnée contextuelle est une carte géographique. The method of claim 1, wherein said contextual data is a geographical map.
EP10721356A 2009-04-03 2010-04-02 Method for virtually extending and enhancing the field of view of a scene Withdrawn EP2415013A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0952197A FR2944174B1 (en) 2009-04-03 2009-04-03 METHOD FOR VIRTUAL EXTENSION AND ENRICHMENT OF THE OBSERVATION FIELD OF A SCENE
PCT/EP2010/054462 WO2010112604A1 (en) 2009-04-03 2010-04-02 Method for virtually extending and enhancing the field of view of a scene

Publications (1)

Publication Number Publication Date
EP2415013A1 true EP2415013A1 (en) 2012-02-08

Family

ID=41328546

Family Applications (1)

Application Number Title Priority Date Filing Date
EP10721356A Withdrawn EP2415013A1 (en) 2009-04-03 2010-04-02 Method for virtually extending and enhancing the field of view of a scene

Country Status (4)

Country Link
US (1) US8995751B2 (en)
EP (1) EP2415013A1 (en)
FR (1) FR2944174B1 (en)
WO (1) WO2010112604A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11049175B2 (en) * 2006-07-07 2021-06-29 Joseph R. Dollens Method and system for managing and displaying product images with progressive resolution display with audio commands and responses
US11670046B2 (en) 2013-07-23 2023-06-06 Hover Inc. 3D building analyzer
US10861224B2 (en) 2013-07-23 2020-12-08 Hover Inc. 3D building analyzer
JP6973141B2 (en) * 2018-02-07 2021-11-24 トヨタ自動車株式会社 Display device for vehicles

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953054A (en) * 1996-05-31 1999-09-14 Geo-3D Inc. Method and system for producing stereoscopic 3-dimensional images
KR20030059399A (en) * 2001-12-29 2003-07-10 엘지전자 주식회사 Video browsing systme based on mosaic image
JP4859205B2 (en) * 2005-02-04 2012-01-25 キヤノン株式会社 Information processing apparatus, information processing method, and program
SE529157C2 (en) * 2005-07-01 2007-05-15 Daniel Forsgren Image enhancement when registering sports events
US7623683B2 (en) * 2006-04-13 2009-11-24 Hewlett-Packard Development Company, L.P. Combining multiple exposure images to increase dynamic range
US8098881B2 (en) * 2008-03-11 2012-01-17 Sony Ericsson Mobile Communications Ab Advertisement insertion systems and methods for digital cameras based on object recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2010112604A1 *

Also Published As

Publication number Publication date
FR2944174B1 (en) 2017-12-08
US8995751B2 (en) 2015-03-31
US20120051627A1 (en) 2012-03-01
FR2944174A1 (en) 2010-10-08
WO2010112604A1 (en) 2010-10-07

Similar Documents

Publication Publication Date Title
US10301041B2 (en) Systems and methods for tracking moving objects
US10339689B2 (en) Intelligent camera
US9240074B2 (en) Network-based real time registered augmented reality for mobile devices
US9001116B2 (en) Method and system of generating a three-dimensional view of a real scene for military planning and operations
US20130278715A1 (en) System and method for discreetly collecting 3d immersive/panoramic imagery
EP3278301A1 (en) Method of determining a direction of an object on the basis of an image of the object
US20120207386A1 (en) Updating A Low Frame Rate Image Using A High Frame Rate Image Stream
JP6397617B2 (en) Method and apparatus for removing shadows from aerial or satellite photographs
WO2018025001A1 (en) Method for producing a digital image, associated computer program product and optical system
WO2010112604A1 (en) Method for virtually extending and enhancing the field of view of a scene
FR2989790A1 (en) VISUALIZATION DEVICE SUITABLE FOR PROVIDING AN EXTENDED VISUAL FIELD.
WO2014199085A1 (en) System for tracking the position of the shooting camera for shooting video films
Kweon et al. Image-processing based panoramic camera employing single fisheye lens
Carmichael et al. Dataset and Benchmark: Novel Sensors for Autonomous Vehicle Perception
EP3167434A2 (en) Airborne optoelectronic equipment for imaging, monitoring and/or designating targets
EP3072110B1 (en) Method for estimating the movement of an object
Diskin et al. Dense point-cloud creation using superresolution for a monocular 3d reconstruction system
Qadir et al. Enhancing thermal video using a public database of images
FR3074595A1 (en) METHOD OF IDENTIFYING A TARGET USING A HIGH RESOLUTION INBOARD CAMERA
EP3324338B1 (en) Method for video indexing, and method for searching video sequence in a video database
Deschaud et al. Colorisation et texturation temps r\'eel d'environnements urbains par syst\eme mobile avec scanner laser et cam\'era fish-eye
FR3066850B1 (en) METHOD FOR VISUALIZATION IN THREE DIMENSIONS OF THE ENVIRONMENT OF A VEHICLE
WO2023052448A1 (en) Method for detecting obstacles
Kushwah et al. Comparative Analysis of Image Defogging with its Techniques and Types
EP3591610B1 (en) Method for generating a multispectral image

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20111004

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20130812

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: AIRBUS (SAS)

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Effective date: 20180913