FR2932351A1

FR2932351A1 - Procede d'observation de scenes couvertes au moins partiellement par un ensemble de cameras et visualisables sur un nombre reduit d'ecrans

Info

Publication number: FR2932351A1
Application number: FR0803168A
Authority: FR
Inventors: Vincent Guitteny; Olivier Desmaison; Oussama Moslah
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2008-06-06
Filing date: 2008-06-06
Publication date: 2009-12-11
Anticipated expiration: 2028-06-06
Also published as: FR2932351B1

Abstract

La présente invention est relative à un procédé permettant à au moins un observateur de « naviguer » de façon continue dans un espace surveillé par un grand nombre de caméras fixes et/ou mobiles, c'est-à-dire de représenter sur un nombre restreint d'écrans de visualisation des données évolutives de ces scènes dans une image 2D avec un point d'observation choisi par le ou les observateur(s), ce point d'observation n'étant pas nécessairement celui de l'une quelconque des caméras d'observation en fonctionnement. Ce procédé est caractérisé en ce qu'on établit un modèle 3D des éléments fixes des scènes observées et de leur environnement, que l'on positionne et oriente les plans image des capteurs concernés par rapport aux zones correspondantes du modèle 3D et que l'on exploite. en 3D les images 2D des capteurs.

Description

PROCEDE D'OBSERVATION DE SCENES COUVERTES AU MOINS PARTIELLEMENT PAR UN ENSEMBLE DE CAMERAS ET VISUALISABLES SUR UN NOMBRE REDUIT D'ECRANS La présente invention se rapporte à un procédé d'observation de scènes couvertes au moins partiellement par un ensemble de caméras et visualisables sur un nombre réduit d'écrans. Les systèmes de vidéosurveillance actuels nécessitent l'utilisation de nombreux écrans de visualisation pour le contrôle d'une scène (urbaine comme intérieurs de bâtiments), le nombre d'écrans de visualisation étant directement lié au nombre de caméras implantées sur le lieu de surveillance. Des traitements d'image spécifiques permettent alors de faciliter la détection d'incidents pour l'opérateur du système (colorisation, clignotement...). Ces traitements d'image qui tendent à rendre chaque caméra intelligente représentent la valeur ajoutée de tels systèmes fondés sur des technologies matérielles similaires (multiplexeurs numériques, caméras IP...). La qualité d'un système de vidéosurveillance est liée en grande partie à sa qualité de détection automatique d'événements singuliers : suivi de personnes, détection d'incidents, reconnaissance de formes (personnes, véhicules).

En 2002, un rapport de l'Université de Hull [1] (les chiffres entre crochets se rapportent aux documents cités en fin de description) faisait état de plus de 400.000 caméras installées dans la ville de Londres, et nul doute que ce nombre a constamment augmenté depuis. Les systèmes de visualisation actuels doivent alors trouver une alternative technologique pour la surveillance de scènes observées par un nombre très élevé de caméras. Les entreprises du secteur de la vidéosurveillance proposent généralement des installations complètes des systèmes, du matériel aux solutions logicielles. On peut notamment citer les industriels suivants : Visiowave [2], qui propose des solutions de vidéosurveillance embarquée, Panasonic [3], qui développe des solutions complètes, des caméras de surveillance aux PC pour les diriger, GE Security [4], qui développe des solutions complètes de vidéosurveillance dans le secteur sportif (équipements de stades...), W3CAM [5], qui produit des: systèmes de vidéosurveillance numérique en réseaux, Transparence [6] qui est une: entreprise spécialisée dans les technologies de vidéosurveillance et de la visioconférence, Allwan Security [7] qui est une entreprise spécialisée dans la sécurité industrielle, électronique et physique, ainsi que Vigivision [8], Derotronic [9], Access France [10], Comodalarm [11], Chubb- security systems [12], Tevah systèmes [13]... On peut se référer également à la liste des participants (du domaine de la vidéosurveillance) présents lors du salon Milipol 2007 [14] qui s'est tenu à Paris. Ces entreprises sont spécialisées dans l'installation des matériels et systèmes d'acquisition ainsi que de leurs traitements logiciels 2D. Les systèmes de représentation visuels sont uniquement 2D et il revient alors à l'opérateur de contrôle de basculer d'une vue à l'autre, sans qu'un système de visualisation global ne soit fourni avec l'application, excepté la mosaïque d'écrans. Aucun système ne propose un contrôle de visualisation 3D des flux vidéo ou une analyse 3D des caractéristiques d'image. Ces technologies concernent un autre secteur d'activité, lié au développement de nouveaux systèmes de représentation de l'information 3D synthétique (numérisation du patrimoine, réalité augmentée...). Parmi les industriels concernés, on peut déjà citer Google [15] et Microsoft [16] avec le développement des produits GoogleEarth et Photosynth. Ces deux logiciels proposent l'incrustation d'images 2D géo-référencées et orientées dans un monde virtuel. La scène 3D est représentée par des modèles simplistes (produits via Sketchup [17]) dans l'application de Google ou un nuage de points pour Microsoft (par implémentation des méthodes décrites dans [18] ). Ces nouveaux modes de représentation sont pour le moment utilisés dans le but de centraliser les informations géographiques fournies par tous types de contributeurs, tirant profit des nouvelles évolutions du Web 2.0. D'autre part, l'insertion de flux vidéo, contrairement aux images fixes actuelles, n'a pas fait l'objet de démonstrateurs ou d'articles de recherche dans les laboratoires universitaires spécialisés (Mixed reality Lab de Singapour [19], Nottingam, Mixed Reality Geographical Information System [20], University College London [21]).

La présente invention a pour objet un procédé d'observation de scènes couvertes au moins partiellement par un ensemble de caméras et visualisables sur un nombre réduit d'écrans, procédé permettant à au moins un observateur de naviguer de façon continue dans un espace surveillé par un grand nombre de caméras fixes et/ou mobiles, c'est-à-dire de représenter sur un nombre restreint d'écrans de visualisation des données évolutives de ces scènes dans une image 2D avec un point d'observation choisi par le ou les observateur(s), ce point d'observation n'étant pas nécessairement celui de l'une quelconque des caméras d'observation en fonctionnement.

Le procédé conforme à l'invention est un procédé d'observation de scènes couvertes au moins partiellement par un ensemble de capteurs et visualisables sur un nombre réduit de dispositifs de visualisation, et il est caractérisé en ce qu'on établit un modèle 3D des éléments fixes des scènes observées et de leur environnement, que l'on positionne et oriente les plans image des capteurs concernés par rapport aux zones correspondantes du modèle 3D et que l'on exploite en 3D les images 2D des capteurs. Les capteurs peuvent comporter des caméras fixes et/ou mobiles. Les dispositifs de visualisation peuvent comporter des écrans de projection et/ou des lunettes individuelles de projection (du type utilisé pour la visualisation de réalité virtuelle). Le procédé de l'invention permet la représentation unique de l'ensemble des systèmes d'acquisition présents par incrustation réaliste des flux vidéo en 3D dans le modèle virtuel de la scène, facilitant ainsi la perception de l'ensemble du système. En plus d'apporter une solution à l'augmentation croissante du nombre de caméras, cette nouvelle représentation des flux vidéo permet une représentation des données actives de la scène (trafic, foules...) par fusion des données image 2D en 3D ; cette nouvelle caractérisation ouvrant alors des perspectives de contrôle non disponibles dans les systèmes actuels. Ce nouveau procédé de visualisation peut s'appliquer à l'ensemble des systèmes nécessitant un contrôle opérationnel à partir d'un grand ensemble de caméras, par exemple, et à titre non limitatif : - Le contrôle et la sécurité d'espaces : gares, aéroports, routes, bâtiments, commerces Les processus industriels et logistiques - La gestion de flux de personnes (foules, transports en commun) - La simulation d'entraînement à grande échelle ,... - Des applications ludiques.

La présente invention sera mieux comprise à la lecture de la description détaillée d'un mode de réalisation, pris à titre d'exemple non limitatif et illustré par le dessin annexé, sur lequel : - la figure 1 est un ensemble de trois vues résultant de la numérisation 3D d'environnements urbains, - la figure 2 est un ensemble de trois vues d'un même bâtiment et provenant de trois caméras différentes, - la figure 3 est une vue d'ensemble synthétique du bâtiment de la figure 2, dans laquelle on a incrusté de façon géolocalisée les flux vidéo provenant des caméras relatives à la figure 2, - La figure 4 est une vue similaire à celle de la figure 3, dans laquelle ont été incrustées des informations 3D géo-référencées, - La figure 5 est une vue partielle du bâtiment représenté sur les figures 2 à 4, sur laquelle on a tracé les champs de vue de deux des caméras d'observation, et - La figure 6 est un bloc-diagramme du processus de mise en oeuvre du procédé de l'invention.

Le procédé de l'invention repose sur la combinaison de cinq technologies : la numérisation 3D de la scène, - l'incrustation des flux vidéo dans le modèle virtuel, - le traitement des données image pour une représentation 3D, l'utilisation des technologies de synthèse d'images pour la simulation, - la chaîne algorithmique pour l'exploitation en temps réel.

La numérisation 3D du territoire, en pleine expansion (voir par exemple le programme Terra Numerica du pôle de compétitivité Ile-de-France ), permet d'obtenir des modèles géométriques de l'ensemble des bâtiments d'un territoire par l'analyse des images aériennes, de prises de vue au sol ou de numérisations laser, comme le montre la figure 1. Des logiciels dédiés ( Sketchup , par exemple) permettent également la modélisation simplifiée de tout type de bâtiment ou zone urbaine, comme cela est effectué dans GoogleEarth par exemple. Sur la figure 1, on a représenté des exemples de numérisation 3D d'environnements urbains : modélisation par Sketchup (à gauche), dans GoogleEarth (au milieu) et modélisation par traitement d'images, et plus précisément, numérisation par analyse d'images aériennes ( BATIS3D de l'IGN, Institut Géographique National français). La présente invention consiste à utiliser ces représentations virtuelles 3D d'un environnement (intérieur et extérieur) pour le contrôle d'un ensemble de caméras (monoculaires, panoramiques, stéréoscopiques...), par incrustation réaliste de l'ensemble des flux vidéo dans la scène virtuelle 3D. La seconde étape est l'incrustation 3D réaliste en temps réel des flux vidéo observant la scène réelle.

Pour ce faire, on considère un ensemble de flux vidéo observant une scène pré-modélisée en 3D, comme illustré figure 2 pour des séquences vidéo filmées par trois caméras placées devant l'Ecole des Mines de Paris. Ces flux vidéo sont incrustés dans le modèle géométrique 3D de la scène selon leur positionnement et leur orientation dans le monde réel. Afin d'estimer la position de chaque caméra par rapport au modèle 3D, plusieurs techniques de traitement d'images ou d'électronique peuvent être mises en oeuvre, par exemple : ù Analyse d'images (mires 2D, mires 3D, mise en correspondance de textures, auto-calibrage plan et 3D, détection infrarouge,...), - Informations fournies par un système GPS, ù Electronique dédiée (capteurs embarqués, accéléromètres...) Une fois les paramètres de calibrage de position des caméras estimés, l'incrustation est faite dans le monde 3D synthétique à partir d'un moteur de réalité augmentée 3D en temps réel. Ce moteur utilise par exemple des librairies OpenSource ([22, 23]) et des algorithmes avancés de visionique (calibrage infrarouge, suivi de points, triangulation multi-vues...), afin de mixer en temps réel des sources d'entrées vidéo dans des environnements virtuels 3D. La projection 3D de chaque flux vidéo est effectuée sur un plan 2D géo-référencé (la forme est adaptable au type de capteur utilisé), comme le montre la figure 3. Sur cette figure 3, les bâtiments 1 sont un modèle synthétique 3D de la scène observée par trois caméras notées CAMERA 1, CAMERA 2 et CAMERA 3, disposées devant la façade principale du bâtiment 1. On procède ensuite à la fusion des données issues des trois caméras pour l'exploitation 3D de la scène observée. Outre la représentation 3D de l'ensemble des flux vidéo, le procédé de l'invention permet de représenter en 3D la fusion des données multi-caméras, ce qui est totalement impossible dans les systèmes actuels. L'ensemble des exigences des systèmes de sécurité/surveillance se limite à la visualisation 2D pour les traitements d'images. La représentation 3D permet d'obtenir tout d'abord l'unicité de rendu au lieu de l'afficher en multi écrans. Cette technologie est parfaitement adaptée aux problématiques de surveillance, puisque la représentation 3D permet notamment de restituer naturellement et continûment le suivi d'un avatar en mouvement dans le monde 3D au lieu de changer de points de vue en 2D. Pour cela, les techniques de vision par ordinateur sont utilisées pour la fusion des données d'images. Cela nécessite en premier lieu d'extraire l'information utile de chaque flux vidéo, de mettre en correspondance les différents flux vidéo entre chaque point de vue et de les trianguler pour une représentation 3D. Les étapes de vision par ordinateur sont les suivantes : 1. L'extraction d'informations dans les flux vidéo est effectuée en 2D par des algorithmes de segmentation de fond (modèle gaussien adaptatif, multi gaussien, statistique,...), 2. Le suivi de points mobiles utilise des techniques de traitement d'images 2D bien connues (KTL pyramidal, SIFT GPU, systèmes de particules, contours actifs,...), 3. Le calcul des points 3D est effectué par triangulation des points des images fournies pour chaque point de vue vidéo (triangulation optimale, multi vues, "shape from silhouettes", colorisation volumique...). Cette triangulation est effectuée sur les éléments en mouvement dans la scène, via l'extraction des silhouettes ou plus simplement de l'ensemble des pixels en déplacement.

L'information rendue à l'utilisateur est alors modélisée en 3D, en la simplifiant en vue d'obtenir une ergonomie plus intuitive, et en rendant plus fiable le système de surveillance (un seul contrôle 3D au lieu de plusieurs moniteurs 2D). Pour mettre en oeuvre une telle ergonomie plus intuitive, on peut, par exemple, on peut avoir recours à : - un système de déplacement dans le monde virtuel intuitif par contrôle par joystick , clavier ou écran tactile, - un changement de point de vue 3D automatique selon l'application souhaitée (suivi de personne automatique optimisé,...), une surveillance d'une zone particulière par simple clic ou par sélection dans le modèle 3D, avec estimation automatique des caméras correspondant à cette scène et en rendant plus fiable le système de surveillance (en utilisant un seul contrôle 3D au lieu de plusieurs moniteurs affichant des images en 2D). De nombreuses informations issues du traitement des images vidéo peuvent alors s'afficher en 3D pour l'analyse statique et dynamique de la scène observée, à savoir, par exemple: ù informations géo-référencées sur les bâtiments : caractéristiques physiques, nombre de personnes... ù représentation des véhicules en mouvement : trajectoires tracées en 3D, vitesse, accélération, types de véhicules, direction (comme cela est présenté figure 4) ù caractéristiques des personnes en mouvement : taille, vitesse, trajectoire dans la scène... ù gestion des foules par représentation synthétique des flux de personnes Comme précisé ci-dessus, on a représenté en figure 4 le résultat de l'incrustation d'informations 3D géo-référencées. Dans cet exemple, un véhicule 2 est représenté dans le monde virtuel avec des informations associées (type de véhicule, vitesse, accélération, hauteur...) et sa trajectoire passée est tracée par des informations 3D (ici des pointillés rouges).

D'autre part, la gestion du rendu par un moteur 3D ouvre d'autres perspectives, liées aux techniques de synthèse d'images. La synthèse d'images est mise en oeuvre pour la simulation de la façon suivante. L'utilisateur peut se déplacer et changer de point de vue dans la scène comme dans un monde virtuel classique. La synthèse d'images permet la modélisation synthétique 3D d'événements particuliers.

Ces techniques permettent d'ajouter des fonctionnalités propres aux systèmes de simulation : 1. Modélisation du champ de vue de chaque caméra par projection du cône de visibilité (en fonction des paramètres intrinsèques et extrinsèques de chaque caméra). Ceci permet également de tester l'implantation de caméras avant l'installation définitive pour une vue 3D du rendu d'observation comme cela est illustré figure 5. Sur cette figure 5, on a représenté uniquement deux caméras (CAMERA 1 et CAMERA 2). Pour chacune de ces deux caméras, on a délimité en traits interrompus le champ de vue : champ 3 pour CAMERA 1, et champ 4 pour CAMERA 2, ainsi que la zone de recouvrement 5 de ces deux champs. 2. Texturation du modèle 3D de la scène en temps réel à partir de sources vidéo calibrées en adaptant des techniques de projection et de modulation de texture de type PTM [241 (Projective Texture Mapping) ou VDTM [25] (View-Dependent Texture Mapping). Contrairement aux techniques de plaquage de texture classiques, ces techniques permettent d'avoir un rendu photo réaliste et dépendant du point de vue d'une scène 3D en utilisant un ensemble de photos calibrées, ce qui permet une meilleure interprétation et une meilleure reconnaissance de la scène 3D. L'utilisation des flux vidéo réels permet alors d'avoir un mode de visualisation 3D réaliste, dépendant du point de vue et temporellement cohérent avec la scène réelle. 3. Mode Rejeu différé pour l'analyse post-opératoire (par enregistrement des données 3D). 4. Informations géo-référencées en 3D des lieux pour une aide à la décision simplifiée (informations 3D de grammaire des bâtiments, à savoir, par exemple : nombre d'étages, habitants, parcours optimisés pour des évacuations...). 5. Simulation d'événements physiques, par exemple simulation de fumée (par particules). 6. Gestion de différents modes de visualisation (infrarouge...). 7. Modélisation de phénomènes météorologiques (brouillard, pluie...)

La figure 6 présente l'ensemble des processus présentés précédemment pour cette nouvelle représentation 3D des flux vidéo.

Dans l'ordre, ces processus sont : acquisition des flux vidéo des caméras (6), ces caméras étant reliées par une liaison filaire ou radio à un centre ou un poste de vidéo-contrôle, - calcul du positionnement des caméras (7) par exemple par analyse des images, couplées ou non à des informations électroniques de géo- référencement (GPS, capteurs inertiels [26],... , - numérisation de la scène observée en 3D (8), - intégration des flux vidéo des caméras dans la scène 3D numérisée (9), - visualisation sur un nombre réduit d'écrans de visualisation de la scène 3D synthétique, augmentée des flux vidéo des caméras (10), - à partir de cette visualisation, on effectue les trois opérations suivantes : - optimisation de l'implantation des caméras (11) pour vérifier la surface couverte par les caméras lors de sa projection dans la scène 3D synthétisée, - simulation d'événements se produisant dans cette scène (12), et - suivi des événements (accidents, mouvements de foule,...) dans la scène 3D (13) à l'aide de l'analyse multi-caméras (14) faite à partir de l'acquisition des flux vidéo (6), cette analyse se faisant, par exemple, par suivi de points, reconnaissance de formes, détection d'incident,...

En conclusion, l'invention telle que décrite ci-dessus présente un nouveau système de représentation d'une scène observée par un grand nombre de caméras et dont la géométrie est connue. L'ensemble des flux vidéo est représenté en temps réel dans la représentation virtuelle de la scène observée via un moteur graphique 3D et des techniques de calibrage par électronique ou traitement d'images. L'utilisateur n'a à observer qu'un nombre réduit de moniteurs de contrôle (voire un seul) pour l'ensemble des caméras équipant un site, ce qui est nouveau dans ce domaine et permet d'utiliser des périphériques mobiles embarquables de visualisation (PocketPC, PDA...). Ce mode de représentation permet de traiter l'information contenue dans la scène en 3D, ce qui améliore les méthodes actuelles de détection et d'analyse d'image fondées sur le traitement 2D, par exemple par caractérisation des formes en 3D pour la reconnaissance ou l'identification des personnes ou des véhicules, suivi d'objets 3D volumique...

REFERENCES [1] M. McCahill, "Cctv in London". In 5th Framework Programme of the European Commission (2002). [2] Visiowave : http://www.visiowave.com/ [3] Panasonic : caméras de vidéosurveillance http://www.archiexpo. fr/prod/panasonic-system-solutions/camera-ip-de-video- surveillance-49559-47921.html [4] GE Security : http://www.geindustrial.com/ge-interlogix/emea/europe/solutions/sports.htm [5] W3CAM : http://www.w3cam.fr [6] Transparence : http://www.entreprise-transparence.com [7] Allwan Security : http://www.allwan.fr [8] Vigivision : http://www.vigivision.com/Systemesde.htm [9] Derotronic http://pagesperso-orange.fr/derotronic [10] Acces France : http://www.accessfrance.com/a.f/securite.htm [Il] Comodalarm : http://www.comodalarm.com [12] Chubb-security systems: http://www.chubb-security.be/fr/systemes de videosurveillance.htm [13] Tevah systèmes : http://www.tevah.fr [14] Milipol : salon mondial de la sécurité intérieure des états http://www.milipol.com [15] GoogleEarth : http://earth.google.com/intl/fr/ [16] Microsoft Live Labs : Photosynth - http://labs.live.com/photosynthl [17] Sketchup : http://sketchup.google.com/intl/fr/ 25 [18] Hartley, R. Zisserman, A. Multiple View Geometry in Computer Vision. Cambridge University Press, 2004. [19] Mixed Reality Lab. Singapore : http://www.mixedrealitylab.org/ [20] Mixed Reality Geographical Information System : http://www.soi.city.ac.uk/ûfotisl/MRGIS/software technologies.htm 11 [21] Mixed Reality Toolkit (MRT) - University College London : httpi/www.cs.ucl.ac.uk/staff/r.freeman1demos/demos.htni [22] OpenScenegraph : http://www.openscenegraph.com [23] ARToolkit : http://hitl.washington.edu/artoolkit [24] Cass Everitt, "Projective Texture Mapping", http://www.developer.nvidia.com/object/Projective Texture Mapping.html [25] Paul E. Debevec, George Borshkov, Yizhou Yu. "Efficient View Dependant Image Based Rendering withProjective Texture Mapping". In 9`h Eurographics Rendering Workshop, Vienna, Austria, June 1998. [26] Intersense : sensing every move. http://www.intersense.com/15

Claims

REVENDICATIONS1. Procédé d'observation de scènes couvertes au moins partiellement par un ensemble de capteurs et visualisables sur un nombre réduit de dispositifs de visualisation, caractérisé en ce qu'on établit un modèle 3D des éléments fixes des scènes observées et de leur environnement, que l'on positionne et oriente les plans image des capteurs concernés par rapport aux zones correspondantes du modèle 3D et que l'on exploite en 3D les images 2D des capteurs.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte les étapes suivantes : - acquisition des flux vidéo des caméras (6), - calcul du positionnement des caméras (7), - numérisation de la scène observée en 3D (8), - intégration des flux vidéo des caméras dans la scène 3D numérisée (9), - visualisation sur un nombre réduit d'écrans de visualisation de la scène 3D synthétique, augmentée des flux vidéo des caméras (10).
3. Procédé selon la revendication 2, caractérisé en ce qu'à partir de la visualisation sur un nombre réduit d'écrans, on effectue les trois opérations suivantes : - optimisation de l'implantation des caméras (11) pour vérifier la surface couverte par les caméras lors de sa projection dans la scène 3D synthétisée, - simulation d'événements se produisant dans cette scène (12), et - suivi des événements (accidents, mouvements de foule,...) dans la scène 3D (13) à l'aide de l'analyse multi-caméras (14) faite à partir de l'acquisition des flux vidéo (6).
4. Procédé selon la revendication 2 ou 3, caractérisé en ce que l'exploitation 3D de la scène observée est faite après fusion des données issues des caméras.
5. Procédé selon la revendication 4, caractérisé en ce que la fusion des données comporte les étapes suivantes : - extraction d'informations dans les flux vidéo en 2D, - suivi des points mobiles, - calcul des points pour une représentation en 3D par triangulation des éléments en mouvement dans la scène observée pour chaque point de vue vidéo.
6. Procédé selon la revendication 3, caractérisé en ce l'analyse multi-caméras est faite selon l'un au moins des procédés suivants : par suivi de points, reconnaissance de formes, détection d'incident.
7. Procédé selon l'une des revendications précédentes, caractérisé en ce que les capteurs 5 comportent des caméras fixes.
8. Procédé selon l'une des revendications précédentes, caractérisé en ce que les capteurs comportent des caméras mobiles.
9. Procédé selon l'une des revendications précédentes, caractérisé en ce que les dispositifs de visualisation sont des écrans de projection. 10
10. Procédé selon l'une des revendications précédentes, caractérisé en ce que les dispositifs de visualisation sont des lunettes de visualisation individuelles.
11. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il est mis en oeuvre pour des applications ludiques.