FR3079060A1 - Reconstruction tridimensionnelle participative - Google Patents

Reconstruction tridimensionnelle participative Download PDF

Info

Publication number
FR3079060A1
FR3079060A1 FR1852248A FR1852248A FR3079060A1 FR 3079060 A1 FR3079060 A1 FR 3079060A1 FR 1852248 A FR1852248 A FR 1852248A FR 1852248 A FR1852248 A FR 1852248A FR 3079060 A1 FR3079060 A1 FR 3079060A1
Authority
FR
France
Prior art keywords
event
images
imagers
mobile terminals
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1852248A
Other languages
English (en)
Other versions
FR3079060B1 (fr
Inventor
Francois-Xavier MARMET
Jean-Marc Delvit
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre National dEtudes Spatiales CNES
Original Assignee
Centre National dEtudes Spatiales CNES
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National dEtudes Spatiales CNES filed Critical Centre National dEtudes Spatiales CNES
Priority to FR1852248A priority Critical patent/FR3079060B1/fr
Publication of FR3079060A1 publication Critical patent/FR3079060A1/fr
Application granted granted Critical
Publication of FR3079060B1 publication Critical patent/FR3079060B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Le procédé de reconstruction tridimensionnelle participative comprend l'enregistrement de terminaux mobiles (12) présents à un événement ; les terminaux mobiles (12) étant équipés d'imageurs capables de prendre des images de l'événement associées à des informations (métadonnées) de temps, de position, d'orientation et de réglage de l'imageur ; la collecte d'images de l'événement, prises par les imageurs, montrant le déroulement de l'événement dans le temps sous différents angles, les images étant collectées avec les métadonnées de l'imageur respectif ; et la génération, à partir des images collectées et des métadonnées, d'un modèle tridimensionnel dynamique de l'événement référencé dans le temps et dans l'espace. Un autre aspect de l'invention concerne une application mobile pour interfacer les terminaux mobiles avec la plateforme de reconstruction (16).

Description

Domaine Technique [0001] De manière générale, l’invention concerne la reconstruction tridimensionnelle participative d’événements, p.ex. des événements sportifs, des représentations théâtrales, des performances artistiques, ou des événements quotidiens.
Arrière-plan technologique [0002] La reconstruction tridimensionnelle en temps réel ou presque réel notamment d’événements sportifs par des producteurs spécialisés est aujourd’hui une réalité. Cette reconstruction permet de reproduire, par exemple, les moments forts d’un match sportif par des effets spéciaux numériques, comme des travellings simulés ou des plans en « bullet time ». Le matériel devant être mis en place pour permettre la reconstruction tridimensionnelle comprend actuellement de nombreuses caméras installées de manière fixe autour de la scène. Par exemple, la technologie «True View » d’Intel® utilise 38 caméras 5K disposées à des endroits fixes autour de la scène à couvrir.
[0003] D’autre part, on a proposé la reconstruction tridimensionnelle d’objets ou de scènes à partir de vidéos générées par des utilisateurs. L’article de Luming Zhang et al., «An automatic three-dimensional scene reconstruction System using crowdsourced geo-tagged videos », IEEE Transactions on Industrial Electronics, vol. 62, no. 9, septembre 2015, décrit l’utilisation des attributs de géoréférencement de vidéos partagées par des utilisateurs pour sélectionner les images les plus représentatives. Ensuite la reconstruction en 3D est réalisée sur la base d’un algorithme SfM (acronyme anglais signifiant : « structure from motion » - structure à partir de mouvements). Le logiciel PMVS2 qui est employé pour la reconstruction 3D génère un nuage de points orientés représentant chacun un point de la surface de l’objet reconstruit et la direction normale à la surface en ce point. L’algorithme employé ignore des objets non statiques et ne s’apprête dès lors qu’à la reconstruction d’objets statiques, comme p.ex. des monuments, de bâtiments ou des objets d’art.
[0004] L’article de Hartmann, W., Havlena, M., and Schindler, K.: « Towards complété, geo-referenced 3D models from crowd-sourced amateur images », ISPRS Ann. Photogramm. Remote Sens. Spatial Inf. Soi., III-3, 51-58, 2016, décrit la reconstruction 3D participative utilisant des images disponibles sur Internet, dont une partie contiennent des attributs de géoréférencement dans leur entête Exif (un format de métadonnées incorporées dans le fichier de l’image). Le procédé repose essentiellement sur un algorithme SfM, qui identifie des correspondances dans les images pour identifier la position, l’orientation et les réglages (notamment distance focale et distorsion radiale) des caméras. Les données de géoréférencement, disponibles uniquement pour une partie des images, sont utilisées plus pour lever des ambiguïtés et définir des contraintes pour un recalage d’images plus fin.
[0005] L’article de S. Fuhrmann et al., « MVE - A Multi-View Reconstruction Environment, » Eurographics Workshops on Graphies and Cultural Heritage, 2014, décrit un procédé de reconstruction 3D comprenant trois étapes principales. La première étape comprend un procédé SfM qui déduit les paramètres de calibration extrinsèques et intrinsèques des caméras par le biais de correspondances entre les images. La deuxième étape reconstruit la géométrie 3D de la scène en utilisant des correspondances dans les images et les paramètres de calibration. La troisième étape utilise le nuage de points dense produit comme le résultat de la deuxième étape et produit un maillage de la surface globalement cohérent.
Problème technique [0006] L’objectif de la présente invention est la reconstruction tridimensionnelle participative d’événements, de préférence en temps réel ou presque réel. On note que l’expression « événement » implique dans le contexte de ce document que la configuration tridimensionnelle n’est pas statique mais évolue au cours du temps. En d’autres mots, la présente invention vise la reconstruction en quatre dimensions, à savoir dans les trois dimensions de l’espace et dans le temps.
Description générale de l’invention [0007] La présente invention a plusieurs aspects. D’une part, il est proposé un procédé de reconstruction tridimensionnelle participative qui peut être exécuté par une plateforme de travail collaboratif (p.ex. implémentée dans un centre de calcul) sur laquelle arrivent les images de l’événement prises par les utilisateurs. D’autre part, l’invention se rapporte au procédé mis en œuvre au niveau des terminaux mobiles des différents utilisateurs du système et plus particulièrement à une application mobile, qui gère l’interaction entre l’utilisateur et la plateforme.
[0008] Un premier volet de l’invention concerne donc un procédé de reconstruction tridimensionnelle participative. Le procédé comprend:
o l’enregistrement de terminaux mobiles (p.ex. des téléphones mobiles, des tablettes, des lunettes intelligentes, des drones, des voitures autonomes, etc.) présents à un événement ; les terminaux mobiles étant équipés d’imageurs capables de prendre des images (de préférence des vidéos) de l’événement associées à des informations (métadonnées) de temps, de position, d’orientation et de réglage de l’imageur ;
o la collecte d’images de l’événement, prises par les imageurs des terminaux mobiles enregistrés montrant le déroulement de l’événement dans le temps sous différents angles, les images étant collectées avec les informations de temps, de position, d’orientation et de réglage de l’imageur respectif ; et o la génération, à partir des images collectées et des informations de temps, de position, d’orientation et de réglage des imageurs, d’un modèle tridimensionnel dynamique de l’événement référencé dans le temps et dans l’espace.
[0009] Le procédé selon le premier volet de l’invention utilise des images contribuées par des utilisateurs présents à l’événement. Les images sont géoréférencées et horodatées (du fait de leur association avec les informations de temps, de position et d’orientation de l’imageur). De plus, les imageurs associent aux images les réglages correspondants. Par informations de réglage d’imageur, on entend dans ce contexte tout ensemble d’informations renseignant ou permettant de déduire les paramètres intrinsèques de l’imageur, en particulier la distance focale, les facteurs d'agrandissement de l'image, les coordonnées de la projection du centre optique de l’imageur sur le plan image, la distorsion radiale et/ou tangentielle. Les informations de réglage peuvent contenir ces paramètres de manière explicite ou implicite. Par exemple, si les métadonnées fournies avec les images renseignent le type d’imageur et si cet imageur a une distance focale qui est fixe, l’information portant sur le type d’imageur renseigne implicitement la distance focale. Dans un tel cas, les métadonnées fournies avec les images n’ont pas besoin de renseigner explicitement la distance focale, même s’il est généralement préférable que toutes les données soient indiquées de manière explicite et dans un format standardisé pour faciliter le traitement des images.
[0010] Il sera apprécié que du fait que tous les imageurs fournissent les métadonnées susmentionnées, les paramètres intrinsèques et extrinsèques de l’imageur, ainsi que la position de l’imageur à chaque instant puissent être considérés connus avant la reconstruction 3D proprement dite et n’ont pas besoin d’être extraites du contenu des images. Cette propriété des images collectées réduit considérablement la complexité du traitement numérique.
[0011 ] De préférence, la collecte d’images et la génération du modèle tridimensionnel dynamique sont exécutées en temps réel ou presque réel. Dans ce contexte, on entend par « exécution en temps réel ou presque réel » l’exécution de tâches dans des contraintes temporelles qui sont choisies de sorte à ce que l’accomplissement des tâches soit ressenti par les utilisateurs comme instantané (« exécution en temps réel ») ou seulement avec un faible retard (« exécution en temps presque réel »), p.ex. de 10 s ou moins. Pour un sentiment de simultanéité entre la reconstruction 3D sur un support multimédia et l’événement, l’exigence peut être que le retard ne doit pas dépasser quelques dizaines de millisecondes. Pour certaines, applications, p.ex. pour l’analyse en temps réel de la circulation, la valeur du retard maximal acceptable peut être définie de manière (beaucoup) plus contraignante. On note que la réduction de la complexité du traitement numérique mentionnée ci-dessus sera très appréciée dans ce contexte.
[0012] L’exécution en temps réel ou presque réel n’est cependant pas requise dans toutes les applications du procédé. Une application imaginable est, par exemple, qu’un groupe d’utilisateurs filment simultanément une scène sous plusieurs angles et partagent leurs vidéos après coup afin de reconstruire la scène en 3D. Dans ce cas, des contraintes temporelles ne sont pas nécessaires ou peuvent être définies très lâches.
[0013] Avantageusement, le procédé comprend une sélection des imageurs dont les images sont collectées parmi les imageurs des terminaux mobiles enregistrés. Cette sélection a pour but d’assurer que la génération du modèle tridimensionnel soit possible à tout moment dans le respect de critères de qualité prédéfinis. La sélection est de préférence effectuée de manière dynamique et récurrente, afin que le procédé puisse réagir à des changements (p.ex. interruption d’une vidéo partagée par un utilisateur, dégradation de la qualité d’une vidéo utilisée dans la reconstruction, besoin de recadrer la zone d’intérêt principal, etc.). La sélection est de préférence effectuée sur base d’un ou de plusieurs des critères suivants :
o la position des imageurs par rapport à l’événement : l’algorithme de sélection choisit des imageurs distribués autour des zones d’intérêt de l’événement afin d’assurer une couverture pertinente de l’événement à tout moment.
o l’état de fonctionnement des imageurs : évidemment, seuls les imageurs actuellement en état de marche peuvent contribuer des images. Toutefois, l’algorithme de sélection peut tenir compte des imageurs actuellement éteints ou en mode veille dans une liste de réserve. Dans certaines situations, p.ex. pour assurer le niveau de couverture souhaité, il peut devenir désirable d’activer des imageurs, p.ex. si l’algorithme de reconstruction est en manque d’images prises sous un certain angle. L’activation d’imageurs pourrait être promue par l’envoi de messages aux utilisateurs leur demandant de filmer l’événement. Une partie des utilisateurs donnera suite à l’invitation. Dès lors, il sera possible à l’algorithme de sélection d’escompter une hausse de la densité des imageurs actifs après l’envoi de telles invitations.
o le type des imageurs : les imageurs de bonne qualité seront préférés. L’algorithme de sélection peut disposer d’une liste de types d’imageurs ou de terminaux mobiles associés à une sorte de niveau de préférence.
o l’orientation des imageurs (actifs) : seuls des imageurs braqués sur l’événement sont d’intérêt pour la reconstruction.
o la qualité des informations de temps, de position et/ou d’orientation : comme ce facteur a une influence directe sur la complexité de la reconstruction, des imageurs, respectivement des terminaux mobiles, produisant des informations de temps, de position et/ou d’orientation très précises seront préférés.
o le réglage des imageurs (actifs) : des imageurs réglés conformément aux besoins de la reconstruction seront préférés. Par exemple, des images acquises avec un niveau de zoom trop important pourraient ainsi être disqualifiées.
o le contenu et la qualité des images collectées : si le contenu des images transmises ne correspond pas au contenu des images des autres utilisateurs (p.ex. parce qu’une personne ou un objet bloque la vue sur l’événement), ces images sont de préférence désélectionnées afin qu’elles ne soient pas fournies à l’algorithme de reconstruction. Si ceci ne peut être empêché, de telles images sont de préférence écartées par l’algorithme de reconstruction pour éviter la corruption du modèle 3D. Des images de qualité insatisfaisante sont également de préférence désélectionnées.
o la couverture de zones d’intérêt de l’événement : l’algorithme de sélection veillera à ce que les différentes zones d’intérêt de l’évènement soient couvertes par un nombre suffisant d’imageurs.
o la qualité du lien de communication via lequel les images des imageurs sont collectées : l’algorithme de sélection préférera des imageurs transmettant leurs images de manière fiable. Ce critère est d’importance dans les applications demandant une reconstruction en temps réel ou presque réel.
[0014] De préférence, les différents critères énoncés ci-dessus sont combinés par l’algorithme de sélection. Par exemple, l’algorithme de sélection pourrait dynamiquement classer les imageurs en pondérant les différents critères ci-dessus et organiser la collecte des images prises par les imageurs les mieux classés. De préférence, l’algorithme de sélection veille également à atteindre de la redondance d’information dans les images collectées. De cette manière, si la transmission d’images d’un imageur était arrêtée, des images d’un autre imageur « de réserve » pourraient être injectées dans la reconstruction 3D afin d’éviter toute interruption. Ce basculement pourrait être réalisé presque sans délai, dès qu’il est constaté qu’un flux d’images est interrompu.
[0015] Selon les besoins de la reconstruction 3D, des messages peuvent être envoyés à des terminaux mobiles enregistrés, les messages invitant des utilisateurs des terminaux mobiles à contribuer des images de l’événement. Eventuellement, ces messages peuvent contenir des indications quant au début et/ou fin souhaités de la prise d’images et/ou des indications de cadrage. Les messages peuvent être envoyés selon n’importe quel protocole, p.ex. SMS (acronyme du terme anglais « short message service », service de minimessages), courriel, WhatsApp (marque commerciale), applications dédiées, etc. De préférence, toutefois, les messages sont pris en charge dans les terminaux mobiles des utilisateurs, par une application mobile qui assure l’interaction avec le centre de calcul, en particulier la transmission des images vers le serveur de collecte.
[0016] De préférence, la capacité de génération du modèle tridimensionnel dynamique (dans le respect des critères de qualité prédéfinis) à partir des images collectées est surveillée pendant le déroulement de l’événement. En d’autres mots, le procédé surveille si les données en entrée (c.-à-d. les images collectées) sont suffisantes pour reconstruire l’événement avec la qualité requise à tout moment. De cette manière, des contre-mesures peuvent être initiées dès que la reconstruction 3D n’est plus possible avec une qualité et/ou fiabilité minimales définies. Les seuils à partir desquels les contre-mesures sont entamées peuvent être fixés en fonction des capacités du système (puissance de calcul, largeur de bande disponible pour la collecte d’images, etc.) et de la robustesse souhaitée.
[0017] De préférence, la surveillance de la capacité de génération du modèle tridimensionnel dynamique à partir des images collectées comprend la prédiction de ladite capacité un certain temps dans le futur. Cette prédiction pourra reposer sur un modèle (heuristique) du comportement des utilisateurs. Le temps de prévision correspond de préférence au moins au temps nécessaire pour que des contremesures initiées produisent leur effet. Selon un mode de réalisation du procédé, en cas d’incapacité actuelle ou prédite de génération du modèle tridimensionnel dynamique avec une qualité minimale définie, des messages sont envoyés à des terminaux mobiles enregistrés, les messages invitant les utilisateurs des terminaux mobiles à contribuer des images de l’événement. Par exemple, si le nombre d’imageurs actifs et prêts à transmettre présents dans un certain secteur descendait en-dessous d’un seuil de vigilance, le système pourrait réagir en transmettant des messages aux terminaux mobiles dans ce secteur invitant les utilisateurs à filmer l’événement et partager leurs vidéos. Dans une telle situation, la réaction des utilisateurs ne sera pas instantanée. En plus, il faudra escompter, pour certaines applications, que seulement une partie des utilisateurs voudront donner suite à l’invitation. Pour maintenir le système opérationnel sans interruption pendant l’événement, d’éventuelles mesures contre des défaillances doivent être initiées à temps.
[0018] De préférence, la sélection des imageurs dont les images sont collectées parmi les imageurs des terminaux mobiles enregistrés est effectuée en fonction de la capacité de génération du modèle tridimensionnel dynamique déterminée ou prédite.
En particulier, les critères de sélection peuvent être relâchés si la capacité de capacité de génération du modèle tridimensionnel peut ainsi être améliorée.
[0019] Le procédé selon le premier volet de l’invention pourrait comprendre un système de récompense des utilisateurs des terminaux mobiles contribuant ou ayant contribué des images de l’événement.
[0020] Les récompenses des utilisateurs pourraient être calculées en fonction de la qualité et/ou de la quantité des images contribuées. Le calcul des récompenses pourrait en outre tenir compte de la disponibilité des utilisateurs et/ou de leur réactivité en cas d’invitation à filmer l’événement. Les récompenses pourraient être créditées aux utilisateurs sous forme de jetons ou de monnaie virtuelle. Additionnellement ou alternativement, les utilisateurs contributeurs pourraient avoir accès à la reconstruction 3D ou à du contenu généré à partir de la reconstruction 3D (p.ex. des séquences virtuelles ou des vidéos stéréoscopiques des moments forts de l’événement). Plusieurs niveaux d’accès à la reconstruction 3D de l’événement pourraient être définis pour différencier entre des contributions importantes ou faibles des différents utilisateurs.
[0021] De préférence, le procédé comprend la mise à disposition du modèle tridimensionnel dynamique. La mise à disposition pourrait être gratuite (pour les utilisateurs ayant suffisamment contribué à la réalisation) ou payante.
[0022] Le procédé selon le premier volet de l’invention pourrait en outre comprendre la génération de plans ou de séquences (en 2D) virtuels, avec ou sans effets spéciaux (plans au ralenti, effet « bullet time », etc.) [0023] Un aspect du premier volet de l’invention se rapporte à une plateforme collaborative, comprenant des instructions de code de programme pour l’exécution des étapes du procédé de reconstruction tridimensionnelle participative lorsque ledit programme est exécuté par un ordinateur ou par un centre de calcul. La plateforme collaborative peut être implémentée sur du matériel dédié ou par l’informatique en nuage.
[0024] Un deuxième volet de l’invention concerne un procédé de contribution à la reconstruction tridimensionnelle participative telle que décrite précédemment. Le procédé de contribution est exécuté au moyen d’un terminal mobile équipé d’un imageur, et comprend :
o l’enregistrement du terminal mobile dans un registre de terminaux mobiles présents à un événement ;
o la prise d’images de l’événement ;
o l’association, aux images prises, d’informations de temps, de position, d’orientation et de réglage de l’imageur ;
o la transmission à un centre de contrôle de reconstruction tridimensionnelle participative de messages indiquant l’état de fonctionnement, la position, l’orientation et le réglage de l’imageur ; et o sur demande du centre de contrôle, la transmission d’images en temps réel ou presque réel à un serveur de collecte ensemble avec les informations de temps, de position, d’orientation et de réglage de l’imageur.
[0025] De préférence, le procédé de contribution comprend la mise à disposition d’une interface de communication à l’utilisateur du terminal mobile, l’interface de communication permettant notamment à l’utilisateur de recevoir des messages de la plateforme collaborative. L’interface de communication pourrait également être utilisée pour indiquer à l’utilisateur si les vidéos qu’il prend sont transmises au serveur de collecte et utilisées dans la reconstruction 3D.
[0026] Un aspect de l’invention concerne un programme d’ordinateur, en particulier une application mobile, comprenant des instructions de code de programme pour l’exécution des étapes du procédé de contribution lorsque le programme est exécuté sur un terminal mobile équipé d’un imageur.
[0027] De préférence, l’application mobile est configurée de sorte à assurer l’entièreté de l’interaction avec le côté plateforme collaborative. Lors de l’installation de l’application, l’utilisateur aura besoin d’accepter que l’application accède aux données produites par l’imageur et les capteurs de positionnement et d’orientation (capteur GNSS, accéléromètres, magnétomètre, etc.) [0028] Les terminaux mobiles qui portent les imageurs peuvent être des téléphones mobiles, des tablettes ou des lunettes intelligentes. Toutefois, il est également possible dans le cadre de l’invention que les terminaux mobiles comprennent des drones (aéronef sans humain à bord) ou d’autres véhicules. Les terminaux mobiles n’ont pas besoin d’être du même type : il est possible que des utilisateurs contribuent des images à l’aide de leur téléphone portable tandis que d’autres filment le même événement avec un drone. Une autre possibilité pour couvrir un événement serait d’utiliser un essaim de drones. Une autre application de l’invention pourrait être la reconstruction de situations de circulation à l’aide d’imageurs embarqués sur les véhicules, p.ex. après un accident ou dans le cadre d’un système de conduite autonome.
Brève description des dessins [0029] D'autres particularités et caractéristiques de l'invention ressortiront de la description détaillée de certains modes de réalisation avantageux présentés cidessous, à titre d'illustration, avec référence aux dessins annexés qui montrent :
Fig. 1 : une vue schématique d’un système pour reconstruire un événement sportif avec la participation d’une foule d’utilisateurs de terminaux mobiles ;
Fig. 2: une illustration schématique de la zone d’intérêt principal de l’événement de la figure 1 ;
Fig. 3: un organigramme simplifié d’un système de reconstruction 3D dynamique montrant notamment la répartition des tâches entre le côté utilisateur (terminal mobile) et le côté système (plateforme de reconstruction).
Description détaillée d’un mode de réalisation de l’invention [0030] Les représentations tridimensionnelles (3D) numériques sont monnaie courante de nos jours. Les consommateurs sont habitués aux animations 3D, aux films en 3D et de plus en plus aux modèles ou cartes en 3D.
[0031] La reconstruction de scènes dynamiques à la volée, sur initiative des utilisateurs n’est actuellement pas pratiquée. L’enregistrement de scènes en 3D par des professionnels demande une production et donc des investissements, du temps de préparation ainsi que généralement d’importants moyens financiers.
[0032] Dans ce contexte, il convient de faire la différence entre la reconstruction 3D ou 4D (quand il s’agit de scènes dynamiques) et la stéréoscopie. Le principal intérêt de la stéréoscopie est la création de l’impression de profondeur par le fait de combiner deux images prises de deux points de vue légèrement différents. Un traitement informatique des images n’est a priori pas requis s’il s’agit uniquement de rendre l’impression de profondeur chez l’utilisateur. La stéréoscopie peut servir pour extraire des informations sur la position des objets représentés. Toutefois, une reconstruction complète de la scène en trois dimensions nécessite des images représentant la scène sous des angles beaucoup plus nombreux. Une reconstruction 3D numérique d’une scène permet à l’utilisateur de la contempler depuis n’importe quel point de vue.
[0033] Un inconvénient de certaines techniques de reconstruction 3D est que les positions et attitudes des imageurs sont répertoriées seulement par rapport à l’objet à reconstruire. Dans certains cas, la localisation relative des imageurs fait partie de l’algorithme de reconstruction, ce qui demande d’importantes ressources de calcul. Par conséquent, si une localisation géographique absolue est voulue, celle-ci doit être inférée à partir de la connaissance a priori de la position absolue d’au moins une caractéristique de la scène reconstruite.
[0034] Si on remédie à tous les inconvénients mentionnés, il est possible de donner accès à une expérience 3D similaire à celle connue de certains jeux vidéo, avec un géoréférencement des scènes modélisées. Des applications en temps réel ou presque réel sont possibles.
[0035] La reconstruction tridimensionnelle participative visée par la présente invention repose sur les contributions d’un une foule ou masse (en anglais : « crowd ») d’utilisateurs équipés de terminaux mobiles porteurs de caméras numériques. Les mobiles multifonction (en anglais : « smartphone ») étant devenus omniprésents, le fait de rassembler un nombre suffisant d’imageurs autour d’un événement ne présente a priori pas de difficulté particulière.
[0036] Un groupe d’utilisateurs filment l’événement avec leur terminal mobile depuis plusieurs points de vue distribués autour de la scène et transmettent leurs vidéos sur une plateforme de reconstruction. Avantageusement, la transmission des vidéos sur la plateforme est exécutée à la volée, ce qui rend possible la reconstruction 3D en temps réel ou presque réel. La composition du groupe des utilisateurs contributeurs peut être constante ou varier dans le temps : la deuxième possibilité est plus réaliste dans le cas d’événements ayant une durée dépassant quelques minutes. Une routine de sélection des utilisateurs invités à transmettre leurs vidéos peut être prévue pour surveiller la capacité de la plateforme de reconstruire l’événement à tout instant.
[0037] Dans la suite, un mode de réalisation de l’invention sera illustré sur l’exemple d’un événement sportif (cf. figure 1). On notera toutefois que la nature de l’événement ne limite pas l’invention, même si la reconstruction participative d’événements sportifs peut représenter une application commercialement intéressante de l’invention, en particulier parce que des événements sportifs attirent beaucoup de spectateurs, susceptibles de devenir contributeurs dans le procédé de reconstruction tridimensionnelle dynamique participative. Dans le contexte de ce document, la notion d’événement n’implique cependant pas de caractère extraordinaire de ce qui est filmé par les terminaux mobiles. Des événements quotidiens peuvent faire l’objet d’une reconstruction 3D dynamique aussi bien que des événements de grande envergure avec de nombreux spectateurs.
[0038] Le procédé s’appuie sur un nombre N de vidéos 2D de l’événement, acquises simultanément. Les imageurs utilisés pour prendre les vidéos n’ont pas besoin d’être de haute gamme : les caméras numériques embarquées dans la plupart des mobiles multifonction actuels fournissent des vidéos de qualité suffisante pour le procédé. Selon l’implémentation de l’algorithme de reconstruction, le nombre N peut être fixe ou varier dans le temps. On notera que le nombre N désigne ici le nombre de vidéos qui sont effectivement injectées, à un moment donné, dans le processus de reconstruction 3D. Ce nombre N est inférieur ou égal au nombre d’utilisateurs enregistrés, R, et au nombre d’utilisateurs enregistrés en train de filmer l’événement à un instant donné, M. On a la relation : N < M < R. Comme N, M et R peuvent éventuellement varier dans le temps. De préférence, la plateforme de reconstruction est configurée de sorte à maintenir, à tout moment, une réserve d’imageurs actifs dont les vidéos pourraient remplacer des vidéos devenant subitement inexploitables (pour une raison quelconque) par le processus de reconstruction 3D.
[0039] La figure 1 montre un événement sportif 10 suivi par de nombreux spectateurs, dont certains filment l’événement avec leur mobile multifonction. Les spectateurs et leurs mobiles 12 sont distribués tout autour de l’événement, les vidéos montrent donc l’événement sous de nombreux angles. Les mobiles 12 sont connectés à l’Internet via un réseau sans fil 14 (Wifi, 4G, 5G ou autre) et font remonter les vidéos, assorties des métadonnées nécessaires, sur une plateforme de reconstruction 16 qui peut être implémentée sur du matériel spécifiquement dédié à la reconstruction 3D dynamique ou par l’informatique en nuage (en anglais « cloud computing »).
[0040] Il sera apprécié que l’invention n’a pas besoin de connaissances a priori sur la scène à reconstruire. Le recours à de telles informations n’est toutefois pas exclu.
Dans certaines applications, de telles informations pourraient faciliter la reconstruction. Dans d’autres modes de réalisation, l’algorithme de reconstruction pourrait être configuré pour apprendre les objets invariants de l’événement et utiliser cette information pour réduire l’effort de calcul dédié à ces objets par la suite.
[0041] Toutes les vidéos entrant dans la reconstruction 3D contiennent ou sont autrement associées à des métadonnées contenant au moins la position de l’imageur, le temps d’acquisition (horodatage), ainsi que les paramètres extrinsèques et intrinsèques de l’imageur. Les paramètres extrinsèques de l’imageur correspondent, dans ce contexte, à l’orientation de l’imageur, tandis que les paramètres intrinsèques comprennent la distance focale, les facteurs d'agrandissement de l'image, les coordonnées de la projection du centre optique de l’imageur sur le plan image, la distorsion radiale et/ou tangentielle. La marque de l’imageur et le type peuvent également figurer parmi les métadonnées. Comme il a été indiqué plus haut, ces données peuvent apparaître explicitement dans les métadonnées ou implicitement. Grâce au fait que les imageurs fournissent ces données, tous les paramètres spatiotemporels de l’événement peuvent être déduits dans un référentiel géodésique mondial (p.ex. le système WGS 84, associé au système de positionnement GPS), le cas échéant de manière instantanée ou quasiment instantanée. Par conséquent, la scène reconstruite a une définition spatiale et temporelle qui est utile pour maximiser l’efficacité du procédé et qui peut également être exploitée pour la protection de certaines données (p.ex. relatives à la vie privée, au droit à l’image), si nécessaire.
[0042] Le fait que toutes les vidéos contribuées par les utilisateurs sont fournies avec les métadonnées mentionnées ci-dessus, la reconstruction 3D est rendue beaucoup plus simple par rapport aux procédés mis en œuvre par le passé. Plus particulièrement, le procédé selon l’invention peut sauter l’étape SfM habituelle (ou d’ajustement par faisceaux, en anglais, « bundle adjustment »), très vorace de ressources de calcul. La reconstruction de la géométrie 3D est également rendue plus facile. En effet, plus les métadonnées sont précises, moins dépendante sera cette partie de la reconstruction de l’identification de correspondances entre les images. Si les métadonnées sont suffisamment précises, le procédé peut directement trianguler les pixels des images prises de différents points de vue.
[0043] De manière simplifiée, chaque pixel d’une image peut être associé, par le biais des paramètres de calibration de l’imageur, à un élément d’angle solide émanant d’un point correspondant approximativement à la position de l’imageur. La précision des métadonnées se répercute sur la précision de la direction et de l’origine de cet élément d’angle solide. Un point objet de la scène qui est compris simultanément dans le champ de vision d’au moins imageurs se trouve à l’intersection des éléments d’angle solide correspondants. La position du voxel (élément de volume) d’intersection peut être déduite des métadonnées, ce qui permet de localiser le point objet dans le référentiel du système de positionnement commun des imageurs (p.ex. le référentiel WGS 84 du GPS). On note toutefois qu’une analyse du contenu des images est nécessaire pour déterminer si deux pixels de deux images correspondent effectivement au même point objet.
[0044] Selon un mode de réalisation préféré de l’invention, les terminaux mobiles des utilisateurs comprennent chacun un récepteur GNSS (acronyme du terme anglais « global navigation satellite System », système de positionnement par satellites) et/ou un autre système de positionnement (p.ex. un système de positionnement d’intérieur) permettant de déterminer (directement ou indirectement) la position dans un référentiel commun utilisé par la plateforme de reconstruction 3D. Le système de positionnement peut être combiné avec des capteurs de mouvement (p.ex. accéléromètres, gyromètres, centrale inertielle) et/ou des capteurs d’orientation, p.ex. des magnétomètres.
[0045] Les terminaux mobiles comprennent en outre un imageur, de préférence une caméra vidéo 2D numérique, ainsi que des composants électroniques (p.ex. des puces ou jeux de puces) pour assurer la communication, en particulier la communication sans fil (p.ex. Internet via 4G, 5G ou Wifi).
[0046] Pour pouvoir participer à la reconstruction 3D dynamique, chaque utilisateur télécharge une application mobile prenant en charge notamment la connexion à la plateforme de reconstruction, l’enregistrement de l’utilisateur, l’insertion des métadonnées dans les vidéos, la transmission des vidéos vers la plateforme de reconstruction et de manière générale tout échange de données entre le terminal mobile et la plateforme. Si un récepteur GNSS est utilisé comme système de positionnement dans le terminal mobile, l’application mobile a de préférence accès aux données brutes produites par les récepteur GNSS (p.ex. les pseudodistances et les mesures de phase) et est configurée de sorte à traiter ces données de sorte à produire une solution de positionnement très exacte (avec une marge d’erreur de l’ordre de cm ou moins). L’application mobile peut également être conçue de sorte à hybrider les mesures du système de positionnement avec les mesures fournies par d’autres capteurs, notamment des capteurs de mouvement et/ou des capteurs d’orientation. Une détermination de l’orientation du terminal mobile et donc de l’imageur avec une précision de 1° ou meilleure peut être ainsi atteinte.
[0047] Les métadonnées accompagnent en principe chaque image lorsque la vidéo est transmise vers la plateforme de reconstruction. Certaines des métadonnées utilisées pour la reconstruction 3D sont déjà prévues par le format Exif. Toutefois, par exemple les informations de distorsion ne font pas partie du contenu Exif. La fourniture des métadonnées dans un autre format est donc préférable pour les besoins de la présente invention, même s’il peut être possible d’inférer les paramètres de distorsion à partir du modèle de l’imageur.
[0048] L’horodatage précis de chaque image est important puisqu’il évite que des images originaires de différents imageurs et prises à différents instants soient combinées lors de la reconstruction 3D. Dans ce contexte, il convient de noter que la datation des images à l’aide d’un GNSS est exacte au moins à la microseconde près, ce qui signifie qu’une reconstruction 3D « haute vitesse » est possible, à condition d’utiliser des caméras haute vitesse au niveau des terminaux mobiles.
[0049] L’application mobile pourrait transmettre les vidéos de tous les utilisateurs en transmettant le contenu complet de chaque image. Ceci pourrait toutefois impliquer une charge trop importante pour le réseau de communication et occasionner des perturbations. Pour éviter la surcharge du réseau, la plateforme exécute de préférence une routine de sélection des utilisateurs autorisés à transmettre leurs vidéos. La sélection pourrait se faire d’abord parmi les utilisateurs actifs, c.-à-d. dont les imageurs sont en marché, ensuite sur la position des imageurs et leur orientation (la plateforme doit s’assurer que les vidéos utilisées dans la reconstruction montrent l’événement sous des angles convenablement distribués) et sur base d’autres critères. Ceux-ci peuvent comprendre, notamment :
o la qualité du lien de communication via lequel les images des imageurs sont collectées : la plateforme préférera des imageurs transmettant leurs images de manière fiable ;
o le type des imageurs : les imageurs de bonne qualité seront préférés. La plateforme peut disposer d’une liste de types d’imageurs ou de terminaux mobiles associés à une sorte de niveau de préférence.
o la qualité des informations de temps, de position et/ou d’orientation : comme ce facteur a une influence directe sur la complexité de la reconstruction, des imageurs, respectivement des terminaux mobiles, produisant des informations de temps, de position et/ou d’orientation très précises seront préférés.
o le réglage des imageurs (actifs) : des imageurs réglés conformément aux besoins de la reconstruction seront préférés. P.ex., des images acquises avec un niveau de zoom important pourraient ainsi être disqualifiées.
o la couverture de zones d’intérêt de l’événement : l’algorithme de sélection veillera à ce que les différentes zones d’intérêt de l’évènement soient couvertes par un nombre suffisant d’imageurs.
[0050] Pour que la plateforme puisse réaliser la sélection de manière informée, elle doit disposer de données actuelles des utilisateurs enregistrés. De préférence, l’application mobile tournant sur les terminaux mobiles est configurée de sorte à transmettre l’état du terminal mobile à la plateforme. Les informations décrivant l’état du terminal mobile peuvent correspondre aux métadonnées mentionnées ci-dessus, dans la mesure qu’elles sont disponibles. Les terminaux mobiles non sélectionnés transmettraient ces informations sans les vidéos. La plateforme maintiendrait à jour le registre des terminaux mobiles sur la base des informations transmises. De cette façon, la plateforme peut à tout moment adapter la composition du groupe de terminaux mobiles habilités à transmettre en envoyant des commandes respectives aux terminaux mobiles. Du côté des terminaux mobiles, l’application mobile serait en charge de recevoir ces commandes et d’interrompre ou de démarrer le flux vidéo vers la plateforme.
[0051 ] Une autre possibilité pour sélectionner les terminaux mobiles serait sur la base du contenu et de la qualité des images collectées. Dans le cas d’un terminal mobile ne faisant actuellement pas partie du groupe dont les vidéos entrent dans la reconstruction 3D proprement dite, l’application mobile pourrait transmettre des images test à cadence réduite afin que la plateforme puisse procéder à la sélection sur cette base.
[0052] D’autres mesures pour limiter les besoins de bande passante sont également possibles. Par exemple, l’application mobile pourrait être configurée de sorte à analyser le contenu des images et de n’en transmettre que les pixels les plus significatifs. Selon une autre solution, la plateforme pourrait définir des zones d’intérêt (tridimensionnelles), respectivement des zones de plus ou de moins d’intérêt pour la reconstruction 3D et transmettre les informations sur ces zones aux terminaux mobiles. L’application mobile pourrait alors identifier les pixels qui, en fonction de la position du terminal mobile et de son orientation, pointent vers les différentes zones d’intérêt. Si la plateforme connaît la position des terminaux mobiles et leur orientation, il est également envisageable que la plateforme classe les pixels de chaque terminal mobile selon leur pertinence (sans connaître le contenu des images) et transmette cette information aux terminaux. Le contenu des pixels pointant vers des zones de haut intérêt pourrait être transmis à la cadence normale des images tandis que le contenu de pixels pointant vers des zones de moindre intérêt ne serait pas transmis ou transmis à une cadence réduite. La décision si un pixel pointe vers une certaine zone tridimensionnelle de la scène n’implique pas de difficulté particulière parce que les images et la scène sont géoréférencées.
[0053] En ce qui concerne la connexion de données entre les terminaux mobiles et la plateforme, on peut noter que tout type de connexion offrant une bande passante suffisante pourrait être employé. Un débit de 375 MB/s est typiquement requis pour la transmission d’une vidéo Full HD (1 920 χ 1 080 pixels, RBG, 2 bytes par couche) mais il est possible de recourir à des techniques de compression. Par l’utilisation d’une compression sans perte d’information, le débit pourrait être réduit de 50 à environ 70%. Si on accepte une certaine dégradation de l’image, une compression plus importante peut être mise en œuvre.
[0054] La plateforme est implémentée sur un ou plusieurs serveurs qui forment le « côté système », par opposition au « côté utilisateurs » représenté par les terminaux mobiles. La plateforme est en charge o de l’instanciation, respectivement de la clôture d’un événement ;
o de la gestion de l’événement (entretien d’un registre des utilisateurs, respectivement des terminaux mobiles, présents, y compris la mise à jour de l’état des terminaux mobiles ; sélection des terminaux mobiles pouvant envoyer des vidéos à la plateforme, communication avec les utilisateurs respectivement avec les différentes instances de l’application mobile) ;
o de la génération du modèle 3D dynamique de l’événement (génération d’un nuage de points géoréférencés dense sur la base des images collectées ; construction d’un maillage de surface ; application de textures) ;
o de l’enregistrement du modèle 3D dynamique ;
o et d’éventuels services connexes (p.ex. génération de plans, séquences ou vidéos 2D de synthèse à partir du modèle 3D dynamique, mise à disposition du contenu produit).
[0055] L’instanciation de l’événement peut se faire sur initiative d’un ou de plusieurs utilisateurs ou automatiquement. De préférence, l’instanciation comprend la définition du lieu de l’événement, de ses limites géographiques (et éventuellement en hauteur), de son début, de sa durée et/ou de sa fin. L’instanciation pourrait également comprendre la définition ou la sélection du ou des types d’événement, p.ex. « événement en direct » pour une reconstruction en temps réel, « événement passé » pour la reconstruction d’un événement passé, « événement privé » pour un événement auquel seulement des utilisateurs invités peuvent contribuer, « événement ouvert » pour un événement ouvert à tous les utilisateurs de l’application mobile, etc. Optionnellement, des zones (3D) d’intérêt particulier pourraient être définies, ainsi que des zones «interdites». La figure 2 illustre la zone d’intérêt principal 18 de l’événement de la figure 1. Les rangs des spectateurs 20 pourraient être déclarés « zones interdites » pour respecter la sphère privée des gens.
[0056] Une instanciation automatique d’un événement pourrait être déclenchée p.ex. si la plateforme détecte qu’un nombre important d’utilisateurs de l’application mobile se rassemble dans un lieu géographique et/ou si la plateforme détecte que beaucoup d’utilisateurs prennent des vidéos d’un même lieu au même moment. Pour qu’un tel déclenchement automatique puisse fonctionner, il faudrait que l’application mobile transmette certaines informations (en particulier la position, éventuellement l’orientation du terminal mobile et/ou l’état de marche de l’imageur) à la plateforme endehors d’un événement instancié.
[0057] Dès qu’un événement a été instancié au niveau de la plateforme, celle-ci prend en charge les services en rapport avec l’événement. En particulier, elle enregistre les utilisateurs présents à l’événement et maintient ce registre à jour.
[0058] La clôture d’un événement au niveau de la plateforme peut intervenir, p.ex., quand la fin définie de l’événement est atteinte. La plateforme peut en outre être configurée pour automatiquement clôturer un événement si certaines conditions sont remplies, p.ex. si les contributions des utilisateurs n’arrivent plus de manière suffisamment fiable pour permettre la reconstruction 3D, si le nombre d’utilisateurs dans les limites de l’événement descend en-dessous d’un seuil critique ou si la qualité des vidéos n’est plus suffisante (p.ex. à cause de conditions météorologiques difficiles, comme du brouillard, de la pluie ou à cause de la tombée de la nuit). S’il ne s’agit pas d’une reconstruction en direct mais d’une reconstruction après-coup, la plateforme pourrait clôturer l’événement quand le délai pour le partage de vidéos a expiré ou quand la reconstruction est achevée.
[0059] Dans le cadre de la gestion de l’événement, la plateforme est de préférence également en charge de surveiller la qualité de la reconstruction et, le cas échéant, de prendre des mesures contre une dégradation de la qualité ou une éventuelle incapacité de reconstruire l’événement. L’ensemble des terminaux mobiles présents à l’événement, l’ensemble des terminaux mobiles actuellement en train de filmer l’événement et l’ensemble des terminaux en train de transmettre une vidéo à la plateforme sont susceptibles de changer à tout moment. Par exemple, des utilisateurs peuvent quitter les lieux d’un événement, s’arrêter de filmer pour une raison quelconque, etc. De préférence, la plateforme exécute une sélection des terminaux mobiles autorisés à transmettre telle que décrite plus haut.
[0060] La plateforme classe dynamiquement les utilisateurs, respectivement les imageurs, en pondérant les différents critères de sélection. Les terminaux mobiles les mieux classés sont invités à transmettre leurs vidéos. De préférence, l’application mobile prend en charge cette invitation et active automatiquement la transmission des vidéos si l’imageur est actif et dirigé dans la bonne direction. Si l’imageur est éteint, en mode veille ou ne pointe pas vers l’événement, l’application mobile peut afficher un message sur l’écran du terminal mobile invitant l’utilisateur à filmer l’événement et à partager la vidéo. Dans le cadre de la gestion de l’événement, la plateforme veille à atteindre de la redondance dans les vidéos collectées et dans les invitations qui partent vers les terminaux mobiles. De cette manière, si des utilisateurs ne donnent pas suite à un message les invitant à filmer l’événement dans les délais voulus, la plateforme réduit le risque de se trouver à court de vidéos pour la reconstruction 3D. De préférence, la plateforme apprend le comportement des utilisateurs, en particulier le temps de réaction moyen, le taux de réactions positives, la durée des vidéos transmises, etc. Par le fait d’avoir une certaine redondance d’information dans les vidéos, la plateforme peut réagir instantanément à l’interruption d’une vidéo en changeant la constellation des vidéos utilisées pour la reconstruction 3D. Le basculement vers une nouvelle constellation pourrait être réalisé presque sans délai, dès qu’il est constaté qu’une vidéo n’est plus disponible.
[0061] De préférence, la plateforme surveille la fiabilité des données de position et d’orientation des terminaux mobiles enregistrés. Si ces données ne sont pas fiables pour un terminal mobile, celui-ci descend dans le classement des terminaux mobiles et est éliminé de la sélection, le cas échéant. Une technique par laquelle la fiabilité des données de position et d’orientation peut être estimée est de vérifier la matrice de covariance du filtre de fusion au cas où le système de positionnement et les capteurs de mouvement (p.ex. d’une centrale inertielle) seraient hybridés. Une autre option est de surveiller l’erreur radiale sphérique moyenne, qui se calcule comme le produit PDOP x UERE, où PDOP désigne la dilution de la précision en trois dimensions (en anglais, « position dilution of précision ») et UERE l’erreur de (pseudo-) distance estimée par le récepteur GNSS (en anglais « user équivalent range error »).
[0062] La plateforme pourrait surveiller la qualité des images en mesurant la netteté (piqué, acutance), p.ex. via le bruit du capteur et le taux de compression et/ou sur base d’un histogramme des images (histogramme des intensités ou des couleurs).
[0063] Pour la sélection des terminaux mobiles, la plateforme pourrait subdiviser le volume autour de l’événement en cellules (virtuelles) et sélectionner dans chaque cellule le ou les terminaux mobiles les mieux classés. Si plusieurs terminaux mobiles sont à égalité dans le classement, la plateforme pourrait préférer celui qui se trouve à moindre distance de la scène à reconstruire. Le processus de sélection pourrait aussi tenir compte des terminaux mobiles voisins déjà sélectionnés pour décider entre plusieurs terminaux mobiles disponibles. Par exemple, la plateforme pourrait être configurée de sorte à choisir un terminal qui entraînerait une maximisation du rapport B/H (base/hauteur) en combinaison avec un terminal mobile sélectionné dans la cellule avoisinante. Alternativement ou additionnellement, la plateforme pourrait exécuter la sélection de sorte à réduire le plus possible les faces cachées dans la scène.
[0064] Outre la gestion de l’événement, la tâche principale de la plateforme est de générer le modèle 3D dynamique de l’événement. La reconstruction repose sur le fait de disposer d’images montrant la scène sous de nombreux angles. Comme les terminaux mobiles transmettent leur vidéo avec les métadonnées discutées ci-dessus, l’instant auquel chaque image individuelle a été prise est précisément connu de la plateforme. Celle-ci est donc capable de déterminer pour chaque intervalle de temps les images des différents imageurs qui ont été prises dans cet intervalle. Dès lors, même en cas de différents temps de parcours des vidéos ou des retards sur les liaisons de communication entre les terminaux et la plateforme, celle-ci est en mesure de correctement positionner les images sur l’axe du temps. Ceci est particulièrement important si la reconstruction d’un événement est tentée a posteriori. La durée T des intervalles de temps (ou l’écart temporel maximal autorisé entre deux images entrant dans la reconstruction 3D à un instant donné) est de préférence fixé en fonction de la vitesse maximale vmax des objets dans la scène et le diamètre D approximatif des voxels V de sorte à avoir : T vmax % D. La fréquence de rafraîchissement du modèle 3D pourra atteindre 1/T au maximum, si les intervalles se touchent sur l’axe du temps.
[0065] Une étape de SfM n’est pas nécessaire dans le contexte de l’invention, car tous les paramètres extrinsèques et intrinsèques des imageurs sont contenus dans les métadonnées associées à chaque image. Dès lors la plateforme peut directement passer au calcul de la géométrie de la scène, c.-à-d. à la génération d’un nuage de points géoréférencés. La plateforme pourrait calculer ce nuage de points 3D individuellement pour chaque intervalle de temps, mais il serait également possible qu’elle calcule un nuage de points 4D (sur une fenêtre temporelle couvrant plusieurs intervalles de temps) afin d’assurer la cohérence du modèle au fil du temps. La plateforme construit ensuite un maillage de surface et applique des textures. L’application de texture est de préférence réalisée sur base du contenu couleur (RGB) des images.
[0066] Le modèle 3D dynamique de l’événement est sauvegardé au fur et à mesure de la reconstruction. Il peut être rendu accessible aux utilisateurs de l’application mobile ou aux tiers sous des conditions à définir. Par exemple, l’accès à la reconstruction 3D dynamique ou du contenu qui en est dérivé pourrait être gratuitement accordé aux utilisateurs ayant contribué à la collecte de la matière première, c.-à-d. des images, en guise de récompense. Les droits d’accès sont de préférence échelonnés selon la qualité et/ou la quantité des contributions afin d’inciter les utilisateurs à partager des vidéos. Les utilisateurs ne sont toutefois pas nécessairement récompensés en nature. En effet, une rémunération des utilisateurs contributeurs n’est pas exclue : un producteur voulant réaliser une reconstruction 3D dynamique d’un événement pourrait engager des utilisateurs équipés de mobiles multifonction (de bonne qualité) pour tourner les vidéos de l’événement contre paiement.
[0067] La reconstruction 3D dynamique de l’événement pourrait servir de base pour la création de vidéos 2D de synthèse à effets spéciaux.
[0068] Un aspect qui n’a pas encore été discuté concerne la possibilité d’exploiter la bande sonore des vidéos collectées. Pour une reconstruction purement visuelle, la bande sonore n’est pas nécessaire. En principe, l’application mobile pourrait donc transmettre les vidéos des utilisateurs à la plateforme sans la bande sonore, p.ex. pour économiser de la bande passante. Si toutefois la bande sonore est incluse dans les vidéos (pas nécessairement dans toutes les vidéos), il est possible de procéder à une localisation du son tridimensionnelle (la position des microphones est connue ou peut être déduite des métadonnées transmises avec la vidéo) et/ou de produire un champ de son 3D de l’événement. Celui-ci peut être utilisé, p.ex. pour augmenter l’impression d’immersion d’un utilisateur qui plonge dans la reconstruction 3D de l’événement à l’aide d’un équipement de réalité virtuelle (p.ex. un casque VR). Cette idée peut être étendue à d’autres capteurs : si les terminaux mobiles sont équipés de capteurs supplémentaires (p.ex. un thermomètre, un nez électronique, etc.) un champ 3D dynamique de données correspondantes peut être construit.
[0069] La figure 3 résume de manière schématique la répartition des tâches entre le les terminaux mobiles et la plateforme de reconstruction selon un mode de réalisation préféré de l’invention.
[0070] L’invention a de nombreuses applications allant bien au-delà du divertissement. Par exemple, l’invention pourrait être utilisée sur des sites de construction, pour l’obtention facile d’une reconstruction 3D du site et un suivi de la construction dans le temps. La reconstruction 3D pourrait être comparée à un modèle projeté ou être utilisée lors du montage d’éléments de la construction. L’invention pourrait également être utilisée par les services de secours ou les forces de l’ordre pour obtenir une vue globale du lieu d’un sinistre (inondation, attaque terroriste, ouragan, etc.) et permettre ainsi une meilleure évaluation de la situation.
[0071] Un domaine d’application de l’invention potentiellement très intéressant est celui des voitures autonomes et/ou connectées. Les voitures modernes sont équipées de nombreux capteurs, notamment de caméras, d’un récepteur GNSS, d’une centrale inertielle, d’un odomètre, etc. qui en font des terminaux mobiles susceptibles d’être utilisés dans le cadre de cette invention. L’invention pourrait être utilisée notamment pour reconstruire en 3D la situation de la circulation. Une reconstruction en temps réel ou presque réel pourrait contribuer à la reconnaissance de l’environnement et ainsi faciliter et/ou rendre plus fiable la conduite autonome. Une reconstruction après coup pourrait être utile, p.ex., pour retracer le déroulement d’un accident. Les voitures pourraient être configurées de sorte à garder les images prises en mémoire tampon pendant un certain temps (p.ex. quelques minutes). Au cas où une voiture serait impliquée dans un accident, elle pourrait (automatiquement) envoyer un message à la plateforme. Celle-ci enverrait une requête à toutes les voitures enregistrées dans les environs de l’accident à l’instant où il est survenu de transmettre leurs images, éventuellement en précisant le début et la fin (ou la durée) d’un intervalle de temps qui comprend le moment de l’accident.
[0072] Alors que des modes de réalisation particuliers viennent d’être décrits en détail, l’homme du métier appréciera que diverses modifications et alternatives à ceuxlà puissent être développées à la lumière de l’enseignement global apporté par la présente divulgation de l’invention. Par conséquent, les agencements et/ou procédés spécifiques décrits ci-dedans sont censés être donnés uniquement à titre d’illustration, sans intention de limiter la portée de l’invention.

Claims (18)

  1. Revendications
    1. Procédé de reconstruction tridimensionnelle participative, caractérisé en ce qu’il comprend :
    l’enregistrement de terminaux mobiles (12) présents à un événement; les terminaux mobiles (12) étant équipés d’imageurs capables de prendre des images de l’événement associées à des informations de temps, de position, d’orientation et de réglage de l’imageur ;
    la collecte d’images de l’événement, prises par les imageurs des terminaux mobiles (12) enregistrés montrant de déroulement de l’événement dans le temps sous différents angles, les images étant collectées avec les informations de temps, de position, d’orientation et de réglage de l’imageur respectif ; et la génération d’un modèle tridimensionnel dynamique de l’événement référencé dans le temps et dans l’espace à partir des images collectées et des informations de temps, de position, d’orientation et de réglage des imageurs.
  2. 2. Procédé selon la revendication 1, dans lequel la collecte d’images et la génération du modèle tridimensionnel dynamique sont exécutées en temps réel ou presque réel.
  3. 3. Procédé selon la revendication 1 ou 2, comprenant une sélection des imageurs dont les images sont collectées parmi les imageurs des terminaux mobiles (12) enregistrés.
  4. 4. Procédé selon la revendication 3, dans lequel la sélection est effectuée de manière dynamique et récurrente sur base d’un ou de plusieurs des critères suivants :
    o la position des imageurs par rapport à l’événement ;
    o l’état de fonctionnement des imageurs ;
    o le type des imageurs ;
    o l’orientation des imageurs ;
    o la qualité des informations de temps, de position et/ou d’orientation ;
    o le réglage des imageurs ;
    o le contenu et la qualité des images collectées ;
    o la couverture de zones d’intérêt de l’événement ; et o la qualité du lien de communication via lequel les images des imageurs sont collectées.
  5. 5. Procédé selon l’une quelconque des revendications précédentes, dans lequel des messages sont envoyés à des terminaux mobiles (12) enregistrés, les messages invitant des utilisateurs des terminaux mobiles (12) à contribuer des images de l’événement.
  6. 6. Procédé selon la revendication 5, dans lequel les messages contiennent des indications quant au début et/ou fin souhaités de la prise d’images et/ou des indications de cadrage.
  7. 7. Procédé selon l’une quelconque des revendications précédentes, dans lequel la capacité de génération du modèle tridimensionnel dynamique à partir des images collectées est surveillée pendant le déroulement de l’événement.
  8. 8. Procédé selon la revendication 7, dans lequel la surveillance de la capacité de génération du modèle tridimensionnel dynamique à partir des images collectées comprend la prédiction de ladite capacité un certain temps dans le futur.
  9. 9. Procédé selon la revendication 7 ou 8, dans lequel une sélection des imageurs dont les images sont collectées parmi les imageurs des terminaux mobiles (12) enregistrés est effectuée en fonction de ladite capacité de génération du modèle tridimensionnel dynamique déterminée ou prédite.
  10. 10. Procédé selon les revendications 7, 8 ou 9, dans lequel, en cas d’incapacité actuelle ou prédite de génération du modèle tridimensionnel dynamique avec une qualité minimale définie, des messages sont envoyés à des terminaux mobiles (12) enregistrés, les messages invitant les utilisateurs des terminaux mobiles (12) à contribuer des images de l’événement.
  11. 11. Procédé selon l’une quelconque des revendications précédentes, comprenant un système de récompense des utilisateurs des terminaux mobiles (12) contribuant ou ayant contribué des images de l’événement.
  12. 12. Procédé selon la revendication 11, dans lequel les récompenses des utilisateurs sont calculées en fonction de la qualité et/ou de la quantité des images contribuées.
  13. 13. Procédé selon l’une quelconque des revendications précédentes, comprenant la mise à disposition du modèle tridimensionnel dynamique.
  14. 14. Procédé selon l’une quelconque des revendications précédentes, comprenant la génération de plans ou de séquences virtuels, avec ou sans effets spéciaux.
  15. 15. Plateforme collaborative (16), comprenant des instructions de code de programme pour l’exécution des étapes du procédé selon l’une quelconque des revendications 1 à 14 lorsque ledit programme est exécuté par un ordinateur ou par un centre de calcul.
  16. 16. Procédé de contribution à un procédé de reconstruction tridimensionnelle participative selon l’une quelconque des revendicationsl à 14, au moyen d’un terminal mobile (12) équipé d’un imageur, le procédé étant caractérisé en ce qu’il comprend :
    l’enregistrement du terminal mobile (12) dans un registre de terminaux mobiles (12) présents à un événement ;
    la prise d’images de l’événement ;
    l’association, aux images prises, d’informations de temps, de position, d’orientation et de réglage de l’imageur ;
    la transmission à un centre de contrôle de reconstruction tridimensionnelle participative de messages indiquant l’état de fonctionnement, la position, l’orientation et le réglage de l’imageur ; et sur demande du centre de contrôle, la transmission d’images en temps réel ou presque réel à un serveur de collecte ensemble avec les informations de temps, de position, d’orientation et de réglage de l’imageur.
  17. 17. Procédé selon la revendication 16, comprenant la mise à disposition d’une interface de communication à l’utilisateur du terminal mobile (12), l’interface de communication permettant à l’utilisateur de recevoir des messages du centre de contrôle.
  18. 18. Programme d’ordinateur, en particulier application mobile, comprenant des instructions de code de programme pour l’exécution des étapes du procédé selon la revendication 16 ou 17 lorsque ledit programme est exécuté sur un terminal mobile (12) équipé d’un imageur.
FR1852248A 2018-03-15 2018-03-15 Reconstruction tridimensionnelle participative Active FR3079060B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1852248A FR3079060B1 (fr) 2018-03-15 2018-03-15 Reconstruction tridimensionnelle participative

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1852248A FR3079060B1 (fr) 2018-03-15 2018-03-15 Reconstruction tridimensionnelle participative
FR1852248 2018-03-15

Publications (2)

Publication Number Publication Date
FR3079060A1 true FR3079060A1 (fr) 2019-09-20
FR3079060B1 FR3079060B1 (fr) 2021-10-08

Family

ID=62455701

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1852248A Active FR3079060B1 (fr) 2018-03-15 2018-03-15 Reconstruction tridimensionnelle participative

Country Status (1)

Country Link
FR (1) FR3079060B1 (fr)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170094259A1 (en) * 2015-09-25 2017-03-30 Intel Corporation Method and system of 3d image capture with dynamic cameras

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170094259A1 (en) * 2015-09-25 2017-03-30 Intel Corporation Method and system of 3d image capture with dynamic cameras

Also Published As

Publication number Publication date
FR3079060B1 (fr) 2021-10-08

Similar Documents

Publication Publication Date Title
AU2014236959B2 (en) Determining object volume from mobile device images
EP2419882B1 (fr) Systeme et procede de localisation de cible par un reseau de cameras
US20190130624A1 (en) Intelligent camera
CN109661812A (zh) 多视点摄像系统、三维空间重构系统及三维空间识别系统
EP3005296B1 (fr) Fusion de plusieurs flux vidéo
FR2913510A1 (fr) Procede pour determiner automatiquement une probabilite de saisie d&#39;images avec un terminal a partir de donnees contextuelles
US20190147620A1 (en) Determining optimal conditions to photograph a point of interest
US20230035243A1 (en) Interaction method, apparatus, device, and storage medium based on live streaming application
EP4033399B1 (fr) Dispositif informatique et procédé pour l&#39;estimation de la densité d&#39;une foule
FR3079060A1 (fr) Reconstruction tridimensionnelle participative
FR3054396B1 (fr) Systeme et procede de mesure d&#39;audience centree-utilisateur, par capture et analyse d&#39;images affichees par un terminal associe a au moins un paneliste.
EP2987319A1 (fr) Procede de generation d&#39;un flux video de sortie a partir d&#39;un flux video large champ
FR3055764A1 (fr) Procede de controle de la detection en temps reel d&#39;une scene par un appareil de communication sans fil, par exemple un telephone mobile cellulaire, et appareil correspondant.
US11386532B2 (en) Blue noise mask for video sampling
US20220092730A1 (en) Efficient Motion-Compensated Spatiotemporal Sampling
US20240185478A1 (en) Virtual Occlusion Mask Prediction Through Implicit Depth Estimation
EP2300997A1 (fr) Systeme de videosurveillance intelligent reconfigurable dynamiquement.
EP2793165A1 (fr) Détection d&#39;un événement capturé par des caméras vidéo
WO2014056788A1 (fr) Procede de selection d&#39;un flux video en fonction de la geolocalisation d&#39;une cible a visualiser, dispositif et programme d&#39;ordinateur correspondants
FR3135341A1 (fr) Procédé et installation pour un traitement de données basé sur de l’intelligence artificielle
FR3116973A1 (fr) Procédé et installation pour contrôler et/ou configurer des caméras IP installées en réseau
EP3097678B1 (fr) Plateforme informatique et electronique de pilotage d&#39;equipements urbains
EP3895373A1 (fr) Procede pour verifier l&#39;affichage d&#39;un contenu par un dispositif d&#39;affichage numerique et systeme d&#39;affichage numerique
CH716780A2 (fr) Montre connectée comprenant un deuxième écran et système de gestion comportant un serveur de contrôle d&#39;affichage pilotant des deuxièmes écrans.
FR3040100A1 (fr) Procede de determination automatique de recommandation(s) d&#39;action(s) a effectuer aupres de personnes d&#39;une organisation, et appareil informatique associe

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20190920

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7