FR3127837A1

FR3127837A1 - Procédé d’analyse de la surface d’un toit d’un bâtiment

Info

Publication number: FR3127837A1
Application number: FR2110498A
Authority: FR
Inventors: Daniel RONDON; Martin Paquet
Original assignee: Drone Geomodeling
Current assignee: Drone Geomodeling
Priority date: 2021-10-05
Filing date: 2021-10-05
Publication date: 2023-04-07

Abstract

L’invention concerne un procédé d’analyse de la surface d’au moins une instance de toit (Tj) d’un bâtiment, le procédé comportant les étapes suivantes : (E0) Acquisition d’une pluralité d’images (I1, …, IM) dudit bâtiment par un drone (2) équipé d’au moins une caméra ; (E1) Détection de ladite instance de toit du bâtiment dans chaque image (Ii) de ladite pluralité d’images au moyen d’un algorithme d’apprentissage automatique ; (E3) Génération d’une modélisation tridimensionnelle (MTj) de ladite instance de toit détectée à partir de ladite pluralité d’images ; (E5) Détermination de dimensions (Aj) de ladite instance de toit détectée à partir de ladite modélisation tridimensionnelle. Figure à publier avec l’abrégé : Fig. 1

Description

Procédé d’analyse de la surface d’un toit d’un bâtiment

L’invention concerne le domaine du relevé architectural. Plus précisément, l’invention concerne un procédé d’analyse de la surface d’un toit d’un bâtiment.

Dans le domaine du bâtiment, il est souvent nécessaire de réaliser un relevé de la surface d’un toit d’un bâtiment. C’est notamment lorsqu’on souhaite équiper un bâtiment de panneaux photovoltaïques et que l’on souhaite au préalable prédire le rendement du bâtiment. Ce rendement dépend en effet de la surface du ou des toits qui vont être équipés de panneaux photovoltaïque, et il est donc nécessaire de réaliser une estimation préalable de l’aire ou des dimensions de cette surface pour prédire ensuite le rendement.

Pour réaliser une estimation précise de cette surface du ou des toits du bâtiments, il est connu de faire circuler un drone autour du bâtiment, lequel procède à une acquisition de plusieurs images du ou des toits. Ces images sont ensuite traitées manuellement et informatiquement pour générer une modélisation tridimensionnelle du ou des toits à l’échelle, les dimensions étant ensuite dérivées de cette modélisation.

Bien que la précision des dimensions ainsi obtenues soit satisfaisante, cette méthode pose un problème en termes de coûts et de temps de traitement. Elle nécessite en effet qu’un expert traite manuellement les images acquises par le drone pour construire la modélisation tridimensionnelle. Il est donc parfaitement impossible d’obtenir les dimensions de la surface du ou des toits dans un temps court, voire en temps réel, et il est nécessaire d’ajouter le coût de l’expert au coût de la prestation.

La présente invention se place ainsi dans ce contexte et vise à répondre aux problèmes identifiées ci-dessus.

A ces fins, l’invention a pour objet un procédé d’analyse de la surface d’au moins une instance de toit d’un bâtiment, le procédé comportant les étapes suivantes :

Acquisition d’une pluralité d’images dudit bâtiment par un drone équipé d’au moins une caméra ;
Détection de ladite instance de toit du bâtiment dans chaque image de ladite pluralité d’images au moyen d’un algorithme d’apprentissage automatique ;
Génération d’une modélisation tridimensionnelle de ladite instance de toit détectée à partir de ladite pluralité d’images ;
Détermination de dimensions de ladite instance de toit détectée à partir de ladite modélisation tridimensionnelle.

Selon l’invention, les images du bâtiment acquises par le drone peuvent ainsi être transmises à un serveur informatique distant, lequel est munie d’une unité de traitement mettant en œuvre un ou plusieurs programmes d’ordinateurs comprenant un code de programme conçu pour mettre en œuvre, automatiquement, les étapes de détection, de génération et de détermination du procédé. Les dimensions de la surface du ou des toits peuvent ainsi être déterminées dans un temps particulièrement court, voire en temps réel, sans intervention d’un quelconque opérateur, et ces dimensions peuvent ensuite être renvoyées vers un terminal distant, par exemple sur site, pour y être exploitées. L’utilisation d’algorithme d’apprentissage automatique permet en outre de détecter et de segmenter une instance de toit dans une image avec une précision équivalente ou supérieure à celle d’un être humain et dans un temps particulièrement court.

Dans la présente invention, on entend par instance de toit d’un bâtiment un exemplaire distinct d’un versant d’un toit d’un bâtiment, ledit toit pouvant indifféremment être un toit à versant unique ou un toit à plusieurs versants, le ou chaque versant du toit pouvant comporter un seul pan ou plusieurs pans disjoints et/ou d’inclinaisons distinctes d’un pan à un autre.

Dans la présente invention, on entend par modélisation tridimensionnelle d’une instance de toit un ensemble de données permettant à un programme d’ordinateur ou à un utilisateur de visualiser une représentation tridimensionnelle virtuelle de ladite instance de toit, de manipuler spatialement cette représentation tridimensionnelle virtuelle et/ou d’effectuer des opérations sur cette représentation tridimensionnelle virtuelle, les données géométriques pouvant par exemple être un nuage de points.

Dans la présente invention, on entend par dimensions de ladite instance de toit une ou plusieurs caractéristiques géométriques de ladite instance de toit, comme sa longueur, sa largeur, sa pente ou son aire.

Dans la présente invention, on entend par algorithme d’apprentissage automatique un programme informatique dont le rôle est de détecter la présence d’au moins une instance de toit dans une image qui lui est fournie en entrée et de segmenter ou de classifier les pixels de cette image entre des pixels qui appartiennent à l’instance de toit détectée et des pixels qui n’appartiennent pas à l’instance de toit détectée, au moyen de règles de décision (autrement appelées base de connaissances) qui ont elles-mêmes été préalablement apprises sur un ensemble d’images de références, également appelées données d'apprentissage.

Ainsi, le procédé selon l’invention peut comporter une étape préalable d’entrainement, supervisé ou non supervisé, de l’algorithme d’apprentissage automatique, mise en œuvre au moyen d’une pluralité d’images prédéterminées. Par exemple, chaque image de cette pluralité d’images prédéterminées peut contenir ou non une ou plusieurs instances de toit, les pixels de cette image ayant été classifiés au préalable. Le cas échéant, pour chaque image de cette pluralité d’images, l’algorithme d’apprentissage automatique détecte ou non la présence d’une ou plusieurs instances de toit dans cette image et classifie les pixels de cette image, puis compare cette classification des pixels à la classification préalable des pixels de l’image pour ajuster ensuite, selon une méthode d’optimisation donnée, ses hyperparamètres, formant lesdites règles de décision, pour minimiser son erreur.

Avantageusement, lors de l’étape d’acquisition, ledit drone peut accomplir un vol autour de tout ou partie du bâtiment de sorte que chaque image de ladite pluralité d’images soit acquise avec un angle de vue de l’instance de toit, depuis la caméra et/ou avec une distance entre l’instance de toit et la caméra qui soient distincts dudit angle de vue, respectivement de ladite distance des autres images de ladite pluralité d’images.

De préférence, le procédé comporte une étape de télétransmission de ladite pluralité d’images acquises par le drone à un serveur informatique distant du drone, ladite télétransmission pouvant être opérée directement par le drone, le drone étant muni dans ce cas d’un module de télécommunication, ou pouvant être opérée par un terminal distant équipé d’un module de télécommunication auquel est destiné à être relié le drone après l’acquisition desdites images.

Avantageusement, l’algorithme d’apprentissage automatique est agencé pour détecter, dans chaque image de ladite pluralité d’images, la présence d’une ou plusieurs instances de toit et, pour générer, à partir de chaque image et pour chaque instance de toit détectée, un masque binaire associé à ladite instance et comprenant une pluralité de pixels, chaque pixel dudit masque étant associé à l’un des pixels de ladite image et présentant une première valeur prédéterminée, notamment une valeur numérique de 1 ou une valeur logique VRAI, si le pixel correspondant de ladite image est classé comme appartenant à ladite instance et une deuxième valeur prédéterminée, notamment une valeur numérique de 0 ou une valeur logique FAUX, sinon. En d’autres termes, l’algorithme d’apprentissage automatique est un algorithme de segmentation d’instance capable de générer, pour chaque instance de toit détectée, un masque binaire de chaque image dans laquelle l’instance de toit détectée apparait, ce masque binaire définissant une segmentation de l’instance de toit détectée dans cette image.

Dans un mode de réalisation de l’invention, l’algorithme d’apprentissage automatique comporte :

un premier étage agencé pour générer une pluralité de cartes de caractéristiques, également nommées en anglais « feature maps », à partir de chaque image de ladite pluralité d’images ;
un deuxième étage agencé pour déterminer une pluralité de régions d’intérêt de ladite image susceptibles de contenir une instance de toit à partir de ladite pluralité de cartes de caractéristiques ; et
un troisième étage agencé pour détecter la présence d’une instance de toit dans chaque région d’intérêt, et pour chaque région d’intérêt dans laquelle une instance de toit est détecté, pour déterminer des coordonnées délimitant dans ladite image une boite englobante contenant ladite instance de toit détectée dans ladite région d’intérêt et pour générer un masque binaire de ladite boite englobante délimitant ladite instance de toit dans cette boite englobante.

Chaque masque binaire d’une boite englobante obtenu à l’issue du troisième étage segmente ainsi une instance de toit dans cette boite englobante, les pixels de ce masque binaire appartenant à l’instance de toit présentant par exemple une valeur de 1 et les pixels de ce masque binaire n’appartenant pas à l’instant de toit présentant une valeur de 0. Dans ce mode de réalisation, pour chaque image passée en entrée de l’algorithme d’apprentissage automatique, on obtient donc autant de boites englobantes et de masques binaires de ces boites englobantes qu’il existe d’instances de toit dans cette image, étant entendu que plusieurs images, voire chacune des images de la pluralité d’images acquises par le drone est passée en entrée de cet algorithme d’apprentissage automatique.

Le cas échéant, ledit masque binaire d’une image qui est associé à une instance de toit peut être déterminé à partir du masque binaire de la boite englobante déterminée à partir de cette image et contenant cette instance de toit.

Par exemple, le premier étage, couramment appelé backbone, peut comprendre un réseau de neurones convolutifs comportant une pluralité de couches de convolution, éventuellement associée chacune à une couche de correction agencée pour mettre en œuvre une fonction d’activation et/ou de couches de sous-échantillonnage ou de sur-échantillonnage, chaque couche de sous-échantillonnage ou de sur-échantillonnage étant suivie d’au moins une couche de convolution, chaque carte de caractéristique étant issue de l’une des couches de convolution. Les couches de sous-échantillonnage sont également appelées couches de « mise en commun » ou en anglais de « pooling ». Ces différentes couches peuvent par exemple être organisées selon une structure pyramidale comprenant un chemin de contraction, également appelé « Bottom-Up », destiné à générer des cartes de caractéristiques dont les caractéristiques sémantiques augmentent à chaque nouvelle couche, et un chemin d’expansion, également appelé « Top-Down », destiné à augmenter la résolution des cartes de caractéristiques, les chemins d’expansion et de contraction pouvant notamment être reliés l’un à l’autre par une ou plusieurs couches de convolution. De préférence, le premier étage génère une pyramide de cartes de caractéristiques à partir de chaque image de ladite pluralité d’images. A titre d’exemple, on pourra employer un réseau de neurones convolutif de type « FPN » (de l’anglais Feature Pyramid Network) ou de type « ResNet » (de l’anglais Residual Neural Network).

Le deuxième étage, également appelé réseau de proposition de régions ou RPN (de l’anglais Region Proposal Network) peut par exemple comporter un classifieur, notamment réalisé sous la forme d’un réseau entièrement connecté, ou FCN (de l’anglais Fully Connected Network), agencé pour déterminer si une portion d’une carte de caractéristiques, par exemple obtenue par le passage d’une fenêtre glissante sur cette carte de caractéristiques, contient des pixels d’avant plan ou d’arrière-plan, et un régresseur, notamment réalisé sous la forme d’un réseau entièrement connecté, agencé pour déterminer une boite englobante contenant lesdits pixels d’avant plan, ladite boite englobante formant alors une région d’intérêt. De préférence, chacune des cartes de caractéristiques obtenues par le premier étage à partir de chaque image de ladite pluralité d’images est passée en entrée du second étage.

Le troisième étage, également appelé étage de segmentation des instance (ou en anglais instance segmentation head), peut comporter une couche de sous-échantillonnage de chaque région d’intérêt déterminée par le deuxième étage, par exemple de type « mise en commun » (également appelé en anglais RoIpool) ou de type « interpolation » (également appelée en anglais RoIalign), une couche de type entièrement connectée, suivie d’une part d’un classifieur agencé pour déterminer la classe d’objet contenu dans ladite région d’intérêt à partir de la sortie de la couche de sous-échantillonnage, et d’autre part d’un régresseur agencé pour déterminer les coordonnées d’une boite englobante contenant l’objet présent dans ladite région d’intérêt à partir de la sortie de la couche de sous-échantillonnage et un classifieur agencé pour classer chaque pixel de ladite boite englobante selon qu’il appartient ou non à l’objet présent dans ladite région d’intérêt à partir de la sortie de la couche de sous-échantillonnage. Le cas échéant, l’algorithme d’apprentissage automatique pourra être un algorithme de type « Mask R-CNN ».

L’algorithme d’apprentissage automatique pourra éventuellement comporter, en sus d’un étage de segmentation des instances, un quatrième étage, dit de segmentation sémantique (ou en anglais semantic segmentation head), comportant, par exemple, un classifieur agencé pour classer chaque pixel d’une carte de caractéristiques qui lui est passée en entrée selon qu’il appartient ou non à un toit. Le cas échéant, chaque carte de caractéristique passée en entrée du deuxième étage peut être également passée en entrée du quatrième étage, et l’algorithme d’apprentissage automatique peut comporter un cinquième étage de fusion des sorties des troisième et quatrième étages pour obtenir un deuxième masque binaire de ladite boite englobante. Le cas échéant, l’algorithme d’apprentissage automatique pourra être un algorithme de type segmentation panoptique ou « PS » (de l’anglais Panoptic Segmentation).

Avantageusement, la pluralité d’images est une séquence d’images ordonnées, et l’étape de détection comporte une étape d’attribution d’une trace à chaque instance de toit détectée dans chaque image, l’algorithme de détection étant agencé pour déterminer, pour chaque image de ladite séquence d’images, si une instance de toit détectée dans ladite image correspond à une instance de toit antérieure détectée dans une image précédente de ladite séquence d’images et, le cas échéant, pour attribuer à ladite instance de toit la même trace que celle de ladite instance de toit antérieure. Il est ainsi possible de suivre sur l’ensemble des images une même instance de toit.

Par exemple, pour chaque boite englobante déterminée à partir d’une image de ladite séquence d’images, l’étape de détection comporte une étape de détermination d’une valeur relative au recouvrement de ladite boite englobante avec toutes les boites englobantes antérieures déterminées à partir de l’image précédente de ladite séquence d’images, et la trace de l’instance de toit contenue dans la boite englobante antérieure pour lequel ladite valeur est maximum est attribuée à l’instance de toit contenu dans ladite boite englobante. Ce type d’algorithme, également nommé algorithme hongrois, permet d’attribuer à chaque instance de toit détectée dans une image la trace d’une instance de toit détectée dans l’image précédente. Ladite valeur relative au recouvrement pourra être un ratio entre l’aire de l’intersection entre deux boites englobantes l’aire de l’union de ces deux boites englobantes, également nommé IoU (de l’anglais Intersection over Union), étant entendu que d’autres métriques pourront être envisagées sans sortir du cadre de la présente invention.

Le cas échéant, pour chaque boite englobante déterminée à partir d’une image de ladite séquence d’images et à laquelle une trace est attribuée, l’étape de détection peut comporter une étape de prédiction, au moyen d’un filtre de Kalman, de la position, à l’instant correspondant à ladite image, de la boite englobante antérieur à laquelle la même trace est attribuée, une étape de détermination d’une valeur relative au recouvrement de ladite boite englobante avec ladite boite englobante prédite, la trace attribuée à ladite instance de toit contenu dans ladite boite englobante étant conservée si ladite valeur est supérieure ou égale à un seuil donné et étant supprimée si ladite valeur est inférieur audit seuil donné. Le cas échéant, ledit filtre de Kalman pourra être mis à jour avec la position de ladite boite englobante.

Dans un mode de réalisation de l’invention, une modélisation tridimensionnelle de chaque instance de toit détectée peut être générée, par un algorithme photogrammétrique, à partir de l’ensemble des masques binaires associés à ladite instance et de la position du drone, notamment de la position de sa caméra, lors de l’acquisition des images à partir de laquelle lesdits masques binaires sont générés. Le cas échéant, ledit drone pourra être équipé d’un module de géolocalisation. Un tel algorithme photogrammétrique pourra par exemple un algorithme de type structure acquise à partir d’un mouvement, ou « SfM » (de l’anglais Structure from Motion).

Par exemple, ladite étape de génération de la modélisation tridimensionnelle d’une instance de toit pourra comporter :

une étape de détection de points d’intérêt de ladite instance de toit à partir des masques binaires associés à ladite instance ;
une étape d’estimation de l’évolution de la distance du drone à chaque point d’intérêt détecté, notamment opérée par triangulation, à partir de la position de ce point d’intérêt dans chaque masque binaire associé à ladite instance et de la position du drone lors de l’acquisition de l’image à partir de laquelle ce masque binaire est généré ;
une étape de prédiction de la position spatiale de chaque point d’intérêt détecté à partir de la position de ce point d’intérêt dans chaque masque binaire associé à ladite instance et de l’évolution estimée de la distance du drone à ce point d’intérêt ;
une étape de construction de ladite génération de la modélisation tridimensionnelle de l’instance de toit à partir de l’ensemble des masques binaires associés à cette instance de toit et des positions spatiales des points d’intérêts de cette instance de toit.

On entend par point d’intérêt un point d’une instance de toit sensiblement invariant avec des variations d’échelle et/ou de points de vue. Par exemple, l’étape de détection de points d’intérêts d’une instance de toit pourra comporter une détection de points d’intérêts à partir de chaque masque binaire associé à ladite instance et une étape de mise en correspondance de points d’intérêt détectés dans au moins deux masques binaires, notamment successifs, associés à ladite instance. Cette étape de détection pourra par exemple être mise en œuvre au moyen d’un algorithme de type SIFT (de l’anglais Scale Invariant Feature Transform).

L’étape de prédiction pourra par exemple être mise en œuvre par un algorithme de type ajustement de faisceau (ou en anglais Bundle Adjustment).

Dans un mode de réalisation de l’invention, le procédé comporte une étape de correction de la modélisation tridimensionnelle comprenant une étape de partitionnement de ladite modélisation tridimensionnelle en un groupe de points aberrants et un groupe de points correspondant à ladite instance de toit détectée. Ladite étape de correction pourra par exemple être mise en œuvre par un algorithme d’apprentissage automatique non supervisé. Le cas échéant, lesdits points aberrants pourront être supprimés de la modélisation tridimensionnelle.

Par exemple, une pluralité de partitionnements pourra être générée par une pluralité d’algorithmes d’apprentissage automatique de partitionnement distincts et une métrique d’évaluation pourra être déterminée pour chaque partitionnement générée, l’un des partitionnements étant alors sélectionné par comparaison desdits métriques d’évaluation. A titre d’exemple, on pourra déterminer, pour chaque partitionnement, une métrique d’évaluation d’un des types suivants : matrice de confusion, aire sous la courbe ROC (de l’anglais Receiver Operating Characteristic), racine de l’erreur quadratique moyenne (également appelée RMSE de l’anglais Root Mean Square Error), erreur carrée relative, coefficient de détermination.

Dans un mode de réalisation de l’invention, l’étape de détermination desdites dimensions de ladite instance de toit détectée comporte, pour l’une des images acquises :

une étape d’estimation de la distance entre la position du drone, lors de l’acquisition de ladite image, et un point central de ladite instance de toit, déterminé à partir de la modélisation tridimensionnelle de ladite instance de toit,
une étape d’estimation, pour chaque pixel de ladite image, d’une valeur métrique de ce pixel à partir de ladite distance estimée ;
une étape de détermination desdites dimensions à partir des valeurs métriques estimées.

On entend par valeur métrique d’un pixel les dimensions d’une portion de l’instance de toit correspondant audit pixel. Le cas échéant, une aire de ladite instance de toit pourra être déterminée au moyen de la somme des valeurs métriques de tous les pixels de ladite image qui correspondent à l’instance de toit selon le masque binaire de cette image associé à cette instance.

Par exemple, l’étape d’estimation de la distance pourra comprendre une étape de détermination d’une enveloppe convexe de la modélisation tridimensionnelle et une étape de détermination d’un point central, notamment d’un centroïde, de l’enveloppe convexe.

De façon alternative ou cumulative, l’étape de détermination desdites dimensions de ladite instance de toit détectée pourra comporter une étape d’estimation de la position spatiale de quatre points de ladite instance de toit correspondant aux extrémités de ladite modélisation tridimensionnelle de ladite instance de toit et une étape de détermination desdites dimensions à partir desdites positions spatiales estimées. Par exemple, une hauteur et une largeur de l’instance de toit pourront être déterminées à partir desdits positions spatiales estimées.

De façon alternative ou cumulative, l’étape de détermination desdites dimensions de ladite instance de toit détectée pourra comporter une étape de projection de ladite modélisation tridimensionnelle de ladite instance de toit sur un plan et une étape de détermination desdites dimensions à partir de ladite projection. Le cas échéant, ledit plan pourra être un plan ajusté sur la modélisation tridimensionnelle par un régresseur linéaire multidimensionnel.

L’invention a également pour objet un système d’analyse de la surface d’au moins une instance de toit d’un bâtiment, le système d’analyse comportant un drone équipé d’une caméra et destiné à mettre en œuvre l’étape d’acquisition d’un procédé selon l’invention, et un serveur informatique distant du drone comportant une unité de traitement conçue pour mettre en œuvre les étapes de détection d’instance de toit, de génération d’une modélisation tridimensionnelle et de détermination de dimensions d’un procédé selon l’invention, à partir des images acquises par le drone.

La présente invention est maintenant décrite à l’aide d’exemples uniquement illustratifs et nullement limitatifs de la portée de l’invention, et à partir des dessins annexés, dessins sur lesquels les différentes figures représentent :

représente, schématiquement et partiellement, un système d’analyse de la surface d’un toit d’un bâtiment selon un mode de réalisation de l’invention ;

représente, schématiquement et partiellement, un procédé d’analyse de la surface du toit du bâtiment de la et mis en œuvre par le système de la selon un mode de réalisation de l’invention ;

représente, schématiquement et partiellement, une série d’images d’un bâtiment acquises lors d’une étape du procédé de la ;

représente, schématiquement et partiellement, un algorithme d’apprentissage automatique employé dans une étape du procédé de la ;

représente, schématiquement et partiellement, une pluralité de masques binaires obtenue au moyen de l’algorithme de la ;

représente, schématiquement et partiellement, une étape du procédé de la ;

représente, schématiquement et partiellement, une modélisation tridimensionnelle du toit du bâtiment de la obtenue à l’issue d’une étape de la ; et

représente, schématiquement et partiellement, une étape du procédé de la .

Dans la description qui suit, les éléments identiques, par structure ou par fonction, apparaissant sur différentes figures conservent, sauf précision contraire, les mêmes références.

On a représenté en un système 1 d’analyse de la surface d’un toit T d’un bâtiment comportant une pluralité d’instances de toit T₁à T_N. La représentation du toit T dans la fait apparaitre seulement trois instances T₁à T₃, d’autres instances étant ainsi cachées.

Le système 1 comporte un drone 2, équipée d’une caméra (non représentée) et d’un module de géolocalisation, un terminal distant 3, par exemple un téléphone intelligent, une tablette tactile ou un ordinateur portable, capable d’être connecté au drone 2 pour pouvoir collecter des images acquises par la caméra du drone et un serveur informatique 4 comportant une unité de traitement, le terminal distant 3 étant muni d’un module de communication sans fil (non représenté) pour pouvoir télétransmettre les images collectées au serveur 4.

On a représenté en un procédé d’analyse de la surface du toit T mis en œuvre par le système 1 de la .

Dans une étape E0, le drone 2 effectue un vol au-dessus et autour du bâtiment pour acquérir une pluralité d’images I₁à I_Mdu toit T et des différentes instances T₁à T_Nselon différents angles de vue et avec différentes distances entre le drone 2 et le toit T. Cette pluralité d’images I₁à I_Mforme ainsi une séquence d’images ordonnées, chaque image Ii étant ainsi associée d’une part à un instant d’acquisition de cette image par la caméra du drone et d’autre part à la position du drone lors de cet instant d’acquisition, déterminée au moyen de son module de géolocalisation.

On a représenté en quatre images I₁à I₄acquises par le drone 2 lors de son vol, chacune de ces images représentant les instances T₁, T₂et éventuellement T₃et T₄du toit T avec des angles de vues différents, étant entendu que le nombre d’images acquises par le drone 2 peut bien entendu être plus important.

A l’issue de l’étape E0, les images I₁à I_Msont transmis, via le terminal distant 3, au serveur informatique 4, pour y être traitées par son unité de traitement afin de déterminer des dimensions de chacune des instances T₁à T_N.

Dans une étape E1, un algorithme d’apprentissage automatique détecte, sur chacune des images I₁à I_M, chaque instance de toit T₁à TNqui y est présente et génère, pour chaque image I_iet pour chacune des instances de toit T_jqui y est détectée, un masque binaire M_i _, _jde l’image I_isegmentant cette instance de toit T_jdétectée du reste de l’image I_i.

On a représenté en un exemple de réalisation d’un tel algorithme d’apprentissage automatique, dénommé « Mask R-CNN », procédant à une segmentation d’instance d’une image qui lui est fournie en entrée avec une approche par région, étant entendu que d’autres algorithmes d’apprentissage automatique, comme notamment un algorithme de segmentation panoptique, peuvent être envisagées.

Cet algorithme comporte un premier étage S1 agencé pour générer, dans une sous-étape E11 de l’étape E1, une pluralité de cartes de caractéristiques, également appelée en anglais « feature map », à partir d’une image I_iqui lui est fournie en entrée. Chacune des images I₁à I_Mest ainsi fournie en entrée du premier étage S1.

Dans l’exemple décrit, l’étage S1 est un réseau de neurones convolutifs, également appelé CNN (de l’anglais Convolutional Neural Network), de type « Feature Pyramid Network » comprenant un chemin de contraction, ou « Bottom-Up pathway », suivi d’un chemin d’expansion, ou « Top-Down pathway ».

Par exemple, le chemin de contraction peut comporter une pluralité de couches de convolution successives, par exemple cinq, associées chacune à une couche de correction RELU agencée pour mettre en œuvre une fonction d’activation de type unité linéaire rectifiée, et entre lesquelles sont interposées des couches de sous-échantillonnage, ou de « pooling ». Chaque couche de convolution reçoit ainsi la sortie de la couche de convolution précédente après qu’elle ait été sous-échantillonnée. La dimension du noyau de convolution de la première couche de convolution est de 1 et est incrémentée de 1 pour chaque couche de convolution suivante, tandis que le pas de déplacement de la première couche de convolution est de 2 et double à chaque couche de convolution suivante.

Le chemin d’expansion reçoit la sortie de la dernière couche de convolution du chemin de contraction et y applique un premier filtre convolution dont la dimension du noyau est de 1, permettant de générer une première carte de caractéristique FM₁. Cette carte de caractéristique est alors sur-échantillonnée pour en doubler la taille, avant d’être additionnée avec la sortie de l’avant-dernière couche de convolution du chemin de contraction, à laquelle un filtre de convolution de noyau de dimension 1 a été appliqué, le résultat de l’addition permettant de générer une deuxième carte de caractéristique FM₂. Ces opérations de sur-échantillonnage de la carte de caractéristique et d’addition avec la sortie d’une couche de convolution du chemin de contraction sont renouvelées jusqu’à ce qu’une pyramide de cartes de caractéristiques FM₁à FM_Psoit formée.

L’algorithme comporte un deuxième étage S2 agencé pour déterminer, dans une sous-étape E12 de l’étape E1, une ou plusieurs régions d’intérêt RoI₁à RoI_Qd’une carte de caractéristique FM_kqui lui est fournie en entrée. Chacune des cartes de caractéristiques FM₁à FM_Pobtenues à l’issue de la sous-étape E11 est ainsi fournie en entrée du deuxième étage S2.

Ce deuxième étage comporte un réseau de neurones de type proposition de région, ou RPN (de l’anglais « Region Proposal Network ») agencé pour balayer une carte de caractéristiques FM_kavec une fenêtre glissante et pour classifier, à l’aide d’un classifieur formé d’un réseau de neurones entièrement connecté, les pixels de la portion de la carte FM_kainsi obtenue selon qu’ils appartiennent à l’avant-plan ou à l’arrière-plan, et pour déterminer, à l’aide d’un régresseur formé d’un réseau de neurones entièrement connecté, une boite englobante RoI_lcontenant des pixels d’avant-plan.

L’algorithme comporte un troisième étage S3 agencé pour classer, dans une sous-étape E13 de l’étape E1, le type d’objet contenue dans une région d’intérêt RoI_ld’une carte de caractéristique FM_kqui lui est fournie en entrée, pour déterminer des coordonnées délimitant dans l’image I_iune boite englobante BB_lcontenant cet objet et pour générer un masque binaire BM_lde cette boite englobante BB_lsegmentant cet objet du reste de la boite englobante BB_l. Chacune des régions d’intérêt RoI₁à RoI_Qde chacune des cartes de caractéristiques FM₁à FM_Pobtenues à l’issue de la sous-étape E12 est ainsi fournie en entrée du troisième étage S3.

Le troisième étage S3 comporte ainsi une couche de sous-échantillonnage de type « RoIAlign » conçue pour former, par interpolation, des cartes de caractéristique d’une région d’intérêt RoIl, un ou plusieurs réseaux entièrement connectés (non représentés) et un classifieur, formé par un réseau entièrement connecté, agencé pour classer le type d’objet contenu dans la région d’intérêt RoI_lavec une classe C_lselon qu’il est un toit ou non, un régresseur, formé par un réseau entièrement connecté, agencé pour déterminer les coordonnées d’une boite englobante BB_lde l’image I_icontenant cet objet, et un classifieur, formé par un réseau entièrement connecté, agencé pour classer chaque pixel de l’image I_icontenu dans la boite englobante BB_lselon qu’il appartient à l’objet ou non, ce classifieur générant ainsi un masque binaire BM_lde cette boite englobante BB_l.

Dans le cas où cet objet est une instance de toit, il est ainsi possible de former, à partir du masque binaire BM_lde la boite englobante BB_l, le masque binaire M_i,jde l’image I_isegmentant cette instance de toit T_jdétectée du reste de l’image I_i.

Afin de pouvoir segmenter de façon correcte les instances de toit T_jdans les images I₁à I_M, l’algorithme a subi une étape préalable d’apprentissage automatique E01, dit supervisé. Dans cette étape, l’algorithme a successivement segmenté une pluralité d’images prédéterminées contenant, ou non, une ou plusieurs instances de toit, chaque pixel de chacune de ces images ayant été étiqueté au préalable selon qu’il appartient ou non à une instance de toit, l’étiquette déterminant en outre l’instance de toit à laquelle il appartient, le cas échéant. Cette pluralité d’images prédéterminées forme un ensemble d’apprentissage TS pour l’algorithme. L’algorithme peut ainsi déterminer pour chaque instance de toit qu’il a détecté, pour chaque coordonnées d’une boite englobante qu’il a déterminé et pour chaque masque binaire d’une image segmentant une instance d’un objet qu’il a déterminé à partir d’une image issue de cet ensemble d’apprentissage TS, s’il a commis une erreur et peut ajuster, de façon automatique en fonction de cette erreur, ses hyperparamètres, à savoir notamment les poids des noyaux de convolution des couches de convolutions et les poids et les biais des neurones des régresseurs et des classifieurs. Cet ajustement peut par exemple être mis en œuvre par une méthode de descente de gradient.

On a ainsi représenté, en , trois masques binaires M_1,1, M_1,2et M_1,3obtenus à partir de l’image I₁et segmentant chacun une instance de toit, respectivement T₁, T₂et T₃, les pixels de l’image I₁n’appartenant pas à une instance étant ainsi masqués sur le masque binaire associé à cette instance. A des fins de clarifications, on a également fait apparaitre sur ces masques binaires les boites englobantes BB₁, BB₂et BB₃contenant ces instances de toit.

Afin de pouvoir associer des boites englobantes et des masques binaires obtenus à partir des images à une même instance de toit, le procédé selon l’invention comporte une étape E2 permettant de suivre une même instance sur plusieurs images successives, en attribuant une trace TR_jà une instance de toit T_jdétectée dans une image I_i, en déterminant si cette instance de toit T_j _’détectée dans une image I_I+1correspond à une instance de toit T_jdétectée dans l’image précédente I_iet en attribuant, si c’est le cas, la trace TR_jde l’instance T_jantérieur à l’instance T_j _’.

On a représenté en l’exécution de cette étape E2 pour l’image I₂et pour l’instance de toit T₁. Il va de soi que cette étape E2 est exécutée pour chacune des images I₁à I_Met des différentes instances T₁à T_Ndétectées dans ces images.

Lors de la détection et de la segmentation de l’instance de toit T₁dans l’image I₁, une trace TR₁a été attribuée à cette instance, de même que pour les instances T₂et T₃. S’agissant d’une première détection, l’étape E2 qui va être décrite n’a pas été appliquée pour l’image I₁et un filtre de Kalman a été initialisé pour l’instance de toit T₁.

A la suite de la détection et de la segmentation des instances de toit T₁et T₂dans l’image I₂, dans une sous-étape E21 de l’étape E2, une valeur IoU (Intersection over Union) des boites englobantes BB’₁et BB’₂de ces instances dans l’image I₂avec la boite englobante BB₁de l’instance T₁dans l’image I₁a été déterminée, de même que pour les boites englobantes des autres instances dans cette image I₁. Pour faciliter l’explication, on a rapporté sur les masques binaires M_2,1, M_2,2de la les boites englobantes BB’₁, respectivement BB’₂, des instances T₁et T₂de l’image I₂et la boite englobante BB₁de l’instance T₁de l’image I₁. Il apparait ainsi que la valeur IoU est la plus grande pour la boite englobante BB’₁, de sorte que la trace TR₁est donc attribuée, à l’issue de la sous-étape E21, à l’instance T₁détectée et segmentée dans l’image I₂.

Dans une sous-étape E22, le filtre de Kalman de l’instance T₁prédit la position de la boite englobante BB₁de l’image I₁à l’instant d’acquisition de l’image I₂, cette prédiction étant réalisée au moyen de la connaissance du déplacement du drone 2, obtenu via son module de géolocalisation, entre les instants d’acquisition des images I₁et I₂. La valeur IoU est de nouveau déterminée pour la boite englobante BB’₁et la boite englobante ainsi prédite, et est comparée à une valeur seuil donnée, par exemple de 0,1. Cette valeur IoU étant supérieure à la valeur seuil donnée, la trace TR₁est conservée et le filtre de Kalman est mis à jour avec la position de la boite englobante BB’₁. Dans le cas contraire, elle aurait été supprimée et une autre trace aurait été attribuée à l’instance.

Dans une étape E3, une modélisation tridimensionnelle MT_jde chaque instance de toit T_jdétectée et segmentée est générée, au moyen d’un algorithme photogrammétrique de type SfM (de l’anglais Structure from Motion), à partir de l’ensemble des masques binaires M_i,jassociés à cette instance T_jet identifiés au moyen de la trace TR_jet de la position du drone 2, notamment aux instants d’acquisitions des images I_ià partir desquelles ces masques M_i,j ont été générés.

Dans une sous-étape E31 de l’étape E3, des points d’intérêt PoI de l’instance de toit T_jsont détectés sur chacun des masques M_i _, _jet mis en correspondance, par exemple au moyen d’un algorithme de type SIFT.

Dans une sous-étape E32 de l’étape E3, la distance d_PoIdu drone 2 à chacun de ces points d’intérêts détectés PoI, au moment où l’image I_i, à partir de laquelle ils ont été identifiés, a été acquise, est estimée par triangulation.

Dans une sous-étape E33 de l’étape E3, la position spatiale, comme par exemple les positions relatives, de chacun de ces points d’intérêts PoI est prédite par un algorithme d’ajustement de faisceau à partir de leurs positions dans les masques binaires M_i,jet des distances d_PoIpour ces masques M_i,j.

Dans une sous-étape E34 de l’étape E4, une modélisation tridimensionnelle MT_jde l’instance de toit T_j,sous la forme d’un nuage de points, est construite à partir des positions spatiales des points d’intérêts et des masques binaires M_i,j.

Ces différents algorithmes, à savoir SfM, SIFT, triangulation, ajustement de faisceau et construction d’une modélisation tridimensionnelle, étant connus en soi, ils ne seront pas plus détaillés.

On a ainsi représenté en une juxtaposition de toutes les modélisations tridimensionnelles MT₁à MT_Ndes instances de toit T₁à T_N, étant entendu que chacune de ces modélisations est indépendantes des autres.

Dans une étape E4, chacune de ces modélisations tridimensionnelles MT₁à MT_Nest corrigée pour y faire disparaitre des points aberrants.

A cet effet, dans une sous-étape E41, pour chaque modélisation MT_j, une pluralité de partitionnements CLT, séparant chacune les points de cette modélisation en des points aberrants et des points légitimes, est générée au moyen de plusieurs algorithmes d’apprentissage automatique non supervisés ou semi-supervisés, et distincts. Les algorithmes d’apprentissage automatique employés dans cette sous-étape pourront mettre en œuvre des méthodes mathématiques distinctes, par exemple de type K-moyenne, cartes auto-adaptatives ou SOM (de l’anglais Self Organizing Maps), regroupement hiérarchique ou encore DBSCAN (de l’anglais Density-Based Spatial Clustering of Applications with Noise) et/ou une même méthode mathématique employant un ou plusieurs hyperparamètres distincts.

Dans une sous-étape E42, chaque partitionnement est évalué en déterminant une métrique d’évaluation, par exemple basée sur la fonction d’efficacité du récepteur, ou courbe ROC (de l’anglais « Receiver Operating Characteristic »), les indices de Calinski-Harabasz (également nommés Variance Ratio Criterion) et Davies-Bouldin,et dans une étape E43, le partitionnement ayant la meilleure métrique est sélectionné, et les points aberrants de la modélisation MT_jselon ce partitionnement sont supprimés.

Enfin, dans une étape E5, les dimensions d’une, des plusieurs, ou de chacune des instances de toit détectées et segmentées T₁à T_Nsont déterminés à partir de leurs modélisations tridimensionnelles MT₁à MT_N. La représente l’exécution de cette étape E5 pour l’instance de toit T₁.

Pour une modélisation tridimensionnelle MT_j, dans une sous-étape E51 de l’étape E5, une enveloppe convexe CH_jde cette modélisation est déterminée ainsi qu’un centroïde X de cette enveloppe convexe CH_j.

Dans une sous-étape E52 de l’étape E5, on détermine une position moyenne du drone 2 à partir de la moyenne de l’ensemble des positions du drone 2 associées aux images I₁à I_Met on sélectionne l’image I_idans laquelle l’instance T_japparait et qui est associée à la position du drone 2 la plus proche de cette position moyenne. Pour cette image I_i, la distance d_Xentre le drone 2 et la position du centroïde X dans cette image I_iest déterminée.

Dans une sous-étape E53 de l’étape E5, la valeur métrique d_pxde chaque pixel de cette image I_i, c’est-à-dire les dimensions de la portion de la scène représentée par ce pixel, est déterminée au moyen de cette distance d_Xet de l’équation suivante :

, où , d_pxest la valeur métrique de chaque pixel de cette image I_i(également nommé RSD, de l’anglais Roof Sample Distance), d_Xest la distance entre le drone 2 et la position du centroïde X, Sh et Sw sont la hauteur et la largeur du capteur de la caméra du drone 2, F est la distance focale de ce capteur, et I_i,Het I_i,Wsont la hauteur et la largeur de l’image I_i.

Dans une sous-étape E54 de l’étape E5, le nombre de pixels de l’image I_iappartenant à l‘instance de toit T_jest déterminé au moyen du masque binaire M_i,jde cette image Ii associé à cette instance T_j, et l’aire A_jde cette instance T_jest déterminée en multipliant la valeur métrique d_pxpar ce nombre de pixels.

Dans une étape E6 du procédé, les aires A₁à A_Ndes instances de toit T₁à T_Nsont télétransmis par le serveur 4 vers le terminal distant 3 pour pouvoir être exploitées.

On va maintenant décrire un autre exemple de réalisation de l’étape E5, non représenté, permettant de déterminer les dimensions d’une, des plusieurs, ou de chacune des instances de toit détectées et segmentées T₁à T_Nsont déterminés à partir de leurs modélisations tridimensionnelles MT₁à MT_N.

Dans une première sous-étape, pour un nuage de points d’une modélisation MT_jd’une instance T_jobtenue à l’issue de l’étape E4, un plan ajusté sur ce nuage de points est déterminé, par exemple au moyen d’un algorithme de régression linéaire multi-dimensionnel. Ce plan peut par exemple être le plan pour lequel la distance moyenne de l’ensemble des points du nuage des points à ce point est minimisée.

Dans une deuxième sous-étape, chaque point du nuage de points est projeté normalement sur le plan précédemment déterminé.

Dans une troisième sous-étape, une enveloppe convexe, ou concave, des points projetés est déterminée et dans une quatrième sous-étape, une aire de cette enveloppe est déterminée, cette aire correspondant sensiblement à l’aire de l’instance de toit T_j.

La description qui précède explique clairement comment l'invention permet d'atteindre les objectifs qu'elle s'est fixée, à savoir, pouvoir obtenir des dimensions précises d’une ou plusieurs instances d’un toit d’un bâtiment dans un temps court et sans requérir une expertise couteuse, en proposant un système et un procédé dans lequel un drone acquiert différentes images du toit du bâtiment, puis un algorithme d’apprentissage automatique détecte et segmente les instances du toit dans ces images afin de pouvoir construire automatiquement une modélisation tridimensionnelle virtuelle de ces instances pour enfin en déterminer les dimensions.

En tout état de cause, l'invention ne saurait se limiter aux modes de réalisation spécifiquement décrits dans ce document, et s'étend en particulier à tous moyens équivalents et à toute combinaison techniquement opérante de ces moyens. On pourra en particulier envisager d’employer d’autres architectures de réseaux de neurones que celle qui a été décrite, et notamment d’autres types de réseaux convolutifs, pyramidaux ou non. On pourra également envisager d’ajouter, de remplacer ou de supprimer certains des éléments de l’algorithme qui a été décrit, et notamment de rajouter un étage de segmentation sémantique.

On pourra encore envisager d’utiliser d’autres méthodes d’estimation des dimensions d’une instance de toit à partir de sa modélisation tridimensionnelle que celle qui a été décrite, et notamment des méthodes basées sur une projection de la modélisation sur un plan et sur la détermination de l’aire de la projection.

Claims

Procédé d’analyse de la surface d’au moins une instance de toit (T_j) d’un bâtiment, le procédé comportant les étapes suivantes :
(E0) Acquisition d’une pluralité d’images (I₁, …, I_M) dudit bâtiment par un drone (2) équipé d’au moins une caméra ;

(E1) Détection de ladite instance de toit du bâtiment dans chaque image (I_i) de ladite pluralité d’images au moyen d’un algorithme d’apprentissage automatique ;

(E3) Génération d’une modélisation tridimensionnelle (MT_j) de ladite instance de toit détectée à partir de ladite pluralité d’images ;

(E5) Détermination de dimensions (A_j) de ladite instance de toit détectée à partir de ladite modélisation tridimensionnelle.
Procédé selon la revendication précédente, caractérisé en ce que l’algorithme d’apprentissage automatique est agencé pour détecter, dans chaque image (I_i) de ladite pluralité d’images (I₁,…,I_M), la présence d’une ou plusieurs instances de toit (T_j) et, pour générer, à partir de chaque image et pour chaque instance de toit détectée, un masque binaire (M_j,i) associé à ladite instance et comprenant une pluralité de pixels, chaque pixel dudit masque étant associé à l’un des pixels de ladite image et présentant une première valeur prédéterminée si le pixel correspondant de ladite image est classé comme appartenant à ladite instance et une deuxième valeur prédéterminée sinon.
Procédé selon la revendication précédente, dans lequel l’algorithme d’apprentissage automatique comporte :
un premier étage (S1) agencé pour générer une pluralité de cartes de caractéristiques (FM₁,…FM_P) à partir de chaque image (I_i) de ladite pluralité d’images (I₁,…,I_M) ;

un deuxième étage (S2) agencé pour déterminer une pluralité de régions d’intérêt (RoI₁,…,RoI_Q) de ladite image susceptibles de contenir une instance de toit (T_j) à partir de ladite pluralité de cartes de caractéristiques ; et

un troisième étage (S3) agencé pour détecter la présence d’une instance de toit dans chaque région d’intérêt (RoI_l), et pour chaque région d’intérêt dans laquelle une instance de toit est détecté, pour déterminer des coordonnées délimitant dans ladite image une boite englobante (BB_l) contenant ladite instance de toit détectée dans ladite région d’intérêt et pour générer un masque binaire (BM_l) de ladite boite englobante délimitant ladite instance de toit dans cette boite englobante.
Procédé selon l’une des revendications précédentes, dans lequel la pluralité d’images (I₁,…,I_M) est une séquence d’images ordonnées, dans lequel l’étape de détection (E1) comporte une étape d’attribution (E2) d’une trace (TR_j) à chaque instance de toit (T_j) détectée dans chaque image (I_i), l’algorithme de détection étant agencé pour déterminer, pour chaque image de ladite séquence d’images, si une instance de toit détectée dans ladite image correspond à une instance de toit antérieure détectée dans une image précédente de ladite séquence d’images et, le cas échéant, pour attribuer à ladite instance de toit la même trace que celle de ladite instance de toit antérieure.
Procédé selon la revendication précédente lorsqu’elle dépend de la revendication 3, caractérisé en ce que, pour chaque boite englobante (BB_l) déterminée à partir d’une image (I_i) de ladite séquence d’images (I₁,…,I_M), l’étape de détection (E1) comporte une étape de détermination (E21) d’une valeur (IoU) relative au recouvrement de ladite boite englobante avec toutes les boites englobantes antérieures déterminées à partir de l’image précédente de ladite séquence d’images, et en ce que la trace (TR_j) de l’instance de toit (T_j) contenue dans la boite englobante antérieure pour lequel ladite valeur est maximum est attribuée à l’instance de toit contenu dans ladite boite englobante.
Procédé selon l’une des revendications 2 à 5, dans lequel une modélisation tridimensionnelle (MT_j) de chaque instance de toit (T_j) détectée est générée, par un algorithme photogrammétrique, à partir de l’ensemble des masques binaires (M_j,i) associés à ladite instance et de la position du drone (2) lors de l’acquisition des images (I₁,…,I_M) à partir de laquelle lesdits masques binaires sont générés.
Procédé selon l’une des revendications précédentes, caractérisé en ce qu’il comporte une étape de correction (E4) de la modélisation tridimensionnelle (MT_j) comprenant une étape de partitionnement (E41) de ladite modélisation tridimensionnelle en un groupe de points aberrants et un groupe de points correspondant à ladite instance de toit (T_j) détectée.
Procédé selon l’une des revendications précédentes, dans lequel l’étape de détermination (E5) desdites dimensions (A_j) de ladite instance de toit (T_j) détectée comporte, pour l’une des images acquises (I_i) :
(E52) une étape d’estimation de la distance (d_x) entre la position du drone (2), lors de l’acquisition de ladite image, et un point central (X) de ladite instance de toit, déterminé à partir de la modélisation tridimensionnelle (MT_j) de ladite instance de toit,

(E53) une étape d’estimation, pour chaque pixel de ladite image, d’une valeur métrique (d_px) de ce pixel à partir de ladite distance estimée ;

(E54) une étape de détermination desdites dimensions à partir des valeurs métriques estimées.
Procédé selon l’une des revendications précédentes, dans lequel l’étape de détermination (E5) desdites dimensions de ladite instance de toit (T_j) détectée comporte une étape d’estimation de la position spatiale de quatre points de ladite instance de toit correspondant aux extrémités de ladite modélisation tridimensionnelle (MT_j) de ladite instance de toit et une étape de détermination desdites dimensions (A_j) à partir desdites positions spatiales estimées.
Procédé selon l’une des revendications précédentes, dans lequel l’étape de détermination (E5) desdites dimensions (A_j) de ladite instance de toit (T_j) détectée comporte une étape de projection de ladite modélisation tridimensionnelle (MT_j) de ladite instance de toit sur un plan et une étape de détermination desdites dimensions à partir de ladite projection.
Système d’analyse (1) de la surface d’au moins une instance de toit (T_j) d’un bâtiment, le système d’analyse comportant un drone (2) équipé d’une caméra et destiné à mettre en œuvre l’étape d’acquisition (E0) d’un procédé selon l’une des revendications 1 à 10, et un serveur informatique (4) distant du drone comportant une unité de traitement conçue pour mettre en œuvre les étapes de détection (E1) d’instance de toit, de génération (E3) d’une modélisation tridimensionnelle (MT_j) et de détermination (E5) de dimensions (A_j) d’un procédé selon l’une des revendications 1 à 10, à partir des images (I₁,…,I_M) acquises par le drone.