FR3122933A1 - Méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs - Google Patents

Méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs Download PDF

Info

Publication number
FR3122933A1
FR3122933A1 FR2102288A FR2102288A FR3122933A1 FR 3122933 A1 FR3122933 A1 FR 3122933A1 FR 2102288 A FR2102288 A FR 2102288A FR 2102288 A FR2102288 A FR 2102288A FR 3122933 A1 FR3122933 A1 FR 3122933A1
Authority
FR
France
Prior art keywords
sensors
data
sensor
missing
predictive analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR2102288A
Other languages
English (en)
Other versions
FR3122933B1 (fr
Inventor
Fabrice Gautier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcom Tech
Alcom Technologies
Original Assignee
Alcom Tech
Alcom Technologies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcom Tech, Alcom Technologies filed Critical Alcom Tech
Priority to FR2102288A priority Critical patent/FR3122933B1/fr
Publication of FR3122933A1 publication Critical patent/FR3122933A1/fr
Application granted granted Critical
Publication of FR3122933B1 publication Critical patent/FR3122933B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

METHODE D’ANALYSE PREDICTIVE POUR COMBLER DES DONNEES MANQUANTES DANS UN ENSEMBLE DE CAPTEURS Méthode d’analyse prédictive, mise en œuvre par ordinateur, pour combler des données manquantes dans un ensemble (100) de capteurs (10), dans laquelle des algorithmes de type gradient boosting en régression, dits GBR, sont exécutés pour trouver une approximation d’une donnée manquante pour un capteur i à partir de données disponibles pour ce même capteur, les algorithmes GBR étant également exécutés pour trouver une approximation d’une donnée manquante pour un capteur j à partir de données disponibles pour d’autres capteurs avec lesquels le capteur j présente une corrélation supérieure à un seuil déterminé ; pour chaque donnée manquante une meilleure approximation étant choisie parmi une pluralité d’approximations sur la base d’une comparaison de données exogènes relatives aux capteurs et aux intervalles de mesure desdits capteurs. Figure pour l’abrégé : figure 1

Description

Méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs
La présente invention appartient au domaine général de l’analyse des données, et notamment l’exploration de données (data miningen terminologie anglosaxonne), et concerne plus particulièrement une méthode d’analyse prédictive sur un ensemble de capteurs dans lequel des données n’ont pas été générées à cause d’un dysfonctionnement quelconque. Cette méthode permet d’extraire des connaissances relatives aux données manquantes et de combler ces dernières à partir de données disponibles par des techniques ensemblistes automatiques telles que le gradient boosting en régression.
Le champ d’application de la présente invention est extrêmement large car celle-ci peut être utilisée sur tout ensemble de capteurs. Par exemple, elle peut être mise en œuvre pour analyser un réseau de traitement des eaux usées et analogues.
Etat de la technique
Dans un ensemble de capteurs en service, il peut arriver qu’un ou plusieurs capteurs ne fournissent pas de données à certaines occurrences ou durant certains intervalles de temps à cause d’une panne par exemple. Parfois, la connaissance de ces données dites « manquantes » est cruciale pour la compréhension du phénomène concerné et/ou la prise de décision qui s’en suit.
Dans de telles situations, une extraction de données peut être réalisée soit par des techniques statistiques classiques lorsque l’ensemble étudié s’y prête (données structurées et connaissancea priorides relations entre capteurs), soit par des techniques prédictives, à la nuance près que les données prédites ne correspondent pas à des évènements futurs mais à des événements prévus qui, de façon anormale ou inattendue, n’ont pas eu lieu et ne pourront donc pas être vérifiésa posteriori.
L’analyse prédictive des données permet de mettre en évidence des relations difficilement saisissables entre les données et de dégager ainsi une éventuelle structure cachée de l’ensemble de capteurs.
Le socle mathématique de l’analyse prédictive des données a vu le jour dès le début du XXesiècle, mais cette discipline n’est devenue opérationnelle pour les grands volumes de données qu’après l’avènement des ordinateurs. De nos jours, l’analyse prédictive s’appuie sur les dernières avancées dans les domaines de l’intelligence artificielle et du traitement des données big data pour se déployer dans diverses branches de l’industrie.
En plus d’outils statistiques classiques tels que les matrices de corrélation, l’analyse prédictive fait appel à des techniques plus sophistiquées telles que le gradient boosting regression (qu’on désignera ci-après par le sigle « GBR » et qu’on peut traduire par amplification du gradient en régression).
Le GBR est une technique d'apprentissage automatique particulièrement adaptée aux problèmes de régression, qui produit un modèle prédictif global sous forme d'un ensemble de modèles prédictifs faibles, généralement des arbres décisionnels. Cette technique construit le modèle localement par étapes et le généralise en permettant l'optimisation d'une fonction de perte arbitraire.
Ainsi et conformément au principe de minimisation du risque empirique, un algorithme GBR essaye toujours de trouver une approximation qui minimise la valeur moyenne de la fonction de perte sur l’ensemble d’apprentissage. Pour ce faire, elle part d’un modèle initial constitué d’une fonction constante, et étend ce dernier progressivement de manière gourmande, autrement dit en faisant un choix optimum local à chaque itération dans le but d’obtenir un résultat optimum global.
Néanmoins, les techniques de gradient boosting sont essentiellement utilisées dans les problèmes de classification. Par exemple, certains moteurs de recherche sur internet utilisent le gradient boosting et quelques-unes de ses variantes dans leurs algorithmes de classement.
Le gradient boosting est également utilisé en physique des hautes énergies pour l’analyse des données, et a notamment été utilisé avec succès au Grand collisionneur de hadrons (LHC) pour reproduire les résultats de méthodes d’analyse non basées sur l’apprentissage automatique, à partir d’ensembles de données destinées à détecter le boson de Higgs (Lalchand , Vidhi (2020). « Extracting more from boosted decision trees: A high energy physics case study »).
En ce qui concerne les problèmes de régression, objet de la présente invention, l’utilisation du gradient boosting reste limitée à quelques approximations et/ou ajustements de courbes.
Le demandeur n’a aucune connaissance de l’application du GBR à des ensembles de capteurs pour combler des données manquantes.
De façon pratique, l’application du GBR à de tels ensembles consisterait pour chaque capteur défaillant à extraire les données manquantes à partir de données disponibles issues du même capteur.
Toutefois, cette approche triviale présenterait de nombreuses limites et ne saurait fonctionner sur un capteur dont l’historique des données ne permet pas de combler une donnée manquante de façon satisfaisante, soit à cause d’une absence totale de données soit à cause d’une absence de données mesurées à des conditions (physiques ou autres) similaires.
Présentation de l’invention
La présente invention vise à pallier les inconvénients de l’art antérieur exposés ci-avant et propose une solution rapide et efficace pour combler des données manquantes dans un ensemble quelconque de capteurs à partir de différentes sources de données historiques issues du même ensemble.
À cet effet, la présente invention a pour objet une méthode d’analyse prédictive, mise en œuvre par ordinateur, pour combler des données manquantes dans un ensemble de capteurs, dans laquelle des algorithmes de type gradient boosting en régression, dits GBR, sont exécutés pour trouver une approximation d’une donnée manquante pour un capteur i à partir de données disponibles pour ce même capteur. Cette méthode est remarquable en ce que les algorithmes GBR sont également exécutés pour trouver une approximation d’une donnée manquante pour un capteur j à partir de données disponibles pour d’autres capteurs avec lesquels le capteur j présente une corrélation supérieure à un seuil déterminé, et en ce que pour chaque donnée manquante une meilleure approximation est choisie parmi une pluralité d’approximations sur la base d’une comparaison de données exogènes relatives aux capteurs et aux intervalles de mesure desdits capteurs.
Ainsi, la méthode selon l’invention permet une analyse prédictive d’une grande précision à partir d’un ensemble de données incomplètes.
Avantageusement, chaque approximation d’une donnée manquante sur un intervalle de mesure actuel est basée sur des données disponibles issues d’intervalles identiques ou équivalents à l’intervalle actuel, antérieurs ou postérieurs à ce dernier, notamment issues de mêmes périodes calendaires que la période calendaire de la donnée manquante.
Selon un mode de réalisation avantageux, pour un sous-ensemble de capteurs ne fournissant aucune donnée sur un intervalle de mesure actuel, un premier capteur est choisi et une approximation de sa valeur manquante sur ledit intervalle est effectuée à partir de données disponibles pour ce même capteur, puis un second capteur du sous-ensemble est choisi est une approximation de sa valeur manquante peut être effectuée soit à partir dudit second capteur soit à partir des autres capteurs du sous-ensemble.
Plus particulièrement, le premier capteur et le second capteur sont respectivement le mieux corrélé et le deuxième mieux corrélé avec les autres capteurs du sous-ensemble.
Selon un mode de réalisation, le seuil de corrélation est supérieur à 80%.
Dans une application préférée, l’ensemble de capteurs comprend des capteurs d’un réseau d’assainissement d’eaux usées.
Dans ce cas, les données exogènes comprennent des données météorologiques.
Avantageusement, la méthode de la présente invention peut être mise en œuvre sans aucune connexion informatique avec l’ensemble de capteurs, à condition de disposer de données collectées par lesdits capteurs.
Les concepts fondamentaux de l’invention venant d’être exposés ci-dessus dans leur forme la plus élémentaire, d’autres détails et caractéristiques ressortiront plus clairement à la lecture de la description qui suit et en regard des dessins annexés, donnant à titre d’exemple non limitatif un mode de réalisation d’une méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs, conforme aux principes de l’invention.
Présentation des dessins
Les figures sont données à titre purement illustratif pour une meilleure compréhension de l’invention, sans en limiter la portée. Les différents éléments sont représentés de manière schématique. Sur l’ensemble des figures, les éléments identiques ou équivalents portent la même référence numérique.
Il est ainsi illustré en :
: un ensemble de capteurs d’un réseau donné reliés à une centrale de traitement des données ;
: des trames de données discrètes générées par un ensemble de capteurs et présentant des données manquantes sur une période de mesure ;
: des trames de données continues générées par un ensemble de capteurs et présentant des données manquantes sur une période de mesure ;
: des données générées par un capteur sur des intervalles de mesure consécutifs ;
: un groupe d’intérêt extrait des données de la et comprenant des données mesurées à des intervalles identiques ou équivalents ;
: un exemple d’échelle pour les conditions exogènes mesurées parallèlement aux données endogènes générées par les capteurs ;
: une matrice de corrélation générique ;
: un exemple de corrélogramme en niveaux de gris ;
: un ensemble de capteurs constitué de sous-ensembles de capteurs corrélés ;
: le principe de mise en œuvre d’une technique pyramidale de gradient boosting en régression.
Description détaillée de modes de réalisation
Il convient de noter que certaines notions statistiques bien connues de l’homme du métier sont ici rappelées pour éviter toute insuffisance ou ambiguïté dans la compréhension de la présente invention.
Dans le mode de réalisation décrit ci-après, on fait référence à une méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs, destinée principalement à un réseau de traitement des eaux usées et analogue. Cet exemple, non limitatif, est donné pour une meilleure compréhension de l’invention et n’exclut pas la mise en œuvre de la méthode sur des ensembles de capteurs dans d’autres secteurs industriels.
La représente un ensemble 100 de capteurs 10 numérotés 1 à 7 et regroupés sur un réseau 150. Ce réseau correspond par exemple à un réseau d’assainissement dans lequel le système de traitement des eaux usées et des eaux pluviales comprend des canalisations séparées. Ici, les capteurs 1 à 4 et 5 à 7 sont regroupés sur deux canalisations séparées. Le réseau peut également être unitaire.
Les capteurs 10 d’un même groupe peuvent être reliés à un collecteur de données 20, lui-même connecté à une station relais 200 par le biais d’une connexion filaire ou sans-fil. La station relais 200 permet d’acheminer les données brutes collectées à un poste de traitement 300, comprenant un ou plusieurs calculateurs de type ordinateurs, en vue d’analyser lesdites données, notamment par la mise en œuvre de la présente méthode d’analyse prédictive.
Un tel ensemble de capteur peut également représenter divers capteurs (de trafic, de pollution de l’air, etc.) distribués dans une ville dans le cadre d’un programme de ville intelligente (smart cityen terminologie anglosaxonne).
Préalablement à la description détaillée de la méthode d’analyse prédictive, il convient de poser brièvement le problème des données manquantes.
La représente n capteurs 10 regroupés dans un ensemble 100, avec n entier strictement supérieur à 2, et générant chacun une série de données Si, avec i entier compris entre 1 et n. Chaque série Si correspond à une période ΔT de collecte de données et se compose de m données Dij, avec m entier supérieur à 1 et j entier compris entre 1 et m.
Dans le cas de la , les données D sont générées de façon discrète par les capteurs 10, par exemple à intervalles réguliers.
Les données Dijsont représentées par des cases et sont par exemple collectées périodiquement, avec une périodicité temporelle de ΔT/m.
Dans chaque série Side données, les données manquantes sont représentées par des cases noircies.
Ainsi, sur la période de mesure ΔT et pour l’ensemble 100 des n capteurs 10, on obtient une matrice de données de taille n*m dans laquelle des éléments sont manquants. La distribution des éléments manquants dans la matrice de données est aléatoire et dépend de plusieurs aléas pour un ensemble donné de capteurs (pannes, coupures, catastrophes naturelles, etc.).
La représente quant à elle des capteurs d’un ensemble 100 générant des flux continus de données sur une période de collecte s’étendant entre une date initiale Ti et une date finale Tf, définissant une période de mesure ΔT.
Chaque capteur de l’ensemble peut être sujet à des interruptions de mesure, donnant lieu à des plages de données manquantes représentées par des bandes noircies sur les bandes de flux de données. Par exemple, les données manquantes DMi3 indiquées sur la correspondent à la troisième interruption du capteur i sur l’intervalle de mesure. Néanmoins, certains capteurs peuvent ne pas connaitre de coupure sur l’intervalle de mesure considéré, comme le capteur numéro 2 sur la .
Dans le cas de données continues, celles-ci peuvent être représentées pour chaque capteur i par une courbe Ci. Les données manquantes correspondent alors à des « trous » dans ces courbes.
L’objectif de la méthode d’analyse prédictive, objet de la présente invention, est de combler toutes les données manquantes de l’ensemble de capteurs, en se basant sur des techniques de gradient boosting en régression (GBR).
La méthode d’analyse prédictive peut être exécutée avec un GBR simple, un GBR dit différé faisant appel à une matrice de corrélation dynamique de tous les capteurs de l’ensemble, et un GBR dit pyramidal lorsque tous les capteurs d’un sous-ensemble de l’ensemble sont hors service sur un intervalle de mesure donné.
GBR simple
Le GBR simple, exécuté par des algorithmes de régression classiques basés sur le gradient boosting dans sa forme la plus élémentaire, consiste à chercher une approximation d’une donnée manquante d’un capteur i sur un intervalle donné dans l’historique de données du même capteur i en analysant les données collectées par ce capteur à des intervalles passés équivalents ou identiques à l’intervalle de la donnée manquante. De plus, un classement des données historiques relevées est opéré pour isoler la meilleure approximation. Ce classement est basé sur une comparaison entre des conditions exogènes mesurées pour chaque donnée historique située dans un intervalle identique ou équivalent et des conditions exogènes correspondant à l’intervalle de la donnée manquante.
La représente les données collectées par un capteur i quelconque de l’ensemble sur 9 périodes consécutives ΔT1 à ΔT9, chacune desdites périodes correspondant à un même cycle temporel (année, mois, semaine jour, etc.) de sorte que les conditions exogènes considérées respectent une même périodicité. Par exemple, lorsque les périodes ΔT sont des années, les conditions exogènes peuvent être liées aux conditions météorologiques dues aux changements de saisons ; ou lorsque les périodes ΔT sont des jours, les conditions exogènes peuvent être liées aux températures diurnes et nocturnes pour une même saison.
Toujours en référence à la , on cherche à combler les données manquantes sur la période ΔT9, dite actuelle. En effet, les périodes précédentes ΔT1 à ΔT8 correspondent à des données passées DP qui constituent l’historique exploitable pour extraire les données manquantes actuelles.
Il s’agit tout d’abord de combler la première donnée manquante DMi1, autrement dit de combler le premier manque survenu pour le capteur i sur la période ΔT9.
Le GBR simple permet alors d’isoler un groupe d’intérêt G1 regroupant les données passées du capteur i situées sur un même intervalle que l’intervalle de la donnée manquante DMi1.
Cela permet de sélectionner toutes les données passées mesurées par le capteur i entre ΔT1 et ΔT8 à des dates ou sur des intervalles identiques ou équivalents. Ces données du groupe d’intérêt G1 sont donc nécessairement proches de la donnée manquante recherchée DMi1 car elles correspondent aux mêmes dates sur un cycle donné (année, mois, etc.), à un même capteur et à une grandeur physique cyclique respectant globalement la périodicité des périodes de mesure ΔT.
Par exemple, pour un capteur de pluviométrie, si la donnée manquante correspond à une journée d’hiver orageuse, les données passées collectées par ce même capteur (ou par un capteur identique situé à un même emplacement) sur cette même journée pour les années précédentes permettraient d’avoir la meilleure approximation de ladite donnée manquante. D’autant plus que pour une région géographique donnée, les cycles pluviométriques restent assez réguliers d’année en année.
Bien entendu, l’objet de la présente invention n’est pas de détailler les paramètres de réglage pour un contexte particulier ou une application spécifique, mais de décrire les méthodes GBR utilisées pour extraire des données manquantes quels que soient le contexte et l’application. Le réglage de la méthode peut en outre être effectué en tenant compte des paramètres propres à chaque application.
La représente le groupe d’intérêt G1 isolé pour la première donnée manquante DMi1 du capteur i. Ce groupe peut comporter des données manquantes passées (cases noircies), celles-ci peuvent donc être écartées lors d’un premier tri.
Ensuite, le choix de la valeur approximative de la donnée manquante recherchée se fait par GBR en essayant d’être au plus près des conditions exogènes enregistrées sur l’intervalle de la donnée manquante DMi1. Si plusieurs données passées correspondent aux mêmes conditions exogènes que la donnée manquante, leur moyenne peut être retenue comme valeur approximative de ladite donnée manquante.
Les conditions exogènes peuvent être exprimées globalement par un poids qu’on attribue à la donnée manquante, ou plus précisément à l’intervalle ou à la date de mesure de ladite donnée. Ce poids peut être calculé par une combinaison linéaire de différents paramètres proprement exogènes. Par exemple, pour les capteurs d’un réseau de traitement des eaux usées, les conditions exogènes correspondent aux conditions météorologiques (température, humidité, pression atmosphérique, vent, etc.) et peuvent par exemple être normalisées sur une échelle allant de 0 à 10 et représentant la nature du temps météorologique : 0 pour sec et 10 pour orageux ou inversement.
La représente une telle échelle.
Toutefois, il se peut que le GBR simple ne soit pas suffisant pour trouver la valeur approximative de la donnée manquante à partir des données passées du groupe d’intérêt, par exemple à cause d’une absence totale de données sur le groupe d’intérêt ou à cause de conditions exogènes très éloignées sur le groupe d’intérêt retenu.
Par conséquent, il s’avère avantageux d’utiliser les autres capteurs de l’ensemble pour extraire les données manquantes d’un capteur donné, en utilisant la matrice de corrélation des capteurs de l’ensemble.
GBR différé
Le GBR différé s’appuie sur la matrice de corrélation des n capteurs de l’ensemble.
La représente de façon générique une matrice de corrélation M obtenue pour les n capteurs, celle-ci étant symétrique de taille n.
Pour tous i et j compris entre 1 et n, le terme εijreprésente la mesure de la corrélation des capteurs i et j. Plus cette mesure est élevée, plus les deux capteurs sont corrélés et plus ils expriment le même phénomène sur la période ou les périodes de mesure considérées.
Les valeurs de la matrice de corrélation sont par exemple comprises entre 0 et 1 et peuvent être représentées en niveaux de couleur (en niveaux de gris par exemple) dans ce qu’on appelle un corrélogramme.
La représente un exemple de corrélogramme qui montre bien la nature symétrique de la matrice de corrélation.
Pour combler une donnée manquante d’un capteur i, on identifie dans un premier temps tous les capteurs pour lesquels la corrélation avec le capteur i est supérieure à un seuil prédéterminé, par exemple 80%.
On peut également définir différents seuils selon la criticité de l’intervalle de la donnée manquante. Pour un capteur de trafic par exemple, les heures de pointes sont plus critiques et nécessitent un seuil de corrélation plus élevé que des heures creuses.
Dans un second temps, on effectue un GBR simple sur les capteurs retenus après analyse de la matrice de corrélation, autrement dit sur les capteurs les plus corrélés avec le capteur i dont une donnée manquante est recherchée.
Toutefois, lorsque les capteurs disponibles ne sont pas suffisamment corrélés avec le capteur pour lequel les données manquantes sont recherchées, la mise en œuvre du GBR différé n’est pas possible, sauf à diminuer le seuil de corrélation pour la sélection des capteurs au risque d’obtenir des valeurs éloignées pour les données manquantes. Cela peut se produire lorsqu’un sous-ensemble de capteurs corrélés est entièrement défaillant ou en panne.
GBR pyramidal
Le GBR pyramidal permet avantageusement de combler les données manquantes d’un sous-ensemble dans lequel aucun capteur ne génère de données sur l’intervalle actuel.
La représente un ensemble 100 comprenant 10 capteurs regroupés dans des sous-ensembles E1, E2 et E3. Dans le cas d’un réseau de traitement des eaux usées, les capteurs peuvent être regroupés par secteur géographique par exemple, de sorte que des capteurs de secteurs différents ne soient pas suffisamment corrélés et qu’il faille absolument utiliser les données des capteurs d’un même sous-ensemble pour extraire des données manquantes d’un capteur appartenant au même sous-ensemble.
Sur la , aucun des capteurs 4 à 7 du sous-ensemble E2 ne génère de données sur l’intervalle actuel.
Une matrice de corrélation M des capteurs de ce sous-ensemble est néanmoins disponible, à partir de données passées.
La illustre le principe d’extraction de données pour le sous-ensemble E2 par le GBR pyramidal.
Initialement, un capteur de départ est choisi, ici le capteur 4. De préférence, on choisit le capteur le mieux corrélé avec les autres capteurs du sous-ensemble, par une analyse de la matrice de corrélation.
Ensuite, la première donnée manquante DM41 du capteur de départ est comblée par un GBR simple, ce qui donne la valeur D41.
Pour le capteur suivant, de préférence le deuxième mieux corrélé avec les autres, ici le capteur numéro 7, on comble également la première valeur manquante en appliquant soit un GBR simple pour obtenir une valeur D71 soit un GBR différé qui donne la seule valeur précédente, à savoir D41.
Le même schéma est reproduit pour les capteurs suivants.
Ainsi, le nombre de données possibles pour chaque donnée manquante augmente d’une unité à chaque itération (passage d’un capteur à l’autre).
Le GBR pyramidal correspond donc à une initialisation par GBR simple sur le capteur le mieux corrélé avec le reste des capteurs puis à une succession de GBR simples et de GBR différés pour chaque capteur suivant, et ce pour chaque donnée manquante.
Pour chaque donnée manquante avec au moins deux valeurs obtenues, c'est-à-dire pour chaque capteur à partir du deuxième capteur, un choix peut être fait pour garder la meilleure valeur destinée à combler ladite donnée manquante. Ce choix peut être basé sur un calcul de moyenne, sur une comparaison des corrélations ou sur tout autre critère de sélection adapté.
Il ressort clairement de la présente description que certaines étapes de la méthode d’analyse prédictive peuvent être modifiées, remplacées ou supprimées et que certains ajustements peuvent être apportés à cette méthode, sans pour autant sortir du cadre de l’invention.
Par exemple, les algorithmes GBR utilisés peuvent être remplacés par des algorithmes de régression linéaire généralisée, de forêt aléatoire, de machine à vecteurs de support ou d’arbres décisionnels, ou par un modèle additif généralisé.

Claims (8)

  1. Méthode d’analyse prédictive, mise en œuvre par ordinateur, pour combler des données manquantes dans un ensemble (100) de capteurs (10), dans laquelle des algorithmes de type gradient boosting en régression, dits GBR, sont exécutés pour trouver une approximation d’une donnée manquante pour un capteur i à partir de données disponibles pour ce même capteur,caractériséeen ce que les algorithmes GBR sont également exécutés pour trouver une approximation d’une donnée manquante pour un capteur j à partir de données disponibles pour d’autres capteurs avec lesquels le capteur j présente une corrélation supérieure à un seuil déterminé, et en ce que pour chaque donnée manquante une meilleure approximation est choisie parmi une pluralité d’approximations sur la base d’une comparaison (EXO OK) de données exogènes relatives aux capteurs et aux intervalles de mesure desdits capteurs.
  2. Méthode d’analyse prédictive selon la revendication 1, dans laquelle chaque approximation d’une donnée manquante sur un intervalle de mesure actuel est basée sur des données disponibles issues d’intervalles identiques ou équivalents à l’intervalle actuel, antérieurs ou postérieurs à ce dernier, notamment issues de mêmes périodes calendaires que la période calendaire de la donnée manquante.
  3. Méthode d’analyse prédictive selon la revendication 1 ou 2, dans laquelle pour un sous-ensemble (E2) de capteurs ne fournissant aucune donnée sur un intervalle de mesure actuel, un premier capteur est choisi et une approximation de sa valeur manquante sur ledit intervalle est effectuée à partir de données disponibles pour ce même capteur, puis un second capteur du sous-ensemble est choisi est une approximation de sa valeur manquante peut être effectuée soit à partir dudit second capteur soit à partir des autres capteurs du sous-ensemble.
  4. Méthode d’analyse prédictive selon la revendication 3, dans laquelle le premier capteur et le second capteur sont respectivement le mieux corrélé et le deuxième mieux corrélé avec les autres capteurs du sous-ensemble.
  5. Méthode d’analyse prédictive selon l’une quelconque des revendications précédentes, dans laquelle le seuil de corrélation est supérieur à 80%.
  6. Méthode d’analyse prédictive selon l’une quelconque des revendications précédentes, dans laquelle l’ensemble (100) de capteurs (10) comprend des capteurs d’un réseau (150) d’assainissement d’eaux usées.
  7. Méthode d’analyse prédictive selon la revendication 6, dans laquelle les données exogènes comprennent des données météorologiques.
  8. Méthode d’analyse prédictive selon l’une quelconque des revendications précédentes, caractérisée en ce qu’elle est mise en œuvre sans aucune connexion informatique avec l’ensemble (100) de capteurs (10), à condition de disposer de données collectées par lesdits capteurs.
FR2102288A 2021-03-09 2021-03-09 Méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs Active FR3122933B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR2102288A FR3122933B1 (fr) 2021-03-09 2021-03-09 Méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2102288 2021-03-09
FR2102288A FR3122933B1 (fr) 2021-03-09 2021-03-09 Méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs

Publications (2)

Publication Number Publication Date
FR3122933A1 true FR3122933A1 (fr) 2022-11-18
FR3122933B1 FR3122933B1 (fr) 2023-12-29

Family

ID=75539587

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2102288A Active FR3122933B1 (fr) 2021-03-09 2021-03-09 Méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs

Country Status (1)

Country Link
FR (1) FR3122933B1 (fr)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859800A (zh) * 2020-07-15 2020-10-30 河海大学 用于pm2.5浓度分布的时空估算和预测的方法
CN112365000A (zh) * 2020-10-30 2021-02-12 国网福建省电力有限公司检修分公司 一种智慧空开装置的自动控制和预警方法及其实现平台

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859800A (zh) * 2020-07-15 2020-10-30 河海大学 用于pm2.5浓度分布的时空估算和预测的方法
CN112365000A (zh) * 2020-10-30 2021-02-12 国网福建省电力有限公司检修分公司 一种智慧空开装置的自动控制和预警方法及其实现平台

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHEN TIANQI TQCHEN@CS WASHINGTON EDU ET AL: "XGBoost A Scalable Tree Boosting System", PROCEEDINGS OF THE 2017 ACM ON CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT , CIKM '17, ACM PRESS, NEW YORK, NEW YORK, USA, 13 August 2016 (2016-08-13), pages 785 - 794, XP058631191, ISBN: 978-1-4503-4918-5, DOI: 10.1145/2939672.2939785 *
GUARIDO MARCELO: "Machine Learning Strategies to Perform Facies Classification", GEOCONVENTION 2019, 13 May 2019 (2019-05-13), Calgary, Canada, pages 1 - 5, XP055863973, Retrieved from the Internet <URL:https://www.crewes.org/Documents/ConferenceAbstracts/2019/CSEG/Guarido_CSEG_2019.pdf> *
HERDTER SMITH ELIZABETH: "Using extreme gradient boosting (XGBoost) to evaluate the importance of a suite of environmental variables and to predict recruitment of young-of-the-year spotted seatrout in Florida", BIORXIV, 8 February 2019 (2019-02-08), pages 1 - 44, XP055863982, Retrieved from the Internet <URL:https://www.biorxiv.org/content/10.1101/543181v1.full.pdf> [retrieved on 20211122], DOI: 10.1101/543181 *
LALCHANDVIDHI, EXTRACTING MORE FROM BOOSTED DECISION TREES: A HIGH ENERGY PHYSICS CASE STUDY, 2020
PONRAJ ABRAHAM SUDHARSON ET AL: "Daily evapotranspiration prediction using gradient boost regression model for irrigation planning", THE JOURNAL OF SUPERCOMPUTING, SPRINGER US, NEW YORK, vol. 76, no. 8, 22 August 2019 (2019-08-22), pages 5732 - 5744, XP037195480, ISSN: 0920-8542, [retrieved on 20190822], DOI: 10.1007/S11227-019-02965-9 *

Also Published As

Publication number Publication date
FR3122933B1 (fr) 2023-12-29

Similar Documents

Publication Publication Date Title
EP3039497A1 (fr) Surveillance d&#39;un moteur d&#39;aéronef pour anticiper les opérations de maintenance
WO2016075409A1 (fr) Procédé de surveillance d&#39;un moteur d&#39;aéronef en fonctionnement dans un environnement donné
EP3059682A1 (fr) Systeme de traitement de donnees et de modelisation pour l&#39;analyse de la consommation energetique d&#39;un site
Zheng et al. High-resolution map of sugarcane cultivation in Brazil using a phenology-based method
WO2020115431A1 (fr) Procédé de détermination d&#39;une vitesse de salissure d&#39;une unité de production photovoltaïque
WO2022112722A1 (fr) Procédé de détection d&#39;installations photovoltaïques sur une image par apprentissage profond
EP3674741A1 (fr) Système et procédé d&#39;identification de source radar
FR3122933A1 (fr) Méthode d’analyse prédictive pour combler des données manquantes dans un ensemble de capteurs
WO2021191148A1 (fr) Procédé de génération d&#39;un flux de fouillis de mer, dispositif programmable et programme d&#39;ordinateur associés
EP3712775A1 (fr) Procédé et dispositif de détermination de la taille mémoire globale d&#39;une zone mémoire globale allouée aux données d&#39;un réseau de neurones compte tenu de sa topologie
FR3108415A1 (fr) Procédé de prédiction d’engorgement(s) de colonne(s) de distillation d’une raffinerie, programme d’ordinateur et système de prédiction associé
WO2023079229A1 (fr) Systeme de suivi d´interactions sur une page internet
EP0447306B1 (fr) Dispositif de reconnaissance de séquences dans un signal multidimensionnel
WO2016087770A1 (fr) Procédé de surveillance du fonctionnement d&#39;une turbomachine
EP3905044B1 (fr) Procédé d&#39;analyse automatique des journaux de transactions d&#39;un système informatique distribué
Lu et al. Optimization of weather forecasting for cloud cover over the European domain using the meteorological component of the Ensemble for Stochastic Integration of Atmospheric Simulations version 1.0
EP3360055B1 (fr) Procede d&#39;optimisation de decomposition d&#39;un signal asynchrone
FR3131988A1 (fr) Prévision bayésienne de consommation individuelle et équilibrage d&#39;un réseau électrique
FR3012882A1 (fr) Procede d&#39;essai technique
CA2913250A1 (fr) Estimation d&#39;une consommation de fluide effacee
Gutierrez‐Garcia et al. Tree ring‐based historic hydroclimatic variability of the Baja California Peninsula
FR3079056A1 (fr) Procede de controle de detection de scenes par un appareil, par exemple un appareil de communication sans fil, et appareil correspondant
EP4379576A1 (fr) Procédé de détermination d&#39;une probabilité d apparition d&#39;un dysfonctionnement créant un défaut de performance dans un aéronef
EP4033361B1 (fr) Procédé et dispositif de détermination d&#39;au moins une machine impliquée dans une anomalie détectée dans une infrastructure informatique complexe
FR3010206A1 (fr) Procede de gestion d&#39;une base de donnees utilisateurs sur une plate-forme de contenus multimedias

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20221118

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4