FR3098961A1 - Procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par au moins un capteur - Google Patents

Procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par au moins un capteur Download PDF

Info

Publication number
FR3098961A1
FR3098961A1 FR1908065A FR1908065A FR3098961A1 FR 3098961 A1 FR3098961 A1 FR 3098961A1 FR 1908065 A FR1908065 A FR 1908065A FR 1908065 A FR1908065 A FR 1908065A FR 3098961 A1 FR3098961 A1 FR 3098961A1
Authority
FR
France
Prior art keywords
data
input
cluster
datum
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1908065A
Other languages
English (en)
Other versions
FR3098961B1 (fr
Inventor
Delfosse Aurélien
Aurélien DELFOSSE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electricite de France SA
Original Assignee
Electricite de France SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electricite de France SA filed Critical Electricite de France SA
Priority to FR1908065A priority Critical patent/FR3098961B1/fr
Priority to PCT/EP2020/070331 priority patent/WO2021009364A1/fr
Publication of FR3098961A1 publication Critical patent/FR3098961A1/fr
Application granted granted Critical
Publication of FR3098961B1 publication Critical patent/FR3098961B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Abstract

Procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par au moins un capteur La présente invention concerne un procédé d’identification de données aberrantes dans un jeu de données d’entrée acquises par au moins un capteur et appartenant à un espace d’entrée ayant une dimension d’entrée, le procédé comprenant des étapes de : Pour chaque donnée d’entrée, calcul, par un encodeur d’un réseau de neurones de type auto-encodeur, d’une donnée encodée représentative de la donnée d’entrée dans un espace latent de dimension inférieure à la dimension d’entrée ; Pour chaque donnée encodée, application d’un traitement de type facteur aberrant local (LOF), de sorte à produire un score d’anomalie associé à la donnée encodée ; Partitionnement en grappes des données encodées ; Pour au moins une des grappes, comparaison des scores d’anomalie des données encodées de la grappe avec un seuil, et identification de la grappe comme étant aberrante ou non en fonction des comparaisons. Figure pour l’abrégé : figure 2

Description

Procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par au moins un capteur
DOMAINE TECHNIQUE GENERAL
La présente invention concerne le domaine de l’exploration de données, et plus particulièrement la détection d’anomalies. Elle propose en particulier un procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par des capteurs.
ETAT DE L’ART
La détection d’anomalie est l'identification d'éléments, d'événements ou d'observations rares qui soulèvent des suspicions en différant de manière significative de la majorité des autres données. Tout comme pour les méthodes de classification classique, il existe trois grandes catégories de techniques de détection d’anomalies, les techniques : supervisées, non-supervisées, ainsi que semi-supervisées. Les méthodes supervisées sont bien souvent les plus puissantes, cependant, elles reposent sur l’utilisation de jeux de données étiquetées, dans lesquels les données sont identifiées comme étant soit « normales », soit « anormales ». Cependant ces jeux de données étiquetés sont très fastidieux à obtenir, quand ce n’est pas impossible. Les méthodes semi-supervisées nécessitent pour leur part seulement d’avoir un jeu de données uniquement normales. Les méthodes non-supervisées quant à elles ne sont pas aussi performantes que les méthodes supervisées, mais ne nécessitent pas de savoir à l’avance si les données d’entrée sont normales ou anormales.
Le développement récent des capteurs connectés (par exemples les compteurs communicants) ainsi que l’augmentation des capacités de stockages de données pour des coûts de plus en plus réduits a permis d’accéder à données de plus en plus massives. Cependant ce type de données n’est que très rarement étiqueté, c’est pourquoi les méthodes non supervisée (parfois aussi semi-supervisées) sont les plus utilisées.
Il est ensuite possible d’identifier trois autres sous-groupes de méthodes : les méthodes statistiques, les méthodes par proximité ou les méthodes basées sur la déviation.
Les méthodes statistiques considèrent que les données doivent être réparties selon une certaine distribution de probabilité. Une observation est considérée comme anormale lorsqu’elle s’écarte de cette distribution au-delà d’un certain seuil. Ces méthodes ont le désavantage de nécessiter un a priori sur le comportement normal de la distribution de données.
Les méthodes par proximité considèrent une observation anormale si elle s’éloigne de la masse. Il est possible d’utiliser des méthodes de détection d’anomalie par partitionnement ou par estimation de densité. L’idée est de comparer la densité du voisinage d’un point avec la densité de l’ensemble de ses voisins. Cependant celles-ci reposent le plus souvent sur des mesures de distances entre plusieurs observations, il n’est donc pas possible de les appliquer directement lorsque les données sont de trop grande dimension.
Enfin les méthodes par déviation ont pour objectif de compresser et reconstruire des données dites normales, puis de reproduire l’opération sur de nouvelles données et de mesurer l’erreur de reconstruction. Les observations avec une forte erreur de reconstruction sont considérées comme des anomalies. Une telle méthode est décrite dans
  • An, J., & Cho, S. (2015). Variational autoencoder based anomaly detection using reconstruction probability. Special Lecture on IE, 2(1).
Cependant les méthodes par déviation sont des méthodes semi-supervisées, qui requièrent la création d’une base de données composée uniquement de données sans anomalie.
Selon un premier aspect, la présente invention concerne un procédé d’identification de données aberrantes dans un jeu de données d’entrée acquises par au moins un capteur et appartenant à un espace d’entrée ayant une dimension d’entrée, le procédé comprenant des étapes de :
  1. Pour chaque donnée d’entrée, calcul, par un encodeur d’un réseau de neurones de type auto-encodeur, d’une donnée encodée représentative de la donnée d’entrée dans un espace latent de dimension inférieure à la dimension d’entrée ;
  2. Pour chaque donnée encodée, application d’un traitement de type facteur aberrant local (LOF), de sorte à produire un score d’anomalie associé à la donnée encodée ;
  3. Partitionnement en grappes des données encodées ;
  4. Pour au moins une des grappes, comparaison des scores d’anomalie des données encodées de la grappe avec un seuil, et identification de la grappe comme étant aberrante ou non en fonction des comparaisons.
Selon d’autres caractéristiques avantageuses et non limitatives :
  • les données d’entrée sont normalisées avant l’étape a) ;
  • le partitionnement de l’étape c) est réalisé selon un modèle de mélange gaussien dans lequel les différentes grappes sont représentées chacune par une distribution gaussienne représentant la probabilité d’appartenir à ladite grappe ;
  • l’étape d) comprend en outre des étapes de :
  1. Calcul d’un quantile du score d’anomalie pour l’ensemble des grappes, le quantile étant utilisé comme le seuil ;
  2. Identification de la grappe aberrante en fonction du nombre de valeurs du score d’anomalie supérieures au seuil calculé à l’étape i) ;
  • l’auto-encodeur est variationnel ;
  • les données d’entrée sont des données de consommation électrique acquises par au moins un compteur électrique.
Selon un deuxième et un troisième aspect, l’invention propose un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon le premier aspect d’identification de données aberrantes dans d’un jeu de données d’entrée ; et un moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon le premier aspect d’identification de données aberrantes dans d’un jeu de données d’entrée.
D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence aux dessins annexés dans lesquels :
la figure 1 est un schéma d’une architecture pour la mise en œuvre du procédé selon l’invention ;
la figure 2 représente les étapes d’un mode de réalisation préféré du procédé selon l’invention.
Architecture
En référence à lafigure 1, un système comprend un réseau de capteurs 200, un serveur de base de données 2, et un dispositif de traitement 1.
Le réseau de capteurs 200 comprend une pluralité de capteurs 40a, 40b, 40c, 40d (par exemple des compteurs communicants) reliés à un réseau tel que le réseau internet ou bien un réseau courant porteurs en ligne.
Le serveur de base de données 2 recueille des données à partir des capteurs 40a, 40b, 40c, 40d grâce au réseau de capteurs 200, puis les fournit au serveur de traitement 1 grâce à une réseau d’échange de données tel que le réseau internet. Il est tout à fait possible que les deux équipements 1 et 2 soient confondus.
Dans tous les cas, chaque équipement 1, 2 est typiquement un équipement informatique distant relié à un réseau étendu 10 tel que le réseau internet pour l’échange des données. Chacun comprend des moyens de traitement de données 11, 21 de type processeur, et des moyens de stockage de données 12, 22 telle qu’une mémoire informatique, par exemple un disque.
Les données collectées par les capteurs 40a, 40b, 40c, 40d du réseau de capteurs 200 peuvent être des données de consommation électrique, des données de consommation d’eau, ou bien des données vibratoires de machines tournantes.
Le dispositif de traitement 1 est configuré pour mettre en œuvre un procédé d’identification de données aberrantes, qui sera décrit ci-après.
Le dispositif de traitement 1 comprend typiquement un processeur adapté pour exécuter un programme dont les instructions de code permettent la mise en œuvre de ce procédé d’identification.
En particulier, le dispositif de traitement est configuré pour utiliser un réseau de neurones connu de l’état de la technique sous le nom d’auto-encodeur.
Principe
Le procédé de d’identification de données aberrantes repose sur du partitionnement (« clustering ») ainsi que l’estimation d’une densité locale, comme les méthodes par proximité, cependant au lieu d’être réalisés directement sur les données issues des capteurs (ce qui n’est pas possible en pratique à cause de la taille de ces données), les données sont préalablement compressées selon une méthode similaire à celles par déviation, et les distances nécessaires au partitionnement et à l’estimation de densité locale sont calculées dans l’espace des données compressées.
En référence à lafigure 2, ce procédé comprend les étapes suivantes.
Les données issues du réseau de capteurs 200 sont, dans un premier temps, utilisées pour entrainer l’auto-encodeur. L’encodeur de l’auto-encodeur est ensuite utilisé, dans une étape a), pour compresser les données d’entrée dans un espace latent de faible dimension. L’auto-encodeur peut-être par exemple un auto-encodeur variationnel.
Il est aussi possible de normaliser les données issues des capteurs dans une étape préliminaire réalisée en amont de l’apprentissage. Cette normalisation peut être réalisée de plusieurs manières selon le type de données : en utilisant la médiane ou la moyenne de toutes les observations du jeu de données d’entrée lorsque les données ne sont pas bornées, en utilisant les valeur minimales et maximales si les données sont bornées, ou bien en appliquant une fonction de normalisation telle qu’une fonction logarithme.
Ensuite, un traitement de type facteur aberrant local (« Local Outlier Factor », LOF) est appliqué, dans une étape b), sur les données issues de capteurs après la compression afin d’identifier un seuil à partir duquel les données sont considérées comme aberrantes grâce à un score d’anomalie. Pour identifier les grappes de données aberrantes, un quantile du score d’anomalie est évalué dans une étape d.i) afin de servir de seuil. Le quantile peut être par exemple le percentile 90%, c’est-à-dire la valeur particulière de LOF telle que 90% des valeurs de LOF soient inférieures à la valeur particulière.
Dans le même temps, les données compressées sont partitionnées, dans une étape c), par un algorithme de partitionnement de préférence basé sur des opérations mathématiques dérivables (par exemple un modèle de mélange gaussien, « Gaussian mixture model »). La dérivabilité des opérations de partitionnement permet d’utiliser une fonction de coût relative au partitionnement lors de l’étape l’entrainement du réseau de neurones auto-encodeur et ainsi de prendre en compte la tache de partitionnement dans l’entrainement de l’auto-encodeur.
Contrairement au cas des méthodes par déviation où un auto-encodeur peut être utilisé pour les tâches de compression et de reconstruction, l’auto-encodeur utilisé dans le procédé d’identification de données aberrantes décrit ci-dessus n’a pas besoin d’être entrainé uniquement sur des données normales. En effet le but n’est pas d’apprendre un modèle statistique des données dites normales et ensuite vérifier si une observation particulière a bien été générée par le modèle ou si au contraire elle dévie du modèle.
Les grappes de données aberrantes sont ensuite identifiées dans une étape d.ii), en étudiant la répartition des scores d’anomalie dans une grappe par rapport au quantile calculé. La grappe contenant le plus de scores d’anomalie supérieurs au quantile est alors celle identifiée comme la grappe aberrante.

Claims (8)

  1. Procédé d’identification de données aberrantes dans un jeu de données d’entrée acquises par au moins un capteur et appartenant à un espace d’entrée ayant une dimension d’entrée, le procédé comprenant des étapes de :
    a) Pour chaque donnée d’entrée, calcul, par un encodeur d’un réseau de neurones de type auto-encodeur, d’une donnée encodée représentative de la donnée d’entrée dans un espace latent de dimension inférieure à la dimension d’entrée ;
    b) Pour chaque donnée encodée, application d’un traitement de type facteur aberrant local (LOF), de sorte à produire un score d’anomalie associé à la donnée encodée ;
    c) Partitionnement en grappes des données encodées ;
    d) Pour au moins une des grappes, comparaison des scores d’anomalie des données encodées de la grappe avec un seuil, et identification de la grappe comme étant aberrante ou non en fonction des comparaisons.
  2. Procédé selon la revendication 1 dans lequel les données d’entrée sont normalisées avant l’étape a).
  3. Procédé selon l’une des revendications 1 ou 2, dans lequel le partitionnement de l’étape c) est réalisé selon un modèle de mélange gaussien dans lequel les différentes grappes sont représentées chacune par une distribution gaussienne représentant la probabilité d’appartenir à ladite grappe.
  4. Procédé selon l’une des revendications 1 à 3 dans lequel l’étape d) comprend en outre des étapes de :
    d.i) Calcul d’un quantile du score d’anomalie pour l’ensemble des grappes, le quantile étant utilisé comme le seuil ;
    d.ii) Identification de la grappe aberrante en fonction du nombre de valeurs du score d’anomalie supérieures au seuil calculé à l’étape i).
  5. Procédé selon l’une des revendication 1 à 4, dans lequel l’auto-encodeur est variationnel.
  6. Procédé selon l’une des revendications 1 à 5, dans lequel les données d’entrée sont des données de consommation électrique acquises par au moins un compteur électrique.
  7. Produit programme d’ordinateur comprenant des instructions de code pour l’exécution du procédé selon l’une des revendications 1 à 6, lorsque ledit programme est exécuté sur un ordinateur.
  8. Moyen de stockage lisible par un équipement informatique sur lequel est enregistré un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 6, lorsque ledit programme est exécuté sur un ordinateur.
FR1908065A 2019-07-17 2019-07-17 Procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par au moins un capteur Active FR3098961B1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1908065A FR3098961B1 (fr) 2019-07-17 2019-07-17 Procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par au moins un capteur
PCT/EP2020/070331 WO2021009364A1 (fr) 2019-07-17 2020-07-17 Procédé d'identification de données aberrantes dans d'un jeu de données d'entrée acquises par au moins un capteur

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1908065A FR3098961B1 (fr) 2019-07-17 2019-07-17 Procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par au moins un capteur
FR1908065 2019-07-17

Publications (2)

Publication Number Publication Date
FR3098961A1 true FR3098961A1 (fr) 2021-01-22
FR3098961B1 FR3098961B1 (fr) 2022-03-04

Family

ID=68281688

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1908065A Active FR3098961B1 (fr) 2019-07-17 2019-07-17 Procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par au moins un capteur

Country Status (2)

Country Link
FR (1) FR3098961B1 (fr)
WO (1) WO2021009364A1 (fr)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3016033A1 (fr) * 2014-10-29 2016-05-04 Ricoh Company, Ltd. Systeme de traitement de l'information, appareil de traitement de l'information et procede de traitement de l'information
EP3477553A1 (fr) * 2017-10-27 2019-05-01 Robert Bosch GmbH Procédé permettant de détecter une image anormale parmi un premier ensemble de données d'images à l'aide d'un auto-encodeur contradictoire

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3016033A1 (fr) * 2014-10-29 2016-05-04 Ricoh Company, Ltd. Systeme de traitement de l'information, appareil de traitement de l'information et procede de traitement de l'information
EP3477553A1 (fr) * 2017-10-27 2019-05-01 Robert Bosch GmbH Procédé permettant de détecter une image anormale parmi un premier ensemble de données d'images à l'aide d'un auto-encodeur contradictoire

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Outlier analysis , Chapter 4: Proximity-based outlier detection ED - Charu C Aggarwal", 1 January 2013, OUTLIER ANALYSIS, SPRINGER, NEW YORK, NY [U.A.], PAGE(S) 101 - 133, ISBN: 978-1-4614-6396-2, XP002750855 *
AN, J.CHO, S.: "Variational autoencoder based anomaly détection using reconstruction probability", SPÉCIAL LECTURE ON IE, vol. 2, no. 1, 2015
MARKUS BREUNIG ET AL: "LOF: Identifying Density-Based Local Outliers", SIGMOD '00 PROCEEDINGS OF THE 2000 ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 16 May 2000 (2000-05-16), NEW YORK, NY, US, pages 93 - 104, XP055226141, ISBN: 978-1-58113-217-5, DOI: 10.1145/342009.335388 *
VIEGAS JOAQUIM L ET AL: "Clustering-based novelty detection for identification of non-technical losses", INTERNATIONAL JOURNAL OF ELECTRICAL POWER & ENERGY SYSTEMS, JORDAN HILL, OXFORD, GB, vol. 101, 31 March 2018 (2018-03-31), pages 301 - 310, XP085387236, ISSN: 0142-0615, DOI: 10.1016/J.IJEPES.2018.03.031 *

Also Published As

Publication number Publication date
FR3098961B1 (fr) 2022-03-04
WO2021009364A1 (fr) 2021-01-21

Similar Documents

Publication Publication Date Title
EP3301617B1 (fr) Procédés d'apprentissage sécurisé de paramètres d'un réseau de neurones à convolution, et de classification sécurisée d'une donnée d'entrée
JP2021527288A (ja) データセットのための機械学習モデルの好適性の検出
EP3172548B1 (fr) Procédé pour détecter des anomalies dans un réseau de distribution, en particulier d'eau potable
EP2374075A1 (fr) Procede et systeme pour classifier des donnees issues de base de donnees
EP3489831A1 (fr) Procédé et dispositif de surveillance d'un processus générateur de données d'une métrique pour la prédiction d'anomalies
FR3037679A1 (fr)
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CA2940380A1 (fr) Determiner la severite d'une perturbation geomagnetique sur un reseau electrique a l'aide de mesures de similarite
EP4124942A1 (fr) Procédé et système de traitement de données personnelles utilisant un chiffrement homomorphique
EP3100201A1 (fr) Procédé de détection d'attaques dans une architecture informatique dans le nuage
EP1792278A1 (fr) Procede de detection et de pistage de cibles ponctuelles, dans un systeme de surveillance optronique
EP3846087A1 (fr) Procede et systeme de selection d'un modele d'apprentissage au sein d'une pluralite de modeles d'apprentissage
FR3098961A1 (fr) Procédé d’identification de données aberrantes dans d’un jeu de données d’entrée acquises par au moins un capteur
EP4099228A1 (fr) Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes
CN115567224A (zh) 一种用于检测区块链交易异常的方法及相关产品
CA2867241A1 (fr) Procede de cryptage d'une pluralite de donnees en un ensemble securise
FR3048101A1 (fr) Procede et dispositif d'evaluation de la robustesse d'une anonymisation d'un jeu de donnees
EP3846047A1 (fr) Procédé et système d'identification de variables pertinentes
EP3622445B1 (fr) Procede, mise en oeuvre par ordinateur, de recherche de regles d'association dans une base de donnees
CN113780318A (zh) 用于生成提示信息的方法、装置、服务器和介质
FR3105863A1 (fr) Procédé ET système de conception d’un modèle de prédiction
Perwej A Potent Technique for Identifying Fake Accounts on Social Platforms
FR2970796A1 (fr) Procede de traitement de messages de pannes generes dans un appareil a systemes complexes
EP4033361B1 (fr) Procédé et dispositif de détermination d'au moins une machine impliquée dans une anomalie détectée dans une infrastructure informatique complexe
US20230214842A1 (en) Locating suspect transaction patterns in financial networks

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210122

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5