FR3076384A1 - Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise - Google Patents

Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise Download PDF

Info

Publication number
FR3076384A1
FR3076384A1 FR1763303A FR1763303A FR3076384A1 FR 3076384 A1 FR3076384 A1 FR 3076384A1 FR 1763303 A FR1763303 A FR 1763303A FR 1763303 A FR1763303 A FR 1763303A FR 3076384 A1 FR3076384 A1 FR 3076384A1
Authority
FR
France
Prior art keywords
tree
transaction
node
anomalies
leaf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1763303A
Other languages
English (en)
Inventor
Li Guo
Guillaume COTER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Worldline SA
Original Assignee
Worldline SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Worldline SA filed Critical Worldline SA
Priority to FR1763303A priority Critical patent/FR3076384A1/fr
Priority to PCT/FR2018/053512 priority patent/WO2019129977A1/fr
Publication of FR3076384A1 publication Critical patent/FR3076384A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Abstract

L'invention concerne un procédé pour la détection d'anomalies dans un ensemble de transactions établies au travers d'un réseau de télécommunication, comportant - la détermination (S1) pour chaque transaction d'un ensemble de valeurs de paramètres associées à la transaction ; - le parcours (S3), pour chaque transaction, d'au moins un arbre préalablement défini sur un jeu d'entrainement, en comparant les valeurs des paramètres avec les valeurs associés à chaque nœud dudit au moins un arbre, jusqu'à ce qu'une feuille soit atteinte ; l'arbre étant entrainé (S2) de sorte de sorte que chacune des feuilles corresponde à une unique transaction du jeu d'entrainement et que ses feuilles soient associées, chacune, à une indication si celles-ci correspondent à une transaction normale ou en anomalie, - la détermination (S5) d'un score en fonction d'une première métrique dépendant de la position de la feuille dans l'arbre, et d'une seconde métrique dépendant de ces indications des feuilles, ledit score indiquant une estimation si la transaction est normale ou en anomalie.

Description

DETECTION D’ANOMALIES PAR UNE APPROCHE COMBINANT APPRENTISSAGE SUPERVISE ET NON-SUPERVISE
DOMAINE DE L’INVENTION
La présente invention concerne la détection d'anomalies dans un ensemble de transactions. Elle concerne notamment la détection de fraudes dans des transactions financières.
CONTEXTE DE L’INVENTION
Dans la plupart des cas pratiques, le volume des données à traiter est énorme. C'est notamment le cas du volume des transactions financières que les serveurs d'une banque sont amenés à gérer quotidiennement (retraits et achats par carte bancaire, etc.). Ce peut être le cas des transactions de service sur des services web (non nécessairement financières).
Il est connu de faire appel à des techniques de traitement automatique des données afin de pouvoir analyser ces données et y déterminer des anomalies le plus rapidement possible. Ces anomalies peuvent être des simples erreurs, mais également des fraudes. Les fraudeurs cherchant à déjouer les parades mises en place, il est difficile de pouvoir caractériser un comportement typique qui pourrait guider la recherche de fraudes dans un important volume de données. Il est donc nécessaire d'analyser l'ensemble des données pour y détecter des transactions atypiques.
Ces transactions atypiques sont alors présentées à un opérateur humain qui les analyse afin de décider de leur caractère frauduleux ou non et déclencher d'éventuelles contremesures.
Il est donc important d'à la fois déterminer un ensemble de transactions suspectes qui minimise les transactions frauduleuses non détectées, mais qui minimise aussi la sur-détection (ou fausses alertes) afin de limiter la charge des opérateurs humains.
Les techniques automatiques permettant de considérer cette problématique générale se basent en général sur un mécanisme d'apprentissage, permettant de construire un « modèle » qui formalise la « typicité » des transactions. Les nouvelles transactions sont ensuite présentées à ce modèle qui peut alors prédire un caractère anormal (notamment frauduleux) ou non, par rapport à ce modèle de typicité.
Ces techniques d'apprentissage (typiquement appelées « machine leaming » en anglais) peuvent se diviser en deux grandes familles, basées sur un apprentissage supervisé ou sur un apprentissage non supervisé.
Dans le cas d'un apprentissage supervisé, on indique pour chaque transaction du jeu d'entrainement si elle représente une anomalie ou non. Cette indication (ou étiquette, « label » en anglais) est utilisée pour la construction du modèle. En conséquence, la détection d'une anomalie pour une nouvelle transaction peut se ramener à une tâche de classification.
L'apprentissage supervisé permet de bien détecter les anomalies qui correspondent à une classe déterminée par le jeu d'apprentissage. Cependant, une anomalie qui ne correspond pas bien à une classe préalablement déterminée ne sera pas correctement détectée.
En fait, par essence même, ces méthodes visent à déterminer des classes correspondant aux anomalies présentées dans le jeu d'apprentissage. Or, les fraudeurs sont sans cesse en recherche de nouvelles stratégies de fraude, et leur comportement visent donc à échapper à toute tentative de classification déterministe.
Il est alors nécessaire de régulièrement entraîner de nouveau le modèle de classification pour prendre en compte les nouveaux types d'anomalies. Mais tant que le nombre de transactions d'un nouveau type n'est pas suffisamment important, le modèle ne pourra pas les classifier correctement.
D'une façon plus générale, ce type d'approche souffre du faible nombre d'anomalies qui ne permet pas toujours une bonne classification.
L'autre grande famille méthodologique est celle de l'apprentissage non supervisée. Selon le principe, un jeu d'entrainement est également utilisé mais on n'associe aucune information aux transactions du jeu d'entrainement indiquant s'il s'agit d'une transaction représentant une anomalie ou non. Le modèle se constitue donc en déterminant des « tendances synthétiques » dans ce jeu d'entrainement, et les transactions anormales sont considérées comme celles présentant une anomalie par rapport au modèle ainsi constitué.
Un avantage de cette approche est de ne pas faire de supposition sur des types ou classes d'anomalies (ou fraudes). Elle permet ainsi d'être plus robuste et efficace pour la détection de nouveaux types de fraudes.
Toutefois, elle souffre de la difficulté de distinguer des transactions présentant effectivement une anomalie, de celles ne présentant pas d'anomalies mais détectées comme suspectes par le modèle. D'une façon générale, les méthodes non supervisés présentent un important taux de fausses alertes.
RESUME DE L’INVENTION
Le but de la présente invention est de fournir une solution palliant au moins partiellement les inconvénients précités.
A cette fin, la présente invention propose un procédé pour la détection d’anomalies dans un ensemble de transactions établies au travers d’un réseau de télécommunication, comportant la détermination pour chaque transaction d’un ensemble de valeurs de paramètres associées à ladite transaction ;
le parcours, pour chaque transaction, d’au moins un arbre préalablement défini sur un jeu d’entrainement, en comparant les valeurs desdits paramètres avec les valeurs associés à chaque nœud dudit au moins un arbre, jusqu’à ce qu’une feuille soit atteinte ; ledit au moins un arbre étant entraîné de sorte de sorte que chacune des feuilles dudit arbre corresponde à une unique transaction dudit jeu d’entrainement et que ses feuilles soient associées, chacune, à une indication si celles-ci correspondent à une transaction normale ou en anomalie, la détermination d’un score en fonction d’une première métrique dépendant de la position de ladite feuille dans ledit arbre, et d’une seconde métrique dépendant desdites indications des feuilles, ledit score indiquant une estimation que ladite transaction est normale ou en anomalie.
Suivant des modes de réalisation préférés, l’invention comprend une ou plusieurs des caractéristiques suivantes qui peuvent être utilisées séparément ou en combinaison partielle entre elles ou en combinaison totale entre elles :
- le procédé comporte en outre une étape de détermination pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la somme des nombres d’anomalies sur l’ensemble des nœuds dudit chemin ;
- le procédé comporte en outre une étape de détermination (S4) pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la distance entre ladite feuille et le nœud le plus proche dudit chemin pour lequel ledit nombre d’anomalie est non nul ;
ladite première métrique est la profondeur de ladite feuille dans ledit au moins un arbre ;
ledit au moins un arbre forme une forêt d’arbres, chaque arbre de ladite forêt étant défini sur un jeu d’entrainement différent ;
ledit au moins un arbre est défini, à partir d’un nœud racine, par un processus récursif comprenant les étapes de :
choix aléatoire d’un paramètre parmi l’ensemble des paramètres des transactions dudit jeu d’entrainement ;
division de l’ensemble des valeurs prises par ledit paramètre pour l’ensemble desdites transactions, en une pluralité de sous-ensembles ;
création de nœuds fils, chacun correspondant à l’un des sousensembles de ladite pluralité;
dans lequel ledit processus récursif s’arrête lorsque le nœud considéré correspond à une unique valeur, de sorte que chacune des feuilles dudit arbre correspond à une unique transaction dudit jeu d’entrainement, une indication si celui-ci correspond à une transaction normale ou en anomalie étant alors associée audit nœud considéré.
ledit au moins un arbre est un arbre binaire et ladite pluralité de sousensembles est formée de deux sous-ensembles ;
ledit au moins arbre est un « itree ».
Un autre objet de l’invention est relatif à un programme d’ordinateur comportant du code pour mettre en œuvre un procédé tel que précédemment défini, lorsque exécuté sur un ordinateur.
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit d’un mode de réalisation préféré de l'invention, donnée à titre d'exemple et en référence aux dessins annexés.
BREVE DESCRIPTION DES DESSINS
La figure 1 représente schématiquement un organigramme relatif à un mode de réalisation de l’invention.
La figure 2 représente schématiquement un exemple d’arbre construit et entraîné selon un mode de réalisation de l’invention.
DESCRIPTION DETAILLEE DE L’INVENTION
L’invention repose sur une phase d’apprentissage qui consiste à créer et entraîner au moins un arbre modélisant l’ensemble des transactions du jeu d’entrainement, puis une phase d’exploitation durant laquelle on confronte de nouvelles transactions à l’arbre ou arbres afin d’en déduire des scores. Ces scores permettent d’indiquer si les transactions correspondantes sont des anomalies ou normales.
Selon un mode de réalisation de l’invention, ces deux étapes peuvent être concomitantes, au sens que les nouvelles transactions présentées pendant la phase d’exploitation peuvent également entraîner l’arbre, ou les arbres. Le modèle est ainsi dynamique et en constante adaptation au flux de données.
Selon un mode de réalisation de l’invention, une pluralité d’arbres, formant une « forêt » est considérée. Cette façon de faire permet d’apporte une meilleure robustesse de l’apprentissage par rapport au jeu d’entrainement et aux tirages aléatoires effectuées dans le cadre du processus d’apprentissage qui va être décrit.
Dans une première étape, indiquée SI sur la figure 1, on détermine un ensemble de valeurs de paramètres caractéristiques des transactions.
Le choix de ces paramètres dépend de la nature des transactions considérées et de choix opérationnels. Par exemple, dans le cas de transactions financières (achats en ligne ou par carte bancaire), on peut déterminer comme paramètres : le montant de la transaction, les parties à la transaction (par exemple, un acheteur et un vendeur, ou plus généralement, un débiteur et un créditeur), une date, un horaire, un lieu physique des parties au moment de la transaction, etc.
Tout élément transmis par les réseaux de communication au serveur en charge d’effectuer la transaction peuvent être pris en compte, dans la mesure où il peut permettre de caractériser une éventuelle anomalie dans un ensemble de transactions. En conséquence, l’invention ne se limite pas aux exemples de paramètres mentionnés cidessus, mais est susceptibles de prendre en compte tout paramètre disponible.
La phase d’apprentissage S2 est un processus itératif visant à créer un arbre, ou une forêt d’arbres, dans lequel chaque itération considère un paramètre afin de subdiviser l’ensemble des valeurs pris par ce paramètre sur l’ensemble des transactions du jeu d’apprentissage, de sorte à, au bout d’un nombre suffisant d’itérations, isoler chaque transaction dans une feuille de l’arbre.
Ce processus d’apprentissage s’inspire des arbres d’isolation, ou «isolation tree » en langue anglaise, ou encore iTree. Une définition de ce type d’arbre est notamment donné dans l’article « Isolation Forest » de Eeil Tony Liu, Kai Ming Ting et Zhi-Hua Zhou, in Proceedings of the 2008 Eighth IEEE International Conférence on Data Mining (ICDM Ό8). Selon cet article, un arbre d’isolation est défini comme un ensemble de nœuds T, de sorte que T est soit une feuille, soit un nœud interne associé à un test et exactement deux nœuds fils Ti, Tr. Le test consiste en un attribut q et une valeur pivot p, de sorte que q<p divise l’espace en deux sous-ensembles attribués aux nœuds Ti et Tr respectivement.
L’invention, toutefois, ne se limite pas aux arbres d’isolation ainsi définis, et notamment aux arbres binaires : en effet, il est toute à fait envisageable de subdiviser l’espace des valeurs des paramètres en une pluralité de sous-ensembles, la pluralité étant de cardinalité quelconque et notamment supérieure à deux.
Selon un mode de réalisation préférentiel de l’invention, une forêt de tels arbres est considérée. On constitue alors un jeu d’entrainement différent pour rentrainement de chacun des arbres de la forêt.
Pour ce faire, différentes approches sont possible. Par exemple, il peut suffire de partitionner le jeu d’entrainement disponible en autant de parts que l’on souhaite d’arbres dans la forêt. Préférentiellement toutefois, on peut utiliser le mécanisme classique consistent à tirer aléatoirement, pour chaque arbre, un échantillon de dimension prédéfinie, parmi l’ensemble du jeu d’entraînement.
Pour chacun des arbres, on met alors en place un processus itératif permettant de le créer à partir d’un nœud racine.
Dans une première étape S21, un paramètre est choisi aléatoirement parmi Γensemble des paramètres des transactions d’un jeu d’entrainement. Ce premier paramètre correspond au nœud racine.
Comme vu précédemment, ce jeu d’entrainement est une partie de rensemble du jeu d’entrainement dans le cas où une forêt est mise en place. Il est formé d’un ensemble de transactions, pour lesquelles un ensemble de valeurs de paramètres a été déterminé.
Un paramètre est choisi aléatoirement (par exemple, la date...), et dans une étape S22, on divise l’espace des valeurs de ce paramètre en une pluralité de sousensembles.
Cette division peut être mise en œuvre de différentes façons.
Par exemple, dans le cas où l’on veut construire un arbre binaire, il est possible de choisir les sous-ensembles de sorte à former deux sous-ensembles de cardinalité sensiblement identique. Pour ce faire, on peut calculer la valeur médiane prise par ce paramètre sur l’ensemble de jeu d’entrainement, et considérer deux sous-ensembles en fonction de cette valeur médiane.
On peut également utiliser le mécanisme classique de l’« itree » consistant à effectuer un tirage aléatoire de la valeur pivot. Cette façon de faire permet une plus grande variété des propriétés des arbres de la forêt, conférant à cette dernière une meilleure robustesse.
Pour des paramètres pouvant prendre des valeurs discrètes, il est possible de créer autant de sous-ensembles que de valeurs, ou bien de regrouper ces valeurs en un certain nombre de sous-ensembles (par exemple deux, si l’on souhaite un arbre binaire) selon une règle prédéfinie.
Pour chacun des sous-ensembles, dans une étape S23, on créé des nœuds fils du nœud considéré (c’est-à-dire, lors de la première itération, du nœud racine).
Ce processus est ensuite réitéré, de façon récursive, pour chacun des nœuds fils, à partir de l’étape de l’étape S21. A chaque itération, on comprend que l’espace des transactions du jeu d’entrainement est divisé en autant de parties que de nœuds fils créés.
On choisit donc ainsi un deuxième paramètre, permettant de subdiviser encore la population des transactions du jeu d’apprentissage, et d’ajouter des nœuds à l’arbre.
Ce processus se termine naturellement, pour chaque nœud, lorsqu’il n’y a plus de division possible de l’espace des transactions, c’est-à-dire lors que le nœud considéré correspond à une unique valeur. Chaque transaction du jeu d’entrainement est ainsi « isolée » sur une feuille de l’arbre construit.
Dans le cas particulier où un nœud contient plus d’une transaction que le paramètre courant ne permet pas de distinguer, on peut considérer un autre paramètre afin de les subdiviser et poursuivre la construction de l’arbre. Si ces transactions ne peuvent être distinguées quelque soit le paramètre, c’est qu’elles sont identiques et doivent donc correspondre à une même feuille.
Bien évidemment, ce processus s’arrête avec un nombre d’étapes variables selon les chemins de l’arbre, de sorte que l’arbre ainsi construit n’est, en général, pas régulier.
La figure 2 schématise un arbre possible obtenu par ce processus. Les feuilles Fl, F2, F3... Fil de l’arbre correspondent donc chacune à une unique transaction du jeu d’entrainement. Les nœuds internes NO, NI, N2, Nil, N12, NUI, NI 12, NI 121, N122, N22 ont chacun exactement deux nœuds fils.
Dans ce processus récursif S21-S23, uniquement le contenu même du jeu d’entrainement est exploité pour la création de l’arbre. Il s’agit d’un processus non supervisé.
Selon l’invention, une étape S24 consiste à associer au nœud considéré en fin de processus (c’est-à-dire à chaque feuille) une indication si celui-ci correspond à une transaction normale ou à une transaction en anomalie.
Cette étape S24 constitue donc une étape supervisée qui vient se combiner avec les étapes précédentes, non-supervisées, et ainsi former un processus mixte.
Dans l’exemple de la figure 2, des indications A signifiant que les transactions correspondantes sont en anomalies sont associées aux feuilles F6, F9, F10. Les autres feuilles correspondent à des transactions normales (elles peuvent être associées à des indications en ce sens mais non représentées sur la figure).
Il n’est pas nécessaire que ces indications soient disponibles pour l’ensemble des transactions. L’invention peut tout à fait fonctionner, sans un mode « semi-supervisé » selon lequel le jeu d’entraînement est constitué de transactions auxquelles une indication est associée et de transactions pour lesquelles ces indications n’existent pas.
Comme il a été vu précédemment, la phase d’apprentissage peut être continue, en parallèle de la phase d’exploitation. Autrement dit, l’arbre continue d’être développé pour les nouvelles transactions présentées pendant la phase d’exploitation. En ce cas, il est également possible de prendre en compte l’affectation d’une indication à une transaction pour une deuxième présentation pour l’entrainement de l’arbre, postérieurement, donc, à une première présentation de la même transaction sans cette indication.
Cet arbre, ou cette forêt d’arbres, sont ensuite exploités dans une phase de prédiction, qui vise à déterminer pour une nouvelle transaction (n’appartenant donc pas au jeu d’entrainement) si celle-ci est une transaction normale ou en anomalie.
Pour chaque nouvelle transaction dont on veut estimer le caractère normal ou anomalie, on parcourt l’arbre (ou les arbres), dans une étape S3.
Ce parcourt s’effectue en partant de la racine et en comparant à chaque nœud rencontré la valeur du paramètre correspondant avec les sous-ensembles affectés à chaque de ses fils (ou au critère de division lors de la phase d’entrainement, ce qui revient au même). A chaque étape, on vise à suivre le chemin guidé par la valeur des paramètres en choisissant le nœud fils qui correspond à la valeur du paramètre considéré.
Ce parcourt se termine lorsqu’une feuille est atteinte.
Dans une étape S4, on détermine pour chaque nœud du chemin entre cette feuille et la racine de l’arbre, un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud.
Cette détermination peut être une simple « lecture » d’une valeur qui a été associée à chacun des nœuds préalablement, par exemple en suite de la phase d’entrainement. Cette façon de faire évite de calculer ce même nombre pour chaque nouvelle transaction à traiter.
Ce nombre est représenté dans chaque rond figurant les nœuds de l’exemple de la figure 2.
Pour les feuilles, ce nombre dépend directement et uniquement de l’indication associée. Ainsi, pour les feuilles F6, F9, F10 auxquelles une indication A est associée, les valeurs de ce nombre sont 1. Pour les autres feuilles, elles sont 0.
On peut calculer ce nombre pour les nœuds internes en remontant dans l’arbre et, pour chaque nœud rencontré, cumuler les valeurs de ce nombre pour chacun des fils.
Ainsi, par exemple, pour le nœud N22, on additionne les nombres associés aux feuilles F10 et Fil, respectivement 1 et 0. Ce nombre vaut donc 1. De même, pour le nœud N2, on additionne les nombres associés aux nœuds fils F9 et N22, soit respectivement 1 et 1. Ce nombre vaut donc 2.
Bien évidemment, pour la racine, ce nombre représente le nombre total de transactions en anomalie au sein du jeu d’entrainement.
Dans une étape S5, on détermine alors un score pour la transaction considérée en fonction d'une première métrique qui dépend de la position de la feuille dans l’arbre, et d’une seconde métrique qui dépend des indications associées aux feuilles de l’arbre.
Différentes premières métriques peuvent être mises en œuvre.
Un exemple de première métrique est la profondeur de la feuille considérée dans l’arbre, c’est-à-dire la distance entre la feuille et la racine, en nombre de nœuds.
De la même façon, différentes secondes métriques peuvent être mises en œuvre.
Préférentiellement, la seconde métrique se base sur les nombres cumulés en chaque nœud de l’arbre, calculés ou pré-calculés dans l’étape S4 précédente.
Selon un mode de réalisation, la seconde métrique est la somme des nombres d’anomalies sur rensemble des nœuds du chemin entre la feuille considérée et la racine.
Ainsi, par exemple, pour la feuille Fl, le chemin est formé des nœuds Fl, NUI, Nil, NI et N0, avec respectivement comme nombres d’anomalies associés 0, 0, 0, 1,3. Au total, cette première métrique vaut donc 4.
Pour la feuille F9, le chemin est formé des nœuds F9, N2, N0, avec respectivement comme nombres d’anomalies associés 1, 2, 3. Au total, cette première métrique vaut 6.
Selon un deuxième mode de réalisation, la seconde métrique est la distance entre la feuille considérée et le nœud le plus proche du chemin pour lequel le nombre d’anomalies est non nul. Pour ce faire, il s’agit donc de remonter le chemin en partant de la feuille considérée vers la racine, jusqu’à rencontrer un nombre d’anomalies non nul associé à un nœud.
Ainsi, pour le nœud Fl de l’exemple illustré par la figure 2, il faut remonter jusqu’au nœud NI, et cette distance est donc égale à 3. Pour le nœud F6, cette distance est égale à 0, puisque ce nœud F6 est lui-même associé à un nombre d’anomalie non nul (1).
Ainsi, différentes métriques peuvent être utilisées, permettant de combiner des données issues de l’apprentissage non supervisée (première métrique basée uniquement sur la structure de l’arbre), et des données issues de l’apprentissage supervisé (second métrique basée sur les indications associées aux feuilles).
Ces deux métriques peuvent être combinées afin de former un score de différentes façons. Par exemple, un quotient peut être simplement effectué entre le résultat de la deuxième métrique par le résultat de la première métrique.
Ainsi, si on calcule la deuxième métrique selon le premier mode de réalisation, le score pour le nœud Fl est 4/5=0,8 ; le score pour le nœud F9 est 6/3=2.
Intuitivement, on comprend que le numérateur (deuxième métrique) est important pour des régions de l’arbre où la densité d’anomalies dans le jeu d’entrainement est important. L’utilisation des indications associées aux feuilles permet de réduire le taux de faux positifs.
Le dénominateur (première métrique) peut correspondre au critère du processus connu de l’iTree ou de l’iForest (« isolation Forest »). Les anomalies tendent à avoir des profondeurs peu importantes dans l’arbre car elles sont plus « faciles » à isoler que les transactions normales. Même des transactions correspondant à des nouveaux types d’anomalies (nouveaux types de fraudes, etc.) sont associés à des faibles profondeurs, du moment qu’elles diffèrent de la majorité des transactions.
Ainsi, ce processus selon l’invention combinant les techniques des forêts d’isolation et les indications sur les feuilles permet de détecter à la fois des anomalies de types connus et de nouveaux types.
Bien entendu, la présente invention n'est pas limitée aux exemples et au mode de réalisation décrits et représentés, mais elle est susceptible de nombreuses variantes accessibles à l'homme de l'art.

Claims (9)

  1. REVENDICATIONS
    1. Procédé pour la détection d’anomalies dans un ensemble de transactions établies au travers d’un réseau de télécommunication, comportant la détermination (SI) pour chaque transaction d’un ensemble de valeurs de paramètres associées à ladite transaction ;
    le parcours (S3), pour chaque transaction, d’au moins un arbre préalablement défini sur un jeu d’entrainement, en comparant les valeurs desdits paramètres avec les valeurs associés à chaque nœud dudit au moins un arbre, jusqu’à ce qu’une feuille soit atteinte ; ledit au moins un arbre étant entraîné (S2) de sorte de sorte que chacune des feuilles dudit arbre corresponde à une unique transaction dudit jeu d’entrainement et que ses feuilles soient associées, chacune, à une indication si celles-ci correspondent à une transaction normale ou en anomalie, la détermination (S5) d’un score en fonction d’une première métrique dépendant de la position de ladite feuille dans ledit arbre, et d’une seconde métrique dépendant desdites indications des feuilles, ledit score indiquant une estimation que ladite transaction est normale ou en anomalie.
  2. 2. Procédé selon la revendication précédente, comportant en outre une étape de détermination (S4) pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la somme des nombres d’anomalies sur l’ensemble des nœuds dudit chemin.
  3. 3. Procédé selon la revendication 1, comportant en outre une étape de détermination (S4) pour chaque nœud du chemin entre ladite feuille et la racine dudit au moins un arbre, d’un nombre d’anomalies cumulant les indications qu’une transaction soit en anomalie, associées à l’ensemble des feuilles descendantes dudit nœud, et dans lequel ladite seconde métrique est la distance entre ladite feuille et le nœud le plus proche dudit chemin pour lequel ledit nombre d’anomalie est non nul.
  4. 4. Procédé selon l’une des revendications précédentes, dans lequel ladite première métrique est la profondeur de ladite feuille dans ledit au moins un arbre.
  5. 5. Procédé selon l’une des revendications précédentes, dans lequel ledit au moins un arbre forme une forêt d’arbres, chaque arbre de ladite forêt étant défini sur un jeu d’entrainement différent.
  6. 6. Procédé selon l’une des revendications précédentes, dans lequel ledit au moins un arbre est défini, à partir d’un nœud racine, par un processus récursif comprenant les étapes de :
    choix aléatoire (S21) d’un paramètre parmi rensemble des paramètres des transactions dudit jeu d’entrainement ;
    division (S22) de l’ensemble des valeurs prises par ledit paramètre pour l’ensemble desdites transactions, en une pluralité de sous-ensembles ;
    création (S23) de nœuds fils, chacun correspondant à l’un des sousensembles de ladite pluralité;
    dans lequel ledit processus récursif s’arrête lorsque le nœud considéré correspond à une unique valeur, de sorte que chacune des feuilles dudit arbre correspond à une unique transaction dudit jeu d’entrainement, une indication si celui-ci correspond à une transaction normale ou en anomalie étant alors associée (S24) audit nœud considéré.
  7. 7. Procédé selon la revendication précédente, dans lequel ledit au moins un arbre est un arbre binaire et ladite pluralité de sous-ensembles est formée de deux sousensembles.
  8. 8. Procédé selon l’une des revendications précédentes, dans lequel ledit au moins arbre est un « itree ».
  9. 9. Programme d’ordinateur comportant du code pour mettre en œuvre un procédé selon l’une des revendications précédentes, lorsque exécuté sur un ordinateur.
FR1763303A 2017-12-28 2017-12-28 Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise Pending FR3076384A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1763303A FR3076384A1 (fr) 2017-12-28 2017-12-28 Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise
PCT/FR2018/053512 WO2019129977A1 (fr) 2017-12-28 2018-12-21 Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1763303 2017-12-28
FR1763303A FR3076384A1 (fr) 2017-12-28 2017-12-28 Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise

Publications (1)

Publication Number Publication Date
FR3076384A1 true FR3076384A1 (fr) 2019-07-05

Family

ID=62143295

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1763303A Pending FR3076384A1 (fr) 2017-12-28 2017-12-28 Detection d'anomalies par une approche combinant apprentissage supervise et non-supervise

Country Status (2)

Country Link
FR (1) FR3076384A1 (fr)
WO (1) WO2019129977A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887674A (zh) * 2021-12-06 2022-01-04 深圳索信达数据技术有限公司 一种基于大数据的异常行为检测的方法与系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861895B (zh) * 2019-11-27 2023-11-03 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
CN111565171B (zh) * 2020-03-31 2022-09-20 北京三快在线科技有限公司 异常数据的检测方法、装置、电子设备及存储介质
CN111666276A (zh) * 2020-06-11 2020-09-15 上海积成能源科技有限公司 一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法
CN112383554B (zh) * 2020-11-16 2023-04-18 平安科技(深圳)有限公司 接口流量异常检测方法、装置、终端设备及存储介质
CN113255731A (zh) * 2021-04-28 2021-08-13 枣庄学院 基于空间域转换独立树的可控中高压光机异常检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133721A1 (en) * 2001-03-15 2002-09-19 Akli Adjaoute Systems and methods for dynamic detection and prevention of electronic fraud and network intrusion
US6622137B1 (en) * 2000-08-14 2003-09-16 Formula Telecom Solutions Ltd. System and method for business decision implementation in a billing environment using decision operation trees
US20160086185A1 (en) * 2014-10-15 2016-03-24 Brighterion, Inc. Method of alerting all financial channels about risk in real-time

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622137B1 (en) * 2000-08-14 2003-09-16 Formula Telecom Solutions Ltd. System and method for business decision implementation in a billing environment using decision operation trees
US20020133721A1 (en) * 2001-03-15 2002-09-19 Akli Adjaoute Systems and methods for dynamic detection and prevention of electronic fraud and network intrusion
US20160086185A1 (en) * 2014-10-15 2016-03-24 Brighterion, Inc. Method of alerting all financial channels about risk in real-time

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"STUDIES IN COMPUTATIONAL INTELLIGENCE", vol. 247, 2 January 2009, Springer-Verlag Berlin Heidelberg, ISSN: 1860-949X, article BÉNARD WIESE ET AL: "Credit Card Transactions, Fraud Detection, and Machine Learning: Modelling Time with LSTM Recurrent Neural Networks", pages: 231 - 268, XP055458746, DOI: 10.1007/978-3-642-04003-0_10 *
ABDALLAH AISHA ET AL: "Fraud detection system: A survey", JOURNAL OF NETWORK AND COMPUTER APPLICATIONS, ACADEMIC PRESS, NEW YORK, NY, US, vol. 68, 13 April 2016 (2016-04-13), pages 90 - 113, XP029539503, ISSN: 1084-8045, DOI: 10.1016/J.JNCA.2016.04.007 *
ANDREA DAL POZZOLO ET AL: "Learned lessons in credit card fraud detection from a practitioner perspective", EXPERT SYSTEMS WITH APPLICATIONS, vol. 41, no. 10, 2 August 2014 (2014-08-02), GB, pages 4915 - 4928, XP055458801, ISSN: 0957-4174, DOI: 10.1016/j.eswa.2014.02.026 *
CORREA BAHNSEN ALEJANDRO ET AL: "Feature engineering strategies for credit card fraud detection", EXPERT SYSTEMS WITH APPLICATIONS, OXFORD, GB, vol. 51, 7 January 2016 (2016-01-07), pages 134 - 142, XP029409386, ISSN: 0957-4174, DOI: 10.1016/J.ESWA.2015.12.030 *
NUNO CARNEIRO ET AL: "A data mining based system for credit-card fraud detection in e-tail", DECISION SUPPORT SYSTEMS, vol. 95, 1 March 2017 (2017-03-01), NL, pages 91 - 101, XP055458718, ISSN: 0167-9236, DOI: 10.1016/j.dss.2017.01.002 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887674A (zh) * 2021-12-06 2022-01-04 深圳索信达数据技术有限公司 一种基于大数据的异常行为检测的方法与系统
CN113887674B (zh) * 2021-12-06 2022-03-22 深圳索信达数据技术有限公司 一种基于大数据的异常行为检测的方法与系统

Also Published As

Publication number Publication date
WO2019129977A1 (fr) 2019-07-04

Similar Documents

Publication Publication Date Title
FR3076384A1 (fr) Detection d&#39;anomalies par une approche combinant apprentissage supervise et non-supervise
Beskow et al. Bot conversations are different: leveraging network metrics for bot detection in twitter
EP1695485B1 (fr) Procede de classification automatique d un ensemble d a lertes issues de sondes de detection d intrusions d un systeme de securite d information
Nyow et al. Detecting fake news with tweets’ properties
EP3655893A1 (fr) Systeme d&#39;apprentissage machine pour diverses applications informatiques
EP3846046A1 (fr) Procede et systeme de traitement de donnees pour la preparation d&#39;un jeu de donnees
EP3489831A1 (fr) Procédé et dispositif de surveillance d&#39;un processus générateur de données d&#39;une métrique pour la prédiction d&#39;anomalies
EP1820170B1 (fr) Suppression de fausses alertes parmi les alertes produites dans un systeme d&#39;informations surveille
EP3343839A1 (fr) Mécanisme de surveillance et d&#39;alertes des applications du système informatique
FR3037679A1 (fr)
EP3613003A1 (fr) Système et procédé pour gérer la détection de fraudes dans un système de transactions financières
EP3053320A1 (fr) Procédé de détection d&#39;anomalies dans un trafic réseau
CA2895121A1 (fr) Systemes et methodes d&#39;analyse et de deduction de la signification de grands ensembles de donnees
EP4189572A1 (fr) Procede mis en oeuvre par ordinateur pour tester la cybersecurite d&#39;un environnement cible
EP3598330B1 (fr) Procédé et dispositif de détection d&#39;anomalie
Tyagi et al. Twitter bot detection using machine learning models
EP4020886B1 (fr) Système et procédé permettant de détecter des sites web suspects dans les flux de données de proxy
EP4009584A1 (fr) Procédé de détermination de classifieurs pour la détection d&#39;attaques dans un réseau de communication, dispositif de détermination associé
Yin et al. Network backbone anomaly detection using double random forests based on non-extensive entropy feature extraction
Hughes et al. Digital drift and the evolution of a large cybercrime forum
EP3622445B1 (fr) Procede, mise en oeuvre par ordinateur, de recherche de regles d&#39;association dans une base de donnees
EP3502904B1 (fr) Procédé d&#39;amélioration du temps d&#39;exécution d&#39;une application informatique
WO2020126994A1 (fr) Procede et systeme de detection d&#39;anomalie dans un reseau de telecommunications
FR3089648A1 (fr) Procede de detection non supervise d’attaques internes et systeme associe
EP4033361B1 (fr) Procédé et dispositif de détermination d&#39;au moins une machine impliquée dans une anomalie détectée dans une infrastructure informatique complexe

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20190705

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7