FR3100643A1 - Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication - Google Patents

Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication Download PDF

Info

Publication number
FR3100643A1
FR3100643A1 FR1909923A FR1909923A FR3100643A1 FR 3100643 A1 FR3100643 A1 FR 3100643A1 FR 1909923 A FR1909923 A FR 1909923A FR 1909923 A FR1909923 A FR 1909923A FR 3100643 A1 FR3100643 A1 FR 3100643A1
Authority
FR
France
Prior art keywords
fraud
transaction
training
transactions
predictive models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1909923A
Other languages
English (en)
Other versions
FR3100643B1 (fr
Inventor
Liyun He Guelton
Wissam SIBLINI
Jordan Frery
Frédéric OBLE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Worldline SA
Original Assignee
Worldline SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Worldline SA filed Critical Worldline SA
Priority to FR1909923A priority Critical patent/FR3100643B1/fr
Priority to PCT/EP2020/075264 priority patent/WO2021048245A1/fr
Priority to EP20767562.0A priority patent/EP4028954A1/fr
Publication of FR3100643A1 publication Critical patent/FR3100643A1/fr
Application granted granted Critical
Publication of FR3100643B1 publication Critical patent/FR3100643B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computer And Data Communications (AREA)

Abstract

Dispositif (14) de détection automatique de fraudes dans un flux (13) de transactions destinées à un service (11) disponible sur un réseau de télécommunication, comportant des moyens pour entrainer un ensemble de modèles prédictifs (16)sur un ensemble d’apprentissage, dans lequel ledit ensemble d’apprentissage est constitué d'un ensemble de tronçons, chacun constitué d'associations entre une transaction et une étiquette représentant une classe réelle pour ladite transaction ; et, lesdits moyens étant configurés pour mettre à jour de façon incrémentale un ensemble de modèles prédictifs configuré pour la détection automatique de fraudes, en, pour chacun desdits tronçons, dupliquant un modèle prédictif existant et en l’entrainant sur ledit tronçon Fig. 1

Description

Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication
DOMAINE DE L’INVENTION
La présente invention est relative à la détection automatique de fraudes dans un flux de transactions, notamment financières, destinées à un service disponible sur un réseau de télécommunication.
Elle concerne plus particulièrement l'apprentissage des modèles prédictifs utilisés pour cette détection automatique.
CONTEXTE DE L’INVENTION
Beaucoup de systèmes de traitement automatique de l'information nécessitent la mise en place d'un mécanisme de détection de fraudes. C'est notamment le cas des services traitant des transactions, notamment financières, et disponibles sur les réseaux de télécommunication.
Ces services sont ceux qui permettent des paiements et des transferts de données financières, principalement entre établissements bancaires, à la suite d'une requête d'un utilisateur par exemple lors d'un achat en ligne ou sur un terminal de paiement de type "PoS" (pour "Point of Sale") via une carte de paiement.
Ces transactions sont extrêmement nombreuses. Pour cette raison au moins, il est donc nécessaire que les fraudes soient détectées de façon automatique, mais aussi parce que la détection doit intervenir au plus tôt, de façon temps-réel ou quasi temps réel, afin de déclencher des blocages ou actions correctrices permettant d'éviter ou minimiser l'impact de la fraude pour les utilisateurs et établissements bancaires.
Il existe de nombreux mécanismes de détection automatique de fraudes. En général, ils se basent sur un modèle prédictif qui permet de généraliser la classification de transactions présentés dans une phase d'apprentissage pour automatiquement déterminer des classifications pour des nouvelles transactions. Dans ce type de mécanismes, il importe naturellement que les transactions présentés en apprentissage (appelées « ensemble d'apprentissage ») soient le plus représentatif possible des transactions subséquentes à traiter.
Or, par nature, un flux de transactions, notamment financières, vers un service disponible sur un réseau de télécommunication, possède des caractéristiques non stationnaires.
En effet, les utilisateurs du service peuvent changer de comportement en fonction de différents paramètres, pas toujours prévisibles. Les habitudes, en termes de comportements d'achat, par exemple, évoluent en fonction des saisons, des modes, des nouvelles tendances, mais aussi du fait du déploiement de nouveaux services ou de nouvelles plateformes technologiques soutenant les transactions. En sus de ces tendances sur les moyens et longs termes, il peut y avoir des changements comportementaux ponctuels qui peuvent être prévisibles (période de Noël, de vacances...) ou non.
En outre, les fraudeurs, également, changent leur comportement, notamment dans un but d'augmenter l'efficacité de leurs tentatives de fraude.
Dès lors, on comprend que les modèles prédictifs doivent prendre en compte des données récentes afin de réaliser de bonnes prédictions sur les nouvelles transactions analysées.
Un dispositif de détection de fraudes basé sur un modèle statique serait donc rapidement obsolète : il ne serait plus à même de détecter les nouveaux comportements des fraudeurs, et ne serait pas non plus à même de considérer efficacement ce qu'est un comportement normal (c'est-à-dire non frauduleux) du fait des évolutions des comportements normaux.
Une solution a priori envisageable à ce problème consisterait donc à régulièrement enrichir l'ensemble d'apprentissage avec des transactions récentes et leurs classifications réelles (fraudes ou normales) attribuées classiquement par un opérateur humain, puis de faire un apprentissage des modèles prédictifs sur la base de la totalité de l'ensemble d'apprentissage.
Toutefois, cette façon de faire présente au moins deux inconvénients majeurs D'une part, le volume de données devient rapidement énorme et pose des problèmes peu solubles en termes de stockage des données et en vitesse de traitement. D'autre part, les données relatives aux transactions, notamment financières, comportent des données personnelles qui sont sensibles et font l'objet de différents dispositifs légaux limitant dans le temps leur conservation. C’est notamment le cas du règlement de l’Union Européenne n°2016/679, dit règlement général sur la protection des données (RGPD).
Une telle approche n'est donc pas envisageable en déploiement réel.
Les solutions plus concrètement mises en œuvre se basent sur des ensembles d'apprentissage de durée plus limitée, généralement moins de deux mois, et récents afin de prendre en compte les tendances contemporaines du comportement des utilisateurs et des fraudeurs.
Ce type de solutions présente donc une efficacité moyenne du fait de ces limites.
D'autres solutions consistent à réaliser un apprentissage continu, c'est-à-dire à continument mettre à jour le modèle prédictif avec des nouvelles transactions introduites dans l'ensemble d'apprentissage (qui est du coup davantage un « flux d'apprentissage »). dès qu'une étiquette leur a été attribuée par, typiquement, un opérateur humain.
Mais ce type de mécanismes présente également de nombreux inconvénients.
Un inconvénient commun à ces deux types de solutions résulte d'une sensibilité trop forte aux données les plus récentes. Même en apprentissage continu, l'influence des données les plus anciennes tend à diminuer au fil du temps au profit des données les plus récentes. Dès lors, le modèle prédictif peut être capable de bien analyser les transactions conformes aux tendances récentes mais ne pourra plus interpréter des transactions conformes à un comportement plus ancien, voir totalement typique (par exemple lié à des événements annuels, tel que Noël) et donc prévisible
Il existe donc un besoin d'apporter une solution aux problèmes rencontrés par les propositions de l'état de la technique. Un des buts de l’invention est donc d’améliorer la situation de l’état de la technique.
BREVE DESCRIPTION DES FIGURES
La figure 1 illustre une vue schématique d’une architecture dans laquelle l’invention peut s’inscrire selon un de ses modes de réalisation.
La figure 2 schématise un organigramme d’un exemple de modes de réalisation de l’invention.
DESCRIPTION DETAILLEE DE L’INVENTION
La Figure 1 illustre un contexte fonctionnel très haut niveau dans le cadre duquel l'invention peut être mise en œuvre. Un utilisateur 10 transmet une transaction 13 à un service de gestion de transactions financières 11, comme un service de paiement, à travers un réseau de télécommunication 12. L'utilisateur 10 peut être un terminal de télécommunication avec lequel un ordre de paiement en ligne peut être placé; il peut aussi s'agir d'un terminal de paiement situé chez un commerçant, ou encore un système complexe situé au sein d'un établissement bancaire dans le cadre de transactions inter-banques.
Un dispositif de détection de fraudes 14 peut être inséré en amont, entre le réseau de télécommunication 12 et le service de gestion de transactions financières 11, par exemple au sein d’un même serveur 15 (ou ferme de serveurs).
Le dispositif de détection de fraudes 14 peut utiliser un modèle 16 élaboré par apprentissage puis l’utiliser en prédiction et généralisation pour classer les nouvelles transactions 13 en des classes telles que « fraude » et « transaction normale ».
C’est donc sur la base des exemples qui lui est soumis que le classifieur 16 peut apprendre et, par la suite, traiter des nouvelles transactions. Il en ressort que le dispositif de détection de fraudes 14 peut détecter une fraude que si celle-ci comporte des similitudes avec celles présentés dans le jeu d’apprentissage.
Selon un aspect de l’invention, ce modèle 16 est constitué d’un ensemble de modèles prédictifs.
Préalablement à son utilisation permettant de prédire une classe pour une nouvelle transaction entrante, cet ensemble de modèles prédictifs est entrainé sur un ensemble d’apprentissage associant des transactions et des étiquettes. Cet ensemble d’apprentissage est typiquement constitué de transactions réelles qui ont fait l’objet d’une étude afin de leur attribuer une étiquette qui représente une classe réelle, c’est-à-dire si la transaction en question est une tentative de fraude ou une transaction normale. Cette étude peut être automatique ou bien effectué (partiellement ou totalement) par des opérateurs humains. En général, une petite partie des transactions qui ont fait l’objet d’alertes du dispositif de détection de fraudes sont traités par des opérateurs humain. Pour les autres transactions, si dans un certain délai (typiquement un mois) aucune opposition n’a été fait par les porteurs de cartes, les transactions sont considérées comme normales.
L’ensemble d’apprentissage forme donc une suite de transactions s’échelonnant dans le temps, au fur et à mesure de leur arrivée et de leur étude permettant l’attribution d’une étiquette. Typiquement, donc, il existe un lapse de temps entre l’arrivée d’une transaction et sa disponibilité au sein de l’ensemble d’apprentissage (après attribution de son étiquette).
Typiquement encore, les attributions d’étiquettes se font de façon périodique, de sorte que l’ensemble d’apprentissage est enrichie par ensembles d’associations transaction/étiquette. Autrement dit, l’ensemble d’apprentissage est constitué d’un ensemble de tronçons, chaque tronçon, ou « chunk » selon la terminologie en langue anglaise, étant constitué d'associations entre une transaction et une étiquette représentant une classe réelle pour ladite transaction 
Selon un aspect de l’invention, l'apprentissage du modèle comporte la mise à jour incrémentale d'un ensemble de modèles prédictifs permettant la détection automatique de fraudes. Cette mise à jour comporte, pour chacun desdits tronçons, la duplication d’un modèle prédictif existant et son entrainement sur ce tronçon.
La duplication d'un modèle signifie que tous les paramètres ayant été fixé par l'apprentissage préalable sont dupliqués dans le nouveau modèle prédictif, de sorte que le comportement des deux modèles soient exactement les mêmes. Une même transaction soumis aux deux modèles donnera ainsi la même classe prédite (fraude ou non-fraude).
Ainsi, la prise en compte d'un nouveau tronçon entraine la création d'un nouveau modèle prédictif. Celui-ci étant une duplication d'un modèle existant, il conserve l'entrainement réalisé avec les tronçons précédemment acquis, Le modèle préexistant est en outre conservé (donc sans entrainement supplémentaire) afin de garder la mémoire des motifs plus anciens du flux de transactions.
Ainsi, on obtient, de façon itérative, un ensemble grandissant de modèles prédictifs, chacun ayant été entrainé avec un sous-ensemble différent de la succession des tronçons, et étant ainsi représentatif d'une période différente de l'historique des transactions reçus.
Initialement, l'ensemble des modèles prédictifs peut être réduit à un unique modèle.
Selon un mode de réalisation de l'invention, on créé en outre un nouveau modèle prédictif pour chacun desdits tronçons en l’entrainant sur celui-ci. Ce modèle prédictif possède bien évidemment les mêmes caractéristiques que les autres modèles prédictifs mais ses paramètres sont à des valeurs « par défaut », et son premier apprentissage sera sur le tronçon qui vient d'être reçu. Il ne sera donc représentatif que de l'historique immédiat des transactions, représenté par le dernier tronçon reçu.
De la sorte, l'invention, et ses mises en œuvre, permettent d'obtenir une diversité de modèles, permettant ainsi de « capturer » des schémas types dans les flux de transactions avec différentes périodicité.
Ce mécanisme d'apprentissage incrémental est rendu possible par des modèles prédictifs adaptés.
Les tronçons peuvent être de tailles variées et peuvent dépendre du processus global dans lequel s'insère le dispositif de détection automatique de fraudes. Notamment, la taille des tronçons peut être adaptée selon le temps nécessaire à l'attribution des étiquettes aux transactions entrantes.
En outre, la taille des tronçons doit être suffisamment importante pour prendre en compte le fait que la proportion de transactions frauduleuses est très faible. Des tronçons de taille trop peu importante risqueraient ne pas contenir suffisamment de transactions frauduleuses (voire pas du tout) pour permettre un apprentissage efficace.
Selon un mode de réalisation, les tronçons correspondent à une durée de l'ordre de la journée. Des durées plus longues peuvent être prises en compte également, du fait du mécanisme ensembliste.
Les modèles prédictifs peuvent être de différentes natures. Par exemple, selon un mode de réalisation, ils peuvent s’agit de modèles de stimulation de gradient (« gradient boosting » en anglais) tel que par exemple mis en œuvre dans la bibliothèque XGBoosting.
Selon un autre mode de réalisation de l'invention, ces modèles prédictifs sont des réseaux de neurones. L'ensemble des modèles prédictifs sont identiques en termes d'architecture (nombre de couches, nombre de neurones par couches...), et les mécanismes d'apprentissage différents pour chacun n'influe que sur les poids synaptiques de ces réseaux de neurones. Une duplication d'un réseau de neurones signifie donc la copie, dans le nouveau réseau, de ces poids synaptiques.
Un exemple de réseau de neurones 20 pouvant mettre en œuvre le modèle prédictif est représenté en figure 2.
Chaque transaction comporte un certain nombre de paramètres. Par exemple, dans le cas d'une transaction financière, ces paramètres peuvent comporter : une date, un montant, une monnaie, un identifiant des parties à la transaction, etc.
En outre, un mécanisme peut être prévu pour enrichir les paramètres originels avec des paramètres plus contextuels.
A titre d'exemple illustratif, ce mécanisme peut consulter un calendrier afin de corréler la date de la transaction avec un événement (jour de la semaine, vacances, fêtes calendaires, événement sportif important, etc.). Ces paramètres enrichis permettent au dispositif de détection automatique de fraudes, reposant sur un système à apprentissage, de réaliser des meilleurs modélisations et, donc, de meilleurs généralisations pour prédire les transactions frauduleuses.
Un autre exemple peut être d'ajouter des paramètres agrégés aux transactions entrantes. Il peut par exemple s'agir de la valeur moyenne des transactions pour un utilisateur donné, ou bien la valeur totale de ses transactions sur une durée donnée (un mois par exemple). Pour ce faire, une mémoire tampon peut être mises en place, afin de pouvoir effectuer des agrégations sur une période donnée. La mémoire tampon doit alors être dimensionnée en fonction des périodes envisagées pour les agrégations.
L'ensemble de ces paramètres forment un vecteur f1, f2, f3... fNconstituant l'entrée du réseau de neurones 20 (N étant le nombre de paramètres, ou attributs, associés aux transactions). Ces paramètres peuvent être de deux natures différentes : quantitatifs (ou numériques) ou qualitatifs (ou catégoriels).
Selon un mode de réalisation, le réseau de neurones 20 peut se décomposer entre un sous-réseau de prétraitement 21, et un sous-réseau de prédiction 22.
Le sous-réseau de prétraitement permet de transformer les paramètres f1, f2, f3... fNen un vecteur e1, e2, e3... eMafin que le sous-réseau de prédiction 22 puisse traiter l'information. Le sous-réseau de prétraitement 21 peut mettre en œuvre deux types de prétraitements en fonction de la nature des paramètres.
Pour les paramètres numériques, il est intéressant de les normaliser. Pour ce faire, on peut diviser leur valeur x par leur écart-type calculé sur un ensemble de transactions passées (par exemple, celles stockées dans la mémoire tampon). On peut ensuite appliquer une fonction logarithmique. Préférentiellement, on peut ajouter 1 préalablement afin d'obtenir une valeur normalisée dans la zone de la fonction logarithmique présentant une dérivée moindre.
Cela permet ainsi d'obtenir une distribution de valeurs plus proche d'une courbe gaussienne, ce qui améliorer la capacité d'apprentissage du sous-réseau de neurones de prédiction 22.
Cette relation donnant la valeur normalisée peut s’exprimer par l’équation suivante :
Les paramètres catégoriels sont fournis en entrée d'une couche d'inclusion, ou « embedding layer» selon la terminologie en langue anglaise, afin de le transformer en un vecteur de valeurs réelles, dont la dimension est calculée selon la formule log2(ncat) où ncat est le nombre de catégories pouvant être prises par la paramètre catégoriel traité.
Selon un exemple concret de réalisation pour la détection de fraudes dans des transactions financières, on peut compter 15 paramètres catégoriels et 60 paramètres numériques. Il y a donc N=75 paramètres f1, f2, f3....f75en entrée du réseau de neurones 20. Après transformation par la couche d'inclusion, la taille du vecteur correspondant aux paramètres catégoriels est de 50. On obtient donc en entrée du réseau de neurones un vecteur de dimension M=110, e, e2, e3... e150.
Ce vecteur peut être obtenu par simple concaténation des sorties du sous-réseau de prétraitement 21 pour chacun des paramètres associés aux transactions (c'est-à-dire contenus dans les transactions ou faisant l'objet d'un enrichissement).
Ce vecteur forme donc l'entrée du sous-réseau de prédiction 22. Celui-ci peut être un réseau de neurones de type perceptron multi-couches, typiquement avec une couche cachée 221 et une couche de sortie 222. Selon l'exemple pratique ci-dessus, un dimensionnement possible peut être de 1000 neurones pour la couche cachée et 2 neurones pour la couche de sortie, avec une fonction «softmax» pour la sortie P. Les connexions entre neurones de la couche cachée et la couche de sortie peuvent être de type « Relu » (pour «Rectified Linear Unit»).
Le réseau de neurones 20 peut être entrainé, pour chaque tronçon, selon les méthodes d'apprentissage adaptées aux perceptrons multi-couches. L'apprentissage vise à modifier, itérativement, les poids synaptiques du réseau afin de minimiser l'erreur en sortie, pour l'ensemble des transactions d'un tronçon, entre une probabilité prédite d'appartenir à une classe et l'étiquette associée à la transaction respective.
Plusieurs techniques d'optimisation existent. On peut notamment citer l’algorithme de la descente du gradient stochastique (DGS ou SGD en anglais pour « Stochastic Gradient Descent »), décrit par exemple dans LeCun, Yann A., et al. "Efficient backprop. Neural networks: Tricks of the trade”,Springer Berlin Heidelberg, 2012. 9-48. On peut également citer ADAM, décrit initialement dans Diederik P. Kingma and Jimmy Lei Ba. “Adam :A method for stochastic optimization”. 2014. arXiv:1412.6980v9, ou bien RMSprop, décrit notamment dans Tijmen Tieleman et Geoffrey Hinton, « Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude ». COURSERA: neural networks for machine learning, 4(2):26–31, 2012
De façon empirique, les inventeurs ont déterminés que la méthode d’optimisation RMSprop donnait les meilleurs résultats.
L’utilisation d’un réseau de neurones pour mettre en œuvre le modèle prédictif permet d’apporter à ce-dernier un caractère incrémental. Ainsi, il est possible d’entrainer un réseau déjà préalablement entrainé afin de modifier son apprentissage. Autrement dit, chaque nouveau tronçon d’un ensemble d’apprentissage peut être utilisé pour entrainer un modèle prédictif existant en modifiant les poids du réseau de neurones.
Les inventeurs considèrent toutefois que ce faisant, le réseau de neurones est peu à peu amené à apprendre les tendances les plus récentes au détriment des tendances plus anciennes. Ainsi, un tel réseau de neurones unique ne pourrait pas rendre compte à la fois de tendances anciennes, de tendances récentes, et de tendances sur le court terme ou sur le long terme, etc.
Plus concrètement, on comprend que le dispositif de détection automatique de fraudes doit prendre en compte des schémas de fraudes récents (nouvellement établis par les fraudeurs, ou résultants de tendances récentes de la population des utilisateurs), des schémas classiques, qui existent depuis longtemps, des schémas anciens (par exemple qui sont relatifs à la même période mais un an auparavant), etc. Il existe donc à fois des périodes différentes de ces schémas (année, mois, semaine…), mais aussi des évolutions des tendances. Aussi, le modèle prédictif doit pouvoir être sensible à ces différentes situations.
Aussi, un ensemble de modèles prédictifs est prévu, chacun étant spécialisé sur une sous-partie de l’ensemble d’apprentissage.
Notamment, chaque réception d’un nouveau tronçon engendre la duplication d’un modèle prédictif existant, et son entrainement avec les données de ce nouveau tronçon. Préférentiellement, le modèle prédictif existant est celui entrainé avec le plus grand nombre de tronçons précédents, mais d’autres mises en œuvre sont possibles et notamment plusieurs modèles prédictifs existants peuvent être choisis pour duplication et entrainement.
En outre, préférentiellement également, on créé un nouveau modèle prédictif pour chacun des tronçons reçus en l’entrainant sur celui-ci (et sur celui-ci uniquement).
La figure 3 illustre un exemple concret d’un ensemble de modèles M1, M2, M3M4, M5créés à partir d’un ensemble de tronçons C1, C2, C3, reçus successivement et formant l’ensemble d’apprentissage.
Lorsqu’un premier tronçon C1est reçu, un premier modèle M1est entrainé avec les données (association transactions/étiquettes) qu’il contient. Pour cette première itération, il ne peut être question de duplication, stricto-sensu, mais on peut assimiler cette création d’un premier modèle M1à la duplication (qui comporte une création) pour les itérations suivantes.
Lorsqu’un deuxième tronçon C2est reçu, le modèle M1est dupliqué et les données du tronçon C2sont utilisées pour son entrainement, formant ainsi un modèle M2entrainé sur les données C1+C2. En outre, un nouveau modèle M3est créé et entrainé uniquement sur les données du tronçon C2.
Lorsqu’un troisième tronçon C3est reçu, le modèle M2est dupliqué (car il s’agit du seul modèle entrainé avec 2 tronçons précédents), puis cette copie est entrainée sur les données du tronçon C3pour former un nouveau modèle M4. En outre, un nouveau modèle M5est créé et entrainé uniquement sur les données du tronçon C3.
Selon un mode de réalisation particulier, on peut en outre utiliser les données du tronçon C3sur d’autres modèles existants, par exemple le modèle M3, afin de former un nouveau modèle M6.
Le tableau ci-dessous résume la correspondance entre chaque modèle ainsi créé et tronçons utilisés pour leur entrainement :
Modèles Tronçons
M1 C1
M2 C1, C2
M3 C2
M4 C1, C2, C3
M5 C3
M6 C2, C3
On voit sur cet exemple qu’on obtient à la fois des modèles bénéficiant d’un apprentissage sur le long terme, de façon incrémentale, tels que M4, des modèles bénéficiant d’un apprentissage sur des données « anciennes » uniquement, tels que M1, M2, M3,et des modèles bénéficiant d’un apprentissage sur des données uniquement récentes, tels que M5.
On comprend donc que ce mécanisme répond à différentes problématiques laissées sans réponses satisfaisantes par l’état de la technique : on peut disposer de modèles spécialisés pour certaines périodes de l’historique des transactions, on peut également disposer de modèles spécialisés pour des périodes longues et pour des périodes courtes, chacun étant sensible à des schémas différents dans les flux de transactions.
Il est également possible de prévoir l’ensemble d’apprentissage afin de tirer profit de cette caractéristique. Par exemple, on peut configurer un ou plusieurs tronçons afin qu’ils contiennent des données représentatives d’un certain type d’attaque frauduleuse. Ainsi, par la simple application du mécanisme de l’invention, un modèle prédictif sera automatiquement spécialisé pour traiter ce type d’attaque et permettra sa détection.
L’ensemble de réseaux de neurones peut être alors exploité afin de déterminer une classification pour des nouvelles transactions. Cette exploitation peut se faire de façon concomitante à la phase d’apprentissage précédemment décrite. En effet, en fonctionnement typique, le dispositif de détection de fraudes reçoit des transactions destinés à un service et va automatiquement déterminer une classification. En parallèle, toutes ou parties de ces transactions peuvent être étudiés afin de leur fournir des étiquettes (classification réelle, par opposition aux classifications prédites, déterminées par les réseaux de neurones). Avec un temps de retard, donc, ces transactions étudiées (et leurs étiquettes respectives) forment les tronçons de l’ensemble d’apprentissage. Ainsi, les réseaux de neurones peuvent être continument entrainés à partir des transactions réelles (après attribution d’étiquettes). Dès lors, l’apprentissage des réseaux de neurones est en synchronisme avec les tendances récentes du flux entrant de transactions.
Dans la phase d’exploitation, les modèles prédictifs sont donc utilisés par le dispositif de détection automatique de fraudes afin de détecter des fraudes dans un flux entrant de transaction. L’ensemble de modèles prédictifs permet de déterminer une classification pour chaque transaction entrante. Cette classification est typiquement une probabilité pour la transaction d’appartenir à chacune des classes envisagées (fraude ou normale). Après seuillage, on peut obtenir une classification binaire permettant d’attribuer une classe « fraude » ou « normale » à la transaction.
Différentes mises en œuvre sont possibles afin de combiner les contributions P de chacun des différents modèles prédictifs 16, 20 en une classification unique. Selon un mode de réalisation, un poids est associé à chaque modèle prédictif, et la classification finale de la transaction entrante est déterminée par la somme pondérée des classifications P obtenues par chaque modèle prédictif. Cette classification finale peut ensuite être utilisée, lorsqu’il s’agit d’une fraude, pour déclencher des alertes par exemple, voire bloquer automatiquement une transaction entrante.
Différentes méthodes peuvent être proposées pour déterminer les poids associés à chaque modèle prédictif.
Il est par exemple possible de mesurer la performance de chaque modèle prédictif. Cette mesure peut se faire en comparant la classification prédite et les étiquettes connues pour l’ensemble d’apprentissage, un utilisant une métrique telle que Fscore, AUC, etc.
On peut alors attribuer des poids en fonction de cette mesure de performance, sur une fenêtre temporelle afin que les modèles prédictifs qui présentent les meilleures performances sur un historique récent soient renforcés par rapport aux autres.
Une autre stratégie consiste à déterminer une mesure de proximité pour chaque tronçon, en corrélant la transaction reçue des distributions de transactions contenues dans ces tronçons, et de donner des poids en fonction des mesures de proximités des tronçons correspondant aux modèles respectifs. Ainsi, si une transaction est proche de celles contenues dans un tronçon Ci, alors les modèles prédictifs qui ont été entrainés avec ce tronçon Ciobtiendront un poids plus élevé.
Selon un mode de réalisation de l’invention, il est prévu une étape de suppression d’au moins un modèle prédictif au sein dudit ensemble de modèles prédictifs. En effet, on comprend que le procédé d’apprentissage incrémental précédemment décrit est divergeant puisqu’à chaque tronçon entrant, une pluralité de modèles prédictifs peut être créée. Il peut donc être intéressant de supprimer certaines modèles selon certaines stratégies. Cette étape de suppression peut être mise en place pour chaque nouveau tronçon entrant, ou bien selon un autre synchronisme basé sur le temps ou bien sur un seuil du nombre de modèles prédictifs existants.
Une première stratégie peut se baser sur une mesure de performance de chaque modèle, par exemple identique à celle utilisée pour affecter des poids aux différents modèles. On peut alors choisir de supprimer le ou les modèles présentant une mesure de performance les plus faibles.
Une seconde stratégie peut se baser sur une mesure d’affinité, par exemple déterminée en considérant chaque couple de modèles de l’ensemble de modèles. Si deux modèles sont suffisamment proches (c’est-à-dire donnent des prédictions très proches pour un même ensemble de transactions), alors on peut estimer qu’ils sont redondants et l’on peut supprimer l’un des deux.
Ces deux stratégies peuvent être mises en place ensemble, et il est également possible de mettre en place d’autres stratégies encore.
Ainsi, selon ses modes de réalisation, l’invention permet de résoudre un grand nombre de problèmes laissés ouverts par l’état de la technique.
Notamment, l’ensemble des modèles prédictifs permet une diversité des modèles qui, chacun, est spécialisé, par apprentissage, dans une certaine période de l’historique des transactions. Le modèle global permet donc ainsi de détecter des motifs récents (représentatifs de tentatives de fraude), des motifs anciens, des motifs sur le long ou sur le court terme, etc.
Par ailleurs, ce modèle peut être entrainé de façon continue, c’est-à-dire que chaque nouveau tronçon disponible peut être utilisé immédiatement pour son entrainement, sans devoir procéder à un apprentissage depuis zéro.
Egalement, une fois l’apprentissage effectué, les tronçons peuvent être détruits. Le mécanisme permet ainsi de respecter les diverses exigences en matière de conservation des informations personnelles, notamment la directive RGDP.

Claims (10)

  1. Procédé d'apprentissage pour dispositif (14) de détection automatique de fraudes dans un flux de transactions (13) destinées à un service (11) disponible sur un réseau de télécommunication (12), sur un ensemble d’apprentissage,
    dans lequel ledit ensemble d’apprentissage est constitué d'un ensemble de tronçons, chacun constitué d'associations entre une transaction et une étiquette représentant une classe réelle pour ladite transaction ; et,
    ledit procédé comporte une étape de mise à jour incrémentale d'un ensemble de modèles prédictifs (16, 20) configuré pour la détection automatique de fraudes, ladite étape comportant, pour chacun desdits tronçons, la duplication d’un modèle prédictif existant et son entrainement sur ledit tronçon.
  2. Procédé selon la revendication précédente, dans lequel on créé en outre un nouveau modèle prédictif pour chacun desdits tronçons en l’entrainant sur celui-ci.
  3. Procédé selon l’une des revendications précédentes dans lequel lesdits modèles prédictifs (16) sont des réseaux de neurones multicouches (20).
  4. Procédé selon la revendication précédente, dans lequel lesdits réseaux de neurones sont entrainés par un algorithme d’optimisation RMSprop.
  5. Procédé selon l’une des revendications 3 ou 4, dans lequel lesdits réseaux de neurones (20) comportent un réseau de prétraitement (21) et un réseau de prédiction (22) comportant une couche cachée (221) et une couche de sortie (222).
  6. Procédé selon l’une des revendications précédentes, comportant en outre une étape de suppression d’au moins un modèle prédictif au sein dudit ensemble de modèles prédictifs.
  7. Procédé de détection automatique de fraudes dans un flux de transactions (13) destinées à un service (11) disponible sur un réseau de télécommunication, par classification au moyen d’un ensemble de modèles prédictifs (16), entrainé sur un ensemble d’apprentissage constitué d'un ensemble de tronçons, chacun constitué d'associations entre une transaction et une étiquette représentant une classe réelle pour ladite transaction, ledit ensemble ayant été mis à jour de façon incrémentale en, pour chacun desdits tronçons, dupliquant un modèle prédictif existant et en l’entrainant sur ledit tronçon,
    dans lequel un poids est associé à chacun desdits modèles prédictifs afin d’obtenir ladite classification (P) par somme pondérée des contributions de chacun desdits modèles prédictifs.
  8. Support de stockage de données lisible par un processeur de données sur lequel est enregistré un programme comprenant des instructions pour l'exécution des étapes d'un procédé selon l'une quelconque des revendications précédente.
  9. Produit programme d’ordinateur comprenant des instructions pour l’exécution des étapes d’un procédé selon l'une quelconque des revendications 1 à 7 lorsque ledit programme est exécuté par un processeur de données.
  10. Dispositif (14) de détection automatique de fraudes dans un flux (13) de transactions destinées à un service (11) disponible sur un réseau de télécommunication, comportant des moyens pour entrainer un ensemble de modèles prédictifs (16)sur un ensemble d’apprentissage,
    dans lequel ledit ensemble d’apprentissage est constitué d'un ensemble de tronçons, chacun constitué d'associations entre une transaction et une étiquette représentant une classe réelle pour ladite transaction ; et,
    lesdits moyens étant configurés pour mettre à jour de façon incrémentale un ensemble de modèles prédictifs configuré pour la détection automatique de fraudes, en, pour chacun desdits tronçons, dupliquant un modèle prédictif existant et en l’entrainant sur ledit tronçon.
FR1909923A 2019-09-10 2019-09-10 Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication Active FR3100643B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR1909923A FR3100643B1 (fr) 2019-09-10 2019-09-10 Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication
PCT/EP2020/075264 WO2021048245A1 (fr) 2019-09-10 2020-09-10 Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication
EP20767562.0A EP4028954A1 (fr) 2019-09-10 2020-09-10 Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1909923A FR3100643B1 (fr) 2019-09-10 2019-09-10 Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication
FR1909923 2019-09-10

Publications (2)

Publication Number Publication Date
FR3100643A1 true FR3100643A1 (fr) 2021-03-12
FR3100643B1 FR3100643B1 (fr) 2023-03-03

Family

ID=70008575

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1909923A Active FR3100643B1 (fr) 2019-09-10 2019-09-10 Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication

Country Status (3)

Country Link
EP (1) EP4028954A1 (fr)
FR (1) FR3100643B1 (fr)
WO (1) WO2021048245A1 (fr)

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ANDREA DAL POZZOLO ET AL: "Learned lessons in credit card fraud detection from a practitioner perspective", EXPERT SYSTEMS WITH APPLICATIONS, vol. 41, no. 10, 1 August 2014 (2014-08-01), GB, pages 4915 - 4928, XP055458801, ISSN: 0957-4174, DOI: 10.1016/j.eswa.2014.02.026 *
ARUN RAJ KUMAR P ET AL: "Distributed denial of service attack detection using an ensemble of neural classifier", COMPUTER COMMUNICATIONS, ELSEVIER SCIENCE PUBLISHERS BV, AMSTERDAM, NL, vol. 34, no. 11, 24 January 2011 (2011-01-24), pages 1328 - 1341, XP028222099, ISSN: 0140-3664, [retrieved on 20110208], DOI: 10.1016/J.COMCOM.2011.01.012 *
DIEDERIK P. KINGMAJIMMY LEI BA: "Adam : A methodfor stochastic optimization", ARXIV:1412.6980V9, 2014
ELWELL R ET AL: "Incremental Learning of Concept Drift in Nonstationary Environments", IEEE TRANSACTIONS ON NEURAL NETWORKS, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 22, no. 10, 1 October 2011 (2011-10-01), pages 1517 - 1531, XP011491690, ISSN: 1045-9227, DOI: 10.1109/TNN.2011.2160459 *
KRAWCZYK BARTOSZ ET AL: "Ensemble learning for data stream analysis: A survey", INFORMATION FUSION, ELSEVIER, US, vol. 37, 3 February 2017 (2017-02-03), pages 132 - 156, XP029956720, ISSN: 1566-2535, DOI: 10.1016/J.INFFUS.2017.02.004 *
SEBASTIAN RUDER: "An overview of gradient descent optimization algorithms", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 15 September 2016 (2016-09-15), XP080726940 *
TANG K ET AL: "Selective negative correlation learning approach to incremental learning", NEUROCOMPUTING, ELSEVIER, AMSTERDAM, NL, vol. 72, no. 13-15, 1 August 2009 (2009-08-01), pages 2796 - 2805, XP026303016, ISSN: 0925-2312, [retrieved on 20090416], DOI: 10.1016/J.NEUCOM.2008.09.022 *
TIJMEN TIELEMANGEOFFREY HINTON: "Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude", COURSERA: NEURAL NETWORKS FOR MACHINE LEARNING, vol. 4, no. 2, 2012, pages 26 - 31

Also Published As

Publication number Publication date
FR3100643B1 (fr) 2023-03-03
EP4028954A1 (fr) 2022-07-20
WO2021048245A1 (fr) 2021-03-18

Similar Documents

Publication Publication Date Title
US11494648B2 (en) Method and system for detecting fake news based on multi-task learning model
WO2019178914A1 (fr) Procédé de détection de fraude et d'évaluation de risque, système, dispositif, et support de stockage
CN111275503B (zh) 一种获取流失用户召回成功率的数据处理方法及装置
US11847245B2 (en) Privacy preserving data labeling
US20230153825A1 (en) Transaction exchange platform with a validation microservice for validating transactions before being processed
FR3057378A1 (fr) Systeme de detection de fraude dans un flux de donnees
US11823026B2 (en) Artificial intelligence system employing graph convolutional networks for analyzing multi-entity-type multi-relational data
FR3062504A1 (fr) Detection automatique de fraudes dans un flux de transaction de paiement par reseaux de neurones integrant des informations contextuelles
CN114547475A (zh) 一种资源推荐方法、装置及系统
FR3048840A1 (fr)
KR20220073432A (ko) 계약서 리스크 분석 방법 및 장치
FR3100643A1 (fr) Apprentissage en continu pour la détection automatique de fraudes sur un service accessible sur réseau de télécommunication
US11971873B2 (en) Real-time anomaly determination using integrated probabilistic system
US20230162278A1 (en) Generation and delivery of funding opportunities using artificial intelligence (ai) based techniques
CN115330490A (zh) 一种产品推荐方法、装置、存储介质及设备
CN114820082A (zh) 消费额度预测方法、装置、计算机设备和存储介质
FR3064095B1 (fr) Detection par apprentissage automatique d'anomalies dans un ensemble de transactions bancaires par optimisation de la precision moyenne
WO2021198321A1 (fr) Entrainement de modèles prédictifs pour la détection automatique de fraudes à partir d'ensembles d'apprentissage construits dans des contextes distincts
US20240220660A1 (en) System and method for managing ai models based on downstream use of inferences
FR3090960A1 (fr) Apprentissage automatique pour la détection de fraude dans un système informatique de réservation
FR3099614A1 (fr) Mécanisme de détection de fraudes dans un environnement antagoniste
US20240220790A1 (en) System and method for preventing introduction of poisoned training data to artificial intelligence models
US20230419098A1 (en) Utilizing selective transformation and replacement with high-dimensionality projection layers to implement neural networks in tabular data environments
US20240220663A1 (en) System and method for proactively identifying poisoned training data used to train artificial intelligence models
US20230169328A1 (en) Multiple Data Labeling Interfaces with a Common Data Infrastructure

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210312

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5