FR3069357A1 - Systeme d'apprentissage machine pour diverses applications informatiques - Google Patents

Systeme d'apprentissage machine pour diverses applications informatiques Download PDF

Info

Publication number
FR3069357A1
FR3069357A1 FR1756823A FR1756823A FR3069357A1 FR 3069357 A1 FR3069357 A1 FR 3069357A1 FR 1756823 A FR1756823 A FR 1756823A FR 1756823 A FR1756823 A FR 1756823A FR 3069357 A1 FR3069357 A1 FR 3069357A1
Authority
FR
France
Prior art keywords
hardware
neural network
software arrangement
authentication
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1756823A
Other languages
English (en)
Other versions
FR3069357B1 (fr
Inventor
Olivier Caelen
Liyun He-Guelton
Pierre-Edouard Portier
Michael Granitzer
Konstantin Ziegler
Johannes Jurgovsky
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Worldline SA
Original Assignee
Worldline SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Worldline SA filed Critical Worldline SA
Priority to FR1756823A priority Critical patent/FR3069357B1/fr
Priority to US16/632,267 priority patent/US11763137B2/en
Priority to CN201880053753.5A priority patent/CN110998608B/zh
Priority to EP18755710.3A priority patent/EP3655893A1/fr
Priority to PCT/EP2018/069176 priority patent/WO2019016106A1/fr
Publication of FR3069357A1 publication Critical patent/FR3069357A1/fr
Application granted granted Critical
Publication of FR3069357B1 publication Critical patent/FR3069357B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Neurology (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Collating Specific Patterns (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

Il est mis à disposition un système d'apprentissage machine pour diverses applications informatiques permettant une fouille de texte pour la détection de défauts ou d'anomalies dans une authentification, transaction ou opération effectuée par l'application, comprenant : - un agencement matériel et logiciel formant un système de prétraitement ; - un agencement matériel et logiciel formant un réseau neuronal conduisant à un modèle de traitement de données enrichies agrégées, - un agencement matériel et logiciel pour l'injection de données enrichies agrégées dans le réseau neuronal, - un agencement matériel et logiciel pour valider l'opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.

Description

SYSTEME D'APPRENTISSAGE MACHINE POUR DIVERSES APPLICATIONS INFORMATIQUES
Domaine technique de l'invention [0001] L’invention concerne le domaine des systèmes de détection de fraude durant une authentification, en particulier durant une authentification, une opération ou une transaction.
Etat de la technique antérieure [0002] En raison du volume en constante augmentation des échanges électroniques, les divers acteurs recherchent constamment de nouvelles façons de détecter une fraude durant des authentifications, opérations ou transactions.
[0003] Avec la grande quantité de données que nous voyons de nos jours, l'observation humaine traditionnelle ne répond pas aux exigences essentielles pour l'établissement d'une détection précise d'une fraude étant donné la quantité, la diversité et la nature dynamique des comportements malveillants.
[0004] Les systèmes utilisant des procédés modernes basés sur des données et des méthodes d'apprentissage autonome commencent à être utilisés pour la détection de défauts dans des applications informatiques, comme par exemple des fraudes à l'authentification, en particulier celles liées à l'utilisation de cartes de crédit.
[0005] Pour ce faire, ces systèmes utilisent généralement des réseaux neuronaux dont l'apprentissage statistique est basé sur des forêts d'arbres décisionnels (forêts aléatoires) qui analysent un échantillonnage de données non séquentielles.
[0006] Néanmoins, l’utilisation d'un apprentissage par arbre décisionnel peut générer des arbres décisionnels très complexes qui généralisent mal l'ensemble de formation et conduisent à l'acceptation d'une identification frauduleuse qui ne va pas être détectée.
[0007] On a par conséquent besoin d'un système rendant possible l'identification d'anomalies qui ne sont pas détectées par les réseaux neuronaux dont l'apprentissage statistique est basé sur des forêts d'arbres décisionnels (forêts aléatoires).
Description de l'invention [0008] L’objet de la présente invention consiste donc à proposer un système pour détecter une fraude durant une identification, permettant de surmonter au moins certains des inconvénients de la technique antérieure, en proposant un système d'apprentissage machine pour diverses 15 applications informatiques permettant une fouille de textes pour la détection de défauts ou d'anomalies dans une authentification, opération ou transaction effectuée par l'application, comprenant :
- un agencement matériel et logiciel formant un système de prétraitement ;
- un agencement matériel et logiciel formant un réseau neuronal conduisant à un modèle de traitement de données enrichies agrégées,
- un agencement matériel et logiciel pour l'injection de données enrichies agrégées dans le réseau neuronal,
- un agencement matériel et logiciel pour valider l’opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.
[0009] Le réseau neuronal entraînant le modèle de traitement est avantageusement :
- un réseau neuronal récurrent de type à mémoire à long et court terme (LSTM) ;
- un réseau neuronal pour l'apprentissage statistique du type d'arbre de décision ; ou
- une combinaison des deux.
[0010] Avantageusement, le réseau neuronal récurrent du type LSTM comprend au moins deux couches récurrentes et un Classificateur de Régression Logistique positionné au-dessus de la dernière couche récurrente prenant en compte le temps écoulé entre deux authentifications, opérations ou transactions.
[0011] Avantageusement, l’agencement matériel et logiciel pour valider l’authentification, opération ou transaction est paramétré avec une matrice d'indices de Jaccard afin que soit mesuré le degré de similarité entre les données de sortie d'un premier réseau neuronal du type LSTM et celles provenant d'un agencement matériel et logiciel d'un deuxième réseau neuronal pour l'apprentissage statistique du type d'arbre de décision et pour valider les résultats de l'un des deux réseaux neuronaux.
[0012] Il est avantageusement utilisé pour une application informatique permettant une prédiction de risque à partir de la détection d'une fraude dans des opérations d'authentification d'objets de mémoire électronique contenant dans une zone une information secrète utilisée pour authentifier l'objet et son porteur.
[0013] Avantageusement, l'agencement matériel et logiciel formant un réseau neuronal récurrent entraînant un modèle de type LSTM utilise un GPL).
[0014] Avantageusement, l’agencement matériel et logiciel formant un système de prétraitement comprend :
- au moins une première base de données contenant au moins un ensemble de schémas séquentiels de données brutes concernant ladite application informatique,
- un agencement matériel et logiciel formant au moins une deuxième base de données contenant au moins un ensemble de données externes,
- un agencement matériel et logiciel pour enrichir les données brutes au moyen des données externes,
-un agencement matériel et logiciel pour agréger les données enrichies.
[0015] Avantageusement, le système de prétraitement utilise un mode multifil.
Brève description des figures [0016] D'autres caractéristiques, détails et avantages de l'invention apparaîtront de façon évidente à la lecture de la description qui suit, en référence aux figures jointes, dans lesquelles :
- La Figure 1 est une représentation schématique d'un réseau neuronal récurrent déroulé dans le temps par création d'une copie du modèle pour chaque étape de temps.
- La Figure 2 montre des courbes de précision-rappel moyennées sur tous les jours dans l'ensemble de test (la figure montre les résultats de la LSTM sur des séquences Longues).
- La Figure 3 montre l'évolution de l'AUPCR sur tous les jours de test. Les lignes pointillées horizontales indiquent l'AUPCR moyen pour chaque courbe (la figure montre les résultats de la LSTM sur des séquences Longues).
- La Figure 4 montre une comparaison par paires des ensembles de positifs vrais de deux modèles mesurés avec l'indice de Jaccard et encodés en couleurs dans une carte de densité ;
- La Figure 5 montre l'architecture d'entraînement d'un modèle de LSTM.
- La Figure 6 montre un méta-classificateur qui combine le modèle de LSTM et le modèle de forêts aléatoires.
- La Figure 7 montre une charpente de détection de fraude selon l'invention.
Description détaillée de différents modes de réalisation de l'invention [0017] La description qui suit se focalise sur une application de détection des fraudes à la carte de crédit du système, mais elle peut s'appliquer à d'autres fraudes, défauts ou anomalies dans une authentification, opération ou transaction effectuée par diverses applications exécutées par un système ou réseau informatique.
[0018] En fonction de la perspective envisagée, les authentifications, opérations ou transactions frauduleuses peuvent être comprises comme des anomalies dans le comportement d'achat de consommateurs ou comme un ensemble de données aberrantes dans la classe des authentifications, opérations ou transactions véritables qui elles-mêmes forment une classe s'opposant aux transactions frauduleuses. Dans tous les cas, dans l'espace caractéristique, les fraudes se mêlent très bien aux authentifications, opérations ou transactions véritables, pour deux raisons. Premièrement, les actions d'achat véritables faites par des millions de consommateurs couvrent naturellement un large spectre de variabilité. Et deuxièmement, les fraudeurs appliquent diverses stratégies inscrutables, quoique rationnelles, pour effectuer des actes frauduleux qui couvrent plusieurs comptes de consommateurs sur diverses périodes de temps - mais à la fin, ces actes vont de même apparaître uniquement comme des authentifications, opérations ou transactions individuelles dans un ensemble de données. Des actions d'achat identiques peuvent en même temps refléter soit un comportement complètement légitime dans le contexte de certains consommateurs, soit des anomalies évidentes dans le contexte d'autres consommateurs.
[0019] Afin de supporter une meilleure discrimination parmi des authentifications, opérations ou transactions qui sont difficiles à distinguer, nous avons identifié deux approches qui nous permettent de résumer l'historique des transactions de consommateurs et d'utiliser ce résumé durant la classification de transactions individuelles. Le premier procédé est une pratique bien établie dans le domaine de la détection des fraudes à la carte de crédit, et il se base sur une ingénierie de particularité manuelle. Avec le deuxième procédé, nous nous focalisons sur la récupération de la structure séquentielle de l'historique d'authentifications, d'opérations ou de transactions d'un utilisateur en modélisant les dynamiques de transition entre des authentifications, opérations ou transactions au moyen d'un réseau neuronal récurrent.
[0020] Un réseau de mémoire à long et court terme (LSTM) est une variante spéciale d'un réseau neuronal récurrent (RNN). Les réseaux neuronaux récurrents ont été développés dans les années 1980 [Williams et Hinton, 1986, Werbos, 1988, Elman, 1990] pour une modélisation des séries temporelles. La structure d'un RNN est similaire à celle d'une perception multicouche standard, avec comme différence qu'elle permet des connexions parmi des unités cachées associées à des étapes temporelles discrètes. Les étapes temporelles indexent les éléments individuels dans une séquence d'entrée. Par l'intermédiaire des connexions entre des étapes temporelles, le modèle peut conserver des informations concernant les entrées passées, ce qui lui permet de découvrir des corrélations temporelles entre des événements qui sont éventuellement éloignés les uns des autres dans la séquence d'entrée. Ceci constitue une propriété cruciale pour l'apprentissage approprié de séries temporelles dans lesquelles l'occurrence d'un événement est susceptible de dépendre de la présence de plusieurs autres événements encore plus éloignés dans le temps.
[0021] Un réseau neuronal générique, avec une entrée xf et un état sf pour une étape temporelle t, est représenté par l'équation 1.
st = Wa(st_i) + Uxf + b (1) [0022] Les paramètres du modèle Θ = {W, U, b} sont donnés par la matrice de poids récurrente W, la matrice de poids d'entrées U et les biais b. L'état initial s0 est le vecteur zéro et σ est une certaine fonction d'activation par élément non linéaire - tanh dans le présent cas. Un coût ε mesure la performance du réseau sur une certaine tâche donnée et est typiquement composé des coûts à toutes les étapes temporelles
Un tel coût composite va être applicable, par exemple, à des tâches de marquage de texte, pour lesquelles une étiquette est attribuée à chaque mot entré. Dans le présent cas, on ne prédit que l'étiquette de la dernière authentification, opération ou transaction dans une séquence.
[0023] La distribution sur des classes de fraude et de non fraude, l'état Sjétant donné, est modélisée au moyen d'un modèle de sortie de régression
d'une authentification, opération ou transaction comme étant la probabilité xf qu'elle appartienne à la classe 0 ou 1, et on mesure le coût induit par les probabilités prédites par le modèle au moyen de l'erreur d'entropie croisée, définie par
St = = -Utkvüh - (1 - Ht ) - Ht) [0024] Les paramètres de modèle Θ sont appris par une minimisation du coût St avec un procédé d'optimisation basé sur un gradient. Une approche que l'on peut utiliser pour calculer les gradients requis est la rétropropagation dans le temps (BPTT). La BPTT fonctionne en déployant un réseau récurrent dans le temps pour le représenter comme un réseau multicouche profond avec autant de couches cachées qu'il y a d'étapes temporelles (voir la Figure 1). Ensuite, l'algorithme de rétropropagation bien connu [Williams et Hinton, 1986] est appliqué sur le réseau déployé.
[0025] Bien qu'en principe le réseau récurrent soit un modèle simple et puissant, en pratique il est difficile de l'entraîner de façon appropriée avec une pente de gradient. Parmi les nombreuses raisons pour lesquelles ce modèle est si laborieux, il y a deux problèmes majeurs qui ont été appelés problème de disparition et d'explosion de gradient [Bengio et al., 1994].
[0026] Avec la connexion récurrente entre des états latents, le paramètre Θ affecte l'erreur à travers non seulement le dernier état, mais aussi tous les états antérieurs. De même, l'erreur dépend de W à travers tous les états s. Cette dépendance devient problématique quand on calcule le gradient de
t / d£t dst dsk \ \<9st Osk d0 ) i<k<t x [0027] La matrice jacobienne ®Sfc contient toutes les interactions de composants entre l'état Sk et l'état st. On peut la comprendre comme un moyen pour ramener l'erreur de l'état t à l'état k. Elle se présente comme un produit de toutes les interactions appariées entre des états consécutifs :
A O
CzSj y—r C/Sj âsfc Al âs^i K t>i>k 1
[0028] Ce produit est la véritable raison pour laquelle il est si difficile d'apprendre des dépendances sur le long terme avec des procédés d'optimisation basés sur un gradient. Plus la dépendance entre t et k est aS1 gt longue, et plus il y a de facteurs qui deviennent multipliés en * , en conséquence de quoi la norme du gradient augmente ou diminue exponentiellement avec t - k. Chaque facteur Os,_i met en jeu à la fois la matrice de poids récurrente et la dérivée σ (si—1)'. [Pascanu et al., 2013] montrent qu'il suffit que la valeur propre la plus importante de la matrice de poids récurrente soit inférieure à 1 pour que des composants sur le long terme disparaissent, et il suffit qu'elle soit supérieure à 1 pour que les gradients explosent.
[0029] Il existe plusieurs solutions pour réduire ces problèmes. L'utilisation d'une pénalité L1 ou L2 sur la matrice de poids récurrente peut assurer que la valeur propre la plus importante ne dépasse jamais 1, étant donné une initialisation avec des poids suffisamment petits. Une autre proposition se base sur la supposition que si le modèle présente dès le début le même type de comportement asymptotique que celui requis par la cible, alors les gradients sons moins susceptibles d'exploser [Doya, 1993].
Toutefois, il n'est pas insignifiant d'initialiser un modèle dans ce régime spécifique. Une troncation de gradient constitue une autre approche radicale qui met en jeu la troncation de composants par éléments du gradient quand ils dépassent un seuil fixé [Mikolov et al., 2011]. Finalement, une solution pour éviter le problème de disparition de gradient a été proposé par [Hochreiter et Schmidhuber, 1997] par élimination de la dépendance directe
Hsj à une matrice de poids récurrente dans dst-t [Bayer, 2015]. Cette structure de réseau modifiée est appelée réseau de mémoire à court et long terme (LSTM), et constitue l'état de la technique pour de nombreuses tâches mondiales réelles telles que la reconnaissance vocale, la reconnaissance d'écriture manuscrite et la traduction machine statistique.
[0030] En alternative à la modélisation de séquences d'authentification, d'opération ou de transaction avec une LSTM, on emploie une ingénierie de particularité traditionnelle.
[0031] Agrégations de particularités : un moyen pour extraire des informations à partir d'une séquence d'authentification, d'opération ou de transaction consiste à agréger les valeurs de certaines variables le long de la séquence. Pour assembler ces agrégations de particularités, on suit la procédure qui a récemment été proposée par [Bahnsen et al., 2016]. Cette procédure, simple mais puissante, peut être considérée comme constituant l'état de la technique d'ingénierie de particularité dans la détection de fraudes à la carte de crédit. Ils ajoutent de nouvelles particularités à chaque authentification, opération ou transaction en fonction de certaines règles prédéfinies. La valeur d'une nouvelle particularité est calculée avec une fonction d'agrégation appliquée à un sous-ensemble des transactions précédentes. Le but est de créer un enregistrement des activités à partir de l'historique des authentifications, opérations ou transactions d'un porteur de carte, qui quantifie le degré avec lequel l'authentification, opération ou transaction en cours se conforme aux précédentes.
[0032] On considère que est |a séquence d'authentifications, opérations ou transactions, ordonnée temporellement, d'un porteur de carte donné, où t indexe les authentifications, opérations ou transactions individuelles dans sa séquence. On indique la valeur d'une variable particulière dans une authentification, opération ou transaction par
JM un exposant: par exemple, * * est la quantité utilisée dans une authentification, opération ou transaction xt. En se basant sur une seule authentification, opération ou transaction xk , on sélectionne un sousensemble d'authentifications, opérations ou transactions du passé jusqu'à un horizon temporel maximal th et en fonction de certaines variables nominales A et B :
[0033] L’ensemble Sk contient toutes les authentifications, opérations ou transactions des th heures précédant xk, où les variables nominales A et B ont pris les mêmes valeurs que pour xk. Les variables nominales A et B et l'horizon temporel th peuvent être considérés comme des contraintes imposées au sous-ensemble. Par exemple, si on définit A := Pays, B := MCC et th = 24, le sous-ensemble Sk contient toutes les authentifications, opérations ou transactions des 24 heures précédentes qui ont été effectuées dans le même pays et dans la même catégorie de marchands que l'authentification, opération ou transaction xk.
[0034] On peut maintenant définir des fonctions d'agrégation sur Sk. Il y a de nombreuses possibilités pour définir de telles fonctions, et même si toutes sont susceptibles d'être également valides, on se limite aux deux fonctions qui ont été proposées par les auteurs : la quantité totale dépensée et le nombre de transactions.
sommes^ = compte^ =
(6)
La paire (sommes^, comptes^) correspond à une seule contrainte donnée par A, B et th. Afin de couvrir une plus large gamme de statistiques à partir de l'historique d'authentifications, d'opérations ou de transactions, on calcule ces paires pour toutes les combinaisons des variables nominales pays, catégorie de marchand, et mode d'entrée de carte, à l'intérieur d'un horizon temporel de 24 heures. Finalement, on rajoute toutes ces paires au vecteur de particularité d'authentification, d'opération ou de transaction xk.
[0035] Delta temps : un lecteur de séquences détecte des schémas dans des séquences de transactions consécutives. On suppose que ces schémas ressemblent à une certaine forme de comportement d'achat latent de porteurs de carte. Si cela est, les schémas comportementaux devraient être invariants aux points concrets dans le temps quand les actions d'achat ont été réellement effectuées. Pour supporter une normalisation temporelle sur des séquences d'entrée qui chevauchent des périodes de temps très différentes, on extrait le temps en minutes entre deux authentifications, opérations ou transactions consécutives, et on l'ajoute explicitement sous la forme d'une particularité additionnelle :
[0036] Tout comme dans n'importe quelle tâche de modélisation statistique, on peut observer le phénomène véritable dans le monde réel uniquement par l'intermédiaire d'un mandataire indiqué comme étant un jeu fini d'observations ponctuelles.
[0037] Dans la détection de fraudes à la carte de crédit, le vrai phénomène intéressant est le comportement d'achat véritable des porteurs de carte ou, de même, le comportement malveillant des fraudeurs. On suppose que cet objet, que l'on appelle approximativement le comportement, est contrôlé par certaines qualités latentes mais cohérentes. Avec ses variables d'état, la LSTM est en principe capable d'identifier ces qualités à partir de la séquence d'observations.
[0038] Dans le monde réel, les conventions sociétales, les réglementations officielles ou la simple physique imposent des contraintes sur la variabilité potentielle d'observations et par conséquent sur la complexité des qualités qui les contrôlent. Par exemple, les heures d'ouvertures limitent strictement quand et où les consommateurs sont susceptibles d'acheter leurs biens ou services. Les distances géographiques et les modalités de déplacement limitent les possibilités de transactions consécutives. On peut s'attendre à ce que toutes les authentifications, opérations ou transactions face à face que l'on observe dans la présente base de données respectent, dans une certaine mesure, ces contraintes du monde réel. Par contraste, les authentifications, opérations ou transactions de commerce électronique, ou plutôt leurs achats en ligne correspondants, sont largement sans contrainte, tant pour le moment que pour le lieu. Il n'y a pratiquement aucun attribut qui ne puisse pas changer réellement de manière arbitraire entre une authentification, opération ou transaction et la suivante.
[0039] On suppose que la présence de contraintes, dans le monde réel, dans les transactions face à face conduit à des schémas comportementaux plus évidents avec moins de variations. Dans ce cas, un apprenant de séquence va tirer avantage d'une structure séquentielle plus régulière.
[0040] En étant motivé par les considérations et les analyses statistiques antérieures concernant le comportement d'achat dans le monde réel, on a décidé d'étudier séparément l'impact d'un apprenant de séquence sur la précision de détection lors d'authentifications, opérations ou transactions de commerce électronique et face à face. Les résultats sont contrastés avec un non apprenant de séquence, autrement dit une forêt aléatoire.
[0041] Sur la base d'un ensemble de données d'authentifications, opérations ou transactions étiquetées de carte de crédit, enregistré entre mars et mai 2015, on a créé des ensembles de données de la façon suivante : toutes les authentifications, opérations ou transactions d'un porteur de carte identifié sont groupées et les authentifications, opérations ou transactions de chaque porteur de carte sont triées en fonction du temps. En résultat, on obtient une séquence ordonnée temporellement d'authentifications, opérations ou transactions pour chaque porteur de carte. Dans le reste de ce travail, cette séquence est appelée le compte d'un porteur de carte, et l'ensemble complet de tous les comptes est appelé l'ensemble de données de séquence. L'ensemble de données de séquence est en outre divisé en deux ensembles mutuellement exclusifs : un ensemble de données de séquence contient uniquement les authentifications, opérations ou transactions de commerce électronique (ECOM), et l'autre contient uniquement les authentifications, opérations ou transactions effectuées dans des points de vente (F2F).
Tableau 1 : tailles d'ensembles de données et proportions de fraudes
Ensemble d'entraînement (01/03-25/04) Ensemble de validation (26/04 - 30/04) Ensemble de test (08/05-31/05)
ECOM 2,9 x10e 1,48% 0,6 x 106 0,38 % 3,3 x 10e 0,42 %
F2F 4,3 x 106 0,81 % 0,7 x10e 0,07 % 4,7 x 10b 0,05 %
[0042] Echantillonnage de comptes : Une particularité typique des problèmes de détection de fraudes est le fort déséquilibre entre la classe minoritaire (transactions frauduleuses) et la classe majoritaire (transactions authentiques). La fraction globale des authentifications, opérations ou transactions frauduleuses se porte habituellement à environ 0,5 % ou moins. Dans l'ensemble de données F2F, les fraudes surviennent avec une fréquence inférieure d'un ordre de grandeur en comparaison avec l'ensemble de données ECOM, ce qui aggrave encore davantage le problème de détection. Des études de la littérature [Bhattacharyya et al., 2011] et des expériences antérieures ont montré qu'une certaine forme de souséchantillonnage de la classe majoritaire sur l'ensemble d'entraînement améliore l'apprentissage. Toutefois, contrairement aux ensembles de données basés sur les transactions, dans lesquels les authentifications, opérations ou transactions sont considérées comme des exemples d'entraînement indépendants, on ne peut pas appliquer une telle stratégie de sous-échantillonnage à un ensemble de données de séquence. Par conséquent, on emploie le sous-échantillonnage au niveau des comptes. A ce propos, un compte est considéré être compromis s'il contient au moins une authentification, opération ou transaction frauduleuse, et est considéré être authentique s'il ne contient que des transactions authentiques. On a employé un simple processus d'échantillonnage basé sur les comptes pour construire l'ensemble d'entraînement. Avec une probabilité pg = 0,9, on a sélectionné au hasard un compte dans l'ensemble de comptes authentiques et, avec une probabilité 1 - pg, on a sélectionné un compte dans l'ensemble de comptes compromis. Ce processus est répété 106 fois pour créer un ensemble d'entraînement avec un million de comptes. Le rapport de fraude de facto au niveau des transactions est toujours inférieur à 1/10, mais on trouve que cette approche simple fonctionne bien en pratique. Voir le Tableau 1 pour des détails concernant les tailles des ensembles de données et les périodes de temps.
[0043] Réalité de terrain différée : La présente période de test commence plus d'une semaine après la période d'entraînement. La raison de cette décision est double : dans un système de production, les étiquettes d'authentifications, opérations ou transactions ne sont disponibles qu'après que des enquêteurs humains ont vérifié les transactions. Par conséquent, la disponibilité d'une réalité de terrain précise est toujours différée d'une semaine environ. La deuxième raison est que la classification est typiquement plus précise sur des authentifications, opérations ou transactions récentes qui suivent de près la période d'entraînement. Mais cette précision et susceptible d'être une évaluation excessivement optimiste de la performance du classificateur dans un système de production, puisqu'en pratique on ne va toujours pas avoir accès aux véritables étiquettes.
[0044] Alignement des ensembles de données : Tant la forêt aléatoire que la LSTM ont été entraînées pour prédire l'étiquette de transactions individuelles. Il y a toutefois une différence qu'il faut prendre en compte dans les expériences. Avec une LSTM, on peut uniquement prédire l'étiquette d'une authentification, opération ou transaction après que plusieurs authentifications, opérations ou transactions l'ont précédée, tandis qu'avec la forêt aléatoire, aucune transaction antérieure n'est requise. Pour améliorer la comparabilité des résultats, on prend en compte cette différence en retirant toutes les authentifications, opérations ou transactions qui ne sont pas précédées d'au moins w = 9 transactions antérieures. La forêt aléatoire (RF) et la LSTM peuvent maintenant être entraînées, validées et testées sur des ensembles identiques de transactions. Pour étudier l'influence de la longueur de la séquence d'entrée sur les prédictions LSTM, on ne garde que 4 (COURTE) ou 9 (LONGUE) authentifications, opérations ou transactions antérieures en entrée.
[0045] Comme les données collectées durant une authentification, opération ou transaction de carte de crédit doivent se conformer aux normes NIIF (normes internationales d'information financière), l'ensemble des particularités brutes est très similaire dans toute la littérature. Par conséquent, on a retiré toutes les particularités spécifiques d'un commerce et conservé uniquement celles qui sont couramment utilisées dans d'autres études [Bhattacharyya et al., 2011, Bahnsen et al., 2016, Carneiro et al., 2017], Afin de déterminer l'impact de particularités additionnelles sur la précision d'une classification, on a défini trois ensembles de particularités.
[0046] Le premier ensemble de particularités (BASE) contient toutes les particularités brutes après que les variables spécifiques d’un commerce ont été retirées. Comme les fraudes n'apparaissent généralement pas isolément mais plutôt sous la forme d'éléments de séquences de fraudes complètes qui peuvent s'étendre sur plusieurs heures ou jours, on a retiré l'identité du porteur de carte de l'ensemble de particularités. Sinon, un classificateur pourrait simplement se rappeler les identités de porteurs de cartes ayant des comptes compromis et prendre des décisions uniquement dans cet ensemble bien plus petit de transactions. Toutefois, en pratique, on voudrait plutôt savoir s'il y a une authentification, opération ou transaction frauduleuse et ensuite rendre le compte compromis. Le deuxième ensemble de particularités (TDELTA) contient toutes les particularités de l'ensemble 5 BASE plus la particularité delta-temps telle que décrite dans la section 3.2.
Ce troisième ensemble de particularités (AGG) contient toutes les particularités de l'ensemble TDELTA plus 14 particularités agrégées comme décrit ci-dessus. On a agrégé les authentifications, opérations ou transactions des 24 heures précédentes en termes de la quantité et du 10 nombre des authentifications, opérations ou transactions sur la base de toutes les combinaisons des variables nominales term-mcc, term-country et card-entry-mode. Voir le Tableau 2 pour une vue d'ensemble des particularités.
Tableau 2 : liste des particularités dans les présents ensembles de données.
Les particularités marquées (*) sont des particularités composites composées de plusieurs particularités de niveau inférieur.
Particularité Type
TERM-MCC Nominal
TERM-COUNTRY Nominal
TX-AMOUNT Proportionnel
TX-DATETIME (*) Nominal
TX-3D-SECURE Nominal
TX-EMV Nominal
TX-LOCAL-CURRENCY Nominal
TX-LOCAL-AMOUNT Proportionnel
TX-PROCESS Nominal
TX-CARD-ENTRY-MODE Nominal
BROKER Nominal
CARD-BRAND Nominal
CARD-EXPIRY Nominal
CARD-TYPE Nominal
CREDIT-LIMIT Proportionnel
CARD-AUTHENTICATION Nominal
TDELTA Proportionnel
AGGREGATIONS (*) Proportionnel
[0047] Variables proportionnelles : on a appliqué une normalisation gaussienne à des variables proportionnelles telles que la quantité d'authentifications, d'opérations ou de transactions ou la limite de crédit pour centrer la variable sur μ = 0 avec un écart type σ = 1. Cette normalisation n'a pas d'effet sur l'apprentissage d'une forêt aléatoire, mais elle accélère la convergence d'optimisation basée sur un gradient dans les réseaux neuronaux.
[0048] Variables nominales : dans le cas de la forêt aléatoire, les variables nominales peuvent être utilisées juste telles quelles. On a seulement établi une correspondance entre chaque valeur et un nombre entier. Dans le cas des réseaux neuronaux, on a voulu éviter d'avoir des vecteurs d'une seule particularité encodée par jeton (encodage one-hot) à dimension très élevée. On a, par conséquent, employé un mécanisme d'encodage d'étiquette qui est très populaire dans le domaine du traitement du langage naturel et des réseaux neuronaux, Collobert et al. [2011], Socher et al. [2013], Tang et al. [2014], et qui est applicable pour donner un caractère arbitraire à des variables nominales autres que mots [Guo et Berkhahn, 2016], Pour une variable nominale avec son ensemble de valeurs C, on a attribué à chaque valeur un vecteur de poids aléatoire à d dimensions v, qui provient d'une distribution uniforme à plusieurs variables v ~ U ([-0,05, 0,05]d), avec d = riog2(|C|)l
Les valeurs de particularité et leurs vecteurs correspondants (intégrations de vecteurs des valeurs de particularité) sont stockés à l’intérieur d'un dictionnaire. Pour encoder une valeur particulière de la variable nominale, on regarde la valeur de la particularité dans le dictionnaire et récupère son vecteur. Les vecteurs en intégration font partie des paramètres du modèle et peuvent être ajustés conjointement durant l'estimation des paramètres.
[0049] Fonction de temps : on considère la fonction de temps comme une composition de plusieurs variables nominales. Pour chaque résolution temporelle de la fonction de temps, c'est-à-dire l'année, le mois, le jour ouvré, le jour, l'heure, la minute et la seconde, on définit une variable nominale de la même façon que celle décrite ci-dessus.
[0050] Le réseau de mémoire à long et court terme a deux couches récurrentes et un classificateur de régression logistique empilé au-dessus de la dernière couche. Le classificateur de régression logistique peut être entraîné conjointement avec le modèle de transition d'état de LSTM via une rétropropagation d'erreur. On applique un abandon [Srivastava et al., 2014] aux nœuds de LSTM pour régulariser les paramètres et on entraîne tout le modèle en minimisant l'entropie croisée entre la distribution de classes prédite et la distribution de classes véritable avec l'algorithme ADAM. La présente implémentation se base sur la bibliothèque d'apprentissage profond Keras.
[0051] Comme on étudie les avantages potentiels d'une approche d'apprentissage de séquence basée sur une LSTM par rapport à un apprenant statique, il faut extraire une instance de la classe des apprenants statiques. On choisit ici de la comparer à des forêts aléatoires. Dans des expériences antérieures, on a observé que les forêts aléatoires constituent une forte base de référence pour cette tâche, qui explique aussi son usage largement répandu pour la détection des fraudes [Carneiro et al., 2017, Bahnsen et al., 2016, Ngai et al., 2011]. On utilise l'implémentation de forêts aléatoires de SciKit-Learn.
[0052] Recherche en quadrillage : tant la forêt aléatoire (RF) que la LSTM doivent être paramétrées avec des hyper-paramètres. On a recherché l'espace des configurations en hyper-paramètres possibles en termes d'un quadrillage grossier chevauché par un sous-ensemble de tous les hyper paramètres (voir le Tableau 3). On a ensuite sélectionné la configuration avec la valeur AU CP R0,2 maximale sur l’ensemble de validation.
Tableau 3 : hyper-paramètres pris en considération durant la recherche en quadrillage
RF LSTM
Feuille d'échantillonnage min {1,3, 10} Vitesse de lecture {10-2, 10~3, 104}
Critère de séparation {gini, entropy} Abandon {0,2, 0,5, 0,8}
Particularités max {5, 10} Noeuds (par couche) {20, 100}
Arbres {100, 600}
[0053] Deux critères guident la sélection de valeurs métriques convenables de performances : la robustesse vis-à-vis de classes déséquilibrées et l'attention aux intérêts spécifiques d'un commerce.
[0054] AUCPR : on a employé une courbe de précision-rappel (PR) et en particulier la zone sous cette courbe pour quantifier la précision de détection. Chaque point sur la courbe PR correspond à la précision du classificateur à un niveau spécifique de rappel. Par conséquent, la courbe dans sa totalité donne une image complète de la précision d'un classificateur et de sa robustesse même dans des réglages déséquilibrés. L'intégrale audessus de cette courbe engendre un résumé à valeur unique de la performance, et on l'appelle AUCPR.
[0055] AUCPR@0.2 : du point de vue du commerce, un faible rappel et une précision élevée sont préférables à un rappel élevé et une faible précision. Un choix typique consiste par conséquent à mesurer la précision sur les K premiers éléments dans la liste de résultats hiérarchisés. Cette précision à K correspond à un point isolé sur la courbe PR et est susceptible de varier en raison des différents chois pour K. Afin de refléter les intérêts commerciaux et d'éviter un problème de variabilité, on suggère d'utiliser l'intégrale sur la courbe PR calculée jusqu'à un certain niveau de rappel (0,2 dans les présentes expériences). La valeur maximale pour AUCPR@0.2 est de 0,2.
[0056] Indice de Jaccard : pour explorer les différences qualitatives entre les deux présentes approches, on a utilisé l'indice de Jaccard afin de mesurer le degré auquel deux classificateurs sont similaires en termes des fraudes qu'ils détectent. Avec deux ensembles de résultats (positifs vrais) A q( a p) _ |Art8| et B donnés, l'indice de Jaccard est défini par ° |AuB| Le seuil de décision est réglé à s.t. et correspond à un rappel de 0,2.
[0057] Economies : les économies constituent une autre mesure métrique qui est souvent utilisée dans le domaine de la détection de fraudes à la carte de crédit. Elles mesurent le bénéfice monétaire d'un certain algorithme par rapport à un accepteur/réjecteur trivial et se basent sur une matrice de coûts prédéfinie. Un test d'un classificateur binaire sur une unique authentification, opération ou transaction peut avoir quatre résultats possibles définis par les deux prédictions (p = 0 ou p = 1) et les deux jugements véritables (y = 0 ou y = 1). A chacun de ces résultats, on peut associer un coût monétaire induit par un processus d'investigation qui accepte p en tant que décision à la lumière de l'étiquette véritable y. Le Tableau 4 présente la matrice de coûts.
Tableau 4 : matrice de coûts
y = 1 y = 0
p - 1 Cp + Ccb Cp
p = 0 g(xi) 0
Les entrées individuelles sont composées d'un coût de traitement Cp, d'une réimputation Ccb et d'un coût dépendant de la transaction g(·). g représente la perte d'argent due aux fraudes se produisant pendant que le processus d'investigation est en cours. Elle est définie par : g(Xi) = ^2 y(Amt) (8) [0058] où F, est l'ensemble d'authentifications, opérations ou transactions frauduleuses qui surviennent jusqu’à T heures après l'authentification, opération ou transaction xr.
Ti = {.rt\heures < T Λ ’ = 1}£ (9) [0059] En raison des réglementations commerciales, on ne peut pas donner de détails sur les valeurs particulaires de Cp, CCb et T. On peut toutefois affirmer clairement qu'à l'extérieur d'un contexte commercial particulier, il n'y a pas de raison pour rapporter une performance de classification de modèles statistiques en termes d'économies d'argent. Cette mesure dépend entièrement de la matrice de coûts. On a incorporé cette valeur métrique uniquement parce qu'on a trouvé qu'elle était couramment utilisée dans des travaux apparentés. Par contraste, l'AUCPR devrait constituer une valeur métrique de choix pour des comparaisons entre différentes méthodes de classification. Elle est objective et donc permet des conclusions plus générales qui sont valides également à l'extérieur d'un contexte commercial particulier.
[0060] On a qualifié un modèle pour chaque combinaison d'ensemble de particularités, d'ensemble de données et de longueur de séquence, puis on a testé sa performance de classification sur l'ensemble de test détenu. Dans le cas des forêts aléatoires, la longueur de la séquence d'entrée n'a pas d'influence sur le modèle puisque seule la dernière authentification, opération ou transaction de la séquence d'entrée est utilisée. On a évalué les modèles qualifiés sur chacun des 24 jours de test individuellement, et on rapporte leur performance moyenne en regard des valeurs métriques définies ci-dessus.
[0061] Le Tableau 5 et le Tableau 6 montrent un résumé des résultats pour les ensembles de données de face à face et de commerce électronique. Une première observation est que la précision de détection globale est bien supérieure sur l'ECOM que sur le F2F, ce qui peut s'expliquer par la plus forte proportion de fraudes dans l'ECOM. Deuxièmement, des séquences d'entrée plus longues semblent ne pas avoir d'effet sur la précision de détection, ni pour F2F ni pour ECOM. Troisièmement, la prise en compte des authentifications, opérations ou transactions antérieures avec une LSTM améliore notablement la détection des fraudes en F2F. Toutefois, cette amélioration n'est pas observable en ECOM - à la place, les résultats de 5 l'apprentissage basique et de l'approche d'apprentissage de séquence sont étonnamment similaires.
Tableau 5 : AUC moyenne sur tous les jours de test. Longueurs de séquence (COURTE, LONGUE) et ensembles de particularités (BASE, TDELTA, AGG)
Particularités F2F
AUCPR (μ) AUCPRo,2 (μ) Economies [%]
RF LSTM RF LSTM RF LSTM
LU I— a: Z) O O BASE 0,138 0,200 0,086 0,107 23,52 % 22,26 %
TDELTA 0,170 0,231 0,095 0,118 26,80 % 21,45%
AGG 0,241 0,246 0,112 0,113 23,93 % 18,71 %
LONGUE BASE 0,135 0,229 0,084 0,106 23,17 % 19,05%
TDELTA 0,172 0,217 0,095 0,102 27,02 % 19,19%
AGG 0,242 0,236 0,112 0,110 23,60 % 24,96 %
Tableau 6 : AUC moyenne sur tous les jours de test. Longueurs de séquence (COURTE, LONGUE) et ensembles de particularités (BASE, TDELTA, AGG)
Particularités ECOM
AUCPR (μ) AUCPRo,2 (μ) Economies [%]
RF LSTM RF LSTM RF LSTM
COURTE BASE 0,179 0,180 0,102 0,099 7,13 % 18,82 %
TDELTA 0,236 0,192 0,124 0,107 9,02 % 15,30%
AGG 0,394 0,380 0,158 0,157 39,58 % 45,00 %
LONGUE BASE 0,179 0,178 0,101 0,104 7,60 % 15,04%
TDELTA 0,228 0,238 0,118 0,115 10,77% 18,51 %
AGG 0,404 0,402 0,158 0,160 38,73 % 42,93 %
[0062] Une autre observation confirme la découverte que des agrégations de particularités améliorent la détection des fraudes. Leur impact est bien plus évident sur l'ECOM que sur la F2F. L'observation que des agrégations de particularités sont utiles dans les cas où le modèle de séquence ne l'est pas suggère que ces deux formes de représentation de contexte ne sont pas corrélées, et que les approches sont complémentaires. Quelle que soit l'information que les états de LSTM pistent dans l'historique des authentifications, opérations ou transactions, elle n'est pas la même que celle qui a été ajoutée à la main par l'intermédiaire d'agrégations.
[0063] Apparemment, une LSTM améliore la détection des fraudes lors d'authentifications, opérations ou transactions face à face en termes d'AUCPR. Il est curieux de savoir d'où provient cette amélioration. La Figure 2 présente les courbes de précision-rappel de toutes les variantes de modèle. Sur la Figure 2a, on peut voir que les courbes PR de modèles RF ont un pic de précision élevé à de faibles niveaux de rappel, mais elles disparaissent rapidement lorsque le rappel augmente. Par contraste, les modèles LSTM ont une précision légèrement inférieure pour les faibles niveaux de rappel mais conservent une précision plus élevée lorsque le rappel augmente. Il y a toutefois une exception intéressante : une fois que l'on a ajouté des particularités agrégées, la courbe PR de la forêt aléatoire augmente avec une marge appréciable jusqu'à une performance qui est égale à celle des modèles LSTM. On ne peut pas du tout observer un tel gain net pour les LSTM. Lors d'authentifications, opérations ou transactions de commerce électronique (voir la Figure 2b), les courbes PR de la forêt aléatoire et de la LSTM sont pratiquement identiques pour tous les ensembles de particularités. Les RF et LSTM tirent avantage des particularités agrégées avec la même marge.
[0064] Les Tableaux 5 et 6 rapportent les statistiques moyennes sur tous les jours de test. Quand on trace les AUCPR des RF et LSTM pour les jours de test individuels, on peut voir sur la Figure 3 que les prédictions des deux classificateurs présentent de fortes variations selon les jours. Toutefois, comme les courbes sont corrélées, on peut en déduire que certains jours le problème de détection est plus difficile que d'autres jours. Par exemple, les deux classificateurs ont leur valeur w.r.t. minimale de l'AUPCR dans les périodes de temps 9/05 - 10/05 et 25/05 - 26/05. Par inspection manuelle, on a tenté de lier les authentifications, opérations ou transactions de ces jours à des événements publics ou du calendrier, mais on n'a pas pu trouver d'explication satisfaisante à cette médiocre performance.
[0065] Dans cette analyse, on a effectué un examen plus approfondi des fraudes détectées avec les RF et LSTM. On a extrait une paire de modèles, à partir de l'ensemble de tous les modèles qualifiés, et on a comparé leurs prédictions. Le seuil de décision a de nouveau été choisi de façon qu'il correspondît à un niveau de rappel de 0,2. Toutes les prédictions avec un score supérieur au seuil ont été considérées comme des prédictions positives, et toutes les autres comme des prédictions négatives. En fixant le rappel, on s'est assuré d'avoir un nombre égal de positifs vrais dans les ensembles de résultats d'une paire de modèles. Toutefois, on s'est intéressé à déterminer si les positifs vrais de la RF sont bien identiques à ceux de la LSTM. On a mesuré le chevauchement des ensembles positifs vrais d'une paire de modèles avec l'indice de Jaccard. La Figure 4 présente toutes les comparaisons par paires sous la forme d'une carte de densité.
[0066] Sur les deux cartes de densité, on observe quatre zones bien distinctes : deux zones qui correspondent aux comparaisons intra-modèle et deux zones qui correspondent aux comparaisons inter-modèles4. Les indices de Jaccard suggèrent que tant la RF que la LSTM sont cohérentes en regard des fraudes qu'elles détectent. Cette propriété est légèrement plus prononcée dans les comparaisons de forêts aléatoires. Toutefois, l'observation centrale et fascinante est le fait que les RF et LSTM tendent à détecter des fraudes différentes. Sur une F2F, les modèles RF s'accordent sur 50,8 % de leurs positifs vrais en moyenne et les modèles LSTM sur 37,8 %. Entre les deux classes de modèle, on observe un accord moyen de seulement 25,2 %. Ceci est similaire pour l'ECOM avec des accords intramodèle moyens de 47,5 % (RF) et de 50,8 % (LSTM) et un accord intermodèle moyen de seulement 35,0 %.
[0067] Il y a une exception à cette observation générale. Les modèles qui ont été entraînés avec des particularités agrégées tendent à détecter un ensemble commun unique de fraudes qui n'ont été détectées ni par les forêts aléatoires ni par les LSTM sans particularités agrégées. Cette propriété est bien plus prononcée pour l'ECOM que pour la F2F.
[0068] Durant les présentes expériences, on a trouvé que l'application de réseaux de mémoire à long et court terme à de telles données structurées n'est pas aussi simple qu'on pourrait le penser. On souhaiterait par conséquent partager certaines observations qui pourraient être utiles pour les praticiens.
[0069] Régularisation de modèle : quand on s'occupe d'un processus temporal pour lequel on vise à prévoir certaines propriétés d'événements futurs, aucune collecte de points de données historiques ne peut véritablement satisfaire aux exigences demandées à partir d'un ensemble de validation représentatif. La précision d'une prédiction le jour suivant tout juste la fin de l'ensemble d'entraînement est meilleure que pour les jours plus éloignés dans le futur, suggérant une dépendance au temps de la distribution conditionnelle. Quand on choisit les jours juste après la période d'apprentissage comme ensemble de validation, les résultats avec cet ensemble vont suggérer une petite régularisation du modèle. Mais ce choix a un effet contraire sur la performance pour les jours plus éloignés dans le futur. Un modèle exact et très fiable des données du jour sera probablement mauvais dans quelques jours, tandis qu'un modèle moins fiable du jour sera toujours valide dans quelques jours. Ceci est moins problématique pour les classificateurs d'ensembles tels que les forêts aléatoires, mais l'est pour les réseaux neuronaux. Un pur contournement consiste à utiliser un abandon (Dropouf) sur la structure de réseau. Il échantillonne des réseaux plus petits à partir de la structure complète, les entraîne indépendamment et finalement fait une moyenne des hypothèses de ces réseaux plus petits. Les prédictions basées sur cette hypothèse mise sous forme de moyenne sont plus stables dans le temps.
[0070] Apprentissage en ligne : la descente de gradient stochastique et les nombreuses variantes qui ont été développées pour l'entraînement de réseaux neuronaux (ADAM, RMSprop, Adagrad) sont capables de mettre à jour itérativement le modèle même à partir d'erreurs imprécises qui ont été estimées sur de petits ensembles d'exemples d'entraînement. Cette propriété se combine bien avec l'exigence qu'ont les commerces de maintenir à jour leurs modèles de détection avec le courant entrant de données d’authentifications, d'opérations ou de transactions.
[0071] Remarques concernant l'entraînement de LSTM : du fait de sa structure récurrente, la LSTM est susceptible d'un surapprentissage même quand les couches de LSTM n'ont que quelques nœuds. Par conséquent, il est recommandé de démarrer avec une structure plutôt petite et d'augmenter la taille avec précautions tant qu'il y a une raison de s'attendre à une performance de généralisation plus poussée. On a remarqué qu'une pénalité /2 conduit à une convergence bien plus lisse et des optima bien meilleurs qu'une pénalité L'optimiseur ADAM fonctionne bien mieux qu'un algorithme SGD conventionnel dans les présentes expériences puisqu'il estime un schéma de vitesse d'apprentissage approprié à la volée.
[0072] Approche combinée : qualitativement, il reste une seule différence entre les forêts aléatoires et les LSTM même après l'addition de particularités agrégées. Lors de transactions face à face, la LSTM détecte un ensemble de fraudes différent de celui de la forêt aléatoire, invariablement davantage différent qu'à l'intérieur des familles individuelles. On présume que cette différence peut être expliquée par la présence de schémas de succession plus distincts, qui sont guidés et encadrés par des contraintes du monde réel. Par conséquent, dans le scénario F2F, la combinaison d'un apprenant de séquence avec un apprenant statique et des particularités agrégées est susceptible d'améliorer encore davantage la précision de détection.
[0073] Suivant le type d'application, ou le type des fraudes, défauts ou anomalies dans une authentification, opération ou transaction que l'opérateur veut détecter, le système peut utiliser uniquement le réseau neuronal récurrent du type à mémoire à long et court terme (LSTM), ou le réseau neuronal pour l'apprentissage statistique du type d'arbre de décision, ou une combinaison des deux (voir la Figure 6).
[0074] On comprendra facilement, à la lecture de la présente description, que les caractéristiques de la présente invention, telles que globalement décrites et illustrées sur les figures, peuvent être agencées et conçues selon une large diversité de configurations différentes. Ainsi, la description de la présente invention et les figures qui l'accompagnent ne sont pas destinés à limiter la portée de l'invention, mais représentent uniquement des modes de réalisation sélectionnés.
[0075] L'homme du métier comprendra que les caractéristiques techniques d'un mode de réalisation donné peuvent en fait être combinées avec des caractéristiques d'un autre mode de réalisation, sauf si l'inverse est explicitement mentionné, ou s'il est évident que ces caractéristiques sont incompatibles. En outre, les caractéristiques techniques décrites dans un mode de réalisation peuvent être isolées des autres caractéristiques de ce mode, sauf si l'inverse est explicitement mentionné.
[0076] Il devrait apparaître de façon évidente à l'homme du métier que la présente invention permet des modes de réalisation sous de nombreuses autres formes spécifiques sans s'écarter de la portée définie par la protection visée. L'illustration et l'invention ne devraient pas être limitées aux détails donnés ci-dessus.

Claims (8)

  1. REVENDICATIONS
    1. Système d'apprentissage machine pour diverses applications informatiques permettant une fouille de texte pour la détection de défauts ou d'anomalies dans une authentification, transaction ou opération effectuée par l'application, comprenant :
    • un agencement matériel et logiciel formant un système de prétraitement ;
    • un agencement matériel et logiciel formant un réseau neuronal conduisant à un modèle de traitement de données enrichies agrégées, • un agencement matériel et logiciel pour l'injection de données enrichies agrégées dans le réseau neuronal, • un agencement matériel et logiciel pour valider l'authentification, opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.
  2. 2. Système selon la revendication 1, caractérisé en ce que le réseau neuronal entraînant le modèle de traitement est :
    - un réseau neuronal récurrent du type à mémoire à long et court terme (LSTM) ;
    - un réseau neuronal pour l’apprentissage statistique du type d'arbre de décision ; ou
    - une combinaison des deux.
  3. 3. Système selon la revendication 1 ou 2, dans lequel le réseau neuronal récurrent du type LSTM comprend au moins deux couches récurrentes et un Classificateur de Régression Logistique positionné audessus de la dernière couche récurrente prenant en compte le temps écoulé entre deux authentifications, opérations ou transactions.
  4. 4. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel pour valider l'authentification, opération ou transaction est paramétré avec une matrice d'indices de Jaccard afin que soit mesuré le degré de similarité entre les données de sortie d'un premier réseau neuronal du type LSTM et celles provenant d'un agencement matériel et logiciel d'un deuxième réseau neuronal pour l'apprentissage statistique du type d'arbre de décision et pour valider les résultats de l'un des deux réseaux neuronaux.
  5. 5. Système selon l'une des revendications précédentes, qui est utilisé pour une application informatique permettant une prédiction de risque à partir de la détection d'une fraude dans des opérations d'authentification d'objets de mémoire électronique contenant dans une zone une information secrète utilisée pour authentifier l'objet et son porteur.
  6. 6. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel formant un réseau neuronal récurrent entraînant un modèle de type LSTM utilise un GPU.
  7. 7. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel formant un système de prétraitement comprend :
    - au moins une première base de données contenant au moins un ensemble de schémas séquentiels de données brutes concernant ladite application informatique,
    - un agencement matériel et logiciel formant au moins une deuxième base de données contenant au moins un ensemble de données externes,
    - un agencement matériel et logiciel pour enrichir les données brutes au moyen des données externes,
    - un agencement matériel et logiciel pour agréger les données enrichies.
  8. 8. Système selon l'une des revendications précédentes, dans lequel le système de prétraitement utilise un mode multifil.
FR1756823A 2017-07-18 2017-07-18 Systeme d'apprentissage machine pour diverses applications informatiques Active FR3069357B1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FR1756823A FR3069357B1 (fr) 2017-07-18 2017-07-18 Systeme d'apprentissage machine pour diverses applications informatiques
US16/632,267 US11763137B2 (en) 2017-07-18 2018-07-13 Machine learning system for various computer applications
CN201880053753.5A CN110998608B (zh) 2017-07-18 2018-07-13 用于各种计算机应用程序的机器学习系统
EP18755710.3A EP3655893A1 (fr) 2017-07-18 2018-07-13 Systeme d'apprentissage machine pour diverses applications informatiques
PCT/EP2018/069176 WO2019016106A1 (fr) 2017-07-18 2018-07-13 Systeme d'apprentissage machine pour diverses applications informatiques

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1756823A FR3069357B1 (fr) 2017-07-18 2017-07-18 Systeme d'apprentissage machine pour diverses applications informatiques
FR1756823 2017-07-18

Publications (2)

Publication Number Publication Date
FR3069357A1 true FR3069357A1 (fr) 2019-01-25
FR3069357B1 FR3069357B1 (fr) 2023-12-29

Family

ID=60182698

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1756823A Active FR3069357B1 (fr) 2017-07-18 2017-07-18 Systeme d'apprentissage machine pour diverses applications informatiques

Country Status (5)

Country Link
US (1) US11763137B2 (fr)
EP (1) EP3655893A1 (fr)
CN (1) CN110998608B (fr)
FR (1) FR3069357B1 (fr)
WO (1) WO2019016106A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3109232A1 (fr) * 2020-04-10 2021-10-15 Advestis Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829866B1 (en) * 2017-12-27 2023-11-28 Intuit Inc. System and method for hierarchical deep semi-supervised embeddings for dynamic targeted anomaly detection
CN110362494B (zh) * 2019-07-18 2021-06-15 腾讯科技(深圳)有限公司 微服务状态信息展示的方法、模型训练方法以及相关装置
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment
CN111123894B (zh) * 2019-12-30 2021-09-07 杭州电子科技大学 一种基于lstm和mlp结合的化工过程故障诊断方法
JP6926279B1 (ja) * 2020-05-29 2021-08-25 楽天グループ株式会社 学習装置、認識装置、学習方法、認識方法、プログラム、及び再帰型ニューラルネットワーク
US11336507B2 (en) * 2020-09-30 2022-05-17 Cisco Technology, Inc. Anomaly detection and filtering based on system logs
US20220188837A1 (en) * 2020-12-10 2022-06-16 Jpmorgan Chase Bank, N.A. Systems and methods for multi-agent based fraud detection
CN112598118B (zh) * 2021-03-03 2021-06-25 成都晓多科技有限公司 有监督学习的标注异常处理方法、装置、存储介质及设备
CN113569993A (zh) * 2021-08-27 2021-10-29 浙江工业大学 一种聚合反应过程质量预测模型构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106600283A (zh) * 2016-12-16 2017-04-26 携程旅游信息技术(上海)有限公司 识别姓名国籍的方法、系统及判断交易风险的方法、系统
US10762423B2 (en) * 2017-06-27 2020-09-01 Asapp, Inc. Using a neural network to optimize processing of user requests

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"STUDIES IN COMPUTATIONAL INTELLIGENCE", vol. 247, 1 January 2009, Springer-Verlag Berlin Heidelberg, ISSN: 1860-949X, article BÉNARD WIESE ET AL: "Credit Card Transactions, Fraud Detection, and Machine Learning: Modelling Time with LSTM Recurrent Neural Networks", pages: 231 - 268, XP055458746, DOI: 10.1007/978-3-642-04003-0_10 *
ABDALLAH AISHA ET AL: "Fraud detection system: A survey", JOURNAL OF NETWORK AND COMPUTER APPLICATIONS, ACADEMIC PRESS, NEW YORK, NY, US, vol. 68, 13 April 2016 (2016-04-13), pages 90 - 113, XP029539503, ISSN: 1084-8045, DOI: 10.1016/J.JNCA.2016.04.007 *
ANDREA DAL POZZOLO ET AL: "Learned lessons in credit card fraud detection from a practitioner perspective", EXPERT SYSTEMS WITH APPLICATIONS, vol. 41, no. 10, 1 August 2014 (2014-08-01), GB, pages 4915 - 4928, XP055458801, ISSN: 0957-4174, DOI: 10.1016/j.eswa.2014.02.026 *
CORREA BAHNSEN ALEJANDRO ET AL: "Feature engineering strategies for credit card fraud detection", EXPERT SYSTEMS WITH APPLICATIONS, OXFORD, GB, vol. 51, 7 January 2016 (2016-01-07), pages 134 - 142, XP029409386, ISSN: 0957-4174, DOI: 10.1016/J.ESWA.2015.12.030 *
NUNO CARNEIRO ET AL: "A data mining based system for credit-card fraud detection in e-tail", DECISION SUPPORT SYSTEMS, vol. 95, 7 January 2017 (2017-01-07), NL, pages 91 - 101, XP055458718, ISSN: 0167-9236, DOI: 10.1016/j.dss.2017.01.002 *
YOSHIHIRO ANDO ET AL: "Detecting Fraudulent Behavior Using Recurrent Neural Networks", COMPUTER SECURITY SYMPOSIUM 2016, 11 October 2016 (2016-10-11), XP055458989 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3109232A1 (fr) * 2020-04-10 2021-10-15 Advestis Procede de prediction interpretable par apprentissage fonctionnant sous ressources memoires limitees

Also Published As

Publication number Publication date
EP3655893A1 (fr) 2020-05-27
WO2019016106A1 (fr) 2019-01-24
US20200257964A1 (en) 2020-08-13
FR3069357B1 (fr) 2023-12-29
CN110998608B (zh) 2024-02-20
US11763137B2 (en) 2023-09-19
CN110998608A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
FR3069357A1 (fr) Systeme d&#39;apprentissage machine pour diverses applications informatiques
Ahmed et al. Analysis survey on deepfake detection and recognition with convolutional neural networks
CN110992167A (zh) 银行客户业务意图识别方法及装置
WO2019129977A1 (fr) Detection d&#39;anomalies par une approche combinant apprentissage supervise et non-supervise
CN110084609B (zh) 一种基于表征学习的交易欺诈行为深度检测方法
FR2940694A1 (fr) Procede et systeme pour classifier des donnees issues de base de donnees.
Jonnalagadda et al. Credit card fraud detection using Random Forest Algorithm
Iqbal et al. Hybrid features prediction model of movie quality using Multi-machine learning techniques for effective business resource planning
Jain et al. Credit card fraud detection web application using streamlit and machine learning
Menaga et al. A Method for Predicting Movie Box-Office using Machine Learning
US11755958B1 (en) Systems and methods for detecting cryptocurrency wallet artifacts in a file system
Shen et al. Deep learning for multimodal-based video interestingness prediction
Janet et al. Credit Card Fraud Detection with Unbalanced Real and Synthetic dataset using Machine Learning models
EP3555816A1 (fr) Procédé de détermination de l&#39;appartenance d&#39;une donnée à une base de données et produit programme d&#39;ordinateur et support d&#39;informations associés
Chen et al. Feature selection on credit risk prediction for peer-to-peer lending
EP4070265A1 (fr) Méthode mise en uvre par ordinateur pour l&#39;allocation d&#39;une pièce comptable à un couple de comptes débiteur/créditeur et l&#39;écriture comptable
Frery Ensemble Learning for Extremely Imbalced Data Flows
Kang Fraud Detection in Mobile Money Transactions Using Machine Learning
Peng et al. Credit scoring model in imbalanced data based on cnn-atcn
Hardjono et al. Implementation of Data Mining for Churn Prediction in Music Streaming Company Using 2020 Dataset
Verma et al. A Smart Movie Recommendation System Using Machine Learning Predictive Analysis
ˇZiga Babnik et al. Diffiqa: Face image quality assessment using denoising diffusion probabilistic models
Soygazi et al. Matching potential customers and influencers for social media marketing
WO2023170303A1 (fr) Methode pour la detection d&#39;anomalie utilisant un modele global-local
Manikandan et al. Automated Cash Liquidity Flow Monitoring and Registry Using Deep Learning

Legal Events

Date Code Title Description
PLSC Publication of the preliminary search report

Effective date: 20190125

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

CA Change of address

Effective date: 20231124