FR3069357A1

FR3069357A1 - Systeme d'apprentissage machine pour diverses applications informatiques

Info

Publication number: FR3069357A1
Application number: FR1756823A
Authority: FR
Inventors: Olivier Caelen; Liyun He-Guelton; Pierre-Edouard Portier; Michael Granitzer; Konstantin Ziegler; Johannes Jurgovsky
Original assignee: Worldline SA
Current assignee: Worldline SA
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2019-01-25
Anticipated expiration: 2037-07-18
Also published as: EP3655893A1; WO2019016106A1; US20200257964A1; FR3069357B1; CN110998608B; US11763137B2; CN110998608A

Abstract

Il est mis à disposition un système d'apprentissage machine pour diverses applications informatiques permettant une fouille de texte pour la détection de défauts ou d'anomalies dans une authentification, transaction ou opération effectuée par l'application, comprenant : - un agencement matériel et logiciel formant un système de prétraitement ; - un agencement matériel et logiciel formant un réseau neuronal conduisant à un modèle de traitement de données enrichies agrégées, - un agencement matériel et logiciel pour l'injection de données enrichies agrégées dans le réseau neuronal, - un agencement matériel et logiciel pour valider l'opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.

Description

SYSTEME D'APPRENTISSAGE MACHINE POUR DIVERSES APPLICATIONS INFORMATIQUES

Domaine technique de l'invention [0001] L’invention concerne le domaine des systèmes de détection de fraude durant une authentification, en particulier durant une authentification, une opération ou une transaction.

Etat de la technique antérieure [0002] En raison du volume en constante augmentation des échanges électroniques, les divers acteurs recherchent constamment de nouvelles façons de détecter une fraude durant des authentifications, opérations ou transactions.

[0003] Avec la grande quantité de données que nous voyons de nos jours, l'observation humaine traditionnelle ne répond pas aux exigences essentielles pour l'établissement d'une détection précise d'une fraude étant donné la quantité, la diversité et la nature dynamique des comportements malveillants.

[0004] Les systèmes utilisant des procédés modernes basés sur des données et des méthodes d'apprentissage autonome commencent à être utilisés pour la détection de défauts dans des applications informatiques, comme par exemple des fraudes à l'authentification, en particulier celles liées à l'utilisation de cartes de crédit.

[0005] Pour ce faire, ces systèmes utilisent généralement des réseaux neuronaux dont l'apprentissage statistique est basé sur des forêts d'arbres décisionnels (forêts aléatoires) qui analysent un échantillonnage de données non séquentielles.

[0006] Néanmoins, l’utilisation d'un apprentissage par arbre décisionnel peut générer des arbres décisionnels très complexes qui généralisent mal l'ensemble de formation et conduisent à l'acceptation d'une identification frauduleuse qui ne va pas être détectée.

[0007] On a par conséquent besoin d'un système rendant possible l'identification d'anomalies qui ne sont pas détectées par les réseaux neuronaux dont l'apprentissage statistique est basé sur des forêts d'arbres décisionnels (forêts aléatoires).

Description de l'invention [0008] L’objet de la présente invention consiste donc à proposer un système pour détecter une fraude durant une identification, permettant de surmonter au moins certains des inconvénients de la technique antérieure, en proposant un système d'apprentissage machine pour diverses 15 applications informatiques permettant une fouille de textes pour la détection de défauts ou d'anomalies dans une authentification, opération ou transaction effectuée par l'application, comprenant :

- un agencement matériel et logiciel formant un système de prétraitement ;

- un agencement matériel et logiciel formant un réseau neuronal conduisant à un modèle de traitement de données enrichies agrégées,

- un agencement matériel et logiciel pour l'injection de données enrichies agrégées dans le réseau neuronal,

- un agencement matériel et logiciel pour valider l’opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.

[0009] Le réseau neuronal entraînant le modèle de traitement est avantageusement :

- un réseau neuronal récurrent de type à mémoire à long et court terme (LSTM) ;

- un réseau neuronal pour l'apprentissage statistique du type d'arbre de décision ; ou

- une combinaison des deux.

[0010] Avantageusement, le réseau neuronal récurrent du type LSTM comprend au moins deux couches récurrentes et un Classificateur de Régression Logistique positionné au-dessus de la dernière couche récurrente prenant en compte le temps écoulé entre deux authentifications, opérations ou transactions.

[0011] Avantageusement, l’agencement matériel et logiciel pour valider l’authentification, opération ou transaction est paramétré avec une matrice d'indices de Jaccard afin que soit mesuré le degré de similarité entre les données de sortie d'un premier réseau neuronal du type LSTM et celles provenant d'un agencement matériel et logiciel d'un deuxième réseau neuronal pour l'apprentissage statistique du type d'arbre de décision et pour valider les résultats de l'un des deux réseaux neuronaux.

[0012] Il est avantageusement utilisé pour une application informatique permettant une prédiction de risque à partir de la détection d'une fraude dans des opérations d'authentification d'objets de mémoire électronique contenant dans une zone une information secrète utilisée pour authentifier l'objet et son porteur.

[0013] Avantageusement, l'agencement matériel et logiciel formant un réseau neuronal récurrent entraînant un modèle de type LSTM utilise un GPL).

[0014] Avantageusement, l’agencement matériel et logiciel formant un système de prétraitement comprend :

- au moins une première base de données contenant au moins un ensemble de schémas séquentiels de données brutes concernant ladite application informatique,

- un agencement matériel et logiciel formant au moins une deuxième base de données contenant au moins un ensemble de données externes,

- un agencement matériel et logiciel pour enrichir les données brutes au moyen des données externes,

-un agencement matériel et logiciel pour agréger les données enrichies.

[0015] Avantageusement, le système de prétraitement utilise un mode multifil.

Brève description des figures [0016] D'autres caractéristiques, détails et avantages de l'invention apparaîtront de façon évidente à la lecture de la description qui suit, en référence aux figures jointes, dans lesquelles :

- La Figure 1 est une représentation schématique d'un réseau neuronal récurrent déroulé dans le temps par création d'une copie du modèle pour chaque étape de temps.

- La Figure 2 montre des courbes de précision-rappel moyennées sur tous les jours dans l'ensemble de test (la figure montre les résultats de la LSTM sur des séquences Longues).

- La Figure 3 montre l'évolution de l'AUPCR sur tous les jours de test. Les lignes pointillées horizontales indiquent l'AUPCR moyen pour chaque courbe (la figure montre les résultats de la LSTM sur des séquences Longues).

- La Figure 4 montre une comparaison par paires des ensembles de positifs vrais de deux modèles mesurés avec l'indice de Jaccard et encodés en couleurs dans une carte de densité ;

- La Figure 5 montre l'architecture d'entraînement d'un modèle de LSTM.

- La Figure 6 montre un méta-classificateur qui combine le modèle de LSTM et le modèle de forêts aléatoires.

- La Figure 7 montre une charpente de détection de fraude selon l'invention.

Description détaillée de différents modes de réalisation de l'invention [0017] La description qui suit se focalise sur une application de détection des fraudes à la carte de crédit du système, mais elle peut s'appliquer à d'autres fraudes, défauts ou anomalies dans une authentification, opération ou transaction effectuée par diverses applications exécutées par un système ou réseau informatique.

[0018] En fonction de la perspective envisagée, les authentifications, opérations ou transactions frauduleuses peuvent être comprises comme des anomalies dans le comportement d'achat de consommateurs ou comme un ensemble de données aberrantes dans la classe des authentifications, opérations ou transactions véritables qui elles-mêmes forment une classe s'opposant aux transactions frauduleuses. Dans tous les cas, dans l'espace caractéristique, les fraudes se mêlent très bien aux authentifications, opérations ou transactions véritables, pour deux raisons. Premièrement, les actions d'achat véritables faites par des millions de consommateurs couvrent naturellement un large spectre de variabilité. Et deuxièmement, les fraudeurs appliquent diverses stratégies inscrutables, quoique rationnelles, pour effectuer des actes frauduleux qui couvrent plusieurs comptes de consommateurs sur diverses périodes de temps - mais à la fin, ces actes vont de même apparaître uniquement comme des authentifications, opérations ou transactions individuelles dans un ensemble de données. Des actions d'achat identiques peuvent en même temps refléter soit un comportement complètement légitime dans le contexte de certains consommateurs, soit des anomalies évidentes dans le contexte d'autres consommateurs.

[0019] Afin de supporter une meilleure discrimination parmi des authentifications, opérations ou transactions qui sont difficiles à distinguer, nous avons identifié deux approches qui nous permettent de résumer l'historique des transactions de consommateurs et d'utiliser ce résumé durant la classification de transactions individuelles. Le premier procédé est une pratique bien établie dans le domaine de la détection des fraudes à la carte de crédit, et il se base sur une ingénierie de particularité manuelle. Avec le deuxième procédé, nous nous focalisons sur la récupération de la structure séquentielle de l'historique d'authentifications, d'opérations ou de transactions d'un utilisateur en modélisant les dynamiques de transition entre des authentifications, opérations ou transactions au moyen d'un réseau neuronal récurrent.

[0020] Un réseau de mémoire à long et court terme (LSTM) est une variante spéciale d'un réseau neuronal récurrent (RNN). Les réseaux neuronaux récurrents ont été développés dans les années 1980 [Williams et Hinton, 1986, Werbos, 1988, Elman, 1990] pour une modélisation des séries temporelles. La structure d'un RNN est similaire à celle d'une perception multicouche standard, avec comme différence qu'elle permet des connexions parmi des unités cachées associées à des étapes temporelles discrètes. Les étapes temporelles indexent les éléments individuels dans une séquence d'entrée. Par l'intermédiaire des connexions entre des étapes temporelles, le modèle peut conserver des informations concernant les entrées passées, ce qui lui permet de découvrir des corrélations temporelles entre des événements qui sont éventuellement éloignés les uns des autres dans la séquence d'entrée. Ceci constitue une propriété cruciale pour l'apprentissage approprié de séries temporelles dans lesquelles l'occurrence d'un événement est susceptible de dépendre de la présence de plusieurs autres événements encore plus éloignés dans le temps.

[0021] Un réseau neuronal générique, avec une entrée x_f et un état s_fpour une étape temporelle t, est représenté par l'équation 1.

s_t = Wa(s_t_i) + Ux_f + b (1) [0022] Les paramètres du modèle Θ = {W, U, b} sont donnés par la matrice de poids récurrente W, la matrice de poids d'entrées U et les biais b. L'état initial s₀ est le vecteur zéro et σ est une certaine fonction d'activation par élément non linéaire - tanh dans le présent cas. Un coût ε mesure la performance du réseau sur une certaine tâche donnée et est typiquement composé des coûts à toutes les étapes temporelles

Un tel coût composite va être applicable, par exemple, à des tâches de marquage de texte, pour lesquelles une étiquette est attribuée à chaque mot entré. Dans le présent cas, on ne prédit que l'étiquette de la dernière authentification, opération ou transaction dans une séquence.

[0023] La distribution sur des classes de fraude et de non fraude, l'état Sjétant donné, est modélisée au moyen d'un modèle de sortie de régression

d'une authentification, opération ou transaction comme étant la probabilité x_f qu'elle appartienne à la classe 0 ou 1, et on mesure le coût induit par les probabilités prédites par le modèle au moyen de l'erreur d'entropie croisée, définie par

S_t = = -Utkvüh - (1 - Ht ) - Ht) [0024] Les paramètres de modèle Θ sont appris par une minimisation du coût St avec un procédé d'optimisation basé sur un gradient. Une approche que l'on peut utiliser pour calculer les gradients requis est la rétropropagation dans le temps (BPTT). La BPTT fonctionne en déployant un réseau récurrent dans le temps pour le représenter comme un réseau multicouche profond avec autant de couches cachées qu'il y a d'étapes temporelles (voir la Figure 1). Ensuite, l'algorithme de rétropropagation bien connu [Williams et Hinton, 1986] est appliqué sur le réseau déployé.

[0025] Bien qu'en principe le réseau récurrent soit un modèle simple et puissant, en pratique il est difficile de l'entraîner de façon appropriée avec une pente de gradient. Parmi les nombreuses raisons pour lesquelles ce modèle est si laborieux, il y a deux problèmes majeurs qui ont été appelés problème de disparition et d'explosion de gradient [Bengio et al., 1994].

[0026] Avec la connexion récurrente entre des états latents, le paramètre Θ affecte l'erreur à travers non seulement le dernier état, mais aussi tous les états antérieurs. De même, l'erreur dépend de W à travers tous les états s. Cette dépendance devient problématique quand on calcule le gradient de

d£_t / d£t ds_t ds_k \ \<9st Osk d0 ) i<k<t ^x [0027] La matrice jacobienne ®^Sfc contient toutes les interactions de composants entre l'état Sk et l'état st. On peut la comprendre comme un moyen pour ramener l'erreur de l'état t à l'état k. Elle se présente comme un produit de toutes les interactions appariées entre des états consécutifs :

A O

CzSj y—r C/Sj âsfc Al âs^i ^K t>i>k ¹

[0028] Ce produit est la véritable raison pour laquelle il est si difficile d'apprendre des dépendances sur le long terme avec des procédés d'optimisation basés sur un gradient. Plus la dépendance entre t et k est a_S1 gt longue, et plus il y a de facteurs qui deviennent multipliés en * , en conséquence de quoi la norme du gradient augmente ou diminue exponentiellement avec t - k. Chaque facteur Os,_i met en jeu à la fois la matrice de poids récurrente et la dérivée ^σ (^si—1)'. [Pascanu et al., 2013] montrent qu'il suffit que la valeur propre la plus importante de la matrice de poids récurrente soit inférieure à 1 pour que des composants sur le long terme disparaissent, et il suffit qu'elle soit supérieure à 1 pour que les gradients explosent.

[0029] Il existe plusieurs solutions pour réduire ces problèmes. L'utilisation d'une pénalité L1 ou L2 sur la matrice de poids récurrente peut assurer que la valeur propre la plus importante ne dépasse jamais 1, étant donné une initialisation avec des poids suffisamment petits. Une autre proposition se base sur la supposition que si le modèle présente dès le début le même type de comportement asymptotique que celui requis par la cible, alors les gradients sons moins susceptibles d'exploser [Doya, 1993].

Toutefois, il n'est pas insignifiant d'initialiser un modèle dans ce régime spécifique. Une troncation de gradient constitue une autre approche radicale qui met en jeu la troncation de composants par éléments du gradient quand ils dépassent un seuil fixé [Mikolov et al., 2011]. Finalement, une solution pour éviter le problème de disparition de gradient a été proposé par [Hochreiter et Schmidhuber, 1997] par élimination de la dépendance directe

Hsj à une matrice de poids récurrente dans dst-t [Bayer, 2015]. Cette structure de réseau modifiée est appelée réseau de mémoire à court et long terme (LSTM), et constitue l'état de la technique pour de nombreuses tâches mondiales réelles telles que la reconnaissance vocale, la reconnaissance d'écriture manuscrite et la traduction machine statistique.

[0030] En alternative à la modélisation de séquences d'authentification, d'opération ou de transaction avec une LSTM, on emploie une ingénierie de particularité traditionnelle.

[0031] Agrégations de particularités : un moyen pour extraire des informations à partir d'une séquence d'authentification, d'opération ou de transaction consiste à agréger les valeurs de certaines variables le long de la séquence. Pour assembler ces agrégations de particularités, on suit la procédure qui a récemment été proposée par [Bahnsen et al., 2016]. Cette procédure, simple mais puissante, peut être considérée comme constituant l'état de la technique d'ingénierie de particularité dans la détection de fraudes à la carte de crédit. Ils ajoutent de nouvelles particularités à chaque authentification, opération ou transaction en fonction de certaines règles prédéfinies. La valeur d'une nouvelle particularité est calculée avec une fonction d'agrégation appliquée à un sous-ensemble des transactions précédentes. Le but est de créer un enregistrement des activités à partir de l'historique des authentifications, opérations ou transactions d'un porteur de carte, qui quantifie le degré avec lequel l'authentification, opération ou transaction en cours se conforme aux précédentes.

[0032] On considère que _est |_a séquence d'authentifications, opérations ou transactions, ordonnée temporellement, d'un porteur de carte donné, où t indexe les authentifications, opérations ou transactions individuelles dans sa séquence. On indique la valeur d'une variable particulière dans une authentification, opération ou transaction par

JM un exposant: par exemple, * * est la quantité utilisée dans une authentification, opération ou transaction x_t. En se basant sur une seule authentification, opération ou transaction x_k , on sélectionne un sousensemble d'authentifications, opérations ou transactions du passé jusqu'à un horizon temporel maximal t_h et en fonction de certaines variables nominales A et B :

[0033] L’ensemble S_k contient toutes les authentifications, opérations ou transactions des t_h heures précédant x_k, où les variables nominales A et B ont pris les mêmes valeurs que pour x_k. Les variables nominales A et B et l'horizon temporel t_h peuvent être considérés comme des contraintes imposées au sous-ensemble. Par exemple, si on définit A := Pays, B := MCC et t_h = 24, le sous-ensemble S_k contient toutes les authentifications, opérations ou transactions des 24 heures précédentes qui ont été effectuées dans le même pays et dans la même catégorie de marchands que l'authentification, opération ou transaction x_k.

[0034] On peut maintenant définir des fonctions d'agrégation sur S_k. Il y a de nombreuses possibilités pour définir de telles fonctions, et même si toutes sont susceptibles d'être également valides, on se limite aux deux fonctions qui ont été proposées par les auteurs : la quantité totale dépensée et le nombre de transactions.

sommes^ = compte^ =

(6)

La paire (sommes^, comptes^) correspond à une seule contrainte donnée par A, B et t_h. Afin de couvrir une plus large gamme de statistiques à partir de l'historique d'authentifications, d'opérations ou de transactions, on calcule ces paires pour toutes les combinaisons des variables nominales pays, catégorie de marchand, et mode d'entrée de carte, à l'intérieur d'un horizon temporel de 24 heures. Finalement, on rajoute toutes ces paires au vecteur de particularité d'authentification, d'opération ou de transaction x_k.

[0035] Delta temps : un lecteur de séquences détecte des schémas dans des séquences de transactions consécutives. On suppose que ces schémas ressemblent à une certaine forme de comportement d'achat latent de porteurs de carte. Si cela est, les schémas comportementaux devraient être invariants aux points concrets dans le temps quand les actions d'achat ont été réellement effectuées. Pour supporter une normalisation temporelle sur des séquences d'entrée qui chevauchent des périodes de temps très différentes, on extrait le temps en minutes entre deux authentifications, opérations ou transactions consécutives, et on l'ajoute explicitement sous la forme d'une particularité additionnelle :

[0036] Tout comme dans n'importe quelle tâche de modélisation statistique, on peut observer le phénomène véritable dans le monde réel uniquement par l'intermédiaire d'un mandataire indiqué comme étant un jeu fini d'observations ponctuelles.

[0037] Dans la détection de fraudes à la carte de crédit, le vrai phénomène intéressant est le comportement d'achat véritable des porteurs de carte ou, de même, le comportement malveillant des fraudeurs. On suppose que cet objet, que l'on appelle approximativement le comportement, est contrôlé par certaines qualités latentes mais cohérentes. Avec ses variables d'état, la LSTM est en principe capable d'identifier ces qualités à partir de la séquence d'observations.

[0038] Dans le monde réel, les conventions sociétales, les réglementations officielles ou la simple physique imposent des contraintes sur la variabilité potentielle d'observations et par conséquent sur la complexité des qualités qui les contrôlent. Par exemple, les heures d'ouvertures limitent strictement quand et où les consommateurs sont susceptibles d'acheter leurs biens ou services. Les distances géographiques et les modalités de déplacement limitent les possibilités de transactions consécutives. On peut s'attendre à ce que toutes les authentifications, opérations ou transactions face à face que l'on observe dans la présente base de données respectent, dans une certaine mesure, ces contraintes du monde réel. Par contraste, les authentifications, opérations ou transactions de commerce électronique, ou plutôt leurs achats en ligne correspondants, sont largement sans contrainte, tant pour le moment que pour le lieu. Il n'y a pratiquement aucun attribut qui ne puisse pas changer réellement de manière arbitraire entre une authentification, opération ou transaction et la suivante.

[0039] On suppose que la présence de contraintes, dans le monde réel, dans les transactions face à face conduit à des schémas comportementaux plus évidents avec moins de variations. Dans ce cas, un apprenant de séquence va tirer avantage d'une structure séquentielle plus régulière.

[0040] En étant motivé par les considérations et les analyses statistiques antérieures concernant le comportement d'achat dans le monde réel, on a décidé d'étudier séparément l'impact d'un apprenant de séquence sur la précision de détection lors d'authentifications, opérations ou transactions de commerce électronique et face à face. Les résultats sont contrastés avec un non apprenant de séquence, autrement dit une forêt aléatoire.

[0041] Sur la base d'un ensemble de données d'authentifications, opérations ou transactions étiquetées de carte de crédit, enregistré entre mars et mai 2015, on a créé des ensembles de données de la façon suivante : toutes les authentifications, opérations ou transactions d'un porteur de carte identifié sont groupées et les authentifications, opérations ou transactions de chaque porteur de carte sont triées en fonction du temps. En résultat, on obtient une séquence ordonnée temporellement d'authentifications, opérations ou transactions pour chaque porteur de carte. Dans le reste de ce travail, cette séquence est appelée le compte d'un porteur de carte, et l'ensemble complet de tous les comptes est appelé l'ensemble de données de séquence. L'ensemble de données de séquence est en outre divisé en deux ensembles mutuellement exclusifs : un ensemble de données de séquence contient uniquement les authentifications, opérations ou transactions de commerce électronique (ECOM), et l'autre contient uniquement les authentifications, opérations ou transactions effectuées dans des points de vente (F2F).

Tableau 1 : tailles d'ensembles de données et proportions de fraudes

	Ensemble d'entraînement (01/03-25/04)	Ensemble de validation (26/04 - 30/04)	Ensemble de test (08/05-31/05)
ECOM	2,9 x10^e 1,48%	0,6 x 10⁶ 0,38 %	3,3 x 10^e 0,42 %
F2F	4,3 x 10⁶ 0,81 %	0,7 x10^e 0,07 %	4,7 x 10^b 0,05 %

[0042] Echantillonnage de comptes : Une particularité typique des problèmes de détection de fraudes est le fort déséquilibre entre la classe minoritaire (transactions frauduleuses) et la classe majoritaire (transactions authentiques). La fraction globale des authentifications, opérations ou transactions frauduleuses se porte habituellement à environ 0,5 % ou moins. Dans l'ensemble de données F2F, les fraudes surviennent avec une fréquence inférieure d'un ordre de grandeur en comparaison avec l'ensemble de données ECOM, ce qui aggrave encore davantage le problème de détection. Des études de la littérature [Bhattacharyya et al., 2011] et des expériences antérieures ont montré qu'une certaine forme de souséchantillonnage de la classe majoritaire sur l'ensemble d'entraînement améliore l'apprentissage. Toutefois, contrairement aux ensembles de données basés sur les transactions, dans lesquels les authentifications, opérations ou transactions sont considérées comme des exemples d'entraînement indépendants, on ne peut pas appliquer une telle stratégie de sous-échantillonnage à un ensemble de données de séquence. Par conséquent, on emploie le sous-échantillonnage au niveau des comptes. A ce propos, un compte est considéré être compromis s'il contient au moins une authentification, opération ou transaction frauduleuse, et est considéré être authentique s'il ne contient que des transactions authentiques. On a employé un simple processus d'échantillonnage basé sur les comptes pour construire l'ensemble d'entraînement. Avec une probabilité p_g = 0,9, on a sélectionné au hasard un compte dans l'ensemble de comptes authentiques et, avec une probabilité 1 - p_g, on a sélectionné un compte dans l'ensemble de comptes compromis. Ce processus est répété 10⁶ fois pour créer un ensemble d'entraînement avec un million de comptes. Le rapport de fraude de facto au niveau des transactions est toujours inférieur à 1/10, mais on trouve que cette approche simple fonctionne bien en pratique. Voir le Tableau 1 pour des détails concernant les tailles des ensembles de données et les périodes de temps.

[0043] Réalité de terrain différée : La présente période de test commence plus d'une semaine après la période d'entraînement. La raison de cette décision est double : dans un système de production, les étiquettes d'authentifications, opérations ou transactions ne sont disponibles qu'après que des enquêteurs humains ont vérifié les transactions. Par conséquent, la disponibilité d'une réalité de terrain précise est toujours différée d'une semaine environ. La deuxième raison est que la classification est typiquement plus précise sur des authentifications, opérations ou transactions récentes qui suivent de près la période d'entraînement. Mais cette précision et susceptible d'être une évaluation excessivement optimiste de la performance du classificateur dans un système de production, puisqu'en pratique on ne va toujours pas avoir accès aux véritables étiquettes.

[0044] Alignement des ensembles de données : Tant la forêt aléatoire que la LSTM ont été entraînées pour prédire l'étiquette de transactions individuelles. Il y a toutefois une différence qu'il faut prendre en compte dans les expériences. Avec une LSTM, on peut uniquement prédire l'étiquette d'une authentification, opération ou transaction après que plusieurs authentifications, opérations ou transactions l'ont précédée, tandis qu'avec la forêt aléatoire, aucune transaction antérieure n'est requise. Pour améliorer la comparabilité des résultats, on prend en compte cette différence en retirant toutes les authentifications, opérations ou transactions qui ne sont pas précédées d'au moins w = 9 transactions antérieures. La forêt aléatoire (RF) et la LSTM peuvent maintenant être entraînées, validées et testées sur des ensembles identiques de transactions. Pour étudier l'influence de la longueur de la séquence d'entrée sur les prédictions LSTM, on ne garde que 4 (COURTE) ou 9 (LONGUE) authentifications, opérations ou transactions antérieures en entrée.

[0045] Comme les données collectées durant une authentification, opération ou transaction de carte de crédit doivent se conformer aux normes NIIF (normes internationales d'information financière), l'ensemble des particularités brutes est très similaire dans toute la littérature. Par conséquent, on a retiré toutes les particularités spécifiques d'un commerce et conservé uniquement celles qui sont couramment utilisées dans d'autres études [Bhattacharyya et al., 2011, Bahnsen et al., 2016, Carneiro et al., 2017], Afin de déterminer l'impact de particularités additionnelles sur la précision d'une classification, on a défini trois ensembles de particularités.

[0046] Le premier ensemble de particularités (BASE) contient toutes les particularités brutes après que les variables spécifiques d’un commerce ont été retirées. Comme les fraudes n'apparaissent généralement pas isolément mais plutôt sous la forme d'éléments de séquences de fraudes complètes qui peuvent s'étendre sur plusieurs heures ou jours, on a retiré l'identité du porteur de carte de l'ensemble de particularités. Sinon, un classificateur pourrait simplement se rappeler les identités de porteurs de cartes ayant des comptes compromis et prendre des décisions uniquement dans cet ensemble bien plus petit de transactions. Toutefois, en pratique, on voudrait plutôt savoir s'il y a une authentification, opération ou transaction frauduleuse et ensuite rendre le compte compromis. Le deuxième ensemble de particularités (TDELTA) contient toutes les particularités de l'ensemble 5 BASE plus la particularité delta-temps telle que décrite dans la section 3.2.

Ce troisième ensemble de particularités (AGG) contient toutes les particularités de l'ensemble TDELTA plus 14 particularités agrégées comme décrit ci-dessus. On a agrégé les authentifications, opérations ou transactions des 24 heures précédentes en termes de la quantité et du 10 nombre des authentifications, opérations ou transactions sur la base de toutes les combinaisons des variables nominales term-mcc, term-country et card-entry-mode. Voir le Tableau 2 pour une vue d'ensemble des particularités.

Tableau 2 : liste des particularités dans les présents ensembles de données.

Les particularités marquées (*) sont des particularités composites composées de plusieurs particularités de niveau inférieur.

Particularité	Type
TERM-MCC	Nominal
TERM-COUNTRY	Nominal
TX-AMOUNT	Proportionnel
TX-DATETIME (*)	Nominal
TX-3D-SECURE	Nominal
TX-EMV	Nominal
TX-LOCAL-CURRENCY	Nominal
TX-LOCAL-AMOUNT	Proportionnel
TX-PROCESS	Nominal
TX-CARD-ENTRY-MODE	Nominal
BROKER	Nominal
CARD-BRAND	Nominal
CARD-EXPIRY	Nominal

CARD-TYPE	Nominal
CREDIT-LIMIT	Proportionnel
CARD-AUTHENTICATION	Nominal
TDELTA	Proportionnel
AGGREGATIONS (*)	Proportionnel

[0047] Variables proportionnelles : on a appliqué une normalisation gaussienne à des variables proportionnelles telles que la quantité d'authentifications, d'opérations ou de transactions ou la limite de crédit pour centrer la variable sur μ = 0 avec un écart type σ = 1. Cette normalisation n'a pas d'effet sur l'apprentissage d'une forêt aléatoire, mais elle accélère la convergence d'optimisation basée sur un gradient dans les réseaux neuronaux.

[0048] Variables nominales : dans le cas de la forêt aléatoire, les variables nominales peuvent être utilisées juste telles quelles. On a seulement établi une correspondance entre chaque valeur et un nombre entier. Dans le cas des réseaux neuronaux, on a voulu éviter d'avoir des vecteurs d'une seule particularité encodée par jeton (encodage one-hot) à dimension très élevée. On a, par conséquent, employé un mécanisme d'encodage d'étiquette qui est très populaire dans le domaine du traitement du langage naturel et des réseaux neuronaux, Collobert et al. [2011], Socher et al. [2013], Tang et al. [2014], et qui est applicable pour donner un caractère arbitraire à des variables nominales autres que mots [Guo et Berkhahn, 2016], Pour une variable nominale avec son ensemble de valeurs C, on a attribué à chaque valeur un vecteur de poids aléatoire à d dimensions v, qui provient d'une distribution uniforme à plusieurs variables v ~ U ([-0,05, 0,05]^d), avec d = riog₂(|C|)l

Les valeurs de particularité et leurs vecteurs correspondants (intégrations de vecteurs des valeurs de particularité) sont stockés à l’intérieur d'un dictionnaire. Pour encoder une valeur particulière de la variable nominale, on regarde la valeur de la particularité dans le dictionnaire et récupère son vecteur. Les vecteurs en intégration font partie des paramètres du modèle et peuvent être ajustés conjointement durant l'estimation des paramètres.

[0049] Fonction de temps : on considère la fonction de temps comme une composition de plusieurs variables nominales. Pour chaque résolution temporelle de la fonction de temps, c'est-à-dire l'année, le mois, le jour ouvré, le jour, l'heure, la minute et la seconde, on définit une variable nominale de la même façon que celle décrite ci-dessus.

[0050] Le réseau de mémoire à long et court terme a deux couches récurrentes et un classificateur de régression logistique empilé au-dessus de la dernière couche. Le classificateur de régression logistique peut être entraîné conjointement avec le modèle de transition d'état de LSTM via une rétropropagation d'erreur. On applique un abandon [Srivastava et al., 2014] aux nœuds de LSTM pour régulariser les paramètres et on entraîne tout le modèle en minimisant l'entropie croisée entre la distribution de classes prédite et la distribution de classes véritable avec l'algorithme ADAM. La présente implémentation se base sur la bibliothèque d'apprentissage profond Keras.

[0051] Comme on étudie les avantages potentiels d'une approche d'apprentissage de séquence basée sur une LSTM par rapport à un apprenant statique, il faut extraire une instance de la classe des apprenants statiques. On choisit ici de la comparer à des forêts aléatoires. Dans des expériences antérieures, on a observé que les forêts aléatoires constituent une forte base de référence pour cette tâche, qui explique aussi son usage largement répandu pour la détection des fraudes [Carneiro et al., 2017, Bahnsen et al., 2016, Ngai et al., 2011]. On utilise l'implémentation de forêts aléatoires de SciKit-Learn.

[0052] Recherche en quadrillage : tant la forêt aléatoire (RF) que la LSTM doivent être paramétrées avec des hyper-paramètres. On a recherché l'espace des configurations en hyper-paramètres possibles en termes d'un quadrillage grossier chevauché par un sous-ensemble de tous les hyper paramètres (voir le Tableau 3). On a ensuite sélectionné la configuration avec la valeur AU CP R₀,2 maximale sur l’ensemble de validation.

Tableau 3 : hyper-paramètres pris en considération durant la recherche en quadrillage

RF	LSTM
Feuille d'échantillonnage min {1,3, 10}	Vitesse de lecture {10^-2, 10~³, 10⁴}
Critère de séparation {gini, entropy}	Abandon {0,2, 0,5, 0,8}
Particularités max {5, 10}	Noeuds (par couche) {20, 100}
Arbres {100, 600}

[0053] Deux critères guident la sélection de valeurs métriques convenables de performances : la robustesse vis-à-vis de classes déséquilibrées et l'attention aux intérêts spécifiques d'un commerce.

[0054] AUCPR : on a employé une courbe de précision-rappel (PR) et en particulier la zone sous cette courbe pour quantifier la précision de détection. Chaque point sur la courbe PR correspond à la précision du classificateur à un niveau spécifique de rappel. Par conséquent, la courbe dans sa totalité donne une image complète de la précision d'un classificateur et de sa robustesse même dans des réglages déséquilibrés. L'intégrale audessus de cette courbe engendre un résumé à valeur unique de la performance, et on l'appelle AUCPR.

[0055] AUCPR@0.2 : du point de vue du commerce, un faible rappel et une précision élevée sont préférables à un rappel élevé et une faible précision. Un choix typique consiste par conséquent à mesurer la précision sur les K premiers éléments dans la liste de résultats hiérarchisés. Cette précision à K correspond à un point isolé sur la courbe PR et est susceptible de varier en raison des différents chois pour K. Afin de refléter les intérêts commerciaux et d'éviter un problème de variabilité, on suggère d'utiliser l'intégrale sur la courbe PR calculée jusqu'à un certain niveau de rappel (0,2 dans les présentes expériences). La valeur maximale pour AUCPR@0.2 est de 0,2.

[0056] Indice de Jaccard : pour explorer les différences qualitatives entre les deux présentes approches, on a utilisé l'indice de Jaccard afin de mesurer le degré auquel deux classificateurs sont similaires en termes des fraudes qu'ils détectent. Avec deux ensembles de résultats (positifs vrais) A q( a p) _ |Art8| et B donnés, l'indice de Jaccard est défini par ° |AuB| Le seuil de décision est réglé à s.t. et correspond à un rappel de 0,2.

[0057] Economies : les économies constituent une autre mesure métrique qui est souvent utilisée dans le domaine de la détection de fraudes à la carte de crédit. Elles mesurent le bénéfice monétaire d'un certain algorithme par rapport à un accepteur/réjecteur trivial et se basent sur une matrice de coûts prédéfinie. Un test d'un classificateur binaire sur une unique authentification, opération ou transaction peut avoir quatre résultats possibles définis par les deux prédictions (p = 0 ou p = 1) et les deux jugements véritables (y = 0 ou y = 1). A chacun de ces résultats, on peut associer un coût monétaire induit par un processus d'investigation qui accepte p en tant que décision à la lumière de l'étiquette véritable y. Le Tableau 4 présente la matrice de coûts.

Tableau 4 : matrice de coûts

	y = 1	y = 0
p - 1	Cp + Ccb	Cp
p = 0	g(xi)	0

Les entrées individuelles sont composées d'un coût de traitement C_p, d'une réimputation C_cb et d'un coût dépendant de la transaction g(·). g représente la perte d'argent due aux fraudes se produisant pendant que le processus d'investigation est en cours. Elle est définie par : _g(_Xi) = ^2 y^(Amt) (8) [0058] où F, est l'ensemble d'authentifications, opérations ou transactions frauduleuses qui surviennent jusqu’à T heures après l'authentification, opération ou transaction x_r.

Ti = {.r_t\heures < T Λ ’ = 1}£ (9) [0059] En raison des réglementations commerciales, on ne peut pas donner de détails sur les valeurs particulaires de C_p, C_Cb et T. On peut toutefois affirmer clairement qu'à l'extérieur d'un contexte commercial particulier, il n'y a pas de raison pour rapporter une performance de classification de modèles statistiques en termes d'économies d'argent. Cette mesure dépend entièrement de la matrice de coûts. On a incorporé cette valeur métrique uniquement parce qu'on a trouvé qu'elle était couramment utilisée dans des travaux apparentés. Par contraste, l'AUCPR devrait constituer une valeur métrique de choix pour des comparaisons entre différentes méthodes de classification. Elle est objective et donc permet des conclusions plus générales qui sont valides également à l'extérieur d'un contexte commercial particulier.

[0060] On a qualifié un modèle pour chaque combinaison d'ensemble de particularités, d'ensemble de données et de longueur de séquence, puis on a testé sa performance de classification sur l'ensemble de test détenu. Dans le cas des forêts aléatoires, la longueur de la séquence d'entrée n'a pas d'influence sur le modèle puisque seule la dernière authentification, opération ou transaction de la séquence d'entrée est utilisée. On a évalué les modèles qualifiés sur chacun des 24 jours de test individuellement, et on rapporte leur performance moyenne en regard des valeurs métriques définies ci-dessus.

[0061] Le Tableau 5 et le Tableau 6 montrent un résumé des résultats pour les ensembles de données de face à face et de commerce électronique. Une première observation est que la précision de détection globale est bien supérieure sur l'ECOM que sur le F2F, ce qui peut s'expliquer par la plus forte proportion de fraudes dans l'ECOM. Deuxièmement, des séquences d'entrée plus longues semblent ne pas avoir d'effet sur la précision de détection, ni pour F2F ni pour ECOM. Troisièmement, la prise en compte des authentifications, opérations ou transactions antérieures avec une LSTM améliore notablement la détection des fraudes en F2F. Toutefois, cette amélioration n'est pas observable en ECOM - à la place, les résultats de 5 l'apprentissage basique et de l'approche d'apprentissage de séquence sont étonnamment similaires.

Tableau 5 : AUC moyenne sur tous les jours de test. Longueurs de séquence (COURTE, LONGUE) et ensembles de particularités (BASE, TDELTA, AGG)

	Particularités	F2F
AUCPR (μ)	AUCPRo,2 (μ)	Economies [%]
RF	LSTM	RF	LSTM	RF	LSTM
LU I— a: Z) O O	BASE	0,138	0,200	0,086	0,107	23,52 %	22,26 %
TDELTA	0,170	0,231	0,095	0,118	26,80 %	21,45%
AGG	0,241	0,246	0,112	0,113	23,93 %	18,71 %
LONGUE	BASE	0,135	0,229	0,084	0,106	23,17 %	19,05%
TDELTA	0,172	0,217	0,095	0,102	27,02 %	19,19%
AGG	0,242	0,236	0,112	0,110	23,60 %	24,96 %

Tableau 6 : AUC moyenne sur tous les jours de test. Longueurs de séquence (COURTE, LONGUE) et ensembles de particularités (BASE, TDELTA, AGG)

	Particularités	ECOM
AUCPR (μ)	AUCPRo,2 (μ)	Economies [%]
RF	LSTM	RF	LSTM	RF	LSTM
COURTE	BASE	0,179	0,180	0,102	0,099	7,13 %	18,82 %
TDELTA	0,236	0,192	0,124	0,107	9,02 %	15,30%
AGG	0,394	0,380	0,158	0,157	39,58 %	45,00 %
LONGUE	BASE	0,179	0,178	0,101	0,104	7,60 %	15,04%
TDELTA	0,228	0,238	0,118	0,115	10,77%	18,51 %
AGG	0,404	0,402	0,158	0,160	38,73 %	42,93 %

[0062] Une autre observation confirme la découverte que des agrégations de particularités améliorent la détection des fraudes. Leur impact est bien plus évident sur l'ECOM que sur la F2F. L'observation que des agrégations de particularités sont utiles dans les cas où le modèle de séquence ne l'est pas suggère que ces deux formes de représentation de contexte ne sont pas corrélées, et que les approches sont complémentaires. Quelle que soit l'information que les états de LSTM pistent dans l'historique des authentifications, opérations ou transactions, elle n'est pas la même que celle qui a été ajoutée à la main par l'intermédiaire d'agrégations.

[0063] Apparemment, une LSTM améliore la détection des fraudes lors d'authentifications, opérations ou transactions face à face en termes d'AUCPR. Il est curieux de savoir d'où provient cette amélioration. La Figure 2 présente les courbes de précision-rappel de toutes les variantes de modèle. Sur la Figure 2a, on peut voir que les courbes PR de modèles RF ont un pic de précision élevé à de faibles niveaux de rappel, mais elles disparaissent rapidement lorsque le rappel augmente. Par contraste, les modèles LSTM ont une précision légèrement inférieure pour les faibles niveaux de rappel mais conservent une précision plus élevée lorsque le rappel augmente. Il y a toutefois une exception intéressante : une fois que l'on a ajouté des particularités agrégées, la courbe PR de la forêt aléatoire augmente avec une marge appréciable jusqu'à une performance qui est égale à celle des modèles LSTM. On ne peut pas du tout observer un tel gain net pour les LSTM. Lors d'authentifications, opérations ou transactions de commerce électronique (voir la Figure 2b), les courbes PR de la forêt aléatoire et de la LSTM sont pratiquement identiques pour tous les ensembles de particularités. Les RF et LSTM tirent avantage des particularités agrégées avec la même marge.

[0064] Les Tableaux 5 et 6 rapportent les statistiques moyennes sur tous les jours de test. Quand on trace les AUCPR des RF et LSTM pour les jours de test individuels, on peut voir sur la Figure 3 que les prédictions des deux classificateurs présentent de fortes variations selon les jours. Toutefois, comme les courbes sont corrélées, on peut en déduire que certains jours le problème de détection est plus difficile que d'autres jours. Par exemple, les deux classificateurs ont leur valeur w.r.t. minimale de l'AUPCR dans les périodes de temps 9/05 - 10/05 et 25/05 - 26/05. Par inspection manuelle, on a tenté de lier les authentifications, opérations ou transactions de ces jours à des événements publics ou du calendrier, mais on n'a pas pu trouver d'explication satisfaisante à cette médiocre performance.

[0065] Dans cette analyse, on a effectué un examen plus approfondi des fraudes détectées avec les RF et LSTM. On a extrait une paire de modèles, à partir de l'ensemble de tous les modèles qualifiés, et on a comparé leurs prédictions. Le seuil de décision a de nouveau été choisi de façon qu'il correspondît à un niveau de rappel de 0,2. Toutes les prédictions avec un score supérieur au seuil ont été considérées comme des prédictions positives, et toutes les autres comme des prédictions négatives. En fixant le rappel, on s'est assuré d'avoir un nombre égal de positifs vrais dans les ensembles de résultats d'une paire de modèles. Toutefois, on s'est intéressé à déterminer si les positifs vrais de la RF sont bien identiques à ceux de la LSTM. On a mesuré le chevauchement des ensembles positifs vrais d'une paire de modèles avec l'indice de Jaccard. La Figure 4 présente toutes les comparaisons par paires sous la forme d'une carte de densité.

[0066] Sur les deux cartes de densité, on observe quatre zones bien distinctes : deux zones qui correspondent aux comparaisons intra-modèle et deux zones qui correspondent aux comparaisons inter-modèles⁴. Les indices de Jaccard suggèrent que tant la RF que la LSTM sont cohérentes en regard des fraudes qu'elles détectent. Cette propriété est légèrement plus prononcée dans les comparaisons de forêts aléatoires. Toutefois, l'observation centrale et fascinante est le fait que les RF et LSTM tendent à détecter des fraudes différentes. Sur une F2F, les modèles RF s'accordent sur 50,8 % de leurs positifs vrais en moyenne et les modèles LSTM sur 37,8 %. Entre les deux classes de modèle, on observe un accord moyen de seulement 25,2 %. Ceci est similaire pour l'ECOM avec des accords intramodèle moyens de 47,5 % (RF) et de 50,8 % (LSTM) et un accord intermodèle moyen de seulement 35,0 %.

[0067] Il y a une exception à cette observation générale. Les modèles qui ont été entraînés avec des particularités agrégées tendent à détecter un ensemble commun unique de fraudes qui n'ont été détectées ni par les forêts aléatoires ni par les LSTM sans particularités agrégées. Cette propriété est bien plus prononcée pour l'ECOM que pour la F2F.

[0068] Durant les présentes expériences, on a trouvé que l'application de réseaux de mémoire à long et court terme à de telles données structurées n'est pas aussi simple qu'on pourrait le penser. On souhaiterait par conséquent partager certaines observations qui pourraient être utiles pour les praticiens.

[0069] Régularisation de modèle : quand on s'occupe d'un processus temporal pour lequel on vise à prévoir certaines propriétés d'événements futurs, aucune collecte de points de données historiques ne peut véritablement satisfaire aux exigences demandées à partir d'un ensemble de validation représentatif. La précision d'une prédiction le jour suivant tout juste la fin de l'ensemble d'entraînement est meilleure que pour les jours plus éloignés dans le futur, suggérant une dépendance au temps de la distribution conditionnelle. Quand on choisit les jours juste après la période d'apprentissage comme ensemble de validation, les résultats avec cet ensemble vont suggérer une petite régularisation du modèle. Mais ce choix a un effet contraire sur la performance pour les jours plus éloignés dans le futur. Un modèle exact et très fiable des données du jour sera probablement mauvais dans quelques jours, tandis qu'un modèle moins fiable du jour sera toujours valide dans quelques jours. Ceci est moins problématique pour les classificateurs d'ensembles tels que les forêts aléatoires, mais l'est pour les réseaux neuronaux. Un pur contournement consiste à utiliser un abandon (Dropouf) sur la structure de réseau. Il échantillonne des réseaux plus petits à partir de la structure complète, les entraîne indépendamment et finalement fait une moyenne des hypothèses de ces réseaux plus petits. Les prédictions basées sur cette hypothèse mise sous forme de moyenne sont plus stables dans le temps.

[0070] Apprentissage en ligne : la descente de gradient stochastique et les nombreuses variantes qui ont été développées pour l'entraînement de réseaux neuronaux (ADAM, RMSprop, Adagrad) sont capables de mettre à jour itérativement le modèle même à partir d'erreurs imprécises qui ont été estimées sur de petits ensembles d'exemples d'entraînement. Cette propriété se combine bien avec l'exigence qu'ont les commerces de maintenir à jour leurs modèles de détection avec le courant entrant de données d’authentifications, d'opérations ou de transactions.

[0071] Remarques concernant l'entraînement de LSTM : du fait de sa structure récurrente, la LSTM est susceptible d'un surapprentissage même quand les couches de LSTM n'ont que quelques nœuds. Par conséquent, il est recommandé de démarrer avec une structure plutôt petite et d'augmenter la taille avec précautions tant qu'il y a une raison de s'attendre à une performance de généralisation plus poussée. On a remarqué qu'une pénalité /₂ conduit à une convergence bien plus lisse et des optima bien meilleurs qu'une pénalité L'optimiseur ADAM fonctionne bien mieux qu'un algorithme SGD conventionnel dans les présentes expériences puisqu'il estime un schéma de vitesse d'apprentissage approprié à la volée.

[0072] Approche combinée : qualitativement, il reste une seule différence entre les forêts aléatoires et les LSTM même après l'addition de particularités agrégées. Lors de transactions face à face, la LSTM détecte un ensemble de fraudes différent de celui de la forêt aléatoire, invariablement davantage différent qu'à l'intérieur des familles individuelles. On présume que cette différence peut être expliquée par la présence de schémas de succession plus distincts, qui sont guidés et encadrés par des contraintes du monde réel. Par conséquent, dans le scénario F2F, la combinaison d'un apprenant de séquence avec un apprenant statique et des particularités agrégées est susceptible d'améliorer encore davantage la précision de détection.

[0073] Suivant le type d'application, ou le type des fraudes, défauts ou anomalies dans une authentification, opération ou transaction que l'opérateur veut détecter, le système peut utiliser uniquement le réseau neuronal récurrent du type à mémoire à long et court terme (LSTM), ou le réseau neuronal pour l'apprentissage statistique du type d'arbre de décision, ou une combinaison des deux (voir la Figure 6).

[0074] On comprendra facilement, à la lecture de la présente description, que les caractéristiques de la présente invention, telles que globalement décrites et illustrées sur les figures, peuvent être agencées et conçues selon une large diversité de configurations différentes. Ainsi, la description de la présente invention et les figures qui l'accompagnent ne sont pas destinés à limiter la portée de l'invention, mais représentent uniquement des modes de réalisation sélectionnés.

[0075] L'homme du métier comprendra que les caractéristiques techniques d'un mode de réalisation donné peuvent en fait être combinées avec des caractéristiques d'un autre mode de réalisation, sauf si l'inverse est explicitement mentionné, ou s'il est évident que ces caractéristiques sont incompatibles. En outre, les caractéristiques techniques décrites dans un mode de réalisation peuvent être isolées des autres caractéristiques de ce mode, sauf si l'inverse est explicitement mentionné.

[0076] Il devrait apparaître de façon évidente à l'homme du métier que la présente invention permet des modes de réalisation sous de nombreuses autres formes spécifiques sans s'écarter de la portée définie par la protection visée. L'illustration et l'invention ne devraient pas être limitées aux détails donnés ci-dessus.

Claims

REVENDICATIONS

1. Système d'apprentissage machine pour diverses applications informatiques permettant une fouille de texte pour la détection de défauts ou d'anomalies dans une authentification, transaction ou opération effectuée par l'application, comprenant :

• un agencement matériel et logiciel formant un système de prétraitement ;

• un agencement matériel et logiciel formant un réseau neuronal conduisant à un modèle de traitement de données enrichies agrégées, • un agencement matériel et logiciel pour l'injection de données enrichies agrégées dans le réseau neuronal, • un agencement matériel et logiciel pour valider l'authentification, opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.
2. Système selon la revendication 1, caractérisé en ce que le réseau neuronal entraînant le modèle de traitement est :

- un réseau neuronal récurrent du type à mémoire à long et court terme (LSTM) ;

- un réseau neuronal pour l’apprentissage statistique du type d'arbre de décision ; ou

- une combinaison des deux.
3. Système selon la revendication 1 ou 2, dans lequel le réseau neuronal récurrent du type LSTM comprend au moins deux couches récurrentes et un Classificateur de Régression Logistique positionné audessus de la dernière couche récurrente prenant en compte le temps écoulé entre deux authentifications, opérations ou transactions.
4. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel pour valider l'authentification, opération ou transaction est paramétré avec une matrice d'indices de Jaccard afin que soit mesuré le degré de similarité entre les données de sortie d'un premier réseau neuronal du type LSTM et celles provenant d'un agencement matériel et logiciel d'un deuxième réseau neuronal pour l'apprentissage statistique du type d'arbre de décision et pour valider les résultats de l'un des deux réseaux neuronaux.
5. Système selon l'une des revendications précédentes, qui est utilisé pour une application informatique permettant une prédiction de risque à partir de la détection d'une fraude dans des opérations d'authentification d'objets de mémoire électronique contenant dans une zone une information secrète utilisée pour authentifier l'objet et son porteur.
6. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel formant un réseau neuronal récurrent entraînant un modèle de type LSTM utilise un GPU.
7. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel formant un système de prétraitement comprend :

- au moins une première base de données contenant au moins un ensemble de schémas séquentiels de données brutes concernant ladite application informatique,

- un agencement matériel et logiciel formant au moins une deuxième base de données contenant au moins un ensemble de données externes,

- un agencement matériel et logiciel pour enrichir les données brutes au moyen des données externes,

- un agencement matériel et logiciel pour agréger les données enrichies.
8. Système selon l'une des revendications précédentes, dans lequel le système de prétraitement utilise un mode multifil.