EP3655893A1 - Machine learning system for various computer applications - Google Patents

Machine learning system for various computer applications

Info

Publication number
EP3655893A1
EP3655893A1 EP18755710.3A EP18755710A EP3655893A1 EP 3655893 A1 EP3655893 A1 EP 3655893A1 EP 18755710 A EP18755710 A EP 18755710A EP 3655893 A1 EP3655893 A1 EP 3655893A1
Authority
EP
European Patent Office
Prior art keywords
hardware
software arrangement
transactions
neural network
authentication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP18755710.3A
Other languages
German (de)
French (fr)
Inventor
Olivier CAELEN
Liyun HE-GUELTON
Pierre-Edouard PORTIER
Michael GRANITZER
Konstantin ZIEGLER
Johannes JURGOVSKY
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Worldline SA
Original Assignee
Worldline SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Worldline SA filed Critical Worldline SA
Publication of EP3655893A1 publication Critical patent/EP3655893A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Definitions

  • the invention relates to the field of fraud detection systems during authentication, particularly during authentication, an operation or a transaction.
  • these systems generally use neural networks whose statistical learning is based on decision tree forests (random forests) that analyze a sampling of non-sequential data.
  • the object of the present invention is therefore to provide a system for detecting fraud during identification, to overcome at least some of the disadvantages of the prior art, by providing a machine learning system for various computer applications allowing a text search for the detection of defects or anomalies in an authentication, operation or transaction performed by the application, comprising:
  • the neural network driving the treatment model is advantageously:
  • LSTM long-term and short-term memory type recurrent neural network
  • the recurrent neural network of the LSTM type comprises at least two recurrent layers and a Logistic Regression Classifier positioned above the last layer. recurring taking into account the time elapsed between two authentications, operations or transactions.
  • the hardware and software arrangement for validating authentication, operation or transaction is parameterized with a Jaccard index matrix so that the degree of similarity between the output data of a first neural network is measured of the LSTM type and those from a hardware and software arrangement of a second neural network for statistical learning of the type of decision tree and to validate the results of one of the two neural networks.
  • the hardware and software arrangement forming a recurrent neural network resulting in an LSTM-type model uses a GPU.
  • the hardware and software arrangement forming a pretreatment system comprises:
  • At least one first database containing at least one set of sequential schematics of raw data relating to said computer application
  • a hardware and software arrangement forming at least a second database containing at least one set of external data; a hardware and software arrangement for enriching the raw data with external data;
  • the pretreatment system uses a multi-threaded mode.
  • FIG. 1 is a schematic representation of a recurrent neural network unrolled in time by creating a copy of the model for each time step.
  • Figure 2 shows averaged averaged recall curves in the test set (the figure shows LSTM results on Long sequences).
  • the horizontal dashed lines indicate the average AUPCR for each curve (the figure shows the LSTM results on Long sequences).
  • FIG. 4 shows a pairwise comparison of the true positive sets of two models measured with the Jaccard index and encoded in color in a density map
  • FIG. 5 shows the drive architecture of an LSTM model.
  • Figure 6 shows a meta-classifier that combines the LSTM model and the random forest model.
  • Figure 7 shows a fraud detection framework according to the invention.
  • the authentications, transactions or fraudulent transactions can be understood as anomalies in consumer buying behavior or as a set of outliers in the class of genuine authentications, transactions or transactions which themselves form a class opposing fraudulent transactions.
  • frauds mingle very well with genuine authentications, transactions or transactions, for two reasons.
  • the actual buying actions of millions of consumers naturally cover a broad spectrum of variability.
  • fraudsters apply a variety of insurable, yet rational, strategies for performing fraudulent acts that span multiple consumer accounts over different time periods - but in the end, these acts will similarly appear only as authentications, transactions, or individual transactions. in a dataset.
  • identical purchasing actions may reflect either completely legitimate behavior in the context of certain consumers, or obvious anomalies in the context of other consumers.
  • the first method is a well-established practice in the field of credit card fraud detection and is based on manual peculiarity engineering.
  • the second method we focus on recovering the sequential structure of a user's authentication, transaction, or transaction history by modeling the transition dynamics between authentications, transactions, or transactions by means of a recurrent neural network.
  • a long-term and short-term memory network is a special variant of a recurrent neural network (RNN).
  • RNN recurrent neural network
  • Recurrent neural networks were developed in the 1980s [Williams and Hinton, 1986, Werbos, 1988, Elman, 1990] for time series modeling.
  • the structure of an RNN is similar to that of a standard multilayer perception, with the difference that it allows connections among hidden units associated with discrete time steps.
  • the time steps index the individual elements in an input sequence.
  • the model can retain information about past entries, which allows it to discover temporal correlations between events that are possibly far apart from one another in the input sequence. This is a crucial property for the appropriate learning of time series in which the occurrence of an event is likely to depend on the presence of several other events even more distant in time.
  • a generic neural network with an input x f and a state s f for a time step t, is represented by equation 1.
  • the initial state s 0 is the zero vector and a is a certain nonlinear element activation function - tanh in this case.
  • a cost ⁇ measures network performance on a given task and is typically composed of costs at all time steps
  • Such a composite cost will be applicable, for example, to text marking tasks, for which a tag is assigned to each word entered. In this case, only the label of the last authentication, operation or transaction in a sequence is predicted.
  • the model parameters ⁇ are learned by minimizing the cost f with an optimization method based on a gradient.
  • One approach that can be used to calculate the required gradients is backpropagation over time (BPTT).
  • BPTT works by deploying a recurrent network over time to represent it as a deep multilayer network with as many hidden layers as there are time steps (see Figure 1).
  • the well-known backpropagation algorithm [Williams and Hinton, 1986] is applied to the deployed network.
  • the parameter ⁇ affects the error through not only the last state, but also all the previous states. Similarly, the error depends on W across all states s. This dependence becomes problematic when calculating the gradient of W. l. t. ⁇ .
  • the jacobian matrix ÎÎSfc contains all the component interactions between the Sk state and the st state. We can understand it as a means for returning the error of the state t to the state k. It occurs as the product of all paired interactions between consecutive states
  • a means for extracting information from an authentication, operation or transaction sequence consists in aggregating the values of certain variables along the sequence. To assemble these aggregations of peculiarities, one follows the procedure that has recently been proposed by [Brusen et al., 2016]. This simple but powerful procedure can be considered as constituting the state of the art engineering technique in the detection of credit card fraud. They add new features to each authentication, operation or transaction based on certain predefined rules. The value of a new feature is calculated with an aggregation function applied to a subset of previous transactions. The goal is to create a record of the activities from the history of authentications, operations or transactions of a cardholder, which quantifies the degree to which the authentication, operation or transaction in progress complies with the previous ones.
  • ( tl t) ieN is the sequence of authentications, operations or transactions, temporally ordered, of a given card holder, where t indexes the authentications, transactions or individual transactions in its sequence.
  • the value of a particular variable is indicated in an authentication, operation or transaction by
  • t is the quantity used in an authentication, operation or transaction x t .
  • a subset of authentications, transactions or transactions from the past is selected up to a maximum time horizon t h and according to certain nominal variables A and B:
  • the set S k contains all the authentications, operations or transactions of t h hours preceding x k , where the nominal variables A and B have taken the same values as for x k .
  • the pair (sums *, counts /) corresponds to a single constraint given by A, B and t h .
  • these pairs are calculated for all combinations of country, merchant class, and card entry variables. , inside a time horizon of 24 hours. Finally, all these pairs are added to the authentication, operation or transaction particularity vector x k .
  • the real interesting phenomenon is the genuine purchasing behavior of cardholders or, similarly, the malicious behavior of fraudsters. It is assumed that this object, which is roughly called behavior, is controlled by certain latent but coherent qualities. With its state variables, the LSTM is in principle able to identify these qualities from the sequence of observations.
  • sequence data set On the basis of a set of authentication data, operations or transactions labeled credit card, recorded between March and May 2015, we created data sets as follows: all the authentications, operations or Transactions of an identified cardholder are grouped and the authentications, transactions or transactions of each cardholder are sorted according to time. As a result, there is obtained a temporally ordered sequence of authentications, operations or transactions for each cardholder. In the rest of this work, this sequence is called a cardholder's account, and the complete set of all accounts is called the sequence data set.
  • the sequence data set is further divided into two mutually exclusive sets: one set of sequence data contains only the Authentications, Operations or Ecommerce Transactions (ECOM), and the other set contains only the Authentications, Operations or Transactions. made in sales outlets (F2F).
  • a typical characteristic of fraud detection problems is the strong imbalance between the minority class (fraudulent transactions) and the majority class (authentic transactions). The overall fraction of fraudulent authentication, transactions or transactions is usually about 0.5% or less. In the F2F dataset, frauds occur with an order of magnitude lower frequency than the ECOM dataset, further exacerbating the problem of detection.
  • Literature studies [Bhattacharyya et al., 201 1] and previous experiments have shown that some form of under-sampling of the majority class on the training set improves learning.
  • a downsampling strategy can not be applied to a set of sequence data. Therefore, sub-sampling is used at the account level.
  • an account is considered to be compromised if it contains at least authentication, transaction or fraudulent transaction, and is considered to be genuine if it contains only genuine transactions.
  • Deferred Ground Reality The present test period begins more than a week after the training period. The reason for this decision is twofold: in a production system, authentication labels, transactions, or transactions are only available after human investigators have verified the transactions. As a result, the availability of a specific ground reality is always delayed by about a week. The second reason is that the classification is typically more accurate on recent authentications, transactions or transactions that closely follow the training period. But this accuracy and likely to be an overly optimistic evaluation of the performance of the classifier in a production system, since in practice we still do not get access to the real labels.
  • the first set of features contains all the raw features after the specific variables of a trade have been removed. Since frauds do not usually appear in isolation but rather as elements of complete fraud sequences that may span several hours or days, the identity of the cardholder from the set of features has been removed. Otherwise, a classifier could simply remember the identities of cardholders with compromised accounts and make decisions only in this much smaller set of transactions. However, in practice, one would rather know if there is an authentication, operation or fraudulent transaction and then make the account compromised.
  • the second set of features contains all the features of the BASE set plus the delta-time feature as described in section 3.2.
  • This third set of peculiarities contains all the peculiarities of the TDELTA set plus 14 aggregated peculiarities like described above.
  • the authentications, transactions, or transactions of the preceding 24 hours were aggregated in terms of the quantity and number of authentications, transactions, or transactions based on all combinations of the term-mcc, term-country, and card-entry-mode dummy variables. . See Table 2 for an overview of the features.
  • Table 2 List of features in these datasets.
  • Marked features ( * ) are composite features composed of several lower-level features.
  • Nominal variables in the case of the random forest, the nominal variables can be used just as they are. We have only established a correspondence between each value and an integer. In the case of neural networks, we wanted to avoid having vectors of a single particularity encoded by token (one-hot encoding) to very high dimension. Therefore, a label encoding mechanism which is very popular in the field of natural language processing and neural networks has been employed, Collobert et al. [201 1], Socher et al. [2013], Tang et al. [2014], which is applicable to arbitrariness of dummy variables other than words [Guo and Berkhahn, 2016].
  • the peculiarity values and their corresponding vectors are stored inside a dictionary. To encode a particular value of the nominal variable, we look at the value of the particularity in the dictionary and retrieve its vector.
  • the vectors in integration are part of the parameters of the model and can be adjusted jointly during the estimation of the parameters.
  • Time function we consider the function of time as a composition of several nominal variables. For each temporal resolution of the time function, ie the year, the month, the day the day, the hour, the minute and the second, we define a nominal variable in the same way as that described above.
  • the long and short term memory network has two recurrent layers and a logistic regression classifier stacked above the last layer.
  • the logistic regression classifier can be driven in conjunction with the LSTM state transition model via error backpropagation.
  • An abandonment [Srivastava et al., 2014] is applied to the LSTM nodes to regularize the parameters and the whole model is trained by minimizing the cross entropy between the predicted class distribution and the true class distribution with the ADAM algorithm. This implementation is based on the Keras Deep Learning Library.
  • Grid search both the random forest (RF) and the LSTM must be parameterized with hyper-parameters.
  • the space of possible hyper-parameter configurations was searched for in terms of a coarse grid overlapped by a subset of all hyper-parameters (see Table 3). The configuration was then selected with AU CP / 3 ⁇ 4, maximum value 2 on the validation set.
  • Table 3 Hyper-parameters taken into consideration during the grid search
  • AUCPR a precision-return curve (PR) and in particular the area under this curve was used to quantify the accuracy of detection.
  • PR precision-return curve
  • Each point on the PR curve corresponds to the accuracy of the classifier at a specific recall level.
  • the entire curve gives a complete picture of the accuracy of a classifier and its robustness even in unbalanced settings.
  • the integral above this curve yields a single-valued summary of performance, and is called AUCPR.
  • AUCPR@0.2 From the point of view of trade, low booster and high accuracy are preferable to high booster and low accuracy. A typical choice is therefore to measure the accuracy on the first K elements in the list of hierarchical results. This precision at K corresponds to an isolated point on the PR curve and is likely to vary because of the different ones chosen for K. In order to reflect the commercial interests and to avoid a problem of variability, it is suggested to use the integral on the calculated PR curve up to a certain recall level (0.2 in the present experiments). The maximum value for AUCPR@0.2 is 0.2. Jaccard's index: to explore the qualitative differences between the two present approaches, the Jaccard index was used to measure the degree to which two classifiers are similar in terms of the frauds they detect. With two sets of results (true positives) A
  • the Jaccard index is defined by u v
  • the decision threshold is set to st and corresponds to a reminder of 0.2.
  • Savings are another metric measure that is often used in the field of fraud detection credit card. They measure the monetary benefit of a certain algorithm over a trivial acceptor / rejector and are based on a predefined cost matrix.
  • the individual inputs are composed of a processing cost C p , a reimputation C C b and a cost dependent on the transaction g (').
  • g represents the loss of money due to fraud occurring while the investigation process is in progress. It is defined by:
  • Fj is the set of authentication, operations or fraudulent transactions that occur until T hours after authentication, operation or transaction x, ⁇ .
  • a model was qualified for each set combination of features, data set and sequence length, and its classification performance was tested on the test set held. In the case of random forests, the length of the input sequence has no influence on the model since only the last authentication, operation or transaction of the input sequence is used. Qualified models were evaluated on each of the 24 test days individually, and their average performance is reported against the metric values defined above.
  • Table 5 and Table 6 show a summary of the results for face-to-face and ecommerce data sets.
  • a first observation is that the global detection accuracy is much higher on the ECOM than on the F2F, which can be explained by the higher proportion of frauds in the ECOM.
  • longer input sequences seem to have no effect on the accuracy of detection, neither for F2F nor for ECOM.
  • Table 5 Average AUC on all test days. Sequence lengths (SHORT, LONG) and sets of features (BASE, TDELTA, AGG)
  • Tables 5 and 6 report the average statistics on all test days.
  • the AUCPRs of the RF and LSTM are plotted for the individual test days, it can be seen in Figure 3 that the predictions of the two classifiers show strong variations according to the days.
  • the curves are correlated, we can deduce that some days the detection problem is more difficult than other days.
  • both classifiers have their minimum wrt value of the AUPCR in the time periods 9/05 - 10/05 and 25/05 - 26/05.
  • Model regularization when dealing with a temporal process for which one aims at predicting certain properties of future events, no collection of historical data points can truly satisfy the requirements requested from a set representative validation. The accuracy of a prediction the next day just after the end of the training set is better than for the more distant days in the future, suggesting a time dependence of the conditional distribution. When we choose the days just after the learning period as the validation set, the results with this set will suggest a small regularization of the model. But this choice has the opposite effect on performance for the more distant days in the future. An exact and very reliable model of today's data will probably be bad in a few days, while a less reliable model of the day will still be valid in a few days.
  • the system can use only the neural network. recurrent long-term and short-term memory type (LSTM), or the neural network for statistical learning of the type of decision tree, or a combination of both (see Figure 6).
  • LSTM long-term and short-term memory type

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Neurology (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Collating Specific Patterns (AREA)
  • Machine Translation (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

The invention relates to a machine learning system for various computer applications enabling text mining in order to detect faults or anomalies in an authentication, transaction or operation carried out by the application, comprising: - a hardware and software arrangement forming a preprocessing system; - a hardware and software arrangement forming a neural network leading to an enriched aggregated data processing model, - a hardware and software arrangement for injecting enriched aggregated data into the neural network, and - a hardware and software arrangement for validating the operation or transaction on the basis of results obtained at the output of the neural network.

Description

SYSTEME D'APPRENTISSAGE MACHINE POUR DIVERSES  MACHINE LEARNING SYSTEM FOR VARIOUS
APPLICATIONS INFORMATIQUES  IT APPLICATIONS
Domaine technique de l'invention Technical field of the invention
[0001 ] L'invention concerne le domaine des systèmes de détection de fraude durant une authentification, en particulier durant une authentification, une opération ou une transaction.  The invention relates to the field of fraud detection systems during authentication, particularly during authentication, an operation or a transaction.
Etat de la technique antérieure State of the art
[0002] En raison du volume en constante augmentation des échanges électroniques, les divers acteurs recherchent constamment de nouvelles façons de détecter une fraude durant des authentifications, opérations ou transactions.  Due to the constantly increasing volume of electronic exchanges, the various players are constantly looking for new ways to detect fraud during authentication, transactions or transactions.
[0003] Avec la grande quantité de données que nous voyons de nos jours, l'observation humaine traditionnelle ne répond pas aux exigences essentielles pour l'établissement d'une détection précise d'une fraude étant donné la quantité, la diversité et la nature dynamique des comportements malveillants.  With the large amount of data that we see today, traditional human observation does not meet the essential requirements for establishing accurate detection of fraud given the amount, diversity and nature dynamics of malicious behavior.
[0004] Les systèmes utilisant des procédés modernes basés sur des données et des méthodes d'apprentissage autonome commencent à être utilisés pour la détection de défauts dans des applications informatiques, comme par exemple des fraudes à l'authentification, en particulier celles liées à l'utilisation de cartes de crédit.  [0004] Systems using modern data-based methods and stand-alone learning methods are beginning to be used for the detection of defects in computer applications, such as authentication frauds, particularly those related to authentication. use of credit cards.
[0005] Pour ce faire, ces systèmes utilisent généralement des réseaux neuronaux dont l'apprentissage statistique est basé sur des forêts d'arbres décisionnels (forêts aléatoires) qui analysent un échantillonnage de données non séquentielles.  [0005] To do this, these systems generally use neural networks whose statistical learning is based on decision tree forests (random forests) that analyze a sampling of non-sequential data.
[0006] Néanmoins, l'utilisation d'un apprentissage par arbre décisionnel peut générer des arbres décisionnels très complexes qui généralisent mal l'ensemble de formation et conduisent à l'acceptation d'une identification frauduleuse qui ne va pas être détectée. [0007] On a par conséquent besoin d'un système rendant possible l'identification d'anomalies qui ne sont pas détectées par les réseaux neuronaux dont l'apprentissage statistique est basé sur des forêts d'arbres décisionnels (forêts aléatoires). However, the use of learning by decision tree can generate very complex decision trees that generalize poorly training set and lead to the acceptance of a fraudulent identification that will not be detected. There is therefore a need for a system making it possible to identify anomalies that are not detected by neural networks whose statistical learning is based on decision tree forests (random forests).
Description de l'invention Description of the invention
[0008] L'objet de la présente invention consiste donc à proposer un système pour détecter une fraude durant une identification, permettant de surmonter au moins certains des inconvénients de la technique antérieure, en proposant un système d'apprentissage machine pour diverses applications informatiques permettant une fouille de textes pour la détection de défauts ou d'anomalies dans une authentification, opération ou transaction effectuée par l'application, comprenant :  The object of the present invention is therefore to provide a system for detecting fraud during identification, to overcome at least some of the disadvantages of the prior art, by providing a machine learning system for various computer applications allowing a text search for the detection of defects or anomalies in an authentication, operation or transaction performed by the application, comprising:
- un agencement matériel et logiciel formant un système de prétraitement ;  a hardware and software arrangement forming a pretreatment system;
- un agencement matériel et logiciel formant un réseau neuronal conduisant à un modèle de traitement de données enrichies agrégées,  a hardware and software arrangement forming a neural network leading to an aggregated enriched data processing model,
- un agencement matériel et logiciel pour l'injection de données enrichies agrégées dans le réseau neuronal,  a hardware and software arrangement for injecting aggregated enriched data into the neural network,
- un agencement matériel et logiciel pour valider l'opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.  a hardware and software arrangement for validating the operation or transaction on the basis of the results obtained at the output of the neural network.
[0009] Le réseau neuronal entraînant le modèle de traitement est avantageusement :  [0009] The neural network driving the treatment model is advantageously:
- un réseau neuronal récurrent de type à mémoire à long et court terme (LSTM) ;  - a long-term and short-term memory type recurrent neural network (LSTM);
- un réseau neuronal pour l'apprentissage statistique du type d'arbre de décision ; ou  a neural network for statistical learning of the type of decision tree; or
- une combinaison des deux.  - a combination of both.
[0010] Avantageusement, le réseau neuronal récurrent du type LSTM comprend au moins deux couches récurrentes et un Classificateur de Régression Logistique positionné au-dessus de la dernière couche récurrente prenant en compte le temps écoulé entre deux authentifications, opérations ou transactions. Advantageously, the recurrent neural network of the LSTM type comprises at least two recurrent layers and a Logistic Regression Classifier positioned above the last layer. recurring taking into account the time elapsed between two authentications, operations or transactions.
[001 1 ] Avantageusement, l'agencement matériel et logiciel pour valider l'authentification, opération ou transaction est paramétré avec une matrice d'indices de Jaccard afin que soit mesuré le degré de similarité entre les données de sortie d'un premier réseau neuronal du type LSTM et celles provenant d'un agencement matériel et logiciel d'un deuxième réseau neuronal pour l'apprentissage statistique du type d'arbre de décision et pour valider les résultats de l'un des deux réseaux neuronaux.  [001 1] Advantageously, the hardware and software arrangement for validating authentication, operation or transaction is parameterized with a Jaccard index matrix so that the degree of similarity between the output data of a first neural network is measured of the LSTM type and those from a hardware and software arrangement of a second neural network for statistical learning of the type of decision tree and to validate the results of one of the two neural networks.
[0012] Il est avantageusement utilisé pour une application informatique permettant une prédiction de risque à partir de la détection d'une fraude dans des opérations d'authentification d'objets de mémoire électronique contenant dans une zone une information secrète utilisée pour authentifier l'objet et son porteur.  It is advantageously used for a computer application allowing a risk prediction from the detection of a fraud in authentication operations of electronic memory objects containing in a zone secret information used to authenticate the object and his bearer.
[0013] Avantageusement, l'agencement matériel et logiciel formant un réseau neuronal récurrent entraînant un modèle de type LSTM utilise un GPU.  Advantageously, the hardware and software arrangement forming a recurrent neural network resulting in an LSTM-type model uses a GPU.
[0014] Avantageusement, l'agencement matériel et logiciel formant un système de prétraitement comprend :  Advantageously, the hardware and software arrangement forming a pretreatment system comprises:
- au moins une première base de données contenant au moins un ensemble de schémas séquentiels de données brutes concernant ladite application informatique,  at least one first database containing at least one set of sequential schematics of raw data relating to said computer application,
- un agencement matériel et logiciel formant au moins une deuxième base de données contenant au moins un ensemble de données externes, - un agencement matériel et logiciel pour enrichir les données brutes au moyen des données externes,  a hardware and software arrangement forming at least a second database containing at least one set of external data; a hardware and software arrangement for enriching the raw data with external data;
- un agencement matériel et logiciel pour agréger les données enrichies.  a hardware and software arrangement for aggregating the enriched data.
[0015] Avantageusement, le système de prétraitement utilise un mode multifil.  Advantageously, the pretreatment system uses a multi-threaded mode.
Brève description des figures [0016] D'autres caractéristiques, détails et avantages de l'invention apparaîtront de façon évidente à la lecture de la description qui suit, en référence aux figures jointes, dans lesquelles : Brief description of the figures Other features, details and advantages of the invention will become apparent from a reading of the description which follows, with reference to the appended figures, in which:
- La Figure 1 est une représentation schématique d'un réseau neuronal récurrent déroulé dans le temps par création d'une copie du modèle pour chaque étape de temps.  - Figure 1 is a schematic representation of a recurrent neural network unrolled in time by creating a copy of the model for each time step.
- La Figure 2 montre des courbes de précision-rappel moyennées sur tous les jours dans l'ensemble de test (la figure montre les résultats de la LSTM sur des séquences Longues).  Figure 2 shows averaged averaged recall curves in the test set (the figure shows LSTM results on Long sequences).
- La Figure 3 montre l'évolution de l'AUPCR sur tous les jours de test. - Figure 3 shows the evolution of the AUPCR on all test days.
Les lignes pointillées horizontales indiquent l'AUPCR moyen pour chaque courbe (la figure montre les résultats de la LSTM sur des séquences Longues). The horizontal dashed lines indicate the average AUPCR for each curve (the figure shows the LSTM results on Long sequences).
- La Figure 4 montre une comparaison par paires des ensembles de positifs vrais de deux modèles mesurés avec l'indice de Jaccard et encodés en couleurs dans une carte de densité ;  FIG. 4 shows a pairwise comparison of the true positive sets of two models measured with the Jaccard index and encoded in color in a density map;
- La Figure 5 montre l'architecture d'entraînement d'un modèle de LSTM.  - Figure 5 shows the drive architecture of an LSTM model.
- La Figure 6 montre un méta-classificateur qui combine le modèle de LSTM et le modèle de forêts aléatoires.  Figure 6 shows a meta-classifier that combines the LSTM model and the random forest model.
- La Figure 7 montre une charpente de détection de fraude selon l'invention.  Figure 7 shows a fraud detection framework according to the invention.
Description détaillée de différents modes de réalisation de l'invention Detailed description of various embodiments of the invention
[0017] La description qui suit se focalise sur une application de détection des fraudes à la carte de crédit du système, mais elle peut s'appliquer à d'autres fraudes, défauts ou anomalies dans une authentification, opération ou transaction effectuée par diverses applications exécutées par un système ou réseau informatique.  The following description focuses on a credit card fraud detection application of the system, but it can be applied to other fraud, defects or anomalies in an authentication, operation or transaction performed by various applications. executed by a computer system or network.
[0018] En fonction de la perspective envisagée, les authentifications, opérations ou transactions frauduleuses peuvent être comprises comme des anomalies dans le comportement d'achat de consommateurs ou comme un ensemble de données aberrantes dans la classe des authentifications, opérations ou transactions véritables qui elles-mêmes forment une classe s'opposant aux transactions frauduleuses. Dans tous les cas, dans l'espace caractéristique, les fraudes se mêlent très bien aux authentifications, opérations ou transactions véritables, pour deux raisons. Premièrement, les actions d'achat véritables faites par des millions de consommateurs couvrent naturellement un large spectre de variabilité. Et deuxièmement, les fraudeurs appliquent diverses stratégies inscrutables, quoique rationnelles, pour effectuer des actes frauduleux qui couvrent plusieurs comptes de consommateurs sur diverses périodes de temps - mais à la fin, ces actes vont de même apparaître uniquement comme des authentifications, opérations ou transactions individuelles dans un ensemble de données. Des actions d'achat identiques peuvent en même temps refléter soit un comportement complètement légitime dans le contexte de certains consommateurs, soit des anomalies évidentes dans le contexte d'autres consommateurs. Depending on the perspective envisaged, the authentications, transactions or fraudulent transactions can be understood as anomalies in consumer buying behavior or as a set of outliers in the class of genuine authentications, transactions or transactions which themselves form a class opposing fraudulent transactions. In all cases, in the characteristic space, frauds mingle very well with genuine authentications, transactions or transactions, for two reasons. First, the actual buying actions of millions of consumers naturally cover a broad spectrum of variability. And secondly, fraudsters apply a variety of insurable, yet rational, strategies for performing fraudulent acts that span multiple consumer accounts over different time periods - but in the end, these acts will similarly appear only as authentications, transactions, or individual transactions. in a dataset. At the same time, identical purchasing actions may reflect either completely legitimate behavior in the context of certain consumers, or obvious anomalies in the context of other consumers.
[0019] Afin de supporter une meilleure discrimination parmi des authentifications, opérations ou transactions qui sont difficiles à distinguer, nous avons identifié deux approches qui nous permettent de résumer l'historique des transactions de consommateurs et d'utiliser ce résumé durant la classification de transactions individuelles. Le premier procédé est une pratique bien établie dans le domaine de la détection des fraudes à la carte de crédit, et il se base sur une ingénierie de particularité manuelle. Avec le deuxième procédé, nous nous focalisons sur la récupération de la structure séquentielle de l'historique d'authentifications, d'opérations ou de transactions d'un utilisateur en modélisant les dynamiques de transition entre des authentifications, opérations ou transactions au moyen d'un réseau neuronal récurrent.  In order to support a better discrimination among authentications, transactions or transactions that are difficult to distinguish, we have identified two approaches that allow us to summarize the history of consumer transactions and use this summary during transaction classification. individual. The first method is a well-established practice in the field of credit card fraud detection and is based on manual peculiarity engineering. With the second method, we focus on recovering the sequential structure of a user's authentication, transaction, or transaction history by modeling the transition dynamics between authentications, transactions, or transactions by means of a recurrent neural network.
[0020] Un réseau de mémoire à long et court terme (LSTM) est une variante spéciale d'un réseau neuronal récurrent (RNN). Les réseaux neuronaux récurrents ont été développés dans les années 1980 [Williams et Hinton, 1986, Werbos, 1988, Elman, 1990] pour une modélisation des séries temporelles. La structure d'un RNN est similaire à celle d'une perception multicouche standard, avec comme différence qu'elle permet des connexions parmi des unités cachées associées à des étapes temporelles discrètes. Les étapes temporelles indexent les éléments individuels dans une séquence d'entrée. Par l'intermédiaire des connexions entre des étapes temporelles, le modèle peut conserver des informations concernant les entrées passées, ce qui lui permet de découvrir des corrélations temporelles entre des événements qui sont éventuellement éloignés les uns des autres dans la séquence d'entrée. Ceci constitue une propriété cruciale pour l'apprentissage approprié de séries temporelles dans lesquelles l'occurrence d'un événement est susceptible de dépendre de la présence de plusieurs autres événements encore plus éloignés dans le temps. A long-term and short-term memory network (LSTM) is a special variant of a recurrent neural network (RNN). Recurrent neural networks were developed in the 1980s [Williams and Hinton, 1986, Werbos, 1988, Elman, 1990] for time series modeling. The structure of an RNN is similar to that of a standard multilayer perception, with the difference that it allows connections among hidden units associated with discrete time steps. The time steps index the individual elements in an input sequence. Through connections between time steps, the model can retain information about past entries, which allows it to discover temporal correlations between events that are possibly far apart from one another in the input sequence. This is a crucial property for the appropriate learning of time series in which the occurrence of an event is likely to depend on the presence of several other events even more distant in time.
[0021 ] Un réseau neuronal générique, avec une entrée xf et un état sf pour une étape temporelle t, est représenté par l'équation 1 . A generic neural network, with an input x f and a state s f for a time step t, is represented by equation 1.
[0022] Les paramètres du modèle Θ = {W, U, b} sont donnés par la matrice de poids récurrente W, la matrice de poids d'entrées U et les biais b. L'état initial s0 est le vecteur zéro et a est une certaine fonction d'activation par élément non linéaire - tanh dans le présent cas. Un coût ε mesure la performance du réseau sur une certaine tâche donnée et est typiquement composé des coûts à toutes les étapes temporelles The parameters of the model Θ = {W, U, b} are given by the repetitive weight matrix W, the input weight matrix U and the bias b. The initial state s 0 is the zero vector and a is a certain nonlinear element activation function - tanh in this case. A cost ε measures network performance on a given task and is typically composed of costs at all time steps
Un tel coût composite va être applicable, par exemple, à des tâches de marquage de texte, pour lesquelles une étiquette est attribuée à chaque mot entré. Dans le présent cas, on ne prédit que l'étiquette de la dernière authentification, opération ou transaction dans une séquence.  Such a composite cost will be applicable, for example, to text marking tasks, for which a tag is assigned to each word entered. In this case, only the label of the last authentication, operation or transaction in a sequence is predicted.
[0023] La distribution sur des classes de fraude et de non fraude, l'état sf étant donné, est modélisée au moyen d'un modèle de sortie de régression logistique. On interprète l'étiquette véritable >% ^ {0* 1 } d'une authentification, opération ou transaction comme étant la probabilité xf qu'elle appartienne à la classe 0 ou 1 , et on mesure le coût induit par les probabilités prédites par le modèle au moyen de l'erreur d'entropie croisée, définie par The distribution on classes of fraud and non-fraud, the state s f being given, is modeled by means of a logistic regression output model. We interpret the true label>% ^ {0 * 1} of a authentication, operation or transaction as being the probability x f that it belongs to class 0 or 1, and the cost induced by the probabilities predicted by the model is measured by means of the entropy error, defined by
8t = £(-x1:t, yt) = -Vt l g yt - (1 - i¾) log(l - yt) 8 t = £ (-x 1: t , yt) = -Vt lg yt - (1 - i¾) log (l - y t )
[0024] Les paramètres de modèle Θ sont appris par une minimisation du coût £f avec un procédé d'optimisation basé sur un gradient. Une approche que l'on peut utiliser pour calculer les gradients requis est la rétropropagation dans le temps (BPTT). La BPTT fonctionne en déployant un réseau récurrent dans le temps pour le représenter comme un réseau multicouche profond avec autant de couches cachées qu'il y a d'étapes temporelles (voir la Figure 1 ). Ensuite, l'algorithme de rétropropagation bien connu [Williams et Hinton, 1986] est appliqué sur le réseau déployé. The model parameters Θ are learned by minimizing the cost f with an optimization method based on a gradient. One approach that can be used to calculate the required gradients is backpropagation over time (BPTT). BPTT works by deploying a recurrent network over time to represent it as a deep multilayer network with as many hidden layers as there are time steps (see Figure 1). Next, the well-known backpropagation algorithm [Williams and Hinton, 1986] is applied to the deployed network.
[0025] Bien qu'en principe le réseau récurrent soit un modèle simple et puissant, en pratique il est difficile de l'entraîner de façon appropriée avec une pente de gradient. Parmi les nombreuses raisons pour lesquelles ce modèle est si laborieux, il y a deux problèmes majeurs qui ont été appelés problème de disparition et d'explosion de gradient [Bengio et al ., 1994].  Although in principle the recurrent network is a simple and powerful model, in practice it is difficult to train appropriately with a gradient gradient. Among the many reasons why this model is so laborious, there are two major problems that have been called the disappearance and gradient explosion problem [Bengio et al., 1994].
[0026] Avec la connexion récurrente entre des états latents, le paramètre Θ affecte l'erreur à travers non seulement le dernier état, mais aussi tous les états antérieurs. De même, l'erreur dépend de W à travers tous les états s. Cette dépendance devient problématique quand on calcule le gradient de W . l . t . Θ. With the recurrent connection between latent states, the parameter Θ affects the error through not only the last state, but also all the previous states. Similarly, the error depends on W across all states s. This dependence becomes problematic when calculating the gradient of W. l. t. Θ.
dst  dst
[0027] La matrice jacobienne ÎÎSfc contient toutes les interactions de composants entre l'état Sk et l'état st. On peut la comprendre comme un moyen pour ramener l'erreur de l'état t à l'état k. Elle se présente corn produit de toutes les interactions appariées entre des états consécutifs The jacobian matrix ÎÎSfc contains all the component interactions between the Sk state and the st state. We can understand it as a means for returning the error of the state t to the state k. It occurs as the product of all paired interactions between consecutive states
[0028] Ce produit est la véritable raison pour laquelle il est si difficile d'apprendre des dépendances sur le long terme avec des procédés d'optimisation basés sur un gradient. Plus la dépendance entre t et k est longue, et plus il y a de facteurs qui deviennent multipliés en , en conséquence de quoi la norme du gradient augmente ou diminue ds.  This product is the real reason why it is so difficult to learn dependencies in the long run with optimization methods based on a gradient. The longer the dependence between t and k, the more factors become multiplied in, as a result of which the gradient norm increases or decreases ds.
exponentiellement avec t - k. Chaque fa met en jeu à la fois la matrice de poids récurrente et la dérivée [Pascanu et al., 2013] montrent qu'il suffit que la valeur propre la plus importante de la matrice de poids récurrente soit inférieure à 1 pour que des composants sur le long terme disparaissent, et il suffit qu'elle soit supérieure à 1 pour que les gradients explosent. exponentially with t - k. Each fa involves both the recurrent weight matrix and the derivative [Pascanu et al., 2013] show that it is sufficient if the most important eigenvalue of the recurrent weight matrix is less than 1 for long-term components to disappear, and it suffices if it is greater than 1 for the gradients to explode.
[0029] Il existe plusieurs solutions pour réduire ces problèmes. There are several solutions to reduce these problems.
L'utilisation d'une pénalité L1 ou L2 sur la matrice de poids récurrente peut assurer que la valeur propre la plus importante ne dépasse jamais 1 , étant donné une initialisation avec des poids suffisamment petits. Une autre proposition se base sur la supposition que si le modèle présente dès le début le même type de comportement asymptotique que celui requis par la cible, alors les gradients sons moins susceptibles d'exploser [Doya, 1993]. Toutefois, il n'est pas insignifiant d'initialiser un modèle dans ce régime spécifique. Une troncation de gradient constitue une autre approche radicale qui met en jeu la troncation de composants par éléments du gradient quand ils dépassent un seuil fixé [Mikolov et al., 201 1 ]. Finalement, une solution pour éviter le problème de disparition de gradient a été proposé par [Hochreiter et Schmidhuber, 1997] par élimination de la dépendance directe à une matrice de poids récurrente dans aSi_i [Bayer, 2015]. Cette structure de réseau modifiée est appelée réseau de mémoire à court et long terme (LSTM), et constitue l'état de la technique pour de nombreuses tâches mondiales réelles telles que la reconnaissance vocale, la reconnaissance d'écriture manuscrite et la traduction machine statistique. Using a L1 or L2 penalty on the recurring weight matrix can ensure that the largest eigenvalue never exceeds 1, given initialization with sufficiently small weights. Another proposal is based on the assumption that if the model has the same kind of asymptotic behavior from the beginning as the target requires, then the gradients are less likely to explode [Doya, 1993]. However, it is not insignificant to initialize a model in this specific scheme. Gradient truncation is another radical approach that involves the truncation of components by gradient elements when they exceed a fixed threshold [Mikolov et al., 201 1]. Finally, a solution to avoid the problem of gradient disappearance has been proposed by [Hochreiter and Schmidhuber, 1997] by elimination of direct dependence to a matrix of recurrent weight in a Si [Bayer, 2015]. This modified network structure is called the Short and Long Term Memory Network (LSTM), and is the state of the art for many real world tasks such as speech recognition, handwriting recognition and statistical machine translation. .
[0030] En alternative à la modélisation de séquences d'authentification, d'opération ou de transaction avec une LSTM, on emploie une ingénierie de particularité traditionnelle.  [0030] As an alternative to modeling authentication, operation or transaction sequences with an LSTM, traditional feature engineering is employed.
[0031 ] Agrégations de particularités : un moyen pour extraire des informations à partir d'une séquence d'authentification, d'opération ou de transaction consiste à agréger les valeurs de certaines variables le long de la séquence. Pour assembler ces agrégations de particularités, on suit la procédure qui a récemment été proposée par [Bahnsen et al., 2016]. Cette procédure, simple mais puissante, peut être considérée comme constituant l'état de la technique d'ingénierie de particularité dans la détection de fraudes à la carte de crédit. Ils ajoutent de nouvelles particularités à chaque authentification, opération ou transaction en fonction de certaines règles prédéfinies. La valeur d'une nouvelle particularité est calculée avec une fonction d'agrégation appliquée à un sous-ensemble des transactions précédentes. Le but est de créer un enregistrement des activités à partir de l'historique des authentifications, opérations ou transactions d'un porteur de carte, qui quantifie le degré avec lequel l'authentification, opération ou transaction en cours se conforme aux précédentes.  Aggregations of features: a means for extracting information from an authentication, operation or transaction sequence consists in aggregating the values of certain variables along the sequence. To assemble these aggregations of peculiarities, one follows the procedure that has recently been proposed by [Bahnsen et al., 2016]. This simple but powerful procedure can be considered as constituting the state of the art engineering technique in the detection of credit card fraud. They add new features to each authentication, operation or transaction based on certain predefined rules. The value of a new feature is calculated with an aggregation function applied to a subset of previous transactions. The goal is to create a record of the activities from the history of authentications, operations or transactions of a cardholder, which quantifies the degree to which the authentication, operation or transaction in progress complies with the previous ones.
[0032] On considère que (tlt)ieN est la séquence d'authentifications, opérations ou transactions, ordonnée temporellement, d'un porteur de carte donné, où t indexe les authentifications, opérations ou transactions individuelles dans sa séquence. On indique la valeur d'une variable particulière dans une authentification, opération ou transaction par It is considered that ( tl t) ieN is the sequence of authentications, operations or transactions, temporally ordered, of a given card holder, where t indexes the authentications, transactions or individual transactions in its sequence. The value of a particular variable is indicated in an authentication, operation or transaction by
,.. ,,( Ami) , .. ,, (Friend)
un exposant : par exemple, t est la quantité utilisée dans une authentification, opération ou transaction xt. En se basant sur une seule authentification, opération ou transaction xk , on sélectionne un sous- ensemble d'authentifications, opérations ou transactions du passé jusqu'à un horizon temporel maximal th et en fonction de certaines variables nominales A et B : an exponent: for example, t is the quantity used in an authentication, operation or transaction x t . Based on one authentication, operation or transaction x k , a subset of authentications, transactions or transactions from the past is selected up to a maximum time horizon t h and according to certain nominal variables A and B:
[0033] L'ensemble Sk contient toutes les authentifications, opérations ou transactions des th heures précédant xk , où les variables nominales A et B ont pris les mêmes valeurs que pour xk. Les variables nominales A et B et l'horizon temporel th peuvent être considérés comme des contraintes imposées au sous-ensemble. Par exemple, si on définit A := Pays, B := MCC et th = 24, le sous-ensemble Sk contient toutes les authentifications, opérations ou transactions des 24 heures précédentes qui ont été effectuées dans le même pays et dans la même catégorie de marchands que l'authentification, opération ou transaction xk. The set S k contains all the authentications, operations or transactions of t h hours preceding x k , where the nominal variables A and B have taken the same values as for x k . The nominal variables A and B and the time horizon t h can be considered as constraints imposed on the subset. For example, if we define A: = Country, B: = MCC and t h = 24, the subset S k contains all the authentications, transactions, or transactions of the previous 24 hours that were performed in the same country and in the same country. same category of merchants as authentication, operation or transaction x k .
[0034] On peut maintenant définir des fonctions d'agrégation sur Sk. Il y a de nombreuses possibilités pour définir de telles fonctions, et même si toutes sont susceptibles d'être également valides, on se limite aux deux fonctions qui ont été proposées par les auteurs : la quantité totale dépensée et le nombre de transactions.  We can now define aggregation functions on Sk. There are many possibilities to define such functions, and even if all are likely to be equally valid, it is limited to the two functions that have been proposed by the authors: the total amount spent and the number of transactions.
La paire (sommes*, comptes/ ) correspond à une seule contrainte donnée par A, B et th. Afin de couvrir une plus large gamme de statistiques à partir de l'historique d'authentifications, d'opérations ou de transactions, on calcule ces paires pour toutes les combinaisons des variables nominales pays, catégorie de marchand, et mode d'entrée de carte, à l'intérieur d'un horizon temporel de 24 heures. Finalement, on rajoute toutes ces paires au vecteur de particularité d'authentification, d'opération ou de transaction xk. The pair (sums *, counts /) corresponds to a single constraint given by A, B and t h . To cover a wider range of statistics from the authentication, transaction, or transaction history, these pairs are calculated for all combinations of country, merchant class, and card entry variables. , inside a time horizon of 24 hours. Finally, all these pairs are added to the authentication, operation or transaction particularity vector x k .
[0035] Delta temps : un lecteur de séquences détecte des schémas dans des séquences de transactions consécutives. On suppose que ces schémas ressemblent à une certaine forme de comportement d'achat latent de porteurs de carte. Si cela est, les schémas comportementaux devraient être invariants aux points concrets dans le temps quand les actions d'achat ont été réellement effectuées. Pour supporter une normalisation temporelle sur des séquences d'entrée qui chevauchent des périodes de temps très différentes, on extrait le temps en minutes entre deux authentifications, opérations ou transactions consécutives, et on l'ajoute explicitement sous la forme d'une particularité additionnelle : tdelta, = xf mps) - a^ w> (7) Delta time: a sequence reader detects patterns in consecutive transaction sequences. These patterns are assumed to resemble some form of latent cardholder purchasing behavior. If this is the case, the behavioral patterns should be invariant at concrete points in time when the purchase actions were actually performed. To support temporal normalization on input sequences that overlap very different time periods, the time in minutes is extracted between two consecutive authentications, operations, or transactions, and explicitly added as an additional feature: tdelta, = xf mps) - a ^ w> (7)
[0036] Tout comme dans n'importe quelle tâche de modélisation statistique, on peut observer le phénomène véritable dans le monde réel uniquement par l'intermédiaire d'un mandataire indiqué comme étant un jeu fini d'observations ponctuelles.  As in any statistical modeling task, the true phenomenon can be observed in the real world only through a proxy indicated as being a finite set of point observations.
[0037] Dans la détection de fraudes à la carte de crédit, le vrai phénomène intéressant est le comportement d'achat véritable des porteurs de carte ou, de même, le comportement malveillant des fraudeurs. On suppose que cet objet, que l'on appelle approximativement le comportement, est contrôlé par certaines qualités latentes mais cohérentes. Avec ses variables d'état, la LSTM est en principe capable d'identifier ces qualités à partir de la séquence d'observations.  In the detection of credit card fraud, the real interesting phenomenon is the genuine purchasing behavior of cardholders or, similarly, the malicious behavior of fraudsters. It is assumed that this object, which is roughly called behavior, is controlled by certain latent but coherent qualities. With its state variables, the LSTM is in principle able to identify these qualities from the sequence of observations.
[0038] Dans le monde réel, les conventions sociétales, les réglementations officielles ou la simple physique imposent des contraintes sur la variabilité potentielle d'observations et par conséquent sur la complexité des qualités qui les contrôlent. Par exemple, les heures d'ouvertures limitent strictement quand et où les consommateurs sont susceptibles d'acheter leurs biens ou services. Les distances géographiques et les modalités de déplacement limitent les possibilités de transactions consécutives. On peut s'attendre à ce que toutes les authentifications, opérations ou transactions face à face que l'on observe dans la présente base de données respectent, dans une certaine mesure, ces contraintes du monde réel. Par contraste, les authentifications, opérations ou transactions de commerce électronique, ou plutôt leurs achats en ligne correspondants, sont largement sans contrainte, tant pour le moment que pour le lieu. Il n'y a pratiquement aucun attribut qui ne puisse pas changer réellement de manière arbitraire entre une authentification, opération ou transaction et la suivante. In the real world, societal conventions, official regulations or simple physics impose constraints on the potential variability of observations and consequently on the complexity of the qualities that control them. For example, opening hours strictly limit when and where consumers are likely to buy their goods or services. Geographic distances and the modalities of displacement limit the possibilities of consecutive transactions. It is to be expected that all of the authentications, transactions, or face-to-face transactions observed in this database respect, to some extent, these real-world constraints. By contrast, authentications, transactions or e-commerce transactions, or rather their corresponding online purchases, are largely unrestricted, both for the moment and for the location. There is virtually no attribute that can not actually change arbitrarily between an authentication, operation, or transaction and the next one.
[0039] On suppose que la présence de contraintes, dans le monde réel, dans les transactions face à face conduit à des schémas comportementaux plus évidents avec moins de variations. Dans ce cas, un apprenant de séquence va tirer avantage d'une structure séquentielle plus régulière.  It is assumed that the presence of constraints, in the real world, in face-to-face transactions leads to more obvious behavioral patterns with fewer variations. In this case, a sequence learner will take advantage of a more regular sequential structure.
[0040] En étant motivé par les considérations et les analyses statistiques antérieures concernant le comportement d'achat dans le monde réel, on a décidé d'étudier séparément l'impact d'un apprenant de séquence sur la précision de détection lors d'authentifications, opérations ou transactions de commerce électronique et face à face. Les résultats sont contrastés avec un non apprenant de séquence, autrement dit une forêt aléatoire.  Being motivated by the considerations and the previous statistical analyzes concerning the purchasing behavior in the real world, it was decided to separately study the impact of a sequence learner on the accuracy of detection during authentications. , transactions or e-commerce and face-to-face transactions. The results are contrasted with a non-learner sequence, in other words a random forest.
[0041 ] Sur la base d'un ensemble de données d'authentifications, opérations ou transactions étiquetées de carte de crédit, enregistré entre mars et mai 2015, on a créé des ensembles de données de la façon suivante : toutes les authentifications, opérations ou transactions d'un porteur de carte identifié sont groupées et les authentifications, opérations ou transactions de chaque porteur de carte sont triées en fonction du temps. En résultat, on obtient une séquence ordonnée temporellement d'authentifications, opérations ou transactions pour chaque porteur de carte. Dans le reste de ce travail, cette séquence est appelée le compte d'un porteur de carte, et l'ensemble complet de tous les comptes est appelé l'ensemble de données de séquence. L'ensemble de données de séquence est en outre divisé en deux ensembles mutuellement exclusifs : un ensemble de données de séquence contient uniquement les authentifications, opérations ou transactions de commerce électronique (ECOM), et l'autre contient uniquement les authentifications, opérations ou transactions effectuées dans des points de vente (F2F). On the basis of a set of authentication data, operations or transactions labeled credit card, recorded between March and May 2015, we created data sets as follows: all the authentications, operations or Transactions of an identified cardholder are grouped and the authentications, transactions or transactions of each cardholder are sorted according to time. As a result, there is obtained a temporally ordered sequence of authentications, operations or transactions for each cardholder. In the rest of this work, this sequence is called a cardholder's account, and the complete set of all accounts is called the sequence data set. The sequence data set is further divided into two mutually exclusive sets: one set of sequence data contains only the Authentications, Operations or Ecommerce Transactions (ECOM), and the other set contains only the Authentications, Operations or Transactions. made in sales outlets (F2F).
Tableau 1 : tailles d'ensembles de données et proportions de fraudes Table 1: Data Set Sizes and Fraud Proportions
[0042] Echantillonnage de comptes : Une particularité typique des problèmes de détection de fraudes est le fort déséquilibre entre la classe minoritaire (transactions frauduleuses) et la classe majoritaire (transactions authentiques). La fraction globale des authentifications, opérations ou transactions frauduleuses se porte habituellement à environ 0,5 % ou moins. Dans l'ensemble de données F2F, les fraudes surviennent avec une fréquence inférieure d'un ordre de grandeur en comparaison avec l'ensemble de données ECOM, ce qui aggrave encore davantage le problème de détection. Des études de la littérature [Bhattacharyya et al., 201 1 ] et des expériences antérieures ont montré qu'une certaine forme de sous- échantillonnage de la classe majoritaire sur l'ensemble d'entraînement améliore l'apprentissage. Toutefois, contrairement aux ensembles de données basés sur les transactions, dans lesquels les authentifications, opérations ou transactions sont considérées comme des exemples d'entraînement indépendants, on ne peut pas appliquer une telle stratégie de sous-échantillonnage à un ensemble de données de séquence. Par conséquent, on emploie le sous-échantillonnage au niveau des comptes. A ce propos, un compte est considéré être compromis s'il contient au moins une authentification, opération ou transaction frauduleuse, et est considéré être authentique s'il ne contient que des transactions authentiques. On a employé un simple processus d'échantillonnage basé sur les comptes pour construire l'ensemble d'entraînement. Avec une probabilité pg = 0,9, on a sélectionné au hasard un compte dans l'ensemble de comptes authentiques et, avec une probabilité 1 - pg, on a sélectionné un compte dans l'ensemble de comptes compromis. Ce processus est répété 106 fois pour créer un ensemble d'entraînement avec un million de comptes. Le rapport de fraude de facto au niveau des transactions est toujours inférieur à 1/10, mais on trouve que cette approche simple fonctionne bien en pratique. Voir le Tableau 1 pour des détails concernant les tailles des ensembles de données et les périodes de temps. Accounts Sampling: A typical characteristic of fraud detection problems is the strong imbalance between the minority class (fraudulent transactions) and the majority class (authentic transactions). The overall fraction of fraudulent authentication, transactions or transactions is usually about 0.5% or less. In the F2F dataset, frauds occur with an order of magnitude lower frequency than the ECOM dataset, further exacerbating the problem of detection. Literature studies [Bhattacharyya et al., 201 1] and previous experiments have shown that some form of under-sampling of the majority class on the training set improves learning. However, unlike transaction-based data sets, in which authentications, transactions, or transactions are considered as independent training examples, such a downsampling strategy can not be applied to a set of sequence data. Therefore, sub-sampling is used at the account level. In this respect, an account is considered to be compromised if it contains at least authentication, transaction or fraudulent transaction, and is considered to be genuine if it contains only genuine transactions. A simple account-based sampling process was used to construct the training set. With a probability p g = 0.9, an account was randomly selected from the set of authentic accounts and, with a probability 1 - p g , an account was selected from the pool of compromised accounts. This process is repeated 10 6 times to create a training set with one million accounts. The de facto transaction-level fraud report is always less than 1/10, but we find that this simple approach works well in practice. See Table 1 for details on data set sizes and time periods.
[0043] Réalité de terrain différée : La présente période de test commence plus d'une semaine après la période d'entraînement. La raison de cette décision est double : dans un système de production, les étiquettes d'authentifications, opérations ou transactions ne sont disponibles qu'après que des enquêteurs humains ont vérifié les transactions. Par conséquent, la disponibilité d'une réalité de terrain précise est toujours différée d'une semaine environ. La deuxième raison est que la classification est typiquement plus précise sur des authentifications, opérations ou transactions récentes qui suivent de près la période d'entraînement. Mais cette précision et susceptible d'être une évaluation excessivement optimiste de la performance du classificateur dans un système de production, puisqu'en pratique on ne va toujours pas avoir accès aux véritables étiquettes.  Deferred Ground Reality: The present test period begins more than a week after the training period. The reason for this decision is twofold: in a production system, authentication labels, transactions, or transactions are only available after human investigators have verified the transactions. As a result, the availability of a specific ground reality is always delayed by about a week. The second reason is that the classification is typically more accurate on recent authentications, transactions or transactions that closely follow the training period. But this accuracy and likely to be an overly optimistic evaluation of the performance of the classifier in a production system, since in practice we still do not get access to the real labels.
[0044] Alignement des ensembles de données : Tant la forêt aléatoire que la LSTM ont été entraînées pour prédire l'étiquette de transactions individuelles. Il y a toutefois une différence qu'il faut prendre en compte dans les expériences. Avec une LSTM, on peut uniquement prédire l'étiquette d'une authentification, opération ou transaction après que plusieurs authentifications, opérations ou transactions l'ont précédée, tandis qu'avec la forêt aléatoire, aucune transaction antérieure n'est requise. Pour améliorer la comparabilité des résultats, on prend en compte cette différence en retirant toutes les authentifications, opérations ou transactions qui ne sont pas précédées d'au moins w = 9 transactions antérieures. La forêt aléatoire (RF) et la LSTM peuvent maintenant être entraînées, validées et testées sur des ensembles identiques de transactions. Pour étudier l'influence de la longueur de la séquence d'entrée sur les prédictions LSTM, on ne garde que 4 (COURTE) ou 9 (LONGUE) authentifications, opérations ou transactions antérieures en entrée. Alignment of data sets: Both the random forest and the LSTM were trained to predict the label of individual transactions. However, there is a difference that must be taken into account in the experiments. With an LSTM, one can only predict the label of an authentication, operation, or transaction after multiple authentications, operations, or transactions preceded it, whereas with the random forest, no previous transaction is required. To improve the comparability of the results, this difference is taken into account by removing all the authentications, transactions or transactions that are not preceded by at least w = 9 previous transactions. Random Forest (RF) and LSTM can now be trained, validated and tested on identical sets of transactions. To study the influence of the length of the input sequence on the LSTM predictions, only 4 (SHORT) or 9 (LONG) authentications, operations or previous transactions are retained.
[0045] Comme les données collectées durant une authentification, opération ou transaction de carte de crédit doivent se conformer aux normes N I IF (normes internationales d'information financière), l'ensemble des particularités brutes est très similaire dans toute la littérature. Par conséquent, on a retiré toutes les particularités spécifiques d'un commerce et conservé uniquement celles qui sont couramment utilisées dans d'autres études [Bhattacharyya et al., 201 1 , Bahnsen et al., 2016, Carneiro et al., 2017]. Afin de déterminer l'impact de particularités additionnelles sur la précision d'une classification, on a défini trois ensembles de particularités.  As the data collected during an authentication, operation or credit card transaction must comply with the standards N I IF (International Financial Reporting Standards), all the raw features are very similar throughout the literature. As a result, all the specific features of a trade were removed and only those commonly used in other studies were removed [Bhattacharyya et al., 201 1, Bahnsen et al., 2016, Carneiro et al., 2017] . In order to determine the impact of additional features on the accuracy of a classification, three sets of features have been defined.
[0046] Le premier ensemble de particularités (BASE) contient toutes les particularités brutes après que les variables spécifiques d'un commerce ont été retirées. Comme les fraudes n'apparaissent généralement pas isolément mais plutôt sous la forme d'éléments de séquences de fraudes complètes qui peuvent s'étendre sur plusieurs heures ou jours, on a retiré l'identité du porteur de carte de l'ensemble de particularités. Sinon, un classificateur pourrait simplement se rappeler les identités de porteurs de cartes ayant des comptes compromis et prendre des décisions uniquement dans cet ensemble bien plus petit de transactions. Toutefois, en pratique, on voudrait plutôt savoir s'il y a une authentification, opération ou transaction frauduleuse et ensuite rendre le compte compromis. Le deuxième ensemble de particularités (TDELTA) contient toutes les particularités de l'ensemble BASE plus la particularité delta-temps telle que décrite dans la section 3.2. Ce troisième ensemble de particularités (AGG) contient toutes les particularités de l'ensemble TDELTA plus 14 particularités agrégées comme décrit ci-dessus. On a agrégé les authentifications, opérations ou transactions des 24 heures précédentes en termes de la quantité et du nombre des authentifications, opérations ou transactions sur la base de toutes les combinaisons des variables nominales term-mcc, term-country et card-entry-mode. Voir le Tableau 2 pour une vue d'ensemble des particularités. The first set of features (BASE) contains all the raw features after the specific variables of a trade have been removed. Since frauds do not usually appear in isolation but rather as elements of complete fraud sequences that may span several hours or days, the identity of the cardholder from the set of features has been removed. Otherwise, a classifier could simply remember the identities of cardholders with compromised accounts and make decisions only in this much smaller set of transactions. However, in practice, one would rather know if there is an authentication, operation or fraudulent transaction and then make the account compromised. The second set of features (TDELTA) contains all the features of the BASE set plus the delta-time feature as described in section 3.2. This third set of peculiarities (AGG) contains all the peculiarities of the TDELTA set plus 14 aggregated peculiarities like described above. The authentications, transactions, or transactions of the preceding 24 hours were aggregated in terms of the quantity and number of authentications, transactions, or transactions based on all combinations of the term-mcc, term-country, and card-entry-mode dummy variables. . See Table 2 for an overview of the features.
Tableau 2 : liste des particularités dans les présents ensembles de données.Table 2: List of features in these datasets.
Les particularités marquées (*) sont des particularités composites composées de plusieurs particularités de niveau inférieur. Marked features ( * ) are composite features composed of several lower-level features.
Particularité Type  Particularity Type
TERM-MCC Nominal TERM-MCC Nominal
TERM-COUNTRY Nominal TERM-COUNTRY Nominal
TX-AMOUNT Proportionnel TX-AMOUNT Proportional
TX-DATETIME (*) Nominal TX-DATETIME ( * ) Nominal
TX-3D-SECURE Nominal  TX-3D-SECURE Nominal
TX-EMV Nominal TX-EMV Nominal
TX-LOCAL-CURRENCY Nominal TX-LOCAL-CURRENCY Nominal
TX-LOCAL-AMOUNT Proportionnel  TX-LOCAL-AMOUNT Proportional
TX-PROCESS Nominal  TX-PROCESS Nominal
TX-CARD-ENTRY-MODE Nominal  TX-CARD-ENTRY-MODE Nominal
BROKER Nominal Nominal BROKER
CARD-BRAND Nominal CARD-BRAND Nominal
CARD-EXPIRY Nominal  CARD-EXPIRY Nominal
CARD-TYPE Nominal CARD-TYPE Nominal
CREDIT-LIMIT ProportionnelCREDIT-LIMIT Proportional
CARD-AUTHENTICATION Nominal CARD-AUTHENTICATION Nominal
TDELTA Proportionnel  TDELTA Proportional
AGGREGATIONS (*) Proportionnel [0047] Variables proportionnelles : on a appliqué une normalisation gaussienne à des variables proportionnelles telles que la quantité d'authentifications, d'opérations ou de transactions ou la limite de crédit pour centrer la variable sur μ = 0 avec un écart type σ = 1 . Cette normalisation n'a pas d'effet sur l'apprentissage d'une forêt aléatoire, mais elle accélère la convergence d'optimisation basée sur un gradient dans les réseaux neuronaux. AGGREGATIONS ( * ) Proportional Proportional variables: a Gaussian normalization has been applied to proportional variables such as the quantity of authentications, operations or transactions or the credit limit to center the variable on μ = 0 with a standard deviation σ = 1 . This normalization has no effect on learning a random forest, but it accelerates the convergence of gradient-based optimization in neural networks.
[0048] Variables nominales : dans le cas de la forêt aléatoire, les variables nominales peuvent être utilisées juste telles quelles. On a seulement établi une correspondance entre chaque valeur et un nombre entier. Dans le cas des réseaux neuronaux, on a voulu éviter d'avoir des vecteurs d'une seule particularité encodée par jeton (encodage one-hot) à dimension très élevée. On a, par conséquent, employé un mécanisme d'encodage d'étiquette qui est très populaire dans le domaine du traitement du langage naturel et des réseaux neuronaux, Collobert et al. [201 1 ], Socher et al. [2013], Tang et al. [2014], et qui est applicable pour donner un caractère arbitraire à des variables nominales autres que mots [Guo et Berkhahn, 2016]. Pour une variable nominale avec son ensemble de valeurs C, on a attribué à chaque valeur un vecteur de poids aléatoire à d dimensions v, qui provient d'une distribution uniforme à plusieurs variables v ~ U ([-0,05, 0,05]d), avec d = riog2(|C|)1 Les valeurs de particularité et leurs vecteurs correspondants (intégrations de vecteurs des valeurs de particularité) sont stockés à l'intérieur d'un dictionnaire. Pour encoder une valeur particulière de la variable nominale, on regarde la valeur de la particularité dans le dictionnaire et récupère son vecteur. Les vecteurs en intégration font partie des paramètres du modèle et peuvent être ajustés conjointement durant l'estimation des paramètres. Nominal variables: in the case of the random forest, the nominal variables can be used just as they are. We have only established a correspondence between each value and an integer. In the case of neural networks, we wanted to avoid having vectors of a single particularity encoded by token (one-hot encoding) to very high dimension. Therefore, a label encoding mechanism which is very popular in the field of natural language processing and neural networks has been employed, Collobert et al. [201 1], Socher et al. [2013], Tang et al. [2014], which is applicable to arbitrariness of dummy variables other than words [Guo and Berkhahn, 2016]. For a dummy variable with its set of C values, each value is assigned a random weight vector with d dimensions v, which comes from a uniform multivariate distribution v ~ U ([-0.05, 0.05 ] d ), with d = riog 2 (| C |) 1 The peculiarity values and their corresponding vectors (vector integrations of peculiarity values) are stored inside a dictionary. To encode a particular value of the nominal variable, we look at the value of the particularity in the dictionary and retrieve its vector. The vectors in integration are part of the parameters of the model and can be adjusted jointly during the estimation of the parameters.
[0049] Fonction de temps : on considère la fonction de temps comme une composition de plusieurs variables nominales. Pour chaque résolution temporelle de la fonction de temps, c'est-à-dire l'année, le mois, le jour ouvré, le jour, l'heure, la minute et la seconde, on définit une variable nominale de la même façon que celle décrite ci-dessus. Time function: we consider the function of time as a composition of several nominal variables. For each temporal resolution of the time function, ie the year, the month, the day the day, the hour, the minute and the second, we define a nominal variable in the same way as that described above.
[0050] Le réseau de mémoire à long et court terme a deux couches récurrentes et un classificateur de régression logistique empilé au-dessus de la dernière couche. Le classificateur de régression logistique peut être entraîné conjointement avec le modèle de transition d'état de LSTM via une rétropropagation d'erreur. On applique un abandon [Srivastava et al., 2014] aux nœuds de LSTM pour régulariser les paramètres et on entraîne tout le modèle en minimisant l'entropie croisée entre la distribution de classes prédite et la distribution de classes véritable avec l'algorithme ADAM. La présente implémentation se base sur la bibliothèque d'apprentissage profond Keras.  The long and short term memory network has two recurrent layers and a logistic regression classifier stacked above the last layer. The logistic regression classifier can be driven in conjunction with the LSTM state transition model via error backpropagation. An abandonment [Srivastava et al., 2014] is applied to the LSTM nodes to regularize the parameters and the whole model is trained by minimizing the cross entropy between the predicted class distribution and the true class distribution with the ADAM algorithm. This implementation is based on the Keras Deep Learning Library.
[0051 ] Comme on étudie les avantages potentiels d'une approche d'apprentissage de séquence basée sur une LSTM par rapport à un apprenant statique, il faut extraire une instance de la classe des apprenants statiques. On choisit ici de la comparer à des forêts aléatoires. Dans des expériences antérieures, on a observé que les forêts aléatoires constituent une forte base de référence pour cette tâche, qui explique aussi son usage largement répandu pour la détection des fraudes [Carneiro et al., 2017, Bahnsen et al., 2016, Ngai et al., 201 1 ]. On utilise l'implémentation de forêts aléatoires de SciKit-Learn.  As the potential benefits of an LSTM-based sequence learning approach to a static learner are studied, an instance of the static learner class must be extracted. We choose here to compare it to random forests. In previous experiments, it has been observed that random forests provide a strong baseline for this task, which also explains its widespread use for fraud detection [Carneiro et al., 2017, Bahnsen et al., 2016, Ngai et al., 201 1]. We use the random forest implementation of SciKit-Learn.
[0052] Recherche en quadrillage : tant la forêt aléatoire (RF) que la LSTM doivent être paramétrées avec des hyper-paramètres. On a recherché l'espace des configurations en hyper-paramètres possibles en termes d'un quadrillage grossier chevauché par un sous-ensemble de tous les hyper- paramètres (voir le Tableau 3). On a ensuite sélectionné la configuration avec la valeur AU CP /¾,2 maximale sur l'ensemble de validation. Tableau 3 : hyper-paramètres pris en considération durant la recherche en quadrillage Grid search: both the random forest (RF) and the LSTM must be parameterized with hyper-parameters. The space of possible hyper-parameter configurations was searched for in terms of a coarse grid overlapped by a subset of all hyper-parameters (see Table 3). The configuration was then selected with AU CP / ¾, maximum value 2 on the validation set. Table 3: Hyper-parameters taken into consideration during the grid search
[0053] Deux critères guident la sélection de valeurs métriques convenables de performances : la robustesse vis-à-vis de classes déséquilibrées et l'attention aux intérêts spécifiques d'un commerce. [0053] Two criteria guide the selection of suitable metrics of performance: robustness vis-à-vis unbalanced classes and attention to the specific interests of a trade.
[0054] AUCPR : on a employé une courbe de précision-rappel (PR) et en particulier la zone sous cette courbe pour quantifier la précision de détection. Chaque point sur la courbe PR correspond à la précision du classificateur à un niveau spécifique de rappel. Par conséquent, la courbe dans sa totalité donne une image complète de la précision d'un classificateur et de sa robustesse même dans des réglages déséquilibrés. L'intégrale au- dessus de cette courbe engendre un résumé à valeur unique de la performance, et on l'appelle AUCPR.  [0054] AUCPR: a precision-return curve (PR) and in particular the area under this curve was used to quantify the accuracy of detection. Each point on the PR curve corresponds to the accuracy of the classifier at a specific recall level. As a result, the entire curve gives a complete picture of the accuracy of a classifier and its robustness even in unbalanced settings. The integral above this curve yields a single-valued summary of performance, and is called AUCPR.
[0055] AUCPR@0.2 : du point de vue du commerce, un faible rappel et une précision élevée sont préférables à un rappel élevé et une faible précision. Un choix typique consiste par conséquent à mesurer la précision sur les K premiers éléments dans la liste de résultats hiérarchisés. Cette précision à K correspond à un point isolé sur la courbe PR et est susceptible de varier en raison des différents chois pour K. Afin de refléter les intérêts commerciaux et d'éviter un problème de variabilité, on suggère d'utiliser l'intégrale sur la courbe PR calculée jusqu'à un certain niveau de rappel (0,2 dans les présentes expériences). La valeur maximale pour AUCPR@0.2 est de 0,2. [0056] Indice de Jaccard : pour explorer les différences qualitatives entre les deux présentes approches, on a utilisé l'indice de Jaccard afin de mesurer le degré auquel deux classificateurs sont similaires en termes des fraudes qu'ils détectent. Avec deux ensembles de résultats (positifs vrais) A [0055] AUCPR@0.2: From the point of view of trade, low booster and high accuracy are preferable to high booster and low accuracy. A typical choice is therefore to measure the accuracy on the first K elements in the list of hierarchical results. This precision at K corresponds to an isolated point on the PR curve and is likely to vary because of the different ones chosen for K. In order to reflect the commercial interests and to avoid a problem of variability, it is suggested to use the integral on the calculated PR curve up to a certain recall level (0.2 in the present experiments). The maximum value for AUCPR@0.2 is 0.2. Jaccard's index: to explore the qualitative differences between the two present approaches, the Jaccard index was used to measure the degree to which two classifiers are similar in terms of the frauds they detect. With two sets of results (true positives) A
fi 4 n\ = \AnB\ et B donnés, l'indice de Jaccard est défini par u v |Au.9|. Le seuil de décision est réglé à s.t. et correspond à un rappel de 0,2. Given fi 4 n \ = \ AnB \ and B, the Jaccard index is defined by u v | Au.9 |. The decision threshold is set to st and corresponds to a reminder of 0.2.
[0057] Economies : les économies constituent une autre mesure métrique qui est souvent utilisée dans le domaine de la détection de fraudes à la carte de crédit. Elles mesurent le bénéfice monétaire d'un certain algorithme par rapport à un accepteur/réjecteur trivial et se basent sur une matrice de coûts prédéfinie. Un test d'un classificateur binaire sur une unique authentification, opération ou transaction peut avoir quatre résultats possibles définis par les deux prédictions (p = 0 ou p = 1 ) et les deux jugements véritables (y = 0 ou y = 1 ). A chacun de ces résultats, on peut associer un coût monétaire induit par un processus d'investigation qui accepte p en tant que décision à la lumière de l'étiquette véritable y. Le Tableau 4 présente la matrice de coûts.  Savings: Savings are another metric measure that is often used in the field of fraud detection credit card. They measure the monetary benefit of a certain algorithm over a trivial acceptor / rejector and are based on a predefined cost matrix. A test of a binary classifier on a single authentication, operation or transaction can have four possible outcomes defined by the two predictions (p = 0 or p = 1) and the two true judgments (y = 0 or y = 1). To each of these results, we can associate a monetary cost induced by an investigation process that accepts p as a decision in the light of the true label y. Table 4 presents the cost matrix.
Tableau 4 : matrice de coûts Table 4: Cost Matrix
y = 1 y = 0 p - 1  y = 1 y = 0 p - 1
P = 0 .ø(*») o  P = 0 .ø (* ") o
Les entrées individuelles sont composées d'un coût de traitement Cp, d'une réimputation CCb et d'un coût dépendant de la transaction g('). g représente la perte d'argent due aux fraudes se produisant pendant que le processus d'investigation est en cours. Elle est définie par : The individual inputs are composed of a processing cost C p , a reimputation C C b and a cost dependent on the transaction g ('). g represents the loss of money due to fraud occurring while the investigation process is in progress. It is defined by:
, (Amt)  , (Amt)
V  V
(8) ν ^ι [0058] où Fj est l'ensemble d'authentifications, opérations ou transactions frauduleuses qui surviennent jusqu'à T heures après l'authentification, opération ou transaction x,<. (8) ν ^ ι Where Fj is the set of authentication, operations or fraudulent transactions that occur until T hours after authentication, operation or transaction x, <.
F.t = fa I heures ( emps} , 'emps} ) < T Λ i rmde } = 1 }£,. (9 [0059] En raison des réglementations commerciales, on ne peut pas donner de détails sur les valeurs particulaires de Cp, CCb et T. On peut toutefois affirmer clairement qu'à l'extérieur d'un contexte commercial particulier, il n'y a pas de raison pour rapporter une performance de classification de modèles statistiques en termes d'économies d'argent. Cette mesure dépend entièrement de la matrice de coûts. On a incorporé cette valeur métrique uniquement parce qu'on a trouvé qu'elle était couramment utilisée dans des travaux apparentés. Par contraste, l'AUCPR devrait constituer une valeur métrique de choix pour des comparaisons entre différentes méthodes de classification. Elle est objective et donc permet des conclusions plus générales qui sont valides également à l'extérieur d'un contexte commercial particulier. F. t = fa I hours ( emps} , 'emps' ) <T Λ i rmde} = 1} £,. (9 [0059] Due to trade regulations, details of particulate values of C p , C Cb and T can not be given. It can be clearly stated, however, that outside of a particular commercial context, There is no reason to report a classification performance of statistical models in terms of money savings.This measure depends entirely on the cost matrix.This metric value has been incorporated only because it has been found that it was commonly used in related work, in contrast, the AUCPR should be a metric value of choice for comparisons between different classification methods, it is objective and therefore allows more general conclusions that are valid also outside 'a particular business context.
[0060] On a qualifié un modèle pour chaque combinaison d'ensemble de particularités, d'ensemble de données et de longueur de séquence, puis on a testé sa performance de classification sur l'ensemble de test détenu. Dans le cas des forêts aléatoires, la longueur de la séquence d'entrée n'a pas d'influence sur le modèle puisque seule la dernière authentification, opération ou transaction de la séquence d'entrée est utilisée. On a évalué les modèles qualifiés sur chacun des 24 jours de test individuellement, et on rapporte leur performance moyenne en regard des valeurs métriques définies ci-dessus.  A model was qualified for each set combination of features, data set and sequence length, and its classification performance was tested on the test set held. In the case of random forests, the length of the input sequence has no influence on the model since only the last authentication, operation or transaction of the input sequence is used. Qualified models were evaluated on each of the 24 test days individually, and their average performance is reported against the metric values defined above.
[0061 ] Le Tableau 5 et le Tableau 6 montrent un résumé des résultats pour les ensembles de données de face à face et de commerce électronique. Une première observation est que la précision de détection globale est bien supérieure sur l'ECOM que sur le F2F, ce qui peut s'expliquer par la plus forte proportion de fraudes dans l'ECOM. Deuxièmement, des séquences d'entrée plus longues semblent ne pas avoir d'effet sur la précision de détection, ni pour F2F ni pour ECOM. Troisièmement, la prise en compte des authentifications, opérations ou transactions antérieures avec une LSTM améliore notablement la détection des fraudes en F2F. Toutefois, cette amélioration n'est pas observable en ECOM - à la place, les résultats de l'apprentissage basique et de l'approche d'apprentissage de séquence sont étonnamment similaires. Table 5 and Table 6 show a summary of the results for face-to-face and ecommerce data sets. A first observation is that the global detection accuracy is much higher on the ECOM than on the F2F, which can be explained by the higher proportion of frauds in the ECOM. Secondly, longer input sequences seem to have no effect on the accuracy of detection, neither for F2F nor for ECOM. Third, taking into account prior authentications, transactions or transactions with an LSTM significantly improves the detection of F2F fraud. However, this improvement is not observable in ECOM - instead, the results of the basic learning and the sequence learning approach are surprisingly similar.
Tableau 5 : AUC moyenne sur tous les jours de test. Longueurs de séquence (COURTE, LONGUE) et ensembles de particularités (BASE, TDELTA, AGG) Table 5: Average AUC on all test days. Sequence lengths (SHORT, LONG) and sets of features (BASE, TDELTA, AGG)
Tableau 6 : AUC moyenne sur tous les jours de test. Longueurs de séquence (COURTE, LONGUE) et ensembles de particularités (BASE, TDELTA, AGG) Table 6: Average AUC on all test days. Sequence lengths (SHORT, LONG) and sets of features (BASE, TDELTA, AGG)
Particularités ECOM  ECOM features
AUCPR (μ) AUCPRo,2 (μ) Economies [%] AUCPR (μ) AUCPRo, 2 (μ) Savings [%]
RF LSTM RF LSTM RF LSTMRF LSTM RF LSTM RF LSTM
LU BASE 0,179 0,180 0,102 0,099 7,13 % 18,82 % H LU BASE 0.179 0.180 0.102 0.099 7.13% 18.82% H
ce  this
Z) TDELTA 0,236 0,192 0,124 0,107 9,02 % 15,30 % o  Z) TDELTA 0.236 0.192 0.124 0.107 9.02% 15.30% o
o AGG 0,394 0,380 0,158 0,157 39,58 % 45,00 % o AGG 0.394 0.380 0.158 0.157 39.58% 45.00%
LU BASE 0,179 0,178 0,101 0,104 7,60 % 15,04 % _D LU BASE 0,179 0,178 0,101 0,104 7,60% 15,04% _D
CD TDELTA 0,228 0,238 0,1 18 0,1 15 10,77 % 18,51 % "Z.  CD TDELTA 0.228 0.238 0.1 18 0.1 15 10.77% 18.51% "Z.
O  O
_l AGG 0,404 0,402 0,158 0,160 38,73 % 42,93 % [0062] Une autre observation confirme la découverte que des agrégations de particularités améliorent la détection des fraudes. Leur impact est bien plus évident sur l'ECOM que sur la F2F. L'observation que des agrégations de particularités sont utiles dans les cas où le modèle de séquence ne l'est pas suggère que ces deux formes de représentation de contexte ne sont pas corrélées, et que les approches sont complémentaires. Quelle que soit l'information que les états de LSTM pistent dans l'historique des authentifications, opérations ou transactions, elle n'est pas la même que celle qui a été ajoutée à la main par l'intermédiaire d'agrégations. _l AGG 0.404 0.402 0.158 0.160 38.73% 42.93% Another observation confirms the discovery that aggregations of features improve the detection of fraud. Their impact is much more obvious on the ECOM than on the F2F. The observation that aggregations of features are useful in cases where the sequence model is not useful suggests that these two forms of context representation are not correlated, and that the approaches are complementary. Whatever the information that LSTM states track in the history of authentications, transactions, or transactions, it is not the same as the one that has been manually added through aggregations.
[0063] Apparemment, une LSTM améliore la détection des fraudes lors d'authentifications, opérations ou transactions face à face en termes d'AUCPR. Il est curieux de savoir d'où provient cette amélioration. La Figure 2 présente les courbes de précision-rappel de toutes les variantes de modèle. Sur la Figure 2a, on peut voir que les courbes PR de modèles RF ont un pic de précision élevé à de faibles niveaux de rappel, mais elles disparaissent rapidement lorsque le rappel augmente. Par contraste, les modèles LSTM ont une précision légèrement inférieure pour les faibles niveaux de rappel mais conservent une précision plus élevée lorsque le rappel augmente. Il y a toutefois une exception intéressante : une fois que l'on a ajouté des particularités agrégées, la courbe PR de la forêt aléatoire augmente avec une marge appréciable jusqu'à une performance qui est égale à celle des modèles LSTM. On ne peut pas du tout observer un tel gain net pour les LSTM. Lors d'authentifications, opérations ou transactions de commerce électronique (voir la Figure 2b), les courbes PR de la forêt aléatoire et de la LSTM sont pratiquement identiques pour tous les ensembles de particularités. Les RF et LSTM tirent avantage des particularités agrégées avec la même marge.  Apparently, an LSTM improves the detection of fraud during authentications, transactions or transactions face to face in terms of AUCPR. It is curious to know where this improvement comes from. Figure 2 shows the precision-recall curves of all model variants. In Figure 2a, it can be seen that the PR curves of RF models have a high precision peak at low recall levels, but they disappear rapidly as the booster increases. In contrast, LSTM models have slightly lower accuracy for low recall levels, but retain higher accuracy as recall increases. However, there is an interesting exception: once aggregated peculiarities have been added, the PR curve of the random forest increases with appreciable margin to a performance that is equal to that of the LSTM models. We can not at all observe such a net gain for LSTMs. In E-commerce authentication, operations, or transactions (see Figure 2b), the PR curves of the random forest and LSTM are virtually identical for all feature sets. RF and LSTM take advantage of aggregated features with the same margin.
[0064] Les Tableaux 5 et 6 rapportent les statistiques moyennes sur tous les jours de test. Quand on trace les AUCPR des RF et LSTM pour les jours de test individuels, on peut voir sur la Figure 3 que les prédictions des deux classificateurs présentent de fortes variations selon les jours. Toutefois, comme les courbes sont corrélées, on peut en déduire que certains jours le problème de détection est plus difficile que d'autres jours. Par exemple, les deux classificateurs ont leur valeur w.r.t. minimale de l'AUPCR dans les périodes de temps 9/05 - 10/05 et 25/05 - 26/05. Par inspection manuelle, on a tenté de lier les authentifications, opérations ou transactions de ces jours à des événements publics ou du calendrier, mais on n'a pas pu trouver d'explication satisfaisante à cette médiocre performance. [0064] Tables 5 and 6 report the average statistics on all test days. When the AUCPRs of the RF and LSTM are plotted for the individual test days, it can be seen in Figure 3 that the predictions of the two classifiers show strong variations according to the days. However, as the curves are correlated, we can deduce that some days the detection problem is more difficult than other days. For example, both classifiers have their minimum wrt value of the AUPCR in the time periods 9/05 - 10/05 and 25/05 - 26/05. By manual inspection, attempts were made to link the authentications, transactions, or transactions of these days to public events or the calendar, but no satisfactory explanation could be found for this mediocre performance.
[0065] Dans cette analyse, on a effectué un examen plus approfondi des fraudes détectées avec les RF et LSTM. On a extrait une paire de modèles, à partir de l'ensemble de tous les modèles qualifiés, et on a comparé leurs prédictions. Le seuil de décision a de nouveau été choisi de façon qu'il correspondît à un niveau de rappel de 0,2. Toutes les prédictions avec un score supérieur au seuil ont été considérées comme des prédictions positives, et toutes les autres comme des prédictions négatives. En fixant le rappel, on s'est assuré d'avoir un nombre égal de positifs vrais dans les ensembles de résultats d'une paire de modèles. Toutefois, on s'est intéressé à déterminer si les positifs vrais de la RF sont bien identiques à ceux de la LSTM. On a mesuré le chevauchement des ensembles positifs vrais d'une paire de modèles avec l'indice de Jaccard. La Figure 4 présente toutes les comparaisons par paires sous la forme d'une carte de densité.  In this analysis, a more in-depth examination of the frauds detected with RF and LSTM was carried out. A pair of models was extracted from all of the qualified models and their predictions compared. The decision threshold was again chosen to correspond to a recall level of 0.2. All predictions with a score above the threshold were considered positive predictions, and all others predicted negative predictions. Fixing the recall made sure to have an equal number of true positives in the result sets of a pair of models. However, there was some interest in determining whether the true positives of the RF are the same as those of the LSTM. The overlap of the true positive sets of a pair of models was measured with the Jaccard index. Figure 4 shows all paired comparisons in the form of a density map.
[0066] Sur les deux cartes de densité, on observe quatre zones bien distinctes : deux zones qui correspondent aux comparaisons intra-modèle et deux zones qui correspondent aux comparaisons inter-modèles4. Les indices de Jaccard suggèrent que tant la RF que la LSTM sont cohérentes en regard des fraudes qu'elles détectent. Cette propriété est légèrement plus prononcée dans les comparaisons de forêts aléatoires. Toutefois, l'observation centrale et fascinante est le fait que les RF et LSTM tendent à détecter des fraudes différentes. Sur une F2F, les modèles RF s'accordent sur 50,8 % de leurs positifs vrais en moyenne et les modèles LSTM sur 37,8 %. Entre les deux classes de modèle, on observe un accord moyen de seulement 25,2 %. Ceci est similaire pour l'ECOM avec des accords intra- modèle moyens de 47,5 % (RF) et de 50,8 % (LSTM) et un accord intermodèle moyen de seulement 35,0 %. [0067] Il y a une exception à cette observation générale. Les modèles qui ont été entraînés avec des particularités agrégées tendent à détecter un ensemble commun unique de fraudes qui n'ont été détectées ni par les forêts aléatoires ni par les LSTM sans particularités agrégées. Cette propriété est bien plus prononcée pour l'ECOM que pour la F2F. On the two density maps, four distinct zones are observed: two zones that correspond to intra-model comparisons and two zones that correspond to inter-model comparisons 4 . Jaccard's indices suggest that both the RF and the LSTM are consistent with the frauds they detect. This property is slightly more pronounced in random forest comparisons. However, the central and fascinating observation is that RF and LSTM tend to detect different frauds. On an F2F, the RF models agree on 50.8% of their true positives on average and the LSTM models on 37.8%. Between the two model classes, there is an average agreement of only 25.2%. This is similar for the ECOM with 47.5% (RF) and 50.8% (LSTM) average intra-model agreements and an average intermodel agreement of only 35.0%. [0067] There is one exception to this general observation. Models that have been driven with aggregated peculiarities tend to detect a single common set of frauds that have not been detected by random forests or LSTMs without aggregated peculiarities. This property is much more pronounced for the ECOM than for the F2F.
[0068] Durant les présentes expériences, on a trouvé que l'application de réseaux de mémoire à long et court terme à de telles données structurées n'est pas aussi simple qu'on pourrait le penser. On souhaiterait par conséquent partager certaines observations qui pourraient être utiles pour les praticiens.  During the present experiments, it has been found that the application of long and short term memory networks to such structured data is not as simple as one might think. We would therefore like to share some observations that might be useful for practitioners.
[0069] Régularisation de modèle : quand on s'occupe d'un processus temporal pour lequel on vise à prévoir certaines propriétés d'événements futurs, aucune collecte de points de données historiques ne peut véritablement satisfaire aux exigences demandées à partir d'un ensemble de validation représentatif. La précision d'une prédiction le jour suivant tout juste la fin de l'ensemble d'entraînement est meilleure que pour les jours plus éloignés dans le futur, suggérant une dépendance au temps de la distribution conditionnelle. Quand on choisit les jours juste après la période d'apprentissage comme ensemble de validation, les résultats avec cet ensemble vont suggérer une petite régularisation du modèle. Mais ce choix a un effet contraire sur la performance pour les jours plus éloignés dans le futur. Un modèle exact et très fiable des données du jour sera probablement mauvais dans quelques jours, tandis qu'un modèle moins fiable du jour sera toujours valide dans quelques jours. Ceci est moins problématique pour les classificateurs d'ensembles tels que les forêts aléatoires, mais l'est pour les réseaux neuronaux. Un pur contournement consiste à utiliser un abandon (Dropout) sur la structure de réseau. Il échantillonne des réseaux plus petits à partir de la structure complète, les entraîne indépendamment et finalement fait une moyenne des hypothèses de ces réseaux plus petits. Les prédictions basées sur cette hypothèse mise sous forme de moyenne sont plus stables dans le temps. [0070] Apprentissage en ligne : la descente de gradient stochastique et les nombreuses variantes qui ont été développées pour l'entraînement de réseaux neuronaux (ADAM, RMSprop, Adagrad) sont capables de mettre à jour itérativement le modèle même à partir d'erreurs imprécises qui ont été estimées sur de petits ensembles d'exemples d'entraînement. Cette propriété se combine bien avec l'exigence qu'ont les commerces de maintenir à jour leurs modèles de détection avec le courant entrant de données d'authentifications, d'opérations ou de transactions. Model regularization: when dealing with a temporal process for which one aims at predicting certain properties of future events, no collection of historical data points can truly satisfy the requirements requested from a set representative validation. The accuracy of a prediction the next day just after the end of the training set is better than for the more distant days in the future, suggesting a time dependence of the conditional distribution. When we choose the days just after the learning period as the validation set, the results with this set will suggest a small regularization of the model. But this choice has the opposite effect on performance for the more distant days in the future. An exact and very reliable model of today's data will probably be bad in a few days, while a less reliable model of the day will still be valid in a few days. This is less problematic for ensemble classifiers such as random forests, but is for neural networks. A pure workaround is to use dropout on the network structure. It samples smaller networks from the complete structure, drives them independently and ultimately averages the assumptions of these smaller networks. Predictions based on this hypothesis averaged are more stable over time. Online learning: the stochastic gradient descent and the many variants that have been developed for the training of neural networks (ADAM, RMSprop, Adagrad) are able to update the model iteratively even from inaccurate errors which have been estimated on small sets of training examples. This property combines well with the requirement that businesses maintain their detection models with the current of authentication data, transactions or transactions.
[0071 ] Remarques concernant l'entraînement de LSTM : du fait de sa structure récurrente, la LSTM est susceptible d'un surapprentissage même quand les couches de LSTM n'ont que quelques nœuds. Par conséquent, il est recommandé de démarrer avec une structure plutôt petite et d'augmenter la taille avec précautions tant qu'il y a une raison de s'attendre à une performance de généralisation plus poussée. On a remarqué qu'une pénalité ¾ conduit à une convergence bien plus lisse et des optima bien meilleurs qu'une pénalité ½ . L'optimiseur ADAM fonctionne bien mieux qu'un algorithme SGD conventionnel dans les présentes expériences puisqu'il estime un schéma de vitesse d'apprentissage approprié à la volée.  Comments on the training of LSTM: because of its recurring structure, the LSTM is likely to over-learning even when the layers of LSTM have only a few nodes. Therefore, it is recommended to start with a rather small structure and to increase the size with caution as long as there is reason to expect further generalization performance. We have noticed that a penalty ¾ leads to a much smoother convergence and better optima than a ½ penalty. The ADAM optimizer works much better than a conventional SGD algorithm in the present experiments since it estimates an appropriate learning speed scheme on the fly.
[0072] Approche combinée : qualitativement, il reste une seule différence entre les forêts aléatoires et les LSTM même après l'addition de particularités agrégées. Lors de transactions face à face, la LSTM détecte un ensemble de fraudes différent de celui de la forêt aléatoire, invariablement davantage différent qu'à l'intérieur des familles individuelles. On présume que cette différence peut être expliquée par la présence de schémas de succession plus distincts, qui sont guidés et encadrés par des contraintes du monde réel. Par conséquent, dans le scénario F2F, la combinaison d'un apprenant de séquence avec un apprenant statique et des particularités agrégées est susceptible d'améliorer encore davantage la précision de détection.  Combined approach: qualitatively, there remains only one difference between the random forests and the LSTM even after the addition of aggregated peculiarities. In face-to-face transactions, the LSTM detects a different set of frauds than the random forest, invariably more different than within individual families. It is presumed that this difference can be explained by the presence of more distinct succession patterns, which are guided and framed by real-world constraints. Therefore, in the F2F scenario, the combination of a sequence learner with a static learner and aggregate features is likely to further improve the detection accuracy.
[0073] Suivant le type d'application, ou le type des fraudes, défauts ou anomalies dans une authentification, opération ou transaction que l'opérateur veut détecter, le système peut utiliser uniquement le réseau neuronal récurrent du type à mémoire à long et court terme (LSTM), ou le réseau neuronal pour l'apprentissage statistique du type d'arbre de décision, ou une combinaison des deux (voir la Figure 6). Depending on the type of application, or the type of fraud, defects or anomalies in an authentication, operation or transaction that the operator wants to detect, the system can use only the neural network. recurrent long-term and short-term memory type (LSTM), or the neural network for statistical learning of the type of decision tree, or a combination of both (see Figure 6).
[0074] On comprendra facilement, à la lecture de la présente description, que les caractéristiques de la présente invention, telles que globalement décrites et illustrées sur les figures, peuvent être agencées et conçues selon une large diversité de configurations différentes. Ainsi, la description de la présente invention et les figures qui l'accompagnent ne sont pas destinés à limiter la portée de l'invention, mais représentent uniquement des modes de réalisation sélectionnés.  It will be readily understood from the present description that the features of the present invention, as generally described and illustrated in the figures, can be arranged and designed in a wide variety of different configurations. Thus, the description of the present invention and accompanying figures are not intended to limit the scope of the invention, but represent only selected embodiments.
[0075] L'homme du métier comprendra que les caractéristiques techniques d'un mode de réalisation donné peuvent en fait être combinées avec des caractéristiques d'un autre mode de réalisation, sauf si l'inverse est explicitement mentionné, ou s'il est évident que ces caractéristiques sont incompatibles. En outre, les caractéristiques techniques décrites dans un mode de réalisation peuvent être isolées des autres caractéristiques de ce mode, sauf si l'inverse est explicitement mentionné.  Those skilled in the art will understand that the technical features of a given embodiment may in fact be combined with features of another embodiment, unless the reverse is explicitly mentioned, or if it is obvious that these features are incompatible. In addition, the technical features described in one embodiment can be isolated from the other features of this mode, unless the reverse is explicitly mentioned.
[0076] Il devrait apparaître de façon évidente à l'homme du métier que la présente invention permet des modes de réalisation sous de nombreuses autres formes spécifiques sans s'écarter de la portée définie par la protection visée. L'illustration et l'invention ne devraient pas être limitées aux détails donnés ci-dessus.  It should be obvious to those skilled in the art that the present invention allows embodiments in many other specific forms without departing from the scope defined by the intended protection. The illustration and the invention should not be limited to the details given above.

Claims

REVENDICATIONS
1 . Système d'apprentissage machine pour diverses applications informatiques permettant une fouille de texte pour la détection de défauts ou d'anomalies dans une authentification, transaction ou opération effectuée par l'application, comprenant : 1. A machine learning system for various computer applications for searching text for detecting defects or anomalies in an authentication, transaction or operation performed by the application, comprising:
• un agencement matériel et logiciel formant un système de prétraitement ;  • a hardware and software arrangement forming a pretreatment system;
• un agencement matériel et logiciel formant un réseau neuronal récurrent du type à mémoire à long et court terme (LSTM), seul ou en combinaison avec un algorithme pour l'apprentissage statistique du type d'arbre de décision, et conduisant à un modèle de traitement de données enrichies agrégées issues du système de prétraitement,  A hardware and software arrangement forming a recurrent neural network of the long-term and short-term memory type (LSTM), alone or in combination with an algorithm for statistical learning of the type of decision tree, and leading to a model of aggregated enriched data processing from the preprocessing system,
• un agencement matériel et logiciel pour l'injection de données enrichies agrégées issues du système de prétraitement, dans le réseau neuronal,  A hardware and software arrangement for injecting aggregated enriched data from the preprocessing system into the neural network;
• un agencement matériel et logiciel pour valider l'authentification, opération ou transaction sur la base des résultats obtenus à la sortie du réseau neuronal.  • a hardware and software arrangement to validate the authentication, operation or transaction based on the results obtained at the output of the neural network.
caractérisé en ce que le réseau neuronal récurrent du type LSTM comprend au moins deux couches récurrentes et un Classificateur de Régression Logistique positionné au-dessus de la dernière couche récurrente, le Classificateur de Régression Logistique prend en compte le temps écoulé entre deux authentifications, opérations ou transactions lors de sa mise en œuvre. characterized in that the recurrent neural network of the LSTM type comprises at least two recurrent layers and a Logistic Regression Classifier positioned above the last recurrent layer, the Logistic Regression Classifier takes into account the time elapsed between two authentications, operations or transactions during its implementation.
2. Système selon la revendication précédente, dans lequel l'agencement matériel et logiciel pour valider l'authentification, opération ou transaction est paramétré avec une matrice d'indices de Jaccard afin que soit mesuré le degré de similarité entre les données de sortie d'un premier algorithme sous la forme d'un réseau neuronal du type LSTM et celles provenant d'un agencement matériel et logiciel d'un deuxième algorithme pour l'apprentissage statistique du type d'arbre de décision et pour valider les résultats de l'un des deux réseaux neuronaux. 2. System according to the preceding claim, wherein the hardware and software arrangement for validating the authentication, operation or transaction is parameterized with a matrix of Jaccard indices so that the degree of similarity between the output data of the device is measured. a first algorithm in the form of a neural network of the LSTM type and those coming from a hardware and software arrangement of a second algorithm for statistical learning of the type of decision tree and for validating the results of one of the two neural networks.
3. Système selon l'une des revendications précédentes, qui est utilisé pour une application informatique permettant une prédiction de risque à partir de la détection d'une fraude dans des opérations d'authentification d'objets dans la mémoire électronique contenant dans une zone une information secrète utilisée pour authentifier l'objet et son porteur. 3. System according to one of the preceding claims, which is used for a computer application allowing a prediction of risk from the detection of fraud in object authentication operations in the electronic memory containing in an area a secret information used to authenticate the object and its holder.
4. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel formant un réseau neuronal récurrent entraînant un modèle de type LSTM utilise un GPU. 4. System according to one of the preceding claims, wherein the hardware and software arrangement forming a recurrent neural network driving an LSTM type model uses a GPU.
5. Système selon l'une des revendications précédentes, dans lequel l'agencement matériel et logiciel formant un système de prétraitement comprend : 5. System according to one of the preceding claims, wherein the hardware and software arrangement forming a pretreatment system comprises:
- au moins une première base de données contenant au moins un ensemble de schémas séquentiels de données brutes concernant ladite application informatique,  at least one first database containing at least one set of sequential schematics of raw data relating to said computer application,
- un agencement matériel et logiciel formant au moins une deuxième base de données contenant au moins un ensemble de données externes, a hardware and software arrangement forming at least a second database containing at least one set of external data,
- un agencement matériel et logiciel pour enrichir les données brutes au moyen des données externes, a hardware and software arrangement for enriching raw data with external data,
- un agencement matériel et logiciel pour agréger les données enrichies.  a hardware and software arrangement for aggregating the enriched data.
6. Système selon l'une des revendications précédentes, dans lequel le système de prétraitement utilise un mode multifil. 6. System according to one of the preceding claims, wherein the pretreatment system uses a multifil mode.
EP18755710.3A 2017-07-18 2018-07-13 Machine learning system for various computer applications Pending EP3655893A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1756823A FR3069357B1 (en) 2017-07-18 2017-07-18 MACHINE LEARNING SYSTEM FOR VARIOUS COMPUTER APPLICATIONS
PCT/EP2018/069176 WO2019016106A1 (en) 2017-07-18 2018-07-13 Machine learning system for various computer applications

Publications (1)

Publication Number Publication Date
EP3655893A1 true EP3655893A1 (en) 2020-05-27

Family

ID=60182698

Family Applications (1)

Application Number Title Priority Date Filing Date
EP18755710.3A Pending EP3655893A1 (en) 2017-07-18 2018-07-13 Machine learning system for various computer applications

Country Status (5)

Country Link
US (1) US11763137B2 (en)
EP (1) EP3655893A1 (en)
CN (1) CN110998608B (en)
FR (1) FR3069357B1 (en)
WO (1) WO2019016106A1 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829866B1 (en) * 2017-12-27 2023-11-28 Intuit Inc. System and method for hierarchical deep semi-supervised embeddings for dynamic targeted anomaly detection
CN110362494B (en) * 2019-07-18 2021-06-15 腾讯科技(深圳)有限公司 Method for displaying microservice state information, model training method and related device
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment
CN111123894B (en) * 2019-12-30 2021-09-07 杭州电子科技大学 Chemical process fault diagnosis method based on combination of LSTM and MLP
FR3109232A1 (en) * 2020-04-10 2021-10-15 Advestis INTERPRETABLE PREDICTION PROCESS BY LEARNING OPERATING WITH LIMITED MEMORY RESOURCES
JP6926279B1 (en) * 2020-05-29 2021-08-25 楽天グループ株式会社 Learning device, recognition device, learning method, recognition method, program, and recurrent neural network
US11336507B2 (en) * 2020-09-30 2022-05-17 Cisco Technology, Inc. Anomaly detection and filtering based on system logs
US20220188837A1 (en) * 2020-12-10 2022-06-16 Jpmorgan Chase Bank, N.A. Systems and methods for multi-agent based fraud detection
CN112598118B (en) * 2021-03-03 2021-06-25 成都晓多科技有限公司 Method, device, storage medium and equipment for processing abnormal labeling in supervised learning
CN113569993A (en) * 2021-08-27 2021-10-29 浙江工业大学 Method for constructing quality prediction model in polymerization reaction process

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106600283A (en) * 2016-12-16 2017-04-26 携程旅游信息技术(上海)有限公司 Method and system for identifying the name nationalities as well as method and system for determining transaction risk
US10762423B2 (en) * 2017-06-27 2020-09-01 Asapp, Inc. Using a neural network to optimize processing of user requests

Also Published As

Publication number Publication date
CN110998608B (en) 2024-02-20
FR3069357B1 (en) 2023-12-29
FR3069357A1 (en) 2019-01-25
US20200257964A1 (en) 2020-08-13
CN110998608A (en) 2020-04-10
US11763137B2 (en) 2023-09-19
WO2019016106A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
EP3655893A1 (en) Machine learning system for various computer applications
Mishra et al. Credit card fraud detection on the skewed data using various classification and ensemble techniques
US10460320B1 (en) Fraud detection in heterogeneous information networks
WO2019129977A1 (en) Detection of anomalies by an approach combining supervised and non-supervised learning
CN110084609B (en) Transaction fraud behavior deep detection method based on characterization learning
EP2374075A1 (en) Method and system for sorting data from a database
Kulkarni et al. Advanced credit score calculation using social media and machine learning
CN109522317A (en) A kind of anti-fraud method for early warning and system
Bouzidi et al. Deep learning-based automated learning environment using smart data to improve corporate marketing, business strategies, fraud detection in financial services, and financial time series forecasting
Bier et al. Variable-length multivariate time series classification using ROCKET: A case study of incident detection
CN116485406A (en) Account detection method and device, storage medium and electronic equipment
CN116821759A (en) Identification prediction method and device for category labels, processor and electronic equipment
US20230095834A1 (en) Methods and systems for identifying a re-routed transaction
Gambo et al. A convolutional neural network model for credit card fraud detection
Chataigner Some contributions of machine learning to quantitative finance: volatility, nowcasting, cva compression
WO2021110763A1 (en) Computer-implemented method for allocating an accounting document to a pair of debtor/creditor accounts and the accounting entry
Jose et al. Detection of Credit Card Fraud Using Resampling and Boosting Technique
Aziz et al. Fraudulent transactions detection in credit card by using data mining methods: A review
Kang Fraud Detection in Mobile Money Transactions Using Machine Learning
MATHEW An Ensemble Machine Learning Model for Classification of Credit Card Fradulent Transactions
Liang et al. DeRisk: An Effective Deep Learning Framework for Credit Risk Prediction over Real-World Financial Data
US20240054356A1 (en) Systems and methods for generating multipurpose graph node embeddings for machine learning
Nithiya et al. Bitcoin Price Prediction Using Machine Learning
WO2023170303A1 (en) Method for detecting anomalies using a global-local model
US20230289610A1 (en) Artificial intelligence based methods and systems for unsupervised representation learning for bipartite graphs

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20200213

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20211008

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230527