FR3062504A1

FR3062504A1 - AUTOMATIC DETECTION OF FRAUD IN A NEURON NETWORK PAYMENT TRANSACTION STREAM INTEGRATING CONTEXTUAL INFORMATION

Info

Publication number: FR3062504A1
Application number: FR1750737A
Authority: FR
Inventors: Mathieu GARCHERY; Olivier Caelen; Liyun He-Guelton; Michael Granitzer; Konstantin Ziegler; Stefan ZWICKLBAUER
Original assignee: Worldline SA
Current assignee: Worldline SA
Priority date: 2017-01-30
Filing date: 2017-01-30
Publication date: 2018-08-03
Also published as: CN110226179A; WO2018138423A1; EP3574462A1

Abstract

L'invention concerne un procédé de détection de transactions frauduleuses dans un ensemble de transactions de paiement, consistant à soumettre les transactions à un système de classification entrainé sur un jeu d'entrainement et fournissant pour chaque nouvelle transaction dudit ensemble une probabilité d'être une transaction frauduleuse, caractérisé en ce qu'à chaque transaction sont associées des informations contextuelles.The invention relates to a method for detecting fraudulent transactions in a set of payment transactions, comprising subjecting the transactions to a classification system trained on a training set and providing for each new transaction of said set a probability of being a Fraudulent transaction, characterized in that each transaction is associated with contextual information.

Description

Titulaire(s) :Holder (s):

WORLDLINE Société anonyme.WORLDLINE Public limited company.

O Demande(s) d’extension :O Extension request (s):

® Mandataire(s) : NOVAGRAAF TECHNOLOGIES.® Agent (s): NOVAGRAAF TECHNOLOGIES.

FR 3 062 504 - A1 ® DETECTION AUTOMATIQUE DE FRAUDES DANS UN FLUX DE TRANSACTION DE PAIEMENT PAR RESEAUX DE NEURONES INTEGRANT DES INFORMATIONS CONTEXTUELLES.FR 3 062 504 - A1 ® AUTOMATIC DETECTION OF FRAUD IN A PAYMENT TRANSACTION FLOW THROUGH NEURON NETWORKS INTEGRATING CONTEXTUAL INFORMATION.

@) L'invention concerne un procédé de détection de transactions frauduleuses dans un ensemble de transactions de paiement, consistant à soumettre les transactions à un système de classification entraîné sur un jeu d'entrainement et fournissant pour chaque nouvelle transaction dudit ensemble une probabilité d'être une transaction frauduleuse, caractérisé en ce qu'à chaque transaction sont associées des informations contextuelles.@) The invention relates to a method of detecting fraudulent transactions in a set of payment transactions, comprising subjecting the transactions to a classification system trained on a training game and providing for each new transaction of said set a probability of be a fraudulent transaction, characterized in that contextual information is associated with each transaction.

DETECTION AUTOMATIQUE DE FRAUDES DANS UN FLUX DE TRANSACTIONS DE PAIEMENT PAR RESEAUX DE NEURONES INTEGRANT DES INFORMATIONS CONTEXTUELLESAUTOMATIC DETECTION OF FRAUD IN A PAYMENT TRANSACTION STREAM BY NEURON NETWORKS INTEGRATING CONTEXTUAL INFORMATION

DOMAINE DE L’INVENTIONFIELD OF THE INVENTION

La présente invention est relative à un mécanisme de détection d'anomalies dans un flux de transactions bancaires. Elle s'applique notamment à la détection de fraudes.The present invention relates to a mechanism for detecting anomalies in a flow of banking transactions. It applies in particular to the detection of fraud.

CONTEXTE DE L’INVENTIONBACKGROUND OF THE INVENTION

La fraude sur les transactions bancaires est un phénomène grandissant, notamment du fait de la généralisation des transactions de paiement via les réseaux de télécommunication.Fraud in banking transactions is a growing phenomenon, in particular due to the generalization of payment transactions via telecommunications networks.

Lorsqu'une transaction de paiement est autorisée par un serveur de paiement, deux mécanismes peuvent être mis en place : avant l'autorisation et.ou après.When a payment transaction is authorized by a payment server, two mechanisms can be implemented: before authorization and.or after.

Dans le premier cas, on parle de détection de fraude en temps-réel. Dans le deuxième cas, il s'agit de détection de fraude proche du temps-réel (« near real-time »). Le premier cas présente l'avantage de pouvoir bloquer une transaction frauduleuse avant que celle-ci n'ait lieu, mais elle est assujettie à une contrainte forte sur le temps de traitement, puisqu'elle retarde la finalisation de la transaction de paiement et donc l'expérience pour l'utilisateur. Le deuxième cas permet de disposer de davantage de temps et donc de pouvoir mettre en place des traitements plus complexes et plus fins.In the first case, we speak of real-time fraud detection. In the second case, it is near real-time fraud detection. The first case has the advantage of being able to block a fraudulent transaction before it takes place, but it is subject to a strong constraint on the processing time, since it delays the finalization of the payment transaction and therefore experience for the user. The second case makes it possible to have more time and therefore to be able to set up more complex and finer treatments.

En général, ce problème est considéré par des techniques reposant sur des bases de règles.In general, this problem is considered by techniques based on rule bases.

Des solutions ont été proposées, se basant sur différents mécanismes de classifications. Il est toutefois relevé dans l'état de la technique que la détection de fraudes dans les systèmes de paiement présente des spécificités. Dès lors, les techniques classiques de classifications ne s'appliquent de façon directe et efficace.Solutions have been proposed, based on different classification mechanisms. It is however noted in the prior art that the detection of fraud in payment systems has specificities. Therefore, classical classification techniques are not applied directly and effectively.

Tout d'abord, les conséquences de la fraude sont extrêmement importantes et très sensibles. En outre, comme les données relatives aux données bancaires et aux cartes et autres instruments de paiement sont confidentielles, très peu d'information sont publiquement disponibles sur les outils mis en place pour la détection de la fraude. Il est dès lors malaisé de pouvoir comparer les solutions de l'état de la technique.First of all, the consequences of fraud are extremely significant and very sensitive. In addition, as the data relating to bank data and cards and other payment instruments are confidential, very little information is publicly available on the tools implemented for fraud detection. It is therefore difficult to be able to compare the solutions of the state of the art.

RESUME DE L’INVENTIONSUMMARY OF THE INVENTION

Le but de la présente invention est de fournir une solution palliant au moins partiellement les inconvénients précités.The object of the present invention is to provide a solution which at least partially overcomes the aforementioned drawbacks.

Plus particulièrement, l’invention vise à fournir une solution de détection automatique de transactions frauduleuses dans un ensemble de transactions en utilisant des informations contextuelles, c’est-à-dire non contenue dans les transactions soumises au traitement.More particularly, the invention aims to provide a solution for automatically detecting fraudulent transactions in a set of transactions using contextual information, that is to say not contained in the transactions subject to processing.

A cette fin, la présente invention propose un procédé de détection de transactions frauduleuses dans un ensemble de transactions de paiement, consistant à soumettre les transactions à un système de classification entraîné sur un jeu d’entrainement et fournissant pour chaque nouvelle transaction dudit ensemble une probabilité d’être une transaction frauduleuse, caractérisé en ce qu’à chaque transaction sont associées des informations contextuelles.To this end, the present invention provides a method of detecting fraudulent transactions in a set of payment transactions, comprising subjecting the transactions to a classification system trained on a training game and providing for each new transaction of said set a probability to be a fraudulent transaction, characterized in that contextual information is associated with each transaction.

Typiquement, ce jeu d’entrainement peut former un ensemble disjoint de l’ensemble des transactions sur lequel est ensuite effectué la généralisation, ou prévision, lors de la phase d’exploitation des classifieurs entraînés sur le jeu d’entrainement.Typically, this training game can form a disjoint set of all the transactions on which the generalization, or forecasting, is then carried out during the operating phase of the classifiers trained on the training game.

Suivant des modes de réalisation préférés, l’invention comprend une ou plusieurs des caractéristiques suivantes qui peuvent être utilisées séparément ou en combinaison partielle entre elles ou en combinaison totale entre elles :According to preferred embodiments, the invention comprises one or more of the following characteristics which can be used separately or in partial combination with one another or in total combination with one another:

- ledit système de classification est un réseau de neurones ;- said classification system is a neural network;

- ledit système de classification utilise lesdites informations contextuelles au moyen de plongements de graphes ;- said classification system uses said contextual information by means of graph embeddings;

- lesdites informations contextuelles comprennent des données relatives au pays associé à la transaction ;- said contextual information includes data relating to the country associated with the transaction;

- lesdites informations contextuelles comprennent des données relatives aux jours de congés ;- said contextual information includes data relating to days off;

- ledit système de classification est basé sur l’algorithme Word2Vec.- said classification system is based on the Word2Vec algorithm.

Un autre objet de l’invention concerne un dispositif comportant des moyens pour mettre en œuvre le procédé tel que précédemment décrit.Another object of the invention relates to a device comprising means for implementing the method as previously described.

D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit d’un mode de réalisation préféré de l'invention, donnée à titre d'exemple et en référence aux dessins annexés.Other characteristics and advantages of the invention will appear on reading the following description of a preferred embodiment of the invention, given by way of example and with reference to the accompanying drawings.

BREVE DESCRIPTION DES DESSINSBRIEF DESCRIPTION OF THE DRAWINGS

La figure 1 représente schématiquement des résultats expérimentaux obtenus selon un mode de réalisation de l’invention.FIG. 1 schematically represents experimental results obtained according to an embodiment of the invention.

DESCRIPTION DETAILLEE DE L’INVENTIONDETAILED DESCRIPTION OF THE INVENTION

Le nombre de fraudes ne représente qu'un très faible pourcentage du volume des transactions bancaires : on considère que le taux moyen de fraude est de l'ordre de 0,5 %. Aussi, la détection de fraude correspond à un problème de détection d'anomalies, qui se caractérise par une distribution déséquilibré entre deux populations (cas normaux / cas en anomalie). Ce type de problème est très mal résolu par les mécanismes d'apprentissage de type « machine leaming »The number of frauds represents only a very small percentage of the volume of banking transactions: we consider that the average fraud rate is around 0.5%. Also, fraud detection corresponds to an anomaly detection problem, which is characterized by an unbalanced distribution between two populations (normal cases / anomalous cases). This type of problem is very poorly solved by learning mechanisms such as "machine leaming"

Selon un mode de réalisation de l'invention, l'ensemble des transactions à considérer est modifiée par la suppression des cas que l'on peut considérer a priori légitime. Ainsi, on peut augmenter l'équilibre entre les deux populations. Ce mécanisme permet d'augmenter les performances du réseau de neurones.According to one embodiment of the invention, all of the transactions to be considered are modified by the elimination of the cases which can be considered a priori legitimate. Thus, we can increase the balance between the two populations. This mechanism increases the performance of the neural network.

Une autre spécificité des fraudes à transactions de paiement (par carte bancaire) réside dans la nature complexe du problème : les fraudes sont difficiles à distinguer des transactions légitimes, et il peut y avoir des recouvrements entre les classes issues du procédé de classification. De plus, différents schémas de fraudes peuvent être pratiqués par les fraudeurs, engendrant des situations diverses, et il est donc délicat de détecter les fraudes en se basant sur des « signatures » de cas de fraude typiques.Another specificity of frauds in payment transactions (by bank card) lies in the complex nature of the problem: frauds are difficult to distinguish from legitimate transactions, and there can be overlaps between the classes resulting from the classification process. In addition, different patterns of fraud can be practiced by fraudsters, causing various situations, and it is therefore difficult to detect fraud based on "signatures" of typical fraud cases.

Le problème consiste à identifier les fraudes parmi en ensemble de transactions de paiement.The problem is to identify frauds among the set of payment transactions.

Selon l'invention, un système de classification est mis en place, utilisant les techniques de type « machine learning », afin de générer deux classes : une classe comportant les transactions légitimes et une classe comportant les transactions frauduleuses.According to the invention, a classification system is implemented, using “machine learning” type techniques, in order to generate two classes: a class comprising legitimate transactions and a class comprising fraudulent transactions.

Typiquement, ce type de mécanisme repose sur une phase d'apprentissage et sur une phase de prédiction qui consiste en une généralisation du jeu d'entrainement sur lequel s'est basée la phase d'apprentissage.Typically, this type of mechanism is based on a learning phase and on a prediction phase which consists of a generalization of the training game on which the learning phase was based.

Selon l'invention, la prédiction de la classe d'une transaction prend en compte différents attributs associés à la transaction, parmi lesquels des informations contextuelles. La prise en compte de ces informations contextuelles est une idée novatrice par rapport à l'état de la technique.According to the invention, the prediction of the class of a transaction takes into account various attributes associated with the transaction, including contextual information. Taking this contextual information into account is an innovative idea compared to the state of the art.

Il peut par exemple s'agir d'une date (incluant l'heure) de la transaction, de sa localisation géographique, d'événements calendaires (vacances scolaires, jours fériés.... ).It may for example be a date (including the time) of the transaction, its geographic location, calendar events (school holidays, public holidays, etc.).

Les attributs peuvent aussi plus classiquement contenir le propriétaire de la carte de crédit (ou autre instrument de paiement), etc.Attributes can also more conventionally contain the owner of the credit card (or other payment instrument), etc.

L'utilisation des informations contextuelles permet de distinguer avec une précision accrue les transactions frauduleuses des transactions légitimes.The use of contextual information makes it possible to distinguish with more precision fraudulent transactions from legitimate transactions.

Comme pour tout mécanisme de classification, un classifieur est d'abord construit à partir d'un jeu d'entrainement pendant la phase d'apprentissage. Puis, ce classifieur est utilisé pendant la phase de prédiction afin de classifier des transactions nouvelles.As with any classification mechanism, a classifier is first constructed from a training game during the learning phase. Then, this classifier is used during the prediction phase to classify new transactions.

Différents types de classifieurs sont possibles, mais grâce à utilisation d'informations contextuelles, ceux-ci peuvent se baser sur un plus grand volume de données pour chaque transaction et donc d'enrichir les possibilités de déterminations d'un modèle de discrimination pour former deux classes bien identifiées .Different types of classifiers are possible, but thanks to the use of contextual information, these can be based on a larger volume of data for each transaction and therefore enrich the possibilities of determining a discrimination model to form two well identified classes.

L'invention repose donc sur l'injection d'informations contextuelles dans le mécanisme de classification.The invention therefore relies on the injection of contextual information into the classification mechanism.

Plus particulièrement, selon un mode de réalisation de l'invention, ces informations contextuelles sont injectées dans un réseau de neurones.More particularly, according to one embodiment of the invention, this contextual information is injected into a neural network.

Deux sources d'informations peuvent être considérés pour expliquer les mécanismes de l’invention :Two sources of information can be considered to explain the mechanisms of the invention:

- une base de données relationnelle D, représentant les données de l'application interne;- a relational database D, representing the data of the internal application;

- un graphe sémantique G={V, E} représentant les informations contextuelles.- a semantic graph G = {V, E} representing the contextual information.

On suppose par ailleurs qu'il existe un attribut j dans D, pour lequel l'ensemble de valeurs Aj = {dj : d G D] peut être identifié avec un sousensemble de vecteurs V * £ Vde G.It is also assumed that there is an attribute j in D, for which the set of values Aj = {dj: d G D] can be identified with a subset of vectors V * £ Vde G.

A tel graphe sémantique permet de structurer les informations contextuelles.With such a semantic graph, it is possible to structure contextual information.

Un graphe ou réseau sémantique, ou encore graphe de connaissances est un graphe orienté multi-relationnel composé d'entités tels que des nœuds et des liens.A graph or semantic network, or knowledge graph is a multi-relational oriented graph composed of entities such as nodes and links.

Dans le cadre de l'invention, l'intégration de ces graphes dans les réseaux de neurones est effectuée par des plongements de graphe, ou « graph embeddings » en langue anglaise), c'est-à-dire des représentations vectorielles des nœuds du réseau sémantique, qui permettent de capturer les propriétés sémantiques d'un nœud en particulier.In the context of the invention, the integration of these graphs into neural networks is carried out by graph embeddings, or “graph embeddings” in English), that is to say vector representations of the nodes of the semantic network, which allow to capture the semantic properties of a particular node.

Ces plongements (« embeddings ») sont utilisés pour initialisés une couche de plongements du réseau de neurones. Pendant la phase d'apprentissage, ces couches de plongements sont adaptées à partir des informations contextuelles.These embeddings are used to initialize a layer of embeddings in the neural network. During the learning phase, these embedding layers are adapted from contextual information.

Par exemple, des attributs comme « pays » ou « année » peuvent être trouvés dans un graphe extérieur tel que le graphe DBpedia.For example, attributes like "country" or "year" can be found in an outside graph such as the DBpedia graph.

DBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format du web sémantique des contenus encyclopédiques de chaque fiche encyclopédique.DBpedia is a university and community project for the automatic exploration and extraction of data derived from Wikipedia. Its principle is to offer a structured version and in the form of standardized data in the semantic web format of the encyclopedic contents of each encyclopedic record.

Il est ainsi possible de tirer profit des modèles existant structurant l'information contextuelles.It is thus possible to take advantage of existing models structuring contextual information.

Sans perte de généralité, on peut également supposer que j=l et on identifie les valeurs pour le premier attribut avec les vecteurs dans V*. Chaque tuple de D a pour forme d= (v, d2, . . ., dk) for v E V *Without loss of generality, we can also assume that j = l and we identify the values for the first attribute with the vectors in V *. Each tuple of D has the form d = (v, d2,..., Dk) for v E V *

Le problème de l'injection d'informations contextuelle sémantique est alors une combinaison de caractéristiques (« features »): trouver la dimension n>0 et les représentations vectorielles u=vec(v) G R n pour tout vGV*.The problem of injecting semantic contextual information is then a combination of features: finding the dimension n> 0 and the vector representations u = vec (v) G R n for all vGV *.

C'est-à-dire que v « capture » la sémantique de v et permet ainsi d'améliorer les mécanismes du classifieur de « machine leaming » sur D* = {(d, d2,..., dk): d G D}.That is to say that v “captures” the semantics of v and thus makes it possible to improve the mechanisms of the classifier of “machine leaming” on D * = {(d, d2, ..., dk): d GD }.

Les plongements (« embeddings ») sont des vecteurs à n dimensions associés à des concepts.Embeddings are n-dimensional vectors associated with concepts.

Ces vecteurs héritent de certaines propriétés sémantiques des concerts, de sorte que notamment des concepts similaires sont associés à des vecteurs proches. Ces proximités peuvent être aisément exprimées par des similarités en cosinus.These vectors inherit certain semantic properties of concerts, so that in particular similar concepts are associated with close vectors. These proximities can be easily expressed by cosine similarities.

Les plongements forment un domaine de recherche bien connu dans le domaine du traitement automatique des langues, afin de représenter la sémantique des mots dans un corpus.Embeddings form a well-known area of research in the field of automatic language processing, in order to represent the semantics of words in a corpus.

Par exemple le « plongement de mots » ou « plongement lexical » est une méthode d'apprentissage automatique issue de l'apprentissage profond (ou « deep learning » en langue anglaise) se focalisant sur l'apprentissage d'une représentation de mots. Cette technique permet de représenter les mots d'un dictionnaire par des vecteurs afin de faciliter leur analyse sémantique et syntaxique. Ainsi, chaque mot sera représenté par un vecteur de réels et les mots apparaissant dans des contextes similaires auront des vecteurs plus proches que d'autres apparaissant dans des contextes différents. Cette nouvelle représentation permet de diminuer considérablement l'espace de dimensionnalité (car on ne stocke plus un dictionnaire entier mais uniquement un espace de vecteurs continus).For example "word embedding" or "lexical embedding" is a method of automatic learning resulting from deep learning (or "deep learning" in English) focusing on learning a representation of words. This technique makes it possible to represent the words of a dictionary by vectors in order to facilitate their semantic and syntactic analysis. Thus, each word will be represented by a vector of reals and the words appearing in similar contexts will have vectors closer than others appearing in different contexts. This new representation makes it possible to considerably reduce the dimensionality space (because we no longer store an entire dictionary but only a space of continuous vectors).

L'algorithme le plus connu est probablement l'algorithme Word2Vec. Une page Wikipédia est consacrée à cet algorithme :Probably the best known algorithm is the Word2Vec algorithm. A Wikipedia page is dedicated to this algorithm:

https://en.wikipedia.org/wiki/Word2vechttps://en.wikipedia.org/wiki/Word2vec

Word2Vec est un groupe d'algorithme d'apprentissage non supervisé permettant de créer des plongements de mots à partir de documents textuels. Afin d'entraîner ses plongements, Word2Vec utilise un réseau neuronal à deux couches prenant en entrée les documents bruts, sans étiquettes. Le modèle architectural du réseau de neurones peut être basé sur le modèle de « continuons bag of words » (CBOW), ou bien sur une architecture « skipgram »Word2Vec is a group of unsupervised learning algorithms for creating word embeddings from textual documents. In order to train its immersion, Word2Vec uses a two-layer neural network taking as input the raw documents, without labels. The architectural model of the neural network can be based on the “let's continue bag of words” (CBOW) model, or on a “skipgram” architecture.

Dans le premier cas (CBOW), l'entrée du modèle peut être wi-2, wi-1, wi+1, wi+2, c'est-à-dire les mots précédents et suivants d'un mot courant wi. La sortie du réseau et la probabilité de wi d'être le mot correct. Cette tâche peut être décrite comme la prédiction d'un mot étant donné son contexte.In the first case (CBOW), the input of the model can be wi-2, wi-1, wi + 1, wi + 2, that is to say the preceding and following words of a current word wi. Network exit and the probability of wi being the correct word. This task can be described as predicting a word given its context.

Dans le second cas (skip-gram), le modèle fonctionne à l'opposé : l'entrée du réseau est un mot wi et Word2Vec prédit le contexte autour de ce mot: wi-2, wi-1, wi+1, wi+2.In the second case (skip-gram), the model works in the opposite way: the network input is a word wi and Word2Vec predicts the context around this word: wi-2, wi-1, wi + 1, wi +2.

Au contraire des autres de réseaux de neurones pour le traitement du langage naturel Word2Vec est très rapide et peut être encore accéléré en utilisant des techniques d'apprentissage parallèle. Ainsi, l'entrainement sur le corpus de Wikipedia peut prendre autour de 90 mn avec un ordinateur personnel équipé d'un processeur i7 quadricore de la marque Intel fonctionnant à 4x3,4 GHz, et d'une mémoire de 16 Go.Unlike other neural networks for natural language processing Word2Vec is very fast and can be further accelerated using parallel learning techniques. Thus, training on the Wikipedia corpus can take around 90 minutes with a personal computer equipped with a quad-core i7 processor from the Intel brand operating at 4x3.4 GHz, and a memory of 16 GB.

Une propriété importante de l'algorithme Word2Vec est qu'il groupe les vecteurs de mots similaires ensemble dans l'espace des vecteurs. Si l'apprentissage est effectué sur un jeu d'apprentissage suffisant, Word2Vec produit de bons résultats en prédiction sur la signification d'un mot sur la base des occurrences précédentes.An important property of the Word2Vec algorithm is that it groups the vectors of similar words together in the vector space. If the learning is done on a sufficient learning game, Word2Vec produces good results in predicting the meaning of a word based on previous occurrences.

Afin d'obtenir des plongements préservant la sémantique, on utilise un algorithme de plongement développé pour restreindre l'ambiguïté dans les entités. Un tel algorithme peut être l'algorithme décrit dans l'article suivant :In order to obtain embeddings preserving the semantics, we use an embedding algorithm developed to restrict ambiguity in the entities. Such an algorithm can be the algorithm described in the following article:

Zwicklbauer, S., Seifert, C., Granitzer, M.: Doser - a knowledge-baseagnostic framework for entity disambiguation using semantic embeddings. In: Sack, H., Blomqvist, E., d’Aquin, M., Ghidini, C., Ponzetto, S.P., Lange,Zwicklbauer, S., Seifert, C., Granitzer, M .: Doser - a knowledge-baseagnostic framework for entity disambiguation using semantic embeddings. In: Sack, H., Blomqvist, E., d'Aquin, M., Ghidini, C., Ponzetto, S.P., Lange,

C. (eds.) The Semantic Web. Latest Advances and New Domains - 13th International Conférence, ESWC 2016, Heraklion, Crete, Greece, May 29 June 2, 2016, Proceedings. Lecture Notes in Computer Science, vol. 9678, pp. 182-198. Springer (2016), http://dx.doi.org/10.1007/978-3-319-34129312C. (eds.) The Semantic Web. Latest Advances and New Domains - 13th International Conference, ESWC 2016, Heraklion, Crete, Greece, May 29 June 2, 2016, Proceedings. Lecture Notes in Computer Science, vol. 9678, pp. 182-198. Springer (2016), http://dx.doi.org/10.1007/978-3-319-34129312

Selon une mise en œuvre basée sur cet algorithme Word2Vec obtient une représentation vectorielle pour chaque mot en prédisant des séquences ce moto.According to an implementation based on this algorithm Word2Vec obtains a vector representation for each word by predicting sequences of this motorcycle.

Puisqu'un graphe RDF donné ne contient pas un tel type de séquences, on créé une séquence de nœuds vk G V en conduisant une marche aléatoire à partir d'un nœud choisit également de façon aléatoire. On considère que le ίο graphe RDF est un graphe non-orienté G=(V,E) dans lequel les nœuds V sont des ressources de la base de connaissance, et les liens E sont les propriétés de la base de connaissance, et x, y E V,(x, y) G E <=> 3p : (x, p, y) V 3p : (y, p, x) est un triple RDF dans la base de connaissance.Since a given RDF graph does not contain such a type of sequence, a sequence of nodes vk G V is created by conducting a random walk from a node also chosen randomly. We consider that the ίο RDF graph is a non-oriented graph G = (V, E) in which the nodes V are resources of the knowledge base, and the links E are the properties of the knowledge base, and x, y EV, (x, y) GE <=> 3p: (x, p, y) V 3p: (y, p, x) is a triple RDF in the knowledge base.

La marche aléatoire peut être effectuée au sein de ce graphe G. Lorsque la marche rencontrer un nœud x£V , l'identifiant de ce nœud x est ajouté dans le résultat de sortie.Random walking can be performed within this graph G. When walking to meet a node x £ V, the identifier of this node x is added to the output result.

Le nœud succ(x) du nœud x est choisi de façon aléatoire et uniformément équitable parmi les nœuds adjacents, c'est-à-dire avec une probabilité uniforme égale à l/EdgesOf(x), avec « EdgesOf(x) » une fonction renvoyant le nombre de liens du nœud x, c'est-à-dire le nombre de liens dans le vecteur vk.The node succ (x) of node x is chosen in a random and uniformly equitable way among the adjacent nodes, that is to say with a uniform probability equal to l / EdgesOf (x), with “EdgesOf (x)” a function returning the number of links in node x, i.e. the number of links in the vector vk.

On peut également introduire une variable aléatoire Xx qui détermine la probabilité de sauter à un nœud donné si un saut aléatoire est réalisé.We can also introduce a random variable Xx which determines the probability of jumping to a given node if a random jump is performed.

La probabilité de saut d'un premier nœud vers un second nœud x est calculée en normalisant la fréquence de liens inverse respective IEF du nœud x, IEF(x). Selon des études expérimentales effectuées par les inventeurs, on utilise le paramètre a = 0.1 pour réaliser un saut aléatoire, mais une gamme de valeurs entre 0,05 et 0,25 semble convenir et fournir un bon modèle Word2Vec.The probability of jumping from a first node to a second node x is calculated by normalizing the respective reverse link frequency IEF of node x, IEF (x). According to experimental studies carried out by the inventors, the parameter a = 0.1 is used to perform a random jump, but a range of values between 0.05 and 0.25 seems to be suitable and to provide a good Word2Vec model.

De plus, le paramètre Θ indique le nombre de marches aléatoire dans le graphe. Il est possible d'utiliser par exemple 0 = 5 *|E|, ce qui dans l'exemple de DBpedia fournit environ 50 millions de marches aléatoires. Des valeurs plus élevés de ce paramètres ne semblent pas améliorer les plongements des entités, mais augmente le temps nécessaire pour la phase d'apprentissage.In addition, the parameter Θ indicates the number of random steps in the graph. It is possible to use for example 0 = 5 * | E |, which in the example of DBpedia provides approximately 50 million random walks. Higher values of this parameter do not seem to improve the embedding of the entities, but increases the time necessary for the learning phase.

Selon un mode de réalisation de l'invention, l'approche pour la création du corpus pour des bases de connaissances RDF peut être selon l'algorithme suivant:According to one embodiment of the invention, the approach for creating the corpus for RDF knowledge bases can be according to the following algorithm:

Ce principe d'utilisation d'informations contextuelles véhiculant un contenu sémantique peut être appliqué à d'autres mécanismes de classification par apprentissage que les réseaux de neurones.This principle of using contextual information conveying semantic content can be applied to other classification mechanisms by learning than neural networks.

On peut ainsi citer les algorithmes génétiques, les réseaux bayésiens, les modèles de Markov cachés, etc.We can thus cite genetic algorithms, Bayesian networks, hidden Markov models, etc.

La courbe de la figure 1 illustre un résultat expérimental de mises en œuvre de l'invention.The curve of Figure 1 illustrates an experimental result of implementations of the invention.

Elle fournit un score global corrélant la précision (axe des ordonnées) et un taux de « recall » (axe des abscisses), c'est-à-dire de transactions frauduleuses correctement classifiées.It provides an overall score correlating the precision (ordinate axis) and a recall rate (abscissa axis), that is to say correctly classified fraudulent transactions.

Ces courbes montrent 4 situations correspondant à des configurations différentes des couches de plongements du réseau de neurones:These curves show 4 situations corresponding to different configurations of the embedding layers of the neural network:

- référence 1 - « no external datai » : aucune information contextuelle n'est prise en compte- reference 1 - “no external datai”: no contextual information is taken into account

- référence 2 - « tx-holiday » : des informations contextuelle relatives aux jours de congés sont pris en compte;- reference 2 - “tx-holiday”: contextual information relating to days of leave is taken into account;

- référence 3 « country embed » des informations contextuelles relatives aux pays sont prises en compte- reference 3 "country embed" contextual information relating to countries is taken into account

- référence 4 - « tx_holiday+country_embed » des informations contextuelles relatives aux jours de congés et aux pays sont prises en compte.- reference 4 - “tx_holiday + country_embed” contextual information relating to days off and countries are taken into account.

On remarque ainsi qu'effectivement les résultats sont meilleurs du fait de l'utilisation des informations contextuelles, notamment par l'utilisation des pays.It is thus noted that indeed the results are better due to the use of contextual information, in particular through the use of countries.

On peut voir aussi que l'utilisation combiné de plusieurs types d'informations contextuelles est un problème délicat. Dans certains cas, il apparaît que certaines combinaisons risquent même dégrader les performances générales des classifieurs. La combinaison des représentations vectorielles sémantiques sur les pays et les jours de congés publiquement connus (jours fériés, vacances scolaires...) semble expérimentalement démontrer de bons résultats, en particulier sur des valeurs faibles du taux de « recall », pour lesquelles une précision élevée peut être atteinte. Concrètement, cela signifie qu'un classifieur conforme à ce mode de réalisation de l'invention obtient des bons résultats pour les transactions les plus susceptibles d'être frauduleuse, ce qui représente en pratique les situations les plus courantes.We can also see that the combined use of several types of contextual information is a delicate problem. In some cases, it appears that certain combinations may even degrade the general performance of the classifiers. The combination of semantic vector representations on countries and publicly known days off (public holidays, school holidays, etc.) seems to demonstrate good results experimentally, in particular on low values of the recall rate, for which an accuracy can be reached. Concretely, this means that a classifier in accordance with this embodiment of the invention obtains good results for the transactions most likely to be fraudulent, which in practice represents the most common situations.

Bien entendu, la présente invention n'est pas limitée aux exemples et au mode de réalisation décrits et représentés, mais elle est susceptible de nombreuses variantes accessibles à l'homme de l'art.Of course, the present invention is not limited to the examples and to the embodiment described and shown, but it is susceptible of numerous variants accessible to those skilled in the art.

Claims

1. Method for detecting fraudulent transactions in a set of payment transactions, comprising subjecting the transactions to a classification system trained on a training game and providing for each new transaction of said set a probability of being a fraudulent transaction, characterized in that contextual information is associated with each transaction.

2. Method according to the preceding claim, wherein said classification system is a neural network.

3. Method according to one of the preceding claims, in which said classification system uses said contextual information by means of graph embeddings.

4. Method according to claim 1, in which said contextual information includes data relating to the country associated with the transaction.

5. Method according to one of the preceding claims, in which said contextual information includes data relating to days of leave.

6. Method according to one of the preceding claims, in which said classification system is based on the Word2Vec algorithm.

7. Device comprising means for implementing the method according to one of the preceding claims.

Recall