EP3574462A1 - Automatic detection of frauds in a stream of payment transactions by neural networks integrating contextual information - Google Patents

Automatic detection of frauds in a stream of payment transactions by neural networks integrating contextual information

Info

Publication number
EP3574462A1
EP3574462A1 EP17832295.4A EP17832295A EP3574462A1 EP 3574462 A1 EP3574462 A1 EP 3574462A1 EP 17832295 A EP17832295 A EP 17832295A EP 3574462 A1 EP3574462 A1 EP 3574462A1
Authority
EP
European Patent Office
Prior art keywords
contextual information
transactions
transaction
classification system
frauds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP17832295.4A
Other languages
German (de)
French (fr)
Inventor
Mathieu GARCHERY
Olivier CAELEN
Liyun HE-GUELTON
Michael GRANITZER
Konstantin ZIEGLER
Stefan ZWICKLBAUER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Worldline SA
Original Assignee
Worldline SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Worldline SA filed Critical Worldline SA
Publication of EP3574462A1 publication Critical patent/EP3574462A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Definitions

  • the present invention relates to a mechanism for detecting anomalies in a bank transaction flow. It applies in particular to the detection of fraud.
  • the model works the opposite: the input of the network is a word wi and Word2Vec predicts the context around this word: wi-2, wi-1, wi + 1, wi 2.
  • Word2Vec is very fast and can be further accelerated using parallel learning techniques.
  • training on Wikipedia's corpus can take around 90 minutes with a personal computer equipped with a quad-core processor Intel brand running at 4x3.4 GHz, and a memory of 16 GB.
  • the node succ (x) of the node x is chosen randomly and uniformly equally among the adjacent nodes, that is to say with a uniform probability equal to 1 / Edges0f (x), with "EdgesOf (x)" a function returning the number of links of the node x, that is to say the number of links in the vector vk.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

The invention relates to a method for detecting fraudulent transactions in a collection of payment transactions, consisting in submitting the transactions to a classification system trained on an training set and providing for each new transaction of said collection a probability of being a fraudulent transaction, characterized in that with each transaction is associated contextual information, and in that the classification system is a neural network.

Description

DETECTION AUTOMATIQUE DE FRAUDES DANS UN FLUX DE TRANSACTIONS DE PAIEMENT PAR RESEAUX DE NEURONES INTEGRANT DES INFORMATIONS CONTEXTUELLES  AUTOMATIC DETECTION OF FRAUD IN A STREAM OF PAYMENT TRANSACTIONS BY NEURON NETWORKS INCLUDING CONTEXTUAL INFORMATION
DOMAINE DE L'INVENTION FIELD OF THE INVENTION
La présente invention est relative à un mécanisme de détection d'anomalies dans un flux de transactions bancaires. Elle s'applique notamment à la détection de fraudes. The present invention relates to a mechanism for detecting anomalies in a bank transaction flow. It applies in particular to the detection of fraud.
CONTEXTE DE L'INVENTION BACKGROUND OF THE INVENTION
La fraude sur les transactions bancaires est un phénomène grandissant, notamment du fait de la généralisation des transactions de paiement via les réseaux de télécommunication. Fraud on banking transactions is a growing phenomenon, particularly because of the generalization of payment transactions via telecommunication networks.
Lorsqu'une transaction de paiement est autorisée par un serveur de paiement, deux mécanismes peuvent être mis en place : avant l'autorisation et.ou après.  When a payment transaction is authorized by a payment server, two mechanisms can be put in place: before authorization and / or after.
Dans le premier cas, on parle de détection de fraude en temps-réel. In the first case, we are talking about fraud detection in real time.
Dans le deuxième cas, il s'agit de détection de fraude proche du temps-réel (« near real-time »). Le premier cas présente l'avantage de pouvoir bloquer une transaction frauduleuse avant que celle-ci n'ait lieu, mais elle est assujettie à une contrainte forte sur le temps de traitement, puisqu'elle retarde la finalisation de la transaction de paiement et donc l'expérience pour l'utilisateur. Le deuxième cas permet de disposer de davantage de temps et donc de pouvoir mettre en place des traitements plus complexes et plus fins. In the second case, it is near-real-time fraud detection. The first case has the advantage of being able to block a fraudulent transaction before it takes place, but it is subject to a strong constraint on the processing time, since it delays the finalization of the payment transaction and therefore the experience for the user. The second case makes it possible to have more time and thus to be able to put in place more complex and finer treatments.
En général, ce problème est considéré par des techniques reposant sur des bases de règles. Des solutions ont été proposées, se basant sur différents mécanismes de classifications. Il est toutefois relevé dans l'état de la technique que la détection de fraudes dans les systèmes de paiement présente des spécificités. Dès lors, les techniques classiques de classifications ne s'appliquent de façon directe et efficace. In general, this problem is considered by rules-based techniques. Solutions have been proposed, based on different classification mechanisms. However, it is noted in the state of the art that the detection of fraud in payment systems has specific features. Therefore, conventional classification techniques do not apply directly and effectively.
Tout d'abord, les conséquences de la fraude sont extrêmement importantes et très sensibles. En outre, comme les données relatives aux données bancaires et aux cartes et autres instruments de paiement sont confidentielles, très peu d'information sont publiquement disponibles sur les outils mis en place pour la détection de la fraude. Il est dès lors malaisé de pouvoir comparer les solutions de l'état de la technique.  First, the consequences of fraud are extremely important and very sensitive. In addition, since data on bank data and cards and other payment instruments are confidential, very little information is publicly available on the tools put in place for the detection of fraud. It is therefore difficult to compare the solutions of the state of the art.
RESUME DE L'INVENTION SUMMARY OF THE INVENTION
Le but de la présente invention est de fournir une solution palliant au moins partiellement les inconvénients précités. The object of the present invention is to provide a solution at least partially overcoming the aforementioned drawbacks.
Plus particulièrement, l'invention vise à fournir une solution de détection automatique de transactions frauduleuses dans un ensemble de transactions en utilisant des informations contextuelles, c'est-à-dire non contenue dans les transactions soumises au traitement.  More particularly, the invention aims to provide a solution for automatic detection of fraudulent transactions in a set of transactions using contextual information, that is to say, not contained in transactions subject to processing.
A cette fin, la présente invention propose un procédé de détection de transactions frauduleuses dans un ensemble de transactions de paiement, consistant à soumettre les transactions à un système de classification entraîné sur un jeu d'entraînement et fournissant pour chaque nouvelle transaction dudit ensemble une probabilité d'être une transaction frauduleuse, caractérisé en ce qu'à chaque transaction sont associées des informations contextuelles, et en ce que le système de classification est un réseau de neurones. Typiquement, ce jeu d'entraînement peut former un ensemble disjoint de l'ensemble des transactions sur lequel est ensuite effectué la généralisation, ou prévision, lors de la phase d'exploitation des classifïeurs entraînés sur le jeu d'entraînement. To this end, the present invention provides a method for detecting fraudulent transactions in a set of payment transactions, comprising subjecting the transactions to a classification system driven on a training set and providing for each new transaction of said set a probability to be a fraudulent transaction, characterized in that each transaction is associated contextual information, and in that the classification system is a neural network. Typically, this training game can form a disjoint set of all transactions on which is then carried out the generalization, or forecast, during the operating phase classifiers trained on the training game.
Suivant des modes de réalisation préférés, l'invention comprend une ou plusieurs des caractéristiques suivantes qui peuvent être utilisées séparément ou en combinaison partielle entre elles ou en combinaison totale entre elles : According to preferred embodiments, the invention comprises one or more of the following features which can be used separately or in partial combination with one another or in total combination with one another:
- ledit système de classification utilise lesdites informations contextuelles au moyen de plongements de graphes ;  said classification system uses said contextual information by means of plunging graphs;
- lesdites informations contextuelles comprennent des données relatives au pays associé à la transaction ;  said contextual information includes data relating to the country associated with the transaction;
- lesdites informations contextuelles comprennent des données relatives aux jours de congés ;  said contextual information includes data relating to days off;
- ledit système de classification est basé sur l'algorithme Word2Vec.  said classification system is based on the Word2Vec algorithm.
Un autre objet de l'invention concerne un dispositif comportant des moyens pour mettre en œuvre le procédé tel que précédemment décrit. Another object of the invention relates to a device comprising means for implementing the method as previously described.
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit d'un mode de réalisation préféré de l'invention, donnée à titre d'exemple et en référence aux dessins annexés. Other features and advantages of the invention will appear on reading the following description of a preferred embodiment of the invention, given by way of example and with reference to the accompanying drawings.
BREVE DESCRIPTION DES DESSINS BRIEF DESCRIPTION OF THE DRAWINGS
La figure 1 représente schématiquement des résultats expérimentaux obtenus selon un mode de réalisation de l'invention. FIG. 1 schematically represents experimental results obtained according to one embodiment of the invention.
DESCRIPTION DETAILLEE DE L'INVENTION Le nombre de fraudes ne représente qu'un très faible pourcentage du volume des transactions bancaires : on considère que le taux moyen de fraude est de l'ordre de 0,5 %. Aussi, la détection de fraude correspond à un problème de détection d'anomalies, qui se caractérise par une distribution déséquilibré entre deux populations (cas normaux / cas en anomalie). Ce type de problème est très mal résolu par les mécanismes d'apprentissage de type « machine learning » DETAILED DESCRIPTION OF THE INVENTION The number of frauds represents only a very small percentage of the volume of banking transactions: it is considered that the average fraud rate is of the order of 0.5%. Also, the detection of fraud corresponds to a problem of detection of anomalies, which is characterized by an unbalanced distribution between two populations (normal cases / cases in anomaly). This type of problem is very badly solved by learning mechanisms like "machine learning"
Selon un mode de réalisation de l'invention, l'ensemble des transactions à considérer est modifiée par la suppression des cas que l'on peut considérer a priori légitime. Ainsi, on peut augmenter l'équilibre entre les deux populations. Ce mécanisme permet d'augmenter les performances du réseau de neurones. Une autre spécificité des fraudes à transactions de paiement (par carte bancaire) réside dans la nature complexe du problème : les fraudes sont difficiles à distinguer des transactions légitimes, et il peut y avoir des recouvrements entre les classes issues du procédé de classification. De plus, différents schémas de fraudes peuvent être pratiqués par les fraudeurs, engendrant des situations diverses, et il est donc délicat de détecter les fraudes en se basant sur des « signatures » de cas de fraude typiques. According to one embodiment of the invention, the set of transactions to be considered is modified by the deletion of cases that can be considered a priori legitimate. Thus, we can increase the balance between the two populations. This mechanism makes it possible to increase the performance of the neural network. Another specificity of payment transaction frauds (by credit card) lies in the complex nature of the problem: fraud is difficult to distinguish from legitimate transactions, and there may be overlaps between classes resulting from the classification process. In addition, fraud schemes can be used by fraudsters, generating various situations, and it is therefore difficult to detect fraud based on "signatures" of typical fraud cases.
Le problème consiste à identifier les fraudes parmi en ensemble de transactions de paiement.  The problem is to identify frauds among all payment transactions.
Selon l'invention, un système de classification est mis en place, utilisant les techniques de type « machine learning », afin de générer deux classes : une classe comportant les transactions légitimes et une classe comportant les transactions frauduleuses.  According to the invention, a classification system is set up, using machine learning techniques, in order to generate two classes: a class comprising legitimate transactions and a class comprising fraudulent transactions.
Typiquement, ce type de mécanisme repose sur une phase d'apprentissage et sur une phase de prédiction qui consiste en une généralisation du jeu d'entraînement sur lequel s'est basée la phase d'apprentissage. Typically, this type of mechanism is based on a learning phase and a prediction phase which consists of a generalization of the training game on which the learning phase was based.
Selon l'invention, la prédiction de la classe d'une transaction prend en compte différents attributs associés à la transaction, parmi lesquels des informations contextuelles. La prise en compte de ces informations contextuelles est une idée novatrice par rapport à l'état de la technique. According to the invention, the prediction of the class of a transaction takes into account various attributes associated with the transaction, among which contextual information. Taking this contextual information into account is an innovative idea in relation to the state of the art.
Il peut par exemple s'agir d'une date (incluant l'heure) de la transaction, de sa localisation géographique, d'événements calendaires (vacances scolaires, jours fériés.... ). It can for example be a date (including time) of the transaction, its geographical location, calendar events (school holidays, holidays ....).
Les attributs peuvent aussi plus classiquement contenir le propriétaire de la carte de crédit (ou autre instrument de paiement), etc. Attributes may also more typically include the owner of the credit card (or other payment instrument), etc.
L'utilisation des informations contextuelles permet de distinguer avec une précision accrue les transactions frauduleuses des transactions légitimes. The use of contextual information makes it possible to distinguish fraudulent transactions from legitimate transactions with greater precision.
Comme pour tout mécanisme de classification, un classifïeur est d'abord construit à partir d'un jeu d'entraînement pendant la phase d'apprentissage. Puis, ce classifïeur est utilisé pendant la phase de prédiction afin de classifïer des transactions nouvelles. As with any classification mechanism, a classifier is first constructed from a training game during the learning phase. Then, this classifier is used during the prediction phase to classify new transactions.
Différents types de classifïeurs sont possibles, mais grâce à utilisation d'informations contextuelles, ceux-ci peuvent se baser sur un plus grand volume de données pour chaque transaction et donc d'enrichir les possibilités de déterminations d'un modèle de discrimination pour former deux classes bien identifiées. L'invention repose donc sur l'injection d'informations contextuelles dans le mécanisme de classification. Plus particulièrement, selon un mode de réalisation de l'invention, ces informations contextuelles sont injectées dans un réseau de neurones. Deux sources d'informations peuvent être considérées pour expliquer les mécanismes de l'invention : Different types of classifiers are possible, but through the use of contextual information, these can be based on a larger volume of data for each transaction and thus enrich the possibilities of determinations of a discrimination model to form two classes well identified. The invention is therefore based on the injection of contextual information into the classification mechanism. More particularly, according to one embodiment of the invention, this contextual information is injected into a neural network. Two sources of information can be considered to explain the mechanisms of the invention:
- une base de données relationnelle D, représentant les données de l'application interne;  a relational database D, representing the data of the internal application;
- un graphe sémantique G={V, E} représentant les informations contextuelles.  a semantic graph G = {V, E} representing the contextual information.
On suppose par ailleurs qu'il existe un attribut j dans D, pour lequel l'ensemble de valeurs Aj = {dj : d G D} peut être identifié avec un sous- ensemble de vecteurs V * _Ξ V de G. A tel graphe sémantique permet de structurer les informations contextuelles.  Suppose furthermore that there exists an attribute j in D, for which the set of values Aj = {dj: d GD} can be identified with a subset of vectors V * _Ξ V of G. At such semantic graph allows you to structure the contextual information.
Un graphe ou réseau sémantique, ou encore graphe de connaissances est un graphe orienté multi-relationnel composé d'entités tels que des nœuds et des liens.  A graph or semantic network, or knowledge graph is a multi-relational oriented graph composed of entities such as nodes and links.
Dans le cadre de l'invention, l'intégration de ces graphes dans les réseaux de neurones est effectuée par des plongements de graphe, ou « graph embeddings » en langue anglaise), c'est-à-dire des représentations vectorielles des nœuds du réseau sémantique, qui permettent de capturer les propriétés sémantiques d'un nœud en particulier.  In the context of the invention, the integration of these graphs in the neural networks is carried out by graph embeddings, that is to say vector representations of the nodes of the semantic network, which capture the semantic properties of a particular node.
Ces plongements (« embeddings ») sont utilisés pour initialisés une couche de plongements du réseau de neurones. Pendant la phase d'apprentissage, ces couches de plongements sont adaptées à partir des informations contextuelles. Par exemple, des attributs comme « pays » ou « année » peuvent être trouvés dans un graphe extérieur tel que le graphe DBpedia. DBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format du web sémantique des contenus encyclopédiques de chaque fiche encyclopédique. These embeddings are used to initialize a dipping layer of the neural network. During the learning phase, these dipping layers are adapted from the contextual information. For example, attributes like "country" or "year" can be found in an external graph such as the DBpedia graph. DBpedia is an academic and community project for automatic exploration and extraction of Wikipedia-derived data. Its principle is to propose a structured version and in the form of standardized data in the semantic web format of the encyclopedic contents of each encyclopaedic file.
Il est ainsi possible de tirer profit des modèles existant structurant l'information contextuelles. Sans perte de généralité, on peut également supposer que j=l et on identifie les valeurs pour le premier attribut avec les vecteurs dans V*.It is thus possible to take advantage of existing models structuring contextual information. Without loss of generality, one can also assume that j = 1 and identify the values for the first attribute with the vectors in V *.
Chaque tuple de D a pour forme d= (v, d2, . . . , dk) for v G V * Each tuple of D has the form d = (v, d2, ..., dk) for v G V *
Le problème de l'injection d'informations contextuelle sémantique est alors une combinaison de caractéristiques (« features »): trouver la dimension n>0 et les représentations vectorielles G R n pour tout vGV*. The problem of semantic contextual information injection is then a combination of features ("features"): finding the dimension n> 0 and vector representations GR n for all vGV *.
C'est-à-dire que v « capture » la sémantique de v et permet ainsi d'améliorer les mécanismes du classifîeur de « machine learning » sur D* = {(d, d2, . . . , dk): d G D} .  That is, v "captures" the semantics of v and thus improves the mechanisms of the "machine learning" classifier on D * = {(d, d2, ..., dk): d GD }.
Les plongements (« embeddings ») sont des vecteurs à n dimensions associés à des concepts. Embeddings are n-dimensional vectors associated with concepts.
Ces vecteurs héritent de certaines propriétés sémantiques des concerts, de sorte que notamment des concepts similaires sont associés à des vecteurs proches. Ces proximités peuvent être aisément exprimées par des similarités en cosinus.  These vectors inherit certain semantic properties of the concerts, so that in particular similar concepts are associated with nearby vectors. These proximities can be easily expressed by cosine similarities.
Les plongements forment un domaine de recherche bien connu dans le domaine du traitement automatique des langues, afin de représenter la sémantique des mots dans un corpus.  Plungers form a well-known research area in the field of automatic language processing, to represent the semantics of words in a corpus.
Par exemple le « plongement de mots » ou « plongement lexical » est une méthode d'apprentissage automatique issue de l'apprentissage profond (ou « deep learning » en langue anglaise) se focalisant sur l'apprentissage d'une représentation de mots. Cette technique permet de représenter les mots d'un dictionnaire par des vecteurs afin de faciliter leur analyse sémantique et syntaxique. Ainsi, chaque mot sera représenté par un vecteur de réels et les mots apparaissant dans des contextes similaires auront des vecteurs plus proches que d'autres apparaissant dans des contextes différents. Cette nouvelle représentation permet de diminuer considérablement l'espace de dimensionnalité (car on ne stocke plus un dictionnaire entier mais uniquement un espace de vecteurs continus). For example, "word embedding" or "lexical embedding" is a method of automatic learning from deep learning (or "deep learning" in English) focusing on the learning of a representation of words. This technique makes it possible to represent the words of a dictionary by vectors in order to facilitate their semantic and syntactic analysis. Thus, each word will be represented by a vector of reals and words appearing in similar contexts will have vectors that are closer than others appearing in different contexts. This new representation makes it possible to reduce considerably the space of dimensionality (because one does not store anymore an entire dictionary but only a space of continuous vectors).
L'algorithme le plus connu est probablement l'algorithme Word2Vec. Une page Wikipédia est consacrée à cet algorithme : The best-known algorithm is probably the Word2Vec algorithm. A Wikipedia page is devoted to this algorithm:
https://en.wikipedia.org/wiki/Word2vec  https://en.wikipedia.org/wiki/Word2vec
Word2Vec est un groupe d'algorithme d'apprentissage non supervisé permettant de créer des plongements de mots à partir de documents textuels. Afin d'entraîner ses plongements, Word2Vec utilise un réseau neuronal à deux couches prenant en entrée les documents bruts, sans étiquettes. Le modèle architectural du réseau de neurones peut être basé sur le modèle de « continuons bag of words » (CBOW), ou bien sur une architecture « skip- gram » Word2Vec is an unsupervised learning algorithm group for creating word embedding from textual documents. In order to train its embeddings, Word2Vec uses a two-layer neural network that takes raw documents without labels. The architectural model of the neural network can be based on the "continue bag of words" (CBOW) model, or on a "skipgram" architecture.
Dans le premier cas (CBOW), l'entrée du modèle peut être wi-2, wi-1, wi+1, wi+2, c'est-à-dire les mots précédents et suivants d'un mot courant wi. La sortie du réseau et la probabilité de wi d'être le mot correct. Cette tâche peut être décrite comme la prédiction d'un mot étant donné son contexte.  In the first case (CBOW), the entry of the model can be wi-2, wi-1, wi + 1, wi + 2, that is to say the preceding and following words of a current word wi. The output of the network and the probability of wi to be the correct word. This task can be described as the prediction of a word given its context.
Dans le second cas (skip-gram), le modèle fonctionne à l'opposé : l'entrée du réseau est un mot wi et Word2Vec prédit le contexte autour de ce mot: wi-2, wi-1, wi+1, wi+2. Au contraire des autres de réseaux de neurones pour le traitement du langage naturel Word2Vec est très rapide et peut être encore accéléré en utilisant des techniques d'apprentissage parallèle. Ainsi, l'entraînement sur le corpus de Wikipedia peut prendre autour de 90 mn avec un ordinateur personnel équipé d'un processeur ÏJ quadricore de la marque Intel fonctionnant à 4x3,4 GHz, et d'une mémoire de 16 Go. In the second case (skip-gram), the model works the opposite: the input of the network is a word wi and Word2Vec predicts the context around this word: wi-2, wi-1, wi + 1, wi 2. Unlike other neural networks for natural language processing Word2Vec is very fast and can be further accelerated using parallel learning techniques. Thus, training on Wikipedia's corpus can take around 90 minutes with a personal computer equipped with a quad-core processor Intel brand running at 4x3.4 GHz, and a memory of 16 GB.
Une propriété importante de l'algorithme Word2Vec est qu'il groupe les vecteurs de mots similaires ensemble dans l'espace des vecteurs. Si l'apprentissage est effectué sur un jeu d'apprentissage suffisant, Word2Vec produit de bons résultats en prédiction sur la signification d'un mot sur la base des occurrences précédentes. An important property of the Word2Vec algorithm is that it groups the similar word vectors together in the vector space. If learning is done on a sufficient learning set, Word2Vec produces good predictive results on the meaning of a word based on previous occurrences.
Afin d'obtenir des plongements préservant la sémantique, on utilise un algorithme de plongement développé pour restreindre l'ambiguïté dans les entités. Un tel algorithme peut être l'algorithme décrit dans l'article suivant : In order to obtain semantic-preserving embeddings, an embedding algorithm developed to restrict ambiguity in entities is used. Such an algorithm may be the algorithm described in the following article:
Zwicklbauer, S., Seifert, C, Granitzer, M.: Doser - a knowledge-base- agnostic framework for entity disambiguation using semantic embeddings. Zwicklbauer, S., Seifert, C, Granitzer, M .: Dosing - a knowledge-base-agnostic framework for entity disambiguation using semantic embeddings.
In: Sack, H., Blomqvist, E., d'Aquin, M., Ghidini, C, Ponzetto, S.P., Lange, C. (eds.) The Semantic Web. Latest Advances and New Domains - 13thIn: Sack, H., Blomqvist, E., Aquinas, M., Ghidini, C, Ponzetto, S.P., Lange, C. (eds.) The Semantic Web. Latest Advances and New Domains - 13th
International Conférence, ESWC 2016, Heraklion, Crète, Greece, May 29 -International Conference, ESWC 2016, Heraklion, Crete, Greece, May 29 -
June 2, 2016, Proceedings. Lecture Notes in Computer Science, vol. 9678, pp. 182-198. Springer (2016), http://dx.doi.org/10.1007/978-3-319-34129-June 2, 2016, Proceedings. Reading Notes in Computer Science, Vol. 9678, pp. 182-198. Springer (2016), http://dx.doi.org/10.1007/978-3-319-34129-
3 12 3 12
Selon une mise en œuvre basée sur cet algorithme Word2Vec obtient une représentation vectorielle pour chaque mot en prédisant des séquences ce mot. According to an implementation based on this algorithm Word2Vec obtains a vector representation for each word by predicting sequences that word.
Puisqu'un graphe RDF donné ne contient pas un tel type de séquences, on créé une séquence de nœuds vk G V en conduisant une marche aléatoire à partir d'un nœud choisit également de façon aléatoire. On considère que le graphe RDF est un graphe non-orienté G=(V,E) dans lequel les nœuds V sont des ressources de la base de connaissance, et les liens E sont les propriétés de la base de connaissance, et Since a given RDF graph does not contain such a type of sequences, a sequence of vk GV nodes is created by conducting a random walk from a node also chooses randomly. It is considered that the RDF graph is a non-oriented graph G = (V, E) in which the V nodes are knowledge base resources, and the E links are the properties of the knowledge base, and
x, y G V,(x, y) G E <= 3p : (x, p, y) V 3p : (y, p, x) est un triple RDF dans la base de connaissance.  x, y G V, (x, y) G E <= 3p: (x, p, y) V 3p: (y, p, x) is a triple RDF in the knowledge base.
La marche aléatoire peut être effectuée au sein de ce graphe G. Lorsque la marche rencontrer un nœud xGV , l'identifiant de ce nœud x est ajouté dans le résultat de sortie.  The random walk can be performed within this graph G. When walking meet an xGV node, the identifier of this node x is added in the output result.
Le nœud succ(x) du nœud x est choisi de façon aléatoire et uniformément équitable parmi les nœuds adjacents, c'est-à-dire avec une probabilité uniforme égale à 1/Edges0f(x), avec « EdgesOf(x) » une fonction renvoyant le nombre de liens du nœud x, c'est-à-dire le nombre de liens dans le vecteur vk.  The node succ (x) of the node x is chosen randomly and uniformly equally among the adjacent nodes, that is to say with a uniform probability equal to 1 / Edges0f (x), with "EdgesOf (x)" a function returning the number of links of the node x, that is to say the number of links in the vector vk.
On peut également introduire une variable aléatoire Xx qui détermine la probabilité de sauter à un nœud donné si un saut aléatoire est réalisé.  One can also introduce a random variable Xx which determines the probability of jumping to a given node if a random jump is made.
La probabilité de saut d'un premier nœud vers un second nœud x est calculée en normalisant la fréquence de liens inverse respective IEF du nœud x, IEF(x). Selon des études expérimentales effectuées par les inventeurs, on utilise le paramètre a = 0.1 pour réaliser un saut aléatoire, mais une gamme de valeurs entre 0,05 et 0,25 semble convenir et fournir un bon modèle Word2Vec. The probability of jumping from a first node to a second node x is calculated by normalizing the respective inverse link frequency IEF of the node x, IEF (x). According to experimental studies carried out by the inventors, the parameter a = 0.1 is used to perform a random jump, but a range of values between 0.05 and 0.25 seems to be suitable and to provide a good model Word2Vec.
De plus, le paramètre Θ indique le nombre de marches aléatoire dans le graphe. Il est possible d'utiliser par exemple Θ = 5 *|E|, ce qui dans l'exemple de DBpedia fournit environ 50 millions de marches aléatoires. Des valeurs plus élevés de ce paramètres ne semblent pas améliorer les plongements des entités, mais augmente le temps nécessaire pour la phase d'apprentissage. Selon un mode de réalisation de l'invention, l'approche pour la création du corpus pour des bases de connaissances RDF peut être selon l'algorithme suivant: In addition, the parameter Θ indicates the number of random steps in the graph. It is possible to use for example Θ = 5 * | E |, which in DBpedia's example provides about 50 million random walks. Higher values of this parameter do not seem to improve entity embeddings, but increase the time required for the learning phase. According to one embodiment of the invention, the approach for creating the corpus for RDF knowledge bases can be according to the following algorithm:
Ce principe d'utilisation d'informations contextuelles véhiculant un contenu sémantique peut être appliqué à d'autres mécanismes de classification par apprentissage que les réseaux de neurones. This principle of using contextual information conveying semantic content can be applied to other learning classification mechanisms than neural networks.
On peut ainsi citer les algorithmes génétiques, les réseaux bayésiens, les modèles de Markov cachés, etc.  Genetic algorithms, Bayesian networks, hidden Markov models, and so on.
La courbe de la figure 1 illustre un résultat expérimental de mises en œuvre de l'invention. The curve of FIG. 1 illustrates an experimental result of implementations of the invention.
Elle fournit un score global corrélant la précision (axe des ordonnées) et un taux de « recall » (axe des abscisses), c'est-à-dire de transactions frauduleuses correctement classifîées.  It provides an overall score correlating the accuracy (y-axis) and a recall rate (x-axis), that is, properly classified fraudulent transactions.
Ces courbes montrent 4 situations correspondant à des configurations différentes des couches de plongements du réseau de neurones:  These curves show 4 situations corresponding to different configurations of the dipping layers of the neural network:
- référence 1 - « no external datai » : aucune information contextuelle n'est prise en compte  - reference 1 - "no external datai": no contextual information is taken into account
- référence 2 - « tx-holiday » : des informations contextuelle relatives aux jours de congés sont pris en compte; - reference 2 - "tx-holiday": contextual information relating to holidays is taken into account;
- référence 3 « country embed » : des informations contextuelles relatives aux pays sont prises en compte - reference 3 "country embed": contextual information on countries is taken into account
- référence 4 - « tx_holiday+country_embed » : des informations contextuelles relatives aux jours de congés et aux pays sont prises en compte.  - reference 4 - "tx_holiday + country_embed": Contextual information about holiday days and countries are taken into account.
On remarque ainsi qu'effectivement les résultats sont meilleurs du fait de l'utilisation des informations contextuelles, notamment par l'utilisation des pays. On peut voir aussi que l'utilisation combiné de plusieurs types d'informations contextuelles est un problème délicat. Dans certains cas, il apparaît que certaines combinaisons risquent même dégrader les performances générales des classifïeurs. La combinaison des représentations vectorielles sémantiques sur les pays et les jours de congés publiquement connus (jours fériés, vacances scolaires...) semble expérimentalement démontrer de bons résultats, en particulier sur des valeurs faibles du taux de « recall », pour lesquelles une précision élevée peut être atteinte. Concrètement, cela signifie qu'un classifïeur conforme à ce mode de réalisation de l'invention obtient des bons résultats pour les transactions les plus susceptibles d'être frauduleuse, ce qui représente en pratique les situations les plus courantes. It should be noted that the results are actually better because of the use of contextual information, in particular by the use of countries. It can also be seen that the combined use of several types of contextual information is a delicate problem. In some cases, it appears that some combinations may even degrade the overall performance of classifiers. The combination of semantic vector representations on countries and public holiday days (holidays, school holidays ...) seems to experimentally demonstrate good results, especially on low values of the recall rate, for which a precision high can be reached. Concretely, this means that a classifier according to this embodiment of the invention obtains good results for transactions most likely to be fraudulent, which in practice represents the most common situations.
Bien entendu, la présente invention n'est pas limitée aux exemples et au mode de réalisation décrits et représentés, mais elle est susceptible de nombreuses variantes accessibles à l'homme de l'art. Of course, the present invention is not limited to the examples and to the embodiment described and shown, but it is capable of numerous variants accessible to those skilled in the art.

Claims

REVENDICATIONS
Procédé de détection de transactions frauduleuses dans un ensemble de transactions de paiement, consistant à soumettre les transactions à un système de classification entraîné sur un jeu d'entraînement et fournissant pour chaque nouvelle transaction dudit ensemble une probabilité d'être une transaction frauduleuse, caractérisé en ce qu'à chaque transaction sont associées des informations contextuelles, et en ce que ledit système de classification est un réseau de neurones. A method for detecting fraudulent transactions in a set of payment transactions, comprising subjecting the transactions to a classification system driven on a training set and providing for each new transaction of said set a probability of being a fraudulent transaction, characterized in at each transaction are associated contextual information, and in that said classification system is a neural network.
Procédé selon la revendication précédente, dans lequel ledit système de classification utilise lesdites informations contextuelles au moyen de plongements de graphes. Method according to the preceding claim, wherein said classification system uses said contextual information by means of graph embeddings.
Procédé selon l'une des revendications précédentes, dans lequel lesdites informations contextuelles comprennent des données relatives au pays associé à la transaction. Method according to one of the preceding claims, wherein said contextual information comprises data relating to the country associated with the transaction.
Procédé selon l'une des revendications précédentes, dans lequel lesdites informations contextuelles comprennent des données relatives aux jours de congés. Method according to one of the preceding claims, wherein said contextual information comprises data relating to days off.
Procédé selon l'une des revendications précédentes, dans lequel ledit système de classification est basé sur l'algorithme Word2Vec. Method according to one of the preceding claims, wherein said classification system is based on the Word2Vec algorithm.
Dispositif comportant des moyens pour mettre en œuvre le procédé selon l'une des revendications précédentes. Device comprising means for implementing the method according to one of the preceding claims.
EP17832295.4A 2017-01-30 2017-12-22 Automatic detection of frauds in a stream of payment transactions by neural networks integrating contextual information Ceased EP3574462A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1750737A FR3062504A1 (en) 2017-01-30 2017-01-30 AUTOMATIC DETECTION OF FRAUD IN A NEURON NETWORK PAYMENT TRANSACTION STREAM INTEGRATING CONTEXTUAL INFORMATION
PCT/FR2017/053819 WO2018138423A1 (en) 2017-01-30 2017-12-22 Automatic detection of frauds in a stream of payment transactions by neural networks integrating contextual information

Publications (1)

Publication Number Publication Date
EP3574462A1 true EP3574462A1 (en) 2019-12-04

Family

ID=59409392

Family Applications (1)

Application Number Title Priority Date Filing Date
EP17832295.4A Ceased EP3574462A1 (en) 2017-01-30 2017-12-22 Automatic detection of frauds in a stream of payment transactions by neural networks integrating contextual information

Country Status (4)

Country Link
EP (1) EP3574462A1 (en)
CN (1) CN110226179A (en)
FR (1) FR3062504A1 (en)
WO (1) WO2018138423A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11900382B2 (en) 2020-09-29 2024-02-13 Mastercard International Incorporated Method and system for detecting fraudulent transactions

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783637A (en) * 2018-12-12 2019-05-21 国网浙江省电力有限公司杭州供电公司 Electric power overhaul text mining method based on deep neural network
US11403643B2 (en) * 2020-01-24 2022-08-02 Adobe Inc. Utilizing a time-dependent graph convolutional neural network for fraudulent transaction identification
CN111899085A (en) * 2020-06-15 2020-11-06 东方微银科技(北京)有限公司 Identity cross-validation method and device
EP4172902A4 (en) * 2020-06-30 2024-05-29 Stripe Inc A machine learning framework and method for using the same

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822741A (en) * 1996-02-05 1998-10-13 Lockheed Martin Corporation Neural network/conceptual clustering fraud detection architecture
EP1450321A1 (en) * 2003-02-21 2004-08-25 Swisscom Mobile AG Method and system for detecting possible fraud in paying transactions
US20150339672A1 (en) * 2014-08-08 2015-11-26 Brighterion, Inc. Automation tool development method for building computer fraud management applications
US20160086185A1 (en) * 2014-10-15 2016-03-24 Brighterion, Inc. Method of alerting all financial channels about risk in real-time
US9552548B1 (en) * 2016-07-01 2017-01-24 Intraspexion Inc. Using classified text and deep learning algorithms to identify risk and provide early warning

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11900382B2 (en) 2020-09-29 2024-02-13 Mastercard International Incorporated Method and system for detecting fraudulent transactions

Also Published As

Publication number Publication date
FR3062504A1 (en) 2018-08-03
WO2018138423A1 (en) 2018-08-02
CN110226179A (en) 2019-09-10

Similar Documents

Publication Publication Date Title
US11494648B2 (en) Method and system for detecting fake news based on multi-task learning model
EP3574462A1 (en) Automatic detection of frauds in a stream of payment transactions by neural networks integrating contextual information
EP3238137B1 (en) Semantic representation of the content of an image
EP1364316A2 (en) Device for retrieving data from a knowledge-based text
WO2019129977A1 (en) Detection of anomalies by an approach combining supervised and non-supervised learning
EP3356955A1 (en) Method and system for searching for similar images that is nearly independent of the scale of the collection of images
Al-Nabki et al. Short text classification approach to identify child sexual exploitation material
WO2009081016A1 (en) Method for analysing a piece of multimedia content and corresponding computer software product and analysis device
EP3555816B1 (en) Method for determining a data item&#39;s membership of a database and associated computer program product and information medium
EP3502904B1 (en) Method for improving the execution time of a computer application
EP3924850A1 (en) Method for constructing behavioural software signatures
FR3064095B1 (en) AUTOMATIC LEARNING DETECTION OF ANOMALIES IN A SET OF BANKING TRANSACTIONS BY OPTIMIZING THE AVERAGE PRECISION
CH717260A2 (en) Computer-implemented method for analogue document retrieval.
WO2018206871A1 (en) Method, implemented by computer, for searching for rules of association in a database
Wei et al. Deep-BIF: blind image forensics based on deep learning
FR2986882A1 (en) METHOD FOR IDENTIFYING A SET OF PHRASES OF A DIGITAL DOCUMENT, METHOD FOR GENERATING A DIGITAL DOCUMENT, ASSOCIATED DEVICE
EP1554687A2 (en) Fuzzy associative system for multimedia object description
WO2018015515A1 (en) Methods for opinion sharing, computer programs and hardware for implementing methods
Ali et al. A Blockchain-Based Digital Classified Forensic Image Preservation Framework
Rana et al. Image Based Fake Tweet Retrieval (IBFTR)
EP4226267A1 (en) Method for evaluating the risk of re-identification of anonymised data
WO2020249719A1 (en) Method and system for merging information
CN113742449A (en) Microblog content credibility evaluation method based on emotional polarity influence
Sangeetha et al. Fake news detection using supervised learning techniques
WO2008047028A1 (en) Method and system for determining a probability of presence of a person in at least one part of an image and corresponding computer program

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20190704

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

RIN1 Information on inventor provided before grant (corrected)

Inventor name: ZWICKLBAUER, STEFAN

Inventor name: GRANITZER, MICHAEL

Inventor name: CAELEN, OLIVIER

Inventor name: HE-GUELTON, LIYUN

Inventor name: GARCHERY, MATHIEU

Inventor name: ZIEGLER, KONSTANTIN

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20201210

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20221006