FR3090960A1 - AUTOMATIC LEARNING FOR FRAUD DETECTION IN A COMPUTER RESERVATION SYSTEM - Google Patents

AUTOMATIC LEARNING FOR FRAUD DETECTION IN A COMPUTER RESERVATION SYSTEM Download PDF

Info

Publication number
FR3090960A1
FR3090960A1 FR1873591A FR1873591A FR3090960A1 FR 3090960 A1 FR3090960 A1 FR 3090960A1 FR 1873591 A FR1873591 A FR 1873591A FR 1873591 A FR1873591 A FR 1873591A FR 3090960 A1 FR3090960 A1 FR 3090960A1
Authority
FR
France
Prior art keywords
machine learning
reservation
record
fraudulent activity
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1873591A
Other languages
French (fr)
Inventor
Francesco BUONORA
Yves GREALOU
Giorgio CALANDRIELLO
Alessandro PASCALI
Yasser TBA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amadeus SAS
Original Assignee
Amadeus SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amadeus SAS filed Critical Amadeus SAS
Priority to FR1873591A priority Critical patent/FR3090960A1/en
Publication of FR3090960A1 publication Critical patent/FR3090960A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

La détection d’activité frauduleuse associée à un enregistrement de réservation dans un système informatique de réservation comprend la détermination de valeurs de caractéristiques indiquant un mode de modifications effectuées sur un enregistrement de réservation dans le temps à partir d’enregistrements historiques. Un premier modèle d’apprentissage automatique est évalué en utilisant les valeurs de caractéristiques pour obtenir une première valeur de classification de fraude basée sur un algorithme d’apprentissage supervisé pour identifier un ou plusieurs types d’activités frauduleuses identifiés précédemment. Un deuxième modèle d’apprentissage automatique est évalué en utilisant les valeurs de caractéristiques pour obtenir une deuxième valeur de classification de fraude basée sur un algorithme d’apprentissage non supervisé afin d’identifier des modes anormaux de valeurs de caractéristiques correspondant à des types d’activité frauduleuse non identifiés précédemment. Une indication d’activité frauduleuse associée à l’enregistrement de réservation est générée comprenant au moins une de la première valeur de classification de fraude et de la deuxième valeur de classification de fraude. Figure pour abrégé : Fig. 5The detection of fraudulent activity associated with a reservation record in a reservation computer system includes the determination of characteristic values indicating a mode of modifications carried out on a reservation record over time from historical records. A first machine learning model is evaluated using the characteristic values to obtain a first fraud classification value based on a supervised learning algorithm to identify one or more types of fraudulent activities identified previously. A second machine learning model is evaluated using the characteristic values to obtain a second fraud classification value based on an unsupervised learning algorithm in order to identify abnormal modes of characteristic values corresponding to types of fraudulent activity not previously identified. An indication of fraudulent activity associated with the reservation record is generated comprising at least one of the first fraud classification value and the second fraud classification value. Figure for abstract: Fig. 5

Description

DescriptionDescription

Titre de l’invention : APPRENTISSAGE AUTOMATIQUE POUR LA DÉTECTION DE FRAUDE DANS UN SYSTÈME INFORMATIQUE DE RÉSERVATIONTitle of the invention: AUTOMATIC LEARNING FOR FRAUD DETECTION IN A COMPUTER RESERVATION SYSTEM

[0001] La présente invention concerne de façon générale l’exploitation des systèmes informatiques de réservation, tels que ceux qui sont utilisés pour gérer les réservations dans l’industrie du voyage. En particulier, des modes de réalisation de l’invention visent l’utilisation des technologies d’apprentissage automatique pour la détection automatisée d’activité frauduleuse dans les systèmes informatiques de réservation.The present invention relates generally to the operation of computer reservation systems, such as those used to manage reservations in the travel industry. In particular, embodiments of the invention are directed to the use of machine learning technologies for the automated detection of fraudulent activity in computer reservation systems.

[0002] Un système informatique de réservation (CRS) comprend typiquement un ou plusieurs ordinateurs en réseau ou systèmes informatiques configurés pour stocker et récupérer des informations. Dans l’industrie du voyage, un CRS peut être configuré pour faciliter des transactions liées au voyage en avion ou en train, aux hôtels, aux locations de voitures ou à d’autres services. Un CRS qui est capable de réserver et de vendre des billets pour des services offerts par de multiples fournisseurs de services de voyage est connu communément dans l’industrie sous le nom de système de distribution global (GDS). Typiquement, un GDS inclut, ou à accès à de multiples systèmes et bases de données associés qui stockent l’information relative aux transactions susmentionnées. Ces bases de données peuvent inclure, par exemple, une base de données d’enregistrements de noms de passager (PNR) pour stocker les données d’itinéraires de voyage, une base de données de système de billetterie électronique (ETS) pour stocker les données relatives aux billets, une base de données de système de contrôle des départs (DCS) pour stocker les données d’enregistrement du voyageur et des données d’utilisation de services et une base de données de système d’inventaire pour stocker les données de disponibilité. Ces systèmes peuvent comprendre un système de traitement et de base de données ou appareillage pour vendre et gérer l’utilisation de services liés au voyage.A computer reservation system (CRS) typically includes one or more networked computers or computer systems configured to store and retrieve information. In the travel industry, a CRS can be configured to facilitate transactions related to air or train travel, hotels, car rentals or other services. A CRS that is capable of booking and selling tickets for services offered by multiple travel service providers is commonly known in the industry as the Global Distribution System (GDS). Typically, a GDS includes, or access to, multiple systems and associated databases that store information related to the above transactions. These databases may include, for example, a passenger name registration (PNR) database for storing travel route data, an electronic ticketing system (ETS) database for storing data for tickets, a departure control system (DCS) database for storing traveler registration and service usage data and an inventory system database for storing availability data . These systems may include a processing system and a database or device to sell and manage the use of travel-related services.

[0003] Un GDS est donc un système complexe qui doit aussi fournir la flexibilité requise par les agents de voyage et les passagers afin de créer et de gérer des réservations liées au voyage. Un itinéraire de voyage peut faire l’objet de nombreuses modifications sur une période étendue comprise entre sa création initiale et le moment auquel le voyage est actuellement réalisé. Ces modifications peuvent être initiées par le passager ou par l’agent (p. ex. des changements de plan, l’ajout et/ou l’annulation de segments de voyage, des surclassements ou des déclassements dans des classes de voyage, la substitution de classe tarifaire pour accomplir divers échanges entre le coût et la flexibilité, et ainsi de suite) ou peut être le résultat d’événements nécessitant des modifications de programme (p. ex. une réoptimisation du réseau de la compagnie aérienne, des routes et des changements d’appareil, des retards de vol ou d’annulation et ainsi de suite). Pour satisfaire cette flexibilité, la portée des modifications faites aux PNRs pris en charge par un GDS peut être extensive.[0003] A GDS is therefore a complex system which must also provide the flexibility required by travel agents and passengers in order to create and manage travel-related reservations. A travel itinerary can be subject to numerous modifications over an extended period between its initial creation and the time at which the journey is currently made. These changes can be initiated by the passenger or the agent (e.g. plan changes, addition and / or cancellation of trip segments, upgrades or downgrades to travel classes, substitution fare class to accomplish various trade-offs between cost and flexibility, and so on) or may be the result of events requiring program changes (eg, re-optimization of the airline network, routes and changes of aircraft, flight delays or cancellation and so on). To satisfy this flexibility, the scope of the modifications made to the PNRs supported by a GDS can be extensive.

[0004] La combinaison de la complexité et de la flexibilité peut créer des opportunités pour une activité frauduleuse. Par exemple, l’utilisateur d’un GDS (c.-à-d. un agent, ou un passager) peut chercher à contourner les règles ou les restrictions applicables à une classe tarifaire réduite en faisant une réservation initiale et par la suite en exécutant un nombre de modifications au PNR qui en résulte (c.-à-d. l’itinéraire) qui sont individuellement considérées comme valides, mais qui collectivement contournent les règles, les contrôles et/ou les vérifications d’intégrité des recettes aboutissant à une fraude. De façon plus générale, la fraude dans les PNRs peut être définie comme actions associées avec ou produisant des résultats tels que l’absence d’intention de prendre un vol, le gain d’avantages indus en contournant les règles et/ou un manque à gagner par rapport aux recettes attendues.The combination of complexity and flexibility can create opportunities for fraudulent activity. For example, the user of a GDS (i.e. an agent, or a passenger) may seek to circumvent the rules or restrictions applicable to a reduced fare class by making an initial reservation and subsequently by performing a number of modifications to the resulting PNR (i.e. the route) which are individually considered valid, but which collectively circumvent the rules, checks and / or integrity checks of the recipes resulting in fraud. More generally, fraud in PNRs can be defined as actions associated with or producing results such as the absence of intention to take a flight, the gain of undue advantages by circumventing the rules and / or failure to earn compared to expected revenue.

[0005] Différentes séquences d’actions spécifiques effectuées au cours des réservations peuvent mener à différents modes frauduleux. La variabilité des modes conduisant aux fraudes est très élevée. Cela inclut des modes résultants en différentes typologies de fraude ainsi que d’autres modes dont le résultat commun est frauduleux.[0005] Different sequences of specific actions carried out during reservations can lead to different fraudulent modes. The variability of the modes leading to fraud is very high. This includes modes resulting in different types of fraud as well as other modes whose common result is fraudulent.

[0006] Une approche conventionnelle pour contrer une telle activité est d’appliquer des règles ou des corrections pour identifier et bloquer les modes de comportement frauduleux. Cependant, au vu de la forte volatilité des actions conduisant à ces comportements ou à diverses fraudes, il n’est pas toujours facile de définir des règles efficaces et spécifiques. Par ailleurs, l’ensemble des règles peut devenir tellement complexe qu’éventuellement il est difficilement applicable.A conventional approach to counter such activity is to apply rules or corrections to identify and block patterns of fraudulent behavior. However, given the high volatility of the actions leading to these behaviors or to various frauds, it is not always easy to define effective and specific rules. Furthermore, the set of rules can become so complex that eventually it is difficult to apply.

[0007] Par conséquent, il existe un besoin de systèmes et de procédés automatisés fournissant une flexibilité dans la détection et la prévention des modes de comportements frauduleux dans les systèmes de réservation informatiques qui ne nécessitent pas la création et l’entretien d’ensembles de règles complexes. De plus, il serait désirable de fournir des systèmes et des procédés automatisés capables non seulement de détecter et de prévenir des modes de comportement frauduleux qui sont les mêmes ou qui sont similaires à des modes connus, mais aussi capables de signaler des modes de comportement précédemment passés inaperçus comme étant potentiellement frauduleux.[0007] Consequently, there is a need for automated systems and methods providing flexibility in the detection and prevention of modes of fraudulent behavior in computer reservation systems which do not require the creation and maintenance of sets of complex rules. In addition, it would be desirable to provide automated systems and methods capable not only of detecting and preventing patterns of fraudulent behavior which are the same or which are similar to known patterns, but also capable of reporting patterns of behavior previously gone unnoticed as potentially fraudulent.

[0008] Des modes de réalisation de l’invention implémentent une approche pour la détection de fraude dans un CRS basé sur des techniques d’apprentissage automatique (ML). Les comportements connus pour être frauduleux (c.-à-d. des modes frauduleux pareils ou similaires qui ont été identifiés précédemment) peuvent être détectés en utilisant des modèles d’apprentissage automatique supervisés qui peuvent être formés hors connexion en utilisant des ensembles de données labellisés comprenant des modes connus d’activité frauduleuse. Des modes potentiellement frauduleux et précédemment non détectés peuvent être détectés en utilisant des modèles d’apprentissage automatique non supervisés qui peuvent être configurés hors connexion pour identifier des modes de comportements atypiques ou anormaux. Les caractéristiques d’entrée pour les modèles d’apprentissage automatique peuvent être dérivées à partir des enregistrements historiques de création et de modifications des réservations au cours de leur cycle de vie complet. L’application de l’apprentissage automatique à la détection de fraude dans un CRS répond au désir de trouver une solution qui est à la fois automatisée et flexible.Embodiments of the invention implement an approach for detecting fraud in a CRS based on machine learning (ML) techniques. Behaviors known to be fraudulent (i.e., similar or similar fraudulent patterns that have been identified previously) can be detected using supervised machine learning models that can be trained offline using data sets labeled including known modes of fraudulent activity. Potentially fraudulent and previously undetected modes can be detected using unsupervised machine learning models that can be configured offline to identify atypical or abnormal behavior patterns. Input characteristics for machine learning models can be derived from historical records of creation and changes in reservations over their entire life cycle. The application of machine learning to fraud detection in a CRS responds to the desire to find a solution that is both automated and flexible.

[0009] Plus particulièrement, dans un aspect, l’invention fournit un procédé implémenté par ordinateur pour détecter une activité frauduleuse associée à un enregistrement de réservation dans un système de réservation informatique, le procédé comprenant :More particularly, in one aspect, the invention provides a computer-implemented method for detecting fraudulent activity associated with a reservation record in a computer reservation system, the method comprising:

la récupération, dans un stock de données, d’une série d’enregistrements historiques effectués sur un enregistrement de réservation au cours d’une période ;retrieving from a data store a series of historical records made on a reservation record during a period;

le traitement des enregistrements historiques pour déterminer une pluralité de valeurs de caractéristiques comprenant des données caractérisant un mode pour les modifications faites à l’enregistrement de réservation au cours de la période ;processing historical records to determine a plurality of characteristic values including data characterizing a mode for the changes made to the reservation record during the period;

l’évaluation d’un premier modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une première valeur de classification de fraude, dans laquelle le premier modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage supervisé et est formé pour identifier un ou plusieurs types d’activité frauduleuse identifiés précédemment ;evaluating a first machine learning model using the characteristic values to obtain a first fraud classification value, wherein the first machine learning model is based on a supervised learning algorithm and is trained to identify one or more types of fraudulent activity identified previously;

l’évaluation d’un deuxième modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une deuxième valeur de classification de fraude, dans laquelle le deuxième modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage non supervisé et est configuré pour identifier des modes anormaux de valeurs de caractéristiques correspondant à des types d’activité frauduleuse non identifiés précédemment ; et la génération d’une indication d’activité frauduleuse associée à l’enregistrement de réservation qui comprend au moins une de la première valeur de classification de fraude et de la deuxième valeur de classification de fraude.evaluating a second machine learning model using the characteristic values to obtain a second fraud classification value, in which the second machine learning model is based on an unsupervised learning algorithm and is configured to identify abnormal patterns of characteristic values corresponding to types of fraudulent activity not previously identified; and generating a fraudulent activity indication associated with the reservation record which includes at least one of the first fraud classification value and the second fraud classification value.

[0010] Par conséquent, les modes de réalisation de l’invention peuvent utiliser des modèles d’apprentissage automatique supervisés et non supervisés en cascade, ce qui permet avantageusement la détection de modes connus de comportements frauduleux, via un modèle supervisé, ainsi que de nouveaux modes potentiels de comportement frauduleux, via un modèle non supervisé.Consequently, the embodiments of the invention can use cascaded supervised and unsupervised machine learning models, which advantageously allows the detection of known modes of fraudulent behavior, via a supervised model, as well as potential new modes of fraudulent behavior, via an unsupervised model.

[0011] Dans des modes de réalisation de l’invention, chaque enregistrement historique dans la série enregistre un état de l’enregistrement de réservation à un moment correspondant dans le temps au cours d’une période et le traitement des enregistrements historiques comprend :In embodiments of the invention, each historical record in the series records a state of the reservation record at a corresponding time in time during a period and the processing of the historical records comprises:

l’extraction, de chaque enregistrement historique des données de série caractérisant un ou plusieurs éléments de l’enregistrement de réservation au point temporel correspondant ;the extraction, from each historical record of the serial data characterizing one or more elements of the reservation record at the corresponding time point;

le traitement des données de série pour générer des données agrégées caractérisant un mode de modifications faites à un ou à plusieurs éléments de l’enregistrement de réservation au cours d’une période ; et la détermination de la pluralité des valeurs de caractéristiques sur la base des données agrégées.the processing of serial data to generate aggregated data characterizing a mode of modifications made to one or more elements of the reservation record during a period; and determining the plurality of characteristic values based on the aggregated data.

[0012] Avantageusement, rutilisation d’enregistrements de données de série temporelle permet la génération de valeurs de caractéristiques pour usage dans les modèles d’apprentissage automatique qui capturent des modes de comportement au cours d’une période prolongée comprise entre la création de l’enregistrement de réservation et sa réalisation éventuelle. Des modes de réalisation de l’invention sont particulièrement adaptés au déploiement associé aux systèmes de réservation informatique, tels que les systèmes de réservation de voyage dans lesquels des niveaux élevés de complexité et de flexibilité résultent en variabilité importante des modes de comportements conduisant à des fraudes, en mitigeant le besoin d’identifier des modes frauduleux spécifiques et en appliquant des règles spécifiques ou des corrections pour chaque mode.Advantageously, the reuse of time series data records allows the generation of characteristic values for use in machine learning models which capture behavioral patterns during an extended period between the creation of the booking record and its possible realization. Embodiments of the invention are particularly suitable for deployment associated with computer reservation systems, such as travel reservation systems in which high levels of complexity and flexibility result in significant variability in the modes of behavior leading to fraud. , mitigating the need to identify specific fraudulent modes and applying specific rules or corrections for each mode.

[0013] Le système de réservation informatique peut être un système de distribution global (GDS), l’enregistrement de réservation peut-être un enregistrement de nom de passager (PNR) et la série des enregistrements historiques peut comprendre un ensemble d’enveloppes, chacune d’elle comprenant un enregistrement d’informations validées du PNR à un point temporel correspondant.The computer reservation system may be a global distribution system (GDS), the reservation registration may be a passenger name registration (PNR) and the series of historical registrations may include a set of envelopes, each including a record of validated PNR information at a corresponding time point.

[0014] Le premier modèle d’apprentissage automatique peut être formé en utilisant un procédé comprenant :The first machine learning model can be formed using a method comprising:

l’apport d’un ensemble de données labellisées comprenant des échantillons d’enregistrements historiques et/ou de valeurs de caractéristiques associées à un ou plusieurs types d’activité frauduleuse précédemment observés ;providing a set of labeled data comprising samples of historical records and / or characteristic values associated with one or more types of fraudulent activity previously observed;

la division de l’ensemble de données labellisées en ensembles de formation et de test la formation d’au moins un modèle candidat d’apprentissage automatique supervisé en utilisant l’ensemble de formation pour détecter chaque type d’activité frauduleuse observé précédemment ;dividing the labeled data set into training and test sets training at least one candidate machine learning model supervised using the training set to detect each type of fraudulent activity observed previously;

pour chaque modèle candidat d’apprentissage automatique supervisé formé, le calcul d’une mesure de performance en utilisant l’ensemble de test ; et pour chaque type d’activité frauduleuse observé précédemment, la sélection d’un modèle candidat correspondant d’apprentissage automatique basé sur la mesure de performance.for each candidate supervised machine learning model trained, calculating a performance measure using the test set; and for each type of fraudulent activity previously observed, the selection of a corresponding candidate model of machine learning based on performance measurement.

[0015] Dans un autre aspect, l’invention fournit un procédé implémenté par ordinateur pour détecter une activité frauduleuse associée à un enregistrement de réservation dans un système de réservation informatique, le procédé comprenant :In another aspect, the invention provides a computer-implemented method for detecting fraudulent activity associated with a reservation record in a computer reservation system, the method comprising:

la récupération, dans un stock de données, d’une série d’enregistrements historiques, chaque enregistrement historique dans la série enregistrant un état de l’enregistrement de réservation à un point temporel au cours d’une période ;retrieving a series of historical records from a data store, each historical record in the series recording a state of the reservation record at a time point during a period;

l’extraction, de chaque enregistrement historique des données de série caractérisant un ou plusieurs éléments de l’enregistrement de réservation au point temporel correspondant ;the extraction, from each historical record of the serial data characterizing one or more elements of the reservation record at the corresponding time point;

le traitement des données de série pour générer des données agrégées caractérisant un mode de modifications faites audit un ou plusieurs éléments de l’enregistrement de réservation au cours d’une période ;the processing of serial data to generate aggregated data characterizing a mode of modifications made to one or more elements of the reservation record during a period;

l’évaluation d’au moins un modèle d’apprentissage automatique préconfiguré en utilisant les données agrégées pour obtenir une valeur de classification de fraude produite ; et la génération d’une indication d’activité frauduleuse associée à l’enregistrement de réservation sur la base de la valeur de classification de fraude produite.assessing at least one preconfigured machine learning model using the aggregated data to obtain a fraud classification value produced; and generating an indication of fraudulent activity associated with the reservation record based on the fraud classification value produced.

[0016] L’étape d’évaluation d’au moins un modèle d’apprentissage automatique préconfiguré peut comprendre :The step of evaluating at least one preconfigured machine learning model can include:

la détermination d’une pluralité de valeurs de caractéristiques sur la base des données agrégées ;determining a plurality of characteristic values based on the aggregated data;

l’évaluation d’un premier modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une première valeur de classification de fraude, dans laquelle le premier modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage supervisé et est formé pour identifier un ou plusieurs types d’activité frauduleuse identifiés précédemment ;evaluating a first machine learning model using the characteristic values to obtain a first fraud classification value, wherein the first machine learning model is based on a supervised learning algorithm and is trained to identify one or more types of fraudulent activity identified previously;

l’évaluation d’un deuxième modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une deuxième valeur de classification de fraude, dans laquelle le deuxième modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage non supervisé et est configuré pour identifier des modes anormaux de valeurs de caractéristiques correspondant à des types d’activité frauduleuse non identifiés précédemment ; et la génération de la valeur de classification de fraude produite basée sur au moins une de la première valeur de classification de fraude et de la deuxième valeur de classi6 fication de fraude.evaluating a second machine learning model using the characteristic values to obtain a second fraud classification value, in which the second machine learning model is based on an unsupervised learning algorithm and is configured to identify abnormal patterns of characteristic values corresponding to types of fraudulent activity not previously identified; and generating the generated fraud classification value based on at least one of the first fraud classification value and the second fraud classification value.

[0017] Dans un autre aspect, l’invention fournit un système informatique pour détecter une activité frauduleuse associée à un enregistrement de réservation dans un système de réservation informatique comprenant :In another aspect, the invention provides a computer system for detecting fraudulent activity associated with a reservation record in a computer reservation system comprising:

un processeur ;a processor;

au moins un dispositif de mémoire accessible par le processeur ; et au moins un stock de données accessible par le processeur dans lequel le dispositif de mémoire contient un corps d’instructions de programme qui lorsqu’il est exécuté par le processeur amène le système informatique à implémenter un procédé comprenant les étapes suivantes :at least one memory device accessible by the processor; and at least one data store accessible by the processor in which the memory device contains a body of program instructions which when executed by the processor causes the computer system to implement a method comprising the following steps:

la récupération, dans le stock de données, d’une série d’enregistrements historiques en capturant des modifications faites à l’enregistrement de réservation au cours d’une période ;retrieving from the data base a series of historical records by capturing changes made to the reservation record during a period;

le traitement des enregistrements historiques pour déterminer une pluralité de valeurs de caractéristiques comprenant des données caractérisant un mode des modifications faites à l’enregistrement de réservation au cours de la période ;processing the historical records to determine a plurality of characteristic values comprising data characterizing a mode of the modifications made to the reservation record during the period;

l’évaluation d’un premier modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une première valeur de classification de fraude, dans laquelle le premier modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage supervisé et il est formé pour identifier un ou plusieurs types d’activité frauduleuse identifiés précédemment ;evaluating a first machine learning model using the characteristic values to obtain a first fraud classification value, in which the first machine learning model is based on a supervised learning algorithm and is formed to identify one or more types of fraudulent activity previously identified;

l’évaluation d’un deuxième modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une deuxième valeur de classification de fraude, dans laquelle le deuxième modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage non supervisé et est configuré pour identifier des modes anormaux de valeurs de caractéristiques correspondant à des types d’activité frauduleuse non identifiés précédemment ; et la génération d’une indication d’activité frauduleuse associée à l’enregistrement de réservation qui comprend au moins une de la première valeur de classification de fraude et de la deuxième valeur de classification de fraude.evaluating a second machine learning model using the characteristic values to obtain a second fraud classification value, in which the second machine learning model is based on an unsupervised learning algorithm and is configured to identify abnormal patterns of characteristic values corresponding to types of fraudulent activity not previously identified; and generating a fraudulent activity indication associated with the reservation record which includes at least one of the first fraud classification value and the second fraud classification value.

[0018] Le système informatique peut par ailleurs comprendre une interface de réseau. Un système de fichiers distribués accessibles par le processeur via l’interface de réseau peut comprendre le stock de données. Le système peut comprendre un GDS accessible par le processeur via l’interface de réseau, dans lequel le GDS comprend le système de réservation informatique. L’enregistrement de réservation peut-être un PNR et la série des enregistrements historiques peut comprendre un ensemble d’enveloppes, chacune d’elle comprenant un enregistrement d’informations validées du PNR à un moment temporel correspondant.The computer system can also include a network interface. A distributed file system accessible by the processor via the network interface may include the data store. The system may include a GDS accessible by the processor via the network interface, in which the GDS includes the computer reservation system. The reservation record may be a PNR and the series of historical records may include a set of envelopes, each of which includes a record of validated PNR information at a corresponding time point.

[0019] Le corps des instructions de programme peut amener le système informatique à implémenter le traitement des enregistrements historiques par les étapes suivantes : l’extraction, de chaque enregistrement historique des données de série caractérisant un ou plusieurs éléments de l’enregistrement de réservation au point temporel correspondant ;The body of program instructions can cause the computer system to implement the processing of historical records by the following steps: the extraction, from each historical record of serial data characterizing one or more elements of the reservation record at corresponding time point;

le traitement des données de série pour générer des données agrégées caractérisant un mode de modifications faites à un ou à plusieurs éléments de l’enregistrement de réservation au cours d’une période ; et la détermination de la pluralité des valeurs de caractéristiques sur la base des données agrégées.the processing of serial data to generate aggregated data characterizing a mode of modifications made to one or more elements of the reservation record during a period; and determining the plurality of characteristic values based on the aggregated data.

[0020] Le corps des instructions de programme peut par ailleurs inclure des instructions qui, lorsqu’elles sont exécutées par le processeur, amènent le système informatique à implémenter un procédé de formation du premier modèle d’apprentissage automatique comprenant les étapes suivantes :The body of program instructions can also include instructions which, when executed by the processor, cause the computer system to implement a method for training the first machine learning model comprising the following steps:

l’accès à un ensemble de données labellisées comprenant des échantillons d’enregistrements historiques et/ou de valeurs de caractéristiques associés à un ou plusieurs types d’activité frauduleuse précédemment observés ;access to a set of labeled data comprising samples of historical records and / or characteristic values associated with one or more types of fraudulent activity previously observed;

la division de l’ensemble de données labellisées en ensembles de formation et de test la formation d’au moins un modèle candidat d’apprentissage automatique supervisé en utilisant l’ensemble de formation pour détecter chaque type d’activité frauduleuse observé précédemment ;dividing the labeled data set into training and test sets training at least one candidate machine learning model supervised using the training set to detect each type of fraudulent activity observed previously;

pour chaque modèle candidat d’apprentissage automatique supervisé formé, le calcul d’une mesure de performance en utilisant l’ensemble de test ; et pour chaque type d’activité frauduleuse observé précédemment, la sélection d’un modèle candidat correspondant d’apprentissage automatique basé sur la mesure de performance.for each candidate supervised machine learning model trained, calculating a performance measure using the test set; and for each type of fraudulent activity previously observed, the selection of a corresponding candidate model of machine learning based on performance measurement.

[0021] Dans un autre aspect, l’invention fournit un système informatique pour détecter une activité frauduleuse associée à un enregistrement de réservation dans un système de réservation informatique comprenant :In another aspect, the invention provides a computer system for detecting fraudulent activity associated with a reservation record in a computer reservation system comprising:

un processeur ;a processor;

au moins un dispositif de mémoire accessible par le processeur ; et au moins un stock de données accessible par le processeur dans lequel le dispositif de mémoire contient un corps d’instructions de programme qui lorsqu’il est exécuté par le processeur amène le système informatique à implémenter un procédé comprenant les étapes suivantes :at least one memory device accessible by the processor; and at least one data store accessible by the processor in which the memory device contains a body of program instructions which when executed by the processor causes the computer system to implement a method comprising the following steps:

la récupération, d’un stock de données, d’une série d’enregistrements historiques, chaque enregistrement historique dans la série enregistrant un état de l’enregistrement de réservation à un point temporel au cours d’une période ;retrieving, from a data store, a series of historical records, each historical record in the series recording a state of the reservation record at a time point during a period;

l’extraction, de chaque enregistrement historique des données de série caractérisant un ou plusieurs éléments de l’enregistrement de réservation au point temporel correspondant ;the extraction, from each historical record of the serial data characterizing one or more elements of the reservation record at the corresponding time point;

le traitement des données de série pour générer des données agrégées caractérisant un mode de modifications effectuées audit un ou plusieurs éléments de l’enregistrement de réservation au cours d’une période ;the processing of serial data to generate aggregated data characterizing a mode of modifications made to one or more elements of the reservation record during a period;

l’évaluation d’au moins un modèle d’apprentissage automatique préconfiguré en utilisant les données agrégées pour obtenir une valeur de classification de fraude produite ; et la génération d’une indication d’activité frauduleuse associée à l’enregistrement de réservation sur la base de la valeur de classification de fraude produite.assessing at least one preconfigured machine learning model using the aggregated data to obtain a fraud classification value produced; and generating an indication of fraudulent activity associated with the reservation record based on the fraud classification value produced.

[0022] Le corps d’instructions de programme peut amener le système informatique à implémenter l’évaluation d’au moins un modèle d’apprentissage automatique préconfiguré par les étapes suivantes :The body of program instructions can cause the computer system to implement the evaluation of at least one machine learning model preconfigured by the following steps:

la détermination d’une pluralité de valeurs de caractéristiques sur la base des données agrégées ;determining a plurality of characteristic values based on the aggregated data;

l’évaluation d’un premier modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une première valeur de classification de fraude, dans laquelle le premier modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage supervisé et est formé pour identifier un ou plusieurs types d’activité frauduleuse identifiés précédemment ;evaluating a first machine learning model using the characteristic values to obtain a first fraud classification value, wherein the first machine learning model is based on a supervised learning algorithm and is trained to identify one or more types of fraudulent activity identified previously;

l’évaluation d’un deuxième modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une deuxième valeur de classification de fraude, dans laquelle le deuxième modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage non supervisé et est configuré pour identifier des modes anormaux de valeurs de caractéristiques correspondant à des types d’activité frauduleuse non identifiés précédemment ; et la génération de la valeur de classification de fraude produite basée sur au moins une de la première valeur de classification de fraude et de la deuxième valeur de classification de fraude.evaluating a second machine learning model using the characteristic values to obtain a second fraud classification value, in which the second machine learning model is based on an unsupervised learning algorithm and is configured to identify abnormal patterns of characteristic values corresponding to types of fraudulent activity not previously identified; and generating the generated fraud classification value based on at least one of the first fraud classification value and the second fraud classification value.

[0023] A partir de la description qui suit, divers modes de réalisation, d’autres aspects, avantages et caractéristiques des modes de réalisation de l’invention seront apparents aux hommes de métier spécialisés dans les domaines pertinents. On notera cependant que l’invention n’est pas limitée aux modes de réalisation décrits qui sont fournis à titre d’illustration des principes de l’invention tels qu’ils sont définis dans les déclarations à venir et pour assister les hommes de métier à mettre en pratique ces principes.From the following description, various embodiments, other aspects, advantages and characteristics of the embodiments of the invention will be apparent to those skilled in the art specialized in the relevant fields. Note, however, that the invention is not limited to the embodiments described which are provided by way of illustration of the principles of the invention as defined in the declarations to come and to assist those skilled in the art to put these principles into practice.

[0024] Des modes de réalisation de l’invention seront maintenant décrits par rapport aux dessins qui suivent dans lesquels des numéros référentiels font référence à des caractéristiques similaires et dans lesquels :Embodiments of the invention will now be described with reference to the drawings which follow in which reference numbers refer to similar characteristics and in which:

[0025] [fig-1] est un diagramme bloc illustrant un système exemplaire en réseau qui inclut un système de détection de fraude représentant l’invention ;[Fig-1] is a block diagram illustrating an exemplary network system which includes a fraud detection system representing the invention;

[0026] [fig.2] est un diagramme schématique illustrant un fichier historique de PNR dans la base de données de PNR de la Fig. 1 ;[Fig.2] is a schematic diagram illustrating a PNR history file in the PNR database of FIG. 1;

[0027] [fig.3] est un organigramme illustrant un procédé de détection d’activité frauduleuse conforme à un mode de réalisation de l’invention ;[Fig.3] is a flowchart illustrating a method of detecting fraudulent activity in accordance with an embodiment of the invention;

[0028] [fig.4] est un organigramme illustrant l’extraction de caractéristiques au niveau de l’enveloppe et au niveau du PNR selon un mode de réalisation de l’invention ; et[Fig.4] is a flowchart illustrating the extraction of characteristics at the envelope and at the PNR level according to an embodiment of the invention; and

[0029] [fig.5] est un organigramme illustrant un procédé d’identification de fraudes connues et inconnues en utilisant des modèles d’apprentissage automatique en cascade selon un mode de réalisation de l’invention.[Fig.5] is a flowchart illustrating a method of identifying known and unknown frauds using cascading machine learning models according to an embodiment of the invention.

[0030] La Lig. 1 est un diagramme bloc illustrant un système exemplaire en réseau 100 qui inclut un système de détection de fraude 102 représentant l’invention. En particulier, le système de détection de fraude 102 comprend un système basé sur l’apprentissage automatique (ML) configuré pour détecter des comportements frauduleux conformément à un mode de réalisation de l’invention. Afin de concrétiser l’invention, un mode de réalisation de l’invention est décrit pour détecter une activité frauduleuse relative à des réservations de voyage. Cependant, on notera que ceci n’est qu’un exemple pour illustrer le système et le procédé et que les modes de réalisation de l’invention peuvent être appliqués à d’autres types de systèmes de réservation.The Lig. 1 is a block diagram illustrating an exemplary network system 100 which includes a fraud detection system 102 representing the invention. In particular, the fraud detection system 102 comprises a system based on machine learning (ML) configured to detect fraudulent behavior in accordance with an embodiment of the invention. In order to concretize the invention, an embodiment of the invention is described for detecting fraudulent activity relating to travel reservations. However, it should be noted that this is only an example to illustrate the system and method and that the embodiments of the invention can be applied to other types of reservation systems.

[0031] Le système de détection de fraude 102 peut comprendre un système informatique ayant une architecture conventionnelle. En particulier, le système de détection de fraude 102, tel qu’il est illustré, comprend un processeur 104. Le processeur 104 est associé de façon fonctionnelle à un dispositif de stockage/mémoire non volatile 106, p. ex. via un ou plusieurs bus de données/adresses 108 tel qu’illustré. Le stockage non volatile 106 peut être un disque dur et/ou peut inclure une mémoire non volatile à état défini, telle qu’une mémoire morte à lecture seule ROM, une mémoire flash, un disque dur électronique (SSD) ou autre stockage similaire. Le processeur 104 sert aussi d’interface avec le stockage volatile 110 tel que la mémoire vive à accès aléatoire RAM qui contient des instructions de programme et des données temporaires relatives au fonctionnement du système de détection de fraude 102.The fraud detection system 102 may include a computer system having a conventional architecture. In particular, the fraud detection system 102, as illustrated, comprises a processor 104. The processor 104 is operatively associated with a non-volatile memory / storage device 106, p. ex. via one or more data buses / addresses 108 as illustrated. The non-volatile storage 106 may be a hard disk and / or may include a state-defined non-volatile memory, such as read-only ROM, flash memory, electronic hard disk (SSD) or other similar storage. The processor 104 also serves as an interface with the volatile storage 110 such as the random access random access memory RAM which contains program instructions and temporary data relating to the operation of the fraud detection system 102.

[0032] Dans une configuration conventionnelle, le dispositif de stockage 106 maintient un programme connu et un contenu de données pertinentes avec le fonctionnement normal du système de détection de fraude 102. Par exemple, le dispositif de stockage 106 peut contenir des programmes de système d’exploitation et des données ainsi que d’autres logiciels d’application exécutables nécessaires pour les fonctions voulues du serveur de détection de fraude 102. Le dispositif de stockage 106 contient aussi des instructions de programme qui, lorsqu’elles sont exécutées par le processeur 104, amènent le système de détection de fraude 102 à effectuer des opérations relatives à un mode de réalisation de la présente invention, lesquelles sont décrites de façon plus détaillée cidessous en référence à la Fig. 3, à la FIG. 4 et à la Fig. 5 en particulier. En pratique, les instructions et les données stockées sur le dispositif de stockage 106 sont transférées à la mémoire volatile 110 pour une exécution à la demande.In a conventional configuration, the storage device 106 maintains a known program and a content of relevant data with the normal operation of the fraud detection system 102. For example, the storage device 106 can contain system programs of and data and other executable application software necessary for the intended functions of the fraud detection server 102. The storage device 106 also contains program instructions which, when executed by the processor 104 , cause the fraud detection system 102 to perform operations relating to an embodiment of the present invention, which are described in more detail below with reference to FIG. 3, in FIG. 4 and in FIG. 5 in particular. In practice, the instructions and the data stored on the storage device 106 are transferred to the volatile memory 110 for execution on demand.

[0033] Le processeur 104 est aussi associé fonctionnellement à une interface de communications 112 d’une manière conventionnelle. L’interface de communications 112 facilite l’accès à un réseau étendu de communications de données, tel que l’Internet 116.The processor 104 is also functionally associated with a communications interface 112 in a conventional manner. The communications interface 112 facilitates access to an extended data communications network, such as the Internet 116.

[0034] Dans la pratique, le stockage volatile 110 contient un corps d’instructions de programme correspondant 114 transféré à partir du dispositif de stockage 106 et qui est configuré pour effectuer le traitement et d’autres opérations afin de mettre en œuvre les caractéristiques de la présente invention. Les instructions de programme 114 comprennent une contribution technique à l’art, développée et configurée spécifiquement pour implémenter un mode de réalisation de l’invention qui va au-delà de la routine et des activités conventionnelles bien comprises dans l’art de la détection de fraude et des systèmes d’apprentissage automatique, qui fera par ailleurs l’objet d’une description ci-dessous, particulièrement par référence à la Fig. 3, à la Fig. 4 et à la Fig. 5.In practice, the volatile storage 110 contains a body of corresponding program instructions 114 transferred from the storage device 106 and which is configured to carry out the processing and other operations in order to implement the characteristics of the present invention. Program instructions 114 include a technical contribution to the art, developed and configured specifically to implement an embodiment of the invention that goes beyond routine and conventional activities well understood in the art of detection of fraud and machine learning systems, which will also be described below, particularly with reference to FIG. 3, in FIG. 4 and in FIG. 5.

[0035] Concernant l’aperçu global du système de détection de fraude 102 et d’autres systèmes de traitement et dispositifs décrits dans cette spécification, les termes tels que ‘ processeurs ’, ‘ ordinateur ’ et ainsi de suite, sauf si le contexte exige autrement, doivent être interprétés comme faisant référence à un éventail d’implémentations possibles des dispositifs, appareils et systèmes comprenant une combinaison de logiciels et de matériel. Cela inclut des dispositifs à processeur unique et à processeurs multiples et un appareil, incluant les dispositifs portables, les ordinateurs de bureau et divers types de systèmes de serveur, incluant du matériel collaboratif et des plateformes logicielles qui peuvent cohabiter ou être distribuées. Les processeurs physiques peuvent inclure des unités centrales de traitement (CPUs), à usage général, des processeurs de signaux numériques, des unités de traitement graphique (GPUs) et/ ou d’autres dispositifs matériels appropriés pour une exécution efficace des programmes et des algorithmes nécessaires.Regarding the overall overview of the fraud detection system 102 and other processing systems and devices described in this specification, terms such as 'processors', 'computer' and so on, unless the context requires otherwise, should be interpreted as referring to a range of possible implementations of devices, apparatus and systems comprising a combination of software and hardware. This includes single and multi-processor devices and a device, including portable devices, desktop computers and various types of server systems, including collaborative hardware and software platforms that can coexist or be distributed. Physical processors may include general purpose central processing units (CPUs), digital signal processors, graphics processing units (GPUs) and / or other hardware devices suitable for efficient execution of programs and algorithms required.

[0036] Les systèmes informatiques peuvent inclure des architectures conventionnelles d’ordinateur personnel ou d’autres plateformes matérielles à usage général. Les logiciels peuvent inclure des logiciels de sources libres et/ou des logiciels de systèmes d’exploitation vendus sur le marché en combinaison avec diverses applications et programmes de services. Autrement, les plateformes de traitement ou de calcul peuvent comprendre du matériel et/ou des architectures de logiciel adaptés sur mesure. Pour une extensibilité améliorée, les systèmes de traitement et de calcul peuvent comprendre des plateformes d’informatique en nuage permettant aux ressources matérielles physiques d’être attribuées de façon dynamique en réponse aux demandes de services. Alors que toutes ces variations sont comprises dans la portée de la présente invention, pour faciliter l’explication et la compréhension, les modes de réalisation exemplaires sont décrits dans les présentes avec une référence, à titre illustratif, à des plateformes informatiques à usage général à processeur unique, à des plateformes de système d’exploitation couramment disponibles et/ou à des produits de consommateurs largement disponibles, tels que des ordinateurs de bureau (PCs), des ordinateurs compacts ou ordinateurs portables (PCs), des smartphones, des tablettes informatiques et ainsi de suite.Computer systems can include conventional personal computer architectures or other general purpose hardware platforms. The software may include open source software and / or commercially available operating system software in combination with various applications and service programs. Otherwise, the processing or calculation platforms may include hardware and / or software architectures adapted to measure. For improved scalability, processing and compute systems can include cloud computing platforms that allow physical hardware resources to be dynamically allocated in response to service requests. While all of these variations are within the scope of the present invention, to facilitate explanation and understanding, exemplary embodiments are described herein with reference, by way of illustration, to general purpose computer platforms at single processor, widely available operating system platforms and / or widely available consumer products, such as desktop computers (PCs), compact computers or laptops (PCs), smartphones, tablet computers And so on.

[0037] En particulier, les termes ‘ unité de traitement ’ et ‘module’ sont utilisés dans cette spécification pour faire référence à toute combinaison appropriée de matériel et de logiciels configurés pour effectuer une tâche particulière définie telle que l’accès et le traitement des données en ligne ou hors connexion, la saisie informatique de caractéristiques d’un ou de plusieurs modèles d’apprentissage automatique, l’exécution de la formation et/ou d’autres étapes de configuration d’un ou de plusieurs modèles d’apprentissage automatique, ou l’exécution des étapes d’alerte et de détection de fraude. Une telle unité de traitement peut comprendre un module de code exécutable qui s’exécute à un emplacement unique sur un dispositif de traitement unique ou qui peut comprendre des modules collaboratifs de code exécutable qui s’exécutent à de multiples emplacements et/ou sur de multiples dispositifs de traitement. Par exemple, dans certains modes de réalisation de l’invention les algorithmes de détection de fraude peuvent être implémentés entièrement par un code en exécution sur un seul système, tel que le système de détection de fraude 102, alors que dans d’autres modes de réalisation le traitement correspondant peut être mis en œuvre d’une manière distribuée sur une pluralité de systèmes.In particular, the terms 'processing unit' and 'module' are used in this specification to refer to any suitable combination of hardware and software configured to perform a particular defined task such as accessing and processing online or offline data, data entry of characteristics of one or more machine learning models, execution of training and / or other steps to configure one or more machine learning models , or the execution of the alert and fraud detection steps. Such a processing unit can include an executable code module which runs in a single location on a single processing device or which can include collaborative executable code modules which run in multiple locations and / or on multiple treatment devices. For example, in certain embodiments of the invention, the fraud detection algorithms can be implemented entirely by a code executing on a single system, such as the fraud detection system 102, while in other modes of realization the corresponding processing can be implemented in a distributed manner on a plurality of systems.

[0038] Les composants logiciels, p. ex. les instructions de programme 114, pour mettre en œuvre les caractéristiques de l’invention peuvent être développés en utilisant tout langage de programmation approprié, environnement de développement ou combinaisons de langage et d’environnement de développement qui seront familiers aux hommes de métier spécialisés dans l’ingénierie logicielle. Par exemple, des logiciels appropriés peuvent être développés en utilisant le langage de programmation C, le langage de programmation Java, le langage de programmation C++, le langage de programmation Go, le langage de programmation Python, le langage de programmation R et/ou d’autres langages appropriés pour l’implémentation de l’apprentissage au tomatique et d’autres algorithmes. Le développement de modèles d’apprentissage automatique pour mettre en œuvre l’invention peut être aidé par l’utilisation de bibliothèques de codes d’apprentissage automatique telles que les bibliothèques TensorLlow, Torch et Keras. Les hommes de métier comprendront cependant que les modes de réalisation de l’invention impliquent l’implémentation de structures logicielles et de code qui ne sont ni bien compris, ni routiniers ou conventionnels dans l’art des systèmes d’apprentissage automatique et que même si des bibliothèques existantes peuvent aider à l’implémentation, elles nécessitent une configuration spécifique et une augmentation substantielle (c.-à-d. le développement de code supplémentaire) afin de réaliser les divers bénéfices et avantages de l’invention et d’implémenter les structures spécifiques, le traitement, les calculs et les algorithmes décrits ci-dessous particulièrement par référence à la Lig. 3, à la Lig. 4 et à la Lig. 5.Software components, p. ex. program instructions 114, to implement the features of the invention can be developed using any suitable programming language, development environment or language and development environment combinations which will be familiar to those skilled in the art software engineering. For example, suitable software can be developed using the C programming language, the Java programming language, the C ++ programming language, the Go programming language, the Python programming language, the R and / or d programming language. 'other languages suitable for the implementation of learning in tomatic and other algorithms. The development of machine learning models for implementing the invention can be assisted by the use of machine learning code libraries such as the TensorLlow, Torch and Keras libraries. Those skilled in the art will understand, however, that the embodiments of the invention involve the implementation of software and code structures which are neither well understood, nor routine or conventional in the art of machine learning systems and that even if existing libraries can help with implementation, they require specific configuration and substantial increase (i.e., development of additional code) in order to realize the various benefits and advantages of the invention and to implement the specific structures, processing, calculations and algorithms described below particularly with reference to the Lig. 3, at Lig. 4 and Lig. 5.

[0039] Les exemples suivants de langages, d’environnements, et de bibliothèques de codes ne sont pas censés être limitatifs et on comprendra que tous langages, bibliothèques et systèmes de développement appropriés peuvent être utilisés conformément aux exigences du système. Les descriptions, diagrammes bloc, organigrammes et autres qui sont présentés dans cette spécification sont fournis à titre d’exemple pour permettre aux hommes de métier spécialisés dans l’ingénierie logicielle et l’apprentissage automatique de comprendre et d’apprécier les caractéristiques, la nature et la portée de l’invention, et pour mettre un ou plusieurs modes de réalisation de l’invention en pratique par l’implémentation de code logiciel adapté en utilisant tout langage, structure, bibliothèque et système de développement approprié conformément à cette divulgation sans avoir à y apporter une ingéniosité inventive supplémentaire.The following examples of languages, environments, and code libraries are not intended to be limiting, and it will be understood that any suitable languages, libraries, and development systems can be used in accordance with system requirements. The descriptions, block diagrams, flow charts and the like which are presented in this specification are provided by way of example to enable those skilled in software engineering and machine learning to understand and appreciate the characteristics, nature and the scope of the invention, and to put one or more embodiments of the invention into practice by implementing suitable software code using any appropriate language, structure, library and development system in accordance with this disclosure without having to bring additional inventive ingenuity to it.

[0040] Le code de programme mis en œuvre dans une/un quelconque des applications/ modules décrit(e)s dans les présentes peut être distribué individuellement ou collectivement comme un produit programme d’ordinateur, sous une variété de formes différentes. En particulier, le code de programme peut-être distribué en utilisant un support de stockage lisible par ordinateur ayant des instructions de programme lisibles par ordinateur pour amener un processeur à mettre en œuvre des aspects des modes de réalisation de l’invention.The program code implemented in any of the applications / modules described herein may be distributed individually or collectively as a computer program product, in a variety of different forms. In particular, the program code may be distributed using a computer readable storage medium having computer readable program instructions to cause a processor to implement aspects of the embodiments of the invention.

[0041] Les supports de stockage de données lisibles par ordinateur peuvent inclure des médias tangibles volatiles et non volatiles, amovibles et non amovibles, implémentés dans tout procédé ou technologie de stockage de données, tels que des instructions de programme lisibles par ordinateur, des structures de donnée, des modules de programme, ou autres données. Les supports de stockage lisibles par ordinateur peuvent aussi comprendre des mémoires : une mémoire vive à accès aléatoire (RAM), une mémoire morte à lecture seule (ROM), une mémoire à lecture seule programmable et effaçable (EPROM), une mémoire à lecture seule programmable et effaçable élec triquement (EEPROM), une mémoire flash, ou autre technologie de support solide de mémoire, un disque compact portable doté d’une mémoire à lecture seule (CD-ROM), ou autre stockage optique, cassette magnétique, bande magnétique, disque magnétique ou tout autre support pouvant être utilisé pour stocker l’information désirée et apte à être lu par un ordinateur. Bien qu’un support de stockage lisible par ordinateur ne puisse pas comprendre de signaux transitoires en soi (p. ex. des ondes radio d’autres ondes électromagnétiques se propageant, des ondes électromagnétiques se propageant via un support de transmission tel qu’un guide d’ondes ou des signaux électriques transmis par un fil), les instructions de programme lisibles par ordinateur peuvent être téléchargées via de tels signaux transitoires sur un ordinateur, un autre type d’appareil de traitement de données programmable ou un autre dispositif à partir du support de stockage lisible par ordinateur ou vers un ordinateur externe ou un dispositif de stockage externe via un réseau.Computer readable data storage media can include volatile and non-volatile, removable and non-removable tangible media, implemented in any data storage process or technology, such as computer readable program instructions, structures data, program modules, or other data. Computer-readable storage media can also include memories: random access random access memory (RAM), read-only read-only memory (ROM), programmable and erasable read-only memory (EPROM), read-only memory electrically programmable and erasable (EEPROM), flash memory, or other solid memory support technology, portable compact disc with read-only memory (CD-ROM), or other optical storage, magnetic cassette, magnetic tape , magnetic disc or any other medium that can be used to store the desired information and able to be read by a computer. Although a computer-readable storage medium may not include transient signals per se (e.g. radio waves from other propagating electromagnetic waves, electromagnetic waves propagating through a transmission medium such as a guide waves or electrical signals transmitted over a wire), computer-readable program instructions can be downloaded via such transient signals to a computer, another type of programmable data processor, or another device from the storage media readable by computer or to an external computer or an external storage device via a network.

[0042] Les instructions de programme lisibles par ordinateur, stockées dut un support lisible par ordinateur, peuvent être utilisées pour instruire un ordinateur, d’autres types d’appareils programmables de traitement ou d’autres dispositifs pour fonctionner d’une façon particulière, de sorte que les instructions stockées sur un support lisible par ordinateur produisent un article de fabrication comprenant les instructions qui implémentent les fonctions, les actions et/ou les opérations spécifiées dans les organigrammes, diagrammes de séquence, et/ou diagrammes blocs. Les instructions de programme informatique peuvent être fournies par un ou plusieurs processeurs sur un ordinateur à usage général, un ordinateur à usage spécial, ou tout autre appareil programmable de traitement de données pour produire une machine telle que les instructions qui s’exécutent par l’intermédiaire d’un ou de plusieurs processeurs provoquent une série de calculs devant être effectués pour implémenter les fonctions, actions et/ou opérations spécifiées dans les organigrammes, diagrammes séquentiels et/ ou diagrammes blocs.The computer-readable program instructions, stored in a computer-readable medium, can be used to instruct a computer, other types of programmable processing devices or other devices to operate in a particular way, so that the instructions stored on a computer-readable medium produce an article of manufacture comprising the instructions which implement the functions, actions and / or operations specified in the flowcharts, sequence diagrams, and / or block diagrams. Computer program instructions may be provided by one or more processors on a general purpose computer, a special purpose computer, or any other programmable data processing apparatus to produce a machine such as instructions executed by the through one or more processors cause a series of calculations to be performed to implement the functions, actions and / or operations specified in the flowcharts, sequential diagrams and / or block diagrams.

[0043] De retour à la description de la Eig. 1, le système en réseau 100 inclut un système de distribution global (GDS) 118 qui inclut un système de réservation (non illustré) et qui est capable d’accéder à une base de données 120 d’enregistrements de noms de passagers (PNR). La base de données de PNR 120 stocke une pluralité de PNRs. Chaque PNR peut comprendre un ou plusieurs enregistrements de réservation, chacun définissant une ou plusieurs réservations faites par un voyageur. Le PNR peut aussi suivre l’usage des services de voyage achetés. Le PNR peut être identifié par un localisateur d’enregistrement unique à ce PNR et peut inclure des enregistrements définissant l’itinéraire de voyage pour un voyage, un service, un passager, ou un groupe de passagers particuliers. L’itinéraire de voyage peut inclure les services de multiples transporteurs (p. ex. des sièges sur un avion un autocar ou des segments de rail), des services auxiliaires d’un ou de plusieurs transporteurs (p. ex. le droit d’enregistrer un bagage supplémentaire, un repas pendant le vol), des services auxiliaires de tiers autres que des transporteurs (p. ex. les réservations d’hôtel ou les réservations de voiture de location) ou tout autre service lié au voyage.Back to the description of Eig. 1, the network system 100 includes a global distribution system (GDS) 118 which includes a reservation system (not shown) and which is capable of accessing a database 120 of passenger name registration (PNR) . The PNR database 120 stores a plurality of PNRs. Each PNR can include one or more reservation records, each defining one or more reservations made by a traveler. The PNR can also monitor the use of purchased travel services. The PNR can be identified by a registration locator unique to that PNR and can include records defining the travel itinerary for a particular trip, service, passenger, or group of passengers. The travel itinerary may include the services of multiple carriers (eg seats on an airplane, coach or rail segments), auxiliary services of one or more carriers (eg the right to check in extra baggage, a meal during the flight), ancillary services from third parties other than carriers (e.g. hotel reservations or rental car reservations) or any other travel-related service.

[0044] Un système d’inventaire 122 est également montré dans la Fig. 1. Le système d’inventaire 122 peut inclure une base de données d’inventaire (non illustrée). Dans le cas exemplaire du système d’inventaire d’une compagnie aérienne, la base de données d’inventaire peut stocker l’inventaire de segments et de services fournis par un transporteur, incluant les réservations les comptes et les disponibilités. La base de données d’inventaire peut aussi entretenir un compte de la disponibilité de chaque service de voyage. Par exemple, le système d’inventaire 122 peut suivre le nombre de sièges disponibles à la vente pour un transporteur à tout moment donné pour un quelconque vol donné, une cartographie des sièges avec des numéros de sièges et un nombre de services spéciaux réservés et les quotas correspondants. Le GDS 118 peut interroger le système d’inventaire 122 pour déterminer la disponibilité des services de voyage avant de tarifer ou de réserver le service. En réponse à la réservation du service, le GDS 118 peut transmettre un message au système d’inventaire 122 pour actualiser la base de données de l’inventaire afin de refléter la vente. Bien qu’un seul système d’inventaire 122 soit montré dans la Fig. 1 à titre d’illustration, on comprendra que l’industrie du voyage est complexe et extrêmement concurrentielle et, qu’en pratique, le GDS 118 est capable d’accéder à un inventaire et d’effectuer des réservations pour un grand nombre de fournisseurs de services de voyage, chacun d’eux pouvant avoir son propre système d’inventaire.An inventory system 122 is also shown in FIG. 1. The inventory system 122 may include an inventory database (not shown). In the exemplary case of an airline’s inventory system, the inventory database can store the inventory of segments and services provided by a carrier, including reservations, accounts and availability. The inventory database can also maintain an account of the availability of each travel service. For example, the inventory system 122 can track the number of seats available for sale for a carrier at any given time for any given flight, a map of the seats with seat numbers and a number of special reserved services and the corresponding quotas. GDS 118 can query the inventory system 122 to determine the availability of travel services before charging or booking the service. In response to the service reservation, the GDS 118 may send a message to the inventory system 122 to update the inventory database to reflect the sale. Although only one inventory system 122 is shown in Fig. 1 by way of illustration, it will be understood that the travel industry is complex and extremely competitive and that, in practice, the GDS 118 is capable of accessing an inventory and making reservations for a large number of suppliers. travel services, each of which may have its own inventory system.

[0045] Les clients qui peuvent être des particuliers, des agents de réservation ou toute autre personne morale ou physique, accèdent aux services de réservation du GDS 118 via le réseau 116, p. ex. via les terminaux clients 124 qui exécutent un logiciel de réservation correspondant. Le logiciel de réservation qui s’exécute sur les terminaux clients 124 peut être géré pour créer de nouveaux itinéraires, résultant en création de nouveaux PNRs dans la base de données de PNR 120 et/ou pour modifier des itinéraires et des PNRs existants. Certaines séquences de ces opérations peuvent être exécutées dans le but d’escroquer les fournisseurs de services de voyage, p. ex. en contournant les règles ou les restrictions applicables, ou pour obtenir des réductions, des surclassements et/ou d’autres bénéfices non autorisés.Customers who can be individuals, reservation agents or any other legal or natural person, access the reservation services of GDS 118 via the network 116, p. ex. via the client terminals 124 which execute corresponding reservation software. The reservation software that runs on the client terminals 124 can be managed to create new routes, resulting in the creation of new PNRs in the PNR 120 database and / or to modify existing routes and PNRs. Certain sequences of these operations can be executed in order to defraud the travel service providers, p. ex. bypassing applicable rules or restrictions, or to obtain unauthorized discounts, upgrades and / or other benefits.

[0046] La Fig. 2 est un diagramme schématique illustrant un fichier historique de PNR 200 (ou une portion de celui-ci) dans la base de données de PNR 120. Chaque PNR dans la base de données de PNR 120 peut être associé à un fichier historique, p. ex. 200. Le fichier historique 200 peut comprendre un enregistrement de la création du PNR et de toutes modifications subséquentes faites au PNR. Le fichier historique peut fournir des données qui permettent au système de déterminer si et quand un élément du PNR a été modifié ainsi que les détails de la modification. Le fichier historique 200 comprend une pluralité d’enregistrements, p. ex. 202, 204, 206 désignés sous le terme ‘ enveloppes’. Chaque fois que le PNR est actualisé, une enveloppe supplémentaire peut être créée et rattachée au fichier historique. Le PNR a un identifiant unique 208, connu sous le nom de localisateur d’enregistrement ou ‘Recloc’ qui ne modifie pas la mise à jour du PNR. Chaque enveloppe peut inclure un identifiant (non illustré) tel qu’un numéro séquentiel. Pour les identifiants comprenant des numéros séquentiels, le numéro d’enveloppe le plus bas (p. ex. l’enveloppe 000) peut correspondre à l’enveloppe associée à la création du PNR. Chaque enveloppe peut inclure des données définissant une modification faite au PNR, un état du PNR avant ou après la modification, une heure et une date à laquelle la modification a été faite où l’état du PNR existait, l’information relative aux agents de réservation ou le système automatisé faisant la modification, le nom de la personne qui a demandé la modification et/ou toute autre information pertinente relative au PNR.[0046] FIG. 2 is a schematic diagram illustrating a PNR 200 history file (or a portion thereof) in the PNR 120 database. Each PNR in the PNR 120 database can be associated with a history file, p. ex. 200. The historical file 200 may include a record of the creation of the PNR and of any subsequent modifications made to the PNR. The history file can provide data that allow the system to determine if and when an element of the PNR has been changed and the details of the change. History file 200 includes a plurality of records, p. ex. 202, 204, 206 referred to as ‘envelopes’. Each time the PNR is updated, an additional envelope can be created and attached to the history file. The PNR has a unique identifier 208, known as a record locator or "Recloc" which does not change the update of the PNR. Each envelope may include an identifier (not shown) such as a sequential number. For identifiers with sequential numbers, the lowest envelope number (eg envelope 000) can correspond to the envelope associated with the creation of the PNR. Each envelope may include data defining a modification made to the PNR, a state of the PNR before or after the modification, a time and a date on which the modification was made where the state of the PNR existed, information relating to the agents of reservation or the automated system making the modification, the name of the person who requested the modification and / or any other relevant information relating to the PNR.

[0047] Plus précisément, dans des modes de réalisation de l’invention une enveloppe de PNR, p. ex. 202, 204, 206, comprend un enregistrement des informations validées d’un PNR à un moment spécifique dans le temps. Chaque fois qu’une modification ou un groupe de modifications est effectué dans un PNR, suivi par un événement de « fin de transaction » (EOT), le résultat de la modification(s) est validé et une nouvelle enveloppe de PNR est créée et rattachée au fichier historique 200. Les modifications ou les actions non validées qui ne modifient pas le PNR ne sont pas enregistrées dans la nouvelle enveloppe. Chaque enveloppe est identifiable de façon unique par le Recloc du PNR et le numéro séquentiel de l’enveloppe.More specifically, in embodiments of the invention a PNR envelope, p. ex. 202, 204, 206, includes a record of validated PNR information at a specific point in time. Each time a modification or a group of modifications is made in a PNR, followed by an “end of transaction” (EOT) event, the result of the modification (s) is validated and a new PNR envelope is created and attached to the history file 200. Modifications or non-validated actions which do not modify the PNR are not recorded in the new envelope. Each envelope is uniquely identifiable by the Recloc of the PNR and the sequential number of the envelope.

[0048] A titre d’exemple, l’enveloppe 202 peut représenter un état initial X d’un PNR avant une modification. L’itinéraire de voyage défini par l’enveloppe décrite 202 inclut un vol entre Nice et Séoul comprenant un segment de Nice Côte d’Azur à Londres Heathrow le 30 juin (6X111 30JUN NCELHR) et un autre segment de Londres Heathrow à Séoul Incheon le 30 juin (6X112 30JUN LHRICN). Par la suite, le PNR est modifié reflétant un changement au segment connectant Nice et Londres. Cela peut être dû un événement tel qu’une annulation du segment ou à un changement volontaire effectué par le passager. Il en résulte un changement de l’état du PNR, de l’état X à l’état X+L Lorsque ce changement est validé, l’enveloppe 204 est créée et ajoutée au fichier historique 200 pour représenter l’état actualisé X+l du PNR. Ainsi qu’illustré dans l’enveloppe 204, les codes d’état des segments de vol initial ont été changés de HK à UN pour indiquer que les segments ne sont plus actifs et deux segments de remplacement 6X211 C 30JUN 1 NCELHR et 6X212 C 30JUN 1 LHRICN ont été ajoutés.As an example, the envelope 202 can represent an initial state X of a PNR before a modification. The travel itinerary defined by the described envelope 202 includes a flight between Nice and Seoul including a segment from Nice Côte d'Azur to London Heathrow on June 30 (6X111 30JUN NCELHR) and another segment from London Heathrow to Seoul Incheon on June 30 (6X112 30JUN LHRICN). Thereafter, the PNR is modified reflecting a change in the segment connecting Nice and London. This may be due to an event such as a segment cancellation or a voluntary change made by the passenger. This results in a change in the state of the PNR, from state X to state X + L When this change is validated, the envelope 204 is created and added to the history file 200 to represent the updated state X + l of the PNR. As shown in Envelope 204, the initial flight segment status codes have been changed from HK to UN to indicate that the segments are no longer active and two replacement segments 6X211 C 30JUN 1 NCELHR and 6X212 C 30JUN 1 LHRICN have been added.

[0049] L’enveloppe 206 représente un état actuel du PNR par exemple l’état X+n, où n représente un certain nombre d’états du PNR depuis l’état initial X. Dans l’exemple décrit par l’enveloppe 206, le vol comprenant les segments de remplacement 6X211 C 30JUN 1 NCELHR et 6X212 C 30JUN 1 LHRICN ont été supprimés de ritinéraire de voyage. Ce changement peut refléter une annulation manuelle par un agent de voyage ou peut être dû à des événements survenant qui résultent en réaménagement (c.-à-d. des modifications de ritinéraire de voyage pour prendre en compte les changements d’horaires). Ainsi le fichier historique peut être configuré de sorte qu’il est possible de récupérer l’état du PNR correspondant à une quelconque enveloppe stockée dans l’historique du PNR.The envelope 206 represents a current state of the PNR, for example the state X + n, where n represents a certain number of states of the PNR since the initial state X. In the example described by the envelope 206 , the flight including the replacement segments 6X211 C 30JUN 1 NCELHR and 6X212 C 30JUN 1 LHRICN have been deleted from the travel itinerary. This change may reflect a manual cancellation by a travel agent or may be due to events occurring that result in reorganization (i.e. changes to the travel itinerary to accommodate schedule changes). Thus the history file can be configured so that it is possible to recover the state of the PNR corresponding to any envelope stored in the history of the PNR.

[0050] Les hommes de métier comprendront que les enveloppes 202, 204, 206 sont décrites uniquement à titre d’exemple. En particulier, un but de ces exemples est d’illustrer, pour l’homme de métier, comment des modifications validées pour un PNR dans le temps peuvent être enregistrées dans un fichier historique associé dans la base de données de PNR 120. Les modes de réalisation de la présente invention peuvent donc être configurés, par une programmation spécifique conforme aux procédés décrits cidessous, par référence aux Figs. 3 à 5 en particulier, dans le but de sélectionner des enveloppes d’un fichier historique 200, d’extraire et/ou de calculer des caractéristiques de niveau enveloppe et pour agréger et/ou calculer des caractéristiques de niveau PNR, pour usage avec les modèles d’apprentissage automatique configurés pour détecter une activité frauduleuse perpétuée via le GDS 118.Those skilled in the art will understand that the envelopes 202, 204, 206 are described only by way of example. In particular, an object of these examples is to illustrate, for the skilled person, how changes validated for a PNR over time can be recorded in an associated historical file in the PNR 120 database. embodiment of the present invention can therefore be configured, by specific programming in accordance with the methods described below, with reference to FIGS. 3 to 5 in particular, in order to select envelopes from a history file 200, to extract and / or calculate envelope level characteristics and to aggregate and / or calculate PNR level characteristics, for use with machine learning models configured to detect fraudulent activity perpetuated via GDS 118.

[0051] La Fig. 3 est un organigramme 300 illustrant un procédé de détection d’activité frauduleuse selon un mode de réalisation de l’invention. Les enveloppes de PNR validées 302 sont transmises au fur et à mesure qu’elles sont générées, en temps réel, au système de détection de fraude 102 et elles sont sauvegardées dans un stock de données 304. Dans certains modes de réalisation de l’invention, le stock de données 304 comprend un système de fichiers distribués fournissant un accès extrêmement performant à de larges volumes de données. Par exemple, le stock de données 304 peut comprendre un système de fichiers distribués Hadoop® (HDFS). Dans ces modes de réalisation, le système de détection de fraude 102 comprendra typiquement un ou plusieurs groupements de nœuds de traitement, c.-à-d. que le système 102 représente ainsi juste un nœud d’un tel système distribué. Dans chaque nœud 102, les données correspondant aux enveloppes validées 302 peuvent être stockées dans le stock de données 304 sur un dispositif de stockage physique, p. ex. 106. Les enveloppes de PNR validées 302 sauvegardées dans le stock de données 304 peuvent comprendre des copies supplémentaires, séparées des enveloppes, p. ex. 202, 204, 206, contenues dans les fichiers historiques 200 de la base de données de PNR 120. Dans un mode de réalisation exemplaire, les enveloppes de PNR validées 302 sont stockées dans le stock de données 304 dans des dossiers organisés par année, mois, jour et heure, conformément à l’horaire de validation associé à chaque enveloppe.[0051] FIG. 3 is a flow diagram 300 illustrating a method of detecting fraudulent activity according to an embodiment of the invention. The validated PNR envelopes 302 are transmitted as they are generated, in real time, to the fraud detection system 102 and they are saved in a data store 304. In certain embodiments of the invention , data store 304 includes a distributed file system providing extremely efficient access to large volumes of data. For example, data store 304 may include a Hadoop® distributed file system (HDFS). In these embodiments, the fraud detection system 102 will typically include one or more groupings of processing nodes, i.e. that the system 102 thus represents just one node of such a distributed system. In each node 102, the data corresponding to the validated envelopes 302 can be stored in the data store 304 on a physical storage device, p. ex. 106. Validated PNR envelopes 302 saved in data store 304 may include additional copies, separate from the envelopes, p. ex. 202, 204, 206, contained in the historical files 200 of the PNR database 120. In an exemplary embodiment, the validated PNR envelopes 302 are stored in the data store 304 in folders organized by year, month , day and time, in accordance with the validation schedule associated with each envelope.

[0052] A l’étape 306, les séquences d’enveloppes associées à un ou à plusieurs PNRs sélectionnés sont récupérées dans le stock de données 304. Chaque PNR peut être identifié en utilisant son identifiant unique associé (Recloc) et la séquence d’enveloppe correspondante comprend alors les enveloppes associées à l’identifiant de PNR, chacune ayant un numéro de séquence unique contextuel. A l’étape 308, les caractéristiques de niveau enveloppe sont extraites de chaque enveloppe. Les caractéristiques de niveau enveloppe sont des valeurs numériques et/ou catégoriques associées aux données stockées dans une seule enveloppe. A l’étape 310, les caractéristiques agrégées de niveau PNR sont déterminées pour chaque PNR. Les caractéristiques de niveau PNR sont des valeurs numériques et/ou catégoriques déterminées sur la base des caractéristiques de niveau enveloppe extraites de toutes les enveloppes disponibles 302 associées à un PNR. D’autres détails de l’extraction et de la détermination au niveau de l’enveloppe et au niveau du PNR sont fournis dans la discussion ci-dessous faisant référence à la Fig. 4.In step 306, the envelope sequences associated with one or more selected PNRs are retrieved from the data store 304. Each PNR can be identified using its associated unique identifier (Recloc) and the sequence of corresponding envelope then includes the envelopes associated with the PNR identifier, each having a unique contextual sequence number. In step 308, the envelope level characteristics are extracted from each envelope. The envelope level characteristics are numerical and / or categorical values associated with the data stored in a single envelope. In step 310, the aggregated characteristics of PNR level are determined for each PNR. The PNR level characteristics are numerical and / or categorical values determined on the basis of the envelope level characteristics extracted from all the available envelopes 302 associated with a PNR. Further details of envelope and PNR extraction and determination are provided in the discussion below referring to Fig. 4.

[0053] A l’étape 312, des procédés d’apprentissage automatique sont employés pour détecter des cas potentiels d’activité frauduleuse connue et/ou inconnue. Les modèles d’apprentissage automatique employés a l’étape de détection de fraude 312 s’exécutent en ligne, en temps réel. La formation 314 de ces modèles est réalisée hors connexion, et les données de configuration des modèles formés sont ensuite transférées au système en ligne. D’autres détails du procédé d’apprentissage automatique employé à l’étape 312 sont fournis dans la discussion ci-dessous faisant référence à la Fig 5.In step 312, machine learning methods are used to detect potential cases of known and / or unknown fraudulent activity. The machine learning models used in fraud detection step 312 run online, in real time. The training 314 of these models is performed offline, and the configuration data of the trained models is then transferred to the online system. Further details of the machine learning process employed in step 312 are provided in the discussion below referring to Fig 5.

[0054] Les résultats du procédé de détection de fraude, p. ex. une classification des activités selon quelles sont ou non potentiellement frauduleuses, est ensuite stockée aux 316 dans une autre base de données 318. La base de données 318 peut être accédée par d’autres processus et systèmes (non illustrés dans le dessin), tels que des générateurs d’alarme et/des applications d’utilisateur final pour faciliter la notification, l’identification, l’investigation et les mesures relatives aux’activités frauduleuses potentielles et aux modes de comportement.The results of the fraud detection method, p. ex. a classification of the activities according to which are or not potentially fraudulent, is then stored at 316 in another database 318. The database 318 can be accessed by other processes and systems (not illustrated in the drawing), such as alarm generators and / or end-user applications to facilitate notification, identification, investigation and action relating to potential fraudulent activity and patterns of behavior.

[0055] La Fig. 4 est un organigramme 400 illustrant d’autres détails de l’extraction de caractéristiques aux niveaux enveloppe et PNR conformément à un mode de réalisation de l’invention en développant les étapes 306, 308 et 310 discutées ci-dessus par référence à la Fig. 3. A l’étape 306, une séquence d’enveloppe validée 402 est sélectionnée dans le stock de données 304, p. ex. sur la base d’un identifiant unique de PNR (Recloc). La séquence 402 qui en résulte comprend des enveloppes ayant un identifiant de PNR commun et une série de numéros séquentiels ordonnée qui peut être utilisée pour récupérer les enveloppes dans l’ordre des modifications validées correspondantes.[0055] FIG. 4 is a flowchart 400 illustrating other details of the extraction of characteristics at the envelope and PNR levels in accordance with an embodiment of the invention by developing steps 306, 308 and 310 discussed above with reference to FIG. 3. In step 306, a validated envelope sequence 402 is selected from the data store 304, p. ex. based on a unique PNR identifier (Recloc). The resulting sequence 402 includes envelopes having a common PNR identifier and an ordered series of sequential numbers which can be used to retrieve the envelopes in the order of the corresponding validated modifications.

[0056] La boucle comprenant les étapes 404, 406, 408 et 410 implémentent le processus 308 d’extraction de caractéristiques de niveau enveloppe pour le PNR sélectionné. A l’étape 404, la prochaine enveloppe dans la séquence 402 est récupérée. Ensuite, à l’étape 406 les caractéristiques de niveau enveloppe sont extraites de cette enveloppe individuelle. A l’étape 408, les données actuelles relatives à la génération de caractéristiques agrégées de niveau PNR peuvent être mises à jour si nécessaire. Dans le cas de caractéristiques numériques de niveau enveloppe, les caractéristiques agrégées qui peuvent inclure des quantités, telles que la moyenne, la somme, la différence, le maximum et/ou le minimum, et des variables utilisées pour calculer ces quantités telles que des comptes, des totaux cumulatifs, un maximum actuel et/ou un minimum actuel, peuvent être actualisées à l’étape 406. Dans le cas de caractéristiques catégoriques de niveau enveloppe, les caractéristiques agrégées peuvent inclure des listes ou des ensembles de valeurs et les variables contenant les valeurs observées peuvent être actualisées à l’étape 406. Une vérification 408 est ensuite effectuée pour déterminer s’il existe d’autres enveloppes non traitées dans la séquence 402 et, le cas échéant, le contrôle revient à l’étape 404 pour la récupération de l’enveloppe suivante. Sinon, le contrôle passe à étape 310 où les valeurs des caractéristiques agrégées de niveau PNR sont calculées ou finalisées.The loop comprising steps 404, 406, 408 and 410 implements the process 308 for extracting envelope level characteristics for the selected PNR. In step 404, the next envelope in sequence 402 is retrieved. Then, in step 406, the envelope level characteristics are extracted from this individual envelope. In step 408, the current data relating to the generation of aggregated characteristics of PNR level can be updated if necessary. In the case of envelope-level numerical characteristics, the aggregated characteristics which may include quantities, such as the mean, sum, difference, maximum and / or minimum, and variables used to calculate these quantities such as accounts , cumulative totals, a current maximum and / or a current minimum, can be updated in step 406. In the case of categorical characteristics of envelope level, the aggregated characteristics can include lists or sets of values and the variables containing the observed values can be updated in step 406. A check 408 is then carried out to determine if there are other unprocessed envelopes in the sequence 402 and, if necessary, the control returns to step 404 for the recovery of the next envelope. Otherwise, the control goes to step 310 where the values of the aggregated characteristics of PNR level are calculated or finalized.

[0057] Pour faciliter l’explication, la description de l’organigramme 400 ci-dessus concerne le traitement d’une séquence d’enveloppes associées à un seul PNR. Cependant, on comprendra que cette approche peut être adaptée pour le traitement d’enveloppes associées à de multiples PNRs sélectionnés à l’étape 306. Par exemple, des enregistrements de caractéristiques d’enveloppes extraites à l’étape 308 et/ou les données agrégées actuelles générées à l’étape 406, pour une pluralité de PNRs auxquels sont associées différentes enveloppes, peuvent être conservés pour de multiples PNRs. Lors de l’achèvement du traitement de toutes les enveloppes disponibles associées à un des PNRs sélectionné, ainsi que déterminé à l’étape de décision 408, les caractéristiques de niveau PNR associées à ce PNR peuvent être calculées et/ou finalisées à l’étape 310, alors qu’un autre traitement des enveloppes restantes, associées aux autres PNRs sélectionnés via les étapes 404, 308 et 406, continue.To facilitate the explanation, the description of the flowchart 400 above relates to the processing of a sequence of envelopes associated with a single PNR. However, it will be understood that this approach can be adapted for the processing of envelopes associated with multiple PNRs selected in step 306. For example, records of characteristics of envelopes extracted in step 308 and / or the aggregated data current generated in step 406, for a plurality of PNRs with which different envelopes are associated, can be kept for multiple PNRs. Upon completion of the processing of all the available envelopes associated with one of the selected PNRs, as determined in decision step 408, the PNR level characteristics associated with this PNR can be calculated and / or finalized in step 310, while another processing of the remaining envelopes, associated with the other PNRs selected via steps 404, 308 and 406, continues.

[0058] La récupération et le traitement d’une série chronologique d’enveloppes validées enregistrant une séquence de modifications dans un PNR survenant à des points temporels particuliers et l’extraction correspondante des caractéristiques de niveau enveloppe et des caractéristiques agrégées de niveau PNR pour usage dans la détection de fraude via des procédés d’apprentissage automatique exemplifiés par l’algorithme illustré par l’organigramme 400 de la Lig. 4 et décrit ci-dessus, comprennent une contribution technique particulière à l’art. Cet algorithme implémenté dans un mode de réalisation exemplaire via les instructions de programmes 114 s’exécutant sur le système de détection de fraude 102 a été développé et configuré spécifiquement pour réaliser l’invention, en fournissant une contribution qui va bien au-delà de l’activité conventionnelle et de la routine bien comprises de l’art de la détection de fraude dans les systèmes de réservation informatique. Les caractéristiques agrégées de niveau PNR capturent des données détaillées relatives à des modes de comportements pendant toute la durée de vie d’un PNR, de la création jusqu’au moment actuel, et fournissent ainsi une source riche en informations résumant l’activité sur une période de temps prolongée. Un mode de réalisation de l’algorithme représenté par l’organigramme 400 représente donc une technologie facilitant l’apport d’améliorations dans la détection de fraude, par exemple lorsqu’elle est couplée à des modèles d’apprentissage automatique en cascade qui vont maintenant être décrits en faisant référence à la Lig. 5.The recovery and processing of a time series of validated envelopes recording a sequence of modifications in a PNR occurring at particular time points and the corresponding extraction of the envelope level characteristics and aggregated PNR level characteristics for use in the detection of fraud via automatic learning methods exemplified by the algorithm illustrated by the organization chart 400 of the Lig. 4 and described above, include a particular technical contribution to art. This algorithm implemented in an exemplary embodiment via the instructions of programs 114 executing on the fraud detection system 102 was developed and configured specifically to carry out the invention, by providing a contribution which goes far beyond the conventional activity and routine well understood in the art of fraud detection in computer reservation systems. PNR-level aggregated characteristics capture detailed data relating to behavioral patterns throughout the lifespan of a PNR, from creation to the present, and thus provide a rich source of information summarizing activity on a extended period of time. An embodiment of the algorithm represented by the flowchart 400 therefore represents a technology facilitating the bringing of improvements in the detection of fraud, for example when it is coupled with cascading machine learning models which will now be described with reference to Lig. 5.

[0059] La Lig. 5 est un organigramme 500 illustrant un procédé d’identification de fraudes connues et inconnues en utilisant des modèles d’apprentissage automatique en cascade selon un mode de réalisation de l’invention.The Lig. 5 is a flow diagram 500 illustrating a method of identifying known and unknown frauds using cascading machine learning models according to an embodiment of the invention.

[0060] A l’étape 502, les caractéristiques agrégées de niveau PNR et les identifiants de PNR associés (Recloc) sont reçus. Ces caractéristiques et identifiants sont dérivés en temps réel de l’alimentation d’enveloppes validées 302, via le stock de données 304 et elles comprennent les entrées faites à l’étape de détection d’apprentissage supervisé 504. Le produit de l’étape d’apprentissage supervisé 504 comprend un label associé à chaque PNR indiquant soit qu’aucune fraude connue n’a été détectée, ou dans le cas d’une détection de fraude, un identifiant associé à une fraude spécifique connue et détectée.In step 502, the aggregated PNR level characteristics and the associated PNR identifiers (Recloc) are received. These characteristics and identifiers are derived in real time from the supply of validated envelopes 302, via the data store 304 and they include the inputs made in the supervised learning detection step 504. The product of step d supervised learning 504 includes a label associated with each PNR indicating either that no known fraud has been detected, or in the case of fraud detection, an identifier associated with a specific known and detected fraud.

[0061] L’étape de détection d’apprentissage supervisé 504 est implémentée via un module d’apprentissage automatique supervisé comprenant le code 114 qui s’exécute sur le serveur de détection de fraude 102 représentant un ensemble d’un ou de plusieurs algorithmes d’apprentissage automatique supervisé formés pour détecter des modes frauduleux spécifiques. La formation est effectuée via un processus hors connexion 506 en utilisant un ensemble de données labellisées 508 comprenant des échantillons de séquences d’enveloppe et/ou de caractéristiques de niveau PNR correspondant à des types spécifiques d’activité frauduleuse précédemment observés et identifiés.The supervised learning detection step 504 is implemented via a supervised automatic learning module comprising the code 114 which is executed on the fraud detection server 102 representing a set of one or more algorithms d supervised machine learning trained to detect specific fraudulent modes. The training is carried out via an offline process 506 using a set of labeled data 508 comprising samples of envelope sequences and / or PNR level characteristics corresponding to specific types of fraudulent activity previously observed and identified.

[0062] La formation 506 comprend la division de l’ensemble de données 508 en ensembles de formation et de tests. L’ensemble de formation est utilisé pour former un ou plusieurs modèles d’apprentissage automatique supervisé basés sur des algorithmes différents afin de détecter chaque type de fraude connu. Les modes de formation résultants sont testés par rapport à l’ensemble de test et sont comparés sur la base au moins d’une mesure de performance. Dans un mode de réalisation exemplaire, la précision et le rappel sont utilisés comme des mesures de performance. Ces deux pa ramètres fournissent une évaluation quantitative de la précision de la phase de formation qui est utilisée pour choisir le meilleur algorithme pour chaque type de fraude identifié.Training 506 includes dividing data set 508 into training and testing sets. The training set is used to train one or more supervised machine learning models based on different algorithms to detect each known type of fraud. The resulting training modes are tested against the test set and are compared based on at least one performance measure. In an exemplary embodiment, precision and recall are used as performance measures. These two parameters provide a quantitative assessment of the accuracy of the training phase which is used to choose the best algorithm for each type of fraud identified.

[0063] Pour identifier de multiples types de fraude, des modes de réalisation de l’invention utilisent deux approches alternatives. Dans une première approche, un algorithme dédié peut être sélectionné et un modèle peut être formé pour chaque type de fraude. Dans ce cas, la détection de multiples types de fraude peut être effectuée en parallèle. Dans une deuxième approche, un seul algorithme peut être sélectionné et un modèle peut être formé pour de multiples types de fraude, p. ex. en utilisant une stratégie un envers tous. Des modes de réalisation de l’invention peuvent combiner ces deux approches à la fois.To identify multiple types of fraud, embodiments of the invention use two alternative approaches. In a first approach, a dedicated algorithm can be selected and a model can be formed for each type of fraud. In this case, the detection of multiple types of fraud can be carried out in parallel. In a second approach, a single algorithm can be selected and a model can be formed for multiple types of fraud, e.g. ex. using a one-to-all strategy. Embodiments of the invention can combine these two approaches at the same time.

[0064] Dans un mode de réalisation particulier employant un groupement de nœuds de calcul (dans lequel chaque nœud peut être similaire au nœud exemplaire 102 décrit précédemment) la structure distribuée de calcul de groupements à usage général Apache Spark est déployée pour implémenter le module d’apprentissage automatique. Un éventail d’algorithmes peut être employé pour les modèles d’apprentissage automatique supervisé en fonction de la performance de formation/test décrite ci-dessus, en incluant des arbres de décisions, des forêts aléatoires, la classification [baïve] Bayes, la régression logistique, le voisin le plus proche et des modèles de réseaux neuraux tels que perceptron multicouches. Cette liste n’est pas censée être limitative et d’autres algorithmes d’apprentissage supervisé peuvent être utilisés dans d’autres modes de réalisation de l’invention.In a particular embodiment employing a grouping of calculation nodes (in which each node can be similar to the exemplary node 102 described above) the distributed structure for calculating groupings for general use Apache Spark is deployed to implement the module d machine learning. A range of algorithms can be used for supervised machine learning models based on the training / test performance described above, including decision trees, random forests, Bayes classification, regression logistics, the nearest neighbor and neural network models such as multilayer perceptron. This list is not intended to be limiting and other supervised learning algorithms can be used in other embodiments of the invention.

[0065] A l’étape de décision 510, si l’étape de détection d’apprentissage supervisé 504 a classé le PNR entré comme étant frauduleux, l’algorithme 500 prend fin avec pour résultat le type de fraude identifié. Sinon l’exécution se poursuit à l’étape 512 de détection d’apprentissage non supervisé.In decision step 510, if the supervised learning detection step 504 has classified the entered PNR as being fraudulent, the algorithm 500 ends with the result of the type of fraud identified. Otherwise, execution continues at step 512 of detection of unsupervised learning.

[0066] Les entrées à l’étape 512 de détection d’apprentissage non supervisé comprennent les identifiants (Redoes) et les caractéristiques agrégées de niveau PNR associées qui n’ont pas été catégorisées comme fraudes connues par le module d’apprentissage automatique à l’étape 504. Ces entrées sont fournies en temps réel, faisant suite à l’étape de décision 510. Le produit comprend un label associé à chaque PNR indiquant soit que l’activité associée semble normale, soit qu’elle représente un cas atypique (ou anormal) indiquant potentiellement un comportement frauduleux.The inputs to step 512 of detection of unsupervised learning include the identifiers (Redoes) and the associated characteristics of PNR level which have not been classified as known frauds by the machine learning module at step 504. These inputs are provided in real time, following decision step 510. The product includes a label associated with each PNR indicating either that the associated activity seems normal, or that it represents an atypical case ( or abnormal) potentially indicating fraudulent behavior.

[0067] L’étape d’apprentissage non supervisé 512 est implémentée via un module d’apprentissage automatique non supervisé comprenant le code 114 qui s’exécute sur le serveur de détection de fraude 102, représentant un ensemble d’un ou de plusieurs algorithmes d’apprentissage automatique non supervisé, configurés pour identifier automatiquement les statistiques et les tendances générales et en conséquence pour mettre en évidence les modes anormaux ou atypiques dans les caractéristiques agrégées de niveau PNR. Un cas atypique, dans ce contexte, comprend un échantillon d’entrées qui se distinguent de la majorité des données considérées comme ‘ normales’ ou non frauduleuses. Le module d’apprentissage non supervisé peut comprendre un ou plusieurs algorithmes. Les produits de multiples algorithmes peuvent être combinés via une moyenne pondérée afin d’affiner la détection de cas atypiques. Dans des modes de réalisation de l’invention, le résultat est une notation représentant un degré de distinction de l’échantillon d’entrée (c.-à-d. atypique ou anormal) par rapport à la masse des échantillons ’normaux’. Un seuil, ou autre critère de décision peut être appliqué à la notation, ou pour attribuer un label ‘ normal ’ ou ‘ atypique ’.The unsupervised learning step 512 is implemented via an unsupervised automatic learning module comprising the code 114 which is executed on the fraud detection server 102, representing a set of one or more algorithms Unsupervised machine learning, configured to automatically identify statistics and general trends and accordingly to highlight abnormal or atypical modes in PNR level aggregated characteristics. An atypical case, in this context, includes a sample of entries that differ from most of the data considered to be "normal" or non-fraudulent. The unsupervised learning module can include one or more algorithms. Products from multiple algorithms can be combined via a weighted average to refine the detection of atypical cases. In embodiments of the invention, the result is a notation representing a degree of distinction of the input sample (i.e., atypical or abnormal) from the mass of the "normal" samples. A threshold, or other decision criterion can be applied to the rating, or to assign a label "normal" or "atypical".

[0068] La configuration 514 du module d’apprentissage non supervisé peut comprendre l’évaluation de la performance d’une pluralité d’algorithmes candidats et/ou de paramètres associés en utilisant l’ensemble de données 508 pour identifier ceux qui sont le plus efficaces pour classer correctement des échantillons correspondant aux activités frauduleuses comme étant atypiques (vrais positifs) tout en minimisant les cas de classification erronée d’échantillons normaux comme étant atypiques (faux positifs) et des échantillons frauduleux comme étant normaux (faux négatifs). Dans un mode de réalisation de l’invention, l’algorithme d’apprentissage non supervisé implémenté en utilisant la technologie Apache Spark inclut la détection d’anomalies gaussiennes, le score z et des modèles de combinaisons gaussiennes. Cette liste n’est pas censée être limitative et d’autres algorithmes d’apprentissage supervisé peuvent être utilisés dans d’autres modes de réalisation de l’invention.The configuration 514 of the unsupervised learning module can comprise the evaluation of the performance of a plurality of candidate algorithms and / or of associated parameters by using the data set 508 to identify those which are the most effective in correctly classifying samples of fraudulent activity as atypical (true positive) while minimizing cases of misclassification of normal samples as atypical (false positive) and fraudulent samples as normal (false negative). In one embodiment of the invention, the unsupervised learning algorithm implemented using Apache Spark technology includes detection of Gaussian anomalies, z score and Gaussian combination models. This list is not intended to be limiting and other supervised learning algorithms can be used in other embodiments of the invention.

[0069] A l’étape de décision 516, si l’étape de détection 504 d’apprentissage non supervisé a identifié le PNR entré comme étant atypique et donc potentiellement frauduleux, l’algorithme produit une indication ‘ atypique ’ et prend fin. Autrement, l’algorithme produit une indication ‘ normal ’ (c.-à-d. non frauduleuse) avant de terminer.In decision step 516, if the detection step 504 of unsupervised learning has identified the entered PNR as being atypical and therefore potentially fraudulent, the algorithm produces an "atypical" indication and ends. Otherwise, the algorithm produces a ‘normal’ (i.e. non-fraudulent) indication before finishing.

[0070] Le déploiement de modèles d’apprentissage automatique en cascade (c.-à-d. d’apprentissage supervisé à l’étape 504 et d’apprentissage non supervisé à l’étape 508, exemplifié par l’algorithme illustré par l’organigramme 500 de la Fig. 5 et décrit cidessus) comprend une autre contribution technique particulière à l’art. Cet algorithme implémenté dans un mode de réalisation exemplaire via les instructions de programmes 114 s’exécutant sur le système de détection de fraude 102 a été développé et configuré spécifiquement pour que l’invention soit réalisée, en fournissant une contribution qui va bien au-delà de l’activité conventionnelle et de la routine bien comprise de l’art de la détection de fraude dans les systèmes de réservation informatique. Le module d’apprentissage supervisé exemplaire comprenant un ou plusieurs modèles formés à l’étape 516 et exécutés à l’étape 504 est configuré pour apprendre, détecter et classifier des modes frauduleux connus. Le module d’apprentissage non supervisé exemplaire comprenant un plusieurs modèles formés à l’étape 518 et exécutés à l’étape 508 est configuré pour identifier des anomalies ou des cas atypiques représentant des modes potentiellement frauduleux inconnus. Des modes de réalisation de l’invention sont donc capables de fournir une flexibilité dans la détection et la prévention à la fois de modes de comportement frauduleux connus et inconnus, précédemment indétectés, dans des systèmes de réservation informatiques, sans nécessiter la création et la maintenance d’ensembles de règles complexes.The deployment of cascading machine learning models (ie supervised learning in step 504 and unsupervised learning in step 508, exemplified by the algorithm illustrated by l flowchart 500 of Fig. 5 and described above) includes another specific technical contribution to art. This algorithm implemented in an exemplary embodiment via the instructions of programs 114 executing on the fraud detection system 102 has been developed and configured specifically for the invention to be carried out, by providing a contribution which goes far beyond conventional activity and the well-understood routine of the art of fraud detection in computer reservation systems. The exemplary supervised learning module comprising one or more models formed in step 516 and executed in step 504 is configured to learn, detect and classify known fraudulent modes. The exemplary unsupervised learning module comprising one of several models formed in step 518 and executed in step 508 is configured to identify anomalies or atypical cases representing unknown potentially fraudulent modes. Embodiments of the invention are therefore capable of providing flexibility in the detection and prevention of both known and unknown modes of fraudulent behavior, previously undetected, in computer reservation systems, without requiring creation and maintenance. complex sets of rules.

[0071] Sans limiter la portée de l’invention, un nombre d’éléments de données exemplaires de niveau enveloppe disponibles pour l’extraction de caractéristiques au niveau de l’enveloppe sont définis dans le tableau suivant 1 ainsi que les caractéristiques agrégées associées de niveau PNR qui peuvent être calculées à partir des caractéristiques de niveau enveloppe. Ces caractéristiques ont été conçues par les présents inventeurs pour une utilisation dans un mode de réalisation de l’invention basée sur l’expérience, l’intuition, les essais et l’expérimentation afin d’atteindre une bonne performance dans la détection de fraude automatisée dans un système de réservation de voyage concret. La conception et l’ingénierie des caractéristiques efficaces dans le but de former des modèles d’apprentissage automatique et d’exécuter les modèles formés pour une détection efficace des activités frauduleuses se sont révélées être une contribution substantielle à la performance des modes de réalisation de l’invention pour atteindre l’objectif technique d’une détection de fraude automatisée réussie. Par souci de facilité et de clarté, les données et les caractéristiques correspondantes sont groupées selon un élément de l’enveloppe et du PNR auquel elles sont liées. Les codes d’état et de terminologie concernent en particulier le système GDS Amadeus, cependant on comprendra que des données similaires et/ou équivalentes sont disponibles dans d’autres systèmes de réservation informatique et que les caractéristiques listées dans le tableau 1 peuvent être adaptées en conséquence et ne se limitent pas à un seul système.Without limiting the scope of the invention, a number of exemplary envelope level data elements available for extracting characteristics at the envelope level are defined in the following table 1 as well as the associated aggregated characteristics of PNR level which can be calculated from the envelope level characteristics. These characteristics were designed by the present inventors for use in an embodiment of the invention based on experience, intuition, testing and experimentation in order to achieve good performance in the detection of automated fraud. in a concrete travel reservation system. The design and engineering of effective features in order to form machine learning models and to execute the models trained for effective detection of fraudulent activities has been shown to be a substantial contribution to the performance of embodiments of the invention to achieve the technical objective of successful automated fraud detection. For ease and clarity, the data and the corresponding characteristics are grouped according to an element of the envelope and the PNR to which they are linked. The status and terminology codes relate in particular to the Amadeus GDS system, however it will be understood that similar and / or equivalent data are available in other computer reservation systems and that the characteristics listed in table 1 can be adapted in consequence and are not limited to a single system.

[0072][0072]

[Tableaux [Tableaux 1]][Tables [Tables 1]]

Element Element Caractéristique-élément de Feature-element of Caractéristiques agrégées de niveau PNR PNR level aggregated characteristics niveau Enveloppe Envelope level Enveloppe Envelope Date et heure de création Date and time of creation Temps total écoulé entre la création de la première et de la dernière enveloppe dans l’historique du PNR Total time between the creation of the first and the last envelope in the PNR history Addition ‘d’élément ES’ (structure de donnée créée lors de l’attribution de droits au PNR à un autre service) Addition of ES ES element ’(data structure created when PNR rights were assigned to another service) Nombre total d’éléments ES ajoutés à l’historique du PNR Total number of ES elements added to PNR history Division du PNR (dans lequel un PNR est divisé, avec des passagers et des éléments liés répartis entre des divisions correspondantes de PNRs et des informations communes copiées à partir de PNRs originaux dans de nouveaux PNRs) PNR Division (into which a PNR is divided, with passengers and related elements divided between corresponding PNR divisions and common information copied from original PNRs into new PNRs) Nombre total de divisions dans l’historique du PNR Total number of divisions in PNR history Réplication de PNR (dans lequel un nouveau PNR est créé, initialement identique au PNR original, pour qu’il soit associé à de nouveaux passagers) PNR replication (in which a new PNR is created, initially identical to the original PNR, so that it is associated with new passengers) Nombre total de réplications dans l’historique du PNR Total number of replications in the PNR history Passager Passenger Nombre de passagers dans le PNR Number of passengers in the PNR Nombre final de passagers à la fin de l’historique du PNR Final number of passengers at the end of PNR history Addition de passager Addition of passenger Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de nom de passager Change of passenger name Nombre total de modifications de noms dans l’historique du PNR Total number of name changes in PNR history Suppression de passager Passenger removal Nombre total de suppressions dans l’historique du PNR Total number of deletions in the PNR history

Point de vente Point of sale Propriétaire du PNR PNR owner Propriétaire à la fin de l’historique du PNR Owner at the end of PNR history Créateur du PNR PNR creator Créateur à la fin de l’historique du PNR Creator at the end of PNR history Utilisateur auteur d’une mise à jour User author of an update Dernier utilisateur auteur d’une mise à jour à la fin de l’historique du PNR Last user author of an update at the end of PNR history Liste des utilisateurs ayant effectué une mise à jour dans l’historique du PNR List of users who have updated PNR history Heure de la mise à jour Update time Liste d’horodatages de mises à jour dans l’historique du PNR List of timestamps of updates in PNR history Organisme effectuant la mise à jour Organization performing the update Liste des organismes ayant effectué une mise à jour dans l’historique du PNR List of organizations that have updated the PNR history

Segment (segment de vol uniquement) Segment (flight segment only) Nombre de segments dans le PNR Number of segments in the PNR Nombre final de segments à la fin de l’historique du PNR Final number of segments at the end of PNR history Ajout de segments Adding segments Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de segments Editing segments Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Annulation de segments Cancellation of segments Nombre total d’annulations dans l’historique du PNR (utilisé uniquement si différent de zéro) Total number of cancellations in PNR history (used only if different from zero) Temps écoulé entre le départ d’un vol ajouté et l’heure de création d’une enveloppe Time elapsed between the departure of an added flight and the time of creation of an envelope Temps minimum dans l’historique du PNR Minimum time in PNR history Ratio du nombre final de segments par rapport au nombre total d’ajouts (fixé à 1.0 s’il n’y a pas d’ajout). Ratio of the final number of segments to the total number of additions (fixed at 1.0 if there is no addition). Ratio du nombre total de modifications aux segments « non productifs » par rapport au nombre total d’ajouts (fixé à 0.0 s’il n’y a pas d’ajout) Ratio of the total number of modifications to the “non-productive” segments compared to the total number of additions (fixed at 0.0 if there is no addition) Segments confirmés (segments de vol uniquement, état des segments dans HK, TK, KK, RR) Confirmed segments (flight segments only, segment status in HK, TK, KK, RR) Nombre de segments confirmés dans le PNR Number of segments confirmed in the PNR Nombre final de segments confirmés à la fin de l’historique du PNR Final number of confirmed segments at the end of PNR history Ajout de segments confirmés Adding confirmed segments Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de segment confirmé Confirmed segment modification Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Annulation de segment confirmé Confirmed segment cancellation Nombre total d’annulations dans l’historique du PNR (utilisé uniquement si différent de zéro) Total number of cancellations in PNR history (used only if different from zero)

Segments en suspens (segments de vol uniquement, état des segments dans HN, TN, PN) Pending segments (flight segments only, segment status in HN, TN, PN) Nombre de segments en suspens dans le PNR Number of outstanding segments in the PNR Nombre final de segments en suspens à la fin de l’historique du PNR Final number of outstanding segments at the end of PNR history Ajout de segment en suspens Addition of pending segment Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de segment en suspens Pending segment modification Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Annulation de segment en suspens Pending segment cancellation Nombre total d’annulations dans l’historique du PNR (utilisé uniquement si différent de zéro) Total number of cancellations in PNR history (used only if different from zero) Segments fantômes (segments de vol uniquement, état des segments dans GK, GN, GL) Phantom segments (flight segments only, segment status in GK, GN, GL) Nombre total de segments fantômes dans le PNR Total number of phantom segments in the PNR Nombre final de segments fantômes à la fin de l’historique du PNR Final number of ghost segments at the end of PNR history Ajout de segment fantôme Addition of ghost segment Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de segment fantôme Phantom segment modification Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Annulation de segment fantôme Phantom segment cancellation Nombre total d’annulations dans l’historique du PNR (utilisé uniquement si différent de zéro) Total number of cancellations in PNR history (used only if different from zero) Segments en liste d’attente (segments de vol uniquement, état des segments dans HL, TL, UU, US) Waiting list segments (flight segments only, segment status in HL, TL, UU, US) Nombre total de segments en liste d’attente dans le PNR Total number of waiting list segments in PNR Nombre final de segments en liste d’attente à la fin de l’historique du PNR Final number of waiting list segments at the end of PNR history Ajout de segment en liste d’attente Adding segment to waiting list Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de segment en liste d’attente Modification of segment in waiting list Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Annulation de segment en liste d’attente Waiting segment cancellation Nombre total d’annulations dans l’historique du PNR (utilisé uniquement si différent de zéro) Total number of cancellations in PNR history (used only if different from zero)

Segments passifs (segments de vol uniquement, état des segments dans PK, PL) Passive segments (flight segments only, segment status in PK, PL) Nombre de segments passifs dans le PNR Number of passive segments in the PNR Nombre final de segments passifs à la fin de l’historique du PNR Final number of passive segments at the end of the PNR history Ajout de segments confirmés Adding confirmed segments Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de segment confirmé Confirmed segment modification Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Annulation de segment confirmé Confirmed segment cancellation Nombre total d’annulations dans l’historique du PNR (utilisé uniquement si différent de zéro) Total number of cancellations in PNR history (used only if different from zero) Union (c.-à-d. des segments qui sont couplés et vendus ensemble) Union (i.e. segments that are paired and sold together) Nombre de segments unis Number of united segments Nombre final de segments unis à la fin de l’historique du PNR Final number of segments united at the end of PNR history Horaire limite pour l’émission de billet du segment (l’heure d’expiration est fixée lorsqu’un élément facturable est réservé ; la réservation est annulée si l’heure limite est atteinte ; l’heure d’expiration peut être réactivée ou annulée) Deadline for ticket issuance in the segment (expiration time is set when a billable item is booked; reservation is canceled if deadline is reached; expiration time can be reactivated or canceled ) Liste des IDs de compagnies aériennes et valeurs d’expiration List of airline IDs and expiration values Ajout d’une heure limite Addition of a time limit Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de l’heure limite Modification of the cut-off time Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Heure limite d’annulation Cancellation deadline Nombre total d’annulations dans l’historique du PNR (utilisé uniquement si différent de zéro) Total number of cancellations in PNR history (used only if different from zero) Nombre maximum de fois où la valeur de l’heure limite d’une compagnie aérienne augmente dans l’historique du PNR Maximum number of times an airline’s cut-off time value increases in PNR history Nombre de fois où l’heure limite la plus proche (minimum) augmente Number of times the closest (minimum) cut-off time increases Nombre de fois où l’heure limite la plus récente (maximum) augmente Number of times the most recent (maximum) cut-off time increases

Émission de billets de segment Issuance of segment tickets Nombre de billets de segments dans le PNR Number of segment tickets in the PNR Nombre final de billets de segments à la fin de l’historique du PNR Final number of segment tickets at the end of PNR history Ajout de billet de segment Add segment ticket Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de billet de segment Modification of segment ticket Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Modification d’associations de billets de segment Modification of segment ticket associations Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Annulation de billet de segment Cancellation of segment ticket Nombre total d’annulations dans l’historique du PNR Total number of cancellations in PNR history Ratio du nombre final de billets de segments par rapport au nombre d’ajouts (fixé à 1.0 s’il n’y a pas d’ajouts) Ratio of the final number of segment tickets to the number of additions (fixed at 1.0 if there are no additions) Ratio du nombre total d’ajouts par rapport au nombre final de passagers (fixé à 0.0 s’il n’y a pas de passagers) Ratio of the total number of additions to the final number of passengers (fixed at 0.0 if there are no passengers) Service (SSR) (services SSR facturables uniquement) Service (SSR) (billable SSR services only) Nombre de SSRs dans le PNR Number of SSRs in the PNR Nombre final de SSRs à la fin de l’historique du PNR Final number of SSRs at the end of PNR history Ajout de SSR Addition of SSR Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de SSR Modification of SSR Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Annulation de SSR Cancellation of SSR Nombre total d’annulations dans l’historique du PNR Total number of cancellations in PNR history Carte de fidélité (loyauté) de membres (SSR FQTV) Loyalty card (loyalty) of members (SSR FQTV) Nombre de SSR FQTV dans le PNR Number of FQTV SSRs in the PNR Nombre final de SSR FQTV à la fin de l’historique du PNR Final number of SSR FQTV at the end of PNR history Ajout de SSR FQTV Addition of SSR FQTV Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Suppression de SSR FQTV SSR FQTV removal Nombre total de suppressions dans l’historique du PNR Total number of deletions in PNR history

Émission de billet de service Service ticket issuance Nombre de billets émis pour des services dans le PNR Number of tickets issued for services in the PNR Nombre final de billets émis pour des services à la fin de l’historique du PNR Final number of tickets issued for services at the end of the PNR history Ajout de billet de service Adding a service ticket Nombre total d’ajouts dans l’historique du PNR Total number of additions to PNR history Modification de billets de service Modification of service tickets Nombre total de modifications dans l’historique du PNR Total number of changes in PNR history Annulation de billets de service Cancellation of service tickets Nombre total d’annulations dans l’historique du PNR Total number of cancellations in PNR history Forme de paiement (p. ex. espèce, carte de crédit, etc. ; des comptes sont tenus pour chaque forme de paiement) Form of payment (e.g. cash, credit card, etc.; accounts are maintained for each form of payment) Nombre de paiements pour chaque forme Number of payments for each form Nombre(s) final de paiements pour chaque forme à la fin de l’historique du PNR Final number (s) of payments for each form at the end of the PNR history Ajout de forme de paiement Add form of payment Nombre(s) total d’ajouts dans l’historique du PNR Total number (s) of additions to PNR history Modification de forme de paiement Payment form modification Nombre(s) total de modifications dans l’historique du PNR Total number (s) of changes in PNR history Annulation de forme de paiement Cancellation of form of payment Nombre(s) d’annulations dans l’historique du PNR Number (s) of cancellations in the PNR history Forme de paiement ne nécessitant pas de vérifications (p. ex. espèces, chèque, factures, etc. ; comptes tenus pour chaque forme de paiement) Form of payment that does not require verification (e.g. cash, check, invoices, etc.; accounts maintained for each form of payment) Nombre de paiements pour chaque forme Number of payments for each form Nombre(s) final de paiements pour chaque forme à la fin de l’historique du PNR Final number (s) of payments for each form at the end of the PNR history Ajout de forme de paiement Add form of payment Nombre(s) total d’ajouts dans l’historique du PNR Total number (s) of additions to PNR history Modification de forme de paiement Payment form modification Nombre(s) total de modifications dans l’historique du PNR Total number (s) of changes in PNR history Annulation de forme de paiement Cancellation of form of payment Nombre(s) total d’annulations dans l’historique du PNR Total number (s) of cancellations in PNR history Séquence d’actions du PNR Sequence of actions of PNR Liste des activités, ou chaque activité comprend : un type d’action (p. ex. ajout, annulation, modification...) ; un type d’éléments (p. ex. passagers, segment, billets, services...) et un sous-type optionnel List of activities, where each activity includes: a type of action (e.g. adding, canceling, modifying ...); a type of elements (e.g. passengers, segment, tickets, services ...) and an optional subtype Liste d’activités agrégées, séparées par des actions EOT List of aggregated activities, separated by EOT actions

Autre type de segment de voyage (p. ex. train, hôtel, voiture ; comptes tenus pour chaque type de segment) Other type of travel segment (e.g. train, hotel, car; accounts maintained for each type of segment) Nombre de segments pour chaque type dans le PNR Number of segments for each type in the PNR Nombre(s) final de segments pour chaque type à la fin de l’historique du PNR Final number (s) of segments for each type at the end of PNR history Ajout de segment Add segment Nombre(s) total d’ajouts dans l’historique du PNR Total number (s) of additions to PNR history Modification de segment Edit segment Nombre(s) total de modifications dans l’historique du PNR Total number (s) of changes in PNR history Annulation de segments Cancellation of segments Nombre total d’annulations dans l’historique du PNR (utilisé uniquement si différent de zéro) Total number of cancellations in PNR history (used only if different from zero)

[0073] On notera que bien que des modes de réalisation particuliers et des variations de l’invention ont été décrits dans les présentes, d’autres modifications et alternatives seront apparentes aux hommes de métier spécialisés dans les arts pertinents. En particulier, les exemples sont offerts dans le but d’illustrer les principes de l’invention et pour fournir un nombre de procédés et d’arrangements spécifiques pour mettre en œuvre ces principes. De façon générale, les modes de réalisation de l’invention reposent sur l’apport d’aménagements techniques par lesquels les caractéristiques sont extraites et/ou calculées à partir de séquences historiques d’actions enregistrées en association aux enregistrements de réservations dans un système de réservations informatique (p. ex. les caractéristiques de niveau PNR dérivées des caractéristiques de niveau enveloppe dans un GDS) et employées pour la formation et l’évaluation de modèles d’apprentissage automatique supervisé et non supervisé afin de détecter à la fois des cas de types d’activité frauduleuse connus (c.-à-d. identifiés précédemment) ou des types d’activité frauduleuse inconnus. Les modifications et variations des modes de réalisation de l’invention peuvent donc inclure l’addition et/ou la substitution d’autres caractéristiques, au niveau des actions individuelles ainsi qu’au niveau agrégé et/ou l’utilisation d’algorithmes d’apprentissage automatique supervisé supplémentaires ou alternatifs et d’algorithmes d’apprentissage automatique non supervisé, à ceux qui sont divulgués dans les présentes.Note that although particular embodiments and variations of the invention have been described herein, other modifications and alternatives will be apparent to those skilled in the art of the relevant arts. In particular, the examples are offered for the purpose of illustrating the principles of the invention and to provide a number of specific methods and arrangements for implementing these principles. In general, the embodiments of the invention are based on the provision of technical arrangements by which the characteristics are extracted and / or calculated from historical sequences of actions recorded in association with the booking records in a reservation system. computer reservations (e.g. PNR level characteristics derived from envelope level characteristics in a GDS) and used for training and evaluation of supervised and unsupervised machine learning models to detect both cases of known types of fraudulent activity (i.e. previously identified) or unknown types of fraudulent activity. The modifications and variations of the embodiments of the invention may therefore include the addition and / or substitution of other characteristics, at the level of individual actions as well as at the aggregate level and / or the use of algorithms. additional or alternative supervised machine learning and unsupervised machine learning algorithms, to those disclosed herein.

[0074] Les résultats des agencements techniques mettant en œuvre l’invention, c.-à-d. les résultats du processus de détection de fraude, peuvent être utilisés dans un éventail de processus et de systèmes techniques associés tels que la génération d’alarmes automatiques et/ou l’écran d’interface du logiciel d’application, afin de faciliter la notification, l’identification, l’investigation et les mesures prises relatives à des modes de comportements et d’activités frauduleuses potentielles. Cependant, on comprendra par la description précédente que les modes de réalisation de l’invention visent à améliorer la détection automatisée d’activité frauduleuse et non des usages subséquents en aval de l’information qui en résulte et par conséquent que ces applications ne sont pas exhaustives quant à l’usage potentiel de l’invention.The results of the technical arrangements implementing the invention, that is to say. the results of the fraud detection process, can be used in a range of processes and associated technical systems such as the generation of automatic alarms and / or the application software interface screen, in order to facilitate notification , identification, investigation and measures taken relating to patterns of behavior and potential fraudulent activities. However, it will be understood from the preceding description that the embodiments of the invention aim to improve the automated detection of fraudulent activity and not of the subsequent uses downstream of the information which results therefrom and therefore that these applications are not exhaustive as to the potential use of the invention.

[0075] Les modes de réalisation décrits doivent être compris comme étant fournis à titre exemplaire dans le but d’enseigner les caractéristiques et les principes généraux de l’invention, mais ne doivent pas être interprétés comme limitant la portée de l’invention.The embodiments described should be understood as being provided on an exemplary basis for the purpose of teaching the characteristics and general principles of the invention, but should not be interpreted as limiting the scope of the invention.

Claims (1)

Revendications Claims [Revendication 1] [Claim 1] Un procédé pour la détection d’activité frauduleuse associée à un enregistrement de réservation dans un système de réservation informatique, le procédé comprenant : la récupération, dans un stock de données, d’une série d’enregistrements historiques capturant les modifications effectués sur un enregistrement de réservation au cours d’une période ; le traitement des enregistrements historiques pour déterminer une pluralité de valeurs de caractéristiques comprenant des données caractérisant un mode des modifications effectuées dans l’enregistrement de réservation au cours de la période ; l’évaluation d’un premier modèle d’apprentissage automatique utilisant les valeurs de caractéristiques pour obtenir une première valeur de classification de fraude, dans laquelle le premier modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage supervisé et est formé pour identifier un ou plusieurs types d’activité frauduleuse identifiés précédemment ; l’évaluation d’un deuxième modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une deuxième valeur de classification de fraude, dans laquelle le deuxième modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage non supervisé et est configuré pour identifier des modes anormaux de valeurs de caractéristiques correspondant à des types d’activité frauduleuse non identifiés précédemment ; et la génération d’une indication d’activité frauduleuse associée à l’enregistrement de réservation qui comprend au moins une de la première valeur de classification de fraude et de la deuxième valeur de classification de fraude. A method for detecting fraudulent activity associated with a reservation record in a computer reservation system, the method comprising: retrieving from a data store a series of historical records capturing the modifications made to a reservation record during a period; the processing of historical records to determine a plurality of characteristic values comprising data characterizing a mode of the modifications made in the reservation record during the period; evaluating a first machine learning model using the characteristic values to obtain a first fraud classification value, wherein the first machine learning model is based on a supervised learning algorithm and is trained to identify one or more types of fraudulent activity identified previously; evaluating a second machine learning model using the characteristic values to obtain a second fraud classification value, in which the second machine learning model is based on an unsupervised learning algorithm and is configured to identify abnormal patterns of characteristic values corresponding to types of fraudulent activity not previously identified; and generating a fraudulent activity indication associated with the reservation record that includes at least one of the first fraud classification value and the second fraud classification value. [Revendication 2] [Claim 2] Le procédé selon la revendication 1 dans lequel chaque enregistrement historique dans les séries enregistre un état de l’enregistrement de réservation à un point temporel correspondant au cours d’une période et le traitement des enregistrements historiques comprend : l’extraction, de chaque enregistrement historique des données de série caractérisant un ou plusieurs éléments de l’enregistrement de réservation au point temporel correspondant ; le traitement des données de série pour générer des données agrégées caractérisant un mode des modifications effectuées à un ou plusieurs The method of claim 1 wherein each historical record in the series records a state of the reservation record at a corresponding time point during a period and processing the historical records comprises: extracting from each historical record serial data characterizing one or more elements of the reservation record at the corresponding time point; the processing of serial data to generate aggregated data characterizing a mode of modifications made to one or more
éléments de l’enregistrement de réservation au cours d’une période ; et la détermination de la pluralité des valeurs de caractéristiques sur la base des données agrégées. elements of the reservation record during a period; and determining the plurality of characteristic values based on the aggregated data. [Revendication 3] [Claim 3] Le procédé selon la revendication 1 ou la revendication 2 dans lequel le système informatique de réservation est un système de distribution global, l’enregistrement de réservation est un enregistrement de nom de passager et la série des enregistrements historiques comprend un ensemble d’enveloppes chacune d’elles comprenant un enregistrement d’informations validées de l’enregistrement de nom de passager à un point temporel correspondant. The method of claim 1 or claim 2 wherein the reservation computer system is a global distribution system, the reservation record is a passenger name record and the series of historical records comprises a set of envelopes each 'including a record of validated information from the registration of passenger name at a corresponding time point. [Revendication 4] [Claim 4] Le procédé selon l’une quelconque des revendications 1 à 3 dans lequel le premier modèle d’apprentissage automatique est formé en utilisant un procédé comprenant : l’apport d’un ensemble de données labellisées comprenant des échantillons d’enregistrements historiques et/ou de valeurs de caractéristiques associées à un ou plusieurs types d’activité frauduleuse précédemment observés ; la division de l’ensemble de données labellisées en ensembles de formation et de test ; la formation d’au moins un modèle candidat d’apprentissage automatique supervisé en utilisant l’ensemble de formation pour détecter chaque type d’activité frauduleuse observé précédemment ; pour chaque modèle candidat d’apprentissage automatique supervisé formé, le calcul d’une mesure de performance en utilisant l’ensemble de test ; et pour chaque type d’activité frauduleuse observé précédemment, la sélection d’un modèle candidat correspondant d’apprentissage automatique basé sur la mesure de performance. The method according to any one of claims 1 to 3 in which the first machine learning model is formed using a method comprising: providing a set of labeled data comprising samples of historical records and / or characteristic values associated with one or more types of fraudulent activity previously observed; the division of the labeled data set into training and test sets; training at least one supervised machine learning candidate model using the training set to detect each type of fraudulent activity observed previously; for each candidate supervised machine learning model trained, calculating a performance measure using the test set; and for each type of fraudulent activity observed previously, the selection of a corresponding candidate model of machine learning based on performance measurement. [Revendication 5] [Claim 5] Un procédé pour la détection d’activité frauduleuse associée à un enregistrement de réservation dans un système de réservation informatique, le procédé comprenant : la récupération, dans un stock de données, d’une série d’enregistrements historiques, chaque enregistrement historique dans la série enregistrant un état de l’enregistrement de réservation à un point temporel au cours d’une période ; l’extraction, de chaque enregistrement historique des données de série caractérisant un ou plusieurs éléments de l’enregistrement de réservation au point temporel correspondant ; A method for detecting fraudulent activity associated with a reservation record in a computer reservation system, the method comprising: retrieving a series of historical records from a data store, each historical record in the series recording a state of the reservation record at a time point during a period; the extraction, from each historical record of the serial data characterizing one or more elements of the reservation record at the corresponding time point;
le traitement des données de série pour générer des données agrégées caractérisant un mode des modifications effectuées audit un ou plusieurs éléments de Γenregistrement de réservation au cours d’une période ; l’évaluation d’au moins un modèle d’apprentissage automatique préconfiguré en utilisant les données agrégées pour obtenir une valeur de classification de fraude produite ; et la génération (316) d’une indication d’activité frauduleuse associée à l’enregistrement de réservation sur la base de la valeur de classification de fraude produite. the processing of serial data to generate aggregated data characterizing a mode of the modifications made to said one or more reservation recording elements during a period; assessing at least one preconfigured machine learning model using the aggregated data to obtain a fraud classification value produced; and generating (316) an indication of fraudulent activity associated with the reservation record based on the fraud classification value produced. [Revendication 6] [Claim 6] Le procédé selon la revendication 5 dans lequel l’évaluation d’au moins un modèle d’apprentissage automatique préconfiguré comprend : la détermination d’une pluralité de valeurs de caractéristiques sur la base des données agrégées ; l’évaluation d’un premier modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une première valeur de classification de fraude, dans laquelle le premier modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage supervisé et est formé pour identifier un ou plusieurs types d’activité frauduleuse identifiés précédemment ; l’évaluation d’un deuxième modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une deuxième valeur de classification de fraude, dans laquelle le deuxième modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage non supervisé et est configuré pour identifier des modes anormaux de valeurs de caractéristiques correspondant à des types d’activité frauduleuse non identifiés précédemment ; et la génération de la valeur de classification de fraude produite basée sur au moins une de la première valeur de classification de fraude et de la deuxième valeur de classification de fraude. The method of claim 5 wherein the evaluation of at least one preconfigured machine learning model comprises: determining a plurality of characteristic values based on the aggregated data; evaluating a first machine learning model using the characteristic values to obtain a first fraud classification value, wherein the first machine learning model is based on a supervised learning algorithm and is trained to identify one or more types of fraudulent activity identified previously; evaluating a second machine learning model using the characteristic values to obtain a second fraud classification value, in which the second machine learning model is based on an unsupervised learning algorithm and is configured to identify abnormal patterns of characteristic values corresponding to types of fraudulent activity not previously identified; and generating the generated fraud classification value based on at least one of the first fraud classification value and the second fraud classification value. [Revendication 7] [Claim 7] Un système informatique pour détecter une activité frauduleuse associée à un enregistrement de réservation dans un système informatique de réservation comprenant : un processeur ; au moins un dispositif de mémoire accessible par le processeur ; et au moins un stock de données accessible par le processeur ; dans lequel le dispositif de mémoire contient un corps d’instructions de programme qui lorsqu’il est exécuté par le processeur amène le système informatique à implémenter un procédé comprenant : A computer system for detecting fraudulent activity associated with a reservation record in a reservation computer system comprising: a processor; at least one memory device accessible by the processor; and at least one data store accessible by the processor; in which the memory device contains a body of program instructions which when executed by the processor causes the computer system to implement a method comprising:
la récupération, dans le stock de données, d’une série d’enregistrements historiques (402) capturant des modifications effectuées à l’enregistrement de réservation au cours d’une période ; le traitement des enregistrements historiques pour déterminer une pluralité de valeurs de caractéristiques comprenant des données caractérisant un mode des modifications effectuées à l’enregistrement de réservation au cours d’une période ; l’évaluation d’un premier modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une première valeur de classification de fraude, dans laquelle le premier modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage supervisé et est formé pour identifier un ou plusieurs types d’activité frauduleuse identifiés précédemment ; l’évaluation d’un deuxième modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une deuxième valeur de classification de fraude, dans laquelle le deuxième modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage non supervisé et est configuré pour identifier des modes anormaux de valeurs de caractéristiques correspondant à des types d’activité frauduleuse non identifiés précédemment ; et la génération d’une indication d’activité frauduleuse associée à l’enregistrement de réservation qui comprend au moins une de la première valeur de classification de fraude et de la deuxième valeur de classification de fraude. retrieving from the data base a series of historical records (402) capturing changes made to the reservation record during a period; processing the historical records to determine a plurality of characteristic values comprising data characterizing a mode of the modifications made to the reservation record during a period; evaluating a first machine learning model using the characteristic values to obtain a first fraud classification value, wherein the first machine learning model is based on a supervised learning algorithm and is trained to identify one or more types of fraudulent activity identified previously; evaluating a second machine learning model using the characteristic values to obtain a second fraud classification value, in which the second machine learning model is based on an unsupervised learning algorithm and is configured to identify abnormal patterns of characteristic values corresponding to types of fraudulent activity not previously identified; and generating a fraudulent activity indication associated with the reservation record that includes at least one of the first fraud classification value and the second fraud classification value. [Revendication 8] [Claim 8] Le système informatique selon la revendication 7 qui comprend par ailleurs une interface de réseau et un système de fichiers distribués accessibles par le processeur via l’interface de réseau, dans lequel le système de fichiers distribués comprend le stock de données. The computer system of claim 7 which further includes a network interface and a distributed file system accessible by the processor via the network interface, wherein the distributed file system includes the data store. [Revendication 9] [Claim 9] Le système informatique selon la revendication 7 qui comprend par ailleurs une interface de réseau et un système de distribution global accessible par le processeur via l’interface de réseau, dans lequel le système de distribution global comprend le système de réservation informatique, l’enregistrement de réservation est un enregistrement de nom de passager et la série des enregistrements historiques comprend un ensemble d’enveloppes, chacune d’elles comprenant un enregistrement des informations validées de l’enregistrement de nom de passager à un point temporel correspondant. The computer system of claim 7 which further comprises a network interface and a global distribution system accessible by the processor via the network interface, wherein the global distribution system includes the computer reservation system, registration of reservation is a passenger name record and the series of historical records includes a set of envelopes, each of which includes a record of validated information from the passenger name record at a corresponding time point. [Revendication 10] [Claim 10] Le système informatique selon l’une quelconque des revendications 7 à The computer system according to any of claims 7 to
9 dans lequel le corps des instructions de programme amène le système informatique à implémenter le traitement des enregistrements historiques par : l’extraction, de chaque enregistrement historique des données de série caractérisant un ou plusieurs éléments de l’enregistrement de réservation au point temporel correspondant ;9 in which the body of the program instructions causes the computer system to implement the processing of the historical records by: extracting, from each historical record the serial data characterizing one or more elements of the reservation record at the corresponding time point; le traitement des données de série pour générer des données agrégées caractérisant un mode des modifications effectuées à un ou plusieurs éléments de l’enregistrement de réservation au cours d’une période ; et la détermination de la pluralité des valeurs de caractéristiques sur la base des données agrégées.the processing of serial data to generate aggregated data characterizing a mode of modifications made to one or more elements of the reservation record during a period; and determining the plurality of characteristic values based on the aggregated data. [Revendication 11] Le système informatique selon l’une quelconque des revendications 7 à 10 dans lequel le corps des instructions de programme inclut par ailleurs des instructions qui, lorsqu’elles sont exécutées par le processeur, amènent le système informatique à implémenter un procédé de formation du premier modèle d’apprentissage automatique comprenant : l’accès à un ensemble de données labellisées comprenant des échantillons d’enregistrements historiques et/ou de valeurs de caractéristiques associées à un ou plusieurs types d’activité frauduleuse précédemment observés ;[Claim 11] The computer system according to any of claims 7 to 10 wherein the body of program instructions further includes instructions which, when executed by the processor, cause the computer system to implement a method of training of the first machine learning model comprising: access to a set of labeled data comprising samples of historical records and / or of characteristic values associated with one or more types of fraudulent activity previously observed; la division de l’ensemble de données labellisées en ensembles de formation et de test ;the division of the labeled data set into training and test sets; la formation d’au moins un modèle candidat d’apprentissage automatique supervisé en utilisant l’ensemble de formation pour détecter chaque type d’activité frauduleuse observé précédemment ;training at least one supervised machine learning candidate model using the training set to detect each type of fraudulent activity observed previously; pour chaque modèle candidat d’apprentissage automatique supervisé formé, le calcul d’une mesure de performance en utilisant l’ensemble de test ; et pour chaque type d’activité frauduleuse observé précédemment, la sélection d’un modèle candidat correspondant d’apprentissage automatique basé sur la mesure de performance.for each candidate supervised machine learning model trained, calculating a performance measure using the test set; and for each type of fraudulent activity previously observed, the selection of a corresponding candidate model of machine learning based on performance measurement. [Revendication 12] Un système informatique pour détecter une activité frauduleuse associée à un enregistrement de réservation dans un système informatique de réservation comprenant : un processeur ;[Claim 12] A computer system for detecting fraudulent activity associated with a reservation record in a reservation computer system comprising: a processor; au moins un dispositif de mémoire accessible par le processeur ; et au moins un stock de données accessible par le processeur dans lequel le dispositif de mémoire contient un corps d’instructions deat least one memory device accessible by the processor; and at least one data store accessible by the processor in which the memory device contains a body of instructions for programme qui lorsqu’il est exécuté par le processeur amène le système informatique à implémenter un procédé comprenant : la récupération, dans un stock de données, d’une série d’enregistrements historiques, chaque enregistrement historique dans la série enregistrant un état de l’enregistrement de réservation à un point temporel au cours d’une période ; l’extraction, de chaque enregistrement historique des données de série caractérisant un ou plusieurs éléments de l’enregistrement de réservation au point temporel correspondant ; le traitement des données de série pour générer des données agrégées caractérisant un mode des modifications faites audit un ou plusieurs éléments de l’enregistrement de réservation au cours d’une période ; l’évaluation d’au moins un modèle d’apprentissage automatique préconfiguré en utilisant les données agrégées pour obtenir une valeur de classification de fraude produite ; et la génération d’une indication d’activité frauduleuse associée à l’enregistrement de réservation sur la base de la valeur de classification de fraude produite. program which when executed by the processor causes the computer system to implement a process comprising: retrieving a series of historical records from a data store, each historical record in the series recording a state of the reservation record at a time point during a period; the extraction, from each historical record of the serial data characterizing one or more elements of the reservation record at the corresponding time point; the processing of serial data to generate aggregated data characterizing a mode of the modifications made to one or more elements of the reservation record during a period; assessing at least one preconfigured machine learning model using the aggregated data to obtain a fraud classification value produced; and generating an indication of fraudulent activity associated with the reservation record based on the fraud classification value produced. [Revendication 13] [Claim 13] Le système informatique selon la revendication 12 dans lequel le corps d’instructions de programme amène le système informatique à implémenter l’évaluation d’au moins un modèle d’apprentissage automatique préconfiguré par : la détermination d’une pluralité de valeurs de caractéristiques sur la base des données agrégées ; l’évaluation d’un premier modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une première valeur de classification de fraude, dans laquelle le premier modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage supervisé et est formé pour identifier un ou plusieurs types d’activité frauduleuse identifiés précédemment ; l’évaluation d’un deuxième modèle d’apprentissage automatique en utilisant les valeurs de caractéristiques pour obtenir une deuxième valeur de classification de fraude, dans laquelle le deuxième modèle d’apprentissage automatique est basé sur un algorithme d’apprentissage non supervisé et est configuré pour identifier des modes anormaux de valeurs de caractéristiques correspondant à des types d’activité frauduleuse non identifiés précédemment ; et la génération de la valeur de classification de fraude produite basée sur The computer system according to claim 12 in which the program instruction body causes the computer system to implement the evaluation of at least one machine learning model preconfigured by: determining a plurality of characteristic values based on the aggregated data; evaluating a first machine learning model using the characteristic values to obtain a first fraud classification value, wherein the first machine learning model is based on a supervised learning algorithm and is trained to identify one or more types of fraudulent activity identified previously; evaluating a second machine learning model using the characteristic values to obtain a second fraud classification value, in which the second machine learning model is based on an unsupervised learning algorithm and is configured to identify abnormal patterns of characteristic values corresponding to types of fraudulent activity not previously identified; and generation of the fraud classification value produced based on
au moins une de la première valeur de classification de fraude et de la deuxième valeur de classification de fraude.at least one of the first fraud classification value and the second fraud classification value. [Revendication 14] Un produit programme d’ordinateur comprenant des instructions stockées sur un support lisible par ordinateur qui lorsqu’elles sont exécutées par un processeur mettent en œuvre l’une quelconque des revendications 1 à 6[Claim 14] A computer program product comprising instructions stored on a computer readable medium which when executed by a processor implement any of claims 1 to 6
FR1873591A 2018-12-20 2018-12-20 AUTOMATIC LEARNING FOR FRAUD DETECTION IN A COMPUTER RESERVATION SYSTEM Pending FR3090960A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1873591A FR3090960A1 (en) 2018-12-20 2018-12-20 AUTOMATIC LEARNING FOR FRAUD DETECTION IN A COMPUTER RESERVATION SYSTEM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1873591A FR3090960A1 (en) 2018-12-20 2018-12-20 AUTOMATIC LEARNING FOR FRAUD DETECTION IN A COMPUTER RESERVATION SYSTEM

Publications (1)

Publication Number Publication Date
FR3090960A1 true FR3090960A1 (en) 2020-06-26

Family

ID=67514682

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1873591A Pending FR3090960A1 (en) 2018-12-20 2018-12-20 AUTOMATIC LEARNING FOR FRAUD DETECTION IN A COMPUTER RESERVATION SYSTEM

Country Status (1)

Country Link
FR (1) FR3090960A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023073414A1 (en) * 2021-10-29 2023-05-04 Featurespace Limited Storing and searching for data in data stores

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3048840A1 (en) * 2016-03-10 2017-09-15 Amadeus Sas

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3048840A1 (en) * 2016-03-10 2017-09-15 Amadeus Sas

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "Data analysis techniques for fraud detection - Wikipedia, the free encyclopedia", 1 January 2016 (2016-01-01), XP055440306, Retrieved from the Internet <URL:https://web.archive.org/web/20160101123035/https://en.wikipedia.org/wiki/Data_analysis_techniques_for_fraud_detection> [retrieved on 20180112] *
DOMINGUES REMI ET AL: "An Application of Unsupervised Fraud Detection to Passenger Name Records", 2016 46TH ANNUAL IEEE/IFIP INTERNATIONAL CONFERENCE ON DEPENDABLE SYSTEMS AND NETWORKS WORKSHOP (DSN-W), IEEE, 28 June 2016 (2016-06-28), pages 54 - 59, XP032973352, ISBN: 978-1-5090-3688-2, [retrieved on 20160922], DOI: 10.1109/DSN-W.2016.21 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023073414A1 (en) * 2021-10-29 2023-05-04 Featurespace Limited Storing and searching for data in data stores

Similar Documents

Publication Publication Date Title
US11188883B2 (en) Using ledger sensors to enable contextual contracts across various enterprise blockchain applications
FR3087921A1 (en) RECOMMENDED SYSTEMS AND METHODS USING AUTOMATIC CASCADE LEARNING MODELS
CA3002232A1 (en) Machine learning artificial intelligence system for predicting hours of operation
US11915195B2 (en) Systems and methods for intelligent field matching and anomaly detection
CA3090497C (en) Transaction classification based on transaction time predictions
CN111985703B (en) User identity state prediction method, device and equipment
CA3174372A1 (en) Dynamic network graph generation based on automated entity and/or activity resolution
FR3048840A1 (en)
CA3150209A1 (en) Predicting future occurences of targeted events using trained artificial-intelligence processes
FR3090960A1 (en) AUTOMATIC LEARNING FOR FRAUD DETECTION IN A COMPUTER RESERVATION SYSTEM
CA3121540A1 (en) Methods and systems for suggesting alternative phrases for text-based web content
US11386476B2 (en) Methods and systems for notifying users of new applications
CA3096058A1 (en) Methods and systems for generating application build recommendations
US11403210B1 (en) Virtual simulation environment for testing functionality of physical cash handling devices
FR3078189A1 (en) EXCHANGES WITH AUTOMATIC ACCOUNTING OF FACTORS ASSOCIATED WITH EXCHANGES
JP7353072B2 (en) List management system, list management method, and list management program
US20230214515A1 (en) Systems and methods for using machine learning to manage data
US20240078537A1 (en) Methods and systems for usage-conditioned access control based on a blockchain wallet
US20230214368A1 (en) Systems and methods for using machine learning to manage data
US20230205787A1 (en) Methods and systems for synchronizing communication records in computer networks based on detecting patterns in categories of metadata
FR3062942A1 (en) IMPROVED RESEARCH METAMOTOR
US20220067034A1 (en) Collection, structuring, and storage of personal data of a user of an online service
FR3062228A1 (en) AGREGATIVE DATABASE OF RECORDINGS CONTEXT
FR3045901A1 (en) TREATMENT OF TRANSACTIONS INVOLVING THE EXCHANGE OF AN ELECTRONIC TICKET
FR3055056A1 (en) GENERATION OF RECOMMENDATIONS FOR ROUTES HAVING TWO OR MORE SEGMENTS

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20200626

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6