FR3087922A1

FR3087922A1 - Procédés et systèmes d'apprentissage de renforcement pour le contrôle d'inventaire et l'optimisation

Info

Publication number: FR3087922A1
Application number: FR1860075A
Authority: FR
Inventors: Rodrigo Alejandro ACUNA AGOST; Thomas Fiig; Nicolas Bondoux; Anh-Quan Nguyen
Original assignee: Amadeus SAS
Current assignee: Amadeus SAS
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-01
Also published as: WO2020088962A1; KR20210080422A; CA3117745A1; US20210398061A1; SG11202103857XA; EP3874428A1; CN113056754A; JP2022509384A; JP7486507B2

Abstract

Un procédé d'apprentissage de renforcement d'un agent de gestion des ressources (402) dans un système (200) pour gérer un inventaire de ressources périssables ayant un horizon de vente, tout en cherchant à optimiser les recettes générées à partir de celui-ci. L'inventaire a un état associé. Le procédé comprend la génération d'une pluralité d'actions (406). En réponse aux actions, les observations correspondantes sont reçues, chaque observation comprenant une transition dans l'état (408) associé à l'inventaire et une récompense associée (410) sous la forme de recettes générées à partir de la vente des ressources périssables. Les observations reçues sont stockées dans une mémoire de relecture (604). Un lot aléatoire d'observations (608) est périodiquement échantillonné à partir de la mémoire de relecture conformément à un algorithme d'échantillonnage de relecture par ordre de priorité dans lequel, tout au long d'une période d'entraînement, une distribution de probabilité pour la sélection d'observations dans le lot aléatoire est progressivement adaptée. Chaque lot d'observations aléatoire est utilisé pour mettre à jour (612) les paramètres de pondération (610) d'un réseau neuronal (602) qui comprend un dispositif d'approximation de fonction action - valeur de l'agent de gestion des ressources, de sorte que, lorsqu'il est fourni avec un état d'inventaire d'entrée et une action d'entrée, une sortie du réseau neuronal se rapproche plus près d'une vraie valeur de génération de l'action d'entrée tandis qu'il est dans l'état d'inventaire d'entrée. Le réseau neuronal peut par là même être utilisé pour sélectionner chacune de la pluralité d'actions générées en fonction d'un état correspondant associé à l'inventaire.

Description

PROCÉDÉS ET SYSTÈMES D'APPRENTISSAGE DE RENFORCEMENT POUR LE CONTRÔLE D’INVENTAIRE ET L’OPTIMISATION

DOMAINE DE L'INVENTION [0001] La présente invention concerne les systèmes et procédés techniques pour améliorer le contrôle d’inventaire et l’optimisation. Des modes de réalisation de l’invention emploient notamment des technologies d’apprentissage automatique et spécifiquement l’apprentissage de renforcement, dans la mise en œuvre de systèmes de gestion des recettes améliorés.

CONTEXTE DE L’INVENTION [0002] Les systèmes d’inventaire sont employés dans de nombreux secteurs pour contrôler la disponibilité des ressources, par exemple via la tarification et la gestion des recettes, et tout autre calcul associé. Les systèmes d’inventaire permettent à des consommateurs d’acheter ou de réserver des ressources ou des produits disponibles proposés par les fournisseurs. De plus, les systèmes d’inventaire permettent aux fournisseurs de gérer les ressources disponibles et de maximiser les recettes et le profit en fournissant ces ressources aux consommateurs.

[0003] Dans ce contexte, le terme « gestion des recettes » fait référence à l’application d’analyse de données pour prédire le comportement du consommateur et pour optimiser les offres de produits et la tarification afin de maximiser la croissance des recettes. La gestion des recettes et la tarification revêtent une importance particulière dans les secteurs de l’hôtellerie, du voyage et des transports qui sont tous caractérisés par un « inventaire périssable », c.-àd. des places inoccupées, telles que des chambres ou des sièges, représentent une perte de revenus irrécouvrables, une fois que l'horizon de leur utilisation est passé. La tarification et la gestion des recettes font partie des moyens les plus efficaces pour que les opérateurs de ces secteurs puissent améliorer les performances commerciales et financières. De façon significative, la tarification est un outil puissant dans la gestion de capacité et l'équilibrage de charge. Par conséquent, les dernières décennies ont vu les développements de systèmes de gestion des revenus automatiques sophistiqués dans ces secteurs.

[0004] Par exemple, un système de gestion des recettes (RMS) d’une compagnie aérienne est un système automatique conçu pour maximiser les recettes des vols générées à partir de tous les sièges disponibles sur une période de réservation (typiquement un an). Le RMS est utilisé pour fixer les politiques concernant la disponibilité et la tarification des sièges (tarifs aériens) dans le temps pour atteindre des recettes maximums.

[0005] Un RMS conventionnel est un système modélisé, c.-à-d. qu’il est basé sur un modèle de recettes et de réservations. Le modèle est spécifiquement conçu pour stimuler les opérations et, par conséquent, il contient nécessairement de nombreuses hypothèses, estimations et heuristiques. Elles incluent la prédiction/le modelage du comportement du consommateur, la prévision de la demande (volume et modèle), l’optimisation de l’occupation des sièges sur des étapes de vol individuelles ainsi que sur tout le réseau, et la réservation.

[0006] Cependant, le RMS conventionnel a de nombreux inconvénients et limites. Premièrement, le RMS est dépendant des hypothèses qui peuvent être non valides. Par exemple, le RMS suppose que le futur est précisément décrit par le passé, ce qui n’est pas le cas s’il existe des changements dans l’environnement commercial (par ex., de nouveaux concurrents), des changements dans la demande et la sensibilité du consommateur aux prix, ou des changements dans le comportement du consommateur. Il suppose également que te comportement du consommateur est rationnel. De plus, les modèles de RMS conventionnels traitent le marché comme un monopole, en supposant que les actions des concurrents sont implicitement comptabilisées dans le comportement du consommateur.

[0007] Un autre inconvénient de l’approche conventionnelle du RMS est qu’il existe en général une interdépendance entre le modèle et ses entrées, de sorte que tout changement des données d’entrée disponibles exige la modification ou la reconstruction du modèle pour exploiter ou tenir compte des nouvelles informations ou des informations modifiées. De plus, les systèmes modelés sans intervention humaine réagissent lentement aux changements de la demande qui sont faiblement représentés ou non représentés, dans les données historiques sur lesquelles se base te modèle.

[0008] Il serait par conséquent souhaitable de développer des systèmes améliorés capables de surmonter, ou au moins d’atténuer, un ou plusieurs des inconvénients et limites du RMS conventionnel.

RÉSUMÉ DE L’INVENTION [0009] Les modes de réalisation de l'invention mettent en œuvre une approche de gestion des recettes basée sur les techniques d’apprentissage automatique (ML). Cette approche inclut avantageusement la fourniture d’un système d’apprentissage de renforcement (RL) qui utilise les observations de données historiques et de données en temps réel (par ex., les clichés d’inventaire) pour générer des sorties, telles que la tarification recommandée et/ou les politiques de disponibilités, pour optimiser les recettes.

[0010] L’apprentissage de renforcement est une technique ML qui peut être appliquée aux problèmes de décision séquentiels, tels que, dans des modes de réalisation de l’invention, la détermination des politiques devant être établies à tout moment avec pour objectif d’optimiser les recettes sur le long terme, sur la base des observations de l’état actuel du système, c.-à-d. les réservations et l’inventaire disponible sur une période de réservation prédéterminée. Avantageusement, un agent RL entreprend des actions uniquement sur la base des observations de l’état du système, et reçoit une rétroaction sous la forme d’un état successeur atteint en conséquence d’actions passées, et un renforcement ou « récompense », par ex., une mesure sur l’efficacité de ces actions pour atteindre l’objectif. L’agent RL « apprend » ainsi avec le temps, les actions optimales à entreprendre dans tout état donné pour atteindre l’objectif, tel qu’une politique de prix/tarifaire et de disponibilité devant être établie, de sorte à maximiser les recettes sur une période de réservation.

[0011] Plus particulièrement, dans un aspect, la présente invention fournit un procédé d’apprentissage de renforcement pour un agent de gestion des ressources dans un système de gestion d’inventaire concernant des ressources périssables ayant un horizon de vente, tout en cherchant à optimiser les recettes générées à partir de celui-ci, dans lequel l’inventaire dispose d’un état associé comprenant une disponibilité restante des ressources périssables et une période restante de l’horizon de vente, le procédé comprenant :

la génération d’une pluralité d’actions, chaque action comprenant la publication de données définissant un programme de tarification des ressources périssables restant dans l’inventaire ;

la réception, en réponse à la pluralité d’actions, d’une pluralité correspondante d’observations, chaque observation comprenant une transition dans l’état associé à l’inventaire et une récompense associée sous la forme de recettes générées par la vente des ressources périssables ;

le stockage des observations reçues dans une mémoire de relecture ; l’échantillonnage périodique, à partir de la mémoire de relecture, d’un lot aléatoire d’observations selon un algorithme d'échantillonnage de relecture par ordre de priorité dans lequel, tout au long d’une période d’entraînement, une distribution de probabilité pour la sélection d’observations dans le lot aléatoire est progressivement adaptée à partir d’une distribution favorisant la sélection d’observations correspondant à des transitions proches d’un état terminal vers une distribution favorisant la sélection d’observations correspondant à des transitions proches d’un état initial : et (utilisation de chaque lot aléatoire d’observations pour mettre à jour les paramètres de pondération d’un réseau neuronal qui comprend un dispositif d’approximation de fonction action - valeur de (agent de gestion des ressources, de sorte que lorsqu’il est fourni avec un état d’inventaire d’entrée et une action d’entrée, une sortie du réseau neuronal se rapproche plus près d’une vraie valeur de génération de (action d’entrée tandis qu’il est dans (état d’inventaire d’entrée, dans lequel le réseau neuronal peut être utilisé pour sélectionner chacune de la pluralité d’actions générées en fonction d’un état correspondant associé à (inventaire.

[0012] Avantageusement, des simulations d’étalonnage ont démontré qu’un agent de gestion des ressources RL mettant en œuvre le procédé de (invention fournit des performances améliorées par rapport à des systèmes de gestion des ressources de (état de (art antérieur, étant donné les données d’observation permettant d’apprendre. Par ailleurs, puisque les transitions d’état observées et les récompenses changeront avec tout changement sur le marché des ressources périssables, (agent est capable de réagir à de tels changements sans intervention humaine. L’agent ne requiert aucun modèle de marché ou de comportement du consommateur pour s’adapter, c.-à-d. qu’il est exempt de modèle et de toute hypothèse correspondante.

[0013] Avantageusement, afin de réduire le montant de données requises pour l'entraînement initial de (agent RL, des modes de réalisation de (invention emploient une approche d’apprentissage profond (DL). Le réseau neuronal peut notamment être un réseau neuronal profond (DNN).

[0014] Dans des modes de réalisation de (invention, le réseau neuronal peut être initialisé par un procédé de transfert de connaissances (c.-à-d. une forme d’apprentissage supervisé) à partir d’un système de gestion des recettes existant pour fournir un « démarrage à chaud » à l’agent de gestion des ressources. Un procédé de transfert des connaissances peut comprendre les étapes :

de détermination d’une fonction de valeur associée au système de gestion des recettes existant, dans lequel la fonction de valeur mappe les états associés à l’inventaire à des valeurs estimées correspondantes ;

de transformation de la fonction de valeur en une fonction action valeur transformée correspondante adaptée à l’agent de gestion des ressources, dans laquelle la transformation comprend la mise en correspondance d’une taille d'étape temporelle avec une étape temporelle associée à l’agent de gestion des ressources et l’ajout de dimensions d’action à la valeur de fonction ;

d’échantillonnage de la fonction action - valeur transformée pour générer un ensemble de données d’entrainement pour le réseau neuronal ; et d’entraînement du réseau neuronal en utilisant l’ensemble de données d'entraînement.

[0015] Avantageusement, en employant un procédé de transfert des connaissances, l’agent de gestion des ressources peut exiger un volume sensiblement réduit de données supplémentaires pour apprendre des actions politiques optimales ou presque optimales. Initialement, au moins, un tel mode de réalisation de l’invention génère, de manière équivalente au système de gestion des revenus existant, les mêmes actions en réponse au même état d’inventaire. Ensuite, l’agent de gestion des ressources peut apprendre à dépasser le système de gestion des revenus existant à partir duquel ses connaissances initiales ont été transférées.

[0016] Dans certains modes de réalisation, l’agent de gestion des ressources peut être configuré pour commuter entre une approximation de fonction action valeur en utilisant le réseau neuronal et une approche d’apprentissage Q basée sur une représentation sous forme de tableau de la fonction action - valeur. Un procédé de commutation peut notamment comprendre :

pour chaque état et action, le calcul d’une valeur action correspondante en utilisant le réseau neuronal, et le peuplement d’une entrée dans un tableau de consultation action - valeur avec la valeur calculée ; et la commutation vers un mode de fonctionnement d’apprentissage Q en utilisant le tableau de consultation action - valeur.

[0017] Un autre procédé pour commuter vers l’approximation action - valeur basée sur te réseau neuronal peut comprendre :

l’échantillonnage du tableau de consultation action - valeur pour générer un ensemble de données d’entraînement pour le réseau neuronal ;

l’entraînement du réseau neuronal en utilisant l’ensemble de données d'entraînement ; et la commutation vers un modèle de fonctionnement d’approximation de fonction du réseau neuronal en utilisant le réseau neuronal entraîné.

[0018] Avantageusement, l’apport d’une capacité de commutation entre une approximation de fonction basée sur le réseau neuronal et des modes de fonctionnement d’apprentissage Q sous forme de tableau permet d’obtenir les avantages des deux approches, comme souhaité. Spécifiquement, dans le mode de fonctionnement du réseau neuronal, l’agent de gestion des ressources est capable d’apprendre et d’adapter les changements en utilisant des quantités beaucoup plus petites de données observées par rapport au mode d’apprentissage Q sous forme de tableau, et peut efficacement continuer à explorer des stratégies alternatives en ligne en se s’entraînant et en s’adaptant continuellement en utilisant des procédés de relecture d’expérience. Cependant, sur un marché stable, le mode d’apprentissage Q sous forme de tableau peut permettre à l’agent de gestion des ressources d’exploiter plus efficacement tes connaissances contenues dans te tableau action - valeur.

[0019] Tandis que des modes de réalisation de l’invention sont capables de fonctionner, d’apprendre et de s’adapter en ligne, en utilisant des observations en direct de l’état d’inventaire et les données du marché, il est aussi avantageusement possible d’entraîner et d’étalonner un mode de réalisation en utilisant un simulateur de marché. Un simulateur de marché peut inclure un module de génération de la demande simulé, un système de réservation simulé et un module de simulation de choix. Le simulateur de marché peut par ailleurs inclure des systèmes d’inventaire concurrents simulés.

[0020] Dans un autre aspect, l’invention fournit un système de gestion d’un inventaire de ressources périssables ayant, un horizon de vente, tout en cherchant à optimiser les recettes générées à partir de celui-ci, dans lequel l’inventaire a un état associé comprenant une disponibilité restante des ressources périssables et une période restante d’horizon de vente, le système comprenant :

un module d’agent de gestion des ressources mis en œuvre par ordinateur ;

un module de réseau neuronal mis en œuvre par ordinateur comprenant un dispositif d approximation de fonction action ~ valeur de I agent de gestion des ressources ;

un module de mémoire de relecture ; et un module d’apprentissage mis en œuvre par ordinateur dans lequel le module d’agent de gestion des ressources est configuré pour :

générer une pluralité d’actions, chaque action étant déterminée en interrogeant te module de réseau neuronal en utilisant un état actuel associé à l’inventaire et comprenant la publication de données définissant un programme de tarification concernant les ressources périssables restant dans l’inventaire ;

recevoir, en réponse à la pluralité d’actions, une pluralité correspondante d’observations, chaque observation comprenant une dans l'état associé à l’inventaire et une récompense associée sous la forme de recettes générées par la vente de ressources périssables ; et stocker, dans le module de mémoire de relecture, les observations reçues, dans lequel le module d’apprentissage est configuré pour :

échantillonner périodiquement, à partir de la mémoire de relecture, un lot aléatoire d’observations conformément à un algorithme d’échantillonnage de relecture par ordre de priorité dans lequel, tout au long d’une période d’entraînement, une distribution de probabilité pour la sélection d’observations dans le lot aléatoire est progressivement adaptée à partir d’une distribution favorisant la sélection d’observations correspondant aux transitions proches d’un état terminal vers une distribution favorisant la sélection d’observations correspondant aux transitions proches d’un état initial ; et utiliser chaque lot aléatoire d’observations pour mettre à jour les paramètres de pondération du module du réseau neuronal, de sorte que lorsqu’il est fourni avec un état d’inventaire d’entrée et une action d’entrée, une sortie du module du réseau neuronal s’approche plus étroitement d’une vraie valeur de génération de l'action d’entrée tandis qu’il est dans l’état d’inventaire d’entrée.

[0021 ] Dans un autre aspect, l’invention fournit un système informatique pour gérer un inventaire de ressources périssables ayant un horizon de vente, tout en cherchant à optimiser les recettes générées à partir de celui-ci, dans lequel l’inventaire a un état associé comprenant une disponibilité restante des ressources périssables et une période restante de l’horizon de vente, le système comprenant :

un processeur ;

au moins un dispositif de mémoire accessible par le processeur ; et une interface de communication accessible par le processeur, dans lequel le dispositif de mémoire contient une mémoire de relecture et un corps d’instructions de programme qui, lorsqu’il est exécuté par le processeur, amène le système informatique à mettre en œuvre un procédé comprenant les étapes :

de génération d'une pluralité d’actions, chaque action comprenant la publication, via l’interface de communication, de données définissant un programme de tarification concernant les ressources périssables restant dans l’inventaire ;

de réception, via l’interface de communication et en réponse à la pluralité d’actions, une pluralité correspondante d'observations, chaque observation comprenant une transition dans l’état associé à Γ inventaire et une récompense associée sous la forme de recettes générées par la vente de ressources périssables ;

de stockage des observations reçues dans la mémoire de relecture ;

périodiquement d’échantillonnage, à partir de la mémoire de relecture, d’un lot aléatoire d’observations conformément à un algorithme d’échantillonnage de relecture par ordre de priorité dans lequel, tout au long d’une période d’entraînement, une distribution de probabilité pour la sélection d’observations dans le lot aléatoire est progressivement adaptée à partir d’une distribution favorisant la sélection d’observations correspondant aux transitions proches d’un état terminal vers une distribution favorisant la sélection d’observations correspondant aux transitions proches d’un état initial ; et d’utilisation de chaque lot aléatoire d’observations pour mettre à jour des paramètres de pondération d’un réseau neuronal qui comprend un dispositif d’approximation de fonction action - valeur de l’agent de gestion des ressources, de sorte que lorsqu'il est fourni avec un état d’inventaire d’entrée et une action d’entrée, une sortie du réseau neuronal se rapproche plus près d’une vraie valeur de génération de faction d’entrée tandis qu’il est dans l’état d’inventaire d’entrée.

dans lequel le réseau neuronal peut être utilisé pour sélectionner chacune de la pluralité d’actions générées en fonction d'un état correspondant associé à l’inventaire.

[0022] Dans un autre aspect, l’invention fournit un produit programme d’ordinateur comprenant un support tangible lisible par ordinateur avec des instructions stockées sur celui-ci qui, lorsqu’il est exécuté par un processeur met en œuvre un procédé d’apprentissage de renforcement pour un agent de gestion des ressources dans un système de gestion d’un inventaire des ressources périssables ayant un horizon de vente, tout en cherchant à optimiser les recettes générées à partir de celui-ci, dans lequel l’inventaire a un état associé comprenant une disponibilité restante de ressources périssables et une période restante de l’horizon de vente, le procédé comprenant :

la génération d'une pluralité d’actions, chaque action comprenant la publication de données définissant un programme de tarification des ressources périssables restant dans l’inventaire ;

le stockage des observations reçues dans une mémoire de relecture ;

l’échantillonnage périodique, à partir de la mémoire de relecture, d’un lot aléatoire d’observations selon un algorithme d'échantillonnage de relecture par ordre de priorité dans lequel, tout au long d’une période d’entraînement, une distribution de probabilité pour la sélection d’observations dans le lot aléatoire est progressivement adaptée à partir d’une distribution favorisant la sélection d’observations correspondant à des transitions proches d’un état terminal vers une distribution favorisant la sélection d’observations correspondant à des transitions proches d’un état initial ; et l’utilisation de chaque lot aléatoire d’observations pour mettre à jour les paramètres de pondération d’un réseau neuronal qui comprend un dispositif d'approximation de fonction action - valeur de l’agent de gestion des ressources, de sorte que lorsqu’il est fourni avec un état d'inventaire d’entrée et une action d’entrée, une sortie du réseau neuronal se rapproche plus près d’une vraie valeur de génération de l’action d’entrée tandis qu'il est dans l’état d’inventaire d’entrée, dans lequel le réseau neuronal peut être utilisé pour sélectionner chacune de la pluralité d’actions générées en fonction d’un état correspondant associé à l’inventaire.

[0023] À partir de la description qui suit des divers modes de réalisation, d’autres aspects, avantages et caractéristiques des modes de réalisation de l’invention seront apparents aux hommes de métier spécialisés dans les domaines pertinents. On notera cependant, que l’invention n’est pas limitée aux modes de réalisation décrit qui sont fournis à titre d’illustration des principes de l’invention tels qu’ils sont définis dans les déclarations ci-dessus et pour assister les hommes de métier à mettre en pratique ces principes.

BRÈVE DESCRIPTION DES DESSINS [0024] Des modes de réalisation de l’invention seront maintenant décrits en référence aux dessins accompagnant dans lesquels des numéros référentiels font référence à des caractéristiques similaires et dans lesquels :

La Figure 1 est un diagramme bloc illustrant un système en réseau exemplaire incluant un système d’inventaire mettant en œuvre l’invention ;

La Figure 2 est un diagramme bloc fonctionnel d’un système d’inventaire exemplaire mettant en œuvre l’invention ;

La Figure 3 est un diagramme bloc d’un simulateur de marché de voyages aériens appropriés pour l’entraînement et/ou l’évaluation d’un système de gestion des recettes d’apprentissage de renforcement mettant en œuvre l'invention ;

La Figure 4 est un diagramme bloc d’un système de gestion des recettes d’apprentissage de renforcement mettant en œuvre l’invention qui emploie une approche d’apprentissage Q en tableau ;

La Figure 5 illustre un tableau illustrant les performances du système de gestion des recettes d'apprentissage Q de renforcement de la Figure 4, lorsqu’il interagit avec un environnement simulé ;

La Figure 6A est un diagramme bloc d’un système de gestion des recettes d’apprentissage de renforcement mettant en œuvre l’invention qui emploie une approche d’apprentissage Q profond ;

La Figure 6B est un organigramme illustrant un procédé d’échantillonnage et de mise à jour, conformément à une approche de réponse par ordre de priorité mettant en œuvre l’invention ;

La Figure 7 illustre un tableau illustrant les performances du système de gestion des recettes d’apprentissage Q de renforcement profond de la Figure 6, lorsqu’il interagit avec un environnement simulé ;

La Figure 8A est un organigramme illustrant un procédé de transfert des connaissances pour initialiser un système de gestion des recettes d’apprentissage de renforcement mettant en œuvre l’invention ;

La Figure 8B est un organigramme illustrant des informations supplémentaires sur le procédé de transfert des connaissances de la Figure 8A ;

La Figure 9 est un organigramme illustrant un procédé de commutation d’une opération d’apprentissage Q profond à une opération d’apprentissage Q en tableau dans un système de gestion des recettes d’apprentissage de renforcement contenant l’invention ;

La Figure 10 est un tableau représentant une évaluation des performances d’aigorithmes de gestion des recettes de l’état de la technique antérieur utilisant le simulateur de marché de la Figure 3 ;

La Figure 11 est un tableau représentant une évaluation des performances d’un système de gestion des recettes d’apprentissage de renforcement contenant l’invention qui utilise le simulateur de marché de la Figure 3 ;

La Figure 12 est un tableau montrant des courbes de réservation qui correspondent à l’évaluation des performances de la Figure 10 ;

La Figure 13 est un tableau représentant des courbes de réservation qui correspondent à l’étalonnage des performances de la Figure 11 ;

et

La Figure 14 est un tableau illustrant l’effet de politiques tarifaires sélectionnées par un système de gestion des recettes de l’état de la technique antérieur et un système de gestion des recettes d’apprentissage de renforcement contenant l’invention qui utilise te simulateur de marché de la Figure 3 .

DESCRIPTION DÉTAILLÉE DES MODES DE RÉALISATION [0025] La Figure 1 est un organigramme illustrant un système en réseau exemplaire 100 qui inclut un système d’inventaire 102 mettant en œuvre l’invention. Le système d’inventaire 102 comprend notamment un système d’apprentissage de renforcement (RL) configuré pour effectuer une optimisation des recettes conformément au mode de réalisation de l’invention. Concrètement, un mode de réalisation de l’invention est décrit en référence à un système d’optimisation des recettes et d’inventaire pour la vente et la réservation de sièges d’avion, dans lequel le système en réseau 100 comprend en général un système de réservation de compagnies aériennes et le système d’inventaire 102 comprend un système d’inventaire d'une compagnie aérienne en particulier. Cependant, on notera qu’il s’agit d’un simple exemple pour illustrer le système et le procédé et on notera que d’autres modes de réalisation de l’invention peuvent s’appliquer aux systèmes de gestion des recettes et d’inventaire, autres que ceux liés à la vente et à la réservation de sièges d’avion.

[0026] Le système d’inventaire de compagnies aériennes 102 peut comprendre un système informatique ayant une architecture conventionnelle. En particulier, le système d’inventaire de compagnies aériennes 102, tel qu’il est illustré, comprend un processeur 104. Le processeur 104 est associé de façon fonctionnelle à un dispositif de stockage/mémoire non volatile 106, par ex. via un ou plusieurs bus de données/adresses 108 tel qu’illustré. Le stockage non volatile 106 peut être un disque dur et/ou peut inclure une mémoire non volatile à état défini, telle qu’une mémoire morte ROM, une mémoire flash, un disque dur électronique SSD ou autre stockage similaire. Le processeur 104 sert aussi d’interface au stockage volatile 110 tel que la mémoire à accès aléatoire RAM qui contient des instructions de programme et des données temporaires relatives au fonctionnement du système d’inventaire de compagnies aériennes 102.

[0027] Dans une configuration conventionnelle, le dispositif de stockage 106 maintient un programme connu et un contenu de données pertinent avec le fonctionnement normal du système d’inventaire de compagnies aériennes 102. Par exemple, le dispositif de stockage 106 peut contenir des programmes de système d’exploitation et des données ainsi que d’autres logiciels d’application exécutables nécessaires pour les fonctions voulues du système d'inventaire de compagnies aériennes 102. Le dispositif de stockage 106 contient aussi des instructions de programme qui, lorsqu’elles sont exécutées par le processeur 104, amènent le système d’inventaire de compagnies aériennes 102 à effectuer des opérations relatives à un mode de réalisation de la présente invention, lesquelles sont décrites plus en détail ci-dessous, en référence aux Figures 4 à 14 en particulier. Dans le fonctionnement, les instructions et les données stockées sur te dispositif de stockage 106 sont transférées à la mémoire volatile 110 pour une exécution à la demande.

[0028] Le processeur 104 est aussi associé fonctionnellement à une interface de communications 112 d’une manière conventionneite L’interface de communications 112 facilite l’accès à un réseau étendu de communications de données, tel que l’Internet 116.

[0029] Dans la pratique, le stockage volatile 110 contient un corps d’instructions de programme correspondant 114 transféré à partir du dispositif de stockage 106 et qui est configuré pour effectuer le traitement et d’autres opérations afin de mettre en œuvre les caractéristiques de la présente invention. Les instructions de programme 114 comprennent une contribution technique à l’état de l’art, développée et configurée spécifiquement pour mettre en œuvre un mode de réalisation de l’invention, au-delà de l’activité conventionnelle, de routine, bien comprise de l’état de l'art de systèmes d’apprentissage automatique et d’optimisation des recettes, comme décrit plus amplement ci-dessous, notamment en référence aux Figures 4 à 14.

[0030] Concernant l’aperçu précédent du système d’inventaire de compagnies aériennes 102 et d’autres systèmes de traitement et dispositifs décrits dans cette spécification, les termes tels que « processeurs », « ordinateur » et ainsi de suite, sauf si te contexte exige autrement, doivent être interprétés comme faisant référence à une gamme d’implémentations possibles des dispositifs, appareils et systèmes comprenant une combinaison de logiciels et de matériel. Cela inclut des dispositifs à processeur unique et à processeurs multiples et un appareil, incluant tes dispositifs portables, tes ordinateurs de bureau et divers types de systèmes de serveur, incluant du matériel collaboratif et des plateformes logicielles qui peuvent cohabiter ou être distribuées. Les processeurs physiques peuvent inclure des unités centrales de traitement (CPUs) à usage général, des processeurs de signaux numériques, des unités de traitement graphique (GPUs) et/ou d’autres dispositifs matériels appropriés pour une exécution efficace des programmes et des algorithmes nécessaires. Comme te notent tes personnes de métier, tes GPU particuliers peuvent être employés pour !a mise en œuvre à haute performance des réseaux neuronaux profonds comprenant modes de réalisation de l’invention, sous le contrôle d’une ou de plusieurs CPU à usage général.

[0031 ] Les systèmes informatiques peuvent inclure des architectures conventionnelles d’ordinateur personnel ou d’autres plateformes matérielles à usage général. Les logiciels peuvent inclure des logiciels de sources libres et/ou des logiciels de systèmes d’exploitation vendus sur le marché en combinaison avec diverses applications et programmes de services. Autrement, les plateformes de traitement ou de calcul peuvent comprendre du matériel et/ou des architectures de logiciel adaptés sur mesure. Pour une extensibilité améliorée, les systèmes de traitement et de calcul peuvent comprendre des plateformes d’informatique en nuage (cloud) permettant aux ressources matérielles physiques d’être allouées de façon dynamique en réponse aux demandes de services. Alors que toutes ces variations sont comprises dans la portée de la présente invention, pour faciliter l’explication et la compréhension, tes modes de réalisation exemplaires sont décrits dans les présentes à titre illustratif en référence aux plateformes informatiques à usage général à processeur unique, des plateformes de système d’exploitation couramment disponibles et/ou des produits de consommateurs largement disponibles, tels que les ordinateurs de bureau (PCs), les ordinateurs compacts ou ordinateurs portables (PCs), les smartphones, les tablettes informatiques et ainsi de suite.

[0032] En particulier, les termes « unité de traitement » et « module » sont utilisés dans cette spécification en référence à toute combinaison appropriée de matériel et de logiciels configurés pour effectuer une tâche particulière définie telle que l’accès et le traitement des données en ligne ou hors connexion, l’exécution des étapes d’entraînement d’un modèle d’apprentissage de renforcement et/ou de réseaux neuronaux profonds ou autres dispositifs d’approximation de fonction dans un tel modèle, ou l’exécution des étapes de tarification et d’optimisation des recettes. Une telle unité ou module de traitement peut comprendre un code exécutable qui s’exécute à un emplacement unique sur un dispositif de traitement unique ou qui peut comprendre des modules collaboratifs de code exécutable qui s’exécutent à de multiples emplacements et/ou sur de multiples dispositifs de traitement. Par exemple, dans certains modes de réalisation de (invention, les algorithmes d’apprentissage de renforcement et d’optimisation des recettes peuvent être réalisés entièrement par un code qui s'exécute sur un système unique, tel que te système d’inventaire de compagnies aériennes 102 alors que dans d’autres modes de réalisation le traitement correspondant peut être effectué d’une manière distribuée sur une pluralité de systèmes.

[0033] Les composants logiciels, p. ex. les instructions de programme 114, mettant en œuvre les caractéristiques de l’invention peuvent être développés en utilisant tout langage de programmation approprié, environnement de développement ou combinaison de langages et d’environnements de développement qui seront familiers aux hommes de métier spécialisés dans (ingénierie logicielle. Par exemple, le logiciel approprié peut être développé en utilisant le langage de programmation C, le langage de programmation Java, le langage de programmation C++, te langage de programmation Go, te langage de programmation Python, le langage de programmation R et/ou d’autres langages adaptés à (implémentation des algorithmes d’apprentissage automatique. Le développement des modules logiciels mettant en œuvre l’invention peut être supportée par (utilisation de bibliothèques de codes d’apprentissage machine, telles que les bibliothèques TensorFîow, Torch et Keras. Les hommes de métier noteront cependant, que des modes de réalisation de la mention impliquent (implémentation de structures et de code logiciels qui ne sont pas des systèmes d’apprentissage automatiques bien compris, de routine ou conventionnels dans (état de l’art, et que tandis que les bibliothèques préexistantes peuvent aider à (implémentation, elles exigent une configuration spécifique et une augmentation étendue (c.-à-d. le développement de code supplémentaire) afin de réaliser divers avantages de (invention et de mettre en œuvre les structures, le traitement, tes calculs et les algorithmes spécifiques décrits ci-dessous, notamment en référence aux Figures 4 à 14.

[0034] Les précédents exemples de langages, d'environnements et de bibliothèques de code ne se veulent pas restrictifs et on notera que tout langage, bibliothèque ou système de développement approprié peut être employé selon les exigences des systèmes. Les descriptions, diagrammes bloc, organigrammes, équations et autres qui sont présentés dans cette spécification sont fournis à titre d’exemple pour permettre aux hommes de métier spécialisés dans l’ingénierie logicielle et l’apprentissage automatique de comprendre et d’apprécier les caractéristiques, la nature et la portée de l’invention, et pour mettre un ou plusieurs modes de réalisation de l’invention en pratique par l’implémentation de code logiciel adapté en utilisant tout langage, cadre, bibliothèque et système de développement approprié, conformément à cette divulgation sans avoir à y apporter une ingéniosité inventive additionnelle.

[0035] Le code de programme mis en œuvre dans une/un quelconque des applications/moduîes décrits dans les présentes peut être distribué individuellement ou collectivement comme un produit-programme, sous une variété de formes. En particulier, te code de programme peut être distribué en utilisant un support de stockage lisible par ordinateur ayant des instructions de programme lisibles par ordinateur pour amener un processeur à réaliser des aspects des modes de réalisation de l’invention.

[0036] Les supports de stockage lisibles par ordinateur peuvent inclure des médias tangibles, volatiles et non volatiles, amovibles et non amovibles, implémentés dans toute méthode ou technologie de stockage d’informations, telles que des instructions de programme lisibles par ordinateur, des structures de donnée, des modules de programme, ou autres données. Les supports de stockage lisibles par ordinateur peuvent aussi inclure des mémoires: une mémoire à accès aléatoire (RAM), une mémoire à lecture seule (ROM), une mémoire à lecture seule programmable et effaçable (EPROM), une mémoire à lecture seule programmable et effaçable électriquement (EEPROM), une mémoire flash, ou autre technologie de support solide de mémoire, un disque compact portable doté d'une mémoire à lecture seule (CD-ROM), ou autre stockage optique, une bande d'enregistrement magnétique, ou tout autre support 5 pouvant être utilisé pour stocker l'information désirée et apte à être lue par un ordinateur. Tandis que le support de stockage lisible par ordinateur ne peut comprendre qu’un signal transitoire en soi (par ex., des ondes radio ou d’autres ondes de propagation électromagnétiques, les ondes électromagnétiques se propageant via un support de transmission tel qu'un guide d’ondes ou des signaux électriques transmis par un câble), les instructions de programme lisible par ordinateur peuvent être téléchargées via de tels signaux transitoires à un ordinateur, un autre type d’appareils de traitement de données programmable, ou un autre dispositif allant d'un support de stockage lisible par ordinateur ou sur un dispositif de stockage externe ou informatique externe via un réseau.

[0037] Les instructions de programme lisibles par ordinateur, stockées dans un support lisible par ordinateur, peuvent être utilisées pour instruire un ordinateur, d'autres types d’appareils de traitement de données programmables ou d'autres dispositifs pour fonctionner d'une façon particulière, de sorte que les instructions stockées sur un support lisible par ordinateur produisent un article de fabrication comprenant les instructions qui implémentent les fonctions, les actions et/ou les opérations spécifiées dans les organigrammes, diagrammes de séquence, et/ou diagrammes blocs. Les instructions de programme informatique peuvent être fournies par un ou plusieurs processeurs sur un ordinateur à usage général, un ordinateur à usage spécial, ou un autre appareil programmable de traitement de données pour produire une machine, de sorte que les instructions qui s'exécutent par l'intermédiaire d'un ou de plusieurs processeurs provoquent une série de calculs devant être effectués pour implémenter les fonctions, actions et/opérations spécifiées dans les organigrammes, diagrammes séquentiels et/ou diagrammes blocs.

[0038] Pour en revenir à la discussion de la Figure 1, le système de réservation de compagnies aériennes 100 inclut un système de distribution globale (GDS) 118, qui inclut un système de réservation (non illustré) et qui est capable d’accéder à une base de données 120 de tarifs et de programme de diverses compagnies aériennes pour lesquelles il est possible de faire des réservations. Comme illustré dans un système d’inventaire 122 d’une compagnie aérienne alternative. Alors qu’un seul système d’inventaire de compagnies aériennes alternatif 122 est représenté à la Figure 1, par voie d’illustration, on notera que le secteur des compagnies aériennes est très compétitif et en pratique, le GDS 118 est capable d’accéder aux tarifs et aux programmes, d’effectuer des réservations, pour un grand nombre de compagnies aériennes, chacune d’entre elles ayant son propre système d’inventaire. Les consommateurs, qui peuvent être des particuliers, des agents de réservation ou toute autre entreprise ou entité personnelle, accède aux services de réservation du GDS 118 via le réseau 116, par ex., via les terminaux des consommateurs 124 exécutant le logiciel de réservation correspondant.

[0039] Conformément au cas d’usage commun, une demande entrante 126 d’un terminal consommateur 124 est reçue par le GDS 118. La demande entrante 126 inclut toutes les informations attendues pour un passager souhaitant voyager vers une destination. Par exemple, les informations peuvent inclure le point de départ, le point d’arriver, la date de voyage, le nombre de passagers et ainsi de suite. Le GDS 118 accède à la base de données 120 de tarifs et de programmes pour identifier une ou plusieurs itinéraires qui peuvent satisfaire les exigences du consommateur. Le GDS 118 peut alors générer une plusieurs demandes de réservation concernant un itinéraire sélectionné. Par exemple, comme représenté à la Figure 1, une demande de réservation 128 est transmise au système d’inventaire 102 qui traite la demande et génère une réponse 130, indiquant si la réservation est acceptée ou rejetée. La transmission d’une autre demande de réservation 132 au système d’inventaire de compagnies aériennes alternatif 122 et une réponse d’acceptation/de rejet correspondante 134 sont également illustrés. Un message de confirmation de réservation 136 peut ensuite être transmis par le GDS 118 au terminal du consommateur 124.

[0040] Comme c’est bien connu dans îe secteur des compagnies aériennes, en raison de l’environnement compétitif, fa plupart des compagnies aériennes offrent différentes classes de voyages (par ex., économique, économique Premium, affaire et première classe) dans chaque catégorie de voyage il peut y avoir un nombre de classes de tarifs ayant une tarification et des conditions différentes. Une première fonction des systèmes d’optimisation et de gestion des recettes est par conséquent le contrôle de la disponibilité et la tarification de ces différentes classes de tarifs sur une période entre l’ouverture des réservations et le départ d’un vol, dans un effort pour maximiser les recettes générées pour une compagnie aérienne par le vol. Le RMS conventionnel le plus sophistiqué emploie une approche de programmation dynamique (DP) pour résoudre un modèle de processus de génération des recettes qui tient compte de la disponibilité des places, de l’heure de départ, de la valeur marginale et du coût marginal de chaque place, des modèles de comportement de consommateurs (par ex., sensibilité aux prix et volonté de payer), et ainsi de suite, afin de générer, à un moment particulier, une politique comprenant un prix spécifique pour chacune d’un ensemble de classes de tarifs disponibles. Dans une implémentation commune, chaque prix peut être sélectionné à partir d’un ensemble correspondant de points de tarif, qui peut inclure « fermé », c.-à-d. une indication selon laquelle la classe de tarifs n’est plus disponible à la vente. Typiquement, à mesure que la demande augmente et/ou l’approvisionnement diminue (par ex., à mesure que l’heure du départ approche) la politique générée par le RMS à partir de sa solution sur les changements de modèle, de sorte que les points de tarifs sélectionnés pour chaque classe de tarifs augmentent, et que les classes les moins chères (et plus restreintes) sont « fermées ».

[0041] Des modes de réalisation de la présente invention remplacent l’approche de programmation dynamique basée sur le modèle du RMS conventionnel avec une nouvelle approche basée sur l’apprentissage de renforcement (RL).

[0042] Un organigramme fonctionnel d’un système d’inventaire exemplaire 200 est illustré à la Figure 2. Le système d’inventaire 200 inclut un module de gestion des recettes 202 qui est responsable de la génération des politiques tarifaires, c.-à-d. de la tarification pour chacune d’un ensemble de classes de tarifs disponible sur chaque vol qui peut être réservé à un moment donné. En général, le module de gestion des recettes 202 peut implémenter un RMS conventionnel basé sur la DP (DP-RMS) ou un autre algorithme pour déterminer les politiques. Dans des modes de réalisation de la présente invention, le module de gestion des recettes met en œuvre un système de gestion des recettes basé sur le RL (RL-RMS), comme décrit en détail ci-dessous en référence aux Figures 4 à 14.

[0043] En fonctionnement, le module de gestion des recettes 202 communique avec un module de gestion d’inventaire 204 via un canal de communication 206. Le module de gestion des recettes 202 peut par conséquent recevoir des informations en lien avec l’inventaire disponible (c.-à-d. les sièges invendus restant sur des vols ouverts) à partir du module de gestion d’inventaire 204, et de transmettre les mises à jour de politique tarifaire au module de gestion d’inventaire 204. Le module de gestion d’inventaire 204 et le module de gestion des recettes peuvent accéder aux données de tarif 208, en incluant des informations qui définissent les points et conditions de prix fixés par la compagnie aérienne pour chaque classe de tarifs. Le module de gestion des recettes 202 est également configuré pour accéder aux données historiques 210 des réservations de vols, qui mettent en œuvre les informations sur le comportement du consommateur, la sensibilité aux prix, l’historique de la demande, etc.

[0044] Le module de gestion d’inventaire 204 reçoit des demandes 214 du GDS 118, par ex. pour les réservations, les changements et les annulations. Il répond 212 à ces demandes en les acceptant ou en les rejetant, sur la base des politiques actuelles fixées par le module de gestion des recettes 202 et correspondant aux informations tarifaires stockées dans la base de données de tarifs 208.

[0045] Afin de comparer les performances des différentes approches et algorithmes de gestion des recettes, et pour fournir un environnement d'entraînement au RL-RMS, il est avantageux d’implémenter un simulateur de marché de voyage aérien. Un diagramme bloc de ce type de simulateur 300 est illustré à la Figure 3. Le simulateur 300 inclut un module de génération de demandes 302 qui est configuré pour générer des demandes de consommateurs simulées. Les demandes simulées peuvent être générées pour être statistiquement similaires à la demande observée sur une période historique pertinente, peuvent être synthétisées conformément à un autre modèle de demande, et/ou peuvent se baser sur un autre modèle de demande, ou combinaison de modèles. Les demandes simulées sont ajoutées à une file d’attente d’événements 304 qui est desservie par un GDS 118. Le GDS 118 peut effectuer les demandes de réservation correspondantes au système d’inventaire 200 et/ou à tout nombre de systèmes d’inventaire de compagnies aériennes concurrents simulés 122. Chaque système d’inventaire de compagnies aériennes concurrent 122 peut se baser sur un modèle fonctionnel similaire au système d’inventaire 200 mais peut mettre en œuvre une approche différente de gestion des recettes, par ex., le DP-RMS, dans son équivalent du module de gestion de recettes 202.

[0046] Un module de simulation de choix 306 reçoit les solutions de voyage disponibles fournies par les systèmes d’inventaire de compagnies aériennes 200, 122 provenant du GDS 118 et génère des choix de consommateurs simulés. Les choix consommateurs peuvent se baser sur des observations historiques de comportement de réservation de consommateurs, la sensibilité aux prix, et ainsi de suite, et peuvent se baser sur d’autres modèles de comportement du consommateur.

[0047] La perspective du système d’inventaire 200, module de génération de demandes 302, la file d’attente d’événements 304, le GDS 118, te simulateur de choix 306 et les systèmes d’inventaire de compagnies aériennes concurrents 122, comprennent collectivement un environnement d'exploitation simulé (c.-à-d. le marché du voyage aérien) dans lequel le système d’inventaire 200 est en compétition pour les réservations, cherche à optimiser sa génération de recettes. Aux fins de la présente invention, cet environnement stimulé est utilisé pour entraîner un RL-RMS, comme décrit plus en détail cidessous en référence aux Figures 4 à 7, et pour comparer tes performances du RL-RMS aux approches de gestion des recettes alternatives, comme décrit plus en détail ci-dessous en référence aux Figures 10 à 14. On notera cependant qu’un RL-RMS mettant en œuvre la présente invention fonctionnera de la même manière lorsqu’il interagit avec un marché de voyages aériens réel et qu’il n’est pas limité aux interactions avec un environnement simulé.

[0048] La Figure 4 est un diagramme bloc d’un RL-RMS 400 mettant en œuvre l'invention qui emploie une approche d’apprentissage Q. Le RL-RMS 400 on prend un agent 402 qui est un module logiciel configuré pour interagir avec l’environnement externe 404. L’environnement 404 peut être un marché de voyages aériens réels ou un marché de voyages aériens simulés, comme décrit ci-dessus en référence à la Figure 2. Conformément à un modèle bien connu de systèmes RL, l’agent 402 entreprend des actions qui influencent l’environnement 404 et observe des changements d’état de l’environnement, et reçoit des récompenses, en réponse à ces actions. En particulier, tes actions 406 entreprises par l’agent RL-RMS 402 comprennent les politiques tarifaires générées. L’état de l’environnement 408, pour tout vol donné, comprend la disponibilité (c.-à-d. le nombre de places invendues), et le nombre de jours restant jusqu’au départ. La récompense 410 comprend tes recettes générées à partir des réservations de sièges. L’objectif RL de l’agent 402 par conséquent de déterminer les actions 406 (c.-à-d. les politiques) pour chaque état observé de l’environnement qui maximise tes récompenses totales 410 (par ex., tes recettes par vol).

[0049] Le RL-RMS d’apprentissage Q 202 conserve un tableau action valeur 412, qui comprend des estimations de valeur Q[s, a] pour chaque état s et chaque action disponible (politique tarifaire) a. Afin de déterminer l’action à entreprendre dans l’état actuel s, l’agent 402 est configuré pour demander 414 le tableau action - valeur 412 pour chaque action disponible a, pour récupérer les estimations de valeur correspondantes 0[s, a], et pour sélectionner une action basée sur une politique d’action actuelle π. En fonctionnement en direct sur un marché réel, la politique d’action π peut être de sélectionner l’action a qui maximise Q dans l'état actuel s (c.-à-d. une politique d’action « avide »). Cependant, au moment de l'entraînement du RL-RMS, par ex. hors ligne en utilisant une demande simulée, ou en ligne en utilisant des observations récentes de comportements de consommateurs, une politique d’action alternative peut être privilégiée, de sorte qu’un politique d’action « avide en ε », qui équilibre exploitation des données action-valeur actuelles avec l’exploration des actions présentement considérées comme étant de faible valeur mais qui peuvent finalement conduire à des recettes plus élevées via des états inexplorés ou en raison de changements sur le marché.

[0050] Après avoir entrepris une action a, l’agent 402 reçoit un nouvel état s’ et une récompense R de l’environnement 404 et l’observation en résultant (s', a, Λ) est passée 418 à un module logiciel de mise à jour Q 420. Le module de mise à jour Q 420 est configuré pour mettre à jour le tableau action - valeur 412 en récupérant 422 une valeur estimée actuelle 0 de la paire état-action (s, a) et en stockant 424 une estimation révisée Q_k+i basée sur le nouvel état s’ et la récompense R actuellement observée en réponse à l’action a. Les détails des étapes de mise à jour d’apprentissage Q appropriés sont bien connus des hommes de métier de l’apprentissage de renforcement, et sont par conséquent omis pour éviter des explications supplémentaires non nécessaires.

[0051] La Figure 5 présente un tableau 500 des performances du RL-RMS d’apprentissage Q 400 interagissant avec un environnement simulé 404. L’axe horizontal 502 représente le nombre d’années de données du marché simulées (en milliers), alors que l’axe vertical 504 représente te pourcentage de recettes cibles 506 atteintes par le RL-RMS 400. La courbe de recette 508 illustre que te RL-RMS est en effet capable d’apprendre pour optimiser tes revenus vers l’objectif 506, cependant son taux d’apprentissage est extrêmement long et il atteint approximativement 96 % des recettes cibles uniquement après une expérience de 160 000 années de données simulées.

[0052] La Figure 6A est un diagramme bloc d’un RL-RMS 600 alternatif mettant en œuvre l'invention qui emploie une approche d’apprentissage Q profond (DQL). Les interactions de l’agent 402 avec l’environnement 404 et le processus de prise de décision de l’agent 402 sont sensiblement tes mêmes que dans te RL-RMS d’apprentissage Q sous forme de tableau, comme indiqué par l’utilisation des mêmes chiffres de référence et par conséquent, elles ne doivent pas être décrites à nouveau. Dans le DQL RL-RMS, te tableau action - valeur est remplacé par un dispositif d’approximation de fonction, notamment avec un réseau neuronal profond (DNN) 602. Dans un mode de réalisation exemplaire, pour un avion ayant environ 200 sièges, te DNN 602 comprend quatre couches cachées, chaque couche cachée comprenant 100 nœuds, entièrement connectés. Par conséquent, l’architecture exemplaire peut être définie comme (k, 100,100,100,100, ri), si k est la longueur de l’état (c.-à-cL k^-^: 2 pour un état consistant en la disponibilité et en jours avant le départ) et n est 1e nombre d’actions possibles. Dans un mode de réalisation alternatif, 1e DNN 602 peut comprendre une architecture de réseau d’abattage, dans laquelle le réseau de valeur est (k, 100, 100,100,100,1), et te réseau d’avantage est (k, 100,100,100, 100, ri). Dans des simulations, les inventeurs ont trouvé que l’utilisation d’une architecture réseau d’abattage peut fournir un léger avantage sur un réseau action - valeur unique. Cependant, on n’a pas trouvé que l’amélioration était essentielle pour les performances générales de l’invention.

[0053] Dans te DQL RL-RMS, les observations de l’environnement sont sauvegardées dans une mémoire de relecture 604. Un module logiciel DQL est configuré pour échantillonner les transitions (s, a) -» (s’, J?) à partir de la mémoire de relecture 604 pour une utilisation pendant l’entraînement du DNN 602. Des modes de réalisation de l’invention emploient notamment une forme spécifique de relecture d’expérience classée par ordre de priorité dont on a trouvé qu’elle atteint de bons résultats tout en utilisant des nombres relativement petits de transitions observées. Une approche commune dans le DQL est d’échantillonner tes transitions à partir d’une mémoire de relecture complètement au hasard, pour éviter les corrélations qui peuvent empêcher la convergence de la pondération du DNN. Une approche de relecture par ordre de priorité alternative et connue échantillonne les transitions avec une probabilité qui est basée sur une estimation d’erreur actuelle de la fonction de valeur pour chaque état, de sorte que les états ayant une plus grande erreur (et par conséquent si les plus grandes améliorations de l’estimation peuvent être attendues) sont plus susceptibles d’être échantillonnés.

[0054] L’approche de relecture par ordre de priorité employée dans des modes de réalisation de la présente invention est différente, et se base sur l’observation selon laquelle une solution intégrale du problème d’optimisation des recettes (par ex., en utilisant le DP) commence par l’état terminal, c.-à-d. au départ d’un vol, lorsque tes recettes finales actuelles sont connues, et repart en arrière via une « pyramide » extensible de champs possibles à l’état terminal pour déterminer la fonction de valeur correspondante. Dans chaque état d'entraînement, des niveaux de transition sont échantillonnés à partir de la mémoire de relecture conformément à une distribution statistique qui donne initialement des priorités aux transitions proches de l’état terminal. Sur de multiples étapes d'entraînement au cours d'une période d'entraînement, tes paramètres de distribution sont ajustés, de sorte que la priorité change dans le temps vers des transitions qui sont plus loin de l’état terminal. La distribution statistique est néanmoins choisie, de sorte que toute transition a encore une chance d’être sélectionnée dans tout lot, de sorte que le DNN continue à apprendre la fonction action - valeur sur l’ensemble de l’espace d’état d’intérêts et n’« oublie » en effet pas ce qu’il a appris sur les états proches du terminal, au fur et à mesure qu’il acquiert davantage de connaissances sur les états précédents.

[0055] Afin de mettre à jour le DNN 602, te module DQL 606 récupère 610 tes paramètres de pondération Θ du DNN 602, effectue une ou plusieurs étapes d'entraînement, par ex., en utilisant un algorithme de rétropropagation conventionnel, à l’aide des mini-lots échantillonnés et envoie 612 ensuite une mise à jour 0 au DNN 602. Les détails du procédé d’échantillonnage et de mise à jour, conformément à une approche de réponse par ordre de priorité mettant en œuvre (invention est illustré dans (organigramme 620 présenté à la Figure 6B. À (étape 622, un index temporel t est initialisé pour représenter un intervalle de temps immédiatement avant le départ. Dans un mode de réalisation exemplaire, ia durée entre (ouverture des réservations et le départ est divisée en 20 points de collecte de données (DCP), de sorte que (heure de départ Z'correspond à t = 21, et par conséquent la valeur initiale de (index temporel t dans le procédé 620 est f = 20. À (étape 624, les paramètres de (algorithme de mise à jour du DNN sont initialisés. Dans un mode de réalisation exemplaire, (algorithme de mise à jour Adam (c.-à-d. une forme améliorée de descente de gradient stochastique) est employé. À (étape 626, un compteur n est initialisé. Il contrôle le nombre d’itérations (et de mini-lots) utilisés dans chaque mise à jour du DNN. Dans un mode de réalisation exemplaire, la valeur du compteur est déterminée en utilisant une valeur de base no, et une valeur proportionnelle au nombre restant d’intervalles de temps jusqu’au départ, donnée parwî(T-/). Concrètement, no peut-être fixé à 50 et n\ à 20. Cependant en simulation tes inventeurs ont trouvé que ces valeurs n’étaient pas particulièrement essentielles. Le principe de base est que comme (algorithme revient en arrière dans le temps (par ex., vers (ouverture des réservations), plus d’itérations sont utilisées pendant (entraînement du DNN.

[0056] À (étape 628 a, un mini-lot échantillon est sélectionné de manière aléatoire à partir de ces échantillons dans (ensemble de relecture 604 correspondant à la période définie par te présent index t et (heure de départ T. Ensuite, à (étape 630, une étape de descente de gradient est entreprise par te dispositif de mise à jour en utilisant le mini-lot sélectionné. Ce processus est répété 632 à (étape temporelle / jusqu’à ce que toutes les itérations n ait été achevées. L’index temporel t est ensuite décrémenté 634 et s’il n’a pas atteint une commande nulle, il revient à l’étape 624.

[0057] Dans un mode de réalisation exemplaire, la taille de l’ensemble de relecture s’élevait à 6 000 échantillons, correspondant aux données collectées à partir de 300 vols sur 20 intervalles de temps par vol. Cependant, on a observé que ce nombre n’est pas essentiel et une gamme de valeurs peut être utilisée. Par ailleurs, la taille du mini-lot s’élevait à 600, ce qui a été déterminé sur la base des paramètres de simulation particuliers utilisés.

[0058] La Figure 7 représente un tableau 700 des performances du DQL RLRMS 600 interagissant avec un environnement simulé 404. L’axe horizontal 702 représente le nombre d’années de données du marché simulées, tandis que l’axe vertical 704 représente le pourcentage de recettes cibles 706 atteintes par le RLRMS 600. La courbe de recettes 700 illustre la capacité du DQL RL-RMS 600 à apprendre pour optimiser les recettes vers la cible 706 bien plus rapidement que le RL-RMS 400 d’apprentissage sous forme de tableau, atteignant environ 99 % des recettes cibles avec seulement cinq années de données simulées et proche de 100 % avec environ 15 années de données simulées.

[0059] Un procédé alternatif d’initialisation d’un RL-RMS 400, 600 est illustré par l’organigramme 800 représenté à la Figure 8A. Le procédé 800 utilise un RMS existant, par ex, un DP-RMS, comme source pour le « transfert de connaissances » vers un RL-RMS. L’objectif de ce procédé est que, dans un état donné s, le RL-RMS devrait initialement générer la même politique tarifaire que celle qui serait produite en utilisant le RMS source à partir duquel le RL-RMS est initialisé. Le principe général contenu par le processus 800 consiste par conséquent à obtenir une estimation de fonction action - valeur équivalente correspondant au RMS source, et ensuite à utiliser cette fonction pour initialiser le RL-RMS, par ex., en fixant les valeurs correspondantes d’une représentation action - valeur sous forme de tableau dans un mode de réalisation d’apprentissage Q, ou par l’entraînement supervisé du DNN dans un mode de réalisation DQL.

[0060] Dans le cas d’un DP-RMS source, cependant, il existe deux difficultés à surmonter en exécutant une transformation vers une fonction action - valeur équivalente. Premièrement, un DP-RMS n'emploie aucune fonction action valeur. En tant que processus d’optimisation basé sur un modèle, la DP produit une fonction de valeur, Kws(srms), basé sur l'hypothèse que des actions optimales sont toujours entreprises. Le prix de tarif correspondant peut être obtenu à partir de cette fonction de valeur, et est utilisé pour calculer la politique tarifaire au moment où l’optimisation est effectuée. Il est par conséquent nécessaire de modifier la fonction de valeur obtenue à partir du DP-RMS pour inclure la dimension d’action. Deuxièmement, la DP emploie une étape temporelle dans sa procédure d’optimisation qui consiste, en pratique, à fixer une toute petite valeur de sorte qu’il y a au maximum une demande de réservation attendue par étape temporelle. Tandis que de manière similaire, de petites étapes temporelles pourraient être employées dans un système RL-RMS, en pratique cela n’est pas souhaitable. Pour chaque étape temporelle dans le RL, il doit y avoir une action et une certaine rétroaction à partir de l'environnement. L’utilisation de petites étapes temporelles requiert par conséquent beaucoup plus de données d’entraînement et, en pratique, la taille de l’étape temporelle RL devrait être fixée en tenant compte des données disponibles et de la capacité de la cabine. En pratique, c’est acceptable parce que le marché et la politique tarifaire ne changent pas rapidement. Cependant ces résultats sont incohérents avec le nombre d’étapes temporelles dans la formule DP et le système RL. De plus, un RL-RMS peut être implémenté pour tenir compte des informations d’état supplémentaires qui ne sont pas disponibles pour un DP-RMS, tel qu’un comportement des concurrents en temps réel (par ex., le prix le plus bas proposé par les concurrents). Dans de tels modes de réalisation, ces informations d’état supplémentaires doivent également être incorporées dans la fonction action valeur utilisée pour initialiser le RL-RMS.

[0061 ] Par conséquent, à l’étape 802 du processus 800, la formule DP est utilisée pour calculer la fonction de valeur Frms(srms), et à l’étape 804, elle est ensuite transformée pour réduire le nombre d’étapes temporelles et inclure un état supplémentaire et des dimensions d’action, résultant en une fonction actionvaleur transformée <9«/,(srms, a). Cette fonction peut être échantillonnée 806 pour obtenir des valeurs pour une représentation action - valeur sous forme de tableau dans un RL-RMS d’apprentissage Q, et/ou pour obtenir des données pour l’entraînement supervisé du DNN dans un DQL RL-RMS pour approcher la fonction action - valeur transformée. Ainsi, à l’étape 808 les données échantillonnées sont utilisées pour réinitialiser le RL-RMS de manière appropriée.

[0062] La Figure 8B est un organigramme 820 illustrant plus en détail un procédé de transfert des connaissances mettant en œuvre l’invention. Le procédé 820 emploie un ensemble de « points de contrôle », {cp\,cpr}, pour représenter les intervalles de temps plus grands utilisés dans le système RLRMS. La durée entre chacun de ces points de contrôle est divisée en une pluralité de micro-étapes m correspondant aux intervalles de temps plus courts utilisés dans le système DP-RMS. Dans la discussion suivante, l'index tempsétape RL est dénoté par t, qui varie entre 1 et T, tandis que l’index d'étapes de micro-temps est dénoté ml, qui varie entre 0 et A£T, s’ils sont définis comme étant des étapes de micro-temps M du DP-RMS dans chaque temps-étape du RLRMS. En pratique, le nombre d’étapes temporelles du RL peut être, par exemple, de 20 environ. Pour le DP-RMS, les étapes de micro-temps peuvent être définies de sorte qu'il existe par exempte, une probabilité de 20 % selon laquelle une demande de réservation est reçue avec chaque intervalle, de sorte qu’il peut y avoir des centaines, même des milliers d'étapes de micro-temps dans la fenêtre de réservation ouverte.

[0063] L’algorithme général, conformément à l’organigramme 820 procède comme suit. Premièrement, à l’étape 822, l’ensemble de points de contrôle est établi. Un index t est initialisé à l’étape 824, correspondant au début du deuxième intervalle de temps RL-RMS, c.-à-d. cp?.. Une paire de boucles imbriquées est ensuite exécutée. Dans la boucle externe, à l’étape 826, une valeur équivalente de la fonction action - valeur RL Qrl(s, a) est calculée correspondant à un « état virtuel » défini en une fois une micro-étape préalable au point de contrôle actuel, et la disponibilité x, i.e. s = (cp_t - L x). Le comportement supposé du RL-RMS dans cet état virtuel se base sur la prise en compte du fait que le RL effectue une action à chaque point de contrôie et conserve la même action pour toutes les étapes de micro-temps entre deux points de contrôle consécutifs. À l’étape 828, un index de micro-étapes mt est initialisé à la micro-étape immédiatement précédente, c.-à-d. cp_t-2. La boucle interne calcule ensuite les valeurs correspondantes de la fonction action - valeur RL Qrl(s, a) à l’étape 830 en travaillant en arrière à partir de la valeur calculée à l’étape 826. Cette boucle continue jusqu’à ce que le précédent point de contrôle soit atteint, c.-à-d. lorsque mt atteint zéro 832. La boucle externe continue alors jusqu’à ce que tous les intervalles de temps RL aient été calculés, c.-à-d. lorsque t = T 834.

[0064] Une description mathématique exemplaire des calculs dans le processus 820 sera à présent décrite. Dans le DP-RMS, la fonction de valeur DP peut être exprimée comme suit :

V_RMS(mt,x) = Max_a[l_mt * P_mt(a) * (R_mt(d) + V_RMS(mt + l,x - 1)) + (1 - l_mt *

Pmtfaï) * + 1,%)] où :

l_mt est la probabilité d’avoir une demande à l’étape mt;

P_mt(a) est la probabilité de recevoir une réservation d’une demande à l’étape mt, à condition que l’action a;

R_mt(a) constitue des recettes moyennes à partir d’une réservation à l’étape mt, à condition que l’action a.

[0065] En pratique, l_mt et les étapes de micro-temps correspondantes sont définies en utilisant le volume prévu de demande et le modèle d'arrivée (et est traité comme étant indépendant du temps), P_mt(a) est calculé sur la base d’une distribution de volonté de payer à la demande du consommateur (qui est dépendante du temps), R_mt(a) est calculé sur la base d’un modèle de choix du consommateur (avec des paramètres dépendant du temps), et x est fournie par le module de réservation de compagnie aérienne qui est supposé inchangé entre DP-RMS et RL-RMS.

[0066] Par ailleurs :

- θ pour tous les x,

QriXcPt, ^x> ^a~) ~ θ pour tous les x,a

V_RL(mt, 0) = 0 pour tous les mt

QRiTmt. 0, a) = 0 pour tous les mt, a.

[0067] Ensuite, pour tous les mt = cp_t - 1 (c.-à-d. correspondant à l’étape 826) la valeur équivalente de la fonction action - valeur RL peut être calculée comme suit :

QrlQ^P, X, d) Imt * PmtQT) * ⁺ ^Ri(jttt + L,X 1)] + (1 (^)) * Krjt, (mt + l,x) si = Max_aQ_RL(mt,x,d) [0068] Par ailleurs, pour tous les cp_t_₁ < mt < cp_t - 1 (c.-à-d. correspondant à l’étape 830) la valeur équivalente de la fonction action - valeur RL peut être calculée comme suit :

Q_RL(mt,x,d) = l_mt * P_mt(a) * (P_mt(a) + Q_RL(mt + Ι,χ- l,a)) + (1 - l_mt * P_mt(a)) *Q_RL(mt + l,x,d) [0069] Par exemple, prendre les valeurs de t aux points de contrôle, le tableau Q(t,x,a) est obtenue, ce qui peut être utilisé pour initialiser le réseau neuronal à l’étape 808, de manière supervisée. En pratique, on a trouvé que les tableaux de valeur DP-RMS et RL-RMS sont légèrement différents. Cependant, ils donnent lieu à des politiques qui sont mises en correspondance à 99 % environ dans des simulations, avec des recettes obtenues à partir de ces politiques également presque identiques.

[0070] Avantageusement, employer le processus 800 fournit non seulement un point de départ valide pour RL qui est par conséquent attendu initialement pour réaliser l’équivalent du DP-RMS mais stabilise également l’entraînement suivant du RL-RMS. Des procédés d’approximation de fonctions, telles que l’utilisation d'un DNN, ont généralement la propriété que l’entraînement modifie non seulement la sortie des états/actions connu(e)s, mais de tous les états/actions, notamment ceux qui n’ont pas été observés dans les données historiques. Cela peut être bénéfique, dans la mesure où cela tire profit du fait que des états/actions similaires sont susceptibles d’avoir des valeurs similaires. Cependant pendant l’entraînement, cela peut également donner lieu à de grands changements dans les valeurs Q de certains états/actions qui produisent des actions optimales fausses. En employant un processus d’initialisation 800, toutes les valeurs Q initiales (et les paramètres DNN, dans les modes de réalisation DQL RL-RMS) sont fixés sur des valeurs significatives, réduisant ainsi l’incidence de maxima locaux faux pendant l'entraînement.

[0071] Dans la discussion ci-dessus, le RL-RMS et le DQL RL-RMS d’apprentissage Q ont été décrits comme des modes de réalisation discrets de l’invention. En pratique cependant, il est possible de combiner tes deux approches dans un seul mode de réalisation afin d’obtenir le bénéfice de chacun. Comme il a été montré, te DQL RL-RMS est capable d’apprendre et de s’adapter au changement en utilisant des quantités plus petites de données que le RL-RMS d’apprentissage Q et peut efficacement continuer à explorer des stratégies alternatives en ligne par l’entraînement et l’adaptation continus en utilisant des procédés de relecture d’expérience Cependant, sur un marché stable, l’apprentissage Q est capable d’exploiter efficacement les connaissances contenues dans le tableau action - valeur. Il peut par conséquent être souhaitable, le cas échéant, de commuter entre l’apprentissage Q et le fonctionnement du DQL d’un RL-RMS.

[0072] La Figure 9 est un organigramme 900 illustrant un procédé de commutation du fonctionnement DQL au fonctionnement d’apprentissage Q. Le procédé 900 inclut le bouclage 902 de toutes les valeurs discrètes de s et a composant le tableau de consultation d’apprentissage Q et évaluant 904 les valeurs Q correspondantes qui utilisent le DNN d’apprentissage Q profond. Avec le tableau ainsi peuplé de valeurs correspondant précisément à l’état actuel du DNN, le système commute sur l’apprentissage Q à l’étape 906.

[0073] Le processus inverse, c.-à-d. la commutation de l’apprentissage Q au DQL, est également possible, et fonctionne de manière analogue aux étapes d’échantillonnage 806 et d’initialisation 808 du processus 800. En particulier, les valeurs Q courantes dans le tableau de consultation d’apprentissage Q sont utilisées comme des échantillons de la fonction action - valeur dont le DQL DNN doit se rapprocher et qu’il doit utiliser comme une source de données pour l’entraînement supervisé du DNN. Une fois que l’entraînement a convergé, le système revient au DQL à l’aide du DNN entraîné.

[0074] Les Figures 10 à 14 présentent des tableaux des résultats de simulation du marché illustrant les performances d’un mode de réalisation exemplaire du RL-RMS en simulation en utilisant le modèle de simulation 300, en présence de systèmes concurrents 122 employant des approches de RMS alternative. Pour toutes les simulations, les paramètres principaux sont : une capacité de vol de 50 places ; une structure tarifaire « ouverte » ayant 10 classes de tarifs ; la gestion des recettes basées sur 20 points de collecte des données (DCP) sur un horizon de 52 semaines ; et la supposition de deux segments consommateurs avec des caractéristiques de sensibilité aux prix différentes (c.-àd. les courbes FRat5). Trois systèmes de gestion des recettes différents sont stimulés : Le DP-RMS ; le DQL-RMS ; et ΓΑΤ80, un algorithme de gestion des recettes moins sophistiquées qui peut être employé par une compagnie aérienne à bas prix (low cost), qui ajuste tes limites de réservation comme un « accordéon » avec un objectif d’atteindre un facteur de charge cible de 80 pour cent.

[0075] La Figure 10 illustre un tableau 1 000 de performances comparatives du DP-RMS par rapport à ΓΑΤ80 sur le marché simulé. L’axe horizontal 1 002 représente la durée de fonctionnement (en mois). Les recettes sont étalonnées par rapport à la cible du DP-RMS, et ainsi les performances du DP-RMS, indiquées par la courbe supérieure 1 004, fluctuent à 100 % environ pendant toute la période simulée. En compétition avec le DP-RMS, l’algorithme AT80 atteint constamment 89 % environ des recettes étalonnées, comme illustré par la courbe inférieure 1 006.

[0076] La Figure 11 illustre un tableau 1100 de performances comparatives du DQL-RMS par rapport à ΓΑΤ80 sur le marché simulé. Là encore, l’axe horizontal 1 102 représente la durée de fonctionnement (en mois). Comme l’illustre la courbe supérieure 1 104, le DQL-RMS atteint initialement des recettes comparables à ΓΑΤ80, comme illustré par la courbe inférieure 1106 qui est en dessous de l’étalonnage du DP-RMS. Cependant, au cours de la première année (c.-à-d. un horizon de réservation unique), le DQL-RMS apprend sur le marché, et augmenter les recettes pour dépasser le DP-RMS au détriment du même concurrent. Le DQL-RMS atteint notamment 102,5 % de recettes d’étalonnage, et force les recettes du concurrent à descendre jusqu’à 80 % de la valeur d’étalonnage.

[0077] La Figure 12 illustre les courbes de réservation 1 200 illustrant par ailleurs la manière avec laquelle le DP-RMS livre concurrence à ΙΆΤ80. L’axe horizontal 1 202 représente te temps, sur l’intégralité de l’horizon de réservation, à compter de l'ouverture d'un vol jusqu’au départ, tandis que l’axe vertical 1 204 représente la fraction de sièges vendus. La courbe inférieure 1 206 illustre des réservations pour la compagnie aérienne utilisant ΓΑΤ80 qui atteint finalement 80 % de la capacité vendue. La courbe supérieure 1 208 illustre tes réservations pour la compagnie aérienne utilisant le DP-RMS, qui atteint finalement un taux de réservation plus élevé de 90 % environ de la capacité vendue. Initialement, ΓΑΤ80 et le DP-RMS vendent des places approximativement au même tarif. Cependant, dans le temps, le DP-RMS vend constamment plus que ΓΑΤ80, donnant Heu à une utilisation plus élevée et à des recettes plus élevées, comme illustré par le tableau 1 000 de la Figure 10.

[0078] La Figure 13 illustre des cours de réservation 1 300 pour la concurrence entre le DQL-RMS et ΓΑΤ80. Là encore, l’axe horizontal 1 302 représente la durée, pendant tout l’horizon réservation à partir de l’ouverture d’un vol jusqu’au départ, tandis que l’axe vertical 1304 représente la fraction de sièges vendus. La courbe supérieure 1 306 illustre les réservations pour la compagnie aérienne utilisant ΓΑΤ80, qui là encore atteint finalement 80 % de la capacité vendue. La courbe inférieure 1 308 illustre les réservations pour la compagnie aérienne utilisant le DQL-RMS. Dans ce cas, ΓΑΤ80 maintient constamment une fraction de vente plus élevée jusqu’au DCP final Pendant les premiers 20 % de l’horizon réservation, ΓΑΤ80 vend initialement des sièges à un tarif plus élevé que le DQL-RMS, atteignant rapidement 30 % de la capacité, là où la compagnie aérienne utilisant le DQL-RMS a vendu uniquement ia moitié du nombre de sièges. Au cours des prochains 60 % de l’horizon de réservation, ΙΆΤ80 et le DQL-RMS vendent des places approximativement au même tarif. Cependant, au cours des derniers 20 % de l’horizon de réservation, le DQL-RMS vend des sièges à un taux bien plus élevé que ΙΆΤ80, atteignant éventuellement une utilisation légèrement plus élevée, ainsi que des recettes significativement plus élevées, comme illustré par le tableau 1 100 de la Figure 11.

[0079] Un aperçu supplémentaire des performances du DQL-RMS est fourni à la Figure 14, qui présente un tableau 1 400 illustrant l’effet des politiques tarifaires sélectionnées par le DP-RMS et le DQL-RMS en concurrence l’un avec l’autre sur le marché simulé. L’axe horizontal 1 402 représente l’heure de départ, en semaines, c.-à-d.que l’heure d’ouverture des réservations est représentée par le côté droit éloigné du tableau 1 400 et la progression temporelle jusqu’au jour du départ est représentée par le côté gauche éloigné. L’axe vertical 1 404 représente le tarif le plus bas dans les politiques sélectionnées par chaque approche de gestion des recettes dans le temps, en tant que mandataire à valeur unique pour les politiques de tarif complètes. La courbe 1 406 illustre le tarif te plus bas disponible fixé par le DP-RMS, tandis que la courbe 1 408 illustre le tarif le plus bas disponible fixé par le DQL-RMS.

[0080] Comme on peut le voir, dans la région 1 410 représentant la période de vente initiale, te DQL-RMS fixe généralement des points de prix plus élevés que le DP-RMS (c.-à~d. que e tarif disponible le plus bas est plus élevé). L’effet de cela est d’encourager les consommateurs à faibles revenus (c.-à-d. sensibles aux prix) à réserver auprès de la compagnie aérienne utilisant le DP-RMS. Ceci est pertinent avec le taux de vente initialement plus élevé par le concurrent dans le scénario présenté au tableau 1 300 de la Figure 13. Dans le temps, les classes de tarifs plus bas sont fermées par les deux compagnies aériennes, les tarifs disponibles tes plus bas dans tes politiques générés à la fois par ie DP-RMS et le DQP-RMS augmentent progressivement. En direction de leur départ, dans la région 1 412, les tarifs disponibles tes plus bas auprès de la compagnie aérienne utilisant te DP-RMS augmentent considérablement et sont supérieurs à ceux encore disponibles auprès de la compagnie aérienne utilisant le DQL-RMS. C’est la période pendant laquelle te DQL-RMS augmente significativement le taux de vente, vendant la capacité restante plus élevée sur son vol à des prix plus élevés que ceux qui auraient été obtenus, si les sièges avaient été vendus plutôt pendant la période de réservation. En résumé, en concurrence avec le DP-RMS, le DQL-RMS ferme généralement des classes tarifaires plus économiques en plus du départ, mais retient plus de classes ouvertes proches du départ. L’algorithme DQL-RMS atteint ainsi des recettes plus élevées en apprenant sur tes comportements sur le marché concurrentiel, et en « inondant » les concurrents avec des passagers à faible rendement plus tôt dans la fenêtre de réservation, et en utilisant la capacité ainsi réservée à vendre des sièges à des passagers à rendement plus élevé plus tard dans la fenêtre de réservation.

[0081] On notera que bien que des modes de réalisation particuliers et des variations de l’invention ont été décrits dans les présentes, d’autres modifications et alternatives seront apparentes aux hommes de métier spécialisés dans les arts pertinents. En particulier, les exemptes sont offerts à titre d’illustration des principes de l'invention et pour apporter un nombre de procédés et d’arrangements spécifiques pour mettre en œuvre ces principes. En général, les modes de réalisation de l’invention s’appuient sur la fourniture d’agencements techniques selon lesquelles les techniques d’apprentissage de renforcement, et notamment les approches d’apprentissage Q et/ou d’apprentissage Q profond, sont employées pour sélectionner des actions, à savoir la détermination des politiques tarifaires, en réponse aux observations d’un état d’un marché et aux récompenses reçues du marché sous la forme de recettes. L’état du marché peut inclure l’inventaire disponible d’un produit périssable, tel que des sièges d’avion et une période restante pendant laquelle l’inventaire doit être vendu. Les modifications les extensions des modes de réalisation de l’invention peuvent inclure l’ajout d’autres variables d’état, tels que tes informations de tarification du concurrent (par ex., les prix tes plus bas et/ou autres prix proposés par les concurrents sur te marché) et/ou d’autres informations sur les concurrents ou te marché.

[0082] Par conséquent, les modes de réalisation décrits doivent être compris comme étant fournis à titre d’exemple dans le but d’enseigner les caractéristiques et tes principes généraux de l’invention mais ne doivent pas être interprétés comme limitant la portée de l’invention.

i revendications modifiées,

Claims

REVENDICATIONS :

1. Un procédé d’apprentissage de renforcement pour un agent de gestion des ressources (402) dans un système (200) pour gérer un inventaire des ressources périssables ayant un horizon de vente, tout en cherchant à optimiser les recettes générées à partir de celui-ci, dans lequel l’inventaire a un état associé comprenant une disponibilité restante des ressources périssables et une période restante de l’horizon de vente, le procédé comprenant :

la génération d’une pluralité d’actions (406), chaque action comprenant la publication de données qui définissent un programme de tarification concernant les ressources périssables restantes dans l’inventaire ;

la réception, en réponse à la pluralité d’actions, d’une pluralité correspondante d’observations, chaque observation comprenant une transition dans l’état (408) associé à l’inventaire et une récompense associée (410) sous la forme de recettes générées par la vente des ressources périssables ;

le stockage des observations reçues dans une mémoire de relecture (604) ; l’échantillonnage périodique, à partir de la mémoire de relecture (604), d’un lot aléatoire d’observations (608) conformément à un algorithme d’échantillonnage de relecture par ordre de priorité, dans lequel, tout au long d’une période d entraînement, une distribution de probabilité pour la sélection d’observations dans le lot aléatoire est progressivement adaptée à partir d’une distribution favorisant la sélection d’observations correspondant aux transitions proches d’un état terminal vers une distribution favorisant la sélection d’observations correspondant aux transitions proches d’un état initial ; et (utilisation de chaque lot aléatoire d’observations pour mettre à jour (612) les paramètres de pondération (610) d’un réseau neuronal (602) qui comprend un dispositif d’approximation de fonction action - valeur de (agent de gestion des ressources, de sorte que lorsqu’il est fourni avec un état d’inventaire d’entrée et une action d entrée, une sortie du réseau neuronal plus proche se rapproche d’une vraie valeur de génération de (action d’entrée, tandis qu’il est dans l’état d’inventaire d’entrée, dans lequel le réseau neuronal peut être utilisé pour sélectionner chacune d’une pluralité d’actions générées selon un état correspondant associé à (inventaire.
2 revendications modifiées, copie au propre

2. Le procédé selon la revendication 1 dans lequel le réseau neuronal (602) est un réseau neuronal profond.
3. Le procédé selon la revendication 1 ou 2 comprenant par ailleurs l’initialisation du réseau neuronal (602) en :

déterminant (802) une valeur de fonction associée au système de gestion des recettes existant, dans lequel la valeur de fonction mappe les états associés à l’inventaire à des valeurs estimées correspondantes ;

transformant (804) la fonction de valeur dans une fonction action - valeur transformée correspondante adaptée à l’agent de gestion des ressources, dans lequel la transformation comprend la mise en correspondance d’une taille d’étape temporelle avec une étape temporelle associée à l’agent de gestion des ressources et l’ajout de dimensions d’action à la fonction de valeur ;

échantillonnant (806) la fonction action - valeur transformée pour générer un ensemble de données d’entraînement pour le réseau neuronal ; et entraînant (820) le réseau neuronal en utilisant l’ensemble de données d’entraînement.
4. Le procédé selon l’une quelconque des revendications 1 à 3 comprenant par ailleurs la configuration de l’agent de gestion des ressources (402) pour commuter entre l’approximation de fonction action - valeur en utilisant le réseau neuronal (602) et l’approche d'apprentissage Q basée sur une représentation sous forme de tableau de la fonction action - valeur, dans lequel la commutation comprend :

pour chaque état et action (902), le calcul (904) d’une valeur d’action correspondante en utilisant le réseau neuronal (602) et en peuplant une entrée dans un tableau de consultation action - valeur (412) avec la valeur calculée ; et la commutation (906) vers un mode de fonctionnement d’apprentissage Q en utilisant le tableau de consultation action-valeur (412).
5. Le procédé selon la revendication 4 dans lequel la commutation comprend par ailleurs :

l’échantillonnage du tableau de consultation action - valeur pour générer un ensemble de données d’entraînement pour le réseau neuronal ;

l’entraînement du réseau neuronal en utilisant l’ensemble de données revendications modifiées, copie au propre d'entraînement ; et la commutation vers un modèle de fonctionnement d’approximation de fonction du réseau neuronal en utilisant le réseau neuronal entraîné.
6. Le procédé selon l’une quelconque des revendications 1 à 4, dans lequel des actions générées sont transmises à un simulateur de marché (300), et des observations sont reçues du simulateur de marché.
7. Le procédé selon la revendication 6, dans lequel le simulateur de marché (300) comprend un module de génération de demandes simulé (302), un système de réservations simulé (118) et un module de simulation de choix (306).
8. Le procédé selon la revendication 7 dans lequel le simulateur de marché (300) comprend par ailleurs un ou plusieurs systèmes d’inventaire concurrents simulés (122).
9. Un système (200) pour gérer un inventaire de ressources périssables ayant un horizon de vente, tout en cherchant à optimiser les recettes générées à partir de celui-ci, dans lequel l’inventaire a un état associé comprenant une disponibilité restante des ressources périssables et une période restante de l’horizon de vente, le système comprenant :

un module d’agent de gestion des recettes mis en œuvre par ordinateur (402) ;

un module de réseau neuronal mis en œuvre par ordinateur (602) comprenant un dispositif d’approximation de fonction action - valeur de l’agent de gestion des ressources (402) ;

un module de mémoire de relecture (604) ; et un module d’apprentissage mis en œuvre par ordinateur(606), dans lequel le module d’agent de gestion des recettes(402) est configuré pour :

générer une pluralité d’actions (406), chaque action étant déterminée par la demande au module du réseau neuronal en utilisant un état actuel associé à I inventaire et comprenant des données de publications définissant revendications modifiées, copie au propre un programme de tarification concernant les ressources périssables restant dans l’inventaire ;

recevoir, en réponse à la pluralité d’actions, une pluralité d’observations correspondante, chaque observation comprenant une transition dans l’état (408) associé à l’inventaire et une récompense associée (410) sous la forme de recettes générées à partir de la vente des ressources périssables ; et stocker, dans le module de mémoire de relecture (604), les observations reçues, dans lequel le module d’apprentissage (606) est configuré pour : échantillonner périodiquement, à partir de la mémoire de relecture (604), un lot aléatoire d’observations (608) conformément à un algorithme d’échantillonnage de relecture par ordre de priorité dans lequel, tout au long d’une période d’entraînement, une distribution de probabilité pour la sélection d’observations dans le lot aléatoire est progressivement adaptée à partir d’une distribution favorisant la sélection d’observations correspondant aux transitions proches d’un état terminal vers une distribution favorisant la sélection d’observations correspondant aux transitions proches d’un état initial ; et utiliser chaque lot aléatoire d’observations pour mettre à jour (612) les paramètres de pondération (610) du module du réseau neuronal (602), de sorte que lorsqu’il est fourni avec un état d’inventaire d’entrée et une action d entrée, une sortie du module du réseau neuronal (602) se rapproche plus près d’une vraie valeur de génération de l’action d’entrée tandis qu’il est dans l’état d’inventaire d’entrée.
10. Le système selon la revendication 9 dans lequel le module du réseau neuronal mis en œuvre par ordinateur (602) comprend un réseau neuronal profond.
11. Le système selon l’une quelconque des revendications 9 ou 10 comprend un module de simulation du marché mis en œuvre par ordinateur (300), dans lequel le module d’agent de gestion des ressources (402) est configuré pour transmettre les actions générées au module de simulation du marché, et pour recevoir les observations correspondantes du module de simulation du marché.

5 revendications modifiées, copie au propre
12. Le système selon la revendication 11, dans lequel le module de simulation du marché (300) comprenant un module de génération de la demande simulé (302), un système de réservation simulé (118), et un module de simulation de choix (306).
13. Le système selon la revendication 12 dans lequel le module de simulation du marché (300) comprend par ailleurs un ou plusieurs systèmes d’inventaire concurrents simulés (122).
14. Un système informatique (102) pour gérer un inventaire de ressources périssables ayant un horizon de vente, tout en cherchant à optimiser les revenus générés à partir de celui-ci, dans lequel l’inventaire a un état associé comprenant une disponibilité restante de ressources périssables et une période restante de l’horizon de vente, le système comprenant :

un processeur (104) ;

au moins un dispositif de mémoire (110) accessible par le processeur ; et une interface de communication (112) accessible par le processeur, dans lequel le dispositif de mémoire (110) contient une mémoire de relecture (604) et un corps d’instructions de programme (114) qui, lorsqu’il est exécuté par le processeur, amène le système informatique à implémenter un procédé comprenant les étapes :

de génération d’une pluralité d’actions (406), chaque action comprenant la publication, via l’interface de communication (112), de données définissant un programme de tarification concernant les ressources périssables restant dans l’inventaire ;

de réception, via l’interface de communication (112) et en réponse à la pluralité d’actions, d’une pluralité d’observations correspondante, chaque observation comprenant une transition dans l’état (408) associé à l’inventaire et une récompense associée (410) sous la forme de recettes générées par la vente des ressources périssables ;

de stockage des observations reçues dans la mémoire de relecture (604) ;

d’échantillonnage périodique, à partir de la mémoire de relecture (604), d’un lot aléatoire d’observations (608) conformément à un algorithme d’échantillonnage de relecture par ordre de priorité, dans lequel, tout au long revendications modifiées, copie au propre d’une période d’entraînement, une distribution de probabilité pour la sélection d'observations dans le lot aléatoire est progressivement adaptée à partir d’une sélection favorisant la distribution d’observations correspondant aux transitions proches d'un état terminal vers une sélection favorisant la distribution d’observations correspondant aux transitions proches d’un état initial ; et d’utilisation de chaque lot aléatoire d’observation pour mettre à jour (612) les paramètres de pondération (610) d’un réseau neuronal (602) qui comprend un dispositif d’approximation de fonction action - valeur de l’agent de gestion des ressources, de sorte que, lorsqu’il est fourni avec un état d'inventaire d’entrée et une action d’entrée, une sortie du réseau neuronal se rapproche plus près d’une vraie valeur de génération de l’action d’entrée tandis qu’il est dans l’état d’inventaire d’entrée, dans lequel le réseau neuronal peut être utilisé pour sélectionner chacune de la pluralité d’actions générées selon un état correspondant associé à l’inventaire.
15. Un programme d’ordinateur comprenant un code de programme pour exécuter les étapes du procédé selon l’une quelconque des revendications 1 à 8 lorsque ledit programme est exécuté sur un ordinateur.