JP7486507B2 - インベントリの管理および最適化のための強化学習システムおよび強化学習方法 - Google Patents
インベントリの管理および最適化のための強化学習システムおよび強化学習方法 Download PDFInfo
- Publication number
- JP7486507B2 JP7486507B2 JP2021547890A JP2021547890A JP7486507B2 JP 7486507 B2 JP7486507 B2 JP 7486507B2 JP 2021547890 A JP2021547890 A JP 2021547890A JP 2021547890 A JP2021547890 A JP 2021547890A JP 7486507 B2 JP7486507 B2 JP 7486507B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- inventory
- action
- observations
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 68
- 230000002787 reinforcement Effects 0.000 title claims description 23
- 238000005457 optimization Methods 0.000 title description 14
- 230000009471 action Effects 0.000 claims description 134
- 238000013528 artificial neural network Methods 0.000 claims description 63
- 230000006870 function Effects 0.000 claims description 56
- 230000000875 corresponding effect Effects 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 41
- 230000007704 transition Effects 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 21
- 230000006399 behavior Effects 0.000 claims description 15
- 238000004088 simulation Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 12
- 230000002860 competitive effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000007726 management method Methods 0.000 description 70
- 238000013459 approach Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 14
- 230000008901 benefit Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010006 flight Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Biodiversity & Conservation Biology (AREA)
Description
複数のアクションを生成するステップであって、各アクションが、インベントリ内に残っている消滅性リソースに関する価格設定スケジュールを定義するデータを公開することを含む、生成するステップと、
複数のアクションに応じて、対応する複数の観測を受信するステップであって、各観測が、インベントリに関連する状態の遷移と、消滅性リソースの販売から生成される収益の形の関連するリワードとを含む、受信するステップと、
受信された観測をリプレイメモリストア内に記憶するステップと、
優先順位付けされたリプレイサンプリングアルゴリズムに従って観測の無作為化されたバッチをリプレイメモリストアから周期的にサンプリングするステップであって、トレーニングエポックを通して、無作為化されたバッチ内の観測の選択に対する確率分布が、最終状態に近い遷移に対応する観測の選択を優先する分布から初期状態に近い遷移に対応する観測の選択を優先する分布に向かって漸進的に適応される、周期的にサンプリングするステップと、
入力インベントリ状態(input inventory state)および入力アクション(input action)が与えられるとき、ニューラルネットワークの出力が入力インベントリ状態にある間に入力アクションの生成の真の値をより密に近似するように、リソース管理エージェントのアクション値関数近似器(action-value function approximator)を備えたニューラルネットワークの重みパラメータを更新するために、観測の各無作為化されたバッチを使用するステップと
を含み、
ニューラルネットワークが、インベントリに関連する対応する状態に応じて生成される複数のアクションの各々を選択するために使用され得る、
方法が提供される。
既存の収益管理システムに関連する値関数を決定するステップであって、値関数が、インベントリに関連する状態を対応する推定値にマッピングする、決定するステップと、
値関数を、リソース管理エージェントに適応された、対応する変換されたアクション値関数に変換するステップであって、時間ステップサイズをリソース管理エージェントに関連する時間ステップに整合させ、アクションディメンション(action dimension)を値関数に追加するステップを含む、変換するステップと、
ニューラルネットワークに対するトレーニングデータセットを生成するために、変換されたアクション値関数をサンプリングするステップと、
トレーニングデータセットを使用して、ニューラルネットワークをトレーニングするステップと
を含み得る。
各状態およびアクションに対して、ニューラルネットワークを使用して対応するアクション値を計算し、アクション値ルックアップテーブル内のエントリーに計算値をポピュレートするステップと、
アクション値ルックアップテーブルを使用して、Q学習動作モードに切り替えるステップと
を含み得る。
ニューラルネットワークに対するトレーニングデータセットを生成するために、アクション値ルックアップテーブルをサンプリングするステップと、
トレーニングデータセットを使用して、ニューラルネットワークをトレーニングするステップと、
トレーニングされたニューラルネットワークを使用して、ニューラルネットワーク関数近似動作モデル(function approximation operation model)に切り替えるステップと
を含み得る。
コンピュータ実装されるリソース管理エージェントモジュールと、
リソース管理エージェントのアクション値関数近似器を備えた、コンピュータ実装されるニューラルネットワークモジュールと、
リプレイメモリモジュールと、
コンピュータ実装される学習モジュールと、
を備え、
リソース管理エージェントモジュールが、
複数のアクションを生成することであって、各アクションが、インベントリに関連する現在の状態を使用してニューラルネットワークモジュールに問い合わせることによって決定され、インベントリ内に残っている消滅性リソースに関する価格設定スケジュールを定義するデータを公開することを含む、生成することと、
複数のアクションに応じて、対応する複数の観測を受信することであって、各観測が、インベントリに関連する状態における遷移と、消滅性リソースの販売から生成される収益の形の関連するリワードとを含む、受信することと、
受信された観測をリプレイメモリモジュール内に記憶することと
を行うように構成され、
学習モジュールが、
優先順位付けされたリプレイサンプリングアルゴリズムに従って観測の無作為化されたバッチをリプレイメモリストアから周期的にサンプリングすることであって、トレーニングエポックを通して、無作為化されたバッチ内の観測の選択に対する確率分布が、最終状態に近い遷移に対応する観測の選択を優先する分布から初期状態に近い遷移に対応する観測の選択を優先する分布に向かって漸進的に適応される、周期的にサンプリングすることと、
入力インベントリ状態および入力アクションが与えられるとき、ニューラルネットワークモジュールの出力が入力インベントリ状態にある間に入力アクションの生成の真の値をより密に近似するように、ニューラルネットワークモジュールの重みパラメータを更新するために、観測の各無作為化されたバッチを使用することと
を行うように構成される、
システムが提供される。
プロセッサと、
プロセッサによってアクセス可能な、少なくとも1つのメモリデバイスと、
プロセッサによってアクセス可能な通信インターフェースと
を備え、
メモリデバイスが、リプレイメモリストアおよび一連のプログラム命令を含有し、プログラム命令が、プロセッサによって実行されると、コンピューティングシステムに、
複数のアクションを生成するステップであって、各アクションが、インベントリ内に残っている消滅性リソースに関する価格設定スケジュールを定義するデータを、通信インターフェースを介して公開することを含む、生成するステップと、
通信インターフェースを介して、複数のアクションに応じて、対応する複数の観測を受信するステップであって、各観測が、インベントリに関連する状態における遷移と、消滅性リソースの販売から生成される収益の形の関連するリワードとを含む、受信するステップと、
受信された観測をリプレイメモリストア内に記憶するステップと、
優先順位付けされたリプレイサンプリングアルゴリズムに従って観測の無作為化されたバッチをリプレイメモリストアから周期的にサンプリングするステップであって、トレーニングエポックを通して、無作為化されたバッチ内の観測の選択に対する確率分布が、最終状態に近い遷移に対応する観測の選択を優先する分布から初期状態に近い遷移に対応する観測の選択を優先する分布に向かって漸進的に適応される、周期的にサンプリングするステップと、
入力インベントリ状態および入力アクションが与えられるとき、ニューラルネットワークの出力が入力インベントリ状態にある間に入力アクションの生成の真の値をより密に近似するように、リソース管理エージェントのアクション値関数近似器を備えたニューラルネットワークの重みパラメータを更新するために、観測の各無作為化されたバッチを使用するステップと
を含む方法を実装させ、
ニューラルネットワークが、インベントリに関連する対応する状態に応じて生成される複数のアクションの各々を選択するために使用され得る、
コンピューティングシステムが提供される。
複数のアクションを生成するステップであって、各アクションが、インベントリ内に残っている消滅性リソースに関する価格設定スケジュールを定義するデータを公開することを含む、生成するステップと、
複数のアクションに応じて、対応する複数の観測を受信するステップであって、各観測が、インベントリに関連する状態の遷移と、消滅性リソースの販売から生成される収益の形の関連するリワードとを含む、受信するステップと、
受信された観測をリプレイメモリストア内に記憶するステップと、
優先順位付けされたリプレイサンプリングアルゴリズムに従って観測の無作為化されたバッチをリプレイメモリストアから周期的にサンプリングするステップであって、トレーニングエポックを通して、無作為化されたバッチ内の観測の選択に対する確率分布が、最終状態に近い遷移に対応する観測の選択を優先する分布から初期状態に近い遷移に対応する観測の選択を優先する分布に向かって漸進的に適応される、周期的にサンプリングするステップと、
入力インベントリ状態および入力アクションが与えられるとき、ニューラルネットワークの出力が入力インベントリ状態にある間に入力アクションの生成の真の値をより密に近似するように、リソース管理エージェントのアクション値関数近似器を備えたニューラルネットワークの重みパラメータを更新するために、観測の各無作為化されたバッチを使用するステップと
を含み、
ニューラルネットワークが、インベントリに関連する対応する状態に応じて生成される複数のアクションの各々を選択するために使用され得る、
コンピュータプログラム製品が提供される。
VRMS(mt,x)=Maxa[lmt*Pmt(a)*(Rmt(a)+VRMS(mt+1,x-1))+(1-lmt*Pmt(a))*VRMS(mt+1,x)]、式中、
lmtは、ステップmtにおいて要求を有する確率であり、
Pmt(a)は、アクションaを条件に、ステップmtにおいて要求からブッキングを受信する確率であり、
Rmt(a)は、アクションaを条件に、ステップmtにおけるブッキングからの平均収益である。
すべてのxに対して、VRL(cpT,x)=0、
すべてのx、aに対して、QRL(cpT,x,a)=0、
すべてのmtに対して、VRL(mt,0)=0、
すべてのmt、aに対して、QRL(mt,0,a)=0
である。
QRL(mt,x,a)=lmt*Pmt(a)*(Rmt(a)+VRL(mt+1,x-1))+(1-lmt*Pmt(a))*VRL(mt+1,x)、
式中、VRL(mt,x)=MaxaQRL(mt,x,a)
である。
QRL(mt,x,a)=lmt*Pmt(a)*(Rmt(a)+QRL(mt+1,x-1,a))+(1-lmt*Pmt(a))*QRL(mt+1,x,a)
102 インベントリシステム、航空会社インベントリシステム
104 プロセッサ
106 不揮発性メモリ/記憶デバイス、不揮発性記憶装置
108 データ/アドレスバス
110 揮発性記憶装置、揮発性メモリ
112 通信インターフェース
114 プログラム命令、一連のプログラム命令
116 インターネット
118 グローバルディストリビューションシステム(GDS)
120 データベース
122 インベントリシステム、代替航空会社インベントリシステム、競合システム
124 顧客端末
126 到着要求
128 ブッキング要求
130 応答
132 ブッキング要求
134 受入れ/拒否応答
136 ブッキング確認メッセージ
200 インベントリシステム、航空会社インベントリシステム
202 収益管理モジュール
204 インベントリ管理モジュール
206 通信チャネル
208 運賃データ、運賃データベース
210 履歴データ
212 応答する
214 要求
300 シミュレータ、シミュレーションモデル
302 需要生成モジュール
304 イベントキュー
306 選択シミュレーションモジュール、選択シミュレータ
400 RL-RMS、Q学習RL-RMS
402 エージェント
404 外部環境、環境
406 アクション
408 環境
410 リワード
412 アクション値表
414 問い合わせる
418 引き渡す
420 Q更新ソフトウェアモジュール
422 検索する
500 チャート
502 横軸
504 縦軸
506 目標
508 目標収益
600 RL-RMS
602 DNN
604 リプレイメモリストア、リプレイセット
606 DQLモジュール
610 検索する
612 送る
632 繰り返す
634 減分する
700 チャート
702 横軸
704 縦軸
706 目標
708 収益曲線
800 方法、プロセス
806 サンプリングする、サンプリング
808 初期化
820 流れ図、方法、プロセス
900 流れ図、方法
902 ルーピング
904 評価する
1000 チャート
1002 横軸
1004 上の曲線
1006 下の曲線
1100 チャート
1102 横軸
1104 上の曲線
1106 下の曲線
1200 ブッキングカーブ
1202 横軸
1204 縦軸
1206 下の曲線
1208 上の曲線
1300 ブッキングカーブ
1302 横軸
1304 縦軸
1306 上の曲線
1308 下の曲線
1400 チャート
1402 横軸
1404 縦軸
1406 曲線
1408 曲線
1410 領域
1412 領域
Claims (15)
- そこから生成される収益を最適化しようと努めながら、販売範囲を有する消滅性リソースのインベントリを管理するためのシステム内のリソース管理エージェントに対する強化学習の、コンピュータによって実装される方法であって、前記インベントリが、前記消滅性リソースの残量と前記販売範囲の残りの期間と含む関連する状態を有し、前記方法が、
前記関連する状態に対して複数のアクションを生成するステップであって、各アクションが、前記インベントリ内に残っている消滅性リソースに関する価格設定スケジュールを定義するデータを公開することを含む、生成するステップと、
前記複数のアクションに応じて、対応する複数の観測を受信するステップであって、各観測が、前記関連する状態の遷移と、前記消滅性リソースの販売から生成される収益の形の関連するリワードとを含む、受信するステップと、
前記受信された観測をリプレイメモリストア内に記憶するステップと、
ニューラルネットワークをトレーニングするために、優先順位付けされたリプレイサンプリングアルゴリズムに従って観測の無作為化されたバッチを前記リプレイメモリストアから周期的にサンプリングするステップであって、トレーニングエポックを通して、前記無作為化されたバッチ内の観測の選択に対する確率分布が、最終状態に近い遷移に対応する観測の選択を優先する分布から初期状態に近い遷移に対応する観測の選択を優先する分布に向かって漸進的に適応される、周期的にサンプリングするステップと、
入力インベントリ状態および入力アクションが前記ニューラルネットワークに与えられて、前記ニューラルネットワークが、与えられた前記インベントリ状態に関連付けられた与えられた前記アクションを生成する真の値を密に近似する値を出力したとき、前記ニューラルネットワークによって出力された値を前記真の値により密に近似するように、前記リソース管理エージェントのアクション値関数近似器を備えた前記ニューラルネットワークの重みパラメータを更新するために、観測の各無作為化されたバッチを使用するステップと
を含み、
前記ニューラルネットワークが、前記インベントリの関連する状態に対して生成された前記複数のアクションの各々を選択するために使用され得る、
方法。 - 前記ニューラルネットワークがディープニューラルネットワークである、請求項1に記載の方法。
- 既存の収益管理システムに関連する値関数を決定するステップであって、前記値関数が、前記関連する状態を対応するアクションの推定値にマッピングする、決定するステップと、
前記値関数を、前記リソース管理エージェントに適応された、対応する変換されたアクション値関数に変換するステップであって、時間ステップサイズを前記リソース管理エージェントに関連する時間ステップに整合させ、アクションディメンションを前記値関数に追加するステップを含む、変換するステップと、
前記ニューラルネットワークに対するトレーニングデータセットを生成するために、前記変換されたアクション値関数をサンプリングするステップと、
前記トレーニングデータセットを使用して、前記ニューラルネットワークをトレーニングするステップと
によって、前記ニューラルネットワークを初期化するステップをさらに含む、請求項1または2に記載の方法。 - 前記ニューラルネットワークを使用するアクション値関数近似と、前記アクション値関数の表形式表現に基づくQ学習手法とを切り替えるように前記リソース管理エージェントを構成するステップであって、前記切り替えが、
各状態およびアクションに対して、前記ニューラルネットワークを使用して対応するアクション値を計算し、アクション値ルックアップテーブル内のエントリーに前記計算値をポピュレートするステップと、
前記アクション値ルックアップテーブルを使用して、Q学習動作モードに切り替えるステップと
を含む、構成するステップをさらに含む、請求項1から3のいずれか一項に記載の方法。 - 前記切り替えが、
前記ニューラルネットワークに対するトレーニングデータセットを生成するために、前記アクション値ルックアップテーブルをサンプリングするステップと、
前記トレーニングデータセットを使用して、前記ニューラルネットワークをトレーニングするステップと、
前記トレーニングされたニューラルネットワークを使用して、ニューラルネットワーク関数近似動作モデルに切り替えるステップと
をさらに含む、請求項4に記載の方法。 - 前記生成されたアクションが市場シミュレータに送信され、観測が前記市場シミュレータから受信される、請求項1から4のいずれか一項に記載の方法。
- 前記市場シミュレータが、シミュレートされた需要生成モジュール、シミュレートされた予約システム、および選択シミュレーションモジュールを備える、請求項6に記載の方法。
- 前記市場シミュレータが、1つまたは複数のシミュレートされた競合インベントリシステムをさらに備える、請求項7に記載の方法。
- そこから生成される収益を最適化しようと努めながら、販売範囲を有する消滅性リソースのインベントリを管理するためのシステムであって、前記インベントリが、前記消滅性リソースの残量と前記販売範囲の残りの期間と含む関連する状態を有し、前記システムが、
コンピュータ実装されるリソース管理エージェントモジュールと、
前記リソース管理エージェントモジュールのアクション値関数近似器を備えた、コンピュータ実装されるニューラルネットワークモジュールと、
リプレイメモリモジュールと、
コンピュータ実装される学習モジュールと
を備え、
前記リソース管理エージェントモジュールが、
前記関連する状態に対して複数のアクションを生成することであって、各アクションが、前記インベントリに関連する現在の状態を使用して前記ニューラルネットワークモジュールに問い合わせることによって決定され、前記インベントリ内に残っている消滅性リソースに関する価格設定スケジュールを定義するデータを公開することを含む、生成することと、
前記複数のアクションに応じて、対応する複数の観測を受信することであって、各観測が、前記関連する状態における遷移と、前記消滅性リソースの販売から生成される収益の形の関連するリワードとを含む、受信することと、
前記受信された観測を前記リプレイメモリモジュール内に記憶することと
を行うように構成され、
前記学習モジュールが、
ニューラルネットワークをトレーニングするために、優先順位付けされたリプレイサンプリングアルゴリズムに従って観測の無作為化されたバッチを前記リプレイメモリモジュールから周期的にサンプリングすることであって、トレーニングエポックを通して、前記無作為化されたバッチ内の観測の選択に対する確率分布が、最終状態に近い遷移に対応する観測の選択を優先する分布から初期状態に近い遷移に対応する観測の選択を優先する分布に向かって漸進的に適応される、周期的にサンプリングすることと、
入力インベントリ状態および入力アクションが前記ニューラルネットワークに与えられて、前記ニューラルネットワークが、与えられた前記インベントリ状態に関連付けられた与えられた前記アクションを生成する真の値を密に近似する値を出力したとき、前記ニューラルネットワークによって出力された値を前記真の値により密に近似するように、前記ニューラルネットワークモジュールの重みパラメータを更新するために、観測の各無作為化されたバッチを使用することと
を行うように構成される、
システム。 - 前記コンピュータ実装されるニューラルネットワークモジュールがディープニューラルネットワークを備える、請求項9に記載のシステム。
- コンピュータ実装される市場シミュレータモジュールをさらに備え、前記リソース管理エージェントモジュールが、前記生成されたアクションを前記市場シミュレータモジュールに送信し、前記対応する観測を前記市場シミュレータモジュールから受信するように構成される、請求項9または10に記載のシステム。
- 前記市場シミュレータモジュールが、シミュレートされた需要生成モジュール、シミュレートされた予約システム、および選択シミュレーションモジュールを備える、請求項11に記載のシステム。
- 前記市場シミュレータモジュールが、1つまたは複数のシミュレートされた競合インベントリシステムをさらに備える、請求項12に記載のシステム。
- そこから生成される収益を最適化しようと努めながら、販売範囲を有する消滅性リソースのインベントリを管理するためのコンピューティングシステムであって、前記インベントリが、前記消滅性リソースの残量と前記販売範囲の残りの期間と含む関連する状態を有し、前記システムが、
プロセッサと、
前記プロセッサによってアクセス可能な、少なくとも1つのメモリデバイスと、
前記プロセッサによってアクセス可能な通信インターフェースと
を備え、
前記メモリデバイスが、リプレイメモリストアおよび一連のプログラム命令を含有し、前記プログラム命令が、前記プロセッサによって実行されると、前記コンピューティングシステムに、
前記関連する状態に対して複数のアクションを生成するステップであって、各アクションが、前記インベントリ内に残っている消滅性リソースに関する価格設定スケジュールを定義するデータを、前記通信インターフェースを介して公開することを含む、生成するステップと、
前記通信インターフェースを介して、前記複数のアクションに応じて、対応する複数の観測を受信するステップであって、各観測が、前記関連する状態における遷移と、前記消滅性リソースの販売から生成される収益の形の関連するリワードとを含む、受信するステップと、
前記受信された観測を前記リプレイメモリストア内に記憶するステップと、
ニューラルネットワークをトレーニングするために、優先順位付けされたリプレイサンプリングアルゴリズムに従って観測の無作為化されたバッチを前記リプレイメモリストアから周期的にサンプリングするステップであって、トレーニングエポックを通して、前記無作為化されたバッチ内の観測の選択に対する確率分布が、最終状態に近い遷移に対応する観測の選択を優先する分布から初期状態に近い遷移に対応する観測の選択を優先する分布に向かって漸進的に適応される、周期的にサンプリングするステップと、
入力インベントリ状態および入力アクションが前記ニューラルネットワークに与えられて、前記ニューラルネットワークが、与えられた前記インベントリ状態に関連付けられた与えれた前記アクションを生成する真の値を密に近似する値を出力したとき、前記ニューラルネットワークによって出力された値を前記真の値により密に近似するように、リソース管理エージェントのアクション値関数近似器を備えたニューラルネットワークの重みパラメータを更新するために、観測の各無作為化されたバッチを使用するステップと
を含む方法を実装させ、
前記ニューラルネットワークが、前記インベントリの関連する状態に対して生成された前記複数のアクションの各々を選択するために使用され得る、
コンピューティングシステム。 - コンピュータプログラムがコンピュータ上で実行されると、請求項1から9のいずれかに記載の方法のステップを実行するためのプログラムコード命令を備える、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1860075 | 2018-10-31 | ||
FR1860075A FR3087922A1 (fr) | 2018-10-31 | 2018-10-31 | Procédés et systèmes d'apprentissage de renforcement pour le contrôle d'inventaire et l'optimisation |
PCT/EP2019/078491 WO2020088962A1 (en) | 2018-10-31 | 2019-10-21 | Reinforcement learning systems and methods for inventory control and optimization |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022509384A JP2022509384A (ja) | 2022-01-20 |
JP7486507B2 true JP7486507B2 (ja) | 2024-05-17 |
Family
ID=66166060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547890A Active JP7486507B2 (ja) | 2018-10-31 | 2019-10-21 | インベントリの管理および最適化のための強化学習システムおよび強化学習方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20210398061A1 (ja) |
EP (1) | EP3874428A1 (ja) |
JP (1) | JP7486507B2 (ja) |
CN (1) | CN113056754A (ja) |
CA (1) | CA3117745A1 (ja) |
FR (1) | FR3087922A1 (ja) |
SG (1) | SG11202103857XA (ja) |
WO (1) | WO2020088962A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645498B2 (en) * | 2019-09-25 | 2023-05-09 | International Business Machines Corporation | Semi-supervised reinforcement learning |
US20210232970A1 (en) * | 2020-01-24 | 2021-07-29 | Jpmorgan Chase Bank, N.A. | Systems and methods for risk-sensitive reinforcement learning |
US20220067619A1 (en) * | 2020-08-31 | 2022-03-03 | Clari Inc. | System and method to provide prescriptive actions for winning a sales opportunity using deep reinforcement learning |
US20220129925A1 (en) * | 2020-10-22 | 2022-04-28 | Jpmorgan Chase Bank, N.A. | Method and system for simulation and calibration of markets |
US20220188852A1 (en) * | 2020-12-10 | 2022-06-16 | International Business Machines Corporation | Optimal pricing iteration via sub-component analysis |
CN113269402B (zh) * | 2021-04-28 | 2023-12-26 | 北京筹策科技有限公司 | 一种航班舱位的控制方法、装置及计算机设备 |
CN115542849B (zh) * | 2022-08-22 | 2023-12-05 | 苏州诀智科技有限公司 | 集装箱码头智能船控发箱方法、系统、存储介质及计算机 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170140269A1 (en) | 2015-11-12 | 2017-05-18 | Google Inc. | Training neural networks using a prioritized experience memory |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074601B2 (en) * | 2018-02-06 | 2021-07-27 | International Business Machines Corporation | Real time personalized pricing for limited inventory assortments in a high-volume business environment |
US11188317B2 (en) * | 2020-03-10 | 2021-11-30 | International Business Machines Corporation | Classical artificial intelligence (AI) and probability based code infusion |
-
2018
- 2018-10-31 FR FR1860075A patent/FR3087922A1/fr not_active Withdrawn
-
2019
- 2019-10-21 JP JP2021547890A patent/JP7486507B2/ja active Active
- 2019-10-21 WO PCT/EP2019/078491 patent/WO2020088962A1/en unknown
- 2019-10-21 EP EP19787276.5A patent/EP3874428A1/en active Pending
- 2019-10-21 US US17/287,675 patent/US20210398061A1/en active Pending
- 2019-10-21 CA CA3117745A patent/CA3117745A1/en active Pending
- 2019-10-21 SG SG11202103857XA patent/SG11202103857XA/en unknown
- 2019-10-21 CN CN201980071774.4A patent/CN113056754A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170140269A1 (en) | 2015-11-12 | 2017-05-18 | Google Inc. | Training neural networks using a prioritized experience memory |
Non-Patent Citations (2)
Title |
---|
RUBEN FISZEL,REINFORCEMENT LEARNING AND DQN, LEARNING TO PLAY FROM PIXELS,[ONLINE],2016年08月24日,PAGE(S):1-25,https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Reinforcement-Learning-and-DQN.html |
VOLODYMYR MNIH; ET AL,HUMAN-LEVEL CONTROL THROUGH DEEP REINFORCEMENT LEARNING,NATURE,2015年02月25日,VOL:518, NR:7540,PAGE(S):529-533,https://doi.org/10.1038/nature14236 |
Also Published As
Publication number | Publication date |
---|---|
KR20210080422A (ko) | 2021-06-30 |
CA3117745A1 (en) | 2020-05-07 |
SG11202103857XA (en) | 2021-05-28 |
FR3087922A1 (fr) | 2020-05-01 |
EP3874428A1 (en) | 2021-09-08 |
WO2020088962A1 (en) | 2020-05-07 |
JP2022509384A (ja) | 2022-01-20 |
CN113056754A (zh) | 2021-06-29 |
US20210398061A1 (en) | 2021-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7486507B2 (ja) | インベントリの管理および最適化のための強化学習システムおよび強化学習方法 | |
Özer | Replenishment strategies for distribution systems under advance demand information | |
US11593878B2 (en) | Order execution for stock trading | |
CN112801430B (zh) | 任务下发方法、装置、电子设备及可读存储介质 | |
Chen et al. | Cloud–edge collaboration task scheduling in cloud manufacturing: An attention-based deep reinforcement learning approach | |
Brunato et al. | Combining intelligent heuristics with simulators in hotel revenue management | |
Geebelen et al. | QoS prediction for web service compositions using kernel-based quantile estimation with online adaptation of the constant offset | |
Yan et al. | Choice-based airline schedule design and fleet assignment: A decomposition approach | |
US11593877B2 (en) | Order execution for stock trading | |
US20230186331A1 (en) | Generalized demand estimation for automated forecasting systems | |
Shihab et al. | A deep reinforcement learning approach to seat inventory control for airline revenue management | |
Zhao et al. | Market thickness in online food delivery platforms: The impact of food processing times | |
Subulan et al. | Metaheuristic-based simulation optimization approach to network revenue management with an improved self-adjusting bid price function | |
Alamdari et al. | Deep reinforcement learning in seat inventory control problem: an action generation approach | |
Cleophas et al. | Simulation-based key performance indicators for evaluating the quality of airline demand forecasting | |
Crawford et al. | Automatic High‐Frequency Trading: An Application to Emerging Chilean Stock Market | |
KR102721927B1 (ko) | 재고 관리 및 최적화를 위한 강화 학습 시스템들 및 방법들 | |
Treetanthiploet et al. | Insurance pricing on price comparison websites via reinforcement learning | |
Jo et al. | Airline dynamic pricing with patient customers using deep exploration-based reinforcement learning | |
ALRebeish et al. | Risk-aware web service allocation in the cloud using portfolio theory | |
Giordani et al. | A decentralized scheduling policy for a dynamically reconfigurable production system | |
Voorberg et al. | Information acquisition for service contract quotations made by repair shops | |
Xu et al. | Multi-Agent Deep Reinforcement Learning for Decentralized Proactive Transshipment | |
Ketter | Identification and Prediction of Economic Regimes to Guide Decision Making in Multi-Agent Marketplacesde | |
Lubal | Scientific Workflow Scheduling using Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220722 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230814 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7486507 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |