JP6663064B1 - Order management device, order management method and order management program - Google Patents

Order management device, order management method and order management program Download PDF

Info

Publication number
JP6663064B1
JP6663064B1 JP2019093580A JP2019093580A JP6663064B1 JP 6663064 B1 JP6663064 B1 JP 6663064B1 JP 2019093580 A JP2019093580 A JP 2019093580A JP 2019093580 A JP2019093580 A JP 2019093580A JP 6663064 B1 JP6663064 B1 JP 6663064B1
Authority
JP
Japan
Prior art keywords
articles
value
reward
order management
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2019093580A
Other languages
Japanese (ja)
Other versions
JP2020187681A (en
Inventor
浩詩 末次
浩詩 末次
Original Assignee
sglab株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by sglab株式会社 filed Critical sglab株式会社
Priority to JP2019093580A priority Critical patent/JP6663064B1/en
Application granted granted Critical
Publication of JP6663064B1 publication Critical patent/JP6663064B1/en
Publication of JP2020187681A publication Critical patent/JP2020187681A/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】発注数の選択に強化学習を適用して、複数の物品をより効率的に発注することができる発注管理装置等を提供する。【解決手段】発注管理装置は、所定の時点における複数の物品の在庫数を含む状態と、複数の物品を所定数発注する行動との関数であって、複数の物品について設定されている複数の評価関数の第1値を、複数の物品について設定されている複数の推定モデルによって推定する第1推定部と、第1値に基づいて、行動を選択する選択部と、行動を行った場合の複数の物品の保管コスト及び発注された物品の輸送コストに基づいて、複数の物品それぞれに関する報酬を算出する報酬算出部と、行動を行った後の状態について、取り得る行動に関する複数の評価関数の第2値を複数の推定モデルによって推定する第2推定部と、割引率を掛けた第2値及び報酬の和と、第1値との差を小さくするように、複数の推定モデルのパラメータを更新する更新部と、を備える。【選択図】図1PROBLEM TO BE SOLVED: To provide an order management device and the like capable of ordering a plurality of articles more efficiently by applying reinforcement learning to the selection of the number of orders. An order management apparatus is a function of a state including a stock quantity of a plurality of articles at a predetermined time point and an action of ordering a predetermined number of the plurality of articles, and sets a plurality of items set for the plurality of articles. A first estimation unit that estimates the first value of the evaluation function by a plurality of estimation models set for a plurality of articles, a selection unit that selects an action based on the first value, and a case of performing an action Based on the storage cost of a plurality of goods and the transportation cost of ordered goods, a reward calculation unit that calculates a reward for each of the plurality of goods, and a plurality of evaluation functions regarding possible behaviors regarding the state after the behavior is performed. A second estimation unit that estimates the second value with a plurality of estimation models, and a parameter of the plurality of estimation models so as to reduce the difference between the first value and the sum of the second value and the reward multiplied by the discount rate. Update It includes a Shinbu, a. [Selection diagram] Fig. 1

Description

本発明は、発注管理装置、発注管理方法及び発注管理プログラムに関する。   The present invention relates to an order management device, an order management method, and an order management program.

小売業等の仕入れを必要とする業態では、生産者や卸売業者から商品を仕入れて在庫を確保し、消費者に販売することが行われている。複数の商品を販売する場合に、それぞれの商品について在庫が枯渇しないように仕入量を決定する方法として、例えば非特許文献1に記載の方法や非特許文献2に記載の方法が知られている。   In the retail business or the like that requires purchasing, it is common to purchase goods from producers and wholesalers to secure stocks and sell them to consumers. When a plurality of products are sold, a method described in Non-Patent Document 1 or a method described in Non-Patent Document 2 is known as a method of determining a purchase amount so that inventory of each product is not depleted. I have.

また、下記特許文献1には、店舗における原材料の在庫予測数に基づいて発注数を管理する発注数管理装置が記載されている。発注数管理装置は、店舗で使用される原材料の使用予測数を算出し、納品日ごとの入荷予定の納品数を算出し、直近の棚卸数と使用予測数と納品数とを用いて店舗の在庫予測数を算出し、使用予測数、納品数及び在庫予測数を納品日ごとに表示する。   Further, Patent Document 1 below describes an order quantity management device that manages the order quantity based on the estimated stock quantity of raw materials in a store. The order quantity management device calculates the estimated number of raw materials used in the store, calculates the number of deliveries scheduled to be received for each delivery date, and uses the latest inventory count, estimated use number, and The predicted number of inventory is calculated, and the predicted number of use, the number of deliveries, and the predicted number of inventory are displayed for each delivery date.

一方で、近年、強化学習と呼ばれる機械学習の手法が研究されている。例えば、下記非特許文献3では、行動空間が高次元である場合にも適用可能なbranching deep Q-networkと呼ばれるニューラルネットワークのアーキテクチャが提唱されている。   On the other hand, in recent years, a machine learning method called reinforcement learning has been studied. For example, Non-Patent Document 3 below proposes a neural network architecture called branching deep Q-network that is applicable even when the action space has a high dimension.

特開2018−128862号公報JP 2018-128862 A

J. L. Balintfy, "On a basic class of multi-item inventory problems,"Management Science, vol. 10, no. 2, pp. 287-297, 1964.J. L. Balintfy, "On a basic class of multi-item inventory problems," Management Science, vol. 10, no. 2, pp. 287-297, 1964. A. Ishigaki and Y. Hirakawa, "Design of a economic order-point system based on forecasted inventory positions," Journal of Japan Industrial Management Association, vol. 59, no. 4, pp. 290-295, 2008.A. Ishigaki and Y. Hirakawa, "Design of a economic order-point system based on forecasted inventory positions," Journal of Japan Industrial Management Association, vol. 59, no. 4, pp. 290-295, 2008. A. Tavakoli, F. Pardo, and P. Kormushev, "Action branching architectures for deep reinforcement learning," CoRR, vol. abs/1711.08946, 2017.A. Tavakoli, F. Pardo, and P. Kormushev, "Action branching architectures for deep reinforcement learning," CoRR, vol.abs / 1711.08946, 2017.

例えば非特許文献1に記載の方法を用いて複数の物品の発注数を決定する場合、必ずしも最適な発注が行えないことがある。例えば、所定数の物品を1つのパレットにまとめて、複数のパレットをコンテナに積み、当該コンテナを輸送する場合、非特許文献1に記載の方法ではコンテナを効率的に使用できず、仕入れに際して余剰コストが発生してしまうことがある。   For example, when the number of orders for a plurality of articles is determined using the method described in Non-Patent Document 1, an optimal order may not always be performed. For example, when a predetermined number of articles are put together on one pallet, a plurality of pallets are stacked in a container, and the container is transported, the container described in Non-Patent Document 1 cannot use the container efficiently, and extra Costs may be incurred.

そこで、本発明は、発注数の選択に強化学習を適用して、複数の物品をより効率的に発注することができる発注管理装置、発注管理方法及び発注管理プログラムを提供する。   Accordingly, the present invention provides an order management device, an order management method, and an order management program that can apply reinforcement learning to the selection of the number of orders and more efficiently order a plurality of articles.

本発明の一態様に係る発注管理装置は、所定の時点における複数の物品の在庫数を含む状態と、複数の物品を所定数発注する行動との関数であって、複数の物品について設定されている複数の評価関数の第1値を、複数の物品について設定されている複数の推定モデルによって推定する第1推定部と、第1値に基づいて、行動を選択する選択部と、行動を行った場合の複数の物品の保管コスト及び発注された物品の輸送コストに基づいて、複数の物品それぞれに関する報酬を算出する報酬算出部と、行動を行った後の状態について、取り得る行動に関する複数の評価関数の第2値を複数の推定モデルによって推定する第2推定部と、割引率を掛けた第2値及び報酬の和と、第1値との差を小さくするように、複数の推定モデルのパラメータを更新する更新部と、を備える。   The order management device according to an aspect of the present invention is a function of a state including a stock number of a plurality of articles at a predetermined time and an action of ordering a plurality of articles by a predetermined number, and is set for a plurality of articles. A first estimator for estimating first values of a plurality of evaluation functions according to a plurality of estimation models set for a plurality of articles; a selector for selecting an action based on the first value; A reward calculating unit that calculates a reward for each of the plurality of articles based on a storage cost of the plurality of articles and a transportation cost of the ordered articles in a case where A second estimating unit for estimating a second value of the evaluation function by a plurality of estimation models; and a plurality of estimation models so as to reduce a difference between the first value and the sum of the second value and the reward multiplied by the discount rate. Parameter And an update unit new to.

この態様によれば、強化学習の報酬を複数の物品それぞれについて算出し、複数の物品について設定されている複数の推定モデルのパラメータを更新していくことで、より適切な評価関数の値を推定することができるようになり、複数の物品をより効率的に発注することができる。   According to this aspect, the reward of the reinforcement learning is calculated for each of the plurality of articles, and the parameters of the plurality of estimation models set for the plurality of articles are updated, whereby a more appropriate value of the evaluation function is estimated. And a plurality of articles can be ordered more efficiently.

上記態様において、報酬算出部は、保管コストと、輸送コストを発注された物品の数で除算した値との和によって、複数の物品それぞれに関する報酬を算出してもよい。   In the above aspect, the reward calculation unit may calculate the reward for each of the plurality of articles by the sum of the storage cost and the value obtained by dividing the transportation cost by the number of ordered articles.

この態様によれば、複数の物品が同時に発注されるように報酬を与えることができ、複数の物品をコンテナに搭載して輸送する場合であっても、コストを抑えるように複数の物品を発注することができる。   According to this aspect, a reward can be given so that a plurality of items are ordered at the same time, and even when a plurality of items are loaded in a container and transported, the plurality of items can be ordered so as to reduce costs. can do.

上記態様において、報酬算出部は、保管コストと、輸送コストを発注された物品の数で除算した値と、複数の物品が欠品した場合のペナルティコストとの和によって、複数の物品それぞれに関する報酬を算出してもよい。   In the above aspect, the reward calculation unit calculates a reward for each of the plurality of articles by a sum of a storage cost, a value obtained by dividing a transportation cost by the number of ordered articles, and a penalty cost in a case where a plurality of articles are out of stock. May be calculated.

この態様によれば、複数の物品が欠品しないように報酬を与えることができ、複数の物品の在庫が尽きる確率が小さくなるように複数の物品を発注することができる。   According to this aspect, a reward can be given so that the plurality of articles do not run out, and a plurality of articles can be ordered so that the probability of running out of stock of the plurality of articles is reduced.

上記態様において、選択部は、所定の確率で、ランダムに行動を選択し、1から所定の確率を引いた確率で、第1値が最大となる行動を選択してもよい。   In the above aspect, the selection unit may randomly select an action at a predetermined probability, and select an action having a maximum first value at a probability obtained by subtracting the predetermined probability from one.

この態様によれば、新たな行動の探索と、経験的に最良である行動の選択とのバランスを取りながら、より効率的な発注ができるようになる。   According to this aspect, it is possible to place an order more efficiently while balancing the search for a new action and the selection of the action that is best empirically.

上記態様において、複数の推定モデルは、状態に関する状態値を推定する第1モデルと、状態における行動のアドバンテージ関数を推定する第2モデルとをそれぞれ含んでもよい。   In the above aspect, the plurality of estimation models may include a first model for estimating a state value related to a state and a second model for estimating an advantage function of an action in the state.

この態様によれば、評価関数の値を推定する推定モデルのうち、状態のみに依存する部分を第1モデルによって推定し、状態及び行動に依存する部分を第2モデルによって推定することで、より適切な評価関数の値を推定することができるようになり、複数の物品をより効率的に発注することができる。   According to this aspect, of the estimation model for estimating the value of the evaluation function, a part that depends only on the state is estimated by the first model, and a part that depends on the state and the behavior is estimated by the second model. An appropriate value of the evaluation function can be estimated, and a plurality of articles can be ordered more efficiently.

上記態様において、更新部は、報酬及び割引率を掛けた第2値の和と、第1値との差の2乗について、複数の物品について過去に記録された状態、行動、報酬及び行動を行った後の状態に関する期待値が小さくなるように、パラメータを更新してもよい。   In the above aspect, the updating unit may update the state, behavior, reward, and behavior of a plurality of articles recorded in the past with respect to the sum of the second value multiplied by the reward and the discount rate and the square of the difference between the first value and the sum. The parameter may be updated so that the expected value related to the state after the execution is reduced.

この態様によれば、推定モデルのパラメータを更新する際の不安定性を抑えることができ、より適切な評価関数の値を推定することができるようになる。   According to this aspect, instability when updating the parameters of the estimation model can be suppressed, and a more appropriate value of the evaluation function can be estimated.

上記態様において、更新部は、報酬及び割引率を掛けた第2値の和と、第1値との差のHuber損失関数について、複数の物品について過去に記録された状態、行動、報酬及び行動を行った後の状態に関する期待値が小さくなるように、パラメータを更新してもよい。   In the above aspect, the updating unit may determine, for a Huber loss function of a difference between the sum of the second value multiplied by the reward and the discount rate and the first value, states, actions, rewards, and actions previously recorded for a plurality of articles. The parameter may be updated so that the expected value related to the state after performing the above is reduced.

この態様によれば、推定モデルのパラメータを更新する際の外れ値に対する不安定性を抑えることができ、より適切な評価関数の値を推定することができるようになる。   According to this aspect, instability with respect to outliers when updating the parameters of the estimation model can be suppressed, and a more appropriate value of the evaluation function can be estimated.

上記態様において、状態は、所定の時点において輸送中の物品の数を含んでもよい。   In the above aspect, the condition may include the number of items being transported at a given point in time.

この態様によれば、複数の物品の在庫数のみならず、輸送中の物品の数を考慮して評価関数の値を推定することができ、複数の物品をより効率的に発注することができる。   According to this aspect, it is possible to estimate the value of the evaluation function in consideration of the number of articles in transit as well as the number of stocks of the plurality of articles, and it is possible to order the plurality of articles more efficiently. .

上記態様において、状態は、所定の時点から輸送に要する期間経過後の在庫数の推定値を含んでもよい。   In the above aspect, the state may include an estimated value of the stock quantity after a period required for transportation has elapsed from a predetermined time point.

この態様によれば、複数の物品の在庫数のみならず、将来の在庫数を考慮して評価関数の値を推定することができ、複数の物品をより効率的に発注することができる。   According to this aspect, it is possible to estimate the value of the evaluation function in consideration of not only the number of stocks of a plurality of articles but also the number of stocks in the future, and it is possible to order a plurality of articles more efficiently.

上記態様において、状態は、所定の時点から輸送に要する期間が経過するまでの物品の需要数の推定値を含んでもよい。   In the above aspect, the state may include an estimated value of the demand number of the article from a predetermined point in time until a period required for transportation elapses.

この態様によれば、複数の物品の在庫数のみならず、輸送中の物品が到着するまでに生じると推定される複数の物品の需要を考慮して評価関数の値を推定することができ、複数の物品をより効率的に発注することができる。   According to this aspect, it is possible to estimate the value of the evaluation function in consideration of not only the inventory number of the plurality of articles, but also the demand for the plurality of articles that are estimated to occur until the article in transit arrives, A plurality of articles can be ordered more efficiently.

上記態様において、状態は、所定の時点から輸送に要する期間が経過してから、所定の期間が経過するまでの物品の需要数の推定値を含んでもよい。   In the above aspect, the state may include an estimated value of the number of demands for the article from a time when a period required for transportation elapses from a predetermined time to a time when the predetermined period elapses.

この態様によれば、複数の物品の在庫数のみならず、輸送中の物品が到着した後に生じると推定される複数の物品の需要を考慮して評価関数の値を推定することができ、複数の物品をより効率的に発注することができる。   According to this aspect, it is possible to estimate the value of the evaluation function in consideration of not only the inventory number of the plurality of articles, but also the demand for the plurality of articles that are estimated to occur after the article in transit arrives. Items can be ordered more efficiently.

本発明の他の態様に係る発注管理方法は、所定の時点における複数の物品の在庫数を含む状態と、複数の物品を所定数発注する行動との関数であって、複数の物品について設定されている複数の評価関数の第1値を、複数の物品について設定されている複数の推定モデルによって推定すること、第1値に基づいて、行動を選択することと、行動を行った場合の複数の物品の保管コスト及び発注された物品の輸送コストに基づいて、複数の物品それぞれに関する報酬を算出することと、行動を行った後の状態について、取り得る行動に関する複数の評価関数の第2値を複数の推定モデルによって推定することと、割引率を掛けた第2値及び報酬の和と、第1値との差を小さくするように、複数の推定モデルのパラメータを更新することと、を含む。   An order management method according to another aspect of the present invention is a function of a state including a stock quantity of a plurality of articles at a predetermined time and an action of ordering a plurality of articles by a predetermined number, and is set for a plurality of articles. Estimating the first values of the plurality of evaluation functions according to the plurality of estimation models set for the plurality of articles, selecting an action based on the first value, and selecting a plurality of values when the action is performed. Calculating a reward for each of the plurality of articles based on the storage cost of the article and the transportation cost of the ordered article, and a second value of a plurality of evaluation functions for possible actions with respect to a state after the action has been performed Is estimated by a plurality of estimation models, and the parameters of the plurality of estimation models are updated so as to reduce the difference between the first value and the sum of the second value and the reward multiplied by the discount rate. Including .

この態様によれば、強化学習の報酬を複数の物品それぞれについて算出し、複数の物品について設定されている複数の推定モデルのパラメータを更新していくことで、より適切な評価関数の値を推定することができるようになり、複数の物品をより効率的に発注することができる。   According to this aspect, the reward of the reinforcement learning is calculated for each of the plurality of articles, and the parameters of the plurality of estimation models set for the plurality of articles are updated, whereby a more appropriate value of the evaluation function is estimated. And a plurality of articles can be ordered more efficiently.

本発明の他の態様に係る発注管理プログラムは、発注管理装置に備えられた演算部を、所定の時点における複数の物品の在庫数を含む状態と、複数の物品を所定数発注する行動との関数であって、複数の物品について設定されている複数の評価関数の第1値を、複数の物品について設定されている複数の推定モデルによって推定する第1推定部、第1値に基づいて、行動を選択する選択部、行動を行った場合の複数の物品の保管コスト及び発注された物品の輸送コストに基づいて、複数の物品それぞれに関する報酬を算出する報酬算出部、行動を行った後の状態について、取り得る行動に関する複数の評価関数の第2値を複数の推定モデルによって推定する第2推定部、及び割引率を掛けた第2値及び報酬の和と、第1値との差を小さくするように、複数の推定モデルのパラメータを更新する更新部、として機能させる。   An order management program according to another aspect of the present invention includes an operation unit provided in an order management device, the operation unit including a state including a stock quantity of a plurality of articles at a predetermined time and an action of ordering a predetermined number of a plurality of articles. A first estimating unit that estimates a first value of a plurality of evaluation functions set for a plurality of articles by a plurality of estimation models set for a plurality of articles, based on the first value, A selection unit that selects an action, a reward calculation unit that calculates a reward for each of the plurality of articles based on a storage cost of the plurality of articles when the action is performed and a transport cost of the ordered article, For the state, a second estimator for estimating second values of a plurality of evaluation functions relating to possible actions by a plurality of estimation models, and a difference between the first value and the sum of the second value and the reward multiplied by the discount rate. Make smaller Sea urchin, update section for updating the parameters of a plurality of estimation models, to function as a.

この態様によれば、強化学習の報酬を複数の物品それぞれについて算出し、複数の物品について設定されている複数の推定モデルのパラメータを更新していくことで、より適切な評価関数の値を推定することができるようになり、複数の物品をより効率的に発注することができる。   According to this aspect, the reward of the reinforcement learning is calculated for each of the plurality of articles, and the parameters of the plurality of estimation models set for the plurality of articles are updated, whereby a more appropriate value of the evaluation function is estimated. And a plurality of articles can be ordered more efficiently.

本発明によれば、発注数の選択に強化学習を適用して、複数の物品をより効率的に発注することができる発注管理装置、発注管理方法及び発注管理プログラムを提供することができる。   According to the present invention, it is possible to provide an order management device, an order management method, and an order management program capable of ordering a plurality of articles more efficiently by applying reinforcement learning to selection of the number of orders.

本発明の実施形態に係る発注管理装置の機能ブロックを示す図である。It is a figure showing the functional block of the order management device concerning the embodiment of the present invention. 本実施形態に係る発注管理装置の物理的構成を示す図である。It is a figure showing the physical composition of the order management device concerning this embodiment. 本実施形態に係る発注管理装置の複数の推定モデルの概念図である。It is a key map of a plurality of presumption models of an order management device concerning this embodiment. 物品数が2である場合における、本実施形態に係る発注管理装置による総コストと、比較例の総コストとを示す図である。It is a figure showing the total cost by the order management device concerning this embodiment, and the total cost of a comparative example when the number of articles is two. 本実施形態に係る発注管理装置により管理される複数の物品の在庫数の時間変化と発注タイミングを示す図である。It is a figure which shows the time change of the stock number of several articles managed by the order management apparatus which concerns on this embodiment, and order timing. 物品数が10である場合における、本実施形態に係る発注管理装置による総コストと、比較例の総コストとを示す図である。It is a figure showing the total cost by the order management device concerning this embodiment when the number of articles is 10, and the total cost of the comparative example. 本実施形態に係る発注管理装置により実行される処理のフローチャートである。5 is a flowchart of a process executed by the order management device according to the embodiment.

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。   An embodiment of the present invention will be described with reference to the accompanying drawings. In each of the drawings, the components denoted by the same reference numerals have the same or similar configurations.

図1は、本発明の実施形態に係る発注管理装置10の機能ブロックを示す図である。発注管理装置10は、取得部11、第1推定部12、記憶部13、選択部14、報酬算出部15、第2推定部16及び更新部17を備える。   FIG. 1 is a diagram showing functional blocks of an order management device 10 according to an embodiment of the present invention. The order management device 10 includes an acquisition unit 11, a first estimation unit 12, a storage unit 13, a selection unit 14, a reward calculation unit 15, a second estimation unit 16, and an update unit 17.

取得部11は、管理端末21から、所定の時点における複数の物品の在庫数を取得する。本実施形態において、複数の物品は、コンテナに格納されて遠隔地から輸送され、倉庫20に保管されるものとする。もっとも、複数の物品は、必ずしも倉庫20に保管されなくてもよく、任意の場所に保管されてよい。   The acquisition unit 11 acquires, from the management terminal 21, the inventory numbers of a plurality of articles at a predetermined time. In the present embodiment, a plurality of articles are stored in a container, transported from a remote location, and stored in the warehouse 20. However, a plurality of articles need not always be stored in the warehouse 20, and may be stored in an arbitrary place.

取得部11は、所定の時点において輸送中の物品の数を取得してもよい。輸送中の物品の数は、発注時点から輸送に要する期間が経過していない発注済みの物品の数である。   The acquisition unit 11 may acquire the number of articles being transported at a predetermined time. The number of articles being transported is the number of ordered articles for which the period required for transportation has not elapsed from the time of ordering.

第1推定部12は、所定の時点における複数の物品の在庫数を含む状態と、複数の物品を所定数発注する行動との関数であって、複数の物品について設定されている複数の評価関数の第1値を、複数の物品について設定されている複数の推定モデル13aによって推定する。以下では、所定の時点tにおける物品d(d=1〜N)の在庫数をId,tと表し、状態をstと表し、物品dを所定数発注する行動をadと表し、物品dに関する評価関数の第1値をQd(st,ad)と表す。 The first estimating unit 12 is a function of a state including a stock number of a plurality of articles at a predetermined time and an action of ordering a predetermined number of a plurality of articles, and a plurality of evaluation functions set for the plurality of articles. Is estimated by a plurality of estimation models 13a set for a plurality of articles. Hereinafter, it represents the number of stocked goods d (d = 1 to N) at a given time t I d, and t, represents the state s t, represents the behavior of a predetermined number of ordered goods d and a d, article The first value of the evaluation function for d is represented as Q d (s t , a d ).

第1推定部12は、それぞれニューラルネットワークで構成される複数の推定モデル13aによって、状態stにおいて可能な行動adについて、評価関数の第1値Qd(st,ad)を推定してよい。複数の推定モデル13aは、例えば複数の隠れ層を有する全結合ニューラルネットワークであってよいが、他のモデルであってもよい。 The first estimation unit 12, a plurality of estimation models 13a composed of neural networks respectively, the action a d capable in the state s t, the first value Q d (s t, a d ) of the evaluation function to estimate the May be. The plurality of estimation models 13a may be, for example, a fully-connected neural network having a plurality of hidden layers, but may be other models.

状態stは、所定の時点tにおいて輸送中の物品dの数OOd,tを含んでよい。輸送中の物品dの数OOd,tを状態stに含めることで、複数の物品の在庫数のみならず、輸送中の物品の数を考慮して評価関数の値を推定することができ、複数の物品をより効率的に発注することができる。 State s t may include the number OO d, t articles d in transit at a given time t. The number OO d of articles d during transport, t a By including the state s t, not inventory of a plurality of articles only, taking into account the number of articles being transported can estimate the value of the evaluation function In addition, a plurality of articles can be ordered more efficiently.

状態stは、所定の時点tから輸送に要する期間LT経過後の物品dの在庫数の推定値Id,t,t+LTを含んでよい。在庫数の推定値Id,t,t+LTを状態stに含めることで、複数の物品の在庫数のみならず、将来の在庫数を考慮して評価関数の値を推定することができ、複数の物品をより効率的に発注することができる。 State s t may include an estimate I d, t, t + LT inventory of goods d after a period LT lapse required for transportation from a predetermined time t. By including the estimated value I d of inventory, t, a t + LT state s t, not inventory of a plurality of articles only, it is possible to estimate the value of the evaluation function in consideration of the future inventory quantity In addition, a plurality of articles can be ordered more efficiently.

状態stは、所定の時点tから輸送に要する期間LTが経過するまでの物品dの需要数の推定値fd,t t:LTを含んでよい。なお、推定値fd,t t:LTは、期間[t,t+LT]における物品dの需要数の総和の推定値であってよい。物品dの需要数の推定値fd,t t:LTを状態stに含めることで、複数の物品の在庫数のみならず、輸送中の物品が到着するまでに生じると推定される複数の物品の需要を考慮して評価関数の値を推定することができ、複数の物品をより効率的に発注することができる。 State s t is the estimate of demand number of articles d until the end of the period LT required for transportation from a predetermined time t f d, t t: may comprise LT. Note that the estimated value f d, t t: LT may be an estimated value of the total number of demands of the article d in the period [t, t + LT]. Estimate f d of the number of demand of goods d, t t: LT to that included in state s t, not inventory of a plurality of articles only, a plurality of articles during transport is estimated to occur to arrive The value of the evaluation function can be estimated in consideration of the demand for the article, and a plurality of articles can be ordered more efficiently.

また、状態stは、所定の時点tから輸送に要する期間LTが経過してから、所定の期間Mが経過するまでの物品dの需要数の推定値fd,t t+LT:Mを含んでよい。なお、推定値fd,t t+LT:Mは、期間[t+LT,t+LT+M]における物品dの需要数の総和の推定値であってよい。物品dの需要数の推定値fd,t t+LT:Mを状態stに含めることで、複数の物品の在庫数のみならず、輸送中の物品が到着した後に生じると推定される複数の物品の需要を考慮して評価関数の値を推定することができ、複数の物品をより効率的に発注することができる。 The state s t is after the elapse of the period LT required for transportation from a predetermined time t, the estimated value f d demand number of articles d to a predetermined period of time M has elapsed, t t + LT: the M May include. Note that the estimated value f d, t t + LT: M may be an estimated value of the total number of demands of the article d in the period [t + LT, t + LT + M]. By including the estimated value f d, t t + LT: M of the demand number of the item d in the state st , not only the inventory number of a plurality of items but also a plurality of items estimated to occur after the items in transit arrive. The value of the evaluation function can be estimated in consideration of the demand for the article, and a plurality of articles can be ordered more efficiently.

第1推定部12は、物品dの在庫数をId,tと、輸送中の物品dの数OOd,tと、t+LTの時点における物品dの在庫数の推定値Id,t,t+LTと、tからt+LTまでの物品dの需要数の推定値fd,t t:LTと、t+LTからt+LT+Mまでの物品dの需要数の推定値fd,t t+LT:Mとを、変換モデルで変換した特徴量を状態stとしてもよい。ここで、変換モデルは、例えば全結合ニューラルネットワークであってよいが、他のモデルであってもよい。 The first estimating unit 12 calculates the stock number of the article d by I d, t , the number of the article d in transit OO d, t, and the estimated value I d, t, t of the stock number of the article d at the time of t + LT. + LT , the estimated value f d, tt: LT of the demand number of the article d from t to t + LT, and the estimated value f d, tt + LT: M of the demand number of the article d from t + LT to t + LT + M. , the converted feature amount conversion model may state s t. Here, the conversion model may be, for example, a fully connected neural network, but may be another model.

記憶部13は、複数の推定モデル13aを記憶する。複数の推定モデル13aは、複数の物品毎に設定されていてよい。   The storage unit 13 stores a plurality of estimation models 13a. The plurality of estimation models 13a may be set for each of a plurality of articles.

選択部14は、評価関数の第1値Qd(st,ad)に基づいて、行動adを選択する。選択部14は、所定の確率ε(0≦ε≦1)で、ランダムに行動adを選択し、1から所定の確率を引いた確率(1−ε)で、第1値Qd(st,ad)が最大となる行動adを選択してよい。すなわち、選択部14は、確率(1−ε)で、ad=arg maxad(st,a)により行動adを選択してよい。このようにして、新たな行動の探索と、経験的に最良である行動の選択とのバランスを取りながら、より効率的な発注ができるようになる。 Selecting unit 14, the first value Q d (s t, a d ) of the evaluation function based on, select an action a d. The selecting unit 14 randomly selects the action a d with a predetermined probability ε (0 ≦ ε ≦ 1), and obtains a first value Q d (s t, a d) may select the action a d to be the maximum. That is, the selection unit 14, with probability (1-ε), a d = arg max a Q d (s t, a) may select an action a d by. In this way, more efficient ordering can be performed while balancing the search for a new action and the selection of the action that is best empirically.

報酬算出部15は、行動adを行った場合の複数の物品の保管コスト及び発注された物品の輸送コストに基づいて、複数の物品それぞれに関する報酬rdを算出する。ここで、所定の時点tにおける物品dの保管コストをChold d,tと表し、所定の時点tにおける輸送コストをCtrans tと表し、物品dの報酬をrdと表すとき、rd=−(Chold d,t+Ctrans t/N)であってよい。ここで、Nは、複数の物品の数(物品の種類の数)である。すなわち、報酬算出部15は、保管コストと、輸送コストを発注された物品の数で除算した値との和によって、複数の物品それぞれに関する報酬を算出してよい。 Compensation calculation unit 15, based on the transportation costs of storage costs and ordered articles in a plurality of articles in the case of performing an action a d, calculates the reward r d for each plurality of articles. Here, when the storage cost of the article d at the predetermined time point t is represented as C hold d, t , the transportation cost at the predetermined time point t is represented as C trans t, and the reward of the article d is represented as rd, r d = − (C hold d, t + C trans t / N). Here, N is the number of a plurality of articles (the number of types of articles). That is, the reward calculation unit 15 may calculate the reward for each of the plurality of articles by the sum of the storage cost and the value obtained by dividing the transportation cost by the number of ordered articles.

輸送コストは、コンテナの数に応じて定まり、コンテナに収容される物品の多寡には依存しないことがある。そのため、物品をパレットにまとめてコンテナで輸送する場合、複数種類の物品を1つのコンテナにまとめた方が、複数種類の物品を個別にコンテナに収容して輸送する場合よりもコストを減らすことができる場合がある。本実施形態に係る報酬算出部15によれば、輸送コストを複数の物品に関する報酬に分配することで、複数の物品が同時に発注されるように報酬を与えることができ、複数の物品をコンテナに搭載して輸送する場合であっても、コストを抑えるように複数の物品を発注することができる。   The transportation cost is determined according to the number of containers, and may not depend on the number of articles stored in the containers. Therefore, in the case where goods are put together on a pallet and transported in a container, it is possible to reduce costs by collecting a plurality of types of goods in a single container, compared to a case where a plurality of types of goods are individually stored in a container and transported. May be possible. According to the reward calculation unit 15 according to the present embodiment, by distributing the transportation cost to the reward for a plurality of articles, a reward can be given so that a plurality of articles can be ordered at the same time, and a plurality of articles can be assigned to a container. Even in the case of loading and transporting, a plurality of items can be ordered so as to reduce costs.

報酬算出部15は、保管コストと、輸送コストを発注された物品の数で除算した値と、複数の物品が欠品した場合のペナルティコストとの和によって、複数の物品それぞれに関する報酬を算出してもよい。ここで、所定の時点tで物品dが欠品した場合のペナルティコストをCpel d,tと表すとき、rd=−(Chold d,t+Cpel d,t+Ctrans t/N)であってよい。このようにして、複数の物品が欠品しないように報酬を与えることができ、複数の物品の在庫が尽きる確率が小さくなるように複数の物品を発注することができる。 The reward calculation unit 15 calculates a reward for each of the plurality of articles by a sum of a storage cost, a value obtained by dividing a transportation cost by the number of ordered articles, and a penalty cost in a case where a plurality of articles are out of stock. You may. Here, the penalty cost of goods d is shortage at a given time t when expressed as C pel d, t, r d = - (C hold d, t + C pel d, t + C trans t / N) in May be. In this way, a reward can be given so that a plurality of articles will not be out of stock, and a plurality of articles can be ordered so that the probability of running out of stock of the plurality of articles is reduced.

第2推定部16は、行動adを行った後の状態s´について、取り得る行動a´に関する複数の評価関数の第2値Qd(s´,a´)を複数の推定モデル13aによって推定する。なお、第2推定部16は、更新部によって複数の推定モデル13aのパラメータを更新する場合、更新を所定回数行うまで、古いパラメータを用いた複数の推定モデルによって、複数の評価関数の第2値Qd -(s´,a´)を推定してもよい。 The second estimating unit 16 calculates the second values Q d (s ′, a ′) of a plurality of evaluation functions relating to the possible action a ′ with respect to the state s ′ after the action a d is performed by the plurality of estimation models 13a. presume. When the updating unit updates the parameters of the plurality of estimation models 13a, the second estimation unit 16 uses the plurality of estimation models using old parameters to update the second values of the plurality of evaluation functions until the update is performed a predetermined number of times. Q d (s ′, a ′) may be estimated.

更新部17は、割引率を掛けた評価関数の第2値及び報酬の和と、評価関数の第1値との差を小さくするように、複数の推定モデル13aのパラメータを更新する。具体的には、割引率をγと表すとき、yd=rd+γarg maxa´Qd -(s´,a´)として、更新部17は、E(s,ad,rd,s´)D[L(yd,Qd(s,ad))]を最小化するように、複数の推定モデル13aのパラメータを更新してよい。ここで、L(yd,Qd(s,ad))は、ydとQd(s,ad)の差を評価する損失関数である。また、E(s,ad,rd,s´)D[・]は、複数の物品について過去に記録された状態s、行動ad、報酬rd及び行動を行った後の状態s´に関する期待値を表す。更新部17は、例えば、損失関数を複数の推定モデル13aのパラメータで偏微分して、誤差逆伝播法によって複数の推定モデル13aのパラメータを更新してよい。 The updating unit 17 updates the parameters of the plurality of estimation models 13a so as to reduce the difference between the second value of the evaluation function multiplied by the discount rate and the sum of the reward and the first value of the evaluation function. Specifically, when referring to the discount rate and γ, y d = r d + γarg max a'Q d - (s', a') as, update unit 17, E (s, ad, rd , s') ~ D [L (y d, Q d (s, a d))] so as to minimize, or to update the parameters of a plurality of estimation models 13a. Here, L (y d, Q d (s, a d)) is the loss function for evaluating the difference between y d and Q d (s, a d) . Also, E (s, ad, rd , s') ~ D [·] is the state recorded in the past for a plurality of articles s, action a d, relating to the state s'after the reward r d and behavior Indicates expected value. The updating unit 17 may, for example, partially differentiate the loss function with the parameters of the plurality of estimation models 13a, and update the parameters of the plurality of estimation models 13a by the backpropagation method.

本実施形態に係る発注管理装置10によれば、強化学習の報酬を複数の物品それぞれについて算出し、複数の物品について設定されている複数の推定モデル13aのパラメータを更新していくことで、より適切な評価関数の値を推定することができるようになり、複数の物品をより効率的に発注することができる。   According to the order management device 10 according to the present embodiment, the reward for reinforcement learning is calculated for each of a plurality of articles, and the parameters of the plurality of estimation models 13a set for the plurality of articles are updated, so that more An appropriate value of the evaluation function can be estimated, and a plurality of articles can be ordered more efficiently.

更新部17は、報酬及び割引率を掛けた評価関数の第2値の和と、評価関数の第1値との差の2乗について、複数の物品について過去に記録された状態、行動、報酬及び行動を行った後の状態に関する期待値が小さくなるように、複数の推定モデル13aのパラメータを更新してよい。すなわち、損失関数は、L(yd,Qd(s,ad))∝Σd=1 N(yd−Qd(s,ad))2であってよい。このように、過去に記録された状態、行動、報酬及び行動を行った後の状態に関する2乗誤差の期待値が小さくなるように複数の推定モデル13aのパラメータを更新することで、推定モデルのパラメータを更新する際の不安定性を抑えることができ、より適切な評価関数の値を推定することができるようになる。 The update unit 17 calculates the state, action, and reward of the sum of the second value of the evaluation function multiplied by the reward and the discount rate and the square of the difference between the first value of the evaluation function and the plurality of articles. In addition, the parameters of the plurality of estimation models 13a may be updated so that the expected value regarding the state after the action has been performed becomes smaller. That is, the loss function, L (y d, Q d (s, a d)) αΣ d = 1 N (y d -Q d (s, a d)) may be 2. As described above, by updating the parameters of the plurality of estimation models 13a so that the expected value of the square error related to the state recorded in the past, the action, the reward, and the state after the action is performed, the estimation model 13a is updated. Instability in updating the parameter can be suppressed, and a more appropriate value of the evaluation function can be estimated.

また、更新部17は、報酬及び割引率を掛けた第2値の和と、第1値との差のHuber損失関数について、複数の物品について過去に記録された状態、行動、報酬及び行動を行った後の状態に関する期待値が小さくなるように、パラメータを更新してもよい。ここで、Huber損失関数は、Σd=1 N(yd−Qd(s,ad))2≦δ2(δは所定のパラメータ)の場合にΣd=1 N(yd−Qd(s,ad))2に比例し、Σd=1 N(yd−Qd(s,ad))2>δ2の場合にΣd=1 N|yd−Qd(s,ad)|に比例する損失関数である。これにより、推定モデルのパラメータを更新する際の外れ値に対する不安定性を抑えることができ、より適切な評価関数の値を推定することができるようになる。 The updating unit 17 also updates the state, behavior, reward, and behavior previously recorded for a plurality of articles with respect to the Huber loss function of the difference between the second value multiplied by the reward and the discount rate and the first value. The parameter may be updated so that the expected value related to the state after the execution is reduced. Here, Huber loss function, Σ d = 1 N (y d -Q d (s, a d)) 2 ≦ δ 2 (δ is a predetermined parameter) When the Σ d = 1 N (y d -Q of d (s, a d)) 2 in proportion, Σ d = 1 N (y d -Q d (s, a d)) 2> in the case of δ 2 Σ d = 1 N | y d -Q d ( s, a d ) | As a result, instability with respect to outliers when updating the parameters of the estimation model can be suppressed, and a more appropriate value of the evaluation function can be estimated.

図2は、本実施形態に係る発注管理装置10の物理的構成を示す図である。発注管理装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では発注管理装置10が一台のコンピュータで構成される場合について説明するが、発注管理装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図2で示す構成は一例であり、発注管理装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。   FIG. 2 is a diagram illustrating a physical configuration of the order management device 10 according to the present embodiment. The order management device 10 includes a CPU (Central Processing Unit) 10a corresponding to an arithmetic unit, a RAM (Random Access Memory) 10b corresponding to a storage unit, a ROM (Read only Memory) 10c corresponding to a storage unit, and a communication unit. 10d, an input unit 10e, and a display unit 10f. These components are connected to each other via a bus so that data can be transmitted and received. In this example, the case where the order management device 10 is configured by one computer will be described. However, the order management device 10 may be realized by combining a plurality of computers. The configuration illustrated in FIG. 2 is an example, and the order management device 10 may have a configuration other than these, or may not have a part of these configurations.

CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、強化学習を適用して、複数の物品の発注量を管理するプログラム(発注管理プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。   The CPU 10a is a control unit that performs control related to execution of a program stored in the RAM 10b or the ROM 10c and calculates and processes data. The CPU 10a is a calculation unit that executes a program (order management program) for managing the order quantities of a plurality of articles by applying reinforcement learning. The CPU 10a receives various data from the input unit 10e and the communication unit 10d, and displays a calculation result of the data on the display unit 10f and stores it in the RAM 10b.

RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、複数の物品の在庫数といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。   The RAM 10b is a storage unit in which data can be rewritten, and may be composed of, for example, a semiconductor storage element. The RAM 10b may store data such as a program executed by the CPU 10a and inventory numbers of a plurality of articles. These are merely examples, and the RAM 10b may store data other than these or some of them may not be stored.

ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば発注管理プログラムや、書き換えが行われないデータを記憶してよい。   The ROM 10c is a storage unit from which data can be read, and may be configured by, for example, a semiconductor storage element. The ROM 10c may store, for example, an order management program or data that is not rewritten.

通信部10dは、発注管理装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークNに接続されてよい。   The communication unit 10d is an interface that connects the order management device 10 to another device. The communication unit 10d may be connected to a communication network N such as the Internet.

入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。   The input unit 10e accepts data input from a user, and may include, for example, a keyboard and a touch panel.

表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、複数の物品の在庫数の推移や発注数の推移を表示してよい。   The display unit 10f is for visually displaying the calculation result by the CPU 10a, and may be configured by, for example, an LCD (Liquid Crystal Display). The display unit 10f may display a change in the stock number of a plurality of articles and a change in the number of orders.

発注管理プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。発注管理装置10では、CPU10aが発注管理プログラムを実行することにより、図1を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、発注管理装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。   The order management program may be provided by being stored in a computer-readable storage medium such as the RAM 10b or the ROM 10c, or may be provided via a communication network connected by the communication unit 10d. In the order management apparatus 10, the CPU 10a executes the order management program to realize the various operations described with reference to FIG. Note that these physical configurations are merely examples, and are not necessarily independent configurations. For example, the order management device 10 may include an LSI (Large-Scale Integration) in which the CPU 10a is integrated with the RAM 10b and the ROM 10c.

図3は、本実施形態に係る発注管理装置10の複数の推定モデル13aの概念図である。複数の推定モデル13aは、状態に関する状態値を推定する第1モデル13bと、状態における行動のアドバンテージ関数を推定する第2モデル13cとをそれぞれ含む。以下では、状態をsと表し、物品dに関する状態値をVd(s)と表し、物品dに関するアドバンテージ関数をAd(s,ad)と表す。 FIG. 3 is a conceptual diagram of a plurality of estimation models 13a of the order management device 10 according to the present embodiment. The plurality of estimation models 13a each include a first model 13b for estimating a state value related to a state, and a second model 13c for estimating an advantage function of an action in the state. Hereinafter, the state is represented as s, the state value relating to the article d is represented as V d (s), and the advantage function relating to the article d is represented as A d (s, ad ).

複数の推定モデル13aは、複数の物品毎に設定された第1モデル13bによって、状態sに関する状態値Vd(s)を推定する。ここで、状態sは、物品dの在庫数をId,tと、輸送中の物品dの数OOd,tと、t+LTの時点における物品dの在庫数の推定値Id,t,t+LTと、tからt+LTまでの物品dの需要数の推定値fd,t t:LTと、t+LTからt+LT+Mまでの物品dの需要数の推定値fd,t t+LT:Mとを、変換モデルで変換した特徴量(Shared Representation)であってよい。 The plurality of estimation models 13a estimate the state value V d (s) related to the state s by using the first model 13b set for each of the plurality of articles. Here, the state s indicates the stock number of the article d as I d, t , the number OO d, t of the article d in transit , and the estimated value I d, t, t of the stock number of the article d at the time of t + LT. + LT , the estimated value f d, tt: LT of the demand number of the article d from t to t + LT, and the estimated value f d, tt + LT: M of the demand number of the article d from t + LT to t + LT + M. , A feature amount (Shared Representation) converted by the conversion model.

また、複数の推定モデル13aは、複数の物品毎に設定された第2モデル13cによって、状態sにおける行動adのアドバンテージ関数Ad(s,ad)を推定する。 Further, a plurality of estimation models 13a is the second model 13c which is set for each of a plurality of articles, Advantage function A d (s, a d) action a d in the state s to estimate.

そして、複数の推定モデル13aは、複数の物品毎に推定された状態値Vd(s)とアドバンテージ関数Ad(s,ad)の和によって、評価関数の値を推定してよい。すなわち、評価関数の値Qd(s,ad)は、Qd(s,ad)=Vd(s)+Ad(s,ad)によって推定されてよい。このように、評価関数の値を推定する推定モデルのうち、状態のみに依存する部分を第1モデル13bによって推定し、状態及び行動に依存する部分を第2モデル13cによって推定することで、より適切な評価関数の値を推定することができるようになり、複数の物品をより効率的に発注することができる。 Then, the plurality of estimation models 13a may estimate the value of the evaluation function by the sum of the state value V d (s) estimated for each of the plurality of articles and the advantage function A d (s, ad ). That is, the value Q d (s, ad ) of the evaluation function may be estimated by Q d (s, ad ) = V d (s) + A d (s, ad ). As described above, in the estimation model for estimating the value of the evaluation function, a part that depends only on the state is estimated by the first model 13b, and a part that depends on the state and the behavior is estimated by the second model 13c. An appropriate value of the evaluation function can be estimated, and a plurality of articles can be ordered more efficiently.

また、図3に示すように、本実施形態に係る報酬算出部15は、物品の種類によらずに生じる報酬(Global Reward)を、複数の物品に分配して、各物品を発注する行動に関する報酬を算出する。例えば、報酬算出部15は、rd=−(Chold d,t+Cpel d,t+Ctrans t/N)によって物品dに関する報酬rdを算出してよい。ここで、Ctrans t/Nが複数の物品に分配される報酬である。 Further, as shown in FIG. 3, the reward calculation unit 15 according to the present embodiment distributes a reward (Global Reward) generated regardless of the type of an article to a plurality of articles and performs an action of ordering each article. Calculate the reward. For example, reward calculation unit 15, r d = - (C hold d, t + C pel d, t + C trans t / N) by may calculate the reward r d an article d. Here, C trans t / N is a reward distributed to a plurality of articles.

図4は、物品数が2である場合における、本実施形態に係る発注管理装置10による総コスト(Total Cost)と、比較例の総コストとを示す図である。なお、総コストは、報酬の符号をマイナスにした値であり、0に近いほど性能が良いことを表している。同図では、横軸に強化学習のエピソード数を示し、縦軸に総コストを示している。   FIG. 4 is a diagram illustrating the total cost (total cost) of the order management device 10 according to the present embodiment and the total cost of the comparative example when the number of articles is two. The total cost is a value obtained by setting the sign of the reward to a minus value, and the closer to 0, the better the performance. In the figure, the horizontal axis indicates the number of episodes of reinforcement learning, and the vertical axis indicates the total cost.

同図では、2種類の物品の需要の期待値が、時間とともに線形に増大する場合について、第1モデル13b及び第2モデル13cにより構成される複数の推定モデル13aによって推定された評価関数に基づいて行動を選択し、物品の輸送コストを複数の物品に関する報酬に分配した場合の総コスト(報酬)の推移を第1グラフG1によって示している。ここで、2種類の物品の需要のうち定常部分は、所定のパラメータのガウス分布に従って揺らぐものとしてシミュレーションを行っている。また、それぞれ単一のモデルで構成され、第1モデル13b及び第2モデル13cを含まない複数の推定モデル13aによって推定された評価関数に基づいて行動を選択し、物品の輸送コストを複数の物品に関する報酬に分配した場合の総コスト(報酬)の推移を第2グラフG2によって示している。さらに、比較例として、非特許文献3で提案された強化学習を用いる手法における総コスト(報酬)の推移を第3グラフG3によって示している。また、比較例として、非特許文献2で提案された強化学習を用いない手法における総コスト(報酬)を基準値Refとして示している。   In the figure, in the case where the expected values of the demands of the two kinds of articles increase linearly with time, based on the evaluation functions estimated by the plurality of estimation models 13a including the first model 13b and the second model 13c. The first graph G1 shows the transition of the total cost (reward) when an action is selected and the transportation cost of the article is distributed to the rewards for a plurality of articles. Here, the simulation is performed assuming that the steady part of the demand for the two types of articles fluctuates according to a Gaussian distribution of a predetermined parameter. Further, an action is selected based on an evaluation function estimated by a plurality of estimation models 13a, each of which is constituted by a single model and does not include the first model 13b and the second model 13c, and the transportation cost of the article is reduced by a plurality of articles. The transition of the total cost (reward) in the case where the reward is distributed to the related rewards is shown by the second graph G2. Further, as a comparative example, the transition of the total cost (reward) in the method using reinforcement learning proposed in Non-Patent Document 3 is shown by a third graph G3. Further, as a comparative example, the total cost (reward) in the method that does not use reinforcement learning proposed in Non-Patent Document 2 is shown as a reference value Ref.

実線で示す第1グラフG1及び破線で示す第2グラフG2によれば、本実施形態に係る発注管理装置10によって、2種類の物品の発注について、基準値Refよりも0に近い総コスト(基準値Refよりも大きな報酬)が達成できることが確認できる。一方、比較例として記載した第3グラフG3は、基準値Refよりも大きなマイナスの総コストになってしまうばかりか、学習が不安定であり、総コストが収束しないことが確認できる。このように、本実施形態に係る発注管理装置10によれば、複数の物品の需要が時間とともに変化する場合であっても、安定的に強化学習を進めることができ、複数の物品をより効率的に発注することができる。   According to the first graph G1 indicated by a solid line and the second graph G2 indicated by a broken line, the order management device 10 according to the present embodiment has a total cost (reference value) closer to 0 than the reference value Ref for ordering two types of articles. It can be confirmed that a reward larger than the value Ref) can be achieved. On the other hand, in the third graph G3 described as the comparative example, it can be confirmed that not only the total cost is larger than the reference value Ref but also the learning is unstable and the total cost does not converge. As described above, according to the order management device 10 according to the present embodiment, even when the demand for a plurality of articles changes with time, the reinforcement learning can be stably advanced, and the plurality of articles can be more efficiently used. You can place an order.

図5は、本実施形態に係る発注管理装置10により管理される複数の物品の在庫数の時間変化と発注タイミングを示す図である。同図では、第1物品(Product1)の在庫数I1及び第2物品(Product2)の在庫数I2を実線で示し、第1物品の発注数O1及び第2物品の発注数O2を破線で示し、第1物品の需要d1及び第2物品の需要d2を一点鎖線で示している。また、総発注数(total order)Tを破線で示している。同図の横軸は、シミュレーションのステップ数(Step)であり、時間に相当する。なお、第1物品の需要d1及び第2物品の需要d2は、強化学習のエージェントが直接観測できる量ではなく、シミュレーションのために生成されるものである。第1物品の需要d1及び第2物品の需要d2は、時間の経過とともに平均が増大する正規分布に従うように生成されている。   FIG. 5 is a diagram showing a time change of the stock numbers of a plurality of articles managed by the order management apparatus 10 according to the present embodiment and an order timing. In the figure, the stock quantity I1 of the first article (Product1) and the stock quantity I2 of the second article (Product2) are indicated by solid lines, the order quantity O1 of the first article and the order quantity O2 of the second article are indicated by broken lines, The demand d1 of the first article and the demand d2 of the second article are indicated by dashed lines. The total order number T is shown by a broken line. The horizontal axis in the figure is the number of simulation steps (Step), which corresponds to time. Note that the demand d1 for the first article and the demand d2 for the second article are not amounts that can be directly observed by the reinforcement learning agent, but are generated for simulation. The demand d1 of the first article and the demand d2 of the second article are generated so as to follow a normal distribution whose average increases with time.

同図に示す結果は、2種類の物品の需要の期待値が、時間とともに線形に増大する場合について、物品のパレットを最大で20個格納できるコンテナを用いて複数の物品を輸送する設定のシミュレーションによって得ている。ここで、輸送に要する期間は3ステップとし、取り得る行動は、0パレットの発注(発注なし)、1パレットの発注、2パレットの発注及び3パレットの発注としている。また、保管コストは0.02、欠品コストは1.0、輸送コストは1.0と設定している。   The result shown in the figure is a simulation of a setting for transporting a plurality of articles using a container capable of storing up to 20 pallets of articles when the expected value of demand for two kinds of articles increases linearly with time. Have gained. Here, the period required for transportation is three steps, and the actions that can be taken are: 0 pallet order (no order), 1 pallet order, 2 pallet order, and 3 pallet order. The storage cost is set at 0.02, the stockout cost is set at 1.0, and the transportation cost is set at 1.0.

同図によれば、第1物品の在庫数I1及び第2物品の在庫数I2が0とならないように、適切に第1物品の発注及び第2物品の発注が行われていることが確認できる。また、第1物品の発注数O1及び第2物品の発注数O2が同じタイミングで立ち上がる場合が多く、複数の物品をまとめて発注し、輸送コストを抑えられていることが確認できる。   According to the figure, it can be confirmed that the ordering of the first article and the ordering of the second article are performed appropriately so that the stock quantity I1 of the first article and the stock quantity I2 of the second article do not become 0. . In addition, the order number O1 of the first article and the order number O2 of the second article often rise at the same timing, and it can be confirmed that a plurality of articles are ordered together and the transportation cost is suppressed.

図6は、物品数が10である場合における、本実施形態に係る発注管理装置10による総コスト(Total Cost)と、比較例の総コストとを示す図である。なお、総コストは、報酬の符号をマイナスにした値であり、0に近いほど性能が良いことを表している。同図では、横軸に強化学習のエピソード数を示し、縦軸に総コストを示している。   FIG. 6 is a diagram illustrating the total cost (total cost) of the order management device 10 according to the present embodiment and the total cost of the comparative example when the number of articles is 10. The total cost is a value obtained by setting the sign of the reward to a minus value, and the closer to 0, the better the performance. In the figure, the horizontal axis indicates the number of episodes of reinforcement learning, and the vertical axis indicates the total cost.

同図では、10種類の物品の需要の期待値が、時間とともに線形に増大する場合について、第1モデル13b及び第2モデル13cにより構成される複数の推定モデル13aによって推定された評価関数に基づいて行動を選択し、物品の輸送コストを複数の物品に関する報酬に分配した場合の総コスト(報酬)の推移を第5グラフG5によって示している。ここで、10種類の物品の需要のうち定常部分は、所定のパラメータのガウス分布に従って揺らぐものとしてシミュレーションを行っている。また、それぞれ単一のモデルで構成され、第1モデル13b及び第2モデル13cを含まない複数の推定モデル13aによって推定された評価関数に基づいて行動を選択し、物品の輸送コストを複数の物品に関する報酬に分配した場合の総コスト(報酬)の推移を第6グラフG6によって示している。さらに、比較例として、非特許文献2で提案された強化学習を用いる手法における総コスト(報酬)の推移を第7グラフG7によって示している。また、比較例として、非特許文献3で提案された強化学習を用いない手法における総コスト(報酬)を基準値Refとして示している。   In the figure, when the expected values of the demands of the ten kinds of articles increase linearly with time, based on the evaluation functions estimated by the plurality of estimation models 13a including the first model 13b and the second model 13c. The transition of the total cost (reward) in the case where the action is selected and the transportation cost of the article is distributed to the rewards related to the plurality of articles is shown by a fifth graph G5. Here, the simulation is performed assuming that the steady part of the demand for the ten types of articles fluctuates according to a Gaussian distribution of predetermined parameters. Further, an action is selected based on an evaluation function estimated by a plurality of estimation models 13a, each of which is constituted by a single model and does not include the first model 13b and the second model 13c, and the transportation cost of the article is reduced by a plurality of articles. The transition of the total cost (reward) when the reward is distributed to the related rewards is shown by a sixth graph G6. Further, as a comparative example, the transition of the total cost (reward) in the method using reinforcement learning proposed in Non-Patent Document 2 is shown by a seventh graph G7. Further, as a comparative example, the total cost (reward) in the method that does not use reinforcement learning proposed in Non-Patent Document 3 is shown as a reference value Ref.

実線で示す第5グラフG5及び破線で示す第6グラフG6によれば、本実施形態に係る発注管理装置10によって、10種類の物品の発注について、基準値Refよりも0に近い総コスト(基準値Refよりも大きな報酬)が達成できることが確認できる。なお、第6グラフG6には若干の不安定性が見られるため、第1モデル13b及び第2モデル13cにより構成される複数の推定モデル13aによって推定された評価関数に基づいて行動を選択し、物品の輸送コストを複数の物品に関する報酬に分配する手法が最も優れていると考えられる。   According to the fifth graph G5 indicated by the solid line and the sixth graph G6 indicated by the dashed line, the order management device 10 according to the present embodiment has a total cost (reference value) closer to 0 than the reference value Ref for ordering 10 types of articles. It can be confirmed that a reward larger than the value Ref) can be achieved. Since the sixth graph G6 shows some instability, an action is selected based on the evaluation function estimated by the plurality of estimation models 13a constituted by the first model 13b and the second model 13c, and the product is selected. Is considered to be the best way to distribute the transportation cost of the goods to rewards for multiple goods.

一方、比較例として記載した第7グラフG7は、基準値Refよりも大きなマイナスの総コストになってしまうばかりか、学習が不安定であり、総コストが収束しないことが確認できる。このように、本実施形態に係る発注管理装置10によれば、複数の物品の需要が時間とともに変化する場合であっても、安定的に強化学習を進めることができ、複数の物品をより効率的に発注することができる。   On the other hand, in the seventh graph G7 described as a comparative example, it can be confirmed that not only the total cost is larger than the reference value Ref but also the learning is unstable and the total cost does not converge. As described above, according to the order management device 10 according to the present embodiment, even when the demand for a plurality of articles changes with time, the reinforcement learning can be stably advanced, and the plurality of articles can be more efficiently used. You can place an order.

図7は、本実施形態に係る発注管理装置10により実行される処理のフローチャートである。はじめに、発注管理装置10は、複数の物品の在庫数と、輸送中の物品の数を取得する(S10)。   FIG. 7 is a flowchart of a process executed by the order management device 10 according to the present embodiment. First, the order management device 10 acquires the inventory numbers of a plurality of articles and the number of articles being transported (S10).

また、発注管理装置10は、輸送に要する期間経過後の在庫数の推定値と、輸送に要する期間が経過するまでの物品の需要数の推定値と、輸送に要する期間が経過してから、所定の期間が経過するまでの物品の需要数の推定値とを算出する(S11)。なお、発注管理装置10は、複数の物品の在庫数と、輸送中の物品の数と、輸送に要する期間経過後の在庫数の推定値と、輸送に要する期間が経過するまでの物品の需要数の推定値と、輸送に要する期間が経過してから、所定の期間が経過するまでの物品の需要数の推定値とを、強化学習の状態として用いる。   In addition, the order management device 10 calculates the estimated value of the number of stocks after the period required for the transportation, the estimated value of the demand number of articles until the period required for the transportation has elapsed, and the time required for the transportation has elapsed. An estimated value of the demand number of articles until a predetermined period elapses is calculated (S11). Note that the order management device 10 calculates the inventory count of the plurality of articles, the number of articles in transit, the estimated value of the stock quantity after the elapse of the time required for the transport, and the demand of the articles until the elapse of the time required for the transport. The estimated value of the number and the estimated value of the demand number of the articles from the elapse of the period required for transportation to the elapse of a predetermined period are used as the state of reinforcement learning.

その後、発注管理装置10は、複数の物品それぞれに関する評価関数の第1値を、複数の推定モデルによって推定する(S12)。発注管理装置10は、処理S10及びS11によって特定した状態について、取り得る行動の評価関数の値を、複数の物品毎に設定された複数の推定モデルによって推定する。   Then, the order management device 10 estimates the first value of the evaluation function for each of the plurality of articles by using a plurality of estimation models (S12). The order management device 10 estimates the value of the evaluation function of the action that can be taken for the state specified by the processes S10 and S11 by using a plurality of estimation models set for each of a plurality of articles.

発注管理装置10は、所定の確率で、ランダムに行動を選択し、1から所定の確率を引いた確率で、評価関数の第1値が最大となる行動を選択する(S13)。なお、発注管理装置10は、他の方法で行動を選択してもよい。   The order management device 10 randomly selects an action with a predetermined probability, and selects an action that maximizes the first value of the evaluation function with a probability obtained by subtracting the predetermined probability from 1 (S13). Note that the order management device 10 may select an action by another method.

発注管理装置10は、保管コストと、発注された物品の輸送コストを物品の数で除算した値と、複数の物品が欠品した場合のペナルティコストとの和によって、複数の物品それぞれに関する報酬を算出する(S14)。   The order management device 10 provides a reward for each of the plurality of articles by a sum of a storage cost, a value obtained by dividing a transport cost of the ordered article by the number of articles, and a penalty cost in a case where a plurality of articles are missing. It is calculated (S14).

発注管理装置10は、選択した行動を行った後の状態について、取り得る行動に関する評価関数の第2値を、複数の推定モデルによって推定する(S15)。そして、発注管理装置10は、割引率を掛けた評価関数の第2値及び報酬の和と、評価関数の第1値との差を小さくするように、複数の推定モデルのパラメータを更新する(S16)。   The order management device 10 estimates the second value of the evaluation function relating to the possible behavior using a plurality of estimation models for the state after the selected behavior has been performed (S15). Then, the order management device 10 updates the parameters of the plurality of estimation models so as to reduce the difference between the sum of the second value and the reward of the evaluation function multiplied by the discount rate and the first value of the evaluation function ( S16).

発注管理装置10は、処理を終了しない場合(S17:NO)、処理S10〜S16を繰り返し実行して、強化学習を行う。なお、処理を終了する条件は、複数の推定モデルの損失関数の値が所定期間にわたって所定値以下となることであったり、強化学習のエピソード数が所定回数以上となることであったりしてよい。   If the process is not to be ended (S17: NO), the order management device 10 repeatedly executes the processes S10 to S16 to perform reinforcement learning. The condition for terminating the process may be that the values of the loss functions of the plurality of estimation models are equal to or less than a predetermined value over a predetermined period, or that the number of episodes of reinforcement learning is equal to or more than a predetermined number. .

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。   The embodiments described above are intended to facilitate understanding of the present invention, and are not intended to limit and interpret the present invention. The components included in the embodiment and their arrangement, material, condition, shape, size, and the like are not limited to those illustrated, but can be appropriately changed. It is also possible to partially replace or combine the configurations shown in the different embodiments.

10…発注管理装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…取得部、12…第1推定部、13…記憶部、13a…複数の推定モデル、14…選択部、15…報酬算出部、16…第2推定部、17…更新部   10 order management device, 10a CPU, 10b RAM, 10c ROM, 10d communication unit, 10e input unit, 10f display unit, 11 acquisition unit, 12 estimation unit, 13 storage unit 13a: Multiple estimation models, 14: Selection unit, 15: Reward calculation unit, 16: Second estimation unit, 17: Update unit

Claims (13)

所定の時点における複数の物品の在庫数を含む状態と、前記複数の物品を所定数発注する行動との関数であって、前記複数の物品について設定されている複数の評価関数の第1値を、前記複数の物品について設定されている複数の推定モデルによって推定する第1推定部と、
前記第1値に基づいて、前記行動を選択する選択部と、
前記行動を行った場合の前記複数の物品の保管コスト及び発注された物品の輸送コストに基づいて、前記複数の物品それぞれに固有の報酬及び前記複数の物品の種類によらない報酬を算出する報酬算出部と、
前記行動を行った後の前記状態について、取り得る前記行動に関する前記複数の評価関数の第2値を前記複数の推定モデルによって推定する第2推定部と、
割引率を掛けた前記第2値、前記複数の物品それぞれに固有の報酬及び前記複数の物品の種類によらない報酬の和と、前記第1値との差を小さくするように、前記複数の推定モデルのパラメータを更新する更新部と、
を備える発注管理装置。
A function of a state including the stock numbers of a plurality of articles at a predetermined time point and an action of ordering the plurality of articles by a predetermined number, wherein a first value of a plurality of evaluation functions set for the plurality of articles is calculated. A first estimating unit that estimates using a plurality of estimation models set for the plurality of articles;
A selection unit that selects the action based on the first value;
A reward for calculating a reward unique to each of the plurality of articles and a reward independent of the type of the plurality of articles , based on a storage cost of the plurality of articles and a transport cost of ordered articles when the action is performed. A calculating unit;
A second estimating unit that estimates, by the plurality of estimation models, second values of the plurality of evaluation functions related to the possible behavior with respect to the state after performing the action;
The second value multiplied by a discount rate, the sum of a reward unique to each of the plurality of articles and a reward independent of the type of the plurality of articles, and the plurality of the plurality of An updating unit that updates parameters of the estimation model;
An order management device comprising:
前記報酬算出部は、前記保管コストによって、前記複数の物品それぞれに固有の報酬を算出し、前記輸送コストを発注された物品の数で除算した値によって、前記複数の物品の種類によらない報酬を算出する、
請求項1に記載の発注管理装置。
The compensation calculation unit, by the storage costs, to calculate the specific compensation to each of the plurality of articles, said a value obtained by dividing the number of transportation costs were ordered article thus does not depend on the type of the plurality of articles Calculate rewards ,
The order management device according to claim 1.
前記報酬算出部は、前記保管コストによって、前記複数の物品それぞれに固有の報酬を算出し、前記輸送コストを発注された物品の数で除算した値によって、前記複数の物品の種類によらない報酬を算出し、前記複数の物品が欠品した場合のペナルティコストによって、前記複数の物品それぞれに固有の報酬を算出する、
請求項1又は2に記載の発注管理装置。
The reward calculation unit calculates a reward unique to each of the plurality of articles according to the storage cost , and calculates a reward irrespective of the type of the plurality of articles by a value obtained by dividing the transportation cost by the number of ordered articles. Calculating a reward unique to each of the plurality of articles by a penalty cost when the plurality of articles are out of stock,
The order management device according to claim 1.
前記選択部は、所定の確率で、ランダムに前記行動を選択し、1から前記所定の確率を引いた確率で、前記第1値が最大となる前記行動を選択する、
請求項1から3のいずれか一項に記載の発注管理装置。
The selecting unit randomly selects the action with a predetermined probability, and selects the action in which the first value is maximized at a probability obtained by subtracting the predetermined probability from 1;
The order management device according to claim 1.
前記複数の推定モデルは、前記状態に関する状態値を推定する第1モデルと、前記状態における前記行動のアドバンテージ関数を推定する第2モデルとをそれぞれ含む、
請求項1から4のいずれか一項に記載の発注管理装置。
The plurality of estimation models each include a first model that estimates a state value related to the state, and a second model that estimates an advantage function of the action in the state.
The order management device according to claim 1.
前記更新部は、記割引率を掛けた前記第2値、前記複数の物品それぞれに固有の報酬及び前記複数の物品の種類によらない報酬の和と、前記第1値との差の2乗について、前記複数の物品について過去に記録された前記状態、前記行動、前記複数の物品それぞれに固有の報酬、前記複数の物品の種類によらない報酬及び前記行動を行った後の前記状態に関する期待値が小さくなるように、前記パラメータを更新する、
請求項1から5のいずれか一項に記載の発注管理装置。
The update unit is the second value multiplied by pre-Symbol discount rate, the sum of compensation that does not depend on the type of specific compensation and said plurality of articles to each of the plurality of articles, the difference between the first value 2 Regarding the power, the state, the action, the reward unique to each of the plurality of articles, the reward independent of the type of the plurality of articles, and the state after performing the action regarding the plurality of articles in the past. Updating the parameters so that the expected value is reduced,
The order management device according to claim 1.
前記更新部は、記割引率を掛けた前記第2値、前記複数の物品それぞれに固有の報酬及び前記複数の物品の種類によらない報酬の和と、前記第1値との差のHuber損失関数について、前記複数の物品について過去に記録された前記状態、前記行動、前記複数の物品それぞれに固有の報酬、前記複数の物品の種類によらない報酬及び前記行動を行った後の前記状態に関する期待値が小さくなるように、前記パラメータを更新する、
請求項1から5のいずれか一項に記載の発注管理装置。
The update unit is the second value multiplied by pre-Symbol discount rate, the sum of compensation that does not depend on the type of specific compensation and said plurality of articles to each of the plurality of articles, Huber of the difference between said first value For the loss function, the states previously recorded for the plurality of articles , the behavior, a reward unique to each of the plurality of articles, a reward independent of the type of the plurality of articles, and the state after performing the action Updating the parameter so that the expected value for
The order management device according to claim 1.
前記状態は、前記所定の時点において輸送中の物品の数を含む、
請求項1から7のいずれか一項に記載の発注管理装置。
The state includes the number of items in transit at the predetermined time,
The order management device according to any one of claims 1 to 7.
前記状態は、前記所定の時点から輸送に要する期間経過後の前記在庫数の推定値を含む、
請求項1から8のいずれか一項に記載の発注管理装置。
The state includes an estimated value of the stock quantity after a period required for transportation from the predetermined point in time,
An order management device according to any one of claims 1 to 8.
前記状態は、前記所定の時点から輸送に要する期間が経過するまでの物品の需要数の推定値を含む、
請求項1から9のいずれか一項に記載の発注管理装置。
The state includes an estimated value of the demand number of the goods from the predetermined time until the time required for transportation has elapsed,
The order management device according to any one of claims 1 to 9.
前記状態は、前記所定の時点から輸送に要する期間が経過してから、所定の期間が経過するまでの物品の需要数の推定値を含む、
請求項1から10のいずれか一項に記載の発注管理装置。
The state includes an estimated value of the demand number of the goods until a predetermined period elapses after a period required for transportation has elapsed from the predetermined time.
The order management device according to any one of claims 1 to 10.
発注管理装置に備えられた演算部によって、
所定の時点における複数の物品の在庫数を含む状態と、前記複数の物品を所定数発注する行動との関数であって、前記複数の物品について設定されている複数の評価関数の第1値を、前記複数の物品について設定されている複数の推定モデルによって推定すること、
前記第1値に基づいて、前記行動を選択することと、
前記行動を行った場合の前記複数の物品の保管コスト及び発注された物品の輸送コストに基づいて、前記複数の物品それぞれに固有の報酬及び前記複数の物品の種類によらない報酬を算出することと、
前記行動を行った後の前記状態について、取り得る前記行動に関する前記複数の評価関数の第2値を前記複数の推定モデルによって推定することと、
割引率を掛けた前記第2値、前記複数の物品それぞれに固有の報酬及び前記複数の物品の種類によらない報酬の和と、前記第1値との差を小さくするように、前記複数の推定モデルのパラメータを更新することと、
実行する発注管理方法。
By the calculation unit provided in the order management device,
A function of a state including the stock numbers of a plurality of articles at a predetermined time point and an action of ordering the plurality of articles by a predetermined number, wherein a first value of a plurality of evaluation functions set for the plurality of articles is calculated. Estimating by a plurality of estimation models set for the plurality of articles,
Selecting the action based on the first value;
Calculating a reward unique to each of the plurality of articles and a reward independent of the type of the plurality of articles based on a storage cost of the plurality of articles and a transport cost of ordered articles when the action is performed. When,
For the state after performing the action, estimating a second value of the plurality of evaluation functions for the possible action by the plurality of estimation models;
The second value multiplied by a discount rate, the sum of a reward unique to each of the plurality of articles and a reward independent of the type of the plurality of articles, and the plurality of the plurality of Updating the parameters of the estimation model;
Perform order management method.
発注管理装置に備えられた演算部を、
所定の時点における複数の物品の在庫数を含む状態と、前記複数の物品を所定数発注する行動との関数であって、前記複数の物品について設定されている複数の評価関数の第1値を、前記複数の物品について設定されている複数の推定モデルによって推定する第1推定部、
前記第1値に基づいて、前記行動を選択する選択部、
前記行動を行った場合の前記複数の物品の保管コスト及び発注された物品の輸送コストに基づいて、前記複数の物品それぞれに固有の報酬及び前記複数の物品の種類によらない報酬を算出する報酬算出部、
前記行動を行った後の前記状態について、取り得る前記行動に関する前記複数の評価関数の第2値を前記複数の推定モデルによって推定する第2推定部、及び
割引率を掛けた前記第2値、前記複数の物品それぞれに固有の報酬及び前記複数の物品の種類によらない報酬の和と、前記第1値との差を小さくするように、前記複数の推定モデルのパラメータを更新する更新部、
として機能させる発注管理プログラム。
The calculation unit provided in the order management device,
A function of a state including the stock numbers of a plurality of articles at a predetermined time point and an action of ordering the plurality of articles by a predetermined number, wherein a first value of a plurality of evaluation functions set for the plurality of articles is calculated. A first estimating unit that estimates using a plurality of estimation models set for the plurality of articles;
A selection unit that selects the action based on the first value;
A reward for calculating a reward unique to each of the plurality of articles and a reward independent of the type of the plurality of articles , based on a storage cost of the plurality of articles and a transport cost of ordered articles when the action is performed. Calculator,
A second estimator for estimating, by the plurality of estimation models, second values of the plurality of evaluation functions relating to the possible actions, for the state after performing the action, and the second value multiplied by a discount rate ; An update unit that updates a parameter of the plurality of estimation models so as to reduce a difference between the reward unique to each of the plurality of articles and a reward independent of the type of the plurality of articles, and a difference between the first value and the sum.
Order management program to function as.
JP2019093580A 2019-05-17 2019-05-17 Order management device, order management method and order management program Expired - Fee Related JP6663064B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019093580A JP6663064B1 (en) 2019-05-17 2019-05-17 Order management device, order management method and order management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019093580A JP6663064B1 (en) 2019-05-17 2019-05-17 Order management device, order management method and order management program

Publications (2)

Publication Number Publication Date
JP6663064B1 true JP6663064B1 (en) 2020-03-11
JP2020187681A JP2020187681A (en) 2020-11-19

Family

ID=69998126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019093580A Expired - Fee Related JP6663064B1 (en) 2019-05-17 2019-05-17 Order management device, order management method and order management program

Country Status (1)

Country Link
JP (1) JP6663064B1 (en)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612432A (en) * 1992-06-25 1994-01-21 Hokuriku Nippon Denki Software Kk Stock replenishing computing device
JPH06266735A (en) * 1993-03-16 1994-09-22 Hitachi Ltd Information processing method/device
JPH11296611A (en) * 1998-04-10 1999-10-29 Sorubekkusu:Kk Ordering supporting method and ordering supporting device for supporting ordering of merchandise and computer readable record medium recording program
JP5413831B2 (en) * 2009-07-17 2014-02-12 学校法人立命館 Power trading management system, management apparatus, power trading method, and computer program for power trading
JP2016181039A (en) * 2015-03-23 2016-10-13 富士通株式会社 Schedule determination method, schedule determination program and schedule determination system
JP2017191567A (en) * 2016-04-15 2017-10-19 ファナック株式会社 Production system for implementing production plan
JP2018126796A (en) * 2017-02-06 2018-08-16 セイコーエプソン株式会社 Control device, robot, and robot system
JP6718834B2 (en) * 2017-02-28 2020-07-08 株式会社日立製作所 Learning system and learning method
JP6831307B2 (en) * 2017-08-02 2021-02-17 日本電信電話株式会社 Solution calculation device, solution calculation method and solution calculation program

Also Published As

Publication number Publication date
JP2020187681A (en) 2020-11-19

Similar Documents

Publication Publication Date Title
Coelho et al. The inventory-routing problem with transshipment
Nguyen et al. Consolidation strategies for the delivery of perishable products
Tancrez et al. A location-inventory model for large three-level supply chains
Choudhary et al. A goal programming model for joint decision making of inventory lot-size, supplier selection and carrier selection
Ventura et al. A dynamic inventory model with supplier selection in a serial supply chain structure
Choudhary et al. Joint decision of procurement lot-size, supplier selection, and carrier selection
Hariga et al. An integrated retail space allocation and lot sizing models under vendor managed inventory and consignment stock arrangements
Qiu et al. A robust optimization approach for multi-product inventory management in a dual-channel warehouse under demand uncertainties
Afrouzy et al. A fuzzy stochastic multi-objective optimization model to configure a supply chain considering new product development
CN107292724A (en) A kind of automatic generation method of order, device and server
Sadri Esfahani et al. Modeling the time windows vehicle routing problem in cross-docking strategy using two meta-heuristic algorithms
Jula et al. A supply-chain optimization model of the allocation of containerized imports from Asia to the United States
US20210312377A1 (en) Capacity optimized and balanced fill levels
Wensing et al. Optimizing case-pack sizes in the bricks-and-mortar retail trade
CN112749829A (en) Transportation plan generating device and transportation plan generating method
Garcia-Sabater et al. A new formulation technique to model materials and operations planning: the generic materials and operations planning (GMOP) problem
CN115456494A (en) Automatic replenishment method, device, computer equipment and computer-readable storage medium
Santosa et al. Solving multi-product inventory ship routing with a heterogeneous fleet model using a hybrid cross entropy-genetic algorithm: a case study in Indonesia
US20110040659A1 (en) Transportation planning system and method for the same
Cavagnini et al. A rolling horizon approach for a multi-stage stochastic fixed-charge transportation problem with transshipment
Nikolakopoulos et al. Economic model predictive inventory routing and control
JP4220885B2 (en) Proper order quantity calculation method, proper order quantity calculation system, proper order quantity calculation program
JP6663064B1 (en) Order management device, order management method and order management program
Saxena et al. Flexible configuration for seamless supply chains: Directions towards decision knowledge sharing
Madsen et al. Real-time multi-agent forecasting and replenishment solution for legos branded retail outlets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190520

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190520

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200213

R150 Certificate of patent or registration of utility model

Ref document number: 6663064

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees