JP7023213B2 - 学習管理システムおよび学習管理方法 - Google Patents

学習管理システムおよび学習管理方法 Download PDF

Info

Publication number
JP7023213B2
JP7023213B2 JP2018205053A JP2018205053A JP7023213B2 JP 7023213 B2 JP7023213 B2 JP 7023213B2 JP 2018205053 A JP2018205053 A JP 2018205053A JP 2018205053 A JP2018205053 A JP 2018205053A JP 7023213 B2 JP7023213 B2 JP 7023213B2
Authority
JP
Japan
Prior art keywords
data
measure
activity
simulated state
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018205053A
Other languages
English (en)
Other versions
JP2020071662A (ja
Inventor
潔人 伊藤
大樹 藤
佳奈子 江▲崎▼
高斉 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018205053A priority Critical patent/JP7023213B2/ja
Priority to US16/668,892 priority patent/US11475373B2/en
Publication of JP2020071662A publication Critical patent/JP2020071662A/ja
Application granted granted Critical
Publication of JP7023213B2 publication Critical patent/JP7023213B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、学習管理システムおよび学習管理方法に関するものである。
近年、サプライチェーンシステム、エネルギー供給網システム、交通システム、金融システム等、多様なサブシステムから構成され、それらが絡み合った社会システムの複雑性は日々増大している。
各サブシステムは、状況(サブシステムからの入力である状態や制約)に応じて、成果目標(サブシステムの性能を示す判断指標)を最大化するために、行動(サブシステムからの出力)を時々刻々と決定することが求められる。サブシステムが置かれる状況は常に変化していくため、あらゆる状況を人間が予測して、各サブシステムの最適な行動を、サブシステムの制御方法としてプログラミングするには限界がある。
そこで、シミュレーションやデータを活用して、こうしたサブシステムの最適な行動を予測したり、サブシステムの制御方法のパラメータを決定したりする技術が注目されている。例えば、特許文献1では、複数の工場の製品について、工場単位のシミュレーションとサプライチェーン全体のシミュレーションと繰り返すことで、サプライチェーン効率化を行う技術が提案されている。また、特許文献2では、気象予報データと、および電力需要量及び熱需要量の過去実績データから、複数の施設の電力需要量及び熱需要量を同時に予測できるエネルギー管理システムが提案されている。
特開2011-65224号公報 特開2015-106316号公報
特許文献1に開示されている技術は、シミュレーションによる技術であるため、サプライチェーンのように、流通する商品の種類が膨大となり、また流通する商品に対する顧客需要の変化も激しい場合には、あり得るパターンを網羅したシミュレータを具現化することが困難であるという問題がある。
また、特許文献2のように、実績データを用いて予測を行う場合、過去の実績データから外れた状況では、全く予測が当てにならないという問題がある。
本発明の目的は、シミュレータとして具現化できず、かつ、過去の実績データに対する変化が大きい複雑系システムにおいて、サブシステムの制御方法のパラメータを適切に決定できる学習管理システムおよび学習管理方法を提供することを目的とする。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態による所定の制御対象の挙動を学習する学習管理システムであって、制御対象の過去実績データを蓄積する実績データ記憶部と、制御対象の挙動に関するデータから施策提案データを出力する第一相関モデルを記憶する第一モデル記憶部と、制御対象の挙動を模擬した模擬状態データと、施策提案データとから施策データを出力する第二相関モデルを記憶する第二モデル記憶部と、模擬状態データと、施策提案データと、施策データとから施策評価値を出力する第三相関モデルを記憶する第三モデル記憶部と、所定の評価値と、実績データ記憶部により記憶されている過去実績データとに基づいて、制御対象の挙動に関するデータと施策提案データとの相関を算出することで、第一相関モデルのパラメータを決定する第一実績学習部と、制御対象の挙動を模擬した模擬状態データを取得する模擬状態データ取得部と、模擬状態データ取得部により取得された模擬状態データを第一相関モデルに入力することにより施策提案データを生成し、模擬状態データ取得部により取得された模擬状態データと、当該施策提案データとを第二相関モデルに入力することにより施策データを生成する施策データ生成部と、模擬状態データ取得部により取得された模擬状態データと、施策データ生成部により生成された施策提案データと、施策データ生成部により生成された施策データと、所定の評価ロジックとに基づいて、第二相関モデル及び第三相関モデルのパラメータを決定する活動学習部と、第三相関モデルにより得られる評価値と、実績データ記憶部により記憶されている過去実績データとに基づいて、制御対象の挙動に関するデータと施策提案データとの相関を算出することで、第一相関モデルのパラメータを再度決定する第二実績学習部と、を備える。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
すなわち、本発明の代表的な実施の形態によれば、シミュレータとして具現化できず、かつ、過去の実績データに対する変化が大きい複雑系システムにおいて、サブシステムの制御方法のパラメータを適切に決定できる。
本実施形態に係るサプライチェーンの概要を示した図である。 本実施形態に係る学習管理システムの概要を示した図である。 本実施形態に係る小売シミュレータと小売エージェントの構成を示した図である。 本実施形態に係る小売エージェントの学習処理の手順を説明するフローチャートである。 本実施形態に係る学習管理システムによりサービスを提供する形態を示す図である。 本実施形態に係る小売端末に表示する画面の一例を示す図である。 本実施形態に係る学習フローの様子を表示する画面の一例を示した図である。 本実施形態に係る学習管理システムによりサービスを提供する他の形態を示す図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。
以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
以下の説明では、「テーブル」、「リスト」、「キュー」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「XXテーブル」、「XXリスト」等を「XX情報」と呼ぶことがある。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ID」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。
同一あるいは同様な機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
本実施例において、複雑系システムとして図1に示すサプライチェーン100を対象として説明する。図1は、顧客に対して商品の販売を行う小売101、商品の流通を担う卸売102、商品を生産する工場103という3つの拠点が相互に発注と商品の配送を行い流通させる様子を示している。図1では、簡単のため工場、卸売、小売からなる直列のサプライチェーンについて説明するが、本実施例では、このサプライチェーンに限定されるものではなく、異なる形態のチェーンにも適用可能である。
図2は、本実施例における学習管理システム10の概要を示した図面である。学習管理システム10は、小売101の拠点における事業活動を模擬する小売シミュレータ(小売Sim)201と、卸売102の事業活動を模擬する卸売シミュレータ(卸売Sim)202と、工場103の事業活動を模擬する工場シミュレータ(工場Sim)203とが、サプライチェーン100における発注および配送の関係に基づいて接続されている。ここで、事業活動とは、各拠点(例えば、小売101)において、受注から商品の発送までの最低限の物品および資金といった資源のやり取りに必要な所定のオペレーションを指すものとする。
また、各拠点シミュレータ(小売シミュレータ201等)には、拠点の事業活動の指示を行うエージェント(小売エージェント301等)が接続される。すなわち小売シミュレータ201には、小売エージェント301が、卸売シミュレータ202には卸売エージェント302が、工場シミュレータ203には工場エージェント303が、それぞれ接続されている。上記の各拠点シミュレータは、例えば、公知のシミュレーション機能を実行可能な情報処理装置(サーバ)である。
各エージェント(小売エージェント301等)は、接続された各拠点シミュレータ(小売シミュレータ201等)より、シミュレーションによって模擬された拠点活動のデータ(拠点活動模擬データ)を受領し、それに基づいて、拠点に事業の活動指示を、各シミュレータに与える。一例をあげるとすれば、拠点活動模擬データは、拠点における所定の商品の日毎の在庫量、注残量、入出荷の履歴、受発注の履歴であり、事業の活動指示は、所定の商品の日毎の発注量となる。
図3は、小売エージェント301の実施の形態の1つを示す図面である。なお、本実施例の説明において、卸売エージェント302、工場エージェント303についても、小売エージェント301と同様の形態を示すものとして、同様の説明は省略する。
図3に示すように、小売エージェント301は、学習制御部50と、実績学習部51と、活動学習部52と、過去実績データベース53と、模擬活動データベース54と、セレクタ55と、セレクタ56とを有する。
小売エージェント301は、上述のように、拠点の事業活動の指示を行うエージェントであり、小売(制御対象)の挙動を学習する学習管理システムとして機能する。小売エージェント301は、具体的には、サーバ装置等である。
小売エージェント301の過去実績データベース53は、制御対象の過去実績データを蓄積する部分である。実績学習部51は、制御対象の挙動に関するデータから活動提案(施策提案データ)を出力する活動提案モデル511(第一相関モデル)を記憶する部分である。すなわち、実績学習部51は、第一モデル記憶部として機能する。ここで、制御対象の挙動に関するデータとは、制御対象の過去実績データや模擬状態データを示す。
活動学習部52は、活動決定モデル522(第二相関モデル)及び活動価値評価モデル521(第三相関モデル)を記憶する部分である。すなわち、活動学習部52は、第二モデル記憶部及び第三モデル記憶部として機能する。活動決定モデル522は、模擬状態データと、施策提案データとから活動指示(施策データ)を出力する。また、活動価値評価モデル521は、模擬状態データと、活動提案と、活動指示とから活動価値(施策評価値)を出力する。
実績学習部51は、拠点アウトカム(所定の評価値)と、過去実績データベース53により記憶されている過去実績データとに基づいて、制御対象の挙動に関するデータと施策提案データとの相関を算出することで、活動提案モデル511のパラメータを決定する部分である。
また、実績学習部51は、活動価値評価モデル521により得られる活動価値(評価値)と、過去実績データベース53に記憶されている過去実績データとに基づいて、制御対象の挙動に関するデータと活動提案との相関を算出することで、活動価値評価モデル521のパラメータを再度決定する部分である。すなわち、実績学習部51は、第一実績学習部と第二実績学習部として機能する。
また、実績学習部51は、上記のように、活動価値評価モデル521により得られる活動価値(評価値)と、過去実績データベース53に記憶されている過去実績データとに基づいて、制御対象の挙動に関するデータと活動提案との相関を算出した結果のパラメータの調整量に基づいて、新たに拠点活動模擬データを取得する。
また、実績学習部51及び活動学習部52は、所定のタイミングで小売Sim(小売シミュレータ)201から拠点活動模擬データを取得する。すなわち、実績学習部51及び活動学習部52は、模擬状態データ取得部として機能する。
また、実績学習部51は、所定のタイミングで拠点活動模擬データを活動提案モデルに入力することにより、活動提案を生成する。また、活動学習部52は、拠点活動模擬データと、実績学習部51により生成された活動提案とを活動決定モデル522に入力することにより、活動指示を生成する。このように、実績学習部51及び活動学習部52は、施策データ生成部として機能する。また、活動学習部52は、模擬活動データベース54に、拠点活動模擬データと、活動提案と、活動指示とを対応付けて登録する。このように、模擬活動データベース54は、模擬活動データ記憶部として機能する。
活動学習部52は、拠点活動模擬データと、活動提案と、活動指示と、所定の評価ロジックとに基づいて、活動決定モデル522及び活動価値評価モデル521のパラメータを決定する。
学習制御部50は、小売エージェント301の処理を制御する部分であり、実績学習部51、活動学習部52等の動作を制御する。
続いて、図4を用いて、活動提案モデル511と活動価値評価モデル521と活動決定モデル522との各モデルのパラメータを決定する処理フローである。この処理は、所定のタイミング(例えば、月に1度)で動作する。
まず、ステップS001において、初期アウトカムを指標に実績データ(過去実績データベース53のデータ)を用いて活動提案モデル511を学習する。具体的に、学習制御部50は、実績学習部51に実績学習指示をすると、実績学習部51は、過去実績データベース53から、拠点状況実績データと、拠点活動実績データとを読み出す。
また、セレクタ55は、信号Pを選択し、あらかじめ外部より指定された拠点アウトカム(利益指標値)を、学習アウトカムとして、実績学習部51に与える。そして、実績学習部51は、拠点状況実績データと、拠点活動実績データと、学習アウトカムとの相関を、所定の実績相関学習アルゴリズムにより算出する。実績学習部51は、算出された相関を用いて、拠点活動実績データを入力として、学習アウトカムを最大にするための活動提案を出力するように、活動提案モデル511のパラメータを、活動提案学習アルゴリズムにより、調整する。
ステップS001における活動提案モデルのパラメータの調整の一例をより具体的に説明する。前提として、学習制御部50は、拠点状況実績データとして、拠点活動模擬データと同様の、拠点における所定の商品の在庫量、注残量、入出荷の履歴、受発注の履歴に加えて、小売101の日毎の来客数、日毎の気温、日毎の天候を過去実績データベース53に予め登録している。
同様に、学習制御部50は、拠点活動実績データとして、小売り101の日毎の前記所定の商品の発注量を過去実績データベース53に予め登録している。また、学習制御部50は、学習アウトカムとして、小売101の週毎の前記所定の商品より得られる利益を予め設定している。
実績学習部51は、過去実績データベース53から拠点活動実績データおよび拠点状況実績データを取得して、週毎の前記所定の商品より得られる利益と拠点状況実績データから定まる拠点状況との相関(第1相関)、前記拠点状況の遷移と拠点活動(発注量)との相関(第2相関)を算出する。すなわち、実績学習部51は、第1相関を用いることで、前記週毎の利益を最大化するための最適な前記拠点状況を提案することが可能となり、第2相関を用いることで、前記最適な拠点状況にするために最適な拠点活動(発注量)を提案することが可能となる。
実績学習部51は、この2つの相関を結合することにより、活動提案モデル511について、前記拠点状況実績データにより定まる拠点状況に応じた最適拠点活動を提案するようにパラメータを調整する。
前記実績相関学習アルゴリズムおよび前記活動提案学習アルゴリズムは、本実施形態では特にアルゴリズムを限定するものではないが、1つの実施形態として、ニューラルネットワーク、もしくは、ニューラルネットワークと他のアルゴリズムの組合せにより実現できる。
ステップS001の後に、ステップS002において、サプライチェーンでの取引シミュレーションが実行される。小売エージェント301は、在庫量等の拠点活動模擬データを小売シミュレータ201から取得し、当該拠点活動模擬データを用いて、活動提案、活動指示を生成し、当該活動指示を小売Sim201へ送信する。小売シミュレータ201は、小売エージェント301が出力する活動指示に従って、各拠点シミュレータと、取引を実施して、商品を流通させるシミュレーション(公知技術のシミュレーション)を実行する。
ここで、所定の時間単位を1ループとして、シミュレーションを実行するものとする。小売エージェント301は、シミュレーションの各ループにおいて、セレクタ56において信号Sを選択する。ここで、実績学習部51は、小売シミュレータ201から、拠点活動模擬データを取得し、拠点活動模擬データから活動提案モデル511を用いて活動提案を算出する。ここでいう活動提案とは、最適な拠点状況にするための拠点活動(発注量)を示す。
このとき、実績学習部51は、活動提案モデル511に対して、拠点状況実績データのうち、拠点活動模擬データと重複しないデータ(前記の例においては日毎の来客数、日毎の気温、日毎の天候)には固定値もしくはランダムな値を所与する。
次に、小売エージェント301の活動学習部52は、算出した活動提案と、拠点活動模擬データとから、活動決定モデル522を用いて、活動指示を算出する。この活動指示とは、シミュレーションで用いるためのパラメータ(ここでは、発注量)である。活動学習部52は、算出した活動指示を小売シミュレータ201に送出する。なお、活動学習部52は、当該算出した活動指示をランダムに補正するようにしてもよい。
また、小売エージェント301の活動学習部52は、シミュレーションの各ループにおいて、小売シミュレータ201から受領した拠点活動模擬データと、活動提案モデル511により得られた活動提案と、活動決定モデル522により得られた活動指示とを、模擬活動データベース54に登録する。
このように、小売エージェント301は、拠点活動模擬データと、活動提案モデル511により得られた活動提案と、活動決定モデル522により得られた活動指示とを対応付けて記憶しておくことで、これらの情報を用いて活動価値評価モデル521及び活動決定モデル522の学習を適切に実行することができる。
ステップS003において、活動価値モデル評価モデル521と活動決定モデル522とを学習する。具体的に、学習制御部50は、活動学習部52に、活動学習指示を与える。活動学習部52は、模擬活動データベース54から、拠点活動模擬データと、活動提案と、活動指示とを読み出す。そして、活動学習部52は、与えられた拠点アウトカムと、拠点活動模擬データと、活動提案と、活動指示との相関を、所定の活動評価学習アルゴリズムにより算出する。活動学習部52は、予め拠点アウトカムを記憶しておくようにしてもよい。
そして、活動学習部52は、拠点活動模擬データと活動提案と活動指示の拠点アウトカムとの相関を、活動価値として出力するように、活動価値モデル521のパラメータを調整する。同時に、活動学習部52は、活動提案と活動模擬データとを入力として、拠点アウトカムを最大にするための活動指示を出力するように、活動決定モデル522のパラメータを、所定の活動学習アルゴリズムにより調整する。なお、上記活動価値とは、例えば、売り上げ等である。
ステップS003における活動価値モデル521のパラメータの調整の一例をより具体的に説明にする。活動学習部52は、拠点アウトカムを小売101の週毎の前記所定の商品より得られる利益とする。そして、活動学習部52は、所定の拠点活動模擬データ(在庫量、注残量、入出荷の履歴、受発注の履歴)により定まる小売101の拠点模擬状況において、活動提案モデル511により所定の活動提案があった場合、ある拠点活動(発注量)により得られる利益を活動価値として予測するように、活動価値モデル521のパラメータを調整する。
ここで、拠点活動模擬データには、ステップS003において実行されたシミュレーションの結果が反映されているため、活動価値モデル521は、前記過去実績データに含まれない拠点状況における利益や、サプライチェーン全体のシミュレーション応答を加味した利益を予測することができることが特徴となる。
また、ステップS003における活動決定モデル522のパラメータの調整の一例を具体的に説明する。まず、活動学習部52は、拠点アウトカムを小売101の週毎の前記所定の商品より得られる利益とする。
また、活動学習部52は、拠点活動模擬データにより定まる小売101の拠点模擬状況とし、活動指示を日毎の発注量とした場合における、パラメータの調整をする。すなわち、活動学習部52は、上記の場合における、前記週毎の利益を最大化するための最適な前記拠点模擬状況の予測と、前記最適な拠点模擬状況に至る最適な活動指示の予測により、所定の拠点模擬状況における最適な活動指示を出力するようにパラメータを調整する。なお、上記拠点活動模擬データとは、日毎の在庫量、注残量、入出荷の履歴、受発注の履歴等である。
前記活動評価学習アルゴリズムおよび前記活動学習アルゴリズムは、本実施形態では特にアルゴリズムを限定するものではないが、1つの実施の形態として、ニューラルネットワーク、もしくは、ニューラルネットワークと他のアルゴリズムの組合せにより実現できる。
ステップS004においては、小売エージェント301は、あらかじめ与えられた所定の数Nに従って、ループの終了を判断する。すなわち、ループの回数がN(例えば、10000)未満であれば、ステップS002に戻り、ループの回数がN以上であれば、ステップS005に進む。
ステップS005において、活動価値を指標に実績データを用いて活動提案モデル511を学習する。具体的には、学習制御部50は、実績学習部51に、実績学習指示を与え、ステップS001と同様の処理を行う。ここで、ステップS002とステップS005が異なる点は、ステップS005においては、セレクタ55は、信号Qを選択し、活動価値評価モデルが出力する活動価値を、学習アウトカムとして、実績学習部51に与える点である。
これにより、実績学習部51は、活動価値評価モデル521が出力する活動価値を最大にするための、活動提案を出力するように、活動提案モデル511のパラメータを、活動提案学習アルゴリズムにより調整する。
より具体的には、ステップS001においては、過去実績データに含まれる拠点利益についてパラメータの調整を行っているのに対し、ステップS005においては、活動価値評価モデル521を用いる。これにより、前記拠点実績データに含まれない拠点状況における利益や、サプライチェーン全体の応答を加味した利益に対してパラメータを調整することができる。さらに、入力はステップS001と同様に過去実績データを用いることで、シミュレーションでは算出しにくい実績データ(たとえば、日毎の来客数、日毎の気温、日毎の天候)についてもパラメータの調整に反映させることができる。
ステップS006において、モデルパラメータ更新量判定をする。すなわち、小売エージェント301は、活動提案モデルのパラメータの調整量の収束を判定する。例えば、活動提案モデル511のパラメータ調整量について、ステップS006においての前回の調整量と、今回の調整量とを比較して、その差分の二乗平均平方根が、所定の閾値以上であれば(ステップS007:No)、ステップS002に戻る。当該ステップS002において、小売エージェント301は、拠点活動模擬データを再度取得する等、ステップS002以降の処理を行う。
すなわち、実績学習部51は、上記のように、活動価値評価モデル521により得られる活動価値(評価値)と、過去実績データベース53に記憶されている過去実績データとに基づいて制御対象の挙動に関するデータと活動提案との相関を算出した結果のパラメータの調整量に基づいて、新たに拠点活動模擬データを取得する。このように、小売エージェント301は、活動提案モデル511のパラメータをより適切な値となるように修正することができる。
また、所定の閾値未満であれば(ステップS007:Yes)、パラメータの調整が収束したものとして判定し、学習制御フローを終了する。
以上のフローにより、最終的に活動提案モデル511は、過去実績データに含まれない拠点状況を加味して、拠点アウトカムを最大化するための活動提案を出力するように、パラメータを調整される。
図5は、本実施例における学習管理システム10について、ネットワーク21を介して、サーバ15と、各拠点の端末211ないし213とを用いて、サービスとして適用する形態を示した図面である。
図5において、各拠点(例えば、小売101)には、各端末(例えば、端末211)が、それぞれ設置される。また、サーバ15では、本実施例における学習管理システム10が稼働する。小売101の端末211は、ネットワーク21を介して、学習管理システム10の、小売エージェント301に接続し、拠点実績データを登録する。
図6は、サーバ15上で動作する学習管理システム10の、小売エージェント301について、端末211から拠点実績データを登録する画面2111の一例を示した図面である。拠点のオペレータは、画面2111を介して、拠点実績データとして、拠点での商品の販売実績、発注実績などを登録する。登録された拠点実績データは、小売エージェント301の過去実績データベース53に登録される。
図7は、サーバ15上で動作する学習管理システム10の、小売エージェント301について、端末211から、学習管理を確認する画面2112の一例を示した図面である。拠点のオペレータは、登録した拠点実績データに基づいて、図4における学習フローが実行される様子をシミュレーションモニタにより確認できる。また、小売エージェント301の活動提案モデル511が出力される活動提案と、活動決定モデル522が出力される活動指示とが、それぞれ発注提案、発注指示として確認できる。
なお、本実施例の適用の形態は、図5に限るものではない。例えば、図8に示すように、小売101で稼働するPOS端末221と接続するサービスとして適用する形態でもよい。POS端末221から直接拠点実績データを登録することで、省力が図れる他、小売101において、小売エージェント301の活動決定モデル522が出力される活動指示に従って自動的に発注するシステムに適用してもよい。
<作用効果>
以上説明したように、本発明の一実施の形態では、小売エージェント301の実績学習部51は、拠点アウトカム(所定の評価値)と、過去実績データベース53に記憶されているデータとに基づいて、活動提案モデル511のパラメータを決定する。そして、実績学習部51及び活動学習部52は、拠点活動模擬データを取得する。また、実績学習部51は、所定のタイミングで拠点活動模擬データを活動提案モデルに入力することにより、活動提案を生成する。また、活動学習部52は、拠点活動模擬データと、実績学習部51により生成された活動提案とを活動決定モデル522に入力することにより、活動指示を生成する。
また、活動学習部52は、拠点活動模擬データと、活動提案と、活動指示と、所定の評価ロジックとに基づいて、活動決定モデル522及び活動価値評価モデル521のパラメータを決定する。また、実績学習部51は、活動価値評価モデル521により得られる活動価値(評価値)と、過去実績データベース53に記憶されている過去実績データとに基づいて、制御対象の挙動に関するデータと活動提案との相関を算出することで、活動価値評価モデル521のパラメータを再度決定する。
このように、小売エージェント301は、過去実績データベース53に記憶されているデータを用いて、活動提案モデル511のパラメータを決定し、さらに拠点活動模擬データを用いて活動決定モデル522及び活動価値評価モデル521のパラメータを決定する。これにより、シミュレータとして具現化できず、かつ、過去の実績データに対する変化が大きい複雑系システムにおいて、サブシステムの制御方法のパラメータを適切に決定することができる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記の実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。例えば、エネルギー供給網、交通、及び金融等のシステムにおいても成り立つことは言うまでもない。
また、各学習部(実績学習部51、活動学習部52)が、各種モデル(活動提案モデル511等)を有する場合について述べたが、当該各種モデルが、上記各学習部とは別に保持されるようにしてもよい。また、学習制御部50が、各学習部を制御する場合について述べたが、この機能を各学習部で有していてもよい。すなわち、各学習部が、自身で動作制御するようにしてもよい。また、実績学習部51と活動学習部52とが分離している場合について述べたが、一体の学習部として機能するようにしてもよい。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実現することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、プロセッサ(例えばCPU、GPU)によって実行されることで、定められた処理を、適宜に記憶資源(例えばメモリ)および/またはインターフェースデバイス(例えば通信ポート)等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路(例えばFPGAやASIC)を含んでいてもよい。
プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
本発明は、所定の制御対象の挙動を学習するシステムに利用可能である。
10…学習管理システム、15…サーバ、50…学習制御部、51…実績学習部、52…活動学習部、53…過去実績データベース、54…模擬活動データベース、55…セレクタ、56…セレクタ、100…サプライチェーン、101…小売、102…卸売、103…工場、201…小売シミュレータ、202…卸売シミュレータ、203…工場シミュレータ、301…小売エージェント、511…活動提案モデル、521…活動価値評価モデル、522…活動決定モデル。

Claims (4)

  1. 所定の制御対象の挙動を学習する学習管理システムであって、
    前記制御対象の過去実績データを蓄積する実績データ記憶部と、
    前記制御対象の挙動に関するデータから施策提案データを出力する第一相関モデルを記憶する第一モデル記憶部と、
    前記制御対象の挙動を模擬した模擬状態データと、施策提案データとから施策データを出力する第二相関モデルを記憶する第二モデル記憶部と、
    前記模擬状態データと、施策提案データと、施策データとから施策評価値を出力する第三相関モデルを記憶する第三モデル記憶部と、
    所定の評価値と、前記実績データ記憶部により記憶されている過去実績データとに基づいて、前記制御対象の挙動に関するデータと施策提案データとの相関を算出することで、前記第一相関モデルのパラメータを決定する第一実績学習部と、
    前記制御対象の挙動を模擬した模擬状態データを取得する模擬状態データ取得部と、
    前記模擬状態データ取得部により取得された模擬状態データを前記第一相関モデルに入力することにより施策提案データを生成し、前記模擬状態データ取得部により取得された模擬状態データと、当該施策提案データとを前記第二相関モデルに入力することにより施策データを生成する施策データ生成部と、
    前記模擬状態データ取得部により取得された模擬状態データと、前記施策データ生成部により生成された施策提案データと、前記施策データ生成部により生成された施策データと、所定の評価ロジックとに基づいて、前記第二相関モデル及び前記第三相関モデルのパラメータを決定する活動学習部と、
    前記第三相関モデルにより得られる評価値と、前記実績データ記憶部により記憶されている過去実績データとに基づいて、前記制御対象の挙動に関するデータと施策提案データとの相関を算出することで、前記第一相関モデルのパラメータを再度決定する第二実績学習部と、
    を備える学習管理システム。
  2. 請求項1に記載の学習管理システムであって、
    前記模擬状態データ取得部により取得された模擬状態データと、前記施策データ生成部により生成された施策提案データ及び施策データとを対応付けて記憶する模擬活動データ記憶部をさらに備える、学習管理システム。
  3. 請求項1に記載の学習管理システムであって、
    前記模擬状態データ取得部は、前記第二実績学習部により決定されたパラメータの調整量に基づいて、新たに模擬状態データを取得する、学習管理システム。
  4. 所定の制御対象の挙動を学習する学習管理システムが実行する学習管理方法であって、
    前記学習管理システムは、
    前記制御対象の過去実績データを蓄積する実績データ記憶部と、
    前記制御対象の挙動に関するデータから施策提案データを出力する第一相関モデルを記憶する第一モデル記憶部と、
    前記制御対象の挙動を模擬した模擬状態データと、施策提案データとから施策データを出力する第二相関モデルを記憶する第二モデル記憶部と、
    前記模擬状態データと、施策提案データと、施策データとから施策評価値を出力する第三相関モデルを記憶する第三モデル記憶部と、を備え、
    所定の評価値と、前記実績データ記憶部により記憶されている過去実績データとに基づいて、前記制御対象の挙動に関するデータと施策提案データとの相関を算出することで、前記第一相関モデルのパラメータを決定する第一実績学習ステップと、
    前記制御対象の挙動を模擬した模擬状態データを取得する模擬状態データ取得ステップと、
    前記模擬状態データ取得ステップで取得した模擬状態データを前記第一相関モデルに入力することにより施策提案データを生成し、前記模擬状態データ取得ステップで取得した模擬状態データと、当該施策提案データとを前記第二相関モデルに入力することにより施策データを生成する施策データ生成ステップと、
    前記模擬状態データ取得ステップで取得した模擬状態データと、前記施策データ生成ステップで生成した施策提案データと、前記施策データ生成ステップで生成した施策データと、所定の評価ロジックとに基づいて、前記第二相関モデル及び前記第三相関モデルのパラメータを決定する活動学習ステップと、
    前記第三相関モデルにより得られる評価値と、前記実績データ記憶部により記憶されている過去実績データとに基づいて、前記制御対象の挙動に関するデータと施策提案データとの相関を算出することで、前記第一相関モデルのパラメータを再度決定する第二実績学習ステップと、を実行する学習管理方法。
JP2018205053A 2018-10-31 2018-10-31 学習管理システムおよび学習管理方法 Active JP7023213B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018205053A JP7023213B2 (ja) 2018-10-31 2018-10-31 学習管理システムおよび学習管理方法
US16/668,892 US11475373B2 (en) 2018-10-31 2019-10-30 Learning management system and learning management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018205053A JP7023213B2 (ja) 2018-10-31 2018-10-31 学習管理システムおよび学習管理方法

Publications (2)

Publication Number Publication Date
JP2020071662A JP2020071662A (ja) 2020-05-07
JP7023213B2 true JP7023213B2 (ja) 2022-02-21

Family

ID=70326328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018205053A Active JP7023213B2 (ja) 2018-10-31 2018-10-31 学習管理システムおよび学習管理方法

Country Status (2)

Country Link
US (1) US11475373B2 (ja)
JP (1) JP7023213B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7299639B2 (ja) * 2021-08-20 2023-06-28 株式会社MaaS Tech Japan プログラム及び情報処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170364831A1 (en) 2016-06-21 2017-12-21 Sri International Systems and methods for machine learning using a trusted model
JP2018036888A (ja) 2016-08-31 2018-03-08 横河電機株式会社 プラント制御装置、プラント制御方法、プラント制御プログラム及び記録媒体
JP2018092511A (ja) 2016-12-07 2018-06-14 三菱重工業株式会社 運用支援装置、機器運用システム、運用方法、制御方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065224A (ja) 2009-09-15 2011-03-31 Konica Minolta Holdings Inc サプライチェーン効率化支援方法
US9049078B2 (en) * 2011-08-31 2015-06-02 Eneroc, Inc. NOC-oriented control of a demand coordination network
CN103676803B (zh) * 2012-09-14 2016-02-10 中兴通讯股份有限公司 工业控制系统
JP2015106316A (ja) 2013-11-29 2015-06-08 株式会社東芝 エネルギー管理システム
US10073421B2 (en) * 2015-11-17 2018-09-11 Rockwell Automation Technologies, Inc. Predictive monitoring and diagnostics systems and methods

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170364831A1 (en) 2016-06-21 2017-12-21 Sri International Systems and methods for machine learning using a trusted model
JP2019526107A (ja) 2016-06-21 2019-09-12 エスアールアイ インターナショナルSRI International 信用されるモデルを使用する機械学習のためのシステムおよび方法
JP2018036888A (ja) 2016-08-31 2018-03-08 横河電機株式会社 プラント制御装置、プラント制御方法、プラント制御プログラム及び記録媒体
JP2018092511A (ja) 2016-12-07 2018-06-14 三菱重工業株式会社 運用支援装置、機器運用システム、運用方法、制御方法及びプログラム

Also Published As

Publication number Publication date
US11475373B2 (en) 2022-10-18
US20200134509A1 (en) 2020-04-30
JP2020071662A (ja) 2020-05-07

Similar Documents

Publication Publication Date Title
Almeder et al. Simulation and optimization of supply chains: alternative or complementary approaches?
Cong et al. Developing user perceived value based pricing models for cloud markets
US8494823B2 (en) Method and system for determining service area of supply chain by simulating service cycle time
KR20190040778A (ko) 상품 공급망 자동설계 방법 및 이를 이용하는 시스템
Avci Lateral transshipment and expedited shipping in disruption recovery: A mean-CVaR approach
Boute et al. Coordinating lead times and safety stocks under autocorrelated demand
KR101819365B1 (ko) 제품생산계획별 탄소 배출량에 따른 수익성 시뮬레이션 지원시스템 및 방법
JP6782680B2 (ja) 指示分析のためのシステムおよび方法
US10977609B1 (en) Distribution-independent inventory approach under multiple service level targets
CN109754104B (zh) 应用人工智能优化企业供应链的方法、系统、设备及介质
Vaziri et al. An integrated production and procurement design for a multi-period multi-product manufacturing system with machine assignment and warehouse constraint
JP7023213B2 (ja) 学習管理システムおよび学習管理方法
US20240346530A1 (en) Method and system for simulating fulfillment of digital orders
Atan et al. Transshipment policies for systems with multiple retailers and two demand classes
CN114240052A (zh) 一种基于遗传算法的组合销售策略优化方法及系统
Sadeghi A multi-item integrated inventory model with different replenishment frequencies of retailers in a two-echelon supply chain management: a tuned-parameters hybrid meta-heuristic
Bucki et al. Modelling Decision‐Making Processes in the Management Support of the Manufacturing Element in the Logistic Supply Chain
WO2024068571A1 (en) Supply chain optimization with reinforcement learning
Al-Rifai et al. A heuristic optimisation algorithm for two-echelon (R, Q) inventory systems with non-identical retailers
JP2007265127A (ja) サプライチェーンの最適化支援方法
Rochman et al. Dynamic placement of resources in cloud computing and network applications
Zhang et al. Simulation and Analysis of the Complex Behavior of Supply Chain Inventory System Based on Third‐Party Logistics Management Inventory Model with No Accumulating of Unsatisfied Demand
Enders et al. A dynamic model for the failure replacement of aging high-voltage transformers
Relich et al. Material demand forecasting: an ERP system perspective
Li et al. Random network models and sensitivity algorithms for the analysis of ordering time and inventory state in multi-stage supply chains

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220208

R150 Certificate of patent or registration of utility model

Ref document number: 7023213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150