JP2018142199A - 学習システムおよび学習方法 - Google Patents
学習システムおよび学習方法 Download PDFInfo
- Publication number
- JP2018142199A JP2018142199A JP2017036435A JP2017036435A JP2018142199A JP 2018142199 A JP2018142199 A JP 2018142199A JP 2017036435 A JP2017036435 A JP 2017036435A JP 2017036435 A JP2017036435 A JP 2017036435A JP 2018142199 A JP2018142199 A JP 2018142199A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- controller
- result
- target
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 64
- 238000011156 evaluation Methods 0.000 claims description 49
- 230000009471 action Effects 0.000 claims description 42
- 230000006399 behavior Effects 0.000 claims description 34
- 230000007423 decrease Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 11
- 238000005457 optimization Methods 0.000 abstract description 5
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 238000003860 storage Methods 0.000 description 28
- 238000011144 upstream manufacturing Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 23
- 238000004891 communication Methods 0.000 description 21
- 230000002787 reinforcement Effects 0.000 description 21
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012854 evaluation process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 6
- 238000013526 transfer learning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000011157 data evaluation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Abstract
Description
図1は、サプライチェーン100での学習例を示す説明図である。(A)は、特定のサブシステム101での予備学習を示し、(B)は、サプライチェーン100の全体学習を示す。本実施例では、一例として、下流から上流へ、小売、二次卸、一次卸、工場である各サブシステム101〜104が直列につながっているサプライチェーン100の系を例に挙げて説明する。実際のサプライチェーン100において、各サブシステムは、下流の複数のサブシステムに接続されているが、説明を単純化するため、直列につながっている部分に着目して説明する。なお、顧客が小売に発注してから、当該顧客にその発注に応じた物品が配送されるまでの工程を「ターン」という単位で示す。なお、本例では、説明を単純化するため、1種類の物品について説明する。
図2は、学習システム200の構成例を示す説明図である。学習システム200において、各サブシステム101〜104は、端末201〜204を有する。各端末201〜204は、所属するサブシステム101〜104における取引データの入力を受け付けて記憶する。各端末201〜204は、それぞれサブコントローラ211〜214と通信可能に接続され、取引データを、同一サブシステムに所属するサブコントローラに送信する。各サブコントローラ211〜214は、AI111を有し、AI111により受信した取引データを用いて強化学習を実行する。なお、上述したように、図1(A)の予備学習においては、小売のサブコントローラ211のみ強化学習を実行する。また、図1(B)の全体学習においては、各サブコントローラ211〜214は、1つ下流からの学習結果を用いて、受信した取引データについて強化学習を実行する。
図3は、コンピュータのハードウェア構成例を示すブロック図である。端末、サブシステム、およびメインシステムを総称して、コンピュータとする。コンピュータ300は、プロセッサ301と、記憶デバイス302と、入力デバイス303と、出力デバイス304と、通信インタフェース(通信IF305)と、を有する。プロセッサ301、記憶デバイス302、入力デバイス303、出力デバイス304、および通信IF305は、バスにより接続される。プロセッサ301は、コンピュータ300を制御する。記憶デバイス302は、プロセッサ301の作業エリアとなる。また、記憶デバイス302は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス302としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス303は、データを入力する。入力デバイス303としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス304は、データを出力する。出力デバイス304としては、たとえば、ディスプレイ、プリンタがある。通信IF305は、ネットワークと接続し、データを送受信する。
図4は、端末201〜204における取引データテーブル400の一例を示す説明図である。取引データテーブル400は、端末201〜204に入力された取引データを保存するデータテーブルである。取引データテーブル400は、サブシステム101〜104ごとに存在し、かつ、物品ごとに存在する。なお、以降の説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、試行IDフィールド401の値を、試行ID401と表記する。
図5は、サブシステム101〜104における学習対象データテーブル500の一例を示す説明図である。学習対象データテーブル500は、サブコントローラ211〜214が、端末201〜204からの試行ID401単位の取引データ群を、状態sと行動aとに分けて集約した学習対象データを保存するデータテーブルである。学習対象データテーブル500は、サブシステム101〜104ごとに存在し、かつ、物品ごとに存在する。
図6は、学習システム200の機能的構成例を示すブロック図である。各サブシステム101〜104は、第1通信部601と、取得部602と、第1評価部603と、更新部604と、選択部605と、出力部606と、を有する。第1通信部601は、図3に示した通信IF306により実現される。また、取得部602〜出力部606は、具体的には、たとえば、図3に示した記憶デバイス302に記憶されたプログラムをプロセッサ301に実行させることにより実現される。
図7は、サブコントローラ211〜214の学習処理手順例を示すフローチャートである。図7に示す処理は、図1(A)予備学習,(B)全体学習に共通の処理である。図7では、強化学習を例に挙げて説明するが、ニューラルネットワークによる機械学習でもよい。
←Q(st,at)+α[rt+1+γmaxQ(st+1,a)−Q(st,at)]
・・・・・(5)
図8は、学習システム200における全体学習処理手順例を示すシーケンス図である。メインコントローラ150は、割当設定を実行する(ステップS801)。割当設定とは、学習結果の提供側サブコントローラと利用側サブコントローラとの組み合わせを設定する処理である。学習結果の提供側サブコントローラとは、自身の学習結果で利用側サブコントローラを学習させるサブコントローラである。利用側サブコントローラとは、提供側サブコントローラの学習結果を用いて学習するサブコントローラである。各サブコントローラ211〜214は、提供側サブコントローラと利用側サブコントローラとのいずれにもなり得る。
201〜204 端末
211〜214 サブコントローラ
100 サプライチェーン
150 メインコントローラ
200 学習システム
601 通信部
602 取得部
603 評価部
604 更新部
605 選択部
606 出力部
611 通信部
612 評価部
613 設定部
614 制御部
Claims (10)
- 状態から行動を得る複数の学習対象により構成された学習対象群について、前記各学習対象の行動を学習する学習システムであって、
前記学習対象群を管理する第1コントローラと、前記第1コントローラを管理する第2コントローラと、を有し、
前記第2コントローラは、
前記第1コントローラからの前記学習対象群の各々の学習結果を第1学習結果として取得し、
前記学習対象群のうちある学習対象の第1学習結果を他の学習対象に与えるように、前記第1コントローラに送信し、
前記第1学習結果を前記第1コントローラに送信した結果得られる前記学習対象群の各々の学習結果を第2学習結果として取得し、
前記各第1学習結果と前記各第2学習結果とに基づいて、前記学習対象群を評価し、
評価結果を出力し、
前記第1コントローラは、
前記ある学習対象の行動が寄与したデータが遅延を伴って前記他の学習対象に与えられることにより、前記他の学習対象の状態を生成し、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動を選択し、
前記他の学習対象の次の行動を前記学習結果として前記第2コントローラに送信する、
ことを特徴とする学習システム。 - 請求項1に記載の学習システムであって、
前記第1コントローラは、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動の選択に寄与する報酬を生成し、
前記報酬と、前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動を選択する、
ことを特徴とする学習システム。 - 請求項2に記載の学習システムであって、
前記第1コントローラは、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、の相関に基づいて、前記報酬を生成することを特徴とする学習システム。 - 請求項2に記載の学習システムであって、
前記第1コントローラは、
前記報酬を前記学習結果として前記第2コントローラに送信し、
前記第2コントローラは、
前記各第1学習結果である各報酬と前記各第2学習結果である各報酬とに基づいて、前記学習対象群を評価する、
ことを特徴とする学習システム。 - 請求項1に記載の学習システムであって、
前記第1コントローラは、
前記他の学習対象の前記状態に含まれる、増加するほど前記状態を悪化させる第1特徴量と、減少するほど前記状態を悪化させる第2特徴量と、に基づいて、前記状態が適正度を示すスコアを算出し、
前記スコアを前記学習結果として前記第2コントローラに送信し、
前記第2コントローラは、
前記各第1学習結果である各スコアと前記各第2学習結果である各スコアとに基づいて、前記学習対象群を評価する、
ことを特徴とする学習システム。 - 状態から行動を得る複数の学習対象により構成された学習対象群について、前記各学習対象の行動を学習する学習システムによる学習方法であって、
前記学習システムは、前記学習対象群を管理する第1コントローラと、前記第1コントローラを管理する第2コントローラと、を有し、
前記学習方法は、
前記第2コントローラが、
前記第1コントローラからの前記学習対象群の各々の学習結果を第1学習結果として取得し、
前記学習対象群のうちある学習対象の第1学習結果を他の学習対象に与えるように、前記第1コントローラに送信し、
前記第1学習結果を前記第1コントローラに送信した結果得られる前記学習対象群の各々の学習結果を第2学習結果として取得し、
前記各第1学習結果と前記各第2学習結果とに基づいて、前記学習対象群を評価し、
評価結果を出力し、
前記第1コントローラが、
前記ある学習対象の行動が寄与したデータが遅延を伴って前記他の学習対象に与えられることにより、前記他の学習対象の状態を生成し、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動を選択し、
前記他の学習対象の次の行動を前記学習結果として前記第2コントローラに送信する、
ことを特徴とする学習方法。 - 請求項6に記載の学習方法であって、
前記学習方法は、
前記第1コントローラが、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動の選択に寄与する報酬を生成し、
前記報酬と、前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、に基づいて、前記他の学習対象の次の行動を選択する、
ことを特徴とする学習方法。 - 請求項7に記載の学習方法であって、
前記学習方法は、
前記第1コントローラが、
前記ある学習対象の行動と、前記生成された前記他の学習対象の状態と、の相関に基づいて、前記報酬を生成することを特徴とする学習方法。 - 請求項7に記載の学習方法であって、
前記学習方法は、
前記第1コントローラが、
前記報酬を前記学習結果として前記第2コントローラに送信し、
前記第2コントローラが、
前記各第1学習結果である各報酬と前記各第2学習結果である各報酬とに基づいて、前記学習対象群を評価する、
ことを特徴とする学習方法。 - 請求項6に記載の学習方法であって、
前記学習方法は、
前記第1コントローラが、
前記他の学習対象の前記状態に含まれる、増加するほど前記状態を悪化させる第1特徴量と、減少するほど前記状態を悪化させる第2特徴量と、に基づいて、前記状態が適正度を示すスコアを算出し、
前記スコアを前記学習結果として前記第2コントローラに送信し、
前記第2コントローラが、
前記各第1学習結果である各スコアと前記各第2学習結果である各スコアとに基づいて、前記学習対象群を評価する、
ことを特徴とする学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017036435A JP6718834B2 (ja) | 2017-02-28 | 2017-02-28 | 学習システムおよび学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017036435A JP6718834B2 (ja) | 2017-02-28 | 2017-02-28 | 学習システムおよび学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018142199A true JP2018142199A (ja) | 2018-09-13 |
JP6718834B2 JP6718834B2 (ja) | 2020-07-08 |
Family
ID=63528086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017036435A Expired - Fee Related JP6718834B2 (ja) | 2017-02-28 | 2017-02-28 | 学習システムおよび学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6718834B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020080103A (ja) * | 2018-11-14 | 2020-05-28 | 富士通株式会社 | 強化学習方法、強化学習プログラムおよび強化学習装置 |
JP2020123356A (ja) * | 2019-01-30 | 2020-08-13 | 株式会社日立製作所 | 深層強化学習及び転移学習を用いた製造ディスパッチングのためのシステム |
JP2020187681A (ja) * | 2019-05-17 | 2020-11-19 | sglab株式会社 | 発注管理装置、発注管理方法及び発注管理プログラム |
CN112462572A (zh) * | 2020-12-09 | 2021-03-09 | 清华大学 | 光刻胶、光刻胶的图案化方法及生成印刷电路板的方法 |
JPWO2021064770A1 (ja) * | 2019-09-30 | 2021-04-08 | ||
WO2021065290A1 (ja) * | 2019-10-03 | 2021-04-08 | パナソニックIpマネジメント株式会社 | 店舗支援システム、学習装置、店舗支援方法、学習済みモデルの生成方法及びプログラム |
CN113366394A (zh) * | 2019-03-11 | 2021-09-07 | 株式会社日立制作所 | 实时控制器及使用该实时控制器的分散控制系统、工业机械 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005111603A (ja) * | 2003-10-07 | 2005-04-28 | Lazona Inc | ロボットおよびロボット管理装置 |
JP2010134907A (ja) * | 2008-11-04 | 2010-06-17 | Honda Motor Co Ltd | 強化学習システム |
JP2011204036A (ja) * | 2010-03-25 | 2011-10-13 | Institute Of National Colleges Of Technology Japan | 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム |
-
2017
- 2017-02-28 JP JP2017036435A patent/JP6718834B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005111603A (ja) * | 2003-10-07 | 2005-04-28 | Lazona Inc | ロボットおよびロボット管理装置 |
JP2010134907A (ja) * | 2008-11-04 | 2010-06-17 | Honda Motor Co Ltd | 強化学習システム |
JP2011204036A (ja) * | 2010-03-25 | 2011-10-13 | Institute Of National Colleges Of Technology Japan | 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020080103A (ja) * | 2018-11-14 | 2020-05-28 | 富士通株式会社 | 強化学習方法、強化学習プログラムおよび強化学習装置 |
JP7124655B2 (ja) | 2018-11-14 | 2022-08-24 | 富士通株式会社 | 強化学習方法、強化学習プログラムおよび強化学習装置 |
JP2020123356A (ja) * | 2019-01-30 | 2020-08-13 | 株式会社日立製作所 | 深層強化学習及び転移学習を用いた製造ディスパッチングのためのシステム |
CN113366394A (zh) * | 2019-03-11 | 2021-09-07 | 株式会社日立制作所 | 实时控制器及使用该实时控制器的分散控制系统、工业机械 |
CN113366394B (zh) * | 2019-03-11 | 2023-10-10 | 株式会社日立制作所 | 实时控制器及使用该实时控制器的分散控制系统、工业机械 |
JP2020187681A (ja) * | 2019-05-17 | 2020-11-19 | sglab株式会社 | 発注管理装置、発注管理方法及び発注管理プログラム |
JPWO2021064770A1 (ja) * | 2019-09-30 | 2021-04-08 | ||
WO2021064770A1 (ja) * | 2019-09-30 | 2021-04-08 | 日本電気株式会社 | システム、方法及び制御装置 |
JP7188609B2 (ja) | 2019-09-30 | 2022-12-13 | 日本電気株式会社 | システム、方法及び制御装置 |
WO2021065290A1 (ja) * | 2019-10-03 | 2021-04-08 | パナソニックIpマネジメント株式会社 | 店舗支援システム、学習装置、店舗支援方法、学習済みモデルの生成方法及びプログラム |
CN112462572A (zh) * | 2020-12-09 | 2021-03-09 | 清华大学 | 光刻胶、光刻胶的图案化方法及生成印刷电路板的方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6718834B2 (ja) | 2020-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6718834B2 (ja) | 学習システムおよび学習方法 | |
JP6756048B2 (ja) | コンピュータリソースのための予測的資産最適化 | |
Li et al. | Reinforcement learning for joint pricing, lead-time and scheduling decisions in make-to-order systems | |
Balaji et al. | Orl: Reinforcement learning benchmarks for online stochastic optimization problems | |
JP6514342B2 (ja) | オンライン予測システムおよび方法 | |
CN112052071B (zh) | 强化学习和机器学习相结合的云软件服务资源分配方法 | |
US11513851B2 (en) | Job scheduler, job schedule control method, and storage medium | |
EP3371764A1 (en) | Systems and methods for pricing optimization with competitive influence effects | |
Anufriev et al. | Learning cycles in Bertrand competition with differentiated commodities and competing learning rules | |
Boute et al. | Coordinating lead times and safety stocks under autocorrelated demand | |
US11301763B2 (en) | Prediction model generation system, method, and program | |
JP7047911B2 (ja) | 情報処理システム、情報処理方法及び記憶媒体 | |
JP7308073B2 (ja) | 物流管理システム | |
US11513866B1 (en) | Method and system for managing resource utilization based on reinforcement learning | |
JP6530559B2 (ja) | 最適化システムおよび最適化方法 | |
US9466031B1 (en) | Data-agnostic methods and systems for ranking and updating beliefs | |
JP6689316B2 (ja) | 計算機システム及び学習制御方法 | |
US11188568B2 (en) | Prediction model generation system, method, and program | |
Yan et al. | GA based algorithm for staff scheduling considering learning-forgetting effect | |
Zaman et al. | An efficient methodology for robust assignment problem | |
JPWO2019053828A1 (ja) | 情報分析装置、情報分析方法および情報分析プログラム | |
JP7373384B2 (ja) | 計算機システム及びスケジューリングシステムの検証方法 | |
JP7262359B2 (ja) | データ分析装置およびデータ分析方法 | |
KR et al. | Solving a job shop scheduling problem | |
US20230129665A1 (en) | Reinforcement learning simulation of supply chain graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190304 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200519 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6718834 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |