JP6820815B2 - 学習制御システム及び学習制御方法 - Google Patents
学習制御システム及び学習制御方法 Download PDFInfo
- Publication number
- JP6820815B2 JP6820815B2 JP2017172271A JP2017172271A JP6820815B2 JP 6820815 B2 JP6820815 B2 JP 6820815B2 JP 2017172271 A JP2017172271 A JP 2017172271A JP 2017172271 A JP2017172271 A JP 2017172271A JP 6820815 B2 JP6820815 B2 JP 6820815B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- agent
- control
- subsystem
- control model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/048—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Feedback Control In General (AREA)
Description
図1〜図9を用いて、本発明の実施の形態1の学習制御システム及び方法について説明する。実施の形態1の学習制御方法は、実施の形態1の学習制御システム上で実行されるステップを有する方法である。
図1は、実施の形態1の学習制御システムを含む全体の構成を示す。全体として、システム100に対し、実施の形態1の学習制御システムが設けられている。実施の形態1の学習制御システムは、任意の所定の計算機システム上に構成される。実施の形態1の学習制御システムは、1つの学習管理エージェント10と、複数(Nとする)のエージェント20{201〜20N}とを有する。学習管理エージェント10と各エージェント20とが通信接続されている。
学習制御システムの動作等の概要は以下である。エージェント20は、対応するサブシステム40を介して、サブシステム40によるシステム100の状態観測値を取得し、状態観測値からサブシステム40の状態値を取得する。エージェント20は、状態値に基づいて、制御モデル30の計算によって、サブシステム40の制御値や行動価値を得る。エージェント20は、制御値に基づいてサブシステム40の行動値を得る。エージェント20は、行動値を、出力値として、対応するサブシステム40へ出力する。
図2は、実施の形態1の学習制御システムの装置構成例を示す。即ち、計算機システムの実装例を示す。この学習制御システムは、学習管理装置1と、複数のサブシステム自動制御装置2とを有し、それらが通信接続されている。図2では、省略して単一のサブシステム40に関する構成部分を示す。学習管理エージェント10及びエージェント20は、それぞれ、例えば汎用計算機上に構成できる。
図3は、実施の形態1におけるシステム100の構成例として、SCMに適用した場合を示す。図3で、システム100は、SCMシステムである。図3の学習制御システムは、SCMシステムを制御対象とする。本例では、説明を単純にするため、1種類の物品を扱うSCMシステムとするが、複数の物品を扱う場合も同様である。このシステム100は、複数(4つ)のサブシステム40として、下流から上流へ、小売(サブシステム#1)、二次卸(サブシステム#2)、一次卸(サブシステム#3)、工場(サブシステム#4)を有し、それらが直列に接続されている。なお、小売に接続される顧客については、サブシステム40とはみなさない。
図4は、学習制御システムにおける学習管理の概要として、ある世代における複数(Mとする)の実験系50{501〜50M}の構成を示す。複数の実験系50として、実験系501(#1),502(#2),……,50M(#M)を有する。学習管理エージェント10は、このような複数の実験系50を構成し、実験を管理する。
図5は、続いて、世代間での実験系50の制御モデル30の更新の概要について示す。図5では、ある世代G(現世代)と次の世代G+1との間での制御モデルセットの選択及び更新について示す。
図6は、実施の形態1の学習制御システムの機能ブロック構成を示す。学習管理エージェント10は、機能ブロックとして、実験系評価部11、制御モデル操作部12、通信部13、DB部14、GUI部15、等を有する。
図7を用いて、エージェント20の動作について説明する。図7は、エージェント20の処理フローを示す。図7は、ステップS101〜S113を有する。以下、ステップの順に説明する。
図8,図9を用いて学習管理エージェント10の動作を説明する。図8は、学習管理エージェント10の第1処理フローを示す。図8は、ステップS201〜S209を有する。図9は、学習管理エージェント10の第2処理フローを示す。図9は、ステップS210〜S215を有する。図9のS210〜S214の処理を、エージェント間通信処理と定義する。以下、ステップの順に説明する。なお、図8,図9では、複数の実験系50{#1〜#M}が時間的に順次に構築され動作する方式の場合のフローを示す。
上記のように、実施の形態1の学習制御システムによれば、MARLを制御する際に、不完全情報下でも、学習効率を向上でき、システム全体の最適化を図ることができる。実施の形態1の学習制御システムは、複数のエージェント20を含む複数の実験系50での複数の世代の学習を管理、制御する学習管理エージェント10を有する。この学習制御システムでは、ある世代の複数の実験系50のうち、学習後のシステム全体評価値が最も高い実験系50の制御モデルセットを、次世代の実験系50の初期設定値として選択決定する(図5)。これにより、学習効率を高めることができる。
図10,図11を用いて、本発明の実施の形態2の学習制御システムについて説明する。実施の形態2の基本的な構成は実施の形態1と同様であり、以下では実施の形態2における実施の形態1とは異なる構成部分について説明する。実施の形態2では、次世代の制御モデルの決定、更新の方式として、進化戦略計算手法(Evolution Strategy:EG)を併用する。進化戦略計算手法自体は公知技術を適用できる。実施の形態2では、進化戦略計算によるテストを行い、その後に実験系50毎のシステム全体評価値を計算する。そのシステム全体評価値に基づいて、次世代の制御モデルセットが選択決定される。
図10は、実施の形態2における進化戦略計算について示す。実施の形態2では、公知の進化戦略計算手法のうち、Differential Evolution(DE)と呼ばれるアルゴリズムを用いる。
図11は、実施の形態2における学習管理エージェント10の処理フローを示す。実施の形態2のフローは、実施の形態1の図8のフローにおけるステップS208の部分が異なり、ステップS208Bとなっている。ステップS208B以外の部分は同様である。ステップS208Bは、進化戦略計算を用いた制御モデルの選択処理(次世代の更新用の制御モデルセットの決定処理)である。ステップS208Bの処理は、ステップSB1〜SB9を含む。以下、ステップの順に説明する。
図10で、ステップSB5に係わる、DEアルゴリズムを用いた交叉突然変異処理について説明する。この交叉突然変異処理では、予め、スケーリングパラメータと呼ばれるF値及び交叉率を設定しておく。学習管理エージェント10は、各実験系50{#1〜#M}における各エージェント20{A1〜AN}の制御モデル30{C1〜CN}を順次に生成する。
上記のように、実施の形態2の学習制御システムによれば、MARLを制御する際に、不完全情報下でも、学習効率を向上でき、システム全体の最適化を図ることができる。実施の形態2では、進化戦略計算によって、MARLの学習の均衡状態を強制的に破るようにして制御モデルを選択、更新する。これにより、MARLの均衡状態の発生の場合にも、学習停滞を改善して、学習効率を高めることができる。
図12〜図14を用いて、本発明の実施の形態3の学習制御システムについて説明する。実施の形態3の基本的な構成は、実施の形態1または実施の形態2の構成と同様であり、差異として、システム100がSCMシステムである場合のより詳細な構成を示す。
図12は、実施の形態3の学習制御システムの構成として、システム100がSCMシステムである場合を示す。実施の形態3の学習制御システムは、学習として、予備学習、全体学習を行う。予備学習は、サブシステム40単位での学習である。サブシステム40では、取引(実取引またはシミュレーション取引)を実行して取引データを蓄積する。対応するエージェント20は、対応するサブシステム40の取引データを用いて、予備学習を行う。次に、複数の各サブシステム40では、取引を実行して取引データを蓄積する。そして、複数のエージェント20は、全体学習を行う。
システム100のSCMシステムの構成例としては、前述の図3と同じである。SCMシステムにおける学習について説明する。本例では、各エージェント20{A1〜A4}の間での直接的な通信は無く、各エージェント20は、学習管理エージェント10との通信を行う。本例では、サブシステム40間で情報非共有であり、エージェント20間で不完全情報の状況である。
図13は、世代間での更新される制御モデル30の変動例を表形式で示す。表の列は、実験系50の各エージェント20(A1〜A4)の制御モデル30(C1〜C4)の設定状態を示す。表の行は、世代の進行に伴う設定状態の変化を示す。各項目には制御モデル更新可否の値を示す。ここでは制御モデル更新可否の値として、更新可(L)、更新否(F)、模擬プレイヤー(N)がある。なお、この値を模擬プレイヤー(N)とする場合、更新「否」に設定される。表の右側には同時学習エージェント数も併せて示す。同時学習エージェントは、制御モデル更新可否が模擬プレイヤー(N)以外のエージェント20である。
実施の形態3における各エージェント20{A1〜A4}の学習アルゴリズム例について説明する。各エージェント20は、対応するサブシステム40の状態(対応する取引)を観測し、状態値(対応する取引データ)を蓄積し、実施の形態1で説明した基本動作に従って、試行錯誤的に、行動値となる発注量等を決定する。各エージェント20は、行動値をサブシステム40に出力し、所定のターン数(例えば50ターン)のコストを最小化するように、制御モデル30のパラメータを構成する。エージェントA1は、ターン順に、在庫量、受注残、入荷量、出荷量、受注量、及び発注量等の取引データが蓄積されたデータ記憶部24から、所定のターン数分(例えば10ターン)の取引データを、状態値として入力する。
図14は、実施の形態3において、実施の形態1及び実施の形態2の手法を用いて実際にMARLの学習を行った場合の学習結果例及び画面表示例を示す。学習管理装置1のGUI部15は、このような学習結果情報を含む画面を構成し、ユーザに対して表示する。
図12では、システム100として、SCMシステムは、複数のサブシステム40の単純な直列接続構造としたが、実施の形態1〜3の学習管理が適用できるシステム100の構造はこれに限らず可能である。
実施の形態1〜3に関する変形例として以下が挙げられる。いずれの形態でも実施の形態1〜3と同様の効果が得られる。
図17は、第1変形例の学習制御システムの構成を示す。この変形例では、サブシステム40内のサブシステム端末装置3に、サブシステムソフトウェア300に加え、エージェント20が実装されている。言い換えると、サブシステム端末装置3とサブシステム自動制御装置2とが一体に実装されている。エージェント20は、広域通信網を介して、学習制御装置1の学習管理エージェント10と通信する。
学習管理エージェント10と各エージェント20とが一対一で通信接続される形態に限らず、エージェント10間で直接的に通信接続されてもよい。例えば、所定の複数のエージェント10によるグループ(エージェントグループ)内において、エージェント20間で互いの情報を共有する場合に、エージェント20間で直接的に通信してもよい。
サブシステム40毎にエージェント20が設けられる形態に限らず、一部または全部の複数のサブシステム40において共通のエージェント20が設けられてもよい。
図20は、第4変形例の学習制御システムの構成を示す。この変形例では、特定のサブシステム40に対し、エージェント20及び学習管理エージェント10が1つの統合装置190に設けられている。図20の例では、特定のサブシステム40としてサブシステム#1のサブシステム端末装置3に対し、統合装置190(例えばサーバ)が通信接続されている。この統合装置190には、サブシステム#1のエージェント20(A1)と、学習管理エージェント10とが実装されている。システム100の他のサブシステム40では、前述の自動制御装置2が設けられている。統合装置190の学習管理エージェント10は、自装置内のエージェントA1と通信すると共に、広域通信網を介して、各自動制御装置2のエージェント20と通信する。
Claims (14)
- 計算機システム上に構成され、マルチエージェント学習を制御する学習制御システムであって、
所定のシステムの複数の各々のサブシステムに対して設けられ、制御モデルを用いて、制御対象のサブシステムの制御のための学習を行う複数のエージェントと、
前記複数のエージェントと通信接続され、各々のエージェントの学習を管理及び制御する学習管理エージェントと、
を備え、
前記エージェントは、
前記学習管理エージェントから前記制御モデルを含む情報を受信し、
前記サブシステムの状態値に基づいて前記サブシステムの評価値を計算し、
前記状態値を入力して前記制御モデルの計算によって前記サブシステムの行動値を決定して前記サブシステムへ出力し、
前記学習に応じて前記制御モデルのパラメータを更新し、
前記学習管理エージェントへ前記制御モデル及び前記評価値を含む情報を送信し、
前記学習管理エージェントは、
前記複数のサブシステムに接続された状態の前記複数のエージェントにおける複数の制御モデルのセットを含む複数の実験系を構築し、前記複数の実験系で複数の世代で前記学習を行うように制御し、
前記複数のサブシステムの前記評価値に基づいて、現世代の前記複数の実験系を評価し、評価結果に基づいて、次世代の前記複数の実験系での更新用の複数の制御モデルのセットを決定して、対応する前記制御モデルの情報を、対応する前記エージェントへ送信する、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記学習管理エージェントは、
前記複数の実験系の実験系毎に、前記複数のサブシステムの前記評価値に基づいて、前記システムに関するシステム全体評価値を計算し、
前記現世代の前記複数の実験系のうち前記システム全体評価値が最も高い実験系における前記複数の制御モデルのセットを、前記次世代の前記複数の実験系の初期設定値とするように更新を行う、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記学習管理エージェントは、前記次世代の前記複数の実験系での前記複数の制御モデルの各々の更新可否を決定し、対応する制御モデル更新可否情報を、対応する前記エージェントへ送信し、前記複数の世代の世代間で前記制御モデルを更新可とする前記エージェントを変動させる、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記学習管理エージェントは、前記次世代の前記複数の実験系の前記複数のエージェントのうち、同時に学習を行うエージェントを決定し、前記複数の世代の世代間で前記同時に学習を行うエージェントの数を増やしてゆく、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記エージェントは、
前記制御対象の前記サブシステムと通信する第1通信部と、
前記学習管理エージェントと通信する第2通信部と、
前記サブシステムから前記状態値を含む情報を取得する状態取得部と、
前記状態値に基づいて前記サブシステムの前記評価値を計算する評価部と、
前記状態値、及び前記制御モデルに基づいて、前記サブシステムの制御値及び行動価値を計算する制御部と、
前記状態値、前記制御値、及び前記行動価値を記憶し、前記学習に応じて前記制御モデルのパラメータを更新する学習部と、
前記制御値から前記サブシステムの行動値を計算して前記サブシステムへ出力する行動出力部と、
を有し、
前記学習管理エージェントは、
前記複数のエージェントと通信する通信部と、
前記複数の実験系を管理し、前記複数のサブシステムの前記評価値に基づいて、前記現世代の前記複数の実験系を評価して前記評価結果を出力する実験系評価部と、
前記評価結果に基づいて、前記次世代の前記複数の実験系での前記更新用の複数の制御モデルのセットを決定し、対応する前記制御モデルの情報を、対応する前記エージェントへ出力する制御モデル操作部と、
を有する、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記学習管理エージェントは、
前記現世代の前記複数の実験系における前記複数の制御モデルのセットについて、進化戦略計算処理を施して、別の複数の制御モデルのセットを生成し、
前記現世代の前記複数の制御モデルのセットと、前記生成された前記別の複数の制御モデルのセットとで、前記エージェントの前記制御モデル毎に比較して、一方を選択することで、前記次世代の前記複数の実験系での前記更新用の複数の制御モデルのセットを決定する、
学習制御システム。 - 請求項6記載の学習制御システムにおいて、
前記学習管理エージェントは、前記進化戦略計算処理の際、前記現世代の前記複数の実験系の前記複数の制御モデルのセットから所定の複数の制御モデルを選択し、前記選択した複数の制御モデルのパラメータの重み付き和をとることで、新たな制御モデルを生成する、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記複数のエージェントは、互いに情報非共有であり、直接通信を行わない、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記複数のエージェントのうち、少なくとも一部の複数のエージェントは、互いに情報共有であり、前記情報共有のための直接通信を行う、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記学習管理エージェントは、前記サブシステム毎に取引データを蓄積させ、前記エージェント毎に、前記取引データに基づいて、前記学習として予備学習を行わせ、前記予備学習の後に、前記複数のエージェントの全体で前記学習として全体学習を行わせる、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記システムの前記複数のサブシステムは、直列接続されている、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記システムの前記複数のサブシステムは、メッシュネットワーク型で接続されている、
学習制御システム。 - 請求項1記載の学習制御システムにおいて、
前記システムは、サプライ・チェーン・マネージメントシステム、エネルギー供給網システム、交通システム、金融システム、またはそれらの複合システムである、
学習制御システム。 - 計算機システム上に構成され、マルチエージェント学習を制御する学習制御システムにおける学習制御方法であって、
前記学習制御システムは、
所定のシステムの複数の各々のサブシステムに対して設けられ、制御モデルを用いて、制御対象のサブシステムの制御のための学習を行う複数のエージェントと、
前記複数のエージェントと通信接続され、各々のエージェントの学習を管理及び制御する学習管理エージェントと、
を備え、
前記エージェントが、
前記学習管理エージェントから前記制御モデルを含む情報を受信し、
前記サブシステムの状態値に基づいて前記サブシステムの評価値を計算し、
前記状態値を入力して前記制御モデルの計算によって前記サブシステムの行動値を決定して前記サブシステムへ出力し、
前記学習に応じて前記制御モデルのパラメータを更新し、
前記学習管理エージェントへ前記制御モデル及び前記評価値を含む情報を送信するステップと、
前記学習管理エージェントが、
前記複数のサブシステムに接続された状態の前記複数のエージェントにおける複数の制御モデルのセットを含む複数の実験系を構築し、前記複数の実験系で複数の世代で前記学習を行うように制御し、
前記複数のサブシステムの前記評価値に基づいて、現世代の前記複数の実験系を評価し、評価結果に基づいて、次世代の前記複数の実験系での更新用の複数の制御モデルのセットを決定して、対応する前記制御モデルの情報を、対応する前記エージェントへ送信するステップと、
を有する、学習制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017172271A JP6820815B2 (ja) | 2017-09-07 | 2017-09-07 | 学習制御システム及び学習制御方法 |
US16/029,877 US10768583B2 (en) | 2017-09-07 | 2018-07-09 | Learning control system and learning control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017172271A JP6820815B2 (ja) | 2017-09-07 | 2017-09-07 | 学習制御システム及び学習制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019046422A JP2019046422A (ja) | 2019-03-22 |
JP6820815B2 true JP6820815B2 (ja) | 2021-01-27 |
Family
ID=65518074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017172271A Active JP6820815B2 (ja) | 2017-09-07 | 2017-09-07 | 学習制御システム及び学習制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10768583B2 (ja) |
JP (1) | JP6820815B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6811688B2 (ja) * | 2017-06-30 | 2021-01-13 | 株式会社日立製作所 | 複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置 |
KR102086575B1 (ko) * | 2019-05-14 | 2020-03-09 | 임승진 | 계측기 재고 관리 시스템 |
KR102065933B1 (ko) * | 2019-05-14 | 2020-01-14 | 임승진 | 계측기 재고 관리 시스템 |
CN110266515A (zh) * | 2019-05-16 | 2019-09-20 | 上海德衡数据科技有限公司 | 一种基于普适计算的运营信息系统 |
CN110276698B (zh) * | 2019-06-17 | 2022-08-02 | 国网江苏省电力有限公司淮安供电分公司 | 基于多智能体双层协同强化学习的分布式可再生能源交易决策方法 |
KR102461732B1 (ko) * | 2019-07-16 | 2022-11-01 | 한국전자통신연구원 | 강화 학습 방법 및 장치 |
US11221897B2 (en) * | 2019-09-11 | 2022-01-11 | International Business Machines Corporation | Managing device maintenance via artificial intelligence |
US11443235B2 (en) | 2019-11-14 | 2022-09-13 | International Business Machines Corporation | Identifying optimal weights to improve prediction accuracy in machine learning techniques |
CN111632387A (zh) * | 2020-06-12 | 2020-09-08 | 南京大学 | 一种基于星际争霸ii的指挥控制系统 |
JP7342833B2 (ja) * | 2020-10-16 | 2023-09-12 | 横河電機株式会社 | 制御装置、コントローラ、制御システム、制御方法、および制御プログラム |
JP2022158400A (ja) * | 2021-04-02 | 2022-10-17 | 株式会社日立製作所 | 複数のサブシステムを含む実行システムを制御するためのシステム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7085692B2 (en) * | 2001-10-11 | 2006-08-01 | Xerox Corporation | Learning systems and methods for market-based control of smart matter |
JP4339769B2 (ja) * | 2004-09-17 | 2009-10-07 | キヤノンItソリューションズ株式会社 | 予測モデル選択装置及び予測モデル選択方法並びにプログラム |
US7760650B2 (en) * | 2006-12-22 | 2010-07-20 | Ipnp Ltd. | SCADA system with instant messaging |
US8271147B2 (en) * | 2009-02-26 | 2012-09-18 | Massachusetts Institute Of Technology | Methods and apparatus for energy demand management |
JP2011159230A (ja) * | 2010-02-03 | 2011-08-18 | Jfe Steel Corp | スケジュール作成支援システム、スケジュール作成支援方法、及びスケジュール作成支援プログラム |
US9049078B2 (en) * | 2011-08-31 | 2015-06-02 | Eneroc, Inc. | NOC-oriented control of a demand coordination network |
US9441847B2 (en) * | 2012-03-19 | 2016-09-13 | Wojciech Maciej Grohman | System for controlling HVAC and lighting functionality |
CN103676803B (zh) * | 2012-09-14 | 2016-02-10 | 中兴通讯股份有限公司 | 工业控制系统 |
JP2014099113A (ja) * | 2012-11-15 | 2014-05-29 | Samsung R&D Institute Japan Co Ltd | 家電ネットワークシステム |
US9021462B2 (en) * | 2013-03-13 | 2015-04-28 | Johnson Controls Technology Company | Systems and methods for provisioning equipment |
JP5408380B1 (ja) * | 2013-06-17 | 2014-02-05 | 富士ゼロックス株式会社 | 情報処理プログラム及び情報処理装置 |
US10469514B2 (en) * | 2014-06-23 | 2019-11-05 | Hewlett Packard Enterprise Development Lp | Collaborative and adaptive threat intelligence for computer security |
JP6219897B2 (ja) * | 2015-09-28 | 2017-10-25 | ファナック株式会社 | 最適な加減速を生成する工作機械 |
US10073421B2 (en) * | 2015-11-17 | 2018-09-11 | Rockwell Automation Technologies, Inc. | Predictive monitoring and diagnostics systems and methods |
US10545469B2 (en) * | 2016-01-27 | 2020-01-28 | Johnson Controls Technology Company | Systems and methods for self provisioning building equipment |
EP3519999A1 (en) * | 2016-09-30 | 2019-08-07 | Koninklijke Philips N.V. | Anatomical model for position planning and tool guidance of a medical tool |
-
2017
- 2017-09-07 JP JP2017172271A patent/JP6820815B2/ja active Active
-
2018
- 2018-07-09 US US16/029,877 patent/US10768583B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20190072916A1 (en) | 2019-03-07 |
US10768583B2 (en) | 2020-09-08 |
JP2019046422A (ja) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6820815B2 (ja) | 学習制御システム及び学習制御方法 | |
KR102245717B1 (ko) | 인공지능 모델을 이용한 상품 판매량 예측 방법, 장치 및 시스템 | |
Adibi et al. | Multi-objective scheduling of dynamic job shop using variable neighborhood search | |
EP3692473A1 (en) | Machine learning system | |
Azadeh et al. | A hybrid computer simulation-artificial neural network algorithm for optimisation of dispatching rule selection in stochastic job shop scheduling problems | |
Peng et al. | Deep reinforcement learning approach for capacitated supply chain optimization under demand uncertainty | |
EP3948692A1 (en) | Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions | |
Afzalirad et al. | Design of high-performing hybrid meta-heuristics for unrelated parallel machine scheduling with machine eligibility and precedence constraints | |
He | An inventory controlled supply chain model based on improved BP neural network | |
Wang et al. | An estimation of distribution algorithm for hybrid flow shop scheduling under stochastic processing times | |
Wang et al. | Modeling and optimization of stochastic joint replenishment and delivery scheduling problem with uncertain costs | |
Latif et al. | A case study of digital twin for a manufacturing process involving human interactions | |
Sabbaghnia et al. | Reducing the Bullwhip effect in a supply chain network by application of optimal control theory | |
Soni et al. | Inventory forecasting model using genetic programming and Holt-Winter's exponential smoothing method | |
Machani et al. | A variable neighbourhood search for integrated production and preventive maintenance planning in multi-state systems | |
Fajar et al. | Comparison of discrete event simulation and agent based simulation for evaluating the performance of port container terminal | |
CN110675055A (zh) | 一种自动化生产线建模与布局规划方法及系统 | |
Samsudin et al. | A hybrid GMDH and least squares support vector machines in time series forecasting | |
Bucki et al. | Modelling Decision‐Making Processes in the Management Support of the Manufacturing Element in the Logistic Supply Chain | |
WO2024068571A1 (en) | Supply chain optimization with reinforcement learning | |
Munkelt et al. | Agent-based self-organization versus central production planning | |
Latha Shankar et al. | Bi‐objective optimization of distribution scheduling using MOPSO optimizer | |
Khan et al. | Dynamic feedback neuro-evolutionary networks for forecasting the highly fluctuating electrical loads | |
Amodeo et al. | Comparison of metaheuristic approaches for multi-objective simulation-based optimization in supply chain inventory management | |
Prestwich et al. | A neuroevolutionary approach to stochastic inventory control in multi-echelon systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6820815 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |