JP6990636B2 - 情報処理システム - Google Patents
情報処理システム Download PDFInfo
- Publication number
- JP6990636B2 JP6990636B2 JP2018161209A JP2018161209A JP6990636B2 JP 6990636 B2 JP6990636 B2 JP 6990636B2 JP 2018161209 A JP2018161209 A JP 2018161209A JP 2018161209 A JP2018161209 A JP 2018161209A JP 6990636 B2 JP6990636 B2 JP 6990636B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- action
- neural network
- state
- objective function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
図1は、本実施形態の全体システムの論理構成例を示す。システムは、情報処理システムであるシステム制御部10と、システム制御部10により制御される制御対象システム15と、を含む。制御対象システム15は、例えば、交通システムや給排水システムのようなフロー制御システムや、ビルの空調システム、データセンタの冷却システム等である。システム制御部10は、ニューラルネットワーク訓練部101、行動最適化部102、ニューラルネットワーク103、訓練データデータベース(DB)104、及び、構成情報データベース105含む。
上記実施形態において、ニューラルネットワーク103は一つの行動(ベクトル)に対して一つの目的関数を出力する。これと異なり、ニューラルネットワーク103は、複数の行動に対して、それぞれ対応する目的関数を出力してもよい。図7は、状態に加えて複数の行動が入力され、行動それぞれに対応する複数の目的関数を出力するニューラルネットワーク103の例を示す。
図7に示すように、出力が状態sを含む場合、ニューラルネットワーク103は、微分可能な状態シミュレータとして機能する部分を含む。目的関数は異なるが、背景のシステムが同一の場合、二つのニューラルネットワークの間で状態シミュレータの部分を分離し、転位することが可能であり、汎用性を高めることができる。図8は、図7に示すニューラルネットワーク構成における状態シミュレータ134を示す。
上記実施形態は、観測された現在の状態に対して実行する行動を最適化する。以下に記載する実施形態は、未来に実行する行動を予め決定する。具体的には、未来におけるN番目の状態の予測値に基づき、N番目の行動を最適化する。
上記実施形態は、状態を参照することなく、目的関数の行動についての勾配に基づき、行動を最適化する。以下に説明する実施形態は、状態の予測値を行動の最適化に使用する。これにより、より適切な行動を決定することができる。ニューラルネットワーク103は、図8及び9に例示するように、目的関数の予測値に加え、次の状態の予測値を出力する。
Claims (9)
- 1以上の記憶装置と、
前記1以上の記憶装置に格納されている命令コードに従って動作する1以上のプロセッサと、
を含む情報処理システムであって、
前記1以上のプロセッサは、第1の処理を1又は複数回実行して、状態における目的関数の予測値を目的値に近づけるように行動の候補値を更新し、
前記第1の処理は、
ニューラルネットワークに、前記行動の候補値及び前記状態の値を入力し、
前記行動の前記候補値及び前記状態の前記値に対して前記ニューラルネットワークから出力された前記目的関数の予測値を取得し、
前記ニューラルネットワークにおいて、前記行動の前記候補値及び前記目的関数の前記予測値における、前記目的関数の前記行動に関する勾配値を決定し、
前記勾配値に基づいて前記行動の前記候補値を更新する、情報処理システム。 - 請求項1に記載の情報処理システムであって、
前記1以上の記憶装置は、前記ニューラルネットワークの訓練データを格納するデータベースを格納し、
前記1以上のプロセッサは、
前記第1の処理を1又は複数回実行した後に得られた前記行動の実行値に基づいて、制御対象システムを制御し、
前記行動の前記実行値、前記状態の前記値、前記行動の前記実行値による前記制御対象システムの次の状態の観測値、及び前記行動の前記実行値による前記制御対象システムでの前記目的関数の観測値を、前記データベースに格納する、情報処理システム。 - 請求項1に記載の情報処理システムであって、
前記第1の処理は、
複数の行動の候補値を前記ニューラルネットワークに入力し、
前記ニューラルネットワークが出力した、前記複数の行動の前記候補値それぞれとペアを構成する複数の目的関数の予測値を取得し、
前記ペアの各ペアについて、前記ニューラルネットワークにおいて、前記行動の前記候補値及び前記目的関数の前記予測値における、前記目的関数の前記行動に関する勾配値を決定し、
前記勾配値に基づき各ペアの行動の候補値を更新する、情報処理システム。 - 請求項1に記載の情報処理システムであって、
前記ニューラルネットワークは、前記目的関数の予測値と次の状態の予測値とを出力する、情報処理システム。 - 請求項4に記載の情報処理システムであって、
前記ニューラルネットワークから、前記目的関数の予測値を出力するサブネットワークを除いた前記次の状態の予測値を出力するサブネットワークが分離可能である、情報処理システム。 - 請求項4に記載の情報処理システムであって、
前記1以上のプロセッサは、
現在の状態において実行される行動の実行値と現在の状態の観測値とのペアを、前記ニューラルネットワークに入力し、
前記ニューラルネットワークが出力した前記現在の状態の次の状態の予測値を取得し、
次の行動の候補値及び前記次の状態の前記予測値に対して、前記第1の処理を実行する、情報処理システム。 - 請求項4に記載の情報処理システムであって、
前記1以上の記憶装置は、順次実行される(N-1)個の行動の値を格納し、前記(N-1)個の行動における最初の行動は、現在の状態において実行される行動であり、前記Nは2より大きい整数であり、
前記1以上のプロセッサは、
前記(N-1)個の行動における最初の行動の値と現在の状態の値とのペアを、前記ニューラルネットワークに入力し、
2番目から(N-1)番目の行動の値及び前記ニューラルネットワークから得られる前記2番目から前記(N-1)番目の行動の値それぞれに対応する状態の予測値のペアを、前記ニューラルネットワークに順次入力し、
前記(N-1)番目の行動の値及び前記(N-1)番目の行動の値に対応する状態の予測値に対して前記ニューラルネットワークが出力する状態の予測値とN番目の行動の候補値とに対して、前記第1の処理を実行する、情報処理システム。 - 請求項4に記載の情報処理システムであって、
前記第1の処理は、
前記行動の前記候補値及び前記状態の前記値に対して前記ニューラルネットワークから出力された次の状態の予測値をさらに取得し、
前記ニューラルネットワークにおいて、前記勾配値を、第2勾配値、及び、前記次の状態の前記予測値と前記状態の前記値との間の差と第3勾配値の積、から決定し、
前記第2勾配値は、前記状態の前記値及び前記行動の前記候補値での、前記目的関数の前記行動に対する一階微分値であり、
前記第3勾配値は、前記次の状態の前記予測値及び前記行動の前記候補値での、前記目的関数の前記行動及び前記状態についての二階微分値である、情報処理システム。 - 情報処理システムが、行動を決定する方法であって、
前記情報処理システムは、1以上の記憶装置と、前記1以上の記憶装置に格納されている命令コードに従って動作する1以上のプロセッサと、を含み、
前記方法は、
前記1以上のプロセッサが、第1の処理を1又は複数回実行して、状態における目的関数の予測値を目的値に近づけるように行動の候補値を更新することを含み、
前記第1の処理は、
ニューラルネットワークに、前記行動の候補値及び前記状態の値を入力し、
前記行動の前記候補値及び前記状態の前記値に対して前記ニューラルネットワークから出力された前記目的関数の予測値を取得し、
前記ニューラルネットワークにおいて、前記行動の前記候補値及び前記目的関数の前記予測値における、前記目的関数の前記行動に関する勾配値を決定し、
前記勾配値に基づいて前記行動の前記候補値を更新する、ことを含む、方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018161209A JP6990636B2 (ja) | 2018-08-30 | 2018-08-30 | 情報処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018161209A JP6990636B2 (ja) | 2018-08-30 | 2018-08-30 | 情報処理システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020035178A JP2020035178A (ja) | 2020-03-05 |
JP2020035178A5 JP2020035178A5 (ja) | 2020-12-10 |
JP6990636B2 true JP6990636B2 (ja) | 2022-01-12 |
Family
ID=69668163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018161209A Active JP6990636B2 (ja) | 2018-08-30 | 2018-08-30 | 情報処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6990636B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005096068A (ja) | 2003-08-25 | 2005-04-14 | Sony Corp | ロボット装置及びロボットの姿勢制御方法 |
WO2018083532A1 (en) | 2016-11-03 | 2018-05-11 | Deepmind Technologies Limited | Training action selection neural networks |
JP2018126799A (ja) | 2017-02-06 | 2018-08-16 | セイコーエプソン株式会社 | 制御装置、ロボットおよびロボットシステム |
-
2018
- 2018-08-30 JP JP2018161209A patent/JP6990636B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005096068A (ja) | 2003-08-25 | 2005-04-14 | Sony Corp | ロボット装置及びロボットの姿勢制御方法 |
WO2018083532A1 (en) | 2016-11-03 | 2018-05-11 | Deepmind Technologies Limited | Training action selection neural networks |
JP2018126799A (ja) | 2017-02-06 | 2018-08-16 | セイコーエプソン株式会社 | 制御装置、ロボットおよびロボットシステム |
Non-Patent Citations (2)
Title |
---|
RIEDMILLER, M.,Neural Fitted Q Iteration - First Experiences with a Data Efficient Neural Reinforcement Learning Method,Machine Learning: ECML 2005,LNCS/LNAI Vol. 3720,2005年,pp. 317-328,[retrieved on 2021-11-25] Retrieved from the Internet <URL: https://link.springer.com/chapter/10.1007/11564096_32>,<DOI: 10.1007/11564096_32> |
銅谷 賢治ほか,強化学習と最適制御,システム/制御/情報,2001年04月15日,Vol. 45, No. 4,pp. 30-40,ISSN: 0916-1600 |
Also Published As
Publication number | Publication date |
---|---|
JP2020035178A (ja) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7532615B2 (ja) | 自律型車両の計画 | |
Zhu et al. | A survey of deep RL and IL for autonomous driving policy learning | |
JP6605259B2 (ja) | ニューラルネットワーク構造拡張方法、次元縮小方法、及びその方法を用いた装置 | |
Bhattacharyya et al. | Simulating emergent properties of human driving behavior using multi-agent reward augmented imitation learning | |
US20200327409A1 (en) | Method and device for hierarchical learning of neural network, based on weakly supervised learning | |
JP6550678B2 (ja) | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム | |
KR20180044295A (ko) | 트레이닝된 머신 학습 모델의 성능을 개선시키는 방법 | |
JP7099968B2 (ja) | 演算装置 | |
Bajpai et al. | Transfer of deep reactive policies for mdp planning | |
US11429865B1 (en) | Optimizing neural networks | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
CN112633463A (zh) | 用于建模序列数据中长期依赖性的双重递归神经网络架构 | |
JP2020027399A (ja) | 計算機システム | |
JP6990636B2 (ja) | 情報処理システム | |
Christopher et al. | Projected generative diffusion models for constraint satisfaction | |
Zhao et al. | A survey on deep reinforcement learning approaches for traffic signal control | |
CN118057241A (zh) | 用于反向光刻技术中掩模优化的机器学习 | |
CN117928530A (zh) | 用于路径分布估计的方法和装置 | |
KR102689100B1 (ko) | 시간 가변적 예측(anytime prediction)을 위한 얇은 하위 네트워크를 활용하는 방법 및 시스템 | |
Golmisheh et al. | Heterogeneous optimal formation control of nonlinear multi-agent systems with unknown dynamics by safe reinforcement learning | |
Baumgart et al. | Optimal control of traffic flow based on reinforcement learning | |
WO2023070274A1 (en) | A method and an apparatus for continual learning | |
WO2022127603A1 (zh) | 一种模型处理方法及相关装置 | |
WO2022229404A1 (en) | Motion planning | |
Huo et al. | Tensor-based cooperative control for large scale multi-intersection traffic signal using deep reinforcement learning and imitation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201026 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6990636 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |