JP6744208B2 - 制御装置及び制御方法 - Google Patents
制御装置及び制御方法 Download PDFInfo
- Publication number
- JP6744208B2 JP6744208B2 JP2016252822A JP2016252822A JP6744208B2 JP 6744208 B2 JP6744208 B2 JP 6744208B2 JP 2016252822 A JP2016252822 A JP 2016252822A JP 2016252822 A JP2016252822 A JP 2016252822A JP 6744208 B2 JP6744208 B2 JP 6744208B2
- Authority
- JP
- Japan
- Prior art keywords
- control
- action
- value
- unit
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Description
本実施例に係る制御装置4は、図1に示すような機械1(機械装置の本体は図示を省略する)などにおいて、機械内部に搭載された少なくとも1つ以上のセンサ2などからの入力値を処理して、制御部11〜1n1、21〜2n2、及び学習部71に出力する状態値を決定する状態取得部51と、パラメータを更新する制御モデル31〜3n1を含む一つ以上の制御部11〜1n1と、パラメータを更新する制御部11〜1n1とは別に並列に動作するパラメータを更新しない制御モデル41〜4n2を含む一つ以上の制御部21〜2n2と、各制御部11〜1n1、21〜2n2が出力する行動価値に基づいて行動を選択する行動価値選択部61と、制御部11〜1n1の制御モデル31〜3n1のパラメータを更新する学習部71と、学習部71とデータの送受信を行うデータ記憶部81と、行動価値選択部61と接続して行動価値選択部61が選択した行動価値、行動、及び選択された各制御部11〜1n1、21〜2n2の選択回数を監視して記録する選択監視部91とを備える。
行動価値選択部61による複数の制御部11〜1n1、21〜2n2から出力された行動価値の選択手段として、例えば、Max関数を用いて行動価値の最大となる行動を選択しても良いし、ε−greedy選択、あるいはボルツマン選択などの確率的な選択手段をとっても良い。
並列に動作する制御部11〜1n1、21〜2n2と学習部71とを構造的に切り離すことで、更新する制御モデル31〜3n1を持つ制御部11〜1n1のみパラメータを更新することができる。
本実施例では、第2、第3の実施例で説明した合成とは逆の分解の例について説明する。具体的には、倒立振子ライントレーサロボット700の制御モデル41aから、ライントレーサロボット500の操舵制御モデル31a及び倒立振子ロボット600の倒立移動制御モデル32aに分解する例について説明する。
2 センサ
3 アクチュエータ
4 制御装置
11〜1n1、11a、12a パラメータを更新する制御モデルを持つ制御部
21〜2n2、21a、22a 既存の制御モデルを持つ制御部
31〜3n1、31a、31b、32b パラメータを更新する制御モデル
41〜4n2、41a、42a 既存の制御モデル
51 状態取得部
61 行動価値選択部
62 更新モデル選択部
71 学習部
81 データ記憶部
91 選択監視部
200 最短経路問題(迷路)
201 スタート地点
202 ゴール地点
300 台車走行ロボット
301 自己位置測定器
302 モータ駆動型車輪
303 台車走行ロボット用制御装置
310 縦横4方向移動制御モデル
320 斜め4方向移動制御モデル
330 8方向移動制御モデル
400 実施例1の比較結果のグラフ
500 ライントレーサロボット
501 ライントレーサロボットのモータ(右)
502 ライントレーサロボットのモータ(左)
600、600a 倒立振子ロボット
601 倒立振子ロボットのモータ(右)
602 倒立振子ロボットのモータ(左)
700 倒立振子ライントレーサロボット
701 倒立振子ライントレーサロボットのモータ(右)
702 倒立振子ライントレーサロボットのモータ(左)
800、800a、800b、800c ビジョンセンサ、カメラ
801 カメラ画像
900、900a、900b、900c IMUセンサ
1000、1000a ライントレース用のライン
Claims (11)
- 機械装置に、所定の環境下で与えられたタスクを達成させるため、機械に搭載されたセンサから得られた環境における機械の状態値に基づき、アクチュエータの制御値を決定して、機械の制御モデルを自ら学習していく制御装置であって、
センサからの観測データにより機械の状態値を取得する状態取得部と、
パラメータを更新する第一の制御モデルを含み、前記状態値、及び前記第一の制御モデルに基づき、前記機械の行動、及び行動価値を算出して出力する第一の制御部と、
前記第一の制御部と並列に接続され、パラメータを更新しない既存の第二の制御モデルを含み、前記状態値、及び前記第二の制御モデルに基づき、前記機械の行動、及び行動価値を算出して出力する第二の制御部と、
前記第一の制御部及び前記第二の制御部より出力された行動価値を比較して、行動価値が最大となる行動を、または確率的に行動を選択し、選択した行動をアクチュエータに、また選択した行動、及び行動価値を学習部に出力する行動価値選択部と、
前記行動価値選択部が選択した行動価値、及び行動を入力し、前記状態値と共に記憶部に保管して、保管されたデータに基づき前記第一の制御部に含まれる前記第一の制御モデルのパラメータを更新する学習部と、
を備えることを特徴とする制御装置。 - 請求項1に記載の制御装置において、
その内部に含む制御モデルがそれぞれ異なる前記第二の制御部が複数個、並列に備えられていることを特徴とする制御装置。 - 請求項1に記載の制御装置において、
その内部に含む制御モデルがそれぞれ異なる前記第一の制御部が複数個、並列に備えられていることを特徴とする制御装置。 - 請求項1に記載の制御装置において、
その内部に含む制御モデルがそれぞれ異なる前記第一の制御部が複数個、及びその内部に含む制御モデルがそれぞれ異なる前記第二の制御部が複数個、共に並列に備えられていることを特徴とする制御装置。 - 請求項3、または請求項4に記載の制御装置において、
複数の前記第一の制御部と接続し、前記第一の制御部に含まれる第一の制御モデルのパラメータを学習部が更新することを選択する更新モデル選択部を更に備えることを特徴とする制御装置。 - 請求項1乃至4のいずれかの請求項に記載の制御装置において、
前記行動価値選択部が選択した行動、行動価値、及び各制御モデルの選択回数を外部に接続した表示装置に出力したり、ログを記録して学習の状況を監視する選択監視部を更に備えることを特徴とする制御装置。 - 機械装置に、所定の環境下で与えられたタスクを達成させるため、機械に搭載されたセンサから得られた環境における機械の状態値に基づき、アクチュエータの制御値を決定して、機械の制御モデルを自ら学習していく制御装置の制御方法であって、
状態取得部が、センサからの観測データにより機械の状態値を取得する工程と、
第一の制御部が、前記状態値、及び内部に含むパラメータを更新する第一の制御モデルに基づき、前記機械の行動、及び行動価値を算出して出力する工程と、
第二の制御部が、前記第一の制御部と並列に動作して、前記状態値、及び内部に含むパラメータを更新しない既存の第二の制御モデルに基づき、前記機械の行動、及び行動価値を算出して出力する工程と、
行動価値選択部が、前記第一の制御部及び前記第二の制御部より出力された行動価値を比較して、行動価値が最大となる行動を、または確率的に行動を選択して、選択した行動価値、及び行動を学習部へ出力すると共に、選択した行動を前記機械のアクチュエータへ出力して、前記機械の動作を制御する工程と、
学習部が、前記行動価値選択部が選択した行動価値、及び行動を入力し、前記状態値と共に記憶部に保管して、保管されたデータに基づき前記第一の制御部に含まれる前記第一の制御モデルのパラメータを更新する工程と、
を有し、
前記制御装置が、所定の収束条件を満たすまで、上記した一連の工程を繰り返す
ことを特徴とする制御方法。 - 前記第一の制御モデルを内部に含む前記第一の制御部が、それぞれ異なる制御モデルを内部に含む複数の制御部であり、該複数の制御部は前記第二の制御部と並列に動作して、
更新モデル選択部が、前記複数の制御部に含まれる制御モデルのパラメータを学習部が更新することを選択する工程を更に有することを特徴とする請求項7に記載の制御方法。 - 請求項7、または請求項8に記載の制御方法において、
選択監視部が、前記行動価値選択部が選択した行動、行動価値、及び各制御モデルの選択回数を外部に接続した表示装置に出力したり、ログを記録して学習の状況を監視する工程を更に有することを特徴とする制御方法。 - 前記学習部内に第二の制御モデルごとに忘却係数を設け、
前記学習部が、学習の進捗に応じて前記第二の制御部が出力する行動価値ごとに設けた前記忘却係数を掛けあわせる工程を更に有することを特徴とする請求項7に記載の制御方法。 - 前記学習部内に第二の制御モデルごとに忘却係数を設け、
前記学習部が、学習の進捗に応じて前記第二の制御部が出力する行動価値ごとに設けた前記忘却係数を掛けあわせると共に、試行毎に一定値を前記忘却係数から引いていく工程を更に有することを特徴とする請求項7に記載の制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016252822A JP6744208B2 (ja) | 2016-12-27 | 2016-12-27 | 制御装置及び制御方法 |
US15/854,395 US20180181089A1 (en) | 2016-12-27 | 2017-12-26 | Control device and control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016252822A JP6744208B2 (ja) | 2016-12-27 | 2016-12-27 | 制御装置及び制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018106466A JP2018106466A (ja) | 2018-07-05 |
JP6744208B2 true JP6744208B2 (ja) | 2020-08-19 |
Family
ID=62629701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016252822A Active JP6744208B2 (ja) | 2016-12-27 | 2016-12-27 | 制御装置及び制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180181089A1 (ja) |
JP (1) | JP6744208B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6474449B2 (ja) * | 2017-04-07 | 2019-02-27 | ファナック株式会社 | 調整装置及び調整方法 |
JP6519896B1 (ja) * | 2018-03-15 | 2019-05-29 | オムロン株式会社 | 学習装置、学習方法、及びそのプログラム |
US20220036122A1 (en) * | 2018-09-27 | 2022-02-03 | Nec Corporation | Information processing apparatus and system, and model adaptation method and non-transitory computer readable medium storing program |
JP7141320B2 (ja) * | 2018-12-05 | 2022-09-22 | 株式会社日立製作所 | 強化学習支援装置、保守計画立案装置、及び強化学習支援方法 |
JP7097006B2 (ja) * | 2018-12-05 | 2022-07-07 | オムロン株式会社 | センサシステム |
WO2020121551A1 (ja) * | 2018-12-12 | 2020-06-18 | 日本電信電話株式会社 | マルチデバイス連携制御装置、マルチデバイス連携制御方法およびマルチデバイス連携制御プログラム、並びに、学習装置、学習方法および学習プログラム |
JP2021018644A (ja) * | 2019-07-22 | 2021-02-15 | コニカミノルタ株式会社 | 機械学習装置、機械学習方法及び機械学習プログラム |
WO2021064767A1 (ja) * | 2019-09-30 | 2021-04-08 | 日本電気株式会社 | 制御装置、方法及びシステム |
JP7342600B2 (ja) * | 2019-10-16 | 2023-09-12 | 株式会社アイシン | 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム |
JP7484382B2 (ja) * | 2020-04-24 | 2024-05-16 | 横河電機株式会社 | 制御装置、制御方法および制御プログラム |
US20230211498A1 (en) * | 2020-06-01 | 2023-07-06 | Nec Corporation | Planner device, planning method, planning program recording medium, learning device, learning method, and learning program recording medium |
JP7342833B2 (ja) * | 2020-10-16 | 2023-09-12 | 横河電機株式会社 | 制御装置、コントローラ、制御システム、制御方法、および制御プログラム |
JP2022071832A (ja) * | 2020-10-28 | 2022-05-16 | キヤノン株式会社 | 振動型アクチュエータの制御装置及びそれを有する振動型駆動装置、交換用レンズ、撮像装置、自動ステージ |
JP7536708B2 (ja) | 2021-05-18 | 2024-08-20 | 株式会社東芝 | 学習装置、学習方法、および学習プログラム |
JP7444186B2 (ja) | 2022-03-22 | 2024-03-06 | 横河電機株式会社 | モデル検証装置、モデル検証方法、および、モデル検証プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3703821B2 (ja) * | 2003-09-02 | 2005-10-05 | 株式会社国際電気通信基礎技術研究所 | 並列学習装置、並列学習方法及び並列学習プログラム |
US9507367B2 (en) * | 2012-04-09 | 2016-11-29 | Clemson University | Method and system for dynamic stochastic optimal electric power flow control |
US20170061283A1 (en) * | 2015-08-26 | 2017-03-02 | Applied Brain Research Inc. | Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments |
-
2016
- 2016-12-27 JP JP2016252822A patent/JP6744208B2/ja active Active
-
2017
- 2017-12-26 US US15/854,395 patent/US20180181089A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20180181089A1 (en) | 2018-06-28 |
JP2018106466A (ja) | 2018-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6744208B2 (ja) | 制御装置及び制御方法 | |
Pinto et al. | Asymmetric actor critic for image-based robot learning | |
Everett et al. | Collision avoidance in pedestrian-rich environments with deep reinforcement learning | |
Rajeswaran et al. | Towards generalization and simplicity in continuous control | |
US11253999B2 (en) | Machine learning device, robot control device and robot vision system using machine learning device, and machine learning method | |
CN111587408B (zh) | 机器人导航和对象跟踪 | |
JP2017030137A (ja) | 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 | |
TWI802820B (zh) | 機器人控制裝置、方法和儲存媒體 | |
Zhang et al. | Sim2real learning of obstacle avoidance for robotic manipulators in uncertain environments | |
Jain et al. | From pixels to legs: Hierarchical learning of quadruped locomotion | |
JP7295421B2 (ja) | 制御装置及び制御方法 | |
Ji et al. | Synthesizing the optimal gait of a quadruped robot with soft actuators using deep reinforcement learning | |
JP7517225B2 (ja) | 軌道生成システム、軌道生成方法及びプログラム | |
Passalis et al. | Deep reinforcement learning for controlling frontal person close-up shooting | |
JP2019049904A (ja) | 操作方法生成システム | |
JP2009134352A (ja) | ロボットの動作経路作成装置及びロボットの動作経路作成方法 | |
CN108687766B (zh) | 机器人的控制装置、机器学习装置以及机器学习方法 | |
CN113614743A (zh) | 用于操控机器人的方法和设备 | |
Toma et al. | Waypoint planning networks | |
Xu et al. | Learning strategy for continuous robot visual control: A multi-objective perspective | |
Qi et al. | Model predictive manipulation of compliant objects with multi-objective optimizer and adversarial network for occlusion compensation | |
JP3703821B2 (ja) | 並列学習装置、並列学習方法及び並列学習プログラム | |
Wang et al. | Integrated reinforcement and imitation learning for tower crane lift path planning | |
Leitner et al. | Artificial neural networks for spatial perception: Towards visual object localisation in humanoid robots | |
Salvi et al. | Virtual Evaluation of Deep Learning Techniques for Vision-Based Trajectory Tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200714 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6744208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |