JP2018106466A - 制御装置及び制御方法 - Google Patents
制御装置及び制御方法 Download PDFInfo
- Publication number
- JP2018106466A JP2018106466A JP2016252822A JP2016252822A JP2018106466A JP 2018106466 A JP2018106466 A JP 2018106466A JP 2016252822 A JP2016252822 A JP 2016252822A JP 2016252822 A JP2016252822 A JP 2016252822A JP 2018106466 A JP2018106466 A JP 2018106466A
- Authority
- JP
- Japan
- Prior art keywords
- control
- value
- unit
- learning
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
Description
本実施例に係る制御装置4は、図1に示すような機械1(機械装置の本体は図示を省略する)などにおいて、機械内部に搭載された少なくとも1つ以上のセンサ2などからの入力値を処理して、制御部11〜1n1、21〜2n2、及び学習部71に出力する状態値を決定する状態取得部51と、パラメータを更新する制御モデル31〜3n1を含む一つ以上の制御部11〜1n1と、パラメータを更新する制御部11〜1n1とは別に並列に動作するパラメータを更新しない制御モデル41〜4n2を含む一つ以上の制御部21〜2n2と、各制御部11〜1n1、21〜2n2が出力する行動価値に基づいて行動を選択する行動価値選択部61と、制御部11〜1n1の制御モデル31〜3n1のパラメータを更新する学習部71と、学習部71とデータの送受信を行うデータ記憶部81と、行動価値選択部61と接続して行動価値選択部61が選択した行動価値、行動、及び選択された各制御部11〜1n1、21〜2n2の選択回数を監視して記録する選択監視部91とを備える。
行動価値選択部61による複数の制御部11〜1n1、21〜2n2から出力された行動価値の選択手段として、例えば、Max関数を用いて行動価値の最大となる行動を選択しても良いし、ε−greedy選択、あるいはボルツマン選択などの確率的な選択手段をとっても良い。
並列に動作する制御部11〜1n1、21〜2n2と学習部71とを構造的に切り離すことで、更新する制御モデル31〜3n1を持つ制御部11〜1n1のみパラメータを更新することができる。
本実施例では、第2、第3の実施例で説明した合成とは逆の分解の例について説明する。具体的には、倒立振子ライントレーサロボット700の制御モデル41aから、ライントレーサロボット500の操舵制御モデル31a及び倒立振子ロボット600の倒立移動制御モデル32aに分解する例について説明する。
2 センサ
3 アクチュエータ
4 制御装置
11〜1n1、11a、12a パラメータを更新する制御モデルを持つ制御部
21〜2n2、21a、22a 既存の制御モデルを持つ制御部
31〜3n1、31a、31b、32b パラメータを更新する制御モデル
41〜4n2、41a、42a 既存の制御モデル
51 状態取得部
61 行動価値選択部
62 更新モデル選択部
71 学習部
81 データ記憶部
91 選択監視部
200 最短経路問題(迷路)
201 スタート地点
202 ゴール地点
300 台車走行ロボット
301 自己位置測定器
302 モータ駆動型車輪
303 台車走行ロボット用制御装置
310 縦横4方向移動制御モデル
320 斜め4方向移動制御モデル
330 8方向移動制御モデル
400 実施例1の比較結果のグラフ
500 ライントレーサロボット
501 ライントレーサロボットのモータ(右)
502 ライントレーサロボットのモータ(左)
600、600a 倒立振子ロボット
601 倒立振子ロボットのモータ(右)
602 倒立振子ロボットのモータ(左)
700 倒立振子ライントレーサロボット
701 倒立振子ライントレーサロボットのモータ(右)
702 倒立振子ライントレーサロボットのモータ(左)
800、800a、800b、800c ビジョンセンサ、カメラ
801 カメラ画像
900、900a、900b、900c IMUセンサ
1000、1000a ライントレース用のライン
Claims (11)
- 制御対象の状態値をセンサ値より取得する状態取得部と、
第一の制御モデルを含み、前記状態値、及び前記第一の制御モデルに基づき、前記制御対象の行動、及び行動価値を出力する第一の制御部と、
前記第一の制御部と並列に接続され、第二の制御モデルを含み、前記状態値、及び前記第二の制御モデルに基づき、前記制御対象の行動、及び行動価値を出力する第二の制御部と、
前記第一の制御部及び前記第二の制御部より出力された行動価値を選択する行動価値選択部と、
前記行動価値選択部が選択した行動価値、及び行動を入力し、前記状態値と共に記憶して、記憶されたデータに基づき前記第一の制御部に含まれる前記第一の制御モデルのパラメータを更新する学習部と、
を備えることを特徴とする制御装置。 - 請求項1に記載の制御装置において、
その内部に含む制御モデルがそれぞれ異なる前記第二の制御部が複数個、並列に備えられていることを特徴とする制御装置。 - 請求項1に記載の制御装置において、
その内部に含む制御モデルがそれぞれ異なる前記第一の制御部が複数個、並列に備えられていることを特徴とする制御装置。 - 請求項1に記載の制御装置において、
その内部に含む制御モデルがそれぞれ異なる前記第一の制御部が複数個、及びその内部に含む制御モデルがそれぞれ異なる前記第二の制御部が複数個、共に並列に備えられていることを特徴とする制御装置。 - 請求項3、または請求項4に記載の制御装置において、
複数の前記第一の制御部と接続し、前記第一の制御部に含まれる制御モデルのパラメータを更新することを選択する更新モデル選択部を更に備えることを特徴とする制御装置。 - 請求項1乃至4のいずれかの請求項に記載の制御装置において、
前記行動価値選択部が選択した制御モデルを監視する選択監視部を更に備えることを特徴とする制御装置。 - 制御対象の状態値をセンサ値より取得する工程と、
第一の制御部が、前記状態値、及び内部に含む第一の制御モデルに基づき、前記制御対象の行動、及び行動価値を出力する工程と、
第二の制御部が、前記第一の制御部と並列に動作して、前記状態値、及び内部に含む第二の制御モデルに基づき、前記制御対象の行動、及び行動価値を出力する工程と、
行動価値選択部が、前記第一の制御部及び前記第二の制御部より出力された行動価値を選択して、選択した行動価値、及び行動を学習部へ出力すると共に、選択した行動を前記制御対象のアクチュエータへ出力して、前記制御対象の動作を制御する工程と、
学習部が、前記行動価値選択部が選択した行動価値、及び行動を入力し、前記状態値と共に記憶して、記憶されたデータに基づき前記第一の制御部に含まれる前記第一の制御モデルのパラメータを更新する工程と、
を有することを特徴とする制御方法。 - 前記第一の制御モデルを内部に含む前記第一の制御部が、それぞれ異なる制御モデルを内部に含む複数の制御部であり、該複数の制御部は前記第二の制御部と並列に動作して、
更新モデル選択部が、前記複数の制御部に含まれる制御モデルのパラメータを更新することを選択する工程を更に有することを特徴とする請求項7に記載の制御方法。 - 請求項7、または請求項8に記載の制御方法において、
選択監視部が、前記行動価値選択部が選択した制御モデルを監視する工程を更に有することを特徴とする制御方法。 - 前記行動価値選択部内に制御部ごとに忘却係数を設け、
前記行動価値選択部が、前記第一の制御部及び前記第二の制御部が出力する行動価値ごとに設けた前記忘却係数を掛けあわせる工程を更に有することを特徴とする請求項7に記載の制御方法。 - 前記行動価値選択部内に前記第二の制御部ごとに忘却係数を設け、
前記行動価値選択部が、前記第二の制御部が出力する行動価値ごとに設けた前記忘却係数を掛けあわせると共に、試行毎に一定値を前記忘却係数から引いていく工程を更に有することを特徴とする請求項7に記載の制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016252822A JP6744208B2 (ja) | 2016-12-27 | 2016-12-27 | 制御装置及び制御方法 |
US15/854,395 US20180181089A1 (en) | 2016-12-27 | 2017-12-26 | Control device and control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016252822A JP6744208B2 (ja) | 2016-12-27 | 2016-12-27 | 制御装置及び制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018106466A true JP2018106466A (ja) | 2018-07-05 |
JP6744208B2 JP6744208B2 (ja) | 2020-08-19 |
Family
ID=62629701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016252822A Active JP6744208B2 (ja) | 2016-12-27 | 2016-12-27 | 制御装置及び制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180181089A1 (ja) |
JP (1) | JP6744208B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020065808A1 (ja) * | 2018-09-27 | 2020-04-02 | 日本電気株式会社 | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
JP2020091653A (ja) * | 2018-12-05 | 2020-06-11 | オムロン株式会社 | センサシステム |
JP2020091615A (ja) * | 2018-12-05 | 2020-06-11 | 株式会社日立製作所 | 強化学習支援装置、保守計画立案装置、及び強化学習支援方法 |
JPWO2021064767A1 (ja) * | 2019-09-30 | 2021-04-08 | ||
WO2021245720A1 (ja) * | 2020-06-01 | 2021-12-09 | 日本電気株式会社 | プランナー装置、プランニング方法、プランニングプログラム記録媒体、学習装置、学習方法および学習プログラム記録媒体 |
JP7342600B2 (ja) | 2019-10-16 | 2023-09-12 | 株式会社アイシン | 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム |
EP4249179A1 (en) | 2022-03-22 | 2023-09-27 | Yokogawa Electric Corporation | Model verification apparatus, model verification method, and model verification program |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6474449B2 (ja) * | 2017-04-07 | 2019-02-27 | ファナック株式会社 | 調整装置及び調整方法 |
JP6519896B1 (ja) * | 2018-03-15 | 2019-05-29 | オムロン株式会社 | 学習装置、学習方法、及びそのプログラム |
US11874634B2 (en) * | 2018-12-12 | 2024-01-16 | Nippon Telegraph And Telephone Corporation | Multi-device coordination control device, multi-device coordinaton control method, and multi-device coordination control program, and learning device, learning method, and learning program |
JP7484382B2 (ja) * | 2020-04-24 | 2024-05-16 | 横河電機株式会社 | 制御装置、制御方法および制御プログラム |
JP7342833B2 (ja) * | 2020-10-16 | 2023-09-12 | 横河電機株式会社 | 制御装置、コントローラ、制御システム、制御方法、および制御プログラム |
JP2022071832A (ja) * | 2020-10-28 | 2022-05-16 | キヤノン株式会社 | 振動型アクチュエータの制御装置及びそれを有する振動型駆動装置、交換用レンズ、撮像装置、自動ステージ |
JP2022177433A (ja) * | 2021-05-18 | 2022-12-01 | 株式会社東芝 | 学習装置、学習方法、および学習プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3703821B2 (ja) * | 2003-09-02 | 2005-10-05 | 株式会社国際電気通信基礎技術研究所 | 並列学習装置、並列学習方法及び並列学習プログラム |
US9507367B2 (en) * | 2012-04-09 | 2016-11-29 | Clemson University | Method and system for dynamic stochastic optimal electric power flow control |
US20170061283A1 (en) * | 2015-08-26 | 2017-03-02 | Applied Brain Research Inc. | Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments |
-
2016
- 2016-12-27 JP JP2016252822A patent/JP6744208B2/ja active Active
-
2017
- 2017-12-26 US US15/854,395 patent/US20180181089A1/en not_active Abandoned
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020065808A1 (ja) * | 2018-09-27 | 2020-04-02 | 日本電気株式会社 | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
JP7192870B2 (ja) | 2018-09-27 | 2022-12-20 | 日本電気株式会社 | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラム |
JPWO2020065808A1 (ja) * | 2018-09-27 | 2021-08-30 | 日本電気株式会社 | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラム |
JP7097006B2 (ja) | 2018-12-05 | 2022-07-07 | オムロン株式会社 | センサシステム |
JP2020091653A (ja) * | 2018-12-05 | 2020-06-11 | オムロン株式会社 | センサシステム |
JP2020091615A (ja) * | 2018-12-05 | 2020-06-11 | 株式会社日立製作所 | 強化学習支援装置、保守計画立案装置、及び強化学習支援方法 |
JP7141320B2 (ja) | 2018-12-05 | 2022-09-22 | 株式会社日立製作所 | 強化学習支援装置、保守計画立案装置、及び強化学習支援方法 |
JPWO2021064767A1 (ja) * | 2019-09-30 | 2021-04-08 | ||
WO2021064767A1 (ja) * | 2019-09-30 | 2021-04-08 | 日本電気株式会社 | 制御装置、方法及びシステム |
JP7251646B2 (ja) | 2019-09-30 | 2023-04-04 | 日本電気株式会社 | 制御装置、方法及びシステム |
JP7342600B2 (ja) | 2019-10-16 | 2023-09-12 | 株式会社アイシン | 移動制御モデル生成装置、移動制御モデル生成方法、移動制御モデル生成プログラム、移動体制御装置、移動体制御方法、および移動体制御プログラム |
WO2021245720A1 (ja) * | 2020-06-01 | 2021-12-09 | 日本電気株式会社 | プランナー装置、プランニング方法、プランニングプログラム記録媒体、学習装置、学習方法および学習プログラム記録媒体 |
JP7380874B2 (ja) | 2020-06-01 | 2023-11-15 | 日本電気株式会社 | プランナー装置、プランニング方法、プランニングプログラム記録媒体、学習装置、学習方法および学習プログラム記録媒体 |
EP4249179A1 (en) | 2022-03-22 | 2023-09-27 | Yokogawa Electric Corporation | Model verification apparatus, model verification method, and model verification program |
Also Published As
Publication number | Publication date |
---|---|
JP6744208B2 (ja) | 2020-08-19 |
US20180181089A1 (en) | 2018-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6744208B2 (ja) | 制御装置及び制御方法 | |
Everett et al. | Collision avoidance in pedestrian-rich environments with deep reinforcement learning | |
Rajeswaran et al. | Towards generalization and simplicity in continuous control | |
Pinto et al. | Asymmetric actor critic for image-based robot learning | |
Pfeiffer et al. | Reinforced imitation: Sample efficient deep reinforcement learning for mapless navigation by leveraging prior demonstrations | |
US11253999B2 (en) | Machine learning device, robot control device and robot vision system using machine learning device, and machine learning method | |
Mamakoukas et al. | Local Koopman operators for data-driven control of robotic systems | |
JP6240689B2 (ja) | 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 | |
US20180079076A1 (en) | Machine learning device, robot system, and machine learning method for learning operation program of robot | |
Tian et al. | An effective robot trajectory planning method using a genetic algorithm | |
JP2019162712A (ja) | 制御装置、機械学習装置及びシステム | |
JP2009288934A (ja) | データ処理装置、データ処理方法、及びプログラム | |
CN110941272A (zh) | 自动驾驶控制方法和设备 | |
JP6203808B2 (ja) | ファンモータの清掃間隔を学習する機械学習器、モータ制御システムおよび機械学習方法 | |
JP6911798B2 (ja) | ロボットの動作制御装置 | |
Passalis et al. | Deep reinforcement learning for controlling frontal person close-up shooting | |
JP7295421B2 (ja) | 制御装置及び制御方法 | |
CN113821041B (zh) | 一种多机器人协同导航与避障的方法 | |
Zhang et al. | Sim2real learning of obstacle avoidance for robotic manipulators in uncertain environments | |
Manh et al. | Autonomous navigation for omnidirectional robot based on deep reinforcement learning | |
CN115880560A (zh) | 经由等渗卷积神经网络的图像处理 | |
JP2005078516A (ja) | 並列学習装置、並列学習方法及び並列学習プログラム | |
Moridian et al. | Learning navigation tasks from demonstration for semi-autonomous remote operation of mobile robots | |
JP6940425B2 (ja) | 制御装置及び機械学習装置 | |
CN116724224A (zh) | 加工面判定装置、加工面判定程序、加工面判定方法、加工系统、推论装置及机器学习装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200714 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6744208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |