JP6706173B2 - 制御装置、制御方法、および制御プログラム - Google Patents
制御装置、制御方法、および制御プログラム Download PDFInfo
- Publication number
- JP6706173B2 JP6706173B2 JP2016156147A JP2016156147A JP6706173B2 JP 6706173 B2 JP6706173 B2 JP 6706173B2 JP 2016156147 A JP2016156147 A JP 2016156147A JP 2016156147 A JP2016156147 A JP 2016156147A JP 6706173 B2 JP6706173 B2 JP 6706173B2
- Authority
- JP
- Japan
- Prior art keywords
- control
- sensor data
- control target
- action
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/1633—Programme controls characterised by the control loop compliant, force, torque control, e.g. combined with position control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/1653—Programme controls characterised by the control loop parameters identification, estimation, stiffness, accuracy, error analysis
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
Description
図1は、制御システム100の構成例を示す説明図である。制御システム100は、行動aにより状態sを得る制御対象101と、動作環境102と、制御装置103と、を有する。本実施例では、例として、動作環境102をブランコ、制御対象101をブランコを漕ぐロボットとする。制御システム100は、動作環境102で行動する制御対象101を観測して報酬rを与えるという一連の動作を繰り返す強化学習を制御対象101に実行する。
←Q(st,at)+α[rt+1+γmaxQ(st+1,a)−Q(st,at)]
図2は、制御システム100のハードウェア構成例を示すブロック図である。制御装置103は、第1プロセッサ211と、第1記憶デバイス212と、入力デバイス213と、出力デバイス214と、第1通信インターフェース(IF)215と、を有する。第1プロセッサ211、第1記憶デバイス212、入力デバイス213、出力デバイス214、および第1通信IF215は、第1バス216に接続される。第1センサデバイス104は、第1通信IF215に接続される。第1プロセッサ211は、制御装置103を制御する。第1記憶デバイス212は、第1プロセッサ211の作業エリアとなる。また、第1記憶デバイス212は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。第1記憶デバイス212としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。
つぎに、図3および図4を用いて、図1に示したテーブル131の記憶内容例を説明する。なお、ここでは、データ構造をテーブル形式で説明するが、テーブルによるデータ構造で表現されていなくてもよく、リスト、データベース、キュー等のデータ構造でもよい。また、テーブルの説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、試行IDフィールド301の値を、試行ID301と表記する。
r2m_1=θ2m_1/θ11_1
となる。
r11_2=θ11_2/θ11_1
となる。
図5は、設定部110および強化学習部120による強化学習処理手順例を示すフローチャートである。図5は、1回の試行における強化学習処理手順例を示す。設定部110は、第1記憶デバイス212からの自動読込またはユーザの手入力により、初期設定を実行する(ステップS501)。初期設定では、たとえば、1回の試行での学習係数α、割引率γ、最大エピソード数、エピソード終了条件、初期報酬、動作環境102に与えるパラメータ、制御対象101に与えるパラメータが設定される。
図6は、報酬生成部130による報酬生成処理手順例を示すフローチャートである。報酬生成部130は、テーブル更新部132により、ステップS503で送信された位相毎のセンサデータおよびステップS508で送信された位相毎の選択行動の情報を取得する(ステップS601)。ステップS503で送信されたセンサデータには1周期の振り角およびロボットの位相毎の膝角度計測値が含まれる。具体的には、たとえば、報酬生成部130は、テーブル更新部132により、入出力データテーブル300の現在の試行ID301における現在のエピソードID302のエントリにおいて、取得した1周期の振り角を振り角フィールド303に格納し、位相毎の膝角度計測値を膝角度計測値フィールド304に格納する。また、報酬生成部130は、テーブル更新部132により、試行状態管理テーブル400の現在の試行ID301における現在のエピソードID302のエントリにおいて、位相毎の選択行動の情報(「0」(漕)または「1」(立))を選択漕ぎ動作フィールド404に格納する。
図7は、調整部140によるデータ範囲調整処理手順例を示すフローチャートである。調整部140は、第1センサデバイス104での外乱の検出を待ち受ける(ステップS701:No)。外乱が検出された場合(ステップS701:Yes)、調整部140は、外乱検出回数をインクリメントすることで更新する(ステップS702)。つぎに、調整部140は、外乱検出回数が上限しきい値以上であるか否かを判断する(ステップS703)。上限しきい値以上でない場合(ステップS703:No)、ステップS705に移行する。一方、上限しきい値以上である場合(ステップS703:Yes)、調整部140は、最大エピソード数を所定数減少させる指示データを強化学習部120に送信して(ステップS704)、ステップS705に移行する。これにより、強化学習部120は、最大エピソード数を減少させて強化学習を実行することになる。すなわち、ステップS512では、減少後の最大エピソード数が採用される。
101 制御対象
102 動作環境
103 制御装置
104 センサデバイス
110 設定部
120 強化学習部
121 取得部
122 評価値更新部
123 行動選択部
124 制御部
130 報酬生成部
131 テーブル
132 テーブル更新部
133 相関演算部
134 報酬演算部
140 調整部
300 入出力データテーブル
400 試行状態管理テーブル
Claims (6)
- 制御指令値に基づく行動により状態を得る制御対象を制御する制御装置であって、
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、前記制御対象と通信する通信インタフェースと、を有し、
前記プロセッサは、
前記制御対象から前記制御対象の前記状態を示す第1センサデータと前記行動を示す第2センサデータとを取得する取得処理と、
前記取得処理によって取得された第1センサデータと過去の第1センサデータとに基づく第1特徴データと、前記第2センサデータに基づく第2特徴データと、の相関に基づいて、前記制御対象の次の行動が前記制御対象の次の状態を最適化する報酬を生成する生成処理と、
前記制御対象の前記状態を示す第1センサデータと、前記行動を示す第2センサデータと、前記生成処理によって生成された報酬と、に基づいて、行動価値関数により評価値を更新する評価値更新処理と、
前記評価値更新処理による更新前後の評価値を比較することにより、前記制御対象の次の行動を選択する選択処理と、
前記選択処理によって選択された前記制御対象の前記次の行動に応じた制御指令値を前記制御対象に与える制御処理と、
を実行することを特徴とする制御装置。 - 請求項1に記載の制御装置であって、
前記制御対象は移動体であり、前記行動は前記移動体を移動させるために前記移動体に与えられる入力データであり、前記状態は前記移動体が前記行動により前記移動体が移動した場合の前記移動体の動作に関する出力データであることを特徴とする制御装置。 - 請求項1に記載の制御装置であって、
前記制御対象は物品をピッキングするアームを有し、前記行動は前記アームの肘角度に関する情報であり、前記状態は前記アームの先端が前記物品の位置となるように制御する前記アームの動作角度であることを特徴とする制御装置。 - 請求項1に記載の制御装置であって、
前記プロセッサは、前記行動を示す第2センサデータおよび前記状態を示す第1センサデータによる前記制御対象の動作が開始してから収束するまでの動作単位を繰り返し実行し、
前記プロセッサは、
前記制御対象の周囲の外乱を検出する検出処理と、
前記検出処理によって検出された外乱に基づいて、前記動作単位の実行回数を増減するように調整する調整処理と、
を実行することを特徴とする制御装置。 - 制御指令値に基づく行動により状態を得る制御対象を制御する制御装置による制御方法であって、
前記制御装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、前記制御対象と通信する通信インタフェースと、を有し、
前記プロセッサは、
前記制御対象から前記制御対象の前記状態を示す第1センサデータと前記行動を示す第2センサデータとを取得する取得処理と、
前記取得処理によって取得された第1センサデータと過去の第1センサデータとに基づく第1特徴データと、前記第2センサデータに基づく第2特徴データと、の相関に基づいて、前記制御対象の次の行動が前記制御対象の次の状態を最適化する報酬を生成する生成処理と、
前記制御対象の前記状態を示す第1センサデータと、前記行動を示す第2センサデータと、前記生成処理によって生成された報酬と、に基づいて、行動価値関数により評価値を更新する評価値更新処理と、
前記評価値更新処理による更新前後の評価値を比較することにより、前記制御対象の次の行動を選択する選択処理と、
前記選択処理によって選択された前記制御対象の前記次の行動に応じた制御指令値を前記制御対象に与える制御処理と、
を実行することを特徴とする制御方法。 - 制御指令値に基づく行動により状態を得る制御対象を制御するプロセッサに、
前記制御対象から前記制御対象の前記状態を示す第1センサデータと前記行動を示す第2センサデータとを取得する取得処理と、
前記取得処理によって取得された第1センサデータと過去の第1センサデータとに基づく第1特徴データと、前記第2センサデータに基づく第2特徴データと、の相関に基づいて、前記制御対象の次の行動が前記制御対象の次の状態を最適化する報酬を生成する生成処理と、
前記制御対象の前記状態を示す第1センサデータと、前記行動を示す第2センサデータと、前記生成処理によって生成された報酬と、に基づいて、行動価値関数により評価値を更新する評価値更新処理と、
前記評価値更新処理による更新前後の評価値を比較することにより、前記制御対象の次の行動を選択する選択処理と、
前記選択処理によって選択された前記制御対象の前記次の行動に応じた制御指令値を前記制御対象に与える制御処理と、
を実行させることを特徴とする制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016156147A JP6706173B2 (ja) | 2016-08-09 | 2016-08-09 | 制御装置、制御方法、および制御プログラム |
US15/670,175 US10549421B2 (en) | 2016-08-09 | 2017-08-07 | Control device, control method, and non-transitory recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016156147A JP6706173B2 (ja) | 2016-08-09 | 2016-08-09 | 制御装置、制御方法、および制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018024036A JP2018024036A (ja) | 2018-02-15 |
JP6706173B2 true JP6706173B2 (ja) | 2020-06-03 |
Family
ID=61160753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016156147A Active JP6706173B2 (ja) | 2016-08-09 | 2016-08-09 | 制御装置、制御方法、および制御プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10549421B2 (ja) |
JP (1) | JP6706173B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6811688B2 (ja) * | 2017-06-30 | 2021-01-13 | 株式会社日立製作所 | 複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置 |
JP7225923B2 (ja) * | 2019-03-04 | 2023-02-21 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習システム |
JP7379833B2 (ja) | 2019-03-04 | 2023-11-15 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習システム |
JP7128152B2 (ja) * | 2019-06-14 | 2022-08-30 | 株式会社東芝 | 学習方法及びプログラム |
KR102169876B1 (ko) * | 2020-05-22 | 2020-10-27 | 주식회사 애자일소다 | 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003340760A (ja) | 2002-05-20 | 2003-12-02 | Sony Corp | ロボット装置およびロボット制御方法、記録媒体、並びにプログラム |
JP4746349B2 (ja) * | 2005-05-18 | 2011-08-10 | 日本電信電話株式会社 | ロボット行動選択装置及びロボット行動選択方法 |
JP6285849B2 (ja) * | 2014-11-17 | 2018-02-28 | 日本電信電話株式会社 | 行動制御システム、その方法及びプログラム |
WO2016103308A1 (ja) * | 2014-12-26 | 2016-06-30 | 川崎重工業株式会社 | ロボットシステム |
DE102016009030B4 (de) * | 2015-07-31 | 2019-05-09 | Fanuc Corporation | Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs |
JP6549545B2 (ja) * | 2016-10-11 | 2019-07-24 | ファナック株式会社 | 人の行動を学習してロボットを制御する制御装置およびロボットシステム |
-
2016
- 2016-08-09 JP JP2016156147A patent/JP6706173B2/ja active Active
-
2017
- 2017-08-07 US US15/670,175 patent/US10549421B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20180043531A1 (en) | 2018-02-15 |
US10549421B2 (en) | 2020-02-04 |
JP2018024036A (ja) | 2018-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6706173B2 (ja) | 制御装置、制御方法、および制御プログラム | |
US9434430B2 (en) | Biped walking robot control method and biped walking robot control system | |
CN109541961B (zh) | 针对电力电子混杂系统仿真的离散状态事件驱动仿真方法 | |
US11235461B2 (en) | Controller and machine learning device | |
JP6219182B2 (ja) | 入力装置 | |
CN103946672B (zh) | 物理量传感器或其装置的输出值修正方法及装置 | |
JP2016538006A5 (ja) | ||
US20120185099A1 (en) | Telematic interface with control signal scaling based on force sensor feedback | |
JP2011003186A5 (ja) | ||
JP2010534881A5 (ja) | ||
JP2010515516A (ja) | アンドゥ/リドゥ機構を提供する方法及び装置 | |
JP2016527628A5 (ja) | ||
JP6811465B2 (ja) | 学習装置、学習方法、学習プログラム、自動制御装置、自動制御方法および自動制御プログラム | |
JP2007128318A (ja) | 状態推定方法、状態推定装置、状態推定システム及びコンピュータプログラム | |
CN104048777A (zh) | 用于ntc型热敏电阻的温度与电阻值转换方法 | |
JP2021501433A (ja) | ターゲットシステム用制御システムの生成 | |
JP7417390B2 (ja) | 物体移動装置、工作機械、情報処理装置、情報処理方法および情報処理プログラム | |
JP2017502390A (ja) | データに基づく関数モデルを定めるための方法及び装置 | |
US20210387343A1 (en) | Information processing device and information processing method | |
JPWO2017222070A1 (ja) | 作業分析装置、作業分析方法、及びプログラム | |
JP2014214566A5 (ja) | ショベルの処理装置及び作業内容判定方法 | |
JP6410693B2 (ja) | 入力装置とその制御方法及びプログラム | |
WO2020121494A1 (ja) | 演算装置、アクション決定方法、及び制御プログラムを格納する非一時的なコンピュータ可読媒体 | |
CN111151000A (zh) | 操作杆调整方法、装置、设备和存储介质 | |
CN109434840A (zh) | 一种基于样条曲线的机器人自由路径生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200303 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200515 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6706173 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |