JP4408252B2 - Control device and program - Google Patents
Control device and program Download PDFInfo
- Publication number
- JP4408252B2 JP4408252B2 JP2004267307A JP2004267307A JP4408252B2 JP 4408252 B2 JP4408252 B2 JP 4408252B2 JP 2004267307 A JP2004267307 A JP 2004267307A JP 2004267307 A JP2004267307 A JP 2004267307A JP 4408252 B2 JP4408252 B2 JP 4408252B2
- Authority
- JP
- Japan
- Prior art keywords
- control
- unit
- type
- acquired
- type parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Numerical Control (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Description
ロボット等の多自由度システムを制御する制御装置およびプログラム等に関するものである。 The present invention relates to a control device and a program for controlling a multi-degree-of-freedom system such as a robot.
第一の従来技術として以下の制御装置がある。本制御装置は、2足歩行ロボットを制御する制御装置であり、自律的な適応制御法である強化学習により、2足歩行ロボットシミュレータの制御則を獲得し、好適に2足歩行ロボットを制御できる制御装置である。本制御装置は、強化学習を行う学習部と制御を行う制御部を具備し、当該制御部である神経振動子ネットワークは高次元の状態変数を持ち、2足歩行ロボットシミュレータも高次元の状態変数を持つ。この際に、制御部は、2足歩行ロボットシミュレータの状態のみならず、神経振動子ネットワークの内部状態を観測できるようにすることで、適切な制御を可能にしている(非特許文献1参照)。 As a first conventional technique, there is the following control device. This control device is a control device that controls a biped walking robot, and can acquire a control law of a biped walking robot simulator and preferably control a biped walking robot by reinforcement learning that is an autonomous adaptive control method. It is a control device. The control apparatus includes a learning unit that performs reinforcement learning and a control unit that performs control. The neural oscillator network that is the control unit has a high-dimensional state variable, and the biped walking robot simulator also has a high-dimensional state variable. have. At this time, the control unit enables appropriate control by observing not only the state of the biped walking robot simulator but also the internal state of the neural oscillator network (see Non-Patent Document 1). .
また、第二の従来技術として以下の制御装置がある。本制御装置は、非特許文献1と同様に、学習を行う学習部と制御を行う制御部を具備する。そして、本制御装置によってヘビ型ロボットの制御を行っているが、非制御対象の状態空間が非常に大きい。さらに、制御装置における経由点の集合の探索は、遺伝的アルゴリズムを用いた一種のランダム探索によるものである(非特許文献2参照)。
As a second conventional technique, there is the following control device. Similar to Non-Patent
さらに、関連する従来技術として、以下の学習アルゴリズムを有する制御装置がある(非特許文献3参照)。かかる制御装置は、Actor−Criticアルゴリズムといわれる強化学習の一種のアルゴリズムを用いている。
しかしながら、上記の第一の従来技術では、制御部である神経振動子ネットワークは高次元の状態変数を持ち、2足歩行ロボットシミュレータも高次元の状態変数を持ち、両者を共に観測するものとしているため、学習部の次元が非常に大きくなり、その学習は困難であった。また、本制御装置は、高速な学習が困難であり、また学習を行うために多大なCPUパワーを必要とした。 However, in the first prior art described above, the neural oscillator network as a control unit has a high-dimensional state variable, and the biped walking robot simulator also has a high-dimensional state variable, and both are observed together. Therefore, the dimension of the learning unit becomes very large, and the learning is difficult. In addition, this control device is difficult to perform high-speed learning, and requires a large amount of CPU power to perform learning.
また、第二の従来技術では、状態空間の大きさのために、学習部による学習が困難であるという問題があった。すなわち、本制御装置では、経由点の集合の探索は、遺伝的アルゴリズムを用いた一種のランダム探索となっているため、処理効率が悪いという課題があった。 Further, the second conventional technique has a problem that learning by the learning unit is difficult due to the size of the state space. That is, in this control apparatus, since the search for the set of via points is a kind of random search using a genetic algorithm, there is a problem that processing efficiency is poor.
本第一の発明の制御装置は、制御対象の装置である被制御装置の状態を観測し、2以上の第一種パラメータを取得する観測部と、前記観測部が取得した2以上の第一種パラメータに基づいて、当該第一種パラメータより少ない数の第二種パラメータを取得する特徴抽出部と、前記特徴抽出部が取得した1以上の第二種パラメータに基づいて、前記被制御装置を制御する制御部を具備する制御装置である。 The control device according to the first aspect of the invention observes the state of the controlled device that is the device to be controlled and acquires two or more first-type parameters, and the two or more first acquired by the observation unit. Based on the seed parameter, the feature extraction unit that acquires a smaller number of second type parameters than the first type parameter, and the controlled device based on one or more second type parameters acquired by the feature extraction unit It is a control apparatus provided with the control part to control.
本第二の発明の制御装置は、第一の発明の制御装置において、前記特徴抽出部は、前記観測部が取得した2以上の第一種パラメータに基づいて2以上の第二種パラメータを取得する変換手段と、前記変換手段が取得した2以上の第二種パラメータから1以上の第二種パラメータを選択する選択手段を具備する。
かかる構成により、制御装置は観測した多数のパラメータを圧縮して、高速に被制御装置に対する制御を行う、あるいはそのための制御則を学習できる。
The control device according to the second invention is the control device according to the first invention, wherein the feature extraction unit acquires two or more second-type parameters based on the two or more first-type parameters acquired by the observation unit. And a selecting means for selecting one or more second type parameters from the two or more second type parameters acquired by the converting means.
With such a configuration, the control device compresses a large number of observed parameters, and can control the controlled device at high speed or learn a control rule for that purpose.
本第三の発明の制御装置は、第二の発明の制御装置において、前記第二種パラメータが可変な変数を有し、前記変換手段は、前記第二種パラメータが有する変数を、前記制御部の制御結果または/および前記制御部の内部状態に応じて変更する。
かかる構成により、第二の発明の制御装置よりもさらに精度良く、好適な制御が可能となる。
The control device according to the third aspect of the invention is the control device according to the second aspect of the invention, wherein the second type parameter has a variable variable, and the conversion means converts the variable of the second type parameter into the control unit. The control result is changed according to the control result or / and the internal state of the control unit.
With this configuration, suitable control can be performed with higher accuracy than the control device of the second invention.
本第四の発明の制御装置は、第一から第三の発明の制御装置において、前記制御部は、前記特徴抽出部が取得した1以上の第二種パラメータに基づいて、前記被制御装置の被制御についての状況の評価を行い、評価の良し悪しを示す情報を出力する評価手段と、前記評価手段が出力した評価の良し悪しを示す情報に基づいて、前記被制御装置を制御する制御手段を具備する。
かかる制御手段が学習する構成により、さらに好適な制御が可能である。
本第五の発明の制御装置は、第一から第四の発明の制御装置において、前記観測部は、前記被制御装置の状態および前記制御部の内部状態を観測し、2以上の第一種パラメータを取得する。
かかる構成により、さらに好適な制御が可能である。
The control device of the fourth invention is the control device of the first to third inventions, wherein the control unit is configured to control the control device based on one or more second-type parameters acquired by the feature extraction unit. An evaluation unit that evaluates the situation of the controlled object and outputs information indicating whether the evaluation is good or bad, and a control unit that controls the controlled device based on the information indicating whether the evaluation is good or bad. It comprises.
Further suitable control is possible by the configuration learned by such control means.
The control device of the fifth invention is the control device of the first to fourth inventions, wherein the observation unit observes the state of the controlled device and the internal state of the control unit, and two or more first types Get parameters.
With such a configuration, more suitable control is possible.
本第六の発明の制御装置は、第一から第五の発明の制御装置において、前記特徴抽出部が第二種パラメータを取得するための情報である選択情報を受け付ける選択情報受付部をさらに具備し、前記特徴抽出部は、前選択情報受付部が受け付けた選択情報をも用いて、前記第一種パラメータより少ない数の第二種パラメータを取得する。
かかる構成により、外部から好適な特徴抽出の指針となる情報を与えることができ、好適な制御が可能である。
The control device of the sixth invention further comprises a selection information receiving unit that receives selection information that is information for the feature extraction unit to acquire the second type parameter in the control device of the first to fifth inventions. Then, the feature extraction unit also acquires the number of second type parameters that is smaller than the first type parameter using the selection information received by the previous selection information receiving unit.
With such a configuration, it is possible to give information that is a guideline for suitable feature extraction from the outside, and suitable control is possible.
本第七の発明の制御装置は、第二から第五の発明の制御装置において、前記観測部が取得した第一種パラメータまたは/および前記制御部の制御結果を取得し、かかる取得した情報を2以上蓄積する長期観測部をさらに具備し、前記変換手段は、前記長期観測部が蓄積した情報または当該情報に基づいて生成された情報をも用いて、2以上の第二種パラメータを取得する。 The control device of the seventh invention is the control device of the second to fifth inventions, obtains the first type parameter obtained by the observation unit or / and the control result of the control unit, and obtains the obtained information. It further includes a long-term observation unit that accumulates two or more, and the conversion means acquires two or more second-type parameters using information accumulated by the long-term observation unit or information generated based on the information. .
本第八の発明の制御装置は、第二から第五の発明の制御装置において、前記観測部が取得した第一種パラメータまたは/および前記制御部の制御結果を取得し、かかる取得した情報を2以上蓄積する長期観測部をさらに具備し、前記選択手段は、前記長期観測部が蓄積した情報または当該情報に基づいて生成された情報をも用いて、1以上の第二種パラメータを選択する。
かかる構成により、所定時間以上の観測結果を加味した好適な制御が可能である。
なお、上記制御装置の動作は、ソフトウェアとコンピュータ等により実現しても良いことは言うまでもない。
The control device of the eighth aspect of the invention is the control device of the second to fifth aspects of the invention, acquires the first type parameter acquired by the observation unit or / and the control result of the control unit, and obtains the acquired information. The information processing apparatus further includes a long-term observation unit that accumulates two or more, and the selection unit selects one or more second-type parameters using information accumulated by the long-term observation unit or information generated based on the information. .
With such a configuration, it is possible to perform suitable control in consideration of observation results over a predetermined time.
Needless to say, the operation of the control device may be realized by software and a computer.
本発明によれば、ロボット等の多自由度システムの制御が少ない計算量でできる制御装置を提供できる。 According to the present invention, it is possible to provide a control device that can control a multi-degree-of-freedom system such as a robot with a small amount of calculation.
以下、制御装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、制御装置および当該制御装置の制御対象の装置である被制御装置を有する制御システムのブロック図である。制御システムは、制御装置11および被制御装置12を具備する。
制御装置11は、観測部1101、特徴抽出部1102、制御部1103を具備する。また、制御装置11は、被制御装置12の内部に存在するとした構成でも良い。
Hereinafter, embodiments of the control device and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
(Embodiment 1)
FIG. 1 is a block diagram of a control system having a control device and a controlled device that is a control target device of the control device. The control system includes a control device 11 and a controlled
The control device 11 includes an
観測部1101は、制御対象の装置である被制御装置12の状態を観測し、2以上のパラメータを取得する。ここで取得したパラメータを第一種パラメータという。第一種パラメータは、多数である。多数とは、例えば、58以上である。観測部1101は、例えば、モーションキャプチャを用いて実現され得る。具体的には、例えば、被制御装置12がヘビ型ロボットの場合、観測部1101は、当該ヘビ型ロボットに装着されたマーカーと当該マーカーを検出するトラッカーを組み合わせたハードウェアと、当該ハードウェアの出力(たとえば、ヘビ型ロボットの各リンクにおける位置と各関節における角度の情報)を微分処理することで、速度と角加速度を算出するソフトウェア等から実現され得る。
The
特徴抽出部1102は、観測部1101が取得した2以上の第一種パラメータに基づいて、当該第一種パラメータより少ない数のパラメータを取得する。特徴抽出部1102が取得したパラメータを第二種パラメータという。第二種パラメータの数は、好ましくは第一種パラメータの数より十分小さい。具体的には、第一種パラメータの数が、例えば、58以上であるのに対して、第二種パラメータの数は3である。
The
制御部1103は、特徴抽出部1102が取得した1以上の第二種パラメータに基づいて、被制御装置12を制御する。制御とは、例えば、ヘビ型ロボットを前に移動させるように各関節における制御トルクを発生させることである。
The control unit 1103 controls the controlled
特徴抽出部1102、制御部1103は、通常、MPUやメモリ等から実現され得る。特徴抽出部1102、制御部1103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The
なお、被制御装置12は、制御対象の装置であれば何でも良い。被制御装置12は、例えば、ロボットである。ロボットとは、例えば、ヘビ型ロボット、2足歩行制御を必要とするヒューマノイドロボットなどである。また、被制御装置12は、多自由度システムである。
また、第一種パラメータと第二種パラメータは、異なる意味合いを有する異なる種類のパラメータである。通常、各々の第二種パラメータは、2以上の第一種パラメータに基づいて構成されるパラメータである。
以下、本制御システムの動作について説明する。まず、制御装置11の動作について図2のフローチャートを用いて説明する。
The controlled
The first type parameter and the second type parameter are different types of parameters having different meanings. Normally, each second type parameter is a parameter configured based on two or more first type parameters.
Hereinafter, the operation of this control system will be described. First, operation | movement of the control apparatus 11 is demonstrated using the flowchart of FIG.
(ステップS201)観測部1101は、被制御装置12の状態を観測し、2以上の第一種パラメータを取得したか否かを判断する。2以上の第一種パラメータを取得すればステップS202に行き、2以上の第一種パラメータを取得しなければステップS201に戻る。
(Step S201) The
(ステップS202)特徴抽出部1102は、ステップS201で取得した2以上の第一種パラメータに基づいて1以上の第二種パラメータを取得する。ここでの第二種パラメータの数は、ステップS201で観測した第一種パラメータの数より、通常、大幅に減少している。
(ステップS203)制御部1103は、ステップS202で選択した1以上の第二種パラメータに基づいて、被制御装置12を制御するための信号である制御信号を構成する。
(ステップS204)制御部1103は、ステップS203で構成した制御信号を被制御装置12に与え、被制御装置12を制御する。ステップS201に戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における制御システムの具体的な動作について説明する。
(Step S202) The
(Step S203) The control unit 1103 configures a control signal that is a signal for controlling the controlled
(Step S <b> 204) The control unit 1103 gives the control signal configured in step S <b> 203 to the controlled
In the flowchart of FIG. 2, the process is terminated by powering off or a process termination interrupt.
Hereinafter, a specific operation of the control system in the present embodiment will be described.
今、被制御装置12は、例えば、ヘビ型ロボットである。ヘビ型ロボットは、例えば、図3(a)に示すような形態である。ヘビは体軸の接線方向の摩擦が小さく、法線方向の摩擦が大きいことを利用して推進運動を行っている。本ヘビ型ロボットは、かかる条件を満たすように受動車輪のついたリンクを結合したロボットである。さらに具体的には、本ヘビ型ロボットは、両サイドに受動車輪がある箱型のリンクが10個連結したロボットであり、各リンクと受動車輪の重さと大きさを図3(b)に示す。図3(b)において、「link mass」は、リンクの重量、「link length」はリンクの長さ、「link width」はリンクの幅、「link heigth」はリンクの高さ、「wheel mass」は受動車輪の重量、「wheel radius」は受動車輪の半径を示す。つまり、図3(b)において、リンクの重量は「1.0kg」、リンクの長さ、幅、高さは、それぞれ「0.15m」「0.10m」「0.10m」であり、受動車輪の重量は「0.5kg」、受動車輪の半径は「0.07m」である。また、各リンク間の関節はz軸を中心に回転し、回転のためのトルクがかけられるものとする。この各関節にかけ得るトルクによって本ヘビ型ロボットは制御される。
Now, the controlled
また、観測部1101は、上記ヘビ型ロボットの各リンク(ここでは10個)の位置、角度、および角速度の状態変数(パラメータ)を観測する。かかる各リンクの位置、速度、角度、および角速度の状態変数の集合が、2以上の第一種パラメータである。例えば、かかる状態変数の数は58である。i番目のリンクの位置と速度はそれぞれ(Xi,Yi)と(VXi,VYi)で得られる(iは1から10までの整数)。関節の角度は「Kj」、角速度は「Lj」であらわす(jは1から9までの整数)、とする。つまり、第一種パラメータは、(Xi,Yi,VXi,VYi),(Kj,Lj)[iは1から10,jは1から9]である。なお、第一種パラメータの一つである各リンクの位置は、1以上の少数の基準点の座標(重心座標など)と、当該基準点に対する相対的な位置を示す相対座標であっても良い。
かかる場合、特徴抽出部1102は、(Xi,Yi,VXi,VYi),(Kj,Lj)に基づいて、以下の数式1,2の演算を行う。
数式1は、ヘビ型ロボットの向きを示す特徴量(第二種パラメータ)である。数式2は、ヘビ型ロボットのくねり具合を示す特徴量(第二種パラメータ)である。
In such a case, the
数式1において、xiとyiは、それぞれヘビ型ロボットの頭側からi番目のリンクの重心位置のx座標とy座標である。Nはヘビ型ロボットのリンク数を示す。Nは、ここでは、例えば、10である。また,arctanは、逆正接である。
そして、特徴抽出部1102は、(Xi,Yi,VXi,VYi),(Kj,Lj)[iは1から10,jは1から9]から、上記の数式1,2により、例えば、2つの第二種パラメータ(s1,s2)を取得する。そして、特徴抽出部1102は、第二種パラメータ(s1,s2)を制御部1103に渡す。
Then, the
制御部1103は、第二種パラメータ(s1,s2)である制御入力信号に基づいて、被制御装置12を制御する。この制御方法については実施の形態2の中で説明する。具体的には各関節にかける得るトルクを決定し、その決定されたトルクを用いることで被制御装置12は動作する。
The control unit 1103 controls the controlled
以上の具体例によれば、観測部1101が観測した58の第一種パラメータが、特徴抽出部1102で圧縮することにより、2つの第二種パラメータになった。そして、2つの第二種パラメータにより、被制御装置12(ヘビ型ロボット)が制御できる。
According to the above specific example, the 58 first type parameters observed by the
以上、本実施の形態によれば、制御装置は観測した多数のパラメータを圧縮して、高速に被制御装置に対する制御を行う、あるいはそのための制御則を学習できる。かかるパラメータの圧縮は、被制御装置であるヘビ型ロボットなどの運動が、その状態変数全てを用いるものよりもずっと単純であるという性質に着目したことにより実現されたものである。
なお、本実施の形態によれば、被制御装置はヘビ型ロボットであったが、2足歩行制御を必要とするヒューマノイドロボットなど、他の多自由度システムでも良いことはいうまでもない。
As described above, according to the present embodiment, the control device compresses a large number of observed parameters, and can control the controlled device at high speed, or can learn a control law for that purpose. Such parameter compression is realized by paying attention to the property that the motion of a controlled device such as a snake robot is much simpler than that using all of its state variables.
In addition, according to this Embodiment, although the to-be-controlled device was a snake-type robot, it cannot be overemphasized that other multi-degree-of-freedom systems, such as a humanoid robot which requires bipedal walking control, may be sufficient.
また、本実施の形態によれば、特徴抽出部1102が取得した第二種パラメータは、ヘビ型ロボットの向きを示す特徴量と、ヘビ型ロボットのくねり具合を示す特徴量であったが、被制御装置の特性を表すパラメータであれば、他でも良い。第二種パラメータは、制御パラメータであって、必ずしも特定の運動を表現するパラメータではない。
Further, according to the present embodiment, the second type parameters acquired by the
また、本実施の形態において、特徴抽出部1102が第二種パラメータを取得するための情報である選択情報を受け付ける選択情報受付部をさらに具備し、特徴抽出部1102は、選択情報受付部が受け付けた選択情報をも用いて、第一種パラメータより少ない数の第二種パラメータを取得しても良い。ここで、選択情報とは、例えば、上述した数式1、数式2そのもの、あるいはそれらを特定するのに十分な情報である。
In the present embodiment, the
さらに、本実施の形態における制御装置の処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における制御装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、制御対象の装置である被制御装置の状態を観測し、2以上の第一種パラメータを取得する観測ステップと、前記観測ステップで取得した2以上の第一種パラメータに基づいて、当該第一種パラメータより少ない数の第二種パラメータを取得する特徴抽出ステップと、前記特徴抽出ステップで取得した1以上の第二種パラメータに基づいて、前記被制御装置を制御する制御ステップを実行させるためのプログラム、である。
(実施の形態2)
図4は、制御装置および当該制御装置の制御対象の装置である被制御装置を有する制御システムのブロック図である。制御システムは、制御装置41および被制御装置12を具備する。
制御装置41は、観測部4101、特徴抽出部4102、制御部4103、選択情報受付部4104を具備する。
特徴抽出部4102は、変換手段41021、選択手段41022を具備する。制御部4103は、評価手段41031、制御手段41032を具備する。また、制御装置41は、被制御装置12の内部に存在するとした構成でも良い。
Furthermore, the processing of the control device in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded and distributed on a recording medium such as a CD-ROM. This also applies to other embodiments in this specification. Note that the software that implements the control device in the present embodiment is the following program. In other words, this program causes the computer to observe the state of the controlled device that is the device to be controlled, obtains two or more first type parameters, and two or more first type obtained in the observation step. Based on the parameter, a feature extraction step for obtaining a smaller number of second type parameters than the first type parameter, and controlling the controlled device based on one or more second type parameters obtained in the feature extraction step A program for executing a control step.
(Embodiment 2)
FIG. 4 is a block diagram of a control system including a control device and a controlled device that is a device to be controlled by the control device. The control system includes a
The
The
観測部4101は、制御対象の装置である被制御装置12の状態、および制御部4103の内部状態を観測し、2以上のパラメータを取得する。ここで取得したパラメータを第一種パラメータという。第一種パラメータは、多数である。多数とは、例えば、2400以上である。また、制御部4103の内部状態とは、例えば、神経振動子ネットワークの状態変数である。神経振動子ネットワークについては後述する。観測部4101は、例えば、モーションキャプチャ等を用いて実現され得る。具体的には、例えば、被制御装置12がヘビ型ロボットの場合、観測部4101は当該ヘビ型ロボットに装着されたマーカーと当該マーカーを検出するトラッカーを組み合わせたハードウェア、当該ハードウェアの出力(たとえば、ヘビ型ロボットの各リンクにおける位置と各関節における角度の情報)を微分処理することで、速度と角加速度を算出するソフトウェア、および制御部4103の内部状態を取得するオシロスコープなどのハードウェア等から実現され得る。
特徴抽出部4102は、観測部1101が取得した2以上の第一種パラメータに基づいて、当該第一種パラメータより少ない数の第二種パラメータを取得する。
The
The
変換手段41021は、観測部1101が取得した2以上の第一種パラメータに基づいて2以上の第二種パラメータを取得する。2以上の第一種パラメータに基づいて2以上の第二種パラメータを取得する具体的な方法については後述する。
The
選択手段41022は、変換手段11021が取得した2以上の第二種パラメータから1以上の第二種パラメータを選択する。選択手段41022は、変換手段41021が取得した1以上の第二種パラメータを全て選択しても良い。かかる場合、選択手段41022は、何ら処理を行わない。
制御部4103は、特徴抽出部4102が取得した1以上の第二種パラメータに基づいて、被制御装置12を制御する。
The
The
評価手段41031は、特徴抽出部4102が取得した1以上の第二種パラメータに基づいて、被制御装置12の被制御についての状況の評価を行い、当該評価の良し悪しを示す情報(かかる値を適宜「出力値」という)を出力する。被制御装置12の被制御についての状況とは、被制御装置12が制御された後の結果でも良いし、被制御装置12に与えられる制御信号等でも良い。評価の良し悪しを示す情報とは、例えば、評価が良いことを示す情報「1」、評価が悪いことを示す情報「0」のどちらかの値を採り得るフラグ、あるいは評価が最も良い時に最大値、最も悪い時に最小値、その間は程度に応じて中間値を取り得るものである。さらに具体的には、ヘビ型ロボットをx軸方向に推進運動をさせる場合、以下の出力値(r)で設定できる。出力値(r)を算出するための数式を数式3に示す。
数式4において、Km,Ks,St,Kdはそれぞれ筋力に対するゲイン、剛性に対するゲイン、ヘビの硬さ、角速度の差に対するゲインであり,あらかじめ決められた定数である。また、Pj,Qjはそれぞれj番目のリンクの角度、リンクの角速度である。リンクの角速度(Qj)は、リンクの角度(Pj)を微分したものである。 In Equation 4, K m , K s , S t , and K d are gains for muscle force, gains for stiffness, snake hardness, gains for differences in angular velocity, and are predetermined constants. P j and Q j are the j-th link angle and the link angular velocity, respectively. The angular velocity (Q j ) of the link is obtained by differentiating the link angle (P j ).
制御手段41032は、評価手段41031が出力した評価の良し悪しを示す情報に基づいて、被制御装置12を制御する。また、制御手段41032は、かかる制御のために、選択手段41022が選択した第二種パラメータと評価手段41031が出力した評価である出力値に基づいて、制御信号を構成するための制御規則を変更(学習)する。そして、制御手段41032は、かかる学習した制御規則に基づき制御信号を構成する。被制御装置12がヘビ型ロボットの場合、制御手段41032は、例えば、所定の回数内(例えば、100回内)で上記のrで与えられるような出力値の和が大きくなった際のヘビ型ロボットの形状を示す特徴量(第二種パラメータ)を蓄積しておき、その形状になるようにヘビ型ロボットを制御する。
The control unit 41032 controls the controlled
選択情報受付部4104は、特徴抽出部4102が第二種パラメータを取得するための情報である選択情報を受け付ける。選択情報とは、ヘビ型ロボットの向きを示す特徴量(第二種パラメータ)を算出するための数式(上記数式1)や、ヘビ型ロボットのくねり具合を示す特徴量(第二種パラメータ)を算出するための数式(上記数式2)等、あるいはそれらを特定するのに十分な情報である。選択情報の入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。選択情報受付部4104は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
The selection
特徴抽出部4102、制御部4103、変換手段41021、選択手段41022、評価手段41031、制御手段41032は、通常、MPUやメモリ等から実現され得る。特徴抽出部4102等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
以下、本制御システムを構成する制御装置41の動作について図5のフローチャートを用いて説明する。
The
Hereinafter, the operation of the
(ステップS501)観測部1101は、被制御装置12の状態を観測し、2以上の第一種パラメータを取得したか否かを判断する。2以上の第一種パラメータを取得すればステップS502に行き、2以上の第一種パラメータを取得しなければステップS501に戻る。
(Step S501) The
(ステップS502)特徴抽出部4102の変換手段41021は、ステップS501で取得した2以上の第一種パラメータに基づいて2以上の第二種パラメータを取得する。ここで、第二種パラメータの数は、第一種パラメータの数より多くても良いし、同じでも良い。
(Step S502) The
(ステップS503)特徴抽出部4102の選択手段41022は、ステップS502で取得した2以上の第二種パラメータから1以上の第二種パラメータを選択する。ここで選択された第二種パラメータの数は、第一種パラメータの数より、大幅に減少していることが好適である。例えば、第一種パラメータの数が2400以上であり、選択された第二種パラメータの数が3であることは好適である。
(ステップS504)制御手段41032は、ステップS503で選択された第二種パラメータに基づいて、制御信号を構成する。具体的な制御信号の構成方法については後述する。
(ステップS505)制御手段41032は、ステップS504で構成した制御信号を被制御装置12に与え、被制御装置12を制御する。
(Step S503) The
(Step S504) The control means 41032 constitutes a control signal based on the second type parameter selected in step S503. A specific method for configuring the control signal will be described later.
(Step S <b> 505) The control unit 41032 gives the control signal configured in step S <b> 504 to the controlled
(ステップS506)評価手段41031はステップS503で選択された第二種パラメータ(または、それに加えて制御手段41032の出力する制御信号)に基づいて、制御手段41032による制御規則に対する評価を出力する。
(ステップS507)制御手段41032は、ステップS503で選択された第二種パラメータとステップS506で評価手段41031が出力した評価に基づいて、制御信号を構成するための制御規則を変更(学習)する。ステップS501に戻る。なお、ステップS507において、制御手段41032は、第二種パラメータを直接的に使用せず、評価手段41031が出力した評価に基づいて、制御信号を構成するための制御規則を変更(学習)しても良い。
(Step S506) The
(Step S507) The control unit 41032 changes (learns) a control rule for forming a control signal based on the second type parameter selected in step S503 and the evaluation output by the
なお、図5のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。また、評価手段41031と制御手段41032は、非特許文献3に記述されるアルゴリズムなどによって学習可能である。
以下、本実施の形態における制御システムの具体的な動作について説明する。今、被制御装置12は、例えば、図3に示すヘビ型ロボットである。
In the flowchart of FIG. 5, the process ends when the power is turned off or the process ends. Further, the
Hereinafter, a specific operation of the control system in the present embodiment will be described. Now, the controlled
また、観測部4101は、上記ヘビ型ロボットの各リンク(ここでは10個)の位置、速度、角度、角速度の状態変数、および神経振動子ネットワークの状態変数を観測する。神経振動子ネットワークの状態変数は、制御部4103の内部状態であり、観測部4101が観測する第一種パラメータであり、その数は2400以上となる。
The
制御部4103は、ここでは、脊髄をモデル化したもので、ニューロン素子がネットワーク状に結合した神経振動子ネットワークによって実装される。神経振動子ネットワークは例えば、図6に示すように、左右のMN,EIN,LINとCCINの4種類の素子で構成された神経節が図7に示すように100個繋がったものである。
また、各素子は、例えば、以下の数式5により、時間発展を行う。
In addition, each element performs time development by, for example, Equation 5 below.
ここで,C1,C2,C3,C4,C5,w0とwiはあらかじめ決められた定数で、Ψ+とΨ‐はそれぞれ結合している素子のインデックスの集合を示す。max(x1,x2)はx1とx2の大きい方を出力する関数である。上記の微分方程式をコンピュータ上で時刻tについて数値積分を行うことで素子の動作をシミュレートできる。あるいは上記の微分方程式に従うアナログハードウェアを用いても良い。DTは数値積分の刻み幅である。vは素子の出力である。(I,I+,I−)を内部状態変数と呼び,コンピュータ上で実装する場合には,数式6のように更新(数値積分)される。
方策は、3つの第二種パラメータ(s1,s2,s3)が与えられたときに、制御信号(u)が出力される確率Pとして与えられるが,他の例としては,確率Pによるuの期待値などでも良い。具体的には、Pの例としては、(s1,s2,s3)から決まる平均値と、パラメータθ0で与えられる分散を持つ正規分布が用いられる。 The policy is given as the probability P that the control signal (u) is output when the three second-type parameters (s1, s2, s3) are given. Expected values may be used. Specifically, as an example of P, a normal distribution having an average value determined from (s1, s2, s3) and a variance given by the parameter θ0 is used.
また、制御部4103が出力する制御信号は、神経節の左右の各々に存在する運動ニューロン(NML,MNR)の出力(図7参照)である。この制御信号がヘビ型ロボット(被制御装置12)の各関節のトルクとして与えられ、ヘビ型ロボットの体を屈曲させる。そして、ここでは、10個のリンクが繋がったものとして、被制御装置12がモデル化されており、i番目の関節に加わるトルクは10iセグメントの運動ニューロンの出力により数式8により算出される。
数式8において、Km,Ks,St,Kdはそれぞれ筋力に対するゲイン、剛性に対するゲイン、ヘビの硬さ、角速度の差に対するゲインであり,あらかじめ決められた定数である。また、Pi,Qiはそれぞれi番目のリンクの角度、リンクの角速度である。リンクの角速度(Qi)は、リンクの角度(Pi)を微分したものである。 In Equation 8, K m , K s , S t , and K d are gain for muscle strength, gain for stiffness, snake hardness, gain for angular velocity difference, and are predetermined constants. P i and Q i are the angle of the i-th link and the angular velocity of the link, respectively. The angular velocity (Q i ) of the link is obtained by differentiating the link angle (P i ).
また、制御部4103は、脳幹からの信号をモデル化した上述のトニック入力により制御されており、左右のニューロンに同じ大きさの入力を与えると、その入力の大きさによって運動ニューロンの出力(制御信号)が変化する。当該変化した制御信号をヘビ型ロボット(被制御装置12)に、例えば数式8により与えることにより、ヘビ型ロボットの体の形状が変わる。一方、左右のニューロンに異なる大きさの入力を与えると、左右の運動ニューロンに出力の差が生まれる。かかる出力の差をヘビ型ロボット(被制御装置12)に与えることにより、当該差に従って、ヘビ型ロボットの形状変化を通じて進行方向が変化する。
以下、観測部4101が第一種パラメータを取得した後、ヘビ型ロボットに与える制御信号を構成するまでの処理を詳細に説明する。
The
Hereinafter, the processing until the control signal to be given to the snake robot after the
まず、変換手段41021は、観測部4101が観測した2400以上の第一種パラメータを以下のように変換し、第二種パラメータを取得する。ここでの第二種パラメータは、例えば、第一種パラメータの数と同数である、とする。ここでの、第二種パラメータは、例えば、少なくともヘビ型ロボットの向きを示す特徴量、ヘビのくねり具合いを示す特徴量、神経振動子ネットワークの状態を示す特徴量を有する。具体的には,数式4から数式6までの特徴量を含むものとする。
First, the conversion means 41021 converts 2400 or more first-type parameters observed by the
次に、選択手段41022は、変換手段41021が取得した第二種パラメータから、以下の3つの第二種パラメータを選択する。3つの第二種パラメータとは、ヘビ型ロボットの向きを示す特徴量、ヘビのくねり具合いを示す特徴量、神経振動子ネットワークの状態を示す特徴量である。これらの第二種パラメータは、例えば設計者の先見的な知識(かかる知識は、通常、選択手段41022が保持している)により選択されるが,それ以外の各種手段によるものでも良い。
Next, selection means 41022 is the second type
ここで、ヘビ型ロボットの向きを示す特徴量s1(第二種パラメータ)は数式9で算出される。ヘビ型ロボットのくねり具合を示す特徴量s2(第二種パラメータ)は数式10で算出される。神経振動子ネットワークの状態を示す特徴量s3(第二種パラメータ)は数式11で算出される。
数式9において、xiとyiは、それぞれヘビ型ロボットの頭側からi番目のリンクの重心位置のx座標とy座標である。Nはヘビ型ロボットのリンク数を示す。Nは、ここでは、例えば、10である。また,arctanは、逆正接である。
選択手段41022は、3つの第二種パラメータ(s1,s2,s3)を選択し、当該3つの第二種パラメータを制御手段41032および評価手段41031に渡す。
In Equation 9, xi and yi are the x-coordinate and y-coordinate of the centroid position of the i-th link from the head side of the snake robot. N indicates the number of links of the snake robot. N is 10 here, for example. Arctan is an arc tangent.
次に、制御手段41032は、3つの第二種パラメータ(s1,s2,s3)を受け取り、方策に従い制御信号を出力する。方策は、3つの第二種パラメータ(s1,s2,s3)が与えられたときに、以下の数式12によって定義される。
方策は、3つの第二種パラメータ(s1,s2,s3)が与えられたときに、制御信号(u)が出力される確率Pとして与えられるが,他の例としては,確率Pによるuの期待値などでも良い。具体的には、Pの例としては、(s1,s2,s3)から決まる平均値と、パラメータθ0で与えられる分散を持つ正規分布が用いられる。また、以下の数式13は制御信号uが(Ur,Ul)の2次元ベクトルで与えられる場合の平均値の計算例である。
また、評価手段41031は、3つの第二種パラメータ(s1,s2,s3)を受け取り、システムの状態の良さを第二種パラメータ(s1,s2,s3)に基づいて計算する。そして、評価手段41031がこの計算を行うための関数は,状態価値関数という。状態価値関数とは、例えば、公知技術である強化学習法でよく用いられるTD(λ)アルゴリズムを用いて獲得される関数である。評価手段41031は、状態価値関数に第二種パラメータ(s1,s2,s3)を代入して、出力値を得る。
例えば,出力値Vは、数式14のように計算される。
For example, the output value V is calculated as in Expression 14.
そして、制御手段41032は、評価手段41031の出力値に基づき、方策パラメータの学習を行う。つまり、制御手段41032は、評価手段41031の出力値に基づき、ヘビ型ロボットがスムーズに進むように方策パラメータを決定し、制御信号を構成する。方策パラメータの学習の処理について、図8、図9に示すフローチャートを用いて説明する。
なお、図8、図9で説明する方策パラメータの学習は、制御と学習の手順である。そして、学習の例として,非特許文献3に記述されるアルゴリズムに基づいた学習を行う。
Then, the control unit 41032 learns the policy parameter based on the output value of the
The policy parameter learning described with reference to FIGS. 8 and 9 is a control and learning procedure. As an example of learning, learning based on an algorithm described in Non-Patent Document 3 is performed.
(ステップS801)初期化を行う。初期化とは、以下の処理である。つまり、制御手段41032と評価手段41031のパラメータθi(方策パラメータ)とdiの初期値を決める。それらのパラメータ学習のための補助パラメータΘiとDiを0に設定する。また,tを0に設定する。
(ステップS802)観測部4101が被制御装置12と制御部4103を観測し、第一種パラメータX(t)を出力する。
(Step S801) Initialization is performed. Initialization is the following process. That is, the initial values of the parameters θi (policy parameters) and di of the control means 41032 and the evaluation means 41031 are determined. The auxiliary parameters Θi and Di for learning these parameters are set to zero. Also, t is set to 0.
(Step S802) The
(ステップS803)特徴抽出部4102が第一種パラメータX(t)を取得し,変換手段41021により第二種パラメータに変換し,選択手段41022によりs1(t),s2(t),s3(t)を選択し,制御部4103に出力する。同時に制御部4103が数式3で計算されるr(t)を取得する。なお、r(t)とは、時刻tにおけるrである。
(ステップS804)制御手段41032は、s1(t),s2(t),s3(t)を取得し,制御信号を生成する。
(ステップS805)制御部4103の学習サブルーチン(図9により説明する)を実行する。
(ステップS806)被制御装置12がステップS804で生成された制御信号により制御される。
(ステップS807)t=t+1として,ステップS802に戻る。
なお、図8のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、図9のフローチャートを用いて、制御部4103の学習サブルーチンについて説明する。
(ステップS901)時刻tが0であるか否かを判断する。0でなければステップS902に行き、0であれば上位関数にリターンする。
(Step S803) The
(Step S804) The control means 41032 acquires s1 (t), s2 (t), and s3 (t), and generates a control signal.
(Step S805) The learning subroutine (described with reference to FIG. 9) of the
(Step S806) The controlled
(Step S807) As t = t + 1, the process returns to Step S802.
In the flowchart of FIG. 8, the process ends when the power is turned off or the process is terminated.
Next, a learning subroutine of the
(Step S901) It is determined whether or not time t is zero. If it is not 0, the process goes to step S902, and if it is 0, the process returns to the upper function.
(ステップS902)評価手段41031は時刻t−1の第二種パラメータと時刻tの第二種パラメータを用いて,数式(V(s1,s2,s3))に従い,V(s1(t−1),s2(t−1),s3(t−1))とV(s1(t),s2(t),s3(t))を計算し,さらに時刻t−1における数式3で計算されるr(t−1)を用いてTD誤差を、数式15により計算する。
(ステップS903)評価手段41031は、以下の数式16を計算し、パラメータをdi=di+ηd×δ(t−1)×Diのように更新する。
(ステップS904)制御手段41032は、以下の数式17を計算し、パラメータをθi=θi+ηθ×δ(t−1)×Θiのように更新する。
(Step S903) The
(Step S904) the control unit 41032 calculates the following formula 17, to update the parameters as θi = θi + η θ × δ (t-1) × Θi.
ここで,C6はあらかじめ決められた定数である。また,ε1(t−1)とε2(t−1)はそれぞれ平均0,分散bの正規分布から生成される乱数である(このような乱数を生成するアルゴリズムは公知のものである)このとき,数式20のように計算できる。
上記の制御装置により、ヘビ型ロボットの制御を行った結果を以下に示す。具体的には、時刻5000秒において地面との摩擦係数が変化した場合の実験結果を図10と図11に示す。図10と図11の横軸は時刻を示し、縦軸はそれぞれヘビ型ロボットの向きと、方策パラメータの値(ここでは二つの方策パラメータθ1とθ2)を示している。また、ヘビ型ロボットの向きは目標方向を0としたものである。摩擦係数の変化後、一時的にヘビ型ロボットは大きく方向を変化させるが、その後、方策パラメータの収束と共に進行方向に向いていることが分かる。以上により、本制御装置により、ヘビ型ロボットの目標方向(この場合x軸に平行な方向)への推進運動に対する良好な制御則が獲得できたことが分かる。また,時刻5000秒において環境(ここでは、例えば、摩擦係数)が変化したにもかかわらず,新しい環境に適合する形で制御ができることが分かる。
なお、選択情報受付部4104は、例えば、上述した数式の情報を受け付ける。
The results of controlling the snake robot with the above control device are shown below. Specifically, experimental results when the friction coefficient with the ground changes at
Note that the selection
以上、本実施の形態によれば、制御装置は観測した多数のパラメータを圧縮して、高速に被制御装置に対する制御を行う、あるいはそのための制御則を学習できる。また、被制御装置の状態および制御部の内部状態の両方を観測し、かつ、評価手段は、1以上の第二種パラメータに基づいて、前記被制御装置の被制御についての状況の評価を行い、評価の良し悪しを示す情報(例えば、数式3におけるr)に基づく簡単な値を出力するだけで、制御手段41032は学習し好適な制御が可能である。よって、制御装置に複雑な情報を入力することなく、被制御装置を制御できる。つまり、従来技術による制御装置において、高速に被制御装置に対する制御則を学習しようとする場合は、種々の複雑な情報を制御装置は保持していなければならない。先に述べたように環境が変化する場合については,特に多くの情報が必要になる。一方、従来技術による制御装置において、初期設定が簡易であれば、適切に制御に被制御装置を制御しようとすれば、多数の状態を観測し、その結果、制御に時間がかかる。本実施の形態によれば、初期設定を簡易にしつつ制御速度を速める(CPU負荷を少なくできる)、という特徴がある。これは、観測した多数の第一種パラメータから第二種パラメータにパラメータ変換を行い、かつ制御部における強化学習法(評価の良し悪しを示す情報を出力する評価手段と評価手段が出力した評価の良し悪しを示す情報に基づいて被制御装置を制御する制御手段により実現されている方法)による制御を行うからである。つまり、本実施の形態によれば、設計者が最適な制御規則を設計せずに制御器が適応的に制御規則を発見する状況においても、多自由度システムに対する制御則を高速に学習できる制御装置を提供できる。
As described above, according to the present embodiment, the control device compresses a large number of observed parameters, and can control the controlled device at high speed, or can learn a control law for that purpose. Further, both the state of the controlled device and the internal state of the control unit are observed, and the evaluation means evaluates the status of the controlled device based on the one or more second type parameters. By simply outputting a simple value based on information indicating whether the evaluation is good or bad (for example, r in Formula 3), the control means 41032 can learn and perform suitable control. Therefore, the controlled device can be controlled without inputting complicated information to the control device. That is, in the control device according to the prior art, when trying to learn the control law for the controlled device at high speed, the control device must hold various complicated information. As mentioned earlier, a lot of information is needed when the environment changes. On the other hand, in the control device according to the prior art, if the initial setting is simple, a large number of states are observed if the controlled device is to be controlled appropriately. As a result, control takes time. According to the present embodiment, the control speed is increased (CPU load can be reduced) while simplifying the initial setting. This is because parameter conversion is performed from many observed
なお、本実施の形態によれば、制御部は、上述したように、神経振動子ネットワーク,すなわち複数の素子をネットワーク状に連結し、かつ自己フィードバックを有するネットワーク構造を内在するものであり、前記制御部の内部状態は前記ネットワーク構造を構成する素子の状態である。神経振動子ネットワークを制御部に用いることで、ヒューマノイドロボットの二足歩行やヘビ型ロボットのほふく運動など,周期的運動を基本とする運動を好適に制御することができる。かかることは、他の実施の形態においても同様である。しかし、本発明の主要な技術である第一種パラメータから第二種パラメータへの変換に基づいた特徴抽出は、神経振動子ネットワークを使用するか否かに依存せずに有効に制御学習を加速する。 In addition, according to the present embodiment, as described above, the control unit includes a neural oscillator network, that is, a network structure in which a plurality of elements are connected in a network shape and has self-feedback, The internal state of the control unit is the state of the elements constituting the network structure. By using the neural oscillator network as a control unit, it is possible to suitably control a motion based on a periodic motion, such as a biped walking of a humanoid robot or a cheek motion of a snake robot. The same applies to other embodiments. However, feature extraction based on the conversion from the first type parameter to the second type parameter, which is the main technique of the present invention, effectively accelerates control learning regardless of whether or not a neural oscillator network is used. To do.
さらに、本実施の形態における制御装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、被制御装置の状態および制御部の内部状態を観測し、2以上の第一種パラメータを取得する観測ステップと、前記観測ステップで取得した2以上の第一種パラメータに基づいて、当該第一種パラメータより少ない数の第二種パラメータを取得する特徴抽出ステップと、前記特徴抽出ステップで取得した1以上の第二種パラメータに基づいて、前記被制御装置を制御する制御ステップを実行させるためのプログラムであり、前記特徴抽出ステップは、前記観測ステップで取得した2以上の第一種パラメータに基づいて2以上の第二種パラメータを取得する変換サブステップと、前記変換サブステップで取得した2以上の第二種パラメータから1以上の第二種パラメータを選択する選択サブステップを具備し、前記制御ステップは、前記特徴抽出ステップで取得した1以上の第二種パラメータに基づいて、前記被制御装置の被制御についての状況の評価を行い、評価の良し悪しを示す情報を出力する評価サブステップと、前記評価サブステップで出力した評価の良し悪しを示す情報に基づいて、前記被制御装置を制御する制御サブステップを具備するプログラム、である。
(実施の形態3)
図12は、制御装置および当該制御装置の制御対象の装置である被制御装置を有する制御システムのブロック図である。制御システムは、制御装置121および被制御装置12を具備する。
制御装置121は、観測部4101、特徴抽出部12102、制御部4103、選択情報受付部4104を具備する。特徴抽出部12102は、変換手段121021、選択手段41022を具備する。
Furthermore, the software that implements the control device according to the present embodiment is the following program. In other words, this program causes the computer to observe the state of the controlled device and the internal state of the control unit, obtain two or more first type parameters, and two or more first type obtained in the observation step. Based on the parameter, a feature extraction step for obtaining a smaller number of second type parameters than the first type parameter, and controlling the controlled device based on one or more second type parameters obtained in the feature extraction step A control sub-step for obtaining two or more second-type parameters based on the two or more first-type parameters obtained in the observation step; Selection sub-step for selecting one or more second-type parameters from two or more second-type parameters acquired in the conversion sub-step And the control step evaluates the status of the controlled device based on the one or more second type parameters acquired in the feature extraction step, and outputs information indicating whether the evaluation is good or bad And a control substep for controlling the controlled device based on information indicating whether the evaluation is good or bad and output in the evaluation substep.
(Embodiment 3)
FIG. 12 is a block diagram of a control system including a control device and a controlled device that is a control target device of the control device. The control system includes a
The
変換手段121021は、第二種パラメータが有する変数を、制御部4103の制御結果または/および制御部4103の内部状態に応じて変更する。なお、本実施の形態において、第二種パラメータが可変な変数を有する。変換手段121021は、通常、MPUやメモリ等から実現され得る。変換手段121021の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The
以下、本制御システムにおける制御装置121の動作について説明する。制御装置121の動作は、概ね実施の形態2における制御装置41の動作(図5のフローチャートで説明)と同様である。制御装置121は、制御部4103の制御結果または/および制御部4103の内部状態に応じて第二種パラメータが有する変数を変更する処理が加わる点のみが、制御装置41の動作と異なる。また、かかる第二種パラメータが有する変数を変更する処理は、例えば、ステップS508の次に加わる。なお、第二種パラメータが有する変数を変更する処理は、いかなるタイミングで行っても良い。
以下、本実施の形態における制御システムの具体的な動作について説明する。ここでは、変換手段121021が行う、第二種パラメータが有する変数を変更する処理についてのみ説明する。
まず、変数を有する第二種パラメータ(s2')は、例えば、数式21で示される。
Hereinafter, a specific operation of the control system in the present embodiment will be described. Here, only the process of changing the variable of the second type parameter performed by the
First, the second type parameter (s2 ′) having a variable is expressed by, for example, Equation 21.
また、変換手段121021は、制御部4103の制御結果が良好である場合、例えば、数式3におけるrの一定時間内での和があらかじめ決められた閾値よりも大きい場合には、上記の第二種パラメータの有する変数を固定し、一方、閾値より小さい場合には上記の第二種パラメータの有する変数をランダムに変更する。例えば、数式22のように第二種パラメータの有する変数(αi)を変更する。
具体的には、変換手段121021は、例えば、以下の図13に示すフローチャートにより、第二種パラメータの有する変数(αi)を変更する。
In addition, when the control result of the
Specifically, the
(ステップS1301)選択情報受付部4104は、以下の初期値を受け付ける。具体的には、選択情報受付部4104は、パラメータαi[i=1,...,9]の初期値を受け付ける。また、選択情報受付部4104は、nの値「1」を受け付ける。さたに、選択情報受付部4104は、性能の評価のための閾値F、および学習の終了時間Tを受け付ける。
(Step S1301) The selection
(ステップS1302)制御装置121は、s2の代わりにパラメータαiをもつ第二種パラメータs2'を用いて、実施の形態2の図8、図9における学習アルゴリズムと同様の手順で制御を行う。まず、制御手段41032と評価手段41031のパラメータθi(方策パラメータ)とdiの初期値を決める。それらのパラメータ学習のための補助パラメータΘiとDiを0に設定する。また,tを0に設定する。さらに、Rを0に設定する。なお、Rは、累積報酬を格納する変数(バッファ)である。
(ステップS1303)観測部4101が被制御装置12と制御部4103を観測し、第一種パラメータX(t)を出力する。
(Step S1302) The
(Step S1303) The
(ステップS1304)特徴抽出部12102が第一種パラメータX(t)を取得し,変換手段121021により第二種パラメータに変換し,選択手段41022によりs1(t),s2(t),s3(t)を選択し,制御部4103に出力する。同時に制御部4103が数式3で計算される(r(t))を取得する。そして、R=R+r(t)とする。
(ステップS1305)制御手段41032は、s1(t),s2(t),s3(t)を取得し,制御信号を生成する。
(ステップS1306)制御部4103の学習サブルーチン(図9)を実行する。
(ステップS1307)被制御装置12がステップS1305で生成された制御信号により制御される。
(ステップS1308)変換手段121021は、t=Tであるか否かを判断し、t=Tであれば、ステップS1309に行き、t=TでなければステップS1303に行く。
(ステップS1309)変換手段121021は、n=1であるか否かを判断する。n=1であればステップS1310に行き、n=1でなければステップS1313に行く。
(ステップS1310)変換手段121021は、αmaxi=αi[i=1,...,9]を記録する。
(ステップS1311)変換手段121021は、αiを「αi=αmaxi+Δi」に従い生成する。ここでΔiは乱数を用いて決める。
(ステップS1312)変換手段121021は、nを1、インクリメントする。ステップS1302に戻る。
(ステップS1313)変換手段121021は、R>Fであるか否かを判断する。R>FであればステップS1310に行き、R>FでなければステップS1311に行く。
なお、公知技術である遺伝的アルゴリズムなどの探索手法を用いて,αiの探索を実現しても良い。また,上記の変換手段の変数の変更において実施の形態4で説明する長期観測部を用いる構成とすることもできる。
(Step S1304) The
(Step S1305) The control unit 41032 acquires s1 (t), s2 (t), and s3 (t), and generates a control signal.
(Step S1306) The learning subroutine (FIG. 9) of the
(Step S1307) The controlled
(Step S1308) The
(Step S1309) The conversion means 121021 determines whether or not n = 1. If n = 1, go to step S1310, and if n = 1, go to step S1313.
(Step S1310) The conversion means 121021 records αmaxi = αi [i = 1,..., 9].
(Step S1311) The conversion means 121021 generates αi according to “αi = αmaxi + Δi”. Here, Δi is determined using a random number.
(Step S1312) The conversion means 121021 increments n by 1. The process returns to step S1302.
(Step S1313) The
The search for αi may be realized by using a search technique such as a genetic algorithm which is a known technique. In addition, the long-term observation unit described in the fourth embodiment may be used in changing the variables of the conversion means.
以上、本実施の形態によれば、制御装置は観測した多数のパラメータを圧縮して、高速に被制御装置に対する制御を行う、あるいはそのための制御則を学習できる。また、被制御装置の状態および制御部の内部状態の両方を観測し、かつ、評価手段は、1以上の第二種パラメータに基づいて、前記被制御装置の被制御についての状況の評価を行い、評価の良し悪しを示す情報(例えば、数式3におけるr)に基づく簡単な値を出力するだけで、制御手段41032は学習し好適な制御が可能である。よって、制御装置に複雑な情報を入力することなく、被制御装置を制御できる。つまり、通常、高速に被制御装置に対する制御則を学習しようとする場合は、種々の複雑な情報を制御装置は保持していなければならない。また、本制御装置で扱う第二種パラメータは可変な変数を有し、変換手段は、第二種パラメータが有する変数を、制御部の制御結果または/および制御部の内部状態に応じて変更することができることにより、さらに精度良く、好適な制御が可能となる。さらに、本実施の形態によれば、設計者が最適な制御規則を設計せずに制御器が適応的に制御規則を発見する状況においても、多自由度システムに対する制御則を高速に学習できる制御装置を提供できる。 As described above, according to the present embodiment, the control device compresses a large number of observed parameters, and can control the controlled device at high speed, or can learn a control law for that purpose. Further, both the state of the controlled device and the internal state of the control unit are observed, and the evaluation means evaluates the status of the controlled device based on the one or more second type parameters. By simply outputting a simple value based on information indicating whether the evaluation is good or bad (for example, r in Formula 3), the control means 41032 can learn and perform suitable control. Therefore, the controlled device can be controlled without inputting complicated information to the control device. That is, normally, when trying to learn a control law for a controlled device at high speed, the control device must hold various complex information. Further, the second type parameter handled by this control apparatus has a variable variable, and the conversion means changes the variable of the second type parameter according to the control result of the control unit or / and the internal state of the control unit. This makes it possible to perform suitable control with higher accuracy. Furthermore, according to the present embodiment, even in a situation where a controller adaptively finds a control rule without designing an optimal control rule by a designer, control that can learn a control rule for a multi-degree-of-freedom system at high speed. Equipment can be provided.
なお、本実施の形態における制御装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、制御対象の装置である被制御装置の状態を観測し、2以上の第一種パラメータを取得する観測ステップと、前記観測ステップで取得した2以上の第一種パラメータに基づいて、当該第一種パラメータより少ない数の第二種パラメータを取得する特徴抽出ステップと、前記特徴抽出ステップで取得した1以上の第二種パラメータに基づいて、前記被制御装置を制御する制御ステップを実行させるためのプログラムであり、前記第二種パラメータが可変な変数を有し、前記特徴抽出ステップは、前記観測ステップで取得した2以上の第一種パラメータに基づいて2以上の第二種パラメータを取得し、かつ、前記第二種パラメータが有する変数を、前記制御ステップにおける制御結果または/および制御部の内部状態に応じて変更する変換サブステップと、前記変換サブステップで取得した2以上の第二種パラメータから1以上の第二種パラメータを選択する選択サブステップを具備するプログラムである。
(実施の形態4)
図14は、制御装置および当該制御装置の制御対象の装置である被制御装置を有する制御システムのブロック図である。制御システムは、制御装置141および被制御装置12を具備する。
Note that the software that implements the control device in the present embodiment is the following program. In other words, this program causes the computer to observe the state of the controlled device that is the device to be controlled, obtains two or more first type parameters, and two or more first type obtained in the observation step. Based on the parameter, a feature extraction step for obtaining a smaller number of second type parameters than the first type parameter, and controlling the controlled device based on one or more second type parameters obtained in the feature extraction step The second type parameter has a variable variable, and the feature extraction step includes two or more first type parameters acquired in the observation step. The second type parameter is acquired, and the variable included in the second type parameter is used as a control result or / and a control value in the control step. Parts and converting sub step of changing in response to the internal state of a program having a selection sub-step of selecting one or more second-type parameters from two or more second type parameters acquired by the conversion sub-step.
(Embodiment 4)
FIG. 14 is a block diagram of a control system including a control device and a controlled device that is a device to be controlled by the control device. The control system includes a
制御装置141は、観測部4101、特徴抽出部14102、制御部4103、選択情報受付部4104、長期観測部14105を具備する。特徴抽出部14102は、変換手段141021、選択手段141022を具備する。また、制御装置141は、被制御装置12の内部に存在していても良い。
The
長期観測部14105は、観測部4101が取得した第一種パラメータまたは/および制御部4103の制御結果を取得し、かかる取得した情報を2以上蓄積する。また、長期観測部14105は、かかる蓄積した情報に基づいて、変換手段141021または/および選択手段141022に与える情報を生成し、当該生成した情報を変換手段141021または/および選択手段141022に与える。なお、長期観測部14105が生成した情報は、蓄積した情報と同一の情報でも良い。
The long-
変換手段141021は、観測部4101が取得した2以上の第一種パラメータ、および長期観測部14105が蓄積した情報または当該情報に基づいて生成された情報を用いて、2以上の第二種パラメータを取得する。
The converting
選択手段141022は、変換手段141021が取得した2以上の第二種パラメータから、長期観測部14105が蓄積した情報または当該情報に基づいて生成された情報を用いて、1以上の第二種パラメータを選択する。
The
特徴抽出部14102、長期観測部14105、変換手段141021、および選択手段141022は、通常、MPUやメモリ等から実現され得る。特徴抽出部14102、長期観測部14105、変換手段141021、および選択手段141022の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
以下、本制御システムにおける制御装置141の動作について図15のフローチャートを用いて説明する。
The
Hereinafter, the operation of the
(ステップS1501)観測部1101は、被制御装置12の状態を観測し、2以上の第一種パラメータを取得したか否かを判断する。2以上の第一種パラメータを取得すればステップS1502に行き、2以上の第一種パラメータを取得しなければステップS1501に戻る。
(ステップS1502)特徴抽出部14102の変換手段141021は、長期観測部14105からパラメータ変換に使用する情報を取得する。
(Step S1501) The
(Step S1502) The
(ステップS1503)変換手段141021は、ステップS1501で取得した2以上の第一種パラメータ、およびステップS1502で取得した情報に基づいて1以上の第二種パラメータを取得する。ここで、第二種パラメータの数は、第一種パラメータの数より多くても良いし、同じでも良い。
(ステップS1504)特徴抽出部14102の選択手段141022は、長期観測部14105からパラメータ選択に使用する情報を取得する。
(Step S1503) The
(Step S1504) The
(ステップS1505)選択手段141022は、ステップS1504で取得した情報に基づいて、ステップS1503で取得した1以上の第二種パラメータから1以上の第二種パラメータを選択する。ここで選択された第二種パラメータの数は、第一種パラメータの数より、大幅に減少していることが好適である。例えば、第一種パラメータの数が2400以上であり、選択された第二種パラメータの数が3であることは好適である。
(ステップS1506)制御手段41032は、ステップS1505で選択された第二種パラメータに基づいて、制御信号を構成する。具体的な制御信号の構成方法については後述する。
(ステップS1507)制御手段41032は、ステップS1507で構成した制御信号を被制御装置12に与え、被制御装置12を制御する。
(ステップS1508)評価手段41031はステップS503で選択された第二種パラメータ(または,それに加えて制御手段の出力する制御信号)に基づいて、制御手段による制御規則に対する評価を出力する。
(ステップS1509)制御手段41032は、ステップS503で選択された第二種パラメータとステップS507で評価手段41031が出力した評価に基づいて、制御信号を構成するための制御規則を変更(学習)する。
(ステップS1510)長期観測部14105は、ステップS1501で取得した第一種パラメータと数式3におけるrを取得する。
(ステップS1511)長期観測部14105は、ステップS1510で取得した情報を蓄積する。
(Step S1505) The
(Step S1506) The control unit 41032 configures a control signal based on the second type parameter selected in step S1505. A specific method for configuring the control signal will be described later.
(Step S 1507) The control means 41032 gives the control signal configured in step S 1507 to the controlled
(Step S1508) The
(Step S1509) The control unit 41032 changes (learns) a control rule for forming a control signal based on the second type parameter selected in step S503 and the evaluation output by the
(Step S1510) The long-
(Step S1511) The long-
(ステップS1512)長期観測部14105は、蓄積した情報(1以上の情報)に基づいて、パラメータ変換または/およびパラメータ選択に用いる情報を生成する。具体的な情報の生成方法については、後述する。ステップS1501に戻る。
なお、図15のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における制御システムの具体的な動作について説明する。今、被制御装置12は、例えば、図3に示すヘビ型ロボットである。
また、例えば、上記のs1,s2,s3以外の第二種パラメータとして以下のs4(数式23)、s5(数式24)を用意する。
Note that the processing is ended by powering off or interruption for aborting the processing in the flowchart in FIG.
Hereinafter, a specific operation of the control system in the present embodiment will be described. Now, the controlled
Further, for example, the following s4 (Equation 23) and s5 (Equation 24) are prepared as second type parameters other than the above s1, s2, and s3.
(ステップS1601)選択情報受付部4104が各種の初期値の入力を受け付ける。具体的には、選択情報受付部4104は、s1からs5の内から3個選択するための情報を受け付ける。なお、3個の第二種パラメータの集合をSとする。そして、選択情報受付部4104は、nの値「1」を受け付ける。また、選択情報受付部4104は、適切なTを受け付ける。
(Step S1601) The selection
(ステップS1602)以下、集合(s1,s2,s3)の代わりに集合Sを用いて,実施の形態2と同様の手順で制御を行う。つまり、まず、制御手段41032と評価手段41031のパラメータθi(方策パラメータ)とdiの初期値を決める。それらのパラメータ学習のための補助パラメータΘiとDiを0に設定する。また,tを0に設定する。
(ステップS1603)観測部4101が被制御装置12と制御部4103を観測し、第一種パラメータX(t)を出力する。
(Step S1602) Hereinafter, control is performed in the same procedure as in the second embodiment, using the set S instead of the set (s1, s2, s3). That is, first, the initial values of the parameters θi (policy parameter) and di of the control means 41032 and the evaluation means 41031 are determined. The auxiliary parameters Θi and Di for learning these parameters are set to zero. Also, t is set to 0.
(Step S1603) The
(ステップS1604)特徴抽出部4102が第一種パラメータX(t)を取得し,変換手段41021により第二種パラメータに変換し,選択手段41022により集合Sを選択し,制御部4103に出力する。同時に制御部4103が数式3で計算されるr(t)を取得する。
(ステップS1605)制御手段41032は、Sを取得し,制御信号を生成する。
(ステップS1606)制御部4103の学習サブルーチン(図9)を実行する。
(ステップS1607)被制御装置12がステップS1305で生成された制御信号により制御される。
(ステップS1608)変換手段141021は、t=Tであるか否かを判断し、t=Tであれば、ステップS1609に行く。t=TでなければステップS1603に行く。
(ステップS1609)長期観測部14105は,0からT秒までの各時刻における数式25に示す報酬の和を算出し、記録する。
(ステップS1610)長期観測部14105は、n=1であるか否かを判断する。n=1ならばステップS1611に行き、n=1でなければステップS1612に行く。
(ステップS1611)長期観測部14105は、Fmax=F(1)を保存する。長期観測部14105はSmax=Sを保存してステップS1612に行く。
(ステップS1612)長期観測部14105は、Smaxの要素をひとつ入れ替えた集合Sを生成する。
(ステップS1613)nを1、インクリメントする。ステップS1602に戻る。
(ステップS1614)長期観測部14105は、F(n)>Fであるか否かを判断する。F(n)>FならばステップS1615に行き、F(n)>FでなければステップS1612に行く。
(ステップS1615)長期観測部14105はFmax=F(n),選択情報受付部はSmax=Sを保存する。ステップS1612に行く。
なお、公知技術である遺伝的アルゴリズムなどの探索手法を用いて,Sの探索を実現しても良い。
(Step S1604) The
(Step S1605) The control means 41032 acquires S and generates a control signal.
(Step S1606) The learning subroutine (FIG. 9) of the
(Step S1607) The controlled
(Step S1608) The
(Step S1609) The long-
(Step S1610) The long-
(Step S1611) The long-
(Step S1612) The long-
(Step S1613) n is incremented by one. The process returns to step S1602.
(Step S1614) The long-
(Step S1615) The long-
Note that the search for S may be realized by using a search technique such as a genetic algorithm which is a known technique.
以上、本実施の形態によれば、制御装置は観測した多数のパラメータを圧縮して、高速に被制御装置に対する制御を行う、あるいはそのための制御則を学習できる。また、所定時間以上の観測結果を加味した好適な制御が可能である。さらに、本実施の形態によれば、設計者が最適な制御規則を設計せずに制御器が適応的に制御規則を発見する状況においても、多自由度システムに対する制御則を高速に学習できる制御装置を提供できる。 As described above, according to the present embodiment, the control device compresses a large number of observed parameters, and can control the controlled device at high speed, or can learn a control law for that purpose. Moreover, suitable control can be performed in consideration of observation results over a predetermined time. Furthermore, according to the present embodiment, even in a situation where a controller adaptively finds a control rule without designing an optimal control rule by a designer, control that can learn a control rule for a multi-degree-of-freedom system at high speed. Equipment can be provided.
さらに、本実施の形態における制御装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、被制御装置の状態および制御部の内部状態を観測し、2以上の第一種パラメータを取得する観測ステップと、
前記観測ステップで取得した2以上の第一種パラメータに基づいて、当該第一種パラメータより少ない数の第二種パラメータを取得する特徴抽出ステップと、前記特徴抽出ステップで取得した1以上の第二種パラメータに基づいて、前記被制御装置を制御する制御ステップと、前記観測ステップで取得した第一種パラメータまたは/および前記制御ステップの制御結果を取得し、かかる取得した情報を2以上蓄積する長期観測ステップを実行させるためのプログラムであり、前記特徴抽出ステップは、前記観測ステップで取得した2以上の第一種パラメータと、前記長期観測ステップで蓄積した情報または当該情報に基づいて生成された情報に基づいて2以上の第二種パラメータを取得する変換サブステップと、
前記変換サブステップで取得した2以上の第二種パラメータから、前記長期観測ステップで蓄積した情報または当該情報に基づいて生成された情報を用いて、1以上の第二種パラメータを選択する選択サブステップを具備し、前記制御ステップは、前記特徴抽出ステップで取得した1以上の第二種パラメータに基づいて、前記被制御装置の被制御についての状況の評価を行い、評価の良し悪しを示す情報を出力する評価サブステップと、前記評価サブステップで出力した評価の良し悪しを示す情報に基づいて、前記被制御装置を制御する制御サブステップを具備するプログラム、である。
なお、上述したすべてのプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
Furthermore, the software that implements the control device according to the present embodiment is the following program. That is, this program causes the computer to observe the state of the controlled device and the internal state of the control unit, and obtain two or more first-type parameters;
Based on two or more first-type parameters acquired in the observation step, a feature extraction step for acquiring a smaller number of second-type parameters than the first-type parameters, and one or more second parameters acquired in the feature extraction step Based on the seed parameter, the control step for controlling the controlled device, the first type parameter acquired in the observation step or / and the control result of the control step are acquired, and the acquired information is accumulated for a long period of time. A program for executing an observation step, wherein the feature extraction step includes two or more first type parameters acquired in the observation step, information accumulated in the long-term observation step, or information generated based on the information A transformation sub-step for obtaining two or more second-type parameters based on
A selection sub that selects one or more second-type parameters using information accumulated in the long-term observation step or information generated based on the information from two or more second-type parameters acquired in the conversion substep A step, wherein the control step evaluates the status of the controlled device based on the one or more second type parameters acquired in the feature extraction step, and indicates whether the evaluation is good or bad And a control substep for controlling the controlled device based on the information indicating the quality of the evaluation output in the evaluation substep.
In addition, the computer which performs all the programs mentioned above may be single, and plural may be sufficient as it. That is, centralized processing may be performed, or distributed processing may be performed.
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
In each of the above embodiments, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.
The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上のように、本発明にかかる制御装置は、ロボット等の多自由度システムに対して、自由度に比べて少ない制御パラメータに基づいた効率の良い制御が可能であるという効果を有し、多自由度システムを制御する制御装置等として有用である。 As described above, the control device according to the present invention has an effect that a multi-degree-of-freedom system such as a robot can perform efficient control based on control parameters that are smaller than the degree of freedom. It is useful as a control device for controlling the degree of freedom system.
11、41、121,141 制御装置
12 被制御装置
1101、4101 観測部
1102、4102、12102、14102 特徴抽出部
1103、4103 制御部
4104 選択情報受付部
11021、41021、121021、141021 変換手段
14105 長期観測部
41022、141022 選択手段
41031 評価手段
41032 制御手段
11, 41, 121, 141
Claims (16)
前記観測部が取得した2以上の第一種パラメータに基づいてパラメータの圧縮を行うことにより、前記2以上の第一種パラメータより少ない数のパラメータであり、前記第一種パラメータとは異なる意味合いを有するパラメータであり前記被制御装置の特性を表わすパラメータである第二種パラメータを取得する特徴抽出部と、
前記特徴抽出部が取得した1以上の第二種パラメータに基づいて、前記被制御装置を制御する制御部を具備し、
前記特徴抽出部は、
前記観測部が取得した2以上の第一種パラメータに基づいて、2以上の前記第二種パラメータを取得する変換手段と、
前記変換手段が取得した2以上の第二種パラメータから、前記1以上の第二種パラメータを選択する選択手段を具備する制御装置。 A state of a controlled device that is a device to be controlled and is a multi-degree-of-freedom system having two or more links and a joint connecting the two or more links, and for each state variable of the two or more links An observation unit that obtains two or more of the first type parameters as first type parameters;
By compressing the parameters based on the two or more first type parameters acquired by the observation unit, the number of parameters is less than the two or more first type parameters, and has a different meaning from the first type parameters. A feature extraction unit that obtains a second type parameter that is a parameter that is a parameter that represents a characteristic of the controlled device;
Based on one or more second-type parameters acquired by the feature extraction unit, a control unit for controlling the controlled device ,
The feature extraction unit includes:
Conversion means for acquiring two or more second type parameters based on two or more first type parameters acquired by the observation unit;
The control apparatus which comprises the selection means which selects the said 1 or more 2nd type parameter from the 2 or more 2nd type parameter which the said conversion means acquired.
前記変換手段は、
前記第二種パラメータが有する変数を、前記被制御装置の被制御についての状況である制御結果または/および制御モデルの状態変数である前記制御部の内部状態に応じて変更する請求項1記載の制御装置。 The second type parameter has a variable variable;
The converting means includes
Wherein the second type parameter has variable of the controlled device according to claim 1 wherein the change in accordance with the internal state of the controller is a state variable of the control results and / or control model is the situation for the controlled Control device.
前記特徴抽出部が取得した1以上の第二種パラメータに基づいて、前記被制御装置の被制御についての状況の評価を行う評価手段と、
前記評価手段における評価に基づいて、前記被制御装置に対する制御則の学習を行い、当該制御則と前記特徴抽出部が取得した1以上の第二種パラメータに基づいて、前記被制御装置を制御する制御手段を具備する請求項1から請求項2いずれか記載の制御装置。 The controller is
Evaluation means for evaluating the status of the controlled device based on one or more second-type parameters acquired by the feature extraction unit;
Based on the evaluation in the evaluation means, learning of a control law for the controlled device is performed, and the controlled device is controlled based on the control law and one or more second type parameters acquired by the feature extraction unit. The control apparatus according to claim 1, further comprising a control unit.
前記被制御装置の状態および制御モデルの状態変数である前記制御部の内部状態を観測し、2以上の第一種パラメータを取得する請求項1から請求項3いずれか記載の制御装置。 The observation unit is
The observing the internal state of the controller is a state variable of the state and control model of the controlled device, the control device according to any one of claims 3 2 or more first type parameters claims 1 to retrieve.
複数の素子をネットワーク状に連結し、かつ自己フィードバックを有するネットワーク構造を内在し、前記制御部の内部状態は前記ネットワーク構造を構成する素子の状態である請求項4記載の制御装置。 The controller is
The control apparatus according to claim 4 , wherein a network structure having a plurality of elements connected in a network and having self-feedback is included, and an internal state of the control unit is a state of elements constituting the network structure.
前記特徴抽出部は、
前選択情報受付部が受け付けた選択情報をも用いて、前記第一種パラメータより少ない数の第二種パラメータを取得する請求項1から請求項5いずれか記載の制御装置。 The feature extraction unit further includes a selection information receiving unit that receives selection information that is information for acquiring the second type parameter,
The feature extraction unit includes:
The control device according to any one of claims 1 to 5 , wherein a second type parameter having a smaller number than the first type parameter is acquired also using the selection information received by the previous selection information receiving unit.
前記変換手段は、
前記長期観測部が蓄積した情報または当該情報に基づいて生成された情報をも用いて、2以上の第二種パラメータを取得する請求項1から請求項6いずれか記載の制御装置。 A first-type parameter acquired by the observation unit or / and a control result that is the status of the controlled device being controlled are further acquired, and further includes a long-term observation unit that accumulates two or more of the acquired information.
The converting means includes
The control device according to any one of claims 1 to 6 , wherein two or more second-type parameters are acquired also using information accumulated by the long-term observation unit or information generated based on the information.
前記選択手段は、
前記長期観測部が蓄積した情報または当該情報に基づいて生成された情報をも用いて、1以上の第二種パラメータを選択する請求項1から請求項7いずれか記載の制御装置。 A first-type parameter acquired by the observation unit or / and a control result that is the status of the controlled device being controlled are further acquired, and further includes a long-term observation unit that accumulates two or more of the acquired information.
The selection means includes
The control device according to any one of claims 1 to 7 , wherein one or more second-type parameters are selected also using information accumulated by the long-term observation unit or information generated based on the information.
制御対象の装置であり、2以上のリンクと前記2以上のリンクを接続する関節とを有する多自由度システムである被制御装置の状態を観測し、前記2以上のリンクの各々の状態変数を第一種パラメータとし、前記第一種パラメータを2以上取得する観測ステップと、
前記観測ステップで取得された2以上の第一種パラメータに基づいてパラメータの圧縮を行うことにより、前記2以上の第一種パラメータより少ない数のパラメータであり、前記第一種パラメータとは異なる意味合いを有するパラメータであり前記被制御装置の特性を表わすパラメータである第二種パラメータを取得する特徴抽出ステップと、
前記特徴抽出ステップで取得した1以上の第二種パラメータに基づいて、前記被制御装置を制御する制御ステップを実行させるためのプログラムであって、
前記特徴抽出ステップは、
前記観測ステップで取得した2以上の第一種パラメータに基づいて、2以上の前記第二種パラメータを取得する変換サブステップと、
前記変換サブステップで取得した2以上の第二種パラメータから、前記1以上の第二種パラメータを選択する選択サブステップを具備するプログラム。 On the computer,
A state of a controlled device that is a device to be controlled and is a multi-degree-of-freedom system having two or more links and a joint connecting the two or more links, and for each state variable of the two or more links An observation step of obtaining two or more of the first type parameters as first type parameters;
By compressing the parameters based on the two or more first-type parameters acquired in the observation step, the number of parameters is smaller than the two or more first-type parameters, and has a different meaning from the first-type parameters. A feature extraction step of obtaining a second type parameter that is a parameter having a characteristic of the controlled device;
A program for executing a control step for controlling the controlled device based on one or more second-type parameters acquired in the feature extraction step ,
The feature extraction step includes
A conversion sub-step of acquiring two or more second-type parameters based on the two or more first-type parameters acquired in the observation step;
A program comprising a selection sub-step for selecting the one or more second-type parameters from the two or more second-type parameters acquired in the conversion sub-step.
前記変換サブステップは、
前記第二種パラメータが有する変数を、前記被制御装置の被制御についての状況である制御結果または/および制御モデルの状態変数である制御部の内部状態に応じて変更する請求項9記載のプログラム。 The second type parameter has a variable variable;
The conversion substep includes:
The program according to claim 9 , wherein the variable of the second type parameter is changed according to a control result that is a state of the controlled device and / or an internal state of the control unit that is a state variable of the control model. .
前記特徴抽出ステップで取得した1以上の第二種パラメータに基づいて、前記被制御装置の被制御についての状況の評価を行う評価サブステップと、
前記評価サブステップにおける評価に基づいて、前記被制御装置に対する制御則の学習を行い、当該制御則と前記特徴抽出ステップで取得した1以上の第二種パラメータに基づいて、前記被制御装置を制御する制御サブステップを具備する請求項9から請求項10いずれか記載のプログラム。 The control step includes
An evaluation sub-step for evaluating the status of the controlled device based on the one or more second-type parameters acquired in the feature extraction step;
Based on the evaluation in the evaluation sub-step, learning of a control law for the controlled device is performed, and the controlled device is controlled based on the control law and one or more second type parameters acquired in the feature extraction step. The program according to claim 9 , further comprising a control substep.
前記被制御装置の状態および制御モデルの状態変数である制御部の内部状態を観測し、2以上の第一種パラメータを取得する請求項9から請求項11いずれか記載のプログラム。 In the observation step,
The program according to any one of claims 9 to 11 , wherein two or more first type parameters are acquired by observing a state of the controlled device and an internal state of a control unit which is a state variable of a control model.
複数の素子をネットワーク状に連結し、かつ自己フィードバックを有するネットワーク構造を内在し、前記制御部の内部状態は前記ネットワーク構造を構成する素子の状態である請求項12記載のプログラム。 The controller is
The program according to claim 12 , wherein a network structure having a plurality of elements connected in a network and having self-feedback is included, and an internal state of the control unit is a state of elements constituting the network structure.
前記特徴抽出ステップにおいて第二種パラメータを取得するための情報である選択情報を受け付ける選択情報受付ステップをさらに実行させ、
前記特徴抽出ステップにおいて、
前選択情報受付ステップで受け付けた選択情報をも用いて、前記第一種パラメータより少ない数の第二種パラメータを取得する請求項9から請求項13いずれか記載のプログラム。 On the computer,
Further executing a selection information receiving step of receiving selection information that is information for acquiring the second type parameter in the feature extraction step;
In the feature extraction step,
The program according to any one of claims 9 to 13 , wherein the number of second type parameters smaller than the first type parameters is acquired also using the selection information received in the previous selection information receiving step.
前記観測ステップで取得した第一種パラメータまたは/および前記被制御装置の被制御についての状況である制御結果を取得し、かかる取得した情報を2以上蓄積する長期観測ステップをさらに実行させ、
前記変換サブステップは、
前記長期観測ステップで蓄積した情報または当該情報に基づいて生成された情報をも用いて、2以上の第二種パラメータを取得する請求項9から請求項14いずれか記載のプログラム。 On the computer,
Obtaining a control result which is the first type parameter acquired in the observation step and / or a controlled result of the controlled device, and further executing a long-term observation step of storing two or more of the acquired information;
The conversion substep includes:
The program according to any one of claims 9 to 14 , wherein two or more second-type parameters are acquired also using information accumulated in the long-term observation step or information generated based on the information.
前記観測ステップで取得した第一種パラメータまたは/および前記被制御装置の被制御についての状況である制御結果を取得し、かかる取得した情報を2以上蓄積する長期観測ステップをさらに実行させ、
前記選択サブステップは、
前記長期観測ステップで蓄積した情報または当該情報に基づいて生成された情報をも用いて、1以上の第二種パラメータを選択する請求項9から請求項15いずれか記載のプログラム。 On the computer,
Obtaining a control result which is the first type parameter acquired in the observation step and / or a controlled result of the controlled device, and further executing a long-term observation step of storing two or more of the acquired information;
The selection sub-step includes
The program according to any one of claims 9 to 15 , wherein one or more second-type parameters are selected also using information accumulated in the long-term observation step or information generated based on the information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004267307A JP4408252B2 (en) | 2004-09-14 | 2004-09-14 | Control device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004267307A JP4408252B2 (en) | 2004-09-14 | 2004-09-14 | Control device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006085284A JP2006085284A (en) | 2006-03-30 |
JP4408252B2 true JP4408252B2 (en) | 2010-02-03 |
Family
ID=36163766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004267307A Expired - Fee Related JP4408252B2 (en) | 2004-09-14 | 2004-09-14 | Control device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4408252B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7643893B2 (en) * | 2006-07-24 | 2010-01-05 | The Boeing Company | Closed-loop feedback control using motion capture systems |
-
2004
- 2004-09-14 JP JP2004267307A patent/JP4408252B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006085284A (en) | 2006-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Radosavovic et al. | State-only imitation learning for dexterous manipulation | |
Arndt et al. | Meta reinforcement learning for sim-to-real domain adaptation | |
Rajeswaran et al. | Towards generalization and simplicity in continuous control | |
Yang et al. | Multi-Task Deep Reinforcement Learning for Continuous Action Control. | |
JP7128152B2 (en) | Learning method and program | |
CN108115681A (en) | Learning by imitation method, apparatus, robot and the storage medium of robot | |
Rückert et al. | Learned graphical models for probabilistic planning provide a new class of movement primitives | |
US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
CN112965487B (en) | Mobile robot trajectory tracking control method based on strategy iteration | |
Ahmadzadeh et al. | Trajectory-based skill learning using generalized cylinders | |
Polydoros et al. | Online multi-target learning of inverse dynamics models for computed-torque control of compliant manipulators | |
Xu et al. | Learning strategy for continuous robot visual control: A multi-objective perspective | |
Eteke et al. | Reward learning from very few demonstrations | |
Yang et al. | Generalized animal imitator: Agile locomotion with versatile motion prior | |
Jiang et al. | Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle | |
Power et al. | Constrained stein variational trajectory optimization | |
Vo et al. | Toward complete coverage planning using deep reinforcement learning by trapezoid-based transformable robot | |
Chen et al. | Double-task deep q-learning with multiple views | |
JP4408252B2 (en) | Control device and program | |
Zhang et al. | Auto-conditioned recurrent mixture density networks for learning generalizable robot skills | |
Li et al. | Task generalization with stability guarantees via elastic dynamical system motion policies | |
KR20240029079A (en) | Agent neural network training through open learning | |
Huang et al. | DittoGym: Learning to Control Soft Shape-Shifting Robots | |
Provost et al. | Self-organizing distinctive state abstraction using options | |
Yani et al. | Gradient-Free Deep Q-Networks Reinforcement learning: Benchmark and Evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070301 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090513 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090818 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091023 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091106 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121120 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131120 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |