JPH05120253A - Controller - Google Patents

Controller

Info

Publication number
JPH05120253A
JPH05120253A JP3281623A JP28162391A JPH05120253A JP H05120253 A JPH05120253 A JP H05120253A JP 3281623 A JP3281623 A JP 3281623A JP 28162391 A JP28162391 A JP 28162391A JP H05120253 A JPH05120253 A JP H05120253A
Authority
JP
Japan
Prior art keywords
control
target
control state
virtual target
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3281623A
Other languages
Japanese (ja)
Inventor
Tamami Sugasaka
玉美 菅坂
Minoru Sekiguchi
実 関口
Shigemi Osada
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3281623A priority Critical patent/JPH05120253A/en
Publication of JPH05120253A publication Critical patent/JPH05120253A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

PURPOSE:To accurately and flexibly control a nonlinear type controlled system in the multi-input, multi-output controller which is used to control the controlled system. CONSTITUTION:This controller is provided with a data processor 1 with a signal converting function, a virtual command setting device 5 which sets a transcendental knowledge between control states, and a calculation device 6 which calculates a correction quantity for a control manipulated variable and the data processor 1 consists of, for example, a neural network; and a control state quantity is inputted to the data processor 1, whose output is handled as the control manipulated variable and supplied to the controlled system 3 and corrected according to the current control quantity from the calculation device 6 to obtain a tutor signal, thus structuring the data processor 1 as a desired controller. The data processor 1 inputs the difference value between the control state quantity and a target control state quantity and the virtual command setting device 5 consists of a neural network and uses the difference value from the control state quantity as a control command as a parameter to obtain a virtual command curve showing the relation between the control state quantities by learning.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、制御対象の制御に用い
られる多入力多出力の制御装置に関し、特に、非線型な
前記制御対象を正確で、かつ柔軟に制御する制御装置に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multi-input multi-output control device used for controlling a control target, and more particularly to a control device for accurately and flexibly controlling the non-linear control target.

【0002】倒立振子々の1入力2出力系等のような複
雑な制御対象に対しては、古典的PID対応では対応で
きないことから、現代制御理論を適用して制御装置を設
計していく方法が採られている。しかしながら、現代制
御理論の線形制御理論を用いる場合には、制御対象の運
動方程式を線形化して制御対象モデルを構築していくた
めに、線形領域外ではその制御性能が低下するという欠
点がある。
A method of designing a control device by applying modern control theory because a classical PID correspondence cannot cope with a complicated controlled object such as a 1-input 2-output system of inverted pendulums. Has been taken. However, when the linear control theory of the modern control theory is used, the control performance is deteriorated outside the linear region because the controlled object model is constructed by linearizing the equation of motion of the controlled object.

【0003】また、現代制御理論の非線形制御理論を用
いる場合には、運動方程式を完全に記述する必要がある
ため、制御対象のパラメータを正確に同定していく必要
があるがこれは極めて困難な作業になるという欠点があ
る。また、ファジィー制御理論も提案されているが、こ
れはメンバーシップ関数を調整することが必要である。
このようなことを背景にして、近年、ニューラルネット
ワークを用いる新たな構成の制御装置が提案されつつあ
る。
Further, when the nonlinear control theory of the modern control theory is used, it is necessary to accurately describe the equation of motion, so that it is necessary to accurately identify the parameter of the controlled object, which is extremely difficult. It has the drawback of being work. Fuzzy control theory has also been proposed, which requires adjusting the membership function.
Against this background, a control device having a new configuration using a neural network is being proposed in recent years.

【0004】[0004]

【従来の技術】ニューラルネットワークは、教師信号群
があたえられると、学習により、それらの教師信号群の
持つ入出力特性を備えることになるという性質を持つも
のであって、その後、未知の入力信号が与えられると、
それらしい出力信号を出力するという適応的なデータ処
理機能を実現していくという性質をもつものである。
2. Description of the Related Art A neural network has a property that, when a teacher signal group is given, the input / output characteristics of those teacher signal groups are provided by learning. Is given,
It has the property of realizing an adaptive data processing function of outputting an appropriate output signal.

【0005】このようなニューラルネットワークを制御
装置として構築する場合、制御対象から十分な数の制御
データを入手して、その入手した制御データを教師信号
として用いて学習を実行していくことで、制御対象に対
しての制御規則をニューラルネットワーク上に写像して
いくことで、制御装置として構築していくという方法が
採られることになる。
When such a neural network is constructed as a control device, a sufficient number of control data are acquired from the controlled object and learning is executed by using the acquired control data as a teacher signal. By mapping the control rules for the controlled object on the neural network, a method of constructing as a control device will be adopted.

【0006】しかしながら、制御対象の制御データを得
ることは、制御対象が複雑になると現実には不可能であ
ることが多い。そこで、これに対処する一方法として、
最近、定性的にはある程度の先験的知識が得られている
が、定量的には未知の部分が多いような制御対象に対し
て、試行によって教師信号を得て、これを用いて制御対
象に対しての制御規則をニューラルネットワーク上に写
像していくという新たな提案(斉藤,北村,“多層型ニ
ューラルネットワークを用いた倒立振子の安定化学習制
御”,ロボティクス・メカトロニクス '90論文集,p
283-286,1990)がなされるに至った。
However, it is often impossible to obtain the control data of the controlled object in reality when the controlled object becomes complicated. So, as a way to deal with this,
Recently, a certain amount of a priori knowledge has been obtained qualitatively, but for a controlled object that has many unknown parts quantitatively, a teacher signal is obtained by trial and this is used to control the object. Proposal of Mapping Control Rules for a Neural Network on a Neural Network (Saito, Kitamura, "Stabilized Learning Control of Inverted Pendulum Using Multilayer Neural Network", Robotics and Mechatronics '90 Proceedings, p.
283-286, 1990).

【0007】この新たな方法は、台車に乗っている倒立
振子を原点で制止させるために、ニューラルネットワー
クと、仮想目標発生部と、評価部とを備える構成を採っ
ている。
This new method employs a configuration including a neural network, a virtual target generation section, and an evaluation section in order to stop the inverted pendulum on the carriage at the origin.

【0008】この新たに備えられる仮想目標値発生部
は、「台車の位置が原点から離れるほど、振子の仮想目
標角度を鉛直方向から原点側により大きく傾ける」とい
う先験的知識を数式で表したものであって、台車の位置
と速度が与えられるときに、これを原点に移すための振
子の角度と角速度の仮想目標値を発生する。
This newly provided virtual target value generator expresses a priori knowledge that "the further the position of the carriage is from the origin, the more the virtual target angle of the pendulum is tilted from the vertical direction toward the origin". When the position and speed of the dolly are given, a virtual target value of the pendulum angle and angular velocity for moving this to the origin is generated.

【0009】一方、この新に備えられる評価部は、発生
された仮想目標値と制御出力(振子の角度・角速度)と
の差が1サンプリング後にどのようになればよいかを評
価することで、台車に加えるべき力の修正量を求めて、
その修正量により修正された力を教師信号して特定す
る。
On the other hand, the newly provided evaluation unit evaluates how the difference between the generated virtual target value and the control output (angle / angular velocity of the pendulum) should be after one sampling. Finding the correction amount of the force to be applied to the dolly,
The force corrected by the correction amount is specified as a teacher signal.

【0010】そして、ニューラルネットワークは、各サ
ンプリング時刻における振子の角度・各速度と、台車の
位置・速度とを入力して、台車に加えるべき力を出力し
ていく。このニューラルネットワークの学習は、評価部
で生成される教師信号に基づいて、バックプロパゲーシ
ョン法により行われる。
Then, the neural network inputs the pendulum angle and each speed at each sampling time, and the position and speed of the carriage, and outputs the force to be applied to the carriage. The learning of the neural network is performed by the back propagation method based on the teacher signal generated by the evaluation unit.

【0011】この構成を採ることで、定性的にはある程
度の先験的知識が得られているが、定量的には未知の部
分が多いような制御対象に対して、試行によって教師信
号を得て、これを用いて制御対象に対しての制御規則を
ニューラルネットワーク上に写像していくことで、ニュ
ーラルネットワークをその制御対象の制御装置として構
築していくということが実現されることになる。
By adopting this configuration, a certain amount of a priori knowledge is qualitatively obtained, but a teacher signal is obtained by trial for a control target that has many unknown quantitatively. Then, by using this to map the control rules for the controlled object on the neural network, it is possible to construct the neural network as a control device for the controlled object.

【0012】[0012]

【発明が解決しようとする課題】しかし、この方式で
は、(1) 制御対象の取り得る中間的な状態を1種類の仮
想目標値でしか表現できないため、制御対象がとる一連
の動作が幾種類かの動作の集まりとして表現される場
合、システム状態が複雑に変化することに対して対応し
きれなくなる、(2) 人間の経験的知識を仮想目標値に表
現するのが困難である、ということから制御性能が低下
するという問題点があった。
However, in this method, (1) an intermediate state that can be taken by the controlled object can be expressed by only one kind of virtual target value. If it is expressed as a group of actions, it becomes impossible to deal with complicated changes in the system state. (2) It is difficult to express human empirical knowledge in virtual target values. Therefore, there is a problem that the control performance is deteriorated.

【0013】そこで、本発明では、(1) 一連の動作を構
成する複数の動作例えば、特性の異なる2つの曲線上を
連続的に推移する動作に対してそれぞれの曲線に対応し
た仮想目標設定部をあて、複数の仮想目標値により制御
対象の一連の動作を学習する、(2) 人間の経験的知識か
らいくつかの代表点を、或いは制御入力がない状態で動
作させた制御対象の状態をサンプリングした点を学習す
ることにより、仮想目標値の関数を獲得することを目的
とする。
In view of the above, according to the present invention, (1) a plurality of operations constituting a series of operations, for example, an operation of continuously transiting on two curves having different characteristics, a virtual target setting section corresponding to each curve To learn a series of motions of the controlled object with multiple virtual target values, (2) some representative points from human empirical knowledge, or the state of the controlled object operated without control input. By learning the sampled points, we aim to obtain the function of the virtual target value.

【0014】[0014]

【課題を解決するための手段】図1は本発明の原理構成
図である。図中は、1はデータ処理装置、2は学習処理
装置、3は制御対象、4は目標値設定装置、5は仮想目
標設定装置、6は操作修正量計算装置、7は第1の差分
器、8は第2の差分器、10はデータ処理装置1と学習
処理装置2よりなる制御部である。
FIG. 1 is a block diagram showing the principle of the present invention. In the figure, 1 is a data processing device, 2 is a learning processing device, 3 is a control target, 4 is a target value setting device, 5 is a virtual target setting device, 6 is an operation correction amount calculation device, and 7 is a first differencer. , 8 is a second difference unit, and 10 is a control unit including a data processing device 1 and a learning processing device 2.

【0015】データ処理装置1は、可変的な信号変換機
能を備えて、教師信号群与えられるときに、その信号変
換機能を教師信号群の持つ入出力特性を実現するものに
設定可能とする構成を採る。このデータ処理装置1は、
制御装置として構築されることになって、制御対象3の
制御状態量とその目標値とが与えられるときに、制御対
象3をその目標の制御状態に制御するための制御操作量
を出力していくことになる。
The data processing device 1 is provided with a variable signal conversion function, and when the teacher signal group is given, the signal conversion function can be set to one which realizes the input / output characteristics of the teacher signal group. Take. This data processing device 1 is
By being constructed as a control device, when the control state quantity of the controlled object 3 and its target value are given, it outputs a control operation amount for controlling the controlled object 3 to the target controlled state. I will go.

【0016】このデータ処理装置1として、1つ又は複
数の入力とそれらの入力に対して乗算されるべき内部状
態値とを受け取って積和値を得るとともに、その積和値
を所定の関数によって変換して出力値を得る基本ユニッ
トの内部結合により構成されるネットワーク構造部でも
って構成されることがあり、また、制御状態量と制御操
作量との間の定性的なデータ関係をIF−THENルー
ルで既述するとともに、IF−THENルールに記述さ
れる制御状態量及び制御操作量の定性属性をメンバシッ
プ関数で記述するファジィ装置でもって構成されること
がある。
The data processing device 1 receives one or a plurality of inputs and internal state values to be multiplied by these inputs to obtain a product sum value, and the product sum value is obtained by a predetermined function. It may be composed of a network structure composed of the internal connection of the basic units for converting and obtaining the output value, and the qualitative data relationship between the control state quantity and the control operation quantity may be represented by IF-THEN. In addition to the rules, the fuzzy device may describe the qualitative attributes of the control state amount and the control operation amount described in the IF-THEN rule by the membership function.

【0017】学習処理装置2は、教師信号群が与えられ
るときに、データ処理装置1の信号変換機能を教師信号
群の持つ入出力特性を実現するものに学習するものであ
る。この学習処理装置2は、データ処理装置1がネット
ワーク構造部により構成されるときには、よく知られて
いるバックプロパゲーション法等の学習アルゴリズムを
実行していくことになる。
The learning processing device 2 learns the signal conversion function of the data processing device 1 so as to realize the input / output characteristics of the teacher signal group when the teacher signal group is given. When the data processing device 1 is configured by the network structure unit, the learning processing device 2 executes a well-known learning algorithm such as a back propagation method.

【0018】制御対象3は、制御装置として構築される
データ処理装置1により制御される制御対象である。こ
の制御対象3は、現実の制御対象が用いられることが好
ましいが、現実の制御対象ではなくてその制御対象モデ
ルが用いられることもある。
The control target 3 is a control target controlled by the data processing device 1 constructed as a control device. The control target 3 is preferably an actual control target, but the control target model may be used instead of the actual control target.

【0019】目標値設定装置4は、制御対象3の所望の
制御状態を表す制御状態量の目標値を設定する。仮想目
標設定装置5は、ニューラルネットワークからなり、例
えばバックプロパゲーションの法則に従う仮想目標値学
習用制御部12を用いて仮想目標を学習できるように制
御される。そして、仮想目標設定装置5は、制御対象3
の所望の制御状態を実現するために得られている制御状
態量間のデータ関係の先験的知識を管理し、この先験的
知識の管理データを制御状態量の目標値との差分値をパ
ラメータにして管理する。
The target value setting device 4 sets the target value of the control state quantity representing the desired control state of the controlled object 3. The virtual target setting device 5 is composed of a neural network, and is controlled so that the virtual target can be learned using the virtual target value learning control unit 12 that follows the law of back propagation, for example. The virtual target setting device 5 then controls the controlled object 3
Manages a priori knowledge of the data relationship between the control state quantities obtained in order to realize the desired control state, and the management data of this a priori knowledge is used as a parameter for the difference value from the target value of the control state quantity. And manage.

【0020】選択部11は、複数の仮想目標曲線f1
2 を学習により獲得し学習結果をそれぞれ重み値とし
て保有する複数の仮想目標設定装置5を制御部10の選
択に対応して選択する。この時各仮想目標曲線f1 ,f
2 は選択された各仮想目標設定装置5に対応する。
The selection unit 11 includes a plurality of virtual target curves f 1 ,
A plurality of virtual target setting devices 5 that acquire f 2 by learning and hold learning results as weight values are selected in accordance with the selection of the control unit 10. At this time, each virtual target curve f 1 , f
2 corresponds to each selected virtual target setting device 5.

【0021】操作修正量計算装置6は、制御対象3の持
つ制御状態量とその制御状態量に対応して仮想目標設定
装置5の管理データから特定される制御状態量の仮想的
な目標値とから、制御状態量の目標値を実現するために
必要となる制御対象3に対しての制御操作量の修正量を
算出する。この操作修正量計算装置6は、制御対象3の
持つ制御状態量と、仮想目標設定装置5の出力する仮想
目標値との差分値に比例係数を乗ずることで、制御操作
量の修正量を算出する構成を採ることがある。
The operation correction amount calculation device 6 has a control state amount of the controlled object 3 and a virtual target value of the control state amount specified from the management data of the virtual target setting device 5 corresponding to the control state amount. From this, the correction amount of the control operation amount for the controlled object 3 required to realize the target value of the control state amount is calculated. The operation correction amount calculation device 6 calculates the correction amount of the control operation amount by multiplying the difference value between the control state amount of the controlled object 3 and the virtual target value output by the virtual target setting device 5 by a proportional coefficient. The configuration may be adopted.

【0022】第1の差分器7は、目標値設定装置4の設
定する制御状態量の目標値と、制御対象3の持つ制御状
態量との差分値を算出して、その差分値をデータ処理装
置1と学習処理装置2とに入力する。このとき、この第
1の差分器7の出力値に比例係数が乗じられることがあ
る。
The first differentiator 7 calculates a difference value between the target value of the control state quantity set by the target value setting device 4 and the control state quantity of the controlled object 3, and the difference value is subjected to data processing. Input to the device 1 and the learning processing device 2. At this time, the output value of the first difference unit 7 may be multiplied by the proportional coefficient.

【0023】第2の差分器8は、データ処理装置1の出
力する制御操作量と、操作修正量計算装置6の出力する
制御操作量の修正量との差分値を算出して、その差分
値、すなわち、データ処理装置1から出力されている制
御操作量を算出された修正量で補正したものを学習処理
装置2に入力する。
The second difference unit 8 calculates a difference value between the control operation amount output from the data processing device 1 and the correction amount of the control operation amount output from the operation correction amount calculation device 6, and the difference value. That is, the control operation amount output from the data processing device 1 is corrected by the calculated correction amount and input to the learning processing device 2.

【0024】[0024]

【作用】本発明では、データ処理装置1の信号変換機能
が例えば初期状態に設定されているときに、制御対象3
から制御状態量の初期値が出力されると、第1の差分器
7は、目標値設定装置4の設定する制御状態量の目標値
とその制御状態量の初期値との差分値を算出して、デー
タ処理装置1に入力する。この入力を受けて、データ処
理装置1は、初期状態信号変換機能により規定される制
御操作量を算出して制御対象3に出力し、この制御操作
量の出力処理を受けて、制御対象3は初期状態とは異な
る制御状態に遷移する。以下、制御対象3の制御状態が
規定の限界に達するまで、この処理を繰り返していく。
In the present invention, when the signal conversion function of the data processing device 1 is set to the initial state, for example, the control target 3
When the initial value of the control state quantity is output from, the first difference unit 7 calculates the difference value between the target value of the control state quantity set by the target value setting device 4 and the initial value of the control state quantity. Input to the data processing device 1. In response to this input, the data processing device 1 calculates the control operation amount defined by the initial state signal conversion function and outputs the control operation amount to the control target 3, and the control target 3 receives the output process of the control operation amount. Transition to a control state different from the initial state. Hereinafter, this process is repeated until the control state of the controlled object 3 reaches the specified limit.

【0025】この処理時に、仮想目標設定装置5は、制
御対象3から制御状態量を受けると、管理データに従っ
て制御状態量の仮想的な目標値を特定する。この仮想目
標設定装置5の処理に従って、例えば、制御対象3が1
入力2出力系の制御系の例で説明するならば、制御対象
3から出力される一方の制御状態量に対しての他方の制
御状態量の仮想的な目標値が特定されることになる。
In this process, when the virtual target setting device 5 receives the control state quantity from the controlled object 3, it specifies the virtual target value of the control state quantity according to the management data. According to the processing of the virtual target setting device 5, for example, the control target 3 is 1
In the case of the example of the control system of the input 2 output system, a virtual target value of one control state quantity output from the controlled object 3 for the other control state quantity is specified.

【0026】仮想目標設定装置5が制御状態量の仮想定
な目標値を特定すると、操作修正量計算装置6は、この
仮想的な目標値を使用して、制御状態量の目標値を実現
するために必要となる制御対象3に対しての制御操作量
の修正量を算出する。この修正量の算出処理に従って、
目標値設定装置4により設定される目標の制御状態量を
実現するために、その処理時点のデータ処理装置1の出
力する制御操作量が、どのように修正されるべきかが決
定されることになる。
When the virtual target setting device 5 specifies a virtually constant target value of the control state quantity, the operation correction amount calculation device 6 uses this virtual target value to realize the target value of the control state quantity. The correction amount of the control operation amount for the controlled object 3 that is necessary for this is calculated. According to this correction amount calculation process,
In order to realize the target control state amount set by the target value setting device 4, it is decided how the control operation amount output by the data processing device 1 at the time of the processing should be corrected. Become.

【0027】このようにして、データ処理装置1に入力
される制御状態量の差分値と、その差分値の入力時点で
のより好ましい制御操作量とからなる教師信号群が求め
られると、学習処理装置2は、データ処理装置1の信号
変換機能の学習処理を実行して、信号変換機能をより目
標の制御状態を実現するために適しているものに設定す
る。
In this way, when the teacher signal group consisting of the difference value of the control state quantity input to the data processing device 1 and the more preferable control operation quantity at the time of inputting the difference value is obtained, the learning processing is performed. The device 2 executes the learning process of the signal conversion function of the data processing device 1 and sets the signal conversion function to one suitable for realizing a more targeted control state.

【0028】そして、この新たに設定されるデータ処理
装置1の信号変換機能に従って上述と同様の処理を繰り
返していくことで次の教師信号群が生成されるように処
理し、学習処理装置2に従って、データ処理装置1の信
号変換機能を目標の制御状態を実現するものに設定して
いくことで、データ処理装置1を制御装置として構築し
ていく。
Then, according to the signal conversion function of the newly set data processing apparatus 1, the same processing as described above is repeated so that the next teacher signal group is generated, and the learning processing apparatus 2 is used. The data processing device 1 is constructed as a control device by setting the signal conversion function of the data processing device 1 so as to realize a target control state.

【0029】このように、定性的にはある程度の先験的
知識が得られているが、定量的には未知の部分が多いよ
うな制御対象3に対して、試行によって教師信号を得
て、これを用いて制御対象3に対しての制御規則をデー
タ処理装置1の信号変換機能上に写像していくことで、
データ処理装置1をその制御対象3の制御装置として構
築していくときにあって、制御状態量の目標値との差分
値に従ってデータ処理装置1の構築処理を実行していく
ように構成するものであることから、制御状態量の目標
値が変更されるときにあっても学習をやり直さなくて済
むようになるのである。
In this way, a certain amount of a priori knowledge is qualitatively obtained, but a teacher signal is obtained by trial with respect to the controlled object 3 in which there are many unknown parts quantitatively. By using this to map the control rule for the controlled object 3 on the signal conversion function of the data processing device 1,
A configuration in which the data processing device 1 is constructed as a control device for the controlled object 3 and the construction process of the data processing device 1 is executed according to the difference value from the target value of the control state quantity. Therefore, even if the target value of the control state quantity is changed, it is not necessary to redo the learning.

【0030】目標位置が変わっても、例えば倒立させる
ための制御対象への入力が目標位置と現在位置との差分
値に関しては変化しない。つまり、制御対象への入力
は、差分値によってのみ変化し、もし目標位置が変わっ
ても、その差分値が変わらなければ、同じ制御対象への
入力を出力すればよい。従って、差分値に関する制御対
象への入力を学習しておけば、あとはその差分値に従っ
て制御が行われるだけなので、学習し直す必要がない。
Even if the target position changes, for example, the input to the controlled object for inversion does not change with respect to the difference value between the target position and the current position. That is, the input to the controlled object changes only by the difference value, and even if the target position changes, if the difference value does not change, the input to the same controlled object may be output. Therefore, if the input to the controlled object regarding the difference value is learned, the control is only performed in accordance with the difference value, and it is not necessary to relearn.

【0031】制御状態量の目標値が変更された場合でも
現在値と目標値との差分値とそれに対応する制御対象へ
の入力値との関係を予め学習しておくことにより制御状
態量を所望の値に制御するすなわち制御対象を任意の目
標位置において所望の制御状態にすることができる。
Even when the target value of the control state quantity is changed, the control state quantity is desired by learning in advance the relationship between the difference between the current value and the target value and the corresponding input value to the controlled object. Can be controlled to a desired control state at an arbitrary target position.

【0032】本発明は、1つの制御対象の一連の動作
が、複数の動作で構成されている場合、それらの動作に
対して個々に制御部10を持たせ、それらの制御部10
が学習するための教師データを生成するために、制御部
10各々に対応して仮想目標曲線をそれぞれ学習するニ
ューラルネットワークからなる仮想目標値設定装置5及
び操作修正量計算装置6を与える仮想目標設定装置5の
それぞれに対応する仮想目標曲線f1 ,f2 はバックプ
ロパゲーション法で学習する。制御部10は現在の制御
対象の動作目的に応じて、与えられた仮想目標値に近付
くような出力を出すように訓練されるものとする。
In the present invention, when a series of operations of one controlled object is composed of a plurality of operations, each operation is provided with a control unit 10, and those control units 10 are provided.
Virtual target value setting device 5 and operation correction amount calculation device 6 each of which includes a neural network for learning a virtual target curve corresponding to each control unit 10 in order to generate teacher data for learning. The virtual target curves f 1 and f 2 corresponding to each of the devices 5 are learned by the backpropagation method. It is assumed that the control unit 10 is trained to produce an output that approaches a given virtual target value according to the current operation purpose of the controlled object.

【0033】このように、動作目的に応じて、選択部1
1で制御部10、仮想目標設定装置5、操作修正量計算
装置6を選択することで、制御対象を制御する制御則を
幾つかの簡単な制御則に従う仮想目標曲線f1 ,f2
対応して分割できるので、制御則を構築し易くなる。こ
れらを用いて制御対象の一連の行動を制御するには、制
御対象の状態によりそれらを変更する。
In this way, the selection unit 1 is selected according to the purpose of operation.
By selecting the control unit 10, the virtual target setting device 5, and the operation correction amount calculation device 6 in 1 , the control rule for controlling the controlled object corresponds to the virtual target curves f 1 and f 2 that follow some simple control rules. Since it can be divided into two parts, it becomes easier to construct a control law. To control a series of actions of the controlled object using these, change them according to the state of the controlled object.

【0034】また、仮想目標設定装置5に学習機能を持
たせることで、仮想目標値学習用制御部12を用いて幾
つかの代表的な仮想目標値により適当な経験則の関数を
獲得させることができるので、経験則を表現し易くな
る。
Further, by providing the virtual target setting device 5 with a learning function, the virtual target value learning control unit 12 is used to acquire a function of an appropriate empirical rule by using some representative virtual target values. Because it is possible, it becomes easy to express the rule of thumb.

【0035】[0035]

【実施例】以下、実施例に従って本発明を詳細に説明す
る。図2に、この実施例で制御対象モデルとして想定し
た倒立振子モデルを図示する。
EXAMPLES The present invention will be described in detail below with reference to examples. FIG. 2 illustrates an inverted pendulum model assumed as a controlled object model in this embodiment.

【0036】この図2に示すように、倒立振子モデル
は、原点0でモータシャフト(Z軸)に連結されたベー
スリンクL1 の他端Cに、リンクL2 がベースリンクL
1 を回転軸にして連結されることでもって構成されてい
る。ベースリンクL1 とリンクL2 の回転角をそれぞれ
θ1 ,θ2 とし、質量をそれぞれm1 ,m2 とし、長さ
をそれぞれl1 ,l2 とし、重力加速度をg、モータの
トルクをTで表すならば、この倒立振子モデルの運動方
程式は図3に示すものになる。
As shown in FIG. 2, in the inverted pendulum model, the link L 2 is connected to the base link L at the other end C of the base link L 1 connected to the motor shaft (Z axis) at the origin 0.
It is constructed by connecting 1 as a rotation axis. The rotation angles of the base link L 1 and the link L 2 are θ 1 and θ 2 , the masses are m 1 and m 2 , the lengths are 1 1 and l 2 , respectively, and the gravity acceleration is g and the motor torque is If expressed by T, the equation of motion of this inverted pendulum model is as shown in FIG.

【0037】この実施例では、この運動方程式に従う倒
立振子モデルに対して、モータの発生するトルクTを制
御して、各リンクL1 ,L2 の状態をフィードバックす
ることにより振子を倒立させ、更に、ベースリンクL1
を適当な目標位置で停止させることを制御目標とするも
のである。
In this embodiment, with respect to the inverted pendulum model according to this equation of motion, the torque T generated by the motor is controlled to feed back the states of the links L 1 and L 2 to invert the pendulum. , Base link L 1
The control target is to stop at an appropriate target position.

【0038】このように、倒立振子モデルは制御状態量
として、
As described above, the inverted pendulum model has the control state quantity as

【0039】[0039]

【数1】 [Equation 1]

【0040】という4つを持ち、制御操作量として、モ
ータのトルクTという1つを持つことになるので、第1
の差分器7は、目標値設定装置4の設定する対応の目標
値が、
Since there is one of the motor torque T as the control operation amount, the first
In the differencer 7 of, the corresponding target value set by the target value setting device 4 is

【0041】[0041]

【数2】 [Equation 2]

【0042】であるとするならば、If

【0043】[0043]

【数3】 [Equation 3]

【0044】という差分値を算出してニューラルネット
ワークに入力することになる。なお、以下において、記
述の便宜上、角速度の微分値を表す場合には、その角度
の前に(d/dt) を付けることがある。
The difference value is calculated and input to the neural network. In the following, for convenience of description, when expressing the differential value of the angular velocity, (d / dt) may be added before the angle.

【0045】図4に、本発明の一実施例を図示する。図
中、データ処理装置1はニューラルネットワークであっ
て、制御装置として機能することになるもの、2は学習
処理装置であって、ニューラルネットワークの学習処理
を実行するものであり、データ処理装置1と学習処理装
置2で制御部10を構成する。制御部10には時刻nに
おける差分値E1(n), 外1 ,E2(n), 外2 が出
力され、トルクT(n)
FIG. 4 shows an embodiment of the present invention. In the figure, a data processing device 1 is a neural network that functions as a control device, and 2 is a learning processing device that executes learning processing of the neural network. The learning processing device 2 constitutes the control unit 10. The difference value E 1 (n) , outer 1, E 2 (n) , outer 2 at time n is output to the control unit 10, and the torque T (n) is output.

【0046】[0046]

【外1】 [Outer 1]

【0047】[0047]

【外2】 [Outside 2]

【0048】を出力する。制御対象3は倒立振子モデル
であって、制御対象となる1入力2出力系の制御系をな
すものであり、トルクT(n) を入力し、時刻n+1にお
ける制御状態量θ1(n+1), 外3 ,θ2(n+1), 外4
を出力する。目標値設定装置
Is output. The controlled object 3 is an inverted pendulum model and forms a control system of a 1-input 2-output system which is a controlled object. The torque T (n) is input and the control state quantity θ 1 (n + 1 at the time n + 1. ) , Outer 3, θ 2 (n + 1) , outer 4
Is output. Target value setting device

【0049】[0049]

【外3】 [Outside 3]

【0050】[0050]

【外4】 [Outside 4]

【0051】4は倒立振子モデルの制御状態量の目標値
θtarget(θt1,θt2)を設定するもの、仮想目標設定
装置5は現在の位置入力θ1(n), 外5 を目標値
θt1,θt2
Reference numeral 4 sets the target value θ targett1 , θ t2 ) of the control state quantity of the inverted pendulum model, and the virtual target setting device 5 sets the current position input θ 1 (n) and the outer 5 as target values. θ t1 , θ t2

【0052】[0052]

【外5】 [Outside 5]

【0053】を入力して、学習した結果として、倒立振
子モデルの制御状態量の仮想目標値θ d1(n) , 外6
,θd2(n) , 外7 を出力する。操作修正量計算装
置6はニ
As a result of learning by inputting
Virtual target value θ of the control state quantity of the child model d1 (n), Outside 6
 , Θd2 (n), Out 7 is output. Operation correction amount calculator
Place 6 is

【0054】[0054]

【外6】 [Outside 6]

【0055】[0055]

【外7】 [Outside 7]

【0056】ューラルネットワークの出力するトルクの
修正量ΔT(n) を下記の式により算出するものである。
The correction amount ΔT (n) of the torque output from the Ural network is calculated by the following formula.

【0057】[0057]

【数4】 [Equation 4]

【0058】だだし、K1 ,K2 ,K3 はパラメータで
ある。17は遅延器であって、倒立振子モデルの出力す
る制御状態量を1サンプリング時間遅延するもの、7は
第1の差分器であって、目標値設定装置4の設定する制
御状態量の目標値と、遅延器17の出力する制御状態量
との差分値を算出して、その差分値をニューラルネット
ワークと学習処理装置2に入力するもの、8は第2の差
分器であって、ニューラルネットワークの出力するトル
クT(n) と、操作修正量計算装置6の算出するトルク修
正量ΔT(n) との差分値を算出して、その差分値を教師
信号として学習処理装置2に入力するものである。
However, K 1 , K 2 , and K 3 are parameters. Reference numeral 17 is a delay device which delays the control state quantity output from the inverted pendulum model by one sampling time, and 7 is a first difference device, which is a target value of the control state quantity set by the target value setting device 4. And a difference value between the control state quantity output from the delay device 17 and the difference value is input to the neural network and the learning processing device 2. Reference numeral 8 denotes a second difference device, A difference value between the output torque T (n) and the torque correction amount ΔT (n) calculated by the operation correction amount calculation device 6 is calculated, and the difference value is input to the learning processing device 2 as a teacher signal. is there.

【0059】数4式から、ニューラルネットワークは、
入力装置として4ユニットを持ち、出力層としてトルク
Tを出力する1ユニットを持つものを用意する必要があ
るので、この実施例では、図5に示すように、4個の入
力ユニット20からなる入力層と、8個の基本ユニット
21からなる1段構成の中間層と、1個の基本ユニット
21からなる出力層とを備えて、入力層の入力ユニット
20と中間層の基本ユニット21との間の内部結合と、
中間層の基本ユニット21と出力層の基本ユニット21
との間の内部結合に、それぞれ重み値の設定される階層
ネットワーク構成のニューラルネットワークを用意する
ことにする。
From the equation (4), the neural network is
Since it is necessary to prepare an input device having four units and an output layer having one unit for outputting the torque T, in this embodiment, as shown in FIG. 5, an input consisting of four input units 20 is provided. Between the input unit 20 of the input layer and the basic unit 21 of the intermediate layer, which is provided with a layer, an intermediate layer of one-stage structure composed of eight basic units 21, and an output layer composed of one basic unit 21. An inner join of
Basic unit 21 of the middle layer and basic unit 21 of the output layer
A neural network having a hierarchical network structure in which weight values are set for the internal connection between and is prepared.

【0060】この入力層の入力ユニット20は、入力信
号値をそのまま分配して中間層の基本ユニット21に出
力し、中間層及び出力層の基本ユニット21は、複数の
入力に対し夫々の内部結合の重み値を乗算する乗算処理
部と、それらの全乗算結果を加算する累積処理部と、こ
の累積値に非線型の閾値処理を施して一つの最終出力を
出力する閾値処理部とを備える。学習処理装置2は、教
師信号群の持つ入出力特性を実現するようになるべく、
これらの内部結合の重み値の学習処理を実行することに
なる。
The input unit 20 of the input layer distributes the input signal value as it is and outputs it to the basic unit 21 of the intermediate layer, and the basic units 21 of the intermediate layer and the output layer each internally couple a plurality of inputs. A multiplication processing unit that multiplies the weight values of, a cumulative processing unit that adds all the multiplication results, and a threshold processing unit that performs non-linear threshold processing on the cumulative value and outputs one final output. The learning processing device 2 is designed to realize the input / output characteristics of the teacher signal group,
The learning process of the weight value of these internal couplings will be performed.

【0061】モータの出力するトルクによりベースリン
クが動作する。そのベースリンクL 1 の先に、リンクL
2 (振り子)が取り付けられている。この制御問題は、
「振り子を振り上げて、ベースリンクをある任意の位置
で振り子を倒立させる」ことである。見かけは、一連の
動作のように見えるが、ここでは、「振り上げる」、
「任意の位置に倒立させる」という2つの動作を含まれ
ている。そこで、この2つの動作に個々に対応する曲線
をf1 ,f2 とすれば、これらの曲線f1 ,f2を満足
する入出力関係を学習によりニューラルネットワークか
らなる仮想目標設定装置5に設定する。
The torque output from the motor causes the base link to
Ku works. Its base link L 1At the end of the link L
2(Pendulum) is attached. This control problem is
"Raise the pendulum and place the base link at any position.
To invert the pendulum. " The appearance is a series
It seems to work, but here, "swing up",
Includes two actions of "standing upside down"
ing. Therefore, the curves corresponding to these two movements individually
F1, F2Then, these curves f1, F2Satisfied
Neural network by learning the input-output relationship
It is set in the virtual goal setting device 5.

【0062】つまり、リンクL2 (振り子)をある任意
の位置で倒立させる制御則を学習するために必要な仮想
目標曲線と、リンクL2 (振り子)を振り上げる制御則
を学習するために必要な仮想目標曲線とをニューラルネ
ットワークからなる仮想目標設定装置で学習する。具体
的には、振り子をある任意の位置で倒立させるための仮
想目標曲線の軌道は、「振り子を倒立させたい位置側に
振り子を傾ける」という経験的知識を用い、振り子を振
り上げるための仮想目標曲線の軌道は、「振り子が下の
時には大きな速度を持ち、上の時には速度が0になる」
という経験的知識を用いて関数すなわち仮想目標曲線f
1,f2 により獲得する。
That is, it is necessary to learn the virtual target curve necessary for learning the control law for inverting the link L 2 (pendulum) at a certain arbitrary position and the control rule for swinging up the link L 2 (pendulum). The virtual target curve is learned by a virtual target setting device composed of a neural network. Specifically, the trajectory of the virtual target curve for inversion of the pendulum at an arbitrary position uses the empirical knowledge of "tilting the pendulum to the position where you want to invert the pendulum," The trajectory of the target curve "has a large velocity when the pendulum is at the bottom and zero velocity when the pendulum is at the top"
Function, that is, virtual target curve f
Obtained by 1 and f 2 .

【0063】これら2つの仮想目標曲線f1 ,f2 は制
御対象である振り子の現在位置及びその位置の微分によ
り選択部11により選択される。また、各々に対して、
制御部10が割り当てられる。そして、倒立振子の動作
がこれらの仮想目標値に近付くように、実際に倒立振子
を動作させたデータを修正し、それらを制御部10が学
習により獲得していく。
These two virtual target curves f 1 and f 2 are selected by the selector 11 according to the current position of the pendulum to be controlled and the differentiation of that position. Also, for each
The control unit 10 is assigned. Then, data for actually operating the inverted pendulum is corrected so that the operation of the inverted pendulum approaches these virtual target values, and the control unit 10 acquires them by learning.

【0064】次に、ニューラルネットワークで構成され
るそれぞれの仮想目標設定装置5の入出力関係が、仮想
目標曲線f1 ,f2 に従うように仮想目標値学習用制御
部12を用いて学習するときの軌道の選択について説明
する。
Next, when learning is performed using the virtual target value learning control unit 12 so that the input / output relationship of each virtual target setting device 5 formed of a neural network follows the virtual target curves f 1 and f 2. The selection of the orbit will be described.

【0065】ひとつは、人間の持つ経験的な知識から得
られる倒立振子の状態を何点か選び出し、それをバック
プロパゲーションを用いて学習することにより適当な関
数f 1 ,f2 を獲得する。
One is to obtain from empirical knowledge of human beings.
Select some of the inverted pendulum states that can be backed up
By learning using propagation, the
Number f 1, F2To win.

【0066】すなわち、入力が振り子の位置、出力を振
り子の速度となるようなニューラルネットワークを用
い、その教師データとして、振り子の位置が真下の時に
は振り子の速度を大きな速度、振り子の位置が真上の時
には振り子の速度は0、その中間点を幾つか用い、学習
させる。すると、ニューラルネットワークはこれらの値
を補間してくれるので、適当な関数を表現することがで
きる。同様にして、他の色々な経験則もニューラルネッ
トワークにより表現可能である。
That is, a neural network whose input is the position of the pendulum and whose output is the speed of the pendulum is used as teacher data. In case of, the speed of the pendulum is 0, and some intermediate points are used for learning. Then, the neural network interpolates these values so that an appropriate function can be expressed. Similarly, various other empirical rules can be expressed by the neural network.

【0067】他のひとつは、倒立振子を制御入力なしで
目標位置から動作させた過程をサンプリングし、それら
を学習して獲得した関数を仮想目標値の関数として用い
る。これは、逆にこの関数の動きをすれば目標値に到達
するからである。
The other one uses the function obtained by sampling the process of operating the inverted pendulum from the target position without a control input and learning them and using it as a function of the virtual target value. This is because the target value is reached if the function moves.

【0068】すなわち、振り上げの場合、真下から真上
に振り上げる動作と、真上から真下に振り降りる動作が
良く似ていることを利用して、真上から真下に慣性のみ
で動作させたデータを教師データとしてニューラルネッ
トワークからなる仮想目標値設定装置5に学習させ、経
験則の関数を表現する。この経験則に近づくように制御
部10のデータ処理装置1に与える教師データを作成す
る。
That is, in the case of swinging up, the fact that the action of swinging up from just below to the action of swinging up from just above is very similar to each other Is trained by the virtual target value setting device 5 composed of a neural network as a teacher data, and a empirical rule function is expressed. Teacher data to be given to the data processing device 1 of the control unit 10 is created so as to approach this empirical rule.

【0069】以上、図示実施例について説明したが本発
明はこれに限定されるものではない。例えば、実施例で
は、ニューラルネットワークを用いて制御装置を構築す
るものを開示したがこれに限られることなく、教師信号
に応じて信号変換機能を調節できるすべてのデータ処理
装置に対してそのまま適用できるのである。そして、実
施例では、倒立振子を制御対象とするものを開示した
が、これに限られることなく、すべての説明対象に対し
てそのまま適用できるのである。
Although the illustrated embodiment has been described above, the present invention is not limited to this. For example, in the embodiment, the one in which the control device is constructed by using the neural network is disclosed, but the present invention is not limited to this, and can be directly applied to all data processing devices capable of adjusting the signal conversion function according to the teacher signal. Of. Then, in the embodiment, the one in which the inverted pendulum is controlled is disclosed, but the invention is not limited to this, and can be applied as it is to all objects to be described.

【0070】また、実施例では、実際の制御対象ではな
くて、その制御対象モデルを利用して制御装置を構築す
るものを開示したが、これに限られることなく、実際の
制御対象そのものを用いるものであってもよいのであっ
て、そのようにすると、クーロン摩擦等を含んだ正確な
システム同定がなされるので、より適切な制御装置を構
築できるようになるのである。
In the embodiment, the control device is constructed not by using the actual controlled object but by using the controlled object model, but the present invention is not limited to this, and the actual controlled object itself is used. In this case, since accurate system identification including Coulomb friction and the like can be performed, a more appropriate control device can be constructed.

【0071】[0071]

【発明の効果】以上説明したように、本発明は、制御対
象の一連の動作をいくつかの動作に分割し、各々に仮想
目標値を学習し、それらを学習した複数の制御則を制御
対象の状態によって使い分けることにより、システムの
状態が複雑に変化することに対して対応することが可能
となり、制御性能が向上する。
As described above, according to the present invention, a series of operations of a controlled object are divided into several operations, virtual target values are learned for each, and a plurality of control rules learned by them are controlled. Depending on the state, it is possible to deal with a complicated change in the system state, and control performance is improved.

【0072】また、仮想目標値を学習する際に人間の与
えた仮想目標値のいくつかの代表点を学習することによ
り、あるいは制御対象を実際に動作させてその動作状態
からサンプリング点を学習することにより、仮想目標値
の関数を獲得することが可能となり、制御性能が向上す
る。
When learning the virtual target value, some representative points of the virtual target value given by a human are learned, or the control target is actually operated to learn the sampling point from the operating state. As a result, it becomes possible to obtain a function of the virtual target value, and control performance is improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理説明図である。FIG. 1 is a diagram illustrating the principle of the present invention.

【図2】実施例で用いた倒立振子の説明図である。FIG. 2 is an explanatory diagram of an inverted pendulum used in an example.

【図3】実施例で用いた倒立振子の運動方程式の説明図
である。
FIG. 3 is an explanatory diagram of a motion equation of an inverted pendulum used in an example.

【図4】本発明の一実施例である。FIG. 4 is an example of the present invention.

【図5】ニューラルネットワークの構成図である。FIG. 5 is a configuration diagram of a neural network.

【符号の説明】[Explanation of symbols]

1 データ処理装置 2 学習処理装置 3 制御対象 4 目標値設定装置 5 仮想目標設定装置 6 操作修正量計算装置 7 第1の差分器 8 第2の差分器 11 選択部 12 仮想目標値学習用制御部 DESCRIPTION OF SYMBOLS 1 Data processing device 2 Learning processing device 3 Control object 4 Target value setting device 5 Virtual target setting device 6 Operation correction amount calculation device 7 1st difference device 8 2nd difference device 11 Selection part 12 Virtual target value learning control part

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 制御変数の一部または全部を、仮想的な
目標値によって表す1つまたは複数の学習機能を有する
仮想目標設定部と、 該仮想目標値と制御対象の状態の誤差を計算し、該仮想
目標値を実現するような制御対象への入力の修正量を計
算する1つまたは複数の操作修正量計算部と、 該修正量により制御対象への入力を修正した信号を教師
信号として設定し、制御対象の出力から得られる信号を
入力として前記制御対象への入力を出力とし、この入出
力関係を学習により獲得し、該学習された入出力関係に
基づいて制御対象を与えられた目標値へ制御するための
1つまたは複数の制御部を持つことを特徴とする制御装
置。
1. A virtual target setting unit having one or a plurality of learning functions for expressing a part or all of a control variable by a virtual target value, and calculating an error between the virtual target value and the state of a controlled object. , One or a plurality of operation correction amount calculation units for calculating a correction amount of an input to a control target that realizes the virtual target value, and a signal obtained by correcting the input to the control target by the correction amount as a teacher signal A signal obtained from the output of the controlled object is set as an input, the input to the controlled object is output, the input / output relationship is acquired by learning, and the controlled object is given based on the learned input / output relationship. A control device having one or more control units for controlling to a target value.
【請求項2】 請求項1記載の制御装置において、制御
対象の状態を表す1つまたは複数の変数の値により、複
数の学習機能を有する仮想目標設定部から必要な仮想目
標設定部を、また、複数の操作修正量計算部から必要な
操作修正量計算部を選択し、選択された仮想目標設定部
が算出した仮想目標値を実現するように、1つまたは複
数の制御部に学習させ、制御対象の状態を表す1つまた
は複数の変数の値により、複数の制御部から必要な制御
部を選択することを特徴とする制御装置。
2. The control device according to claim 1, wherein a virtual target setting unit required from a virtual target setting unit having a plurality of learning functions is provided according to a value of one or a plurality of variables representing a state of a controlled object, , A required operation correction amount calculation unit is selected from a plurality of operation correction amount calculation units, and one or a plurality of control units is made to learn so as to realize the virtual target value calculated by the selected virtual target setting unit, A control device, wherein a required control unit is selected from a plurality of control units according to the values of one or more variables that represent the state of a control target.
【請求項3】 請求項1記載の制御装置において、仮想
目標設定部では、与えられた人間の経験的知識に基づく
仮想目標値の代表点から、学習により仮想目標値を算出
するためのルールを獲得することを特徴とする制御装
置。
3. The control device according to claim 1, wherein the virtual target setting unit sets a rule for calculating a virtual target value by learning from representative points of the virtual target value based on given human empirical knowledge. A control device characterized by acquiring.
【請求項4】 請求項1記載の制御装置において、仮想
目標設定部では、与えられた目標値から制御対象を制御
入力なしで動作させ、その間の制御対象の状態をサンプ
リングした点から、学習により仮想目標値を算出するた
めのルールを獲得することを特徴とする制御装置。
4. The control apparatus according to claim 1, wherein the virtual target setting unit operates the control target from a given target value without a control input, and samples the state of the control target during that period by learning. A control device characterized by acquiring a rule for calculating a virtual target value.
【請求項5】 請求項3及び請求項4記載の制御装置に
おいて、仮想目標設定部をニューラルネットワークによ
り構成することを特徴とする制御装置。
5. The control device according to claim 3 or 4, wherein the virtual target setting unit is configured by a neural network.
【請求項6】 可変的な信号変換機能を備えて、教師信
号群が与えられるときに、該信号変換機能を該教師信号
群の持つ入出力特性を実現するものに認定可能とする構
成を採るデータ処理装置(1)と、 制御対象の所望の制御状態を実現するために得られてい
る制御状態量間のデータ関係の先験的知識を管理する仮
想目標設定装置(5)と、 制御操作量が与えられるときに、制御対象若しくはその
制御対象モデルの持つ制御状態量と、該制御状態量に対
応して上記仮想目標設定装置(5)の管理データから特
定される制御状態量の仮想的な目標値とから、所望の制
御状態を実現するために必要となる該制御操作量の修正
量を算出する操作修正量計算装置(6)とを備え、 上記データ処理装置(1)に制御状態量を入力していく
とともに、該入力に対応する出力を制御操作量として扱
って制御対象若しくはその制御対象モデルに与え、か
つ、そのときの上記操作修正量計算装置(6)からの修
正量に従って、該制御操作量を修正していくことで教師
信号を得て、その得た教師信号に従って、上記信号変換
機能を設定していくことで、上記データ処理装置(1)
を所望の制御状態を実現するための制御装置であって、 上記データ処理装置(1)は、制御対象若しくはその制
御対象モデルの出力する制御状態量と、制御目標となる
制御状態量との差分値若しくはそれに応じた値を入力し
ていく構成を採るとともに、上記仮想目標設定装置
(5)は、制御目標となる制御状態量との差分値をパラ
メータにして制御状態量間のデータ関係の先験的知識を
管理し、与えられた人間の経験的知識に基づく仮想目標
値の代表点から、学習により仮想目標値を算出するため
のルールを獲得するよう構成されてなることを特徴とす
る制御装置。
6. A variable signal conversion function is provided, and when a teacher signal group is provided, the signal conversion function can be recognized as a device that realizes the input / output characteristics of the teacher signal group. A data processing device (1), a virtual target setting device (5) for managing a priori knowledge of the data relationship between control state quantities obtained to realize a desired control state of a controlled object, and a control operation When a quantity is given, the control state quantity of the control target or its control target model and the virtual control state quantity specified from the management data of the virtual target setting device (5) corresponding to the control state quantity An operation correction amount calculation device (6) for calculating a correction amount of the control operation amount required to realize a desired control state from the target value, and the data processing device (1) has a control state. As you enter the amount, The output corresponding to the force is treated as a control operation amount and given to the control target or its control target model, and the control operation amount is corrected according to the correction amount from the operation correction amount calculation device (6) at that time. The data processing device (1) is obtained by obtaining a teacher signal by going and setting the signal conversion function according to the obtained teacher signal.
Is a control device for realizing a desired control state, wherein the data processing device (1) is a difference between a control state amount output from a control target or its control target model and a control state amount serving as a control target. The virtual target setting device (5) is configured to input a value or a value corresponding to the value, and the virtual target setting device (5) uses the difference value from the control state amount serving as the control target as a parameter to set the data relationship between the control state amounts. Control characterized by being configured to manage experimental knowledge and acquire a rule for calculating a virtual target value by learning from a representative point of the virtual target value based on given human empirical knowledge apparatus.
【請求項7】 可変的な信号変換機能を備えて、教師信
号群が与えられるときに、該信号変換機能を該教師信号
群の持つ入出力特性を実現するものに認定可能とする構
成を採るデータ処理装置(1)と、 制御対象の所望の制御状態を実現するために得られてい
る制御状態量間のデータ関係の先験的知識を管理する仮
想目標設定装置(5)と、 制御操作量が与えられるときに、制御対象若しくはその
制御対象モデルの持つ制御状態量と、該制御状態量に対
応して上記仮想目標設定装置(5)の管理データから特
定される制御状態量の仮想的な目標値とから、所望の制
御状態を実現するために必要となる該制御操作量の修正
量を算出する操作修正量計算装置(6)とを備え、 上記データ処理装置(1)に制御状態量を入力していく
とともに、該入力に対応する出力を制御操作量として扱
って制御対象若しくはその制御対象モデルに与え、か
つ、そのときの上記操作修正量計算装置(6)からの修
正量に従って、該制御操作量を修正していくことで教師
信号を得て、その得た教師信号に従って、上記信号変換
機能を設定していくことで、上記データ処理装置(1)
を所望の制御状態を実現するための制御装置として構築
していく制御装置構築システムであって、 上記データ処理装置(1)は、制御対象若しくはその制
御対象モデルの出力する制御状態量と、制御目標となる
制御状態量との差分値若しくはそれに応じた値を入力し
ていく構成を採るとともに、上記仮想目標設定装置
(5)は、制御目標となる制御状態量との差分値をパラ
メータにして制御状態量間のデータ関係の先験的知識を
管理し、与えられた目標値から制御対象を制御入力なし
で動作させ、その間の制御対象の状態をサンプリングし
た点から、学習により仮想目標値を算出するためのルー
ルを獲得するよう構成されてなることを特徴とする制御
装置。
7. A variable signal conversion function is provided, and when a teacher signal group is given, the signal conversion function can be recognized as a device that realizes the input / output characteristics of the teacher signal group. A data processing device (1), a virtual target setting device (5) for managing a priori knowledge of the data relationship between control state quantities obtained to realize a desired control state of a controlled object, and a control operation When a quantity is given, the control state quantity of the control target or its control target model and the virtual control state quantity specified from the management data of the virtual target setting device (5) corresponding to the control state quantity An operation correction amount calculation device (6) for calculating a correction amount of the control operation amount required to realize a desired control state from the target value, and the data processing device (1) has a control state. As you enter the amount, The output corresponding to the force is treated as a control operation amount and given to the control target or its control target model, and the control operation amount is corrected according to the correction amount from the operation correction amount calculation device (6) at that time. The data processing device (1) is obtained by obtaining a teacher signal by going and setting the signal conversion function according to the obtained teacher signal.
Is a control device construction system for constructing a control device for realizing a desired control state, wherein the data processing device (1) includes a control state quantity output from a control target or a control target model, and a control While adopting a configuration in which a difference value with respect to the target control state amount or a value corresponding thereto is input, the virtual target setting device (5) uses the difference value with the control state amount as the control target as a parameter. The a priori knowledge of the data relationship between the control state quantities is managed, the controlled object is operated from the given target value without control input, and the state of the controlled object during that period is sampled. A control device configured to obtain a rule for calculating.
JP3281623A 1991-10-28 1991-10-28 Controller Withdrawn JPH05120253A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3281623A JPH05120253A (en) 1991-10-28 1991-10-28 Controller

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3281623A JPH05120253A (en) 1991-10-28 1991-10-28 Controller

Publications (1)

Publication Number Publication Date
JPH05120253A true JPH05120253A (en) 1993-05-18

Family

ID=17641705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3281623A Withdrawn JPH05120253A (en) 1991-10-28 1991-10-28 Controller

Country Status (1)

Country Link
JP (1) JPH05120253A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105392419A (en) * 2013-03-15 2016-03-09 第一原理公司 A system and method for bio-signal control of an electronic device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105392419A (en) * 2013-03-15 2016-03-09 第一原理公司 A system and method for bio-signal control of an electronic device

Similar Documents

Publication Publication Date Title
Tran et al. Adaptive terminal sliding mode control of uncertain robotic manipulators based on local approximation of a dynamic system
CN109465825B (en) RBF neural network self-adaptive dynamic surface control method for flexible joint of mechanical arm
Castillo et al. Intelligent adaptive model-based control of robotic dynamic systems with a hybrid fuzzy-neural approach
US5285377A (en) Control apparatus structuring system
Karakasoglu et al. Identification and decentralized adaptive control using dynamical neural networks with application to robotic manipulators
Dian et al. Adaptive backstepping control for flexible-joint manipulator using interval type-2 fuzzy neural network approximator
CN110815225B (en) Point-to-point iterative learning optimization control method of motor-driven single mechanical arm system
Qi et al. Stable indirect adaptive control based on discrete-time T–S fuzzy model
US4933871A (en) Graded learning device and method
Moham Design a fuzzy PID controller for trajectory tracking of mobile robot
Mohammed et al. Trajectory tracking control and robustness analysis of a robotic manipulator using advanced control techniques
Erbatur et al. Use of adaptive fuzzy systems in parameter tuning of sliding-mode controllers
CN110471281B (en) Variable-discourse-domain fuzzy control system and control method for trajectory tracking control
CN112051734A (en) Wheeled mobile robot event triggering tracking control method based on deterministic learning
CN115990888A (en) Mechanical arm control method with dead zone and time-varying constraint function
CN107942679A (en) Omnidirectional's chassis control method based on fuzzy immunization neural network algorithm
Mistry et al. Indirect control of a class of nonlinear dynamic systems
Jagannathan et al. gripper
JPH05120253A (en) Controller
Mezghani et al. Multimodel control of discrete systems with uncertainties
Tutunji et al. A three-stage PSO-based methodology for tuning an optimal PD-controller for robotic arm manipulators
Babuška et al. Laboratory evaluation of fuzzy controllers
Hamzaoui et al. Fuzzy sliding mode control with a fuzzy switching function for non-linear uncertain multi-input multi-output systems
JPH056204A (en) Controller construction processing system
Tascillo et al. Neural and fuzzy robotic hand control

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990107