JPH07319507A

JPH07319507A - ロボット制御装置

Info

Publication number: JPH07319507A
Application number: JP6112359A
Authority: JP
Inventors: Ozukan Mahametsudo; オズカンマハメッド; Koichi Negishi; 公一根岸
Original assignee: Bridgestone Corp
Current assignee: Bridgestone Corp
Priority date: 1994-05-26
Filing date: 1994-05-26
Publication date: 1995-12-08

Abstract

(57)【要約】（修正有）【目的】ロボットの運動軌道を、遅れ時間無しで、高
精度に制御する。【構成】一軸毎に位置制御とアクチュエータ制御を受
け持つ、二つのニューラルネットから構成された、ロボ
ット軌道のオープンループ制御装置に関するものであ
る。制御対象の動力学パラメータは、位置制御用のバッ
クプロパゲーションのニューラルネット上で一般化デル
タ則を用いて学習される。また、アクチュエータの伝達
関数パラメータは、別のニューラルネットの組み合わせ
によって学習される。アクチュエータ用の圧力センサや
位置センサが、それぞれのニューラルネットの独立した
学習に使われる。このセンサ信号は、ニューラルネット
の学習のみに使われ、制御段階ではフィードバックルー
プは存在しない。制御段階と学習段階は、ニューラルネ
ットを有効に割り当て、１サンプリング内で実行され
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ロボットの運動及び軌
道を制御するロボット制御装置に関する。

【０００２】

【従来の技術】人間の手の動きと同様な動作は、メカニ
カルなアームを持ったロボットによって実現されてい
る。このようなロボットのアームは、可動または固定関
節で接続されたリンクの結合構造体で、関節をアクチュ
エータで駆動することで動作されている。またロボット
アームの運動軌道は、関節での回転角、回転速度、加速
度、に変換できる。

【０００３】ロボットアームを制御する上でロボットア
ームのエンドエフェクタの運動軌道つまり、ロボットの
手先の運動軌道を制御することは重要である。このエン
ドエフェクタの運動軌道は、そこに至る各関節の運動軌
道を統合する事で実現される。従って、共通または独立
に各関節を駆動しているアクチュエータの生み出す出力
は、ロボットシステム全体を制御するべく調節される必
要がある。

【０００４】多関節型のロボットアームは、姿勢により
慣性モーメントが変化する事や、関節間に干渉があり、
アクチュエータのトルクが他の関節に影響を与える等の
為、非線形性が強い。さらにアクチュエータやアクチュ
エータの出力を制御するアクチュエータ制御系の非線形
特性がそれに加わり、多関節型ロボットアームの制御は
一般に難しい。

【０００５】このようなロボットアームの制御には、局
所的に設計されたフィードバックループによるＰＩＤ制
御を用いたロボット制御装置が使われている。この制御
方法は、予めＰＩＤ定数を決定しておき、制御段階にお
いては、制御対象に取り付けられた、例えば、位置検出
手段等により得られる制御量によって操作量を決定し、
制御対象に操作を加える制御方法である。しかしなが
ら、よく調整されたＰＩＤ制御装置でも、制御対象の応
答が極度に遅い場合やアクチュエータのコンプライアン
スが大きい場合には、この、フィードバック信号への依
存性が欠点となる。つまり位置の誤差がフィードバック
される時点で、すでに位置を補正するには遅すぎるとい
う問題が生じてしまう。このことは、特に速度や加速度
の大きい動作軌道で顕著である。

【０００６】そのような場合制御系の設計者は、精度ま
たは速度において妥協することになり、軌道制御におい
て良い結果が得られなかった。

【０００７】さらに、フィードバックをやめて目標とな
る関節軌道から直接制御に必要な制御量を計算する方法
が提案されている。この方法は厳密な制御対象のモデル
を作りそのモデルから得られたパラメータの推定に基づ
くオープンループ制御である。しかしながら、多関節ロ
ボットアームなどの非線形システムは、前述の非線形性
を持つために良いモデルを立てることと精密なパラメー
タ推定を行うことが、実際には非常に困難であり、殆ど
実現されていない。

【０００８】近年、人工のニューラルネットが、非線形
な制御対象の挙動をまねるように学習され得ることが示
されてきている。

【０００９】ニューラルネットワークは、人間の脳にお
ける神経回路網を簡略化したモデルである。それは神経
細胞ニューロンと、ニューロンをリンクで介したシナプ
ス結合でよって構成されている。ニューロン間の信号の
伝達はシナプス結合を通して行われ、この結合の強度を
適当に調整することにより、様々な情報処理が可能とな
る。各ニューロン素子では、他のニューロン素子からの
出力をシナプス結合の重み付けをして入力し、それらの
総和を非線形応答関数の変数を加えて再度他のニューロ
ン素子へ出力する。

【００１０】従って上記のようなニューラルネットワー
クは、ある入力に対する望ましい出力と実際の出力との
誤差からシナプス結合の強度を修正し、種々の入力に対
して望ましい出力を常に得られるようにする事が出来
る。これがニューラルネットワークの学習機能である。

【００１１】ニューラルネットワークの学習方法は、一
般的には、バックプロパゲーションとよばれる最適化手
法を用いて行われる。以下にその最適化手法を示す第１
図はニューラルネットワークを示す図であり、１はニュ
ーロン素子を示し、各ニューロン素子は生体系のアクソ
ンに相当するリンク２で結合され、ニューロン素子ｉと
ニューロン素子ｊは生体系のシナプス結合の重みに相当
する結合加重Ｗijで結合されている。

【００１２】一般にニューロン素子（ノード）は、図１
に示すように層構造内に存在する。最初の層は、入力デ
ータを受け取る入力層と呼ばれる。最後の層は出力層
で、中間の層は隠れ層と呼ばれる。

【００１３】２つのニューロン素子ｉ、ｊ間の結合は、
リンクと呼ばれ、結合の強度は、図１のようにＷjiであ
らわされ、生体に於ける神経細胞のシナプス結合に対応
している。入力と出力の組合せで構成される与えられた
教示データに対して、全ての結合強度の正確な値を見つ
け出すのが学習に相当する。学習段階においては、信号
の伝搬に２種類のモードがある。

【００１４】第１の信号の伝搬モードは、前進伝搬で入
力層のニューロン素子は、入力ベクトルを受け取り、出
力値を計算する。ニューロン素子ｊの入力は、

【００１５】

【数１】ここで、ｎはニューロン素子ｊと結合しているニューロ
ン素子の数である。学習対象が非線形ならば、ニューロ
ン素子ｊの出力は数２で表される、飽和特性を持つ単調
増加関数の、通常はシグモイド関数で計算される。

【００１６】

【数２】第２の信号の伝搬モードは、逆伝搬で出力誤差は、入力
ベクトルに対応して、教示出力と計算出力を比較するこ
とにより計算される。その後、学習アルゴリズムを使っ
て、結合の強度を調整する目的で、中間層に向かって伝
搬していく。

【００１７】出力誤差が教示データに対して、目標とす
る最小のレベルまで減少すれば、その学習済みのニュー
ラルネットワークは、未知の入力パターンに対してシス
テムの出力を計算する前進伝搬に利用できる。

【００１８】一般化デルタ則はバックプロパゲーション
（ＢＰ）ニューラルネットワークの結合荷重を調整する
ための学習アルゴリズムである。ＢＰの出力ノードの出
力誤差は次式で定義される。

【００１９】

【数３】ここで、ｔは出力ニューロン素子に対する教示値で、Ｍ
は出力ニューロン素子の総数である。デルタ則は、結合
荷重を調整するのに、最急降下法を使う。したがって、
結合荷重Ｗjiの修正量は、次式で定義される。

【００２０】

【数４】更に、ニューロン素子ｊに対して、δj を次式で定義す
る。

【００２１】

【数５】変形して、

【００２２】

【数６】この式と数３より

【００２３】

【数７】

【００２４】

【数８】更に、ニューロンの非線形応答関数に数２のシグモイド
関数を用いると

【００２５】

【数９】一方数１より

【００２６】

【数１０】

【００２７】数７、数９、数１０より出力ニューロン素
子に対する数４を書き直すと、

【００２８】

【数１１】以上の学習則がデルタ則と呼ばれるものである。ここ
で、δj は出力誤差の関数で、隠れ層から直接に利用で
きない。出力ノードの誤差量を内部の層に伝搬するアル
ゴリズムは、1986年にRumelhart らによって、紹介され
ており、デルタ則を一般化した形態を取り、一般化デル
タ則（ＧＤＲ）と呼ばれる。学習則にＧＤＲを採用した
ニューラルネットワークは、バックプロパゲーションニ
ューラルネットワークと呼ばれる。ＧＤＲで、隠れ層に
対するδj は、

【００２９】

【数１２】ところが、

【００３０】

【数１３】したがって、シグモイド関数を使ったＧＤＲは、

【００３１】

【数１４】ｔ回目にニューロン素子ｉとｊの結合強度は、次式で修
正される。

【００３２】

【数１５】ここで、ｕとαは各々、学習定数、安定化定数である。
両者を動的に変化させる方法もあるが、普通は実験的に
求めた定数を使えば十分である。以上のバックプロパゲ
ーションニューラルネットワークが一般化デルタ則（Ｇ
ＤＲ）で学習する多層の非線形ニューラルネットワーク
を数学的にうまく記述した学習モデルである。

【００３３】この学習則は、生体の神経細胞の振る舞い
から考案されたもので、最急降下法に基づく一般化デル
タ則は、ニューラルネットの実用例において、最も効果
的な学習技術になってきている。

【００３４】以上のような、学習によって、ニューラル
ネットワークが制御段階で入出力の事例に含まれる一般
的な対応関係を獲得し再現するようになる。従って、制
御対象が非線形特性を有するロボットの制御を上記のニ
ューラルネットワークを用いた制御装置で、フィードバ
ックループを持たない、オープンループ制御を行うこと
が考えられる。

【００３５】

【発明が解決しようとする課題】ところが、前述の通り
ロボットアームの運動軌道の制御は、いくつかの非線形
な関係を制御することを含んでいる。つまり一つ目は、
エンドエフェクタ座標系と関節座標系の関係であり、二
つ目は、関節位置とアクチュエータ入力信号の関係であ
り、さらに、三つ目は、アクチュエータの入出力の関係
である。

【００３６】一般的にニューラルネットワークの層は、
数が多いほどより多くの制御対象の非線形特性を学習出
来る。従って、非線形な関係を複合して含んでいるロボ
ットアームの特性をニューラルネットワークで学習する
ためには、その特性を学習するのに十分な層を持つ事が
必要である。ところが、このようなニューラルネットワ
ークは、ロボットアームの軌道が与えられた目標軌道に
同じかまたは非常に近くなるまで、何組かの教示軌道を
用いて、単独のニューラルネットワークにロボットアー
ムの全特性を学習させてロボットを制御するが、教示用
軌道に対しては満足できる動きを実現するかもしれない
が、教示用軌道の組みが関節座標の全体を代表するよう
な配慮で選ばれない場合には、教示用軌道に含まれなか
った軌道については良い制御結果を生まない可能性があ
る。

【００３７】また、複雑な動きをロボットアームにさせ
る際の目標軌道の連続した変化や、ロボットの環境や構
成の変化に適応できる、ニューラルネットワークのオン
ライン学習と、ロボットアームの実時間における操作を
制御するリアルタイム制御を行う場合には、ニューラル
ネットワークへのサンプリング期間内にすべてのニュー
ラルネットワークの計算処理を終了することが必要であ
る、つまりコントロール信号の計算とシナプス結合の重
みを調整する処理の全てがサンプリング期間内に終了す
るようにニューラルネットを構成することが必要であ
る。

【００３８】ニューラルネットワークの学習は層が一つ
増える毎に必要な計算時間が二乗に比例して増大するた
め、サンプリング期間内にすべてのニューラルネットワ
ークの計算処理を終了する為には、ニューラルネットの
大きさを適切に構成しなければならない。しかしなが
ら、ロボット制御に関わるすべての非線形特性を学習す
るのに十分な大きさのニューラルネットワークは、リア
ルタイム制御とオンライン学習を可能とする学習時間を
実現する事は難しい。

【００３９】本発明は上記問題点を解決するためになさ
れたものであり、この発明の主な目的は、ロボットの制
御段階においてフィードバック信号に依存せず、また、
対象ロボットアームの厳密なモデルを作ることなしに、
オープンループ制御を利用して高精度且つ高速なロボッ
ト制御を可能とし、またロボット制御装置が環境や構成
の変化に適応できるオンライン学習及びリアルタイム制
御を可能とするロボット制御装置を提供することにあ
る。

【００４０】

【問題を解決するための手段】前記目的を達成するため
に、請求項１に記載のロボット制御装置は、非線形特性
を有する複数の制御対象と、前記それぞれの制御対象に
ニューラルネットワークを備え、このニューラルネット
ワークにそれぞれの制御対象の非線形特性を学習させる
ことにより、ロボットの運動軌道を制御させるようにし
たことを特徴とするロボット制御装置であることを特徴
としている。

【００４１】請求項２に記載のロボット制御装置は、前
記ニューラルネットワークが、ロボットアームの運動軌
道とこの運動軌道を制御するために前記ロボットアーム
を駆動するアクチュエータの目標出力との関係を学習す
る位置制御ニューラルネットワークと、前記アクチュエ
ータの伝達関数を学習するアクチュエータニューラルネ
ットワークとからなる請求項１に記載のロボット制御装
置であることを特徴としている。

【００４２】

【作用】請求項１に記載のロボット制御装置では、ロボ
ットの制御対象が持つ非線形特性をその非線形特性ごと
に学習するニューラルネットワークを備えている。その
ため、ロボットの制御対象が持つ複雑な非線形特性を学
習するために、極端に多数のニューロン素子を持つ多数
の中間層からなるニューラルネットワークを使うことな
しに、適当なサイズのニューラルネットワークがそれぞ
れ制御対象の特性を学習する。

【００４３】従って、コントロール信号の計算とシナプ
ス結合の重みを調整する処理の全てが、オンライン学習
及びリアルタイム制御を可能とするサンプリング時間内
に終了する事が可能であり、リアルタイムであって、高
精度且つ環境や構成の変化に適応する制御を行える。

【００４４】請求項２に記載のロボット制御装置では、
ロボットアームの運動軌道とこの運動軌道を生成するた
めに前記ロボットアームを駆動するアクチュエータの目
標出力との関係を学習する位置制御ニューラルネットワ
ークと、アクチュエータの伝達関数を学習するアクチュ
エータニューラルネットワークとを備え、前記アクチュ
エータニューラルネットワークは、前記位置制御ニュー
ラルネットワークの出力ポートに接続されている。

【００４５】そして、適当な大きさのニューラルネット
ワークがロボットアームの運動軌道とアクチュエータの
目標出力の間の非線形性及び、アクチュエータの入出力
の間の非線形性をそれぞれ独立して学習する。

【００４６】動作制御段階では、目標軌道が与えられる
と、前記位置制御ニューラルネットワークがアクチュエ
ータの目標出力値を計算しその信号を、アクチュエータ
ニューラルネットワークの入力ポートへを送る。更に、
アクチュエータニューラルネットワークは、アクチュエ
ータの目標出力値を得るのに必要なアクチュエータ制御
量を計算する。

【００４７】従って、コントロール信号の計算とシナプ
ス結合の重みを調整する処理の全てが、オンライン学習
及びリアルタイム制御を可能とするサンプリング時間内
に終了する事が可能であり、例えばロボットアームとア
ームを駆動するアクチュエータの非線型特性が大きいロ
ボットのアームを制御する場合において、リアルタイム
であって、高精度且つ環境や構成の変化に適応する制御
を行える。

【実施例】

【００４８】以下本発明の一実施例を詳細に説明する。
図３及び図４は本発明のロボット制御装置を適応したロ
ボットアームの正面図及び側面図を示した図である。同
図において、ロボットアーム６は可動な関節９〜１２を
持つ４自由度のアームであり、それぞれの関節は、アク
チュエータとして空気の供給により膨径変形し軸線方向
に収縮力を生じる、例えば特公昭５２−４０３７８号に
開示されたエアバックタイプの弾性収縮体１４を少なく
とも２本で一組とし、複数組用いて所定自由度（４自由
度）のロボットアーム６としている。尚、個々の自由度
方向におけるロボットアーム６の運動量は、その関節を
構成する回転軸に関連して設けられた光または磁気式の
ロータリーエンコーダ８により検知することができる。
また個々の弾性収縮体１４は、図示しないサーボバルブ
及びサ−ボドライバによってアクチュエータに導入され
る空気圧を制御している。１０は、ロボットアームのエ
ンドエフェクタ（手先）１３を示し、実際には、この手
先１３につかみ装置や、溶接装置、スプレーガン等をセ
ットすることで様々な用途にロボットアームを使用でき
る。

【００４９】図５は弾性収縮体１４による各関節の駆動
方法を示した図であり、このモデルが１自由度関節に対
応するモデルである。弾性収縮体１４は図５のように二
本の弾性収縮体１４をプーリ１５に巻回したワイヤー１
６によって相互に連結している。プーリ１５は二本の弾
性収縮体１４に供給する空気圧の差圧により回動移動で
きる。即ち二本の弾性収縮体１４は互いに対抗する軸力
を発生して、その合成力が回転関節のトルクを生み出
す。

【００５０】従って、関節でのトルクは次式で定義され
る。

【００５１】

【数１６】ｒはプーリ１５の半径Ｆ２：加圧側弾性収縮体の収縮力Ｆ１：減圧側弾性収縮体の収縮力

【００５２】弾性収縮体単体の出力即ち、内圧と収縮量
の関係は、図６に示す通りである。この図において縦軸
は弾性収縮体の収縮力、横軸は収縮率を現している。ま
た、収縮量εは次式で定義される。

【００５３】

【数１７】ここで、Ｌo は初期長さ、Ｌは収縮時の長さである。

【００５４】アーム各軸のそれぞれの弾性収縮体はサー
ボバルブで空気圧を制御している。サーボバルブはＰＩ
フィードバック制御ボードを実装した空気圧のサーボバ
ルブである。ＰＩコントローラの目的は、目標圧力レベ
ルを維持することである。

【００５５】図７は本発明のロボット制御装置で軌道制
御される、ロボットアームのエンドエフェクタ（手先）
１３周辺を示した図である。１７、１８はベベルギャを
示し、この２つのベベルギャ１７にそれぞれプーリ１５
を介して、接続される２本一組４本の弾性収縮体１４に
よってエンドエフェクタ１３の軸１９に関する回転運動
と、ベベルギャ１７の回転軸を中心とする回転運動を行
っている。また、関節１１及び１２の位置は、光エンコ
ーダ８によって検出している。この光エンコーダ８は、
関節９〜１２に同じように取り付けられそれぞれの関節
の位置を検出している。

【００５６】図２は、本発明のロボット制御装置のブロ
ック図を示したものである。本発明のロボット制御装置
は、運動軌道変換部３、位置制御ニューラルネットワー
ク４（ＰＯＮＮＥＴ）、アクチュエータニューラルネッ
トワーク５（ＡＮＮＥＴ）、ＰＬＡＮＴ６、（本実施例
では前記のロボットアーム）、アクチュエータセンサ７
（実施例では圧力センサ）、位置センサ８（実施例では
エンコーダ）から構成されている。本発明のロボット制
御装置は信号伝搬の異なる段階である学習サイクルと制
御サイクルとから構成されている。それぞれ実線部が制
御サイクル、破線部が学習サイクルを現す。さらに学習
サイクルの内、ｌ１サイクルはアクチュエータニューラ
ルネットワークの学習サイクルを、ｌ２サイクルは位置
制御ニューラルネットワークの学習サイクルを示す。

【００５７】図８に本実施例のロボット制御装置のハー
ドウェア構成を示す。２０〜２３はロボットアームの可
動関節９〜１２を駆動するアクチュエータである。これ
らのアクチュエータ２０〜２３は、各アクチュエータに
制御圧力を供給するサーボバルブをコントロールするサ
ーボドライバ２４によって制御されている。また各軸の
アクチュエータはアクチュエータ毎に取り付けられた圧
力センサ７によってアクチュエータの制御圧力が検出さ
れる。更に、各関節の角度はエンコーダ８で検出され、
エンコーダ８からのパルス値を取り込み積算するカウン
タ機能部２５に送られる。トランスピュータＴｒ２〜Ｔ
ｒ５はニューラルネットワークの演算処理と、サーボド
ライバの制御信号及び、ニューラルネットワークの学習
のために使われる圧力センサやエンコーダからの検出信
号の入出力処理を行うトランスピュータである。このト
ランスピュータＴｒ２〜Ｔｒ５は、ホストコンピュータ
のコマンドを解釈するユーザーインタフェース及び逆運
動力学によるパラメータ計算を行っているＴｒ１トラン
スピューを介して、これらＴｒ１トランスピュータ及び
Ｔｒ２〜Ｔｒ５トランスピュータを統合しているホスト
コンピュータに接続されている。

【００５８】図９はＴｒ１〜Ｔｒ５トランスピュータの
構成及び、本実施例のロボット制御装置のソフトウェア
構成を示した図である。Ｔｒ１〜Ｔｒ５トランスピュー
タは、お互いに高速で信頼性の高い通信を可能とする４
つのシリアルポートＬＩＮＫ０〜ＬＩＮＫ３を備え、そ
れぞれのトランスピュータが相互に接続されている。ま
たＴｒ２には、Ａ／Ｄ、Ｄ／Ａ等の周辺装置が接続され
ている。Ｔｒ１トランスピュータでは、ユーザインター
フェースでホストコンピュータからのコマンドを解釈
し、次いでロボットアームの目標運動軌道から目標の関
節軌道を逆運動力学により計算を行い目標の関節軌道を
Ｔｒ２に送る。Ｔｒ２トランスピュータは、入力モジュ
ールＮＥＴＩＮと、位置制御ニューラルネットワーク
（ＰＯＮＮＥＴ）及びアクチュエータニューラルネット
ワーク（ＡＮＮＥＴ）と、ニューラルネットワークの出
力モジュールＮＥＴＯＵＴと、Ａ／Ｄ、Ｄ／Ａ及びカ
ウンタ機能部を介してサーボドライバや、各センサ類に
接続される入出力モジュールから成っている。Ｔｒ３〜
Ｔｒ５トランスピュータは入力モジュールＮＥＴＩＮ
と、位置制御ニューラルネットワーク（ＰＯＮＮＥＴ）
及びアクチュエータニューラルネットワーク（ＡＮＮＥ
Ｔ）と、ニューラルネットワークの出力モジュールＮＥ
ＴＯＵＴを備えている。

【００５９】Ｔｒ２の入力モジュールＮＥＴＩＮに入
力された目標の関節軌道は、４軸アームの内１軸分のデ
ータが選ばれＴｒ２ニューラルネットワークに取り込ま
れる。そして、その演算結果が、Ｔｒ２のＮＥＴＯＵ
Ｔでホールドされる。ＮＥＴＩＮで選択されなかった他
の３軸分のデータは、Ｔｒ３〜Ｔｒ５に送られ、それぞ
れ相当するデータが各ニューラルネットワークに取り込
まれ、ＮＥＴＯＵＴでホールドされる。そしてＴｒ５
のＮＥＴＯＵＴまで演算が終了した後、Ｔｒ５〜Ｔｒ
２のＮＥＴＯＵＴでホールドされている演算値が、Ｔ
ｒ２トランスピュータで統合され入出力モジュールへ送
られ、ロボットアームの駆動信号となる。従って、ニュ
ーラルネットワークの学習に必要な圧力センサやエンコ
ーダからの検出信号は、全て、Ｔｒ２トランスピュータ
を介して行われる。尚、実施例の制御アルゴリズムは、
学習と制御の全部の処理がサンプリング周期内に終了す
るよう構成した。

【００６０】図１０に位置制御ニューラルネットワーク
を示す。この図において、ニューラルネットワークは、
前進方向のニューラルネットワーク２６及び、後進方向
のニューラルネットワーク２７を一組をして、回転角度
に対応する複数のニューラルネットワーク１〜ｉ（実施
例では１〜１００または、１〜２００）を備える。２８
及び２９は、回転角度に対応してニューラルネットワー
クをソフトウェアー的に切り換えるスイッチを現す。各
ニューラルネットワークの前後に配置されるスイッチ３
０、３１は、回転方向に依ってソフトウェアー的に切り
換えるスイッチを現す。この構成により、ラバチュエー
タの内圧と出力の関係は離散的ではあるが、線形とな
る。また、アクチュエータのヒステリシス特性を考慮す
ることが出来る。

【００６１】図１１に一自由度用のアクチュエータニュ
ーラルネットワークのブロック図を示す。ロボットアー
ムの関節トルクが弾性収縮体の内圧と比例するならば、
弾性収縮体の内圧を制御することにより目標トルクを得
る事が出来る。ところで、関節トルクは、２本の弾性収
縮体の内圧をそれぞれ、Ｐ0 ＋ΔＰ、Ｐ0 −ΔＰに保こ
とで得られる（数１６）。弾性収縮体１４に取り付けら
れた圧力センサ７からの検出信号は圧力比較部３２で目
標内圧と比較されその誤差量がアクチュエータニューラ
ルネットワーク（ＡＮＮＥＴ）ＣＨ１とＣＨ２の学習に
使われる。従って、アクチュエータニューラルネットワ
ーク（ＡＮＮＥＴ）ＣＨ１とＣＨ２の２つのニューラル
ネットワークは、それぞれの弾性収縮体の伝達率を学習
し、動作制御段階では、関節の目標トルクに対して、そ
れぞれ２本の弾性収縮体の内圧の制御量を出力する。

【００６２】以下で、本実施例のロボット制御装置の制
御サイクルの動作について説明する。図２において、ロ
ボットアームの目標運動軌道は、３で各関節の回転座標
系で現される目標運動軌道ベクトルθd に変換される。
即ち、ロボットアームのエンドエフェクタ（手先）１３
に至る各リンクの相対位置や姿勢の座標系は、同次変換
により表現できる。この時の変換マトリクスがアームの
運動方程式となるが、この変換マトリクスの逆変換を計
算する事で、アームのエンドエフェクタ（手先）の運動
軌道から対応する関節の運動軌道を計算できる。これら
の計算方法は、オイラーまたは、ダイナビット、ハーテ
ンベルクらの逆運動方程式が知られている。

【００６３】３で変換された変換値θd が位置制御ニュ
ーラルネットワーク（ＰＯＮＮＥＴ）４の入力ポートに
入力され、ニューラルネットワークで制御信号が計算さ
れる。即ち、運動軌道ベクトルθd が入力層のそれぞれ
のニューロン素子に入力され、学習によって調整されて
いる各ニューロン素子間の異なる結合荷重を掛け合わ
せ、これらを加算した値に、シグモイド関数により関数
処理を施し、その結果を出力する。この値が、各関節で
の目標トルクτｄとなる。

【００６４】詳細は後述するが、本発明においてラクラ
ンジェ力学が、目標軌道から各関節での目標トルクτｄ
を計算するニューラルネットワークの入力に適した要素
データ、ここではベクトルθd 、を決めるガイドにな
る。

【００６５】ラグランジェ力学は、系の運動エネルギー
と一般化座標、一般化力、時間で記述される運動方程式
である。即ち、系のラグランジアン（Ｌ）は、運動エネ
ルギ（Ｋ）と位置エネルギ（Ｐ）の差として定義され、

【００６６】

【数１８】関節ｉでの必要な力は、

【００６７】

【数１９】ｑは関節ｉでの角度や、変位を示す変数である。角度座
標では、対応するトルクはＴ＝Ｆｒから計算できる。ｒ
は関節軸からの力方向への垂線の長さである。

【００６８】位置制御ニューラルネットワークで計算さ
れた、目標トルクτｄはアクチュエータニューラルネッ
トワーク（ＡＮＮＥＴ）５へ送られる。ＡＮＮＥＴはア
クチュエータの目標トルクτｄを得るのに必要なサーボ
バルブの入力信号を計算する。即ち、本実施例のアクチ
ュエータである弾性収縮体とサーボバルブの特性を一次
遅れ伝達関数と仮定し、この逆伝達関数計算の役割をア
クチュエータニューラルネットワークにさせることで、
アクチュエータの出力が目標値τd と一致するようなサ
ーボバルブヘの入力制御信号をアクチュエータニューラ
ルネットワークで計算することができる。

【００６９】以上のような、ニューラルネットワークに
よる一連の前進伝搬処理によって、ロボットアーム６の
目標軌道に対するアクチュエータ制御値を計算する。こ
れが、フィードフォワード処理で、図２の実線部に相当
する。

【００７０】次に、本実施例のロボット制御装置の学習
サイクルの動作について説明する。図２における、波線
部の流れが、ロボット制御装置の学習段階をあらわす。
学習段階には、２つの同時進行の学習部分がある。（図
２のｌ１とｌ２）

【００７１】学習ｌ１では、アクチュエータの状態はア
クチュエータに取り付けられた、圧力センサ７で検出さ
れる。測定値τm は目標値τd と比較され、両者を一致
させるのが目的である。τm とτd が異なる場合、ＡＮ
ＮＥＴ５のパラメータが一般化デルタ則ＧＤＲアルゴリ
ズムにより、調整される。

【００７２】学習ｌ２では、各関節の位置θm がロボッ
トアームの関節に取り付けられた、位置センサ（エンコ
ーダ）８で検出され、目標値θd と比較される。関節位
置の誤差がある場合は、ＰＯＮＮＥＴ４のパラメータが
ＧＤＲにより調整される。

【００７３】尚、学習ｌ１終了後に学習ｌ２が行われる
よう設定されているためアクチュエータの伝達特性が位
置制御ニューラルネットワークの学習に影響することは
ない。

【００７４】上記の学習フェーズｌ１，ｌ２の途中、ま
たは終了後のいずれにおいてもフィードバック信号は、
直接プラント即ち、ロボットアームに伝達されないの
で、コントローラのオープンループの特性が保たれる。

【００７５】前述した位置制御ニューラルネットワーク
とアクチュエータニューラルネットワークをさらに以下
で説明する。

【００７６】アクチュエータニューラルネットワーク
は、アクチュエータが目標トルクτｄとなるサーボバル
ブの制御信号を得るために、アクチュエータの伝達関数
を学習することを目的としている。もちろん、アクチュ
エータの種類は、電動、空気圧、油圧等のいずれでもよ
いとする。

【００７７】駆動系の機械的なロスを無視すれば、弾性
収縮体とサーボバルブからなる系の特性は１次遅れの伝
達関数と仮定できる。もちろん、出力誤差と伝達関数の
パラメータ間のある関係式を明確にできるならば、もっ
と複雑な伝達関数を設定してもよい。

【００７８】ところで、システムの特性が次式であらわ
されるならば

【００７９】

【数２０】ここで、ｙはプラント出力、ｘは入力信号、Ｔは時定
数。この時、ラプラス変換により、

【００８０】

【数２１】したがって、一次遅れ系の伝達関数は

【００８１】

【数２２】逆伝達関数は、

【００８２】

【数２３】出力ｙを目標値ｖに遅れ時間なしで一致させるには、プ
ラントへの入力は次式となる。

【００８３】

【数２４】この時、

【００８４】

【数２５】時間領域では、次式に変換される。

【００８５】

【数２６】この式が１次遅れ系の伝達関数を表す式であり、したが
って、１次遅れ系で目標値がv(t)ならば、入力信号は、
数２６のx(t)とすれば、実際の出力y(t)はv(t)に一致す
ることになる。

【００８６】今、一次遅れ系におけるアクチュエータの
応答τｍは次式で表される。

【００８７】

【数２７】数２６と図２を参照して、

【００８８】

【数２８】

【００８９】以上により理論上は、目標速度と加速度の
軌道がロボットの物理的な制約内にあるならば、時定数
Ｔがわかればアクチュエータ応答の遅れ時間を打ち消す
ことが可能である。しかし、マニピュレータには、物理
的な限界があり、目標軌道がシステムの応答以上に速い
なら、その遅れは補償できない。従って、一次遅れ系の
システムの応答遅れは、目標軌道が物理的に実現可能と
いう条件の基でのみ修正される。但し制御システムに対
する正確な時定数Ｔを求めなければならないため、この
式だけからアクチュエータの制御信号τａを求めること
は困難である。そこでアクチュエータニューラルネット
ワークにアクチュエータの伝達関数を学習させる。

【００９０】以下、アクチュエータニューラルネットワ
ークの学習について説明する。アクチュエータニューラ
ルネットワークにアクチュエータのパラメータを教示す
るために前述の入力層と出力層からなるニューラルネッ
トワークに一般化デルタ則（ＧＤＲ）を適用した。本実
施例では、小サイズの中間層なしのニューラルネットワ
ークで十分な効果を得た。なぜならば、１次遅れ系の特
性が弾性収縮体とサーボバルブの挙動によく一致してい
るからである。

【００９１】アクチュエータニューラルネットワークの
入力ノードは２つあり、目標トルク信号と目標トルク信
号の変化率である。バイアス項も考慮すると、数１と数
２６から、出力ニューロン素子ｏへの入力は、

【００９２】

【数２９】で現され、この式がアクチュエータニューラルネットワ
ークが学習する逆伝達関数である。そして数３よりアク
チュエータニューラルネットワークの誤差は、

【００９３】

【数３０】この数３０により、単純なバックプロパゲーションニュ
ーラルネットワークを適用して、アクチュエータニュー
ラルネットワークの各ニューロン素子間の異なる結合荷
重を調整する、即ち、数２９のＷの項を調整すること
が、アクチュエータニューラルネットワークの学習とな
る。

【００９４】ここでの制御対象は、弾性収縮体駆動のロ
ボットなので、図１１に示すようにアクチュエータ出力
は直接に次式のように内圧に関係する。

【００９５】

【数３１】 α、β、γは弾性収縮体の固有定数である。

【００９６】ここで、関節の角度θが収縮率εを一定に
するように保たれると仮定すると内圧と出力の関係は、
線形となる。したがって、内圧の制御はトルク制御と同
義となる。

【００９７】図１２及び図１３に本実施例の弾性収縮体
の目標内圧と測定値の関係及び学習済のアクチュエータ
ニューラルネットワークにより弾性収縮体の内圧が補償
される様子を示す。１自由度の弾性収縮体の関節の挙動
を解析すると、図１２に示すように弾性収縮体の内圧
は、遅れを伴って、目標値に追従している。

【００９８】図５に示すような１自由度２本の弾性収縮
体に対して、数２９のように逆伝達関数をアクチュエー
タニューラルネットワークで学習すれば、図１３に示す
ように遅れなしの圧力制御を得ることが可能である。

【００９９】次に、位置制御ニューラルネットワークの
学習について説明する。位置制御ニューラルネットワー
ク（ＰＯＮＮＥＴ）の主な目的は、動作軌道と目標トル
ク信号（図２のθd とτd ）の関係を学習することであ
る。この関係は、前述のラグランジェ力学により理論的
に確立できる。しかし、正確に定義されねばならないパ
ラメータが多すぎて、多自由度のアームへの適応は困難
である。

【０１００】以下、図１４に示す、２リンクのアームを
例にして説明する。

【０１０１】図１４において、両リンクの質量ｍ１およ
びｍ２はリンク先端の質点で代表する。吊り下がりリン
ク長さはｄ１，ｄ２で、座標系の原点及びリンクｄ１と
リンクｄ２の交点が関節となる。座標は図に示したθ1
、θ2 と選ぶ。このモデルを数１９に適応して、数１
９を何度か微分することで、各関節でのトルクは、次式
で示される。

【０１０２】

【数３２】

【０１０３】

【数３３】数３２と数３３は図１４のアームの関節トルクに対する
ある程度完全な式であるが、実際に図１３、図１４のロ
ボットアームに対する有効質点、有効リンク長さ、等の
パラメータを計算するのはあまり実用的でない。そのう
え、必要となるトルクを定義するには、コリオリ力やク
ーロン力といった、弾性収縮体のロボットアームにとっ
て、より算出の困難な要因が存在する。しかし、数３
２、数３３でパラメータが一定か、またはロボットの寿
命に比べて、ほとんど変化しないことは、重要である。
そこで、数３２、数３３で、軌道の変数、すなわち非線
形関数を分離すると、次式を得る。

【０１０４】

【数３４】

【０１０５】

【数３５】

【０１０６】荷重パラメータのＷjiは、ｍ１、ｍ２、ｄ
１、ｄ２、ｇ等のロボットパラメータの関数である。数
３４、数３５から位置制御ニューラルネットワークへの
入力ベクトルは次式で定義される。

【０１０７】

【数３６】したがって位置制御ニューラルネットワークは同時に機
能するｎ個のバックプロパゲーションニューラルネット
ワークを持ち、各々の関節毎に荷重ベクトルＷn があ
る。ここで、ｎはマニピュレータの関節数である。

【０１０８】入力ベクトルθd は、各軸の位置制御ニュ
ーラルネットワークへ分割される。また、マニピュタの
構造から位置制御ニューラルネットワークへの入力ベク
トルがきまる。数１に相当する出力ニューロン素子の入
力の総和は、入力ベクトルθd と各関節の荷重ベクトル
ｗn との内積である。数３６は、必要ならばコリオリ力
やクーロン力の影響を含むように拡張することもでき
る。

【０１０９】ニューロン素子の出力は数２で計算され、
出力誤差は次式のようになる。

【０１１０】

【数３７】ここで、θnmとθndは各々第ｎ番目の関節の実際の測定
値と目標値である。この数３７により、バックプロパゲ
ーションニューラルネットワークを適用して、位置制御
ニューラルネットワークの各ニューロン素子間の異なる
結合荷重、即ち数３４及び数３５のＷの項を調整するこ
とが、位置制御ニューラルネットワークの学習となる。

【０１１１】アクチュエータニューラルネットワーク
（ＡＮＮＥＴ）と位置制御ニューラルネットワーク（Ｐ
ＯＮＮＥＴ）における前述の学習定数μ、αはＡＮＮＥ
ＴがＰＯＮＮＥＴより早く学習できるように設定する。
従って、弾性収縮体とサーボバルブの系の誤差ｅ１（図
２参照）は、位置誤差ｅ２よりも早くゼロに収束する。

【０１１２】アクチュエータニューラルネットワークが
学習後に、位置誤差ｅ２が位置制御ニューラルネットワ
ークに取り込まれる。この時点で、アクチュエータの状
態は位置制御ニューラルネットワークに対して許容範囲
になるように補償されているので、アクチュエータニュ
ーラルネットワークが収束した後に位置制御ニューラル
ネットワークが軌道とトルクの関係を学習する。

【０１１３】本実施例では、位置制御ニューラルネット
ワークの結合強度はリンクの長さや、質点等のラグラン
ジェ力学に関わっているが、位置制御ニューラルネット
ワークの出力がシグモイド関数により制限されているの
で、実際のリンクに対して、厳密に対応しない。位置制
御ニューラルネットワークとアクチュエータニューラル
ネットワーク共に中間層を含まないので、一般には、し
きい関数を使う必要はないが、実施例では、アクチュエ
ータの飽和特性に合致させるためにしきい関数を使用し
た。

【０１１４】図１６は弾性収縮体の内圧と出力及び収縮
率の関係を示した特性図であるが、この図によれば、弾
性収縮体の出力が関節の位置の変化と共に変わることが
わかる。位置と出力の関係は、ゴムの特性、弾性収縮体
のサイズ、配管の長さ等の構造的な要因に依存してい
る。これらは、定義しずらく、ロボットアームによって
も異なる。

【０１１５】前述の数３４及び、数３５で定義したラグ
ランジェ力学で導いた運動方程式は、位置制御ニューラ
ルネットワークで学習されるに際して、トルクが位置に
依存しないことを仮定しているため、このままでは数３
５の入力ベクトルで位置制御ニューラルネットワークを
学習される課程は、教示情報が関節位置毎に矛盾して、
ニューラルネットワークの結合強度は収束しない。すな
わち、位置依存性の教示データを使って、位置に依存し
ない関係式を学習するとになり、精度を得られないか、
制御不能のいずれかである。

【０１１６】そこで、本実施例においては、位置制御ニ
ューラルネットに複数（実施例では、１００〜２００）
の小サイズのニューラルネットワークをつかう方法を考
案した。即ち、位置によって、この中の１つだけを選択
的に有効にする。但し、ニューラルネットワークの構造
は、数３４及び、数３５の関係式から決める。

【０１１７】また、アクチュエータのヒステリシス特性
を考慮するために関節の動作方向別に異なるニューラル
ネットワークを使用する。例えば、図５の１自由度の関
節に対して、時計方向に１００個のニューラルネットワ
ークを用意した場合、同じ関節に対して、反時計方向に
も１００個のニューラルネットワークを準備する。その
結果、方向別に機能する２つのニューラルネットワーク
により位置と圧力即ち、位置とトルクの関係がニューラ
ルネットワークの総数に応じた分解能で学習される。こ
のようにして、ラバチュエータの内圧と出力の関係は部
分的に線形であると仮定した。

【０１１８】図１５に、従来のＰＩＤ制御装置による制
御結果を示す。この図で実線は目標軌道を示し、一点鎖
線は制御結果を示している。縦軸は本実施例のロボット
アームの関節１１の軌道を示し、横軸は制御時間を示し
ている。関節１１の目標軌道は、エンドエフェクタ（手
先）の姿勢を一定に保った直線動作で、５００mm/secの
スピードで５０mmピッチで、１秒ずつ止まりながら前進
動作する。この図によれば、アームが止まる度に大きな
オーバーシュートと加速時の遅れが示されている。図２
３は図２２の一部分を拡大したものであるが、この図に
よれば、オーバーシュートと加速時の遅れがより顕著に
示されている。

【０１１９】同じロボットアームと同じ動作軌道に対し
て、本実施例のロボット制御装置を適用すると図１７及
び図１７の一部分を拡大した図１８に示すようにオーバ
ーシュートはなくなり遅れも小さくなる。また、かなり
速いスピード（５００ｍ／ｓ）に対しても有効であっ
た。

【０１２０】

【発明の効果】以上のように、この発明は、極端に多数
のニューロンを持つ多数の中間層からなるニューラルネ
ットワークを使わずに、ロボットの制御対象が持つ非線
形特性を十分に学習出来き、リアルタイムであって、高
精度且つ環境や構成の変化に適応する制御を行える。

【図面の簡単な説明】

【図１】多層ニューラルネットワーク例。各ニューロン
素子は生体系のアクソンに相当するリンクで結合され、
ニューロン素子ｉとニューロン素子ｊは生体系のシナプ
ス結合に相当する結合加重Ｗｊｉで結合されている。

【図２】本発明のロボット制御装置のブロック図

【図３】

【図４】本発明のロボット制御装置を適応したロボット
アームの正面図及び側面図

【図５】１自由度のラバチュエータの動作原理図

【図６】ラバチュエータの内圧と出力、収縮量の関係を
示す特性図

【図７】本発明のロボット制御装置を適応したロボット
アームの手先部分を示した図

【図８】本発明のロボット制御装置のハードウェアを示
した図

【図９】本発明のロボット制御装置のソフトウェアを示
した図

【図１０】本発明のロボット制御装置の位置制御ニュー
ラルネットワークのブロック図

【図１１】本発明のロボット制御装置のアクチュエータ
ニューラルネットワークのブロック図

【図１２】弾性収縮体の内圧の目標値と測定値の関係を
示した図

【図１３】学習済のアクチュエータニューラルネットワ
ークにより弾性収縮体の内圧が補償される様子を示した
図

【図１４】ラグランジェ力学の方程式を導くのに使用す
る２自由度マニピュレータモデル

【図１５】ＰＩＤ制御による４軸の位置制御結果例。

【図１６】図１５の一部拡大図

【図１７】図１５と同じ軌道を本発明のロボット制御装
置により軌道制御を行った結果例

【図１８】図１７の一部拡大図

【符号の説明】

１ニューロン素子２リンク３運動軌道変換部４位置制御ニューラルネットワーク５アクチュエータニューラルネットワーク６ロボットアーム７圧力センサ８エンコーダ９〜１２可動関節１３手先（エンドエフェクタ）１４弾性収縮体１５プーリ１６ワイヤ２５カウンタ機能部３２圧力比較部

Claims

【特許請求の範囲】

【請求項１】非線形特性を有する複数の制御対象と、前
記それぞれの制御対象にニューラルネットワークを備
え、このニューラルネットワークにそれぞれの制御対象
の非線形特性を学習させることにより、ロボットの運動
軌道を制御させるようにしたことを特徴とするロボット
制御装置。
【請求項２】前記ニューラルネットワークが、ロボット
アームの運動軌道とこの運動軌道を制御するために前記
ロボットアームを駆動するアクチュエータの目標出力と
の関係を学習する位置制御ニューラルネットワークと、
前記アクチュエータの伝達関数を学習するアクチュエー
タニューラルネットワークとからなる請求項１に記載の
ロボット制御装置。