JP2022150281A - Learning device, trajectory generator and manipulator system - Google Patents
Learning device, trajectory generator and manipulator system Download PDFInfo
- Publication number
- JP2022150281A JP2022150281A JP2021052825A JP2021052825A JP2022150281A JP 2022150281 A JP2022150281 A JP 2022150281A JP 2021052825 A JP2021052825 A JP 2021052825A JP 2021052825 A JP2021052825 A JP 2021052825A JP 2022150281 A JP2022150281 A JP 2022150281A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- manipulator
- command
- learning device
- state signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010606 normalization Methods 0.000 claims description 40
- 230000003111 delayed effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 40
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 239000012636 effector Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000000034 method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000005553 drilling Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Manipulator (AREA)
Abstract
Description
本発明は、作業マニピュレータのエンドエフェクタ位置またはエンドエフェクタ姿勢の軌道を生成するときの学習装置、軌道生成器並びにマニピュレータシステムに関する。 The present invention relates to a learning device, a trajectory generator, and a manipulator system for generating a trajectory of an end effector position or posture of a working manipulator.
従来、ピックアンドプレースやはめ合い、ネジ締め、切断、穿孔などの作業を自動で行う作業装置として、少なくともロボットアームとエンドエフェクタとから構成される作業マニピュレータが用いられている。この作業マニピュレータにおいて所望の作業を実施するためには、作業を実行するエンドエフェクタの位置または姿勢もしくはその両方を作業実施可能な軌道で動作する必要がある。そのため、このエンドエフェクタの位置・姿勢の軌道を生成する軌道生成器と生成された軌道にエンドエフェクタを追従させる追従制御系を備えた作業マニピュレータが知られている。 2. Description of the Related Art Conventionally, a work manipulator composed of at least a robot arm and an end effector has been used as a work device that automatically performs work such as pick-and-place, fitting, screw tightening, cutting, and drilling. In order to perform a desired task with this task manipulator, it is necessary to move the position and/or posture of the end effector that performs the task in a trajectory that allows the task to be performed. Therefore, a work manipulator is known that includes a trajectory generator that generates a trajectory of the position and orientation of the end effector and a tracking control system that causes the end effector to follow the generated trajectory.
例えば、特許文献1は、対象とするロボットのモデルを仮想空間に作成し、仮想空間内でモデルを操作することでロボットの軌道を生成可能な、モーション編集装置が記載されている。
For example,
このような軌道生成器においては、仮想空間内のモデルに対する操作に基づいて、実空間の作業マニピュレータの作業部であるエンドエフェクタ位置・姿勢の軌道生成が可能となる。 In such a trajectory generator, it is possible to generate a trajectory of the position/orientation of the end effector, which is the working part of the working manipulator in the real space, based on the manipulation of the model in the virtual space.
しかしながら、特許文献1に記載の技術では、新たな構成の作業マニピュレータに対する軌道生成を行う場合、その新たな作業マニピュレータのモデルを構築し、仮想空間内で操作する必要がある。
However, with the technique described in
本発明は、上記の状況を考慮してなされたものであり、本発明の目的は、異なる構成をもつ複数の作業マニピュレータに対して共通して用いることのできる軌道を生成可能な学習装置、軌道生成器並びにマニピュレータシステムを提供することにある。 SUMMARY OF THE INVENTION The present invention has been made in consideration of the above situation, and an object of the present invention is to provide a learning apparatus capable of generating a trajectory that can be used in common for a plurality of work manipulators having different configurations. It is to provide a generator and a manipulator system.
以上のことから本発明においては、「駆動指令に従い学習用マニピュレータを駆動した時の、駆動指令と学習用マニピュレータの状態信号を用いて学習を行う学習装置であって、学習装置は、駆動指令と状態信号を学習用マニピュレータの仕様に基づいて規格化する規格化手段と、規格化された駆動指令と状態信号を用いて学習する第1の学習器を備えることを特徴とする学習装置。」としたものである。 From the above, in the present invention, "a learning device that performs learning using a drive command and a state signal of the learning manipulator when the learning manipulator is driven in accordance with the drive command, wherein the learning device includes a drive command and a state signal of the learning manipulator. A learning device comprising standardization means for standardizing the state signal based on the specifications of the manipulator for learning, and a first learning device for learning using the standardized drive command and the state signal." It is what I did.
また本発明においては、「作業用マニピュレータに対する駆動指令と、作業用マニピュレータの状態信号を用いて作業用マニピュレータの指令軌道を与える軌道生成器であって、軌道生成器は、作業用マニピュレータに対する駆動指令と状態信号を作業用マニピュレータの仕様に基づいて規格化する規格化手段と、規格化された駆動指令と状態信号を用いて推論する第2の学習器と、第2の学習器の出力を作業用マニピュレータの仕様に基づいて逆規格化する逆規格化手段とを備えて、逆規格化手段の出力を作業用マニピュレータの前記指令軌道とするとともに、第2の学習器は、学習用マニピュレータにおける駆動指令と学習用マニピュレータの状態信号を用いて学習を行うために、学習用マニピュレータにおける駆動指令と状態信号を学習用マニピュレータの仕様に基づいて規格化し、規格化された駆動指令と状態信号を用いて学習した第1の学習器であることを特徴とする軌道生成器。」としたものである。 Further, in the present invention, "a trajectory generator for providing a commanded trajectory for the working manipulator using a driving command for the working manipulator and a state signal of the working manipulator, wherein the trajectory generator is a driving command for the working manipulator. and a state signal based on the specifications of the working manipulator; a second learner for inferring using the normalized drive command and state signal; and an output of the second learner for working denormalization means for denormalizing based on the specifications of the manipulator for work, the output of the denormalization means is used as the command trajectory of the manipulator for work, and the second learning device is configured to drive the manipulator for learning. In order to perform learning using the command and the state signal of the learning manipulator, the drive command and state signal in the learning manipulator are standardized based on the specifications of the learning manipulator, and the standardized drive command and state signal are used. A trajectory generator characterized by being a learned first learner."
また本発明においては、「学習用マニピュレータでの学習結果を複数種類の作業用マニピュレータに反映させるためのマニピュレータ学習システムであって、駆動指令に従い学習用機構を駆動した時の、駆動指令と状態信号を記憶する学習用マニピュレータと、学習用マニピュレータを駆動した時の、駆動指令と学習用マニピュレータの状態信号を用いて学習を行う学習装置であって、駆動指令と状態信号を学習用マニピュレータの仕様に基づいて規格化する規格化手段と、規格化された駆動指令と状態信号を用いて学習する第1の学習器を備える学習装置と、軌道生成器からの指令軌道に基づいて駆動される1つ以上の作業用マニピュレータを備え、軌道生成器は、作業用マニピュレータに対する駆動指令と、作業用マニピュレータの状態信号を用いて作業用マニピュレータの指令軌道を与え、作業用マニピュレータに対する駆動指令と状態信号を作業用マニピュレータの仕様に基づいて規格化する規格化手段と、規格化された駆動指令と状態信号を用いて推論する第2の学習器と、第2の学習器の出力を作業用マニピュレータの仕様に基づいて逆規格化する逆規格化手段とを備えて、逆規格化手段の出力を作業用マニピュレータの指令軌道とし、第2の学習器は第1の学習器とされていることを特徴とするマニピュレータ学習システム。」としたものである。 Further, in the present invention, there is provided a "manipulator learning system for reflecting learning results of a learning manipulator on a plurality of types of working manipulators, wherein when a learning mechanism is driven in accordance with a drive command, a drive command and a state signal and a learning device that performs learning using a driving command and a state signal of the learning manipulator when the learning manipulator is driven, wherein the driving command and the state signal conform to the specifications of the learning manipulator a learning device comprising a normalization means for normalizing based on a first learning device for learning using the normalized drive command and state signal; The trajectory generator includes the above working manipulator, and the trajectory generator uses the driving command for the working manipulator and the state signal of the working manipulator to give the command trajectory for the working manipulator, and the driving command and the state signal for the working manipulator. a normalization means for normalizing based on the specifications of the manipulator for work; a second learning device for inferring using the normalized drive command and state signal; a denormalization means for denormalizing based on the denormalization means, the output of the denormalization means is used as the command trajectory of the working manipulator, and the second learning device is the first learning device. Manipulator learning system."
本発明によれば、構成の異なる複数の作業マニピュレータにおいて、共通の軌道生成器を提供できるようになる。 According to the present invention, a common trajectory generator can be provided for a plurality of working manipulators having different configurations.
上記以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 Problems, configurations, and effects other than those described above will be clarified by the following description of the embodiments.
以下、本発明の実施例について、図面を参照しながら説明する。なお、本発明は、実施例に限定されるものではなく、実施例における種々の信号等は例示である。また、本明細書および図面において、同一の構成要素または実質的に同一の機能を有する構成要素には同一の符号を付することとし、重複する説明は省略する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings. The present invention is not limited to the examples, and various signals and the like in the examples are examples. In addition, in the present specification and drawings, the same components or components having substantially the same functions are denoted by the same reference numerals, and overlapping descriptions are omitted.
図1は、本発明の実施例に係るマニピュレータシステムの構成の一例を示す概略図である。 FIG. 1 is a schematic diagram showing an example of the configuration of a manipulator system according to an embodiment of the invention.
マニピュレータシステム1は、学習用マニピュレータ11と学習装置12とひとつ以上の作業用マニピュレータ13とで構成される。学習用マニピュレータ11は、ひとつ以上の作業用マニピュレータ13の内のひとつ又は一部であってもよい。
The
学習用マニピュレータ11は、学習用機構111と、学習用制御装置112と、操作端末113とで構成される。このうち学習用機構111は、所定の作業を行う学習用作業部1111と、学習用作業部1111を所望の位置や姿勢に配置する学習用移動機構1112と、学習用機構111の状態をセンシングする学習用センサ1113とで構成される。ここで、学習用センサ1113は例えば、学習用移動機構1112の関節角を検出するエンコーダや、学習用作業部1111に作用する作業反力を検出可能な力・トルクセンサなどが挙げられる。
The
学習用制御装置112は、学習用駆動部1121と、学習用状態演算部1122と学習用記憶部1123とで構成される。学習用駆動部1121は、オペレータ操作などによる操作端末113からの駆動指令201に従い、学習用機構111を駆動する。
The
学習用状態演算部1122は、学習用センサ1113のセンサ出力202に基づいて、学習用機構111や対象作業などの状態信号203を演算する。この時、学習用状態演算部1122は、少なくともひとつ以上の、学習用機構111の構成に依存しない状態信号203を演算して出力する。例えば、学習用作業部1111の位置・姿勢や作業反力などである。学習用作業部1111の位置・姿勢は、学習用移動機構1112のリンク長や関節角により座標変換で演算でき、作業反力は力・トルクセンサと学習用作業部1111との相対的な位置・姿勢から座標変換で演算できる。学習用記憶部1123は、操作端末113の出力した駆動指令201と学習用状態演算部1122の出力した状態信号203を記憶する。
Based on the
この構成により、学習用マニピュレータ11は、オペレータなどによる操作端末113の操作に基づいて、学習用機構111で対象作業を模擬的もしくは実際に行いながら、対象作業を実施する際の駆動指令201や状態信号203を収集して学習用記憶部1123に記憶する。
With this configuration, the
図1において、学習装置12は、学習用マニピュレータ11による模擬的もしくは実際の作業で学習用記憶部1123に記憶された駆動指令201や作業状態203などのデータを学習し、対象作業を実行するための作業部位置・姿勢の軌道を生成する学習器を構築する。学習装置12について、図2を用いてその詳細を後述する。
In FIG. 1, the
一つ以上の作業用マニピュレータ13は、作業用機構131と、作業用制御装置132とで構成される。ここで作業用マニピュレータ13の作業用機構131は、学習用マニピュレータ11の学習用機構111と同一に構成されたものであっても、また寸法等が相違して構成されたものであってもよい。従来は、同一機種で学習したものを実機に適用してきたが、本発明においては学習結果を別種機器にも適用可能とするものである。
One or more working
このうち作業用マニピュレータ13の作業用機構131は、学習用機構111同様、作業用作業部1311と、作業用移動機構1312と、作業用センサ1313とで構成される。ここで、作業用センサ1313は、学習用センサ1113同様、例えばエンコーダや力・トルクセンサなどが挙げられる。
Among them, the
作業用制御装置132は、作業用駆動部1321と、作業用状態演算部1322と軌道生成器1323とで構成される。作業用駆動部1321は、軌道生成器1323の出力である作業用作業部131の位置・姿勢の指令軌道204に従い、作業用機構131を駆動する。作業用状態演算部1322は、学習用状態演算部1322と同様に、状態信号203を演算して出力する。
The
軌道生成器1323は、作業用状態演算部1322の出力と外部装置である作業端末133からの作業指示である駆動指令201に基いて、図2で後述する学習器121を用いて作業用作業部131の位置・姿勢の指令軌道を生成して出力する。ここで学習器121は、図1の学習装置12で学習した結果を反映して(移植されて)構成された学習機能である。
The
この構成により、作業用マニピュレータ13は、学習用マニピュレータ11による対象作業実施時のデータを学習した学習器121をもつ軌道生成器1323の生成した指令軌道204に基づいて作業用作業部1311を駆動することで対象作業を実施できる。
With this configuration, the working
図2は、学習装置12の構成の一例を示す概略図である。学習装置12は、学習器121と、規格化演算部122と、正規化演算部123とからなる。学習装置12の入力は、図1に示したように、操作端末113からの駆動指令201と学習用状態演算部1122からの学習用機構111や対象作業などの状態信号203である。この例では駆動指令201は、現在の制御時点における指令軌道データ201a及び次回制御周期における指令軌道データ201c、並びに位置や姿勢についての最終目標値201bを含んで構成されている。
FIG. 2 is a schematic diagram showing an example of the configuration of the
規格化演算部122は、各入力(駆動指令201および状態信号203)を、学習用マニピュレータ11の仕様に基づいて規格化する。例えば、学習用マニピュレータ11において鉛直方向の稼働範囲がZL1からZH1であった場合、鉛直方向のデータを示す入力信号Zに対して、(1)式を適用することで規格化する。
The
また例えば、学習用マニピュレータ11における学習用作業部1111に掛かる定常外力値をFs1とした場合、作業反力など学習用作業部1111に掛かる外力を示す入力信号Fに対して、(2)式を適用することで規格化する。
Further, for example, when the stationary external force value applied to the
また正規化演算部123は、各入力を0から1までの値となるよう正規化する。例えば、入力の取り得る値がWLからWHであった場合、入力Wに対して(3)式を適用することで規格化する。
Also, the
ここで、正規化とは最大値と最小値を1.0と0として入力をこの範囲内に定めたものであるに対し、規格化では機器などで定まる定格値を例えば1.0とするものであるため、過負荷などの状態では1.0以上となることがある。 Here, normalization is to set the maximum and minimum values to 1.0 and 0 and set the input within this range. Therefore, it may become 1.0 or more in a state such as an overload.
学習器121は、たとえばニューラルネットワークで構成できる。図2では、学習器121の入力の一例として、最終目標値201bと、今回制御周期における指令軌道データ201aと、状態信号データ203とが挙げられており、これらを規格化・正規化して学習器121に入力する。
The
最終目標値201bは、対象作業が終了したときの学習用作業部1111の位置・姿勢の目標値であり、例えば学習用マニピュレータ11による対象作業が完了したときの駆動指令201から演算した作業部位置・姿勢とすればよい。今回制御周期における指令軌道データ201aは、少なくとも現時点をふくむ学習用作業部1111の位置・姿勢の指令データである。状態信号データ203は、少なくとも現時点を含むデータであり、例えば学習用作業部1111の位置・姿勢の実現値や作業反力などである。
The
学習器121の出力は、次周期での学習用作業部1111の位置・姿勢の指令値である次周期指令軌道生成値210である。学習装置12は、学習器121のパラメータを、次周期指令軌道生成値210と、学習用マニピュレータ11を用いた対象作業でデータ取得した際の、次周期での学習用作業部1111の位置・姿勢軌道点を規格化・正規化した正規化後次周期指令軌道データ209との誤差211を小さくするよう学習させる。
The output of the
これにより、最終目標値201bと、現時点の指令および作業状況を示す指令軌道データ201aと状態信号データ203とから、次周期での学習用作業部1111の位置・姿勢の指令軌道を示す次周期指令軌道生成値210の推論演算が可能となる。ここで、指令軌道データ201aや状態信号データ203など現状を示す入力信号について、現時点のデータに加えて過去のデータも用いることで、指令軌道の時間的なつながりを学習可能となり、連続的な指令軌道の生成が可能となる。また同様に、学習器121をリカレントニューラルネットワークで構築するなど、時系列学習可能なネットワーク構成とすることでも、同様に連続的な指令軌道の生成が可能となる。
As a result, from the
さらにここで、規格化演算部122による規格化により学習用マニピュレータ11の仕様の影響をなくした入力信号を用いて学習することで、学習用マニピュレータ11とはサイズなどが異なる仕様をもつ作業用マニピュレータ13に対する、学習器121の適用が可能となる。
Furthermore, here, by learning using an input signal that eliminates the influence of the specifications of the
またさらに、学習器121の入力信号である状態信号203を学習用作業部1111の位置・姿勢や作業反力など、学習用マニピュレータ11の構成の影響のない状態量とすることで、リンク長など異なる構成をもつ作業用マニピュレータ13に対する、学習器121の適用が可能となる。
Furthermore, the
図3は、軌道生成器1323の構成の一例を示す概略図である。軌道生成器1323は、作業時規格化演算部13231と、作業時正規化演算部13232と、学習器121と、遅延器13233と、逆正規化演算部13234と、逆規格化演算部13235とからなる。
FIG. 3 is a schematic diagram showing an example of the configuration of the
作業時規格化演算部13231は、外部装置である作業端末133からの作業指示で与えられた最終目標値201bと状態信号203を規格化する。ここで例えば対象作業を物品のピックアップとした場合、作業用作業部1311の稼働範囲や外力の仕様が学習用マニピュレータ11と作業用マニピュレータ13とで異なっても作業に本質的な影響がない。この場合は、作業用マニピュレータ13の仕様が有効利用できるよう、作業時規格化演算部13231は作業用マニピュレータ13の仕様を用いて入力信号を規格化する。また例えば、切断作業における作業反力など、対象作業において絶対的な大きさが重要な入力信号に対しては、学習用マニピュレータ11の仕様を用いて当該入力信号を規格化し、それ以外の入力信号は作業用マニピュレータ13の仕様を用いて規格化する。
The work time
作業時正規化演算部13232は、規格化した最終目標値201bと状態信号203が0から1の値となるよう正規化する。この時、(3)式で示した正規化演算に用いる最大値WHおよび最小値WLは、学習装置12での正規化演算部123と同一の値を用いる。
The working
学習器121は、学習装置12で学習した学習器121を用いる。学習器121の出力である次周期軌道生成値210を遅延器13233で1周期遅らせることで、正規化後指令軌道データ212として、正規化した最終目標値201bと状態信号203とともに学習器121に入力することで、次周期軌道生成値210を推論演算できる。ここで、状態信号203や正規化後指令軌道データ212に現在値に加えて過去の値を用いる場合は、メモリ(図示せず)により状態信号入力203や正規化後指令軌道データ212の過去値を保存して用いればよい。
The
逆正規化演算部13234は、(4)式を用いて次周期軌道生成値210(式中W2)を逆正規化する。この際、WH、WLには作業時正規化演算部13232で作業用作業部1311の位置・姿勢の正規化に用いた(3)式のパラメータを使用する。
The inverse
逆規格化演算部13235は、(5)式を用いて逆正規化演算部13232の出力信号(式中G2)を逆規格化する。この際、GH、GLには作業時規格化演算部13231で作業用作業部1311の位置・姿勢の規格化に用いたパラメータを使用する。
The
この構成により、作業用マニピュレータ13は、学習用マニピュレータ11での対象作業で学習した学習器121を用いて作業用作業部1311の位置・姿勢の指令軌道204を生成できる。
With this configuration, the working
例えば上記の通りマニピュレータシステム1を構成することで、作業用マニピュレータ13で対象作業を実施する場合、学習用マニピュレータ11での対象作業で学習した学習器121を用いて、作業用作業部1311の位置・姿勢の指令軌道204を生成できる。ここで、学習器121の入力を規格化することで、サイズなど異なる仕様をもつ作業用マニピュレータ13に対する学習器121の適用が可能となる。
For example, by configuring the
また、学習用状態演算部1122および作業用状態演算部1322において状態信号203を学習用マニピュレータ11および作業用マニピュレータ13の構成の影響のない状態量とすることで、リンク長など異なる構成をもつ作業用マニピュレータ13に対して、学習器121の適用が可能となる。
In addition, by setting the
言い換えれば、学習用マニピュレータ11で対象作業を学習することで、仕様や構成の異なるひとつ以上の作業用マニピュレータ13での対象作業が可能となる。
In other words, by learning the target work with the
実施例1によれば、学習用マニピュレータ11と作業用マニピュレータ13とでサイズなどが異なる別種機であっても、学習用マニピュレータ11での学習結果を作業用マニピュレータ13に移植し、反映させることが可能となる。
According to the first embodiment, even if the manipulator for learning 11 and the manipulator for
然るにこの場合に想定される問題は、サイズが異なることから、例えば1制御周期での制御量が同一値であると仮定した場合に、例えば作業用マニピュレータ13のサイズが学習用マニピュレータ11と比べて大きいとすると、目標位置までの移動に要する時間が長くなることになる。逆にサイズが小さい場合には、移動に要する時間が早く、また位置精度の確保が困難となる。実施例2では、この点をさらに見直したものである。なお実施例2では、実施例1に記載のマニピュレータシステム1と異なる部分のみについて示す。
However, the problem assumed in this case is that since the sizes are different, for example, if it is assumed that the control amount in one control cycle is the same value, for example, the size of the working
図4は、実施例2に係る軌道生成器の構成の例を示す概略図である。軌道生成器1323は、作業時規格化演算部13231と、作業時正規化演算部13232と、学習器121と、遅延器13233と、逆正規化演算部13234と、逆規格化演算部13235と、サンプラA13236と、サンプラB13237とからなる。
FIG. 4 is a schematic diagram showing an example of the configuration of a trajectory generator according to the second embodiment. The
実施例1と比較すると、学習器121の前後にサンプラ13236、13237が追加された構成となっている。サンプラ13236、13237の適用により、作業用マニピュレータ13の制御演算周期TBに対し、学習器121の部分における計算機の演算周期をTCとすることができる。
Compared with the first embodiment, the configuration is such that
図4において、まず軌道生成器1323は、作業用マニピュレータ13の制御演算周期である作業用制御周期TBとは異なる推論演算周期TCで学習器121による推論演算を行う。
In FIG. 4, the
TBがTCより長い周期の場合、サンプラA13236はアップサンプリングにより周期TBの信号を周期TCに変換し、サンプラB13237はダウンサンプリングにより周期TCの信号を周期TBに変換する。
When TB has a longer period than TC, the
TCがTBより長い周期の場合、サンプラA13236はダウンサンプリングにより周期TBの信号を周期TCに変換し、サンプラB13237はアップサンプリングにより周期TCの信号を周期TBに変換する。
When TC has a period longer than TB, the
例えば、学習用マニピュレータ11での学習用記憶部1123へのデータ記録周期をTA、稼働範囲をRA、最高速度をVAとし、作業用マニピュレータ13の稼働範囲をRB、最高速度をVBとした場合、(6)式で導かれる推論周期TCで学習器121を演算することで、作業用マニピュレータ13において軌道生成器1323の生成する指令軌道204は、最高速度VB以下の軌道となる。つまり、軌道生成器1323に複数の周期を用いることで、規格化や異なる制御周期により追従できない軌道の生成を防止できる。
For example, when the data recording cycle of the
図5は、アップサンプリングの方法の一例を示す概略図である。サンプラA13236またはサンプラB13237において、入力信号301の周期をT1とし、出力信号302の周期をT2とすると、T1がT2より長い周期の場合、例えば図5に示す方法でアップサンプリングできる。
FIG. 5 is a schematic diagram illustrating an example of an upsampling method. In the sampler A13236 or sampler B13237, if the period of the
時間(k-1)T1から次に入力信号301の入る時間kT1までを補間して補間特性303とする。出力信号302を生成する時間iT2では、補間特性303の値を出力信号302とする。
これにより、入力信号301の周期T1よりも短い周期T2をもつ出力信号302の生成が可能となる。
This makes it possible to generate an
ここで、図5では補間特性303を直前の時間(k-1)T1での入力信号301を0次関数で補間して生成しているが、これはこの限りではない。時間(k-2)T1などさらに過去の入力信号301も用いて1次以上の関数で補間してもよく、スプライン関数などを用いてもよい。
Here, in FIG. 5, the interpolated characteristic 303 is generated by interpolating the
図6は、ダウンサンプリングの方法の一例を示す概略図である。サンプラA13236またはサンプラB13237において、入力信号301の周期をT1とし、出力信号302の周期をT2とすると、T2がT1より長い周期の場合、例えば図6に示す方法でダウンサンプリングできる。
FIG. 6 is a schematic diagram illustrating an example of a downsampling method. In the sampler A13236 or sampler B13237, if the period of the
時間(k-1)T1から次に入力信号301の入る時間kT1までを補間して補間特性303とする。出力信号302を生成する時間iT2では、補間特性303の値を出力信号302とする。
これにより、入力信号301の周期T1よりも長い周期T2をもつ出力信号302の生成が可能となる。
This makes it possible to generate an
ここで、図6では補間特性303を直前の時間(k-1)T1での入力信号301を0次関数で補間して生成しているが、これはこの限りではない。時間(k-2)T1などさらに過去の入力信号301も用いて1次以上の関数で補間してもよく、スプライン関数などを用いてもよい。
Here, in FIG. 6, the interpolated characteristic 303 is generated by interpolating the
1:マニピュレータシステム
11:学習用マニピュレータ
111:学習用機構
1111:学習用作業部
1112:学習用移動機構
1113:学習用センサ
112:学習用制御装置
1121:学習用駆動部
1122:学習用状態演算部
1123:学習用記憶部
113:操作端末
12:学習装置
121:学習器
122:規格化演算部
123:正規化演算部
13:作業用マニピュレータ
131:作業用機構
1311:作業用作業部
1312:作業用移動機構
1313:学習用センサ
132:作業用制御装置
1321:作業用駆動部
1322:作業用状態演算部
1323:軌道生成器
13231:作業時規格化演算部
13232:作業時正規化演算部
13233:遅延部
13234:逆正規化演算部
13235:逆規格化演算部
133:作業端末
201:駆動指令
202:センサ出力
203:状態信号
204:指令軌道
201b:最終目標値
201a:指令軌道データ
208:次周期指令軌道データ
209:正規化後次周期指令軌道データ
201c:次周期指令軌道生成値
211:誤差
212:正規化後指令軌道データ
301:補間特性
1: Manipulator system 11: Learning manipulator 111: Learning mechanism 1111: Learning working unit 1112: Learning moving mechanism 1113: Learning sensor 112: Learning control device 1121: Learning driving unit 1122: Learning state calculation unit 1123: storage unit for learning 113: operation terminal 12: learning device 121: learning device 122: normalization calculation unit 123: normalization calculation unit 13: working manipulator 131: working mechanism 1311: working working part 1312: working Moving mechanism 1313: Learning sensor 132: Work control device 1321: Work drive unit 1322: Work state calculation unit 1323: Trajectory generator 13231: Work normalization calculation unit 13232: Work normalization calculation unit 13233: Delay Unit 13234: Inverse normalization calculation unit 13235: Inverse normalization calculation unit 133: Work terminal 201: Drive command 202: Sensor output 203: State signal 204: Commanded
Claims (9)
学習装置は、前記駆動指令と前記状態信号を学習用マニピュレータの仕様に基づいて規格化する規格化手段と、規格化された前記駆動指令と前記状態信号を用いて学習する第1の学習器を備えることを特徴とする学習装置。 A learning device that performs learning using a drive command and a state signal of the learning manipulator when the learning manipulator is driven in accordance with the drive command,
The learning device includes normalization means for normalizing the driving command and the state signal based on the specifications of the manipulator for learning, and a first learning device for learning using the normalized driving command and the state signal. A learning device comprising:
前記駆動指令は、今回制御周期と次回制御周期における指令軌道データと、位置、姿勢の最終目標値を含むことを特徴とする学習装置。 The learning device according to claim 1,
The learning device, wherein the drive command includes command trajectory data in the current control cycle and the next control cycle, and final target values of position and attitude.
前記第1の学習器は、前記今回制御周期における指令軌道データと、前記最終目標値と、前記状態信号を入力とし、学習結果と前記次回制御周期における指令軌道データの差を最適化する学習を実行することを特徴とする学習装置。 The learning device according to claim 2,
The first learning device receives the command trajectory data in the current control cycle, the final target value, and the state signal as inputs, and performs learning that optimizes the difference between the learning result and the command trajectory data in the next control cycle. A learning device characterized by executing
前記規格化手段の出力を所定数値範囲内の値に変換する正規化手段を備え、その出力を前記第1の学習器の入力とすることを特徴とする学習装置。 The learning device according to any one of claims 1 to 3,
A learning device comprising normalization means for converting the output of the normalization means into a value within a predetermined numerical range, and using the output as the input of the first learning device.
軌道生成器は、作業用マニピュレータに対する前記駆動指令と前記状態信号を作業用マニピュレータの仕様に基づいて規格化する規格化手段と、規格化された前記駆動指令と前記状態信号を用いて推論する第2の学習器と、前記第2の学習器の出力を作業用マニピュレータの仕様に基づいて逆規格化する逆規格化手段とを備えて、前記逆規格化手段の出力を作業用マニピュレータの前記指令軌道とするとともに、
前記第2の学習器は、学習用マニピュレータにおける駆動指令と学習用マニピュレータの状態信号を用いて学習を行うために、学習用マニピュレータにおける前記駆動指令と前記状態信号を学習用マニピュレータの仕様に基づいて規格化し、規格化された前記駆動指令と前記状態信号を用いて学習した第1の学習器であることを特徴とする軌道生成器。 A trajectory generator that provides a command trajectory for the working manipulator using a drive command for the working manipulator and a state signal of the working manipulator,
The trajectory generator includes standardization means for standardizing the drive command and the state signal for the work manipulator based on the specifications of the work manipulator, and a trajectory generator for reasoning using the standardized drive command and the state signal. 2 learners and denormalization means for denormalizing the output of the second learner based on the specifications of the working manipulator, wherein the output of the denormalization means is converted to the command of the working manipulator. Orbital and
In order to perform learning using the driving command and the state signal of the learning manipulator, the second learning device transmits the driving command and the state signal of the learning manipulator based on the specifications of the learning manipulator. A trajectory generator, wherein the trajectory generator is a first learning device that is normalized and learns using the normalized drive command and the state signal.
前記駆動指令は、位置、姿勢の最終目標値を含み、
前記第2の学習器は、その出力である次回制御周期における指令軌道データを1周期遅らせ、今回制御周期における指令軌道データとして、前記最終目標値と前記状態信号とともに入力し、学習することを特徴とする軌道生成器。 A trajectory generator according to claim 5, comprising:
The drive command includes final target values of position and orientation,
The second learning device is characterized in that the command trajectory data in the next control cycle, which is the output thereof, is delayed by one cycle, and input together with the final target value and the state signal as command trajectory data in the current control cycle for learning. trajectory generator.
前記第2の学習器について、前記規格化手段の出力を所定数値範囲内の値に変換する正規化手段と、前記第2の学習器の出力を逆正規化する逆正規化手段を備え、前記逆正規化手段の出力を前記逆規格化手段の入力とすることを特徴とする軌道生成器。 A trajectory generator according to claim 5 or claim 6,
The second learning device includes normalization means for converting the output of the normalization means into a value within a predetermined numerical range, and denormalization means for denormalizing the output of the second learning device, A trajectory generator, wherein the output of denormalization means is used as the input of said denormalization means.
軌道生成器は計算機により構成され、前記第2の学習器における制御周期と前記第2の学習器以外の部分における制御周期が、相違するものとされていることを特徴とする軌道生成器。 A trajectory generator according to any one of claims 5 to 7,
A trajectory generator, wherein the trajectory generator is composed of a computer, and a control cycle in the second learning device and a control cycle in portions other than the second learning device are different.
駆動指令に従い学習用機構を駆動した時の、前記駆動指令と状態信号を記憶する学習用マニピュレータと、
前記学習用マニピュレータを駆動した時の、駆動指令と学習用マニピュレータの状態信号を用いて学習を行う学習装置であって、前記駆動指令と前記状態信号を学習用マニピュレータの仕様に基づいて規格化する規格化手段と、規格化された前記駆動指令と前記状態信号を用いて学習する第1の学習器を備える学習装置と、
軌道生成器からの指令軌道に基づいて駆動される1つ以上の作業用マニピュレータを備え、
前記軌道生成器は、作業用マニピュレータに対する駆動指令と、作業用マニピュレータの状態信号を用いて作業用マニピュレータの指令軌道を与え、作業用マニピュレータに対する前記駆動指令と前記状態信号を作業用マニピュレータの仕様に基づいて規格化する規格化手段と、規格化された前記駆動指令と前記状態信号を用いて推論する第2の学習器と、前記第2の学習器の出力を作業用マニピュレータの仕様に基づいて逆規格化する逆規格化手段とを備えて、前記逆規格化手段の出力を作業用マニピュレータの前記指令軌道とし、前記第2の学習器は前記第1の学習器とされていることを特徴とするマニピュレータシステム。 A manipulator system for reflecting learning results of a learning manipulator on a plurality of types of working manipulators,
a learning manipulator that stores the driving command and the state signal when the learning mechanism is driven according to the driving command;
A learning device that performs learning using a drive command and a state signal of the learning manipulator when the learning manipulator is driven, wherein the drive command and the state signal are standardized based on the specifications of the learning manipulator. a learning device comprising normalization means and a first learning device that learns using the normalized drive command and the state signal;
one or more working manipulators driven based on commanded trajectories from a trajectory generator;
The trajectory generator provides a command trajectory for the work manipulator using a drive command for the work manipulator and a state signal of the work manipulator, and generates the drive command and the state signal for the work manipulator according to the specifications of the work manipulator. a second learning device for reasoning using the standardized drive command and the state signal; and an output of the second learning device based on the specifications of the working manipulator. denormalization means for performing denormalization, the output of the denormalization means is used as the command trajectory of the working manipulator, and the second learning device is the first learning device. and manipulator system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021052825A JP7479321B2 (en) | 2021-03-26 | 2021-03-26 | Learning device, trajectory generator and manipulator system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021052825A JP7479321B2 (en) | 2021-03-26 | 2021-03-26 | Learning device, trajectory generator and manipulator system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022150281A true JP2022150281A (en) | 2022-10-07 |
JP7479321B2 JP7479321B2 (en) | 2024-05-08 |
Family
ID=83464711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021052825A Active JP7479321B2 (en) | 2021-03-26 | 2021-03-26 | Learning device, trajectory generator and manipulator system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7479321B2 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008254074A (en) | 2007-03-30 | 2008-10-23 | Sega Corp | Motion editing device, and its program |
JP6633209B2 (en) | 2016-08-26 | 2020-01-22 | シャープ株式会社 | Robot, robot control method, and control program |
-
2021
- 2021-03-26 JP JP2021052825A patent/JP7479321B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP7479321B2 (en) | 2024-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Safeea et al. | Kuka sunrise toolbox: Interfacing collaborative robots with matlab | |
Cheah et al. | Adaptive Jacobian tracking control of robots with uncertainties in kinematic, dynamic and actuator models | |
CN110355751B (en) | Control device and machine learning device | |
Antonelli et al. | A new on-line algorithm for inverse kinematics of robot manipulators ensuring path tracking capability under joint limits | |
CN106945043B (en) | Multi-arm cooperative control system of master-slave teleoperation surgical robot | |
EP2485875B1 (en) | A method for reducing the energy consumption of an industrial robot and an industrial robot system | |
JP2018114607A (en) | Robot control device, robot system, robot control method, program, and manufacturing method of recording medium and article | |
KR20220155921A (en) | Method for controlling a robot device | |
CN114274147B (en) | Target tracking control method and device, mechanical arm control equipment and storage medium | |
Pettinger et al. | Reducing the teleoperator’s cognitive burden for complex contact tasks using affordance primitives | |
Bianco et al. | A scaling algorithm for the generation of jerk-limited trajectories in the operational space | |
TWI594858B (en) | Robotic arm teaching system | |
WO2021231242A1 (en) | Accelerating robotic planning for operating on deformable objects | |
CN115890735B (en) | Mechanical arm system, mechanical arm, control method of mechanical arm system, controller and storage medium | |
JPH0683427A (en) | Operation point position control system for flexible manipulator | |
JP2022150281A (en) | Learning device, trajectory generator and manipulator system | |
Zhen et al. | Robust approximate constraint following control for SCARA robots system with uncertainty and experimental validation | |
CN115465799A (en) | Tower crane control parameter adjusting method and device, calculating equipment and storage medium | |
JP2629291B2 (en) | Manipulator learning control method | |
Wang et al. | An adaptive controller for robotic manipulators with unknown kinematics and dynamics | |
JPH0193805A (en) | Method for generating teaching data of robot | |
US20220143830A1 (en) | Method, system and nonvolatile storage medium | |
Blank et al. | Adaptive Motion Control Middleware for Teleoperation Based on Pose Tracking and Trajectory Planning | |
Wnuk et al. | Challenges in robotic soft tissue manipulation—Problem identification based on an interdisciplinary case study of a teleoperated drawing robot in practice | |
CN115609343A (en) | Movement magnification adjusting method and device, computer equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240229 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240423 |