JP2023145809A - Reinforcement learning device, reinforcement learning system, object operation device, model generation method and reinforcement learning program - Google Patents
Reinforcement learning device, reinforcement learning system, object operation device, model generation method and reinforcement learning program Download PDFInfo
- Publication number
- JP2023145809A JP2023145809A JP2020119349A JP2020119349A JP2023145809A JP 2023145809 A JP2023145809 A JP 2023145809A JP 2020119349 A JP2020119349 A JP 2020119349A JP 2020119349 A JP2020119349 A JP 2020119349A JP 2023145809 A JP2023145809 A JP 2023145809A
- Authority
- JP
- Japan
- Prior art keywords
- reinforcement learning
- end effector
- gripping mechanism
- training model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 245
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003384 imaging method Methods 0.000 claims abstract description 40
- 239000012636 effector Substances 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000015654 memory Effects 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims description 126
- 230000008859 change Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 abstract description 40
- 230000008569 process Effects 0.000 description 45
- 238000004364 calculation method Methods 0.000 description 23
- 230000033001 locomotion Effects 0.000 description 18
- 230000009471 action Effects 0.000 description 15
- 230000014509 gene expression Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000010191 image analysis Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000007792 addition Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/08—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
Abstract
Description
本開示は、強化学習装置、強化学習システム、物体操作装置、モデル生成方法及び強化学習プログラムに関する。 The present disclosure relates to a reinforcement learning device, a reinforcement learning system, an object manipulation device, a model generation method, and a reinforcement learning program.
所定領域内に載置された複数種類の物体のうち、指定された種類の物体に対して所定の操作(例えば、エンドエフェクタによる把持操作)を成功させるよう、固定カメラで撮影した撮影画像を入力として、エンドエフェクタの動作を強化学習する強化学習システムが知られている。 Input images taken with a fixed camera to successfully perform a predetermined operation (for example, a gripping operation using an end effector) on a specified type of object among multiple types of objects placed within a predetermined area. A reinforcement learning system that performs reinforcement learning on the motion of an end effector is known.
当該強化学習システムによれば、指定された種類の物体が、撮影可能な位置に載置されていれば、強化学習を繰り返すことで、所定の操作の成功確率を上げることができる。一方で、指定された種類の物体が、撮影可能な位置に載置されていない場合には、強化学習を進めることができず、所定の操作の成功確率を上げることができない。 According to the reinforcement learning system, if an object of a specified type is placed in a position where it can be photographed, reinforcement learning can be repeated to increase the success probability of a predetermined operation. On the other hand, if the specified type of object is not placed in a position where it can be photographed, reinforcement learning cannot proceed and the probability of success of a predetermined operation cannot be increased.
本開示は、物体に対する所定の操作の成功確率を上げることが可能な、強化学習装置、強化学習システム、物体操作装置、モデル生成方法及び強化学習プログラムを提供する。 The present disclosure provides a reinforcement learning device, a reinforcement learning system, an object manipulation device, a model generation method, and a reinforcement learning program that can increase the success probability of a predetermined operation on an object.
本開示の一態様による強化学習装置は、例えば、以下のような構成を有する。即ち、
少なくとも1つのメモリと、
少なくとも1つのプロセッサと、を有し、
前記少なくとも1つのプロセッサは、
少なくとも位置及び姿勢のいずれかが変化する撮像装置により撮影された撮影画像に関する情報と、エンドエフェクタにより操作される操作対象の物体を示す目標物体画像に関する情報とを、前記エンドエフェクタの動作を制御するための情報を出力する訓練モデルに入力することと、
前記訓練モデルにより出力された情報に基づき前記エンドエフェクタの動作が制御された場合の、前記物体に対する操作結果に基づいて、前記訓練モデルのパラメータを更新することとを実行可能に構成される。
A reinforcement learning device according to one aspect of the present disclosure has, for example, the following configuration. That is,
at least one memory;
at least one processor;
The at least one processor includes:
The operation of the end effector is controlled by using information regarding a photographed image photographed by an imaging device whose position or orientation changes at least, and information regarding a target object image indicating an object to be operated by the end effector. inputting information into a training model that outputs information for
When the operation of the end effector is controlled based on the information output by the training model, the parameters of the training model can be updated based on the operation result for the object.
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。 Each embodiment will be described below with reference to the accompanying drawings. Note that, in this specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, thereby omitting redundant explanation.
[第1の実施形態]
<強化学習システムのシステム構成>
はじめに、強化学習システムのシステム構成について説明する。図1は、強化学習システムのシステム構成の一例を示す図である。図1に示すように、強化学習システム100は、マニピュレータ110と、強化学習装置120とを有する。
[First embodiment]
<System configuration of reinforcement learning system>
First, the system configuration of the reinforcement learning system will be explained. FIG. 1 is a diagram showing an example of the system configuration of a reinforcement learning system. As shown in FIG. 1, the
マニピュレータ110は、例えば、複数種類の物体が混在して載置された物体群130の中から、指定された種類の物体(目標物体画像により示された操作対象の物体)に対して所定の操作を行う装置である。
For example, the
マニピュレータ110の本体部113は、複数の関節を介して接続された複数のアームを有し、それぞれの関節角を制御することで、マニピュレータ110の本体部113の先端部分の位置及び姿勢が制御されるように構成されている。
The
マニピュレータ110の本体部113の先端部分には、指定された種類の物体に対して所定の操作(本実施形態では把持操作)を行う把持機構部111(エンドエフェクタの一例)が取り付けられている。指定された種類の物体に対する把持操作は、把持機構部111の開閉を制御することにより行われる。
A gripping mechanism 111 (an example of an end effector) that performs a predetermined operation (grasping operation in this embodiment) on a specified type of object is attached to the tip of the
また、マニピュレータ110の本体部113の先端部分には、撮像装置112が取り付けられている。つまり、撮像装置112は、把持機構部111の位置及び姿勢の変化に伴って、位置及び姿勢が変化するように構成されている。撮像装置112は、R値、G値、B値の各画像を含む撮影画像を所定のフレーム周期で出力する。あるいは、撮像装置112は、R値、G値、B値の各画像に加えて、物体表面の各位置までの距離情報を含む撮影画像を所定のフレーム周期で出力してもよい。あるいは、撮像装置112は、物体表面の各位置までの距離情報を含む距離画像を所定のフレーム周期で出力してもよい。また、撮像装置112が撮影する撮影画像は動画像であってもよい。以下では、説明の簡略化のため、一例として、撮像装置112は、R値、G値、B値の各画像を含む撮影画像を所定のフレーム周期で出力するものとして説明する。
Furthermore, an
更に、マニピュレータ110の本体部113を支持する支持台114には、「把持機構部111の動作を制御」(把持機構部111の位置及び姿勢と、把持機構部111の開閉とを制御)する駆動制御装置115が内蔵されている。
Furthermore, the
駆動制御装置115は、撮像装置112により撮影された撮影画像を取得し、強化学習装置120に送信する。また、駆動制御装置115は、マニピュレータ110の把持機構部111及び本体部113内に配された各種センサ(不図示)により検出されたセンサ信号を取得し、強化学習装置120に送信する。
The
また、駆動制御装置115は、撮影画像及びセンサ信号を送信したことに応じて、強化学習装置120から、把持機構部111の動作を制御するための情報を取得する。ここでいう把持機構部111の動作を制御するための情報には、例えば、
・把持機構部111の動作後の状態を示す情報(目標値)、
・把持機構部111の位置及び姿勢と、把持機構部111の開閉とを制御するための具体的な操作量、制御量、
等、把持機構部111の動作に関する任意の指令が含まれてもよい。また、把持機構部111の動作を制御するための情報には、マニピュレータ110の動作を制御するための情報が含まれてもよい。以下では、駆動制御装置115は、把持機構部111の動作を制御するための情報の一例として、把持機構部111の動作後の状態を示す情報を取得するものとして説明する。
Further, the
- Information indicating the state of the
- Specific operation amount and control amount for controlling the position and posture of the
Any command regarding the operation of the
更に、駆動制御装置115は、把持機構部111の動作後の状態を示す情報を取得すると、各種センサ信号(把持機構部111の動作前の状態を示す情報)に基づいて、
・マニピュレータ110の把持機構部111内の各種アクチュエータ(不図示)、及び、
・マニピュレータ110の本体部113内の各種アクチュエータ(不図示)、
を制御する。これにより、把持機構部111の位置及び姿勢と、把持機構部111の開閉とが制御される。
Furthermore, upon acquiring the information indicating the state of the
- Various actuators (not shown) in the
- Various actuators (not shown) in the
control. As a result, the position and posture of the
強化学習装置120は、駆動制御装置115より送信された撮影画像と、把持機構部111が把持する把持対象の物体を示す目標物体画像とを入力として、把持機構部111の動作後の状態を示す情報を出力する強化学習モデル(訓練モデルの一例)を有する。強化学習モデルには、例えば、ニューラルネットワークが用いられてもよい。
The
なお、駆動制御装置115より送信された撮影画像に関する情報を強化学習モデルに入力するにあたっては、撮影画像そのものを入力する代わりに、撮影画像から抽出される特徴量を入力してもよい。撮影画像から抽出される特徴量とは、例えば、撮影画像をニューラルネットワークに入力することで中間層から出力される特徴量等である。
Note that when inputting the information regarding the photographed image transmitted from the
また、強化学習モデルに入力する目標物体画像に関する情報は、R値、G値、B値の各画像を含む撮影画像であってもよいし、R値、G値、B値の各画像と物体表面の各位置までの距離情報とを含む撮影画像であってもよい。あるいは、目標物体画像は、物体表面の各位置までの距離情報を含む距離画像であってもよい。あるいは、目標物体画像は、動画像であってもよい。また、強化学習モデルには、目標物体画像そのものを入力する代わりに、目標物体画像から抽出される特徴量(例えば、目標物体画像をニューラルネットワークに入力することで中間層から出力される特徴量)を入力してもよい。以下では、説明の簡略化のため、目標物体画像の一例として、R値、G値、B値の各画像を含む撮影画像が入力されるものとして説明する。 Further, the information regarding the target object image input to the reinforcement learning model may be a captured image including each image of R value, G value, and B value, or each image of R value, G value, and B value and the object The captured image may also include distance information to each position on the surface. Alternatively, the target object image may be a distance image including distance information to each position on the object surface. Alternatively, the target object image may be a moving image. In addition, instead of inputting the target object image itself, the reinforcement learning model uses features extracted from the target object image (for example, features output from the intermediate layer by inputting the target object image into a neural network). You may also enter In the following description, in order to simplify the explanation, it will be assumed that a captured image including R value, G value, and B value images is input as an example of a target object image.
また、強化学習モデルにより出力された、把持機構部111の動作後の状態を示す情報に基づき、把持機構部111の動作が制御されることで、強化学習装置120は、把持対象の物体に対する操作結果(例えば、把持操作が成功したか否かの判定結果)を取得する。そして、強化学習装置120では、取得した操作結果に基づいて、強化学習モデルのモデルパラメータを更新する。
Furthermore, the operation of the grasping
このように、強化学習システム100では、複数種類の物体が混在して載置された物体群130の中から、指定した種類の物体を把持する場合の把持操作の成功確率を上げるために、
・把持機構部111の位置及び姿勢の変化に伴って、位置及び姿勢が変化する撮像装置112により撮影された撮影画像に関する情報を用いて、強化学習を行う。
In this way, in the
- Reinforcement learning is performed using information regarding images taken by the
これにより、例えば、把持対象の物体が、撮影可能な位置に載置されていない場合でも、強化学習の過程で把持対象の物体が撮影可能となるように、把持機構部111を動作させることができる。つまり、本実施形態によれば、把持対象の物体の載置状態によらず、把持操作の成功確率を上げることが可能な強化学習システム100を提供することができる。
As a result, for example, even if the object to be gripped is not placed in a position where it can be photographed, the
なお、本実施形態では、符号140に示すように、図1の紙面縦方向をZ軸方向、図1の紙面横方向をY軸方向、図1の紙面奥行き方向をX軸方向と定義するものとする。
In this embodiment, as shown by
<強化学習システムを構成する各装置のハードウェア構成>
次に、強化学習システム100を構成する、マニピュレータ110のハードウェア構成(ここでは機構系については省略し、制御系に関するハードウェア構成を示す)及び強化学習装置120のハードウェア構成について図2を用いて説明する。図2は、強化学習システムを構成する各装置のハードウェア構成の一例を示す図である。
<Hardware configuration of each device configuring the reinforcement learning system>
Next, using FIG. 2, we will explain the hardware configuration of the manipulator 110 (here, the mechanism system is omitted and the hardware configuration related to the control system is shown) and the
(1)マニピュレータのハードウェア構成
図2に示すように、マニピュレータ110は、撮像装置112、駆動制御装置115に加えて、センサ群211、アクチュエータ群212を有する。
(1) Hardware Configuration of Manipulator As shown in FIG. 2, the
センサ群211は、n個のセンサを含む。本実施形態において、n個のセンサには、少なくとも、
・把持機構部111の位置及び姿勢を算出するためのセンサ(本体部113の各関節角を測定するセンサ)、
・把持機構部111の開閉を検知するセンサ、
が含まれる。
The sensor group 211 includes n sensors. In this embodiment, the n sensors include at least:
- A sensor for calculating the position and orientation of the gripping mechanism section 111 (a sensor for measuring each joint angle of the main body section 113),
- A sensor that detects opening and closing of the
is included.
また、アクチュエータ群212は、m個のアクチュエータを含む。本実施形態において、m個のアクチュエータには、少なくとも、
・把持機構部111の位置及び姿勢を制御するためのアクチュエータ(本体部113の各関節角を制御するためのアクチュエータ)、
・把持機構部111の開閉を制御するためのアクチュエータ、
が含まれる。
Furthermore, the
- An actuator for controlling the position and posture of the gripping mechanism section 111 (an actuator for controlling each joint angle of the main body section 113),
- An actuator for controlling opening and closing of the
is included.
また、駆動制御装置115は、センサ信号処理装置201、アクチュエータ駆動装置202、コントローラ203を有する。センサ信号処理装置201は、センサ群211から送信されたセンサ信号を受信し、コントローラ203にセンサ信号データを通知する。また、アクチュエータ駆動装置202は、コントローラ203からの制御信号データを取得し、アクチュエータ群212に制御信号を送信する。
Further, the
コントローラ203は、撮像装置112から送信された撮影画像を取得し、強化学習装置120に送信する。また、コントローラ203は、センサ信号処理装置201より通知されたセンサ信号データを、強化学習装置120に送信する。
The
また、コントローラ203は、撮影画像及びセンサ信号データを送信したことに応じて、強化学習装置120から、把持機構部111の動作後の状態を示す情報を取得する。更に、コントローラ203は、把持機構部111の動作後の状態を示す情報を取得すると、センサ信号データに基づいて、アクチュエータ群212を動作させる制御信号データを生成し、アクチュエータ駆動装置202に通知する。
Further, the
(2)強化学習装置のハードウェア構成
次に、強化学習装置120のハードウェア構成について説明する。図2に示すように、強化学習装置120は、構成要素として、プロセッサ221、主記憶装置(メモリ)222、補助記憶装置223、ネットワークインタフェース224、デバイスインタフェース225を有する。強化学習装置120は、これらの構成要素がバス226を介して接続されたコンピュータとして実現される。
(2) Hardware configuration of reinforcement learning device Next, the hardware configuration of the
なお、図2の例では、強化学習装置120は、各構成要素を1個ずつ備えるものとして示しているが、強化学習装置120は、同じ構成要素を複数備えていてもよい。また、図2の例では、1台の強化学習装置120が示されているが、強化学習プログラムが複数台の強化学習装置にインストールされて、当該複数台の強化学習装置それぞれが強化学習プログラムの同一のまたは異なる一部の処理を実行するように構成してもよい。この場合、強化学習装置それぞれがネットワークインタフェース224等を介して通信することで全体の処理を実行する分散コンピューティングの形態をとってもよい。つまり、強化学習装置120は、1または複数の記憶装置に記憶された命令を1台または複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、駆動制御装置115から送信された各種データをクラウド上に設けられた1台または複数台の強化学習装置で処理し、処理結果を駆動制御装置115に送信する構成であってもよい。
In the example of FIG. 2, the
強化学習装置120の各種演算は、1または複数のプロセッサを用いて、または、通信ネットワーク240を介して通信する複数台の強化学習装置を用いて並列処理で実行されてもよい。また、各種演算は、プロセッサ221内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部または全部は、通信ネットワーク240を介して強化学習装置120と通信可能なクラウド上に設けられた外部装置230(プロセッサ及び記憶装置の少なくとも一方)により実行されてもよい。このように、強化学習装置120は、1台または複数台のコンピュータによる並列コンピューティングの形態をとってもよい。
Various operations of the
プロセッサ221は、電子回路(処理回路、Processing circuit、Processing circuitry、CPU、GPU、FPGA、又はASIC等)であってもよい。また、プロセッサ221は、専用の処理回路を含む半導体装置等であってもよい。なお、プロセッサ221は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ221は、量子コンピューティングに基づく演算機能を含むものであってもよい。
The
プロセッサ221は、強化学習装置120の内部構成の各装置等から入力された各種データや命令に基づいて各種演算を行い、演算結果や制御信号を各装置等に出力する。プロセッサ221は、OS(Operating System)や、アプリケーション等を実行することにより、強化学習装置120が備える各構成要素を制御する。
The
また、プロセッサ221は、1チップ上に配置された1又は複数の電子回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。
Further, the
主記憶装置222は、プロセッサ221が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置222に記憶された各種データがプロセッサ221により読み出される。補助記憶装置223は、主記憶装置222以外の記憶装置である。なお、これらの記憶装置は、各種データを格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。強化学習装置120において各種データを保存するための記憶装置は、主記憶装置222又は補助記憶装置223により実現されてもよく、プロセッサ221に内蔵される内蔵メモリにより実現されてもよい。
The
また、1つの主記憶装置222に対して、複数のプロセッサ221が接続(結合)されてもよいし、単数のプロセッサ221が接続されてもよい。あるいは、1つのプロセッサ221に対して、複数の主記憶装置222が接続(結合)されてもよい。強化学習装置120が、少なくとも1つの主記憶装置222と、この少なくとも1つの主記憶装置222に接続(結合)される複数のプロセッサ221とで構成される場合、複数のプロセッサ221のうち少なくとも1つのプロセッサが、少なくとも1つの主記憶装置222に接続(結合)される構成を含んでもよい。また、複数台の強化学習装置120に含まれる主記憶装置222とプロセッサ221とによって、この構成が実現されてもよい。さらに、主記憶装置222がプロセッサと一体になっている構成(例えば、L1キャッシュ、L2キャッシュを含むキャッシュメモリ)を含んでもよい。
Further, a plurality of
ネットワークインタフェース224は、無線又は有線により、通信ネットワーク240に接続するためのインタフェースである。ネットワークインタフェース224には、既存の通信規格に適合したもの等、適切なインタフェースが用いられる。ネットワークインタフェース224により、通信ネットワーク240を介して接続された駆動制御装置115やその他の外部装置230と各種データのやり取りが行われてもよい。なお、通信ネットワーク240は、WAN(Wide Area Network)、LAN(Local Area Network)、PAN(Personal Area Network)等のいずれか、又は、それらの組み合わせであってもよく、コンピュータと駆動制御装置115やその他の外部装置230との間で情報のやり取りが行われるものであればよい。WANの一例としてインタネット等があり、LANの一例としてIEEE802.11やイーサネット等があり、PANの一例としてBluetooth(登録商標が)やNFC(Near Field Communication)等がある。
デバイスインタフェース225は、外部装置250と直接接続するUSB等のインタフェースである。
The
外部装置250はコンピュータと接続されている装置である。外部装置250は、一例として、入力装置であってもよい。入力装置は、例えば、カメラ、マイクロフォン、モーションキャプチャ、各種センサ、キーボード、マウス、又はタッチパネル等のデバイスであり、取得した情報をコンピュータに与える。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の入力部とメモリとプロセッサとを備えるデバイス等であってもよい。
また、外部装置250は、一例として、出力装置であってもよい。出力装置は、例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、又は有機EL(Electro Luminescence)パネル等の表示装置であってもよいし、音声等を出力するスピーカ等であってもよい。また、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力部とメモリとプロセッサとを備えるデバイス等であってもよい。
Moreover, the
また、外部装置250は、記憶装置(メモリ)であってもよい。例えば、外部装置250はネットワークストレージ等であってもよく、外部装置250はHDD等のストレージであってもよい。
Further, the
また、外部装置250は、強化学習装置120の構成要素の一部の機能を有する装置でもよい。つまり、コンピュータは、外部装置250の処理結果の一部又は全部を送信または受信してもよい。
Further, the
<強化学習装置の機能構成>
次に、強化学習装置120の機能構成として、ここでは、2種類の機能構成例について説明する。図3は、強化学習装置の機能構成の一例を示す第1の図である。図3(a)に示すように、強化学習装置120は、更新部310、状態入力部320、強化学習モデル330を有する。
<Functional configuration of reinforcement learning device>
Next, as the functional configuration of the
更新部310は、報酬算出部311を有し、強化学習モデル330のモデルパラメータを更新する。具体的には、更新部310は、把持対象の物体に対する把持操作が成功したか否かの判定結果と、把持機構部111の動作が制御されたことによる状態の変化を示す情報とを取得する。また、報酬算出部311は、更新部310により取得された判定結果に基づき、報酬を算出する。そして、更新部310は、これまでに取得または算出した各種情報(状態の変化を示す情報、報酬等)に基づいて、強化学習モデル330のモデルパラメータを更新する。
The
なお、把持対象の物体に対する把持操作が成功したか否かの判定は、例えば、撮影画像に基づいて自動で行われてもよい。あるいは、把持対象の物体に対する把持操作が成功したか否かの判定は、強化学習システム100のユーザが行ってもよい。
Note that the determination as to whether or not the gripping operation on the object to be gripped has been successful may be automatically performed based on the photographed image, for example. Alternatively, the user of the
また、上述した報酬の算出方法は一例にすぎず、更新部310は、把持操作が成功したか否かの判定結果以外の情報に基づいて、報酬を算出してもよい。例えば、更新部310は、把持操作が成功するまでに要した動作時間や動作回数、把持操作する際のマニピュレータ110全体の動作の大きさ(エネルギ効率)など、各種情報に基づいて、報酬を算出してもよい。
Further, the method for calculating the reward described above is only an example, and the updating
状態入力部320は、駆動制御装置115より送信された撮影画像と、ユーザにより入力された目標物体画像とを取得し、強化学習モデル330に通知する。
The
強化学習モデル330は、更新部310によりモデルパラメータが更新される。また、モデルパラメータが更新された後の強化学習モデル330は、状態入力部320より通知された撮影画像と目標物体画像とを入力として、把持機構部111の動作後の状態を示す情報を出力する。本実施形態において、強化学習モデル330は、把持機構部111の動作後の状態を示す情報として、例えば、
・把持機構部111の動作後の位置及び姿勢を示す情報、
・把持機構部111の動作後の開閉を示す情報、
を出力する。
The model parameters of the
- Information indicating the position and posture of the
- Information indicating opening/closing after operation of the
Output.
一方、図3(b)は、他の機能構成例を示している。図3(b)に示すように、強化学習装置120の状態入力部320は、撮影画像及び目標物体画像に加えて、把持機構部111の動作前(現在)の状態を示す情報を取得し、強化学習モデル330に通知するように構成されている。ここでいう、把持機構部111の動作前(現在)の状態を示す情報には、例えば、
・把持機構部111の動作前(現在)の位置及び姿勢を示す情報、
・把持機構部111の動作前(現在)の開閉を示す情報、
が含まれる。
On the other hand, FIG. 3(b) shows another functional configuration example. As shown in FIG. 3(b), the
- Information indicating the position and orientation of the
- Information indicating the opening/closing of the
is included.
この場合、強化学習モデル330は、状態入力部320より通知された撮影画像、目標物体画像、把持機構部111の動作前(現在)の状態を示す情報を入力として、把持機構部111の動作後の状態を示す情報を出力する。
In this case, the
<強化学習処理の流れ>
次に、強化学習装置120による強化学習処理の流れについて説明する。図4は、強化学習処理の流れを示す第1のフローチャートである。以下、図4を参照しながら、強化学習処理の流れについて説明する。なお、図4に示す強化学習処理は、あくまで一例であり、他のモデル生成方法により強化学習処理が実行されることで強化学習済みのモデルが生成されてもよい。
<Flow of reinforcement learning processing>
Next, the flow of reinforcement learning processing by the
ステップS401において、強化学習装置120の状態入力部320は、目標物体画像を取得する。
In step S401, the
ステップS402において、強化学習装置120の状態入力部320は、撮影画像を取得する。
In step S402, the
ステップS403において、強化学習装置120の状態入力部320は、把持機構部111の動作前(現在)の状態を示す情報を取得するように構成されている場合にあっては、把持機構部111の動作前(現在)の状態を示す情報を取得する。
In step S403, if the
ステップS404において、強化学習装置120の強化学習モデル330は、目標物体画像、撮影画像、(及び把持機構部111の動作前の状態を示す情報)を入力として、把持機構部111の動作後の状態を示す情報を出力する。なお、強化学習モデル330は、把持機構部111の動作後の状態を示す情報として、様々な情報を網羅的に出力するように構成されているものとする。この結果、強化学習処理中の把持機構部111の動作には、可能な動作の集合の中から選択された最適な動作と、可能な動作の集合の中からランダムに選択された動作とが含まれることになる。
In step S404, the
ステップS405において、強化学習装置120は、強化学習モデル330により出力された、把持機構部111の動作後の状態を示す情報を、駆動制御装置115に送信する。
In step S405, the
ステップS406において、強化学習装置120の更新部310は、把持機構部111の動作が制御されたことによる状態の変化を示す情報を取得する。
In step S406, the updating
ステップS407において、強化学習装置120の更新部310は、把持対象の物体に対する把持操作が成功したか否かの判定結果を取得し、強化学習装置120の報酬算出部311は、取得した判定結果に基づき、報酬を算出する。
In step S407, the updating
ステップS408において、強化学習装置120の更新部310は、これまでに取得または算出した各種情報(状態の変化を示す情報、報酬等)に基づいて、強化学習モデル330のモデルパラメータを更新する。
In step S408, the updating
ステップS409において、強化学習装置120の状態入力部320は、現在の目標物体画像から、異なる目標物体画像へと切り替えるか否かを判定する。
In step S409, the
ステップS409において、異なる目標物体画像に切り替えないと判定した場合には(ステップS409においてNoの場合には)、ステップS402に戻る。 If it is determined in step S409 not to switch to a different target object image (No in step S409), the process returns to step S402.
一方、ステップS409において、異なる目標物体画像に切り替えると判定した場合には(ステップS409においてYesの場合には)、ステップS410に進む。 On the other hand, if it is determined in step S409 to switch to a different target object image (in the case of Yes in step S409), the process advances to step S410.
ステップS410において、強化学習装置120の更新部310は、強化学習処理の終了条件を満たすか否かを判定する。なお、強化学習処理の終了条件とは、例えば、強化学習システム100のユーザによって規定された条件であり、一例として、所定の物体に対する把持操作の目標成功確率等が挙げられる。
In step S410, the
ステップS410において、強化学習処理の終了条件を満たさないと判定した場合には(ステップS410においてNoの場合には)、ステップS401に戻る。 In step S410, if it is determined that the termination condition for the reinforcement learning process is not satisfied (in the case of No in step S410), the process returns to step S401.
一方、ステップS410において、強化学習処理の終了条件を満たすと判定した場合には(ステップS410においてYesの場合には)、強化学習処理を終了する。なお、強化学習処理を終了した後の強化学習モデル330は、強化学習済みモデルとして、把持機構部111の動作を制御するための情報を、駆動制御装置115に対して出力する装置(物体操作装置と称す)に適用される。
On the other hand, if it is determined in step S410 that the conditions for ending the reinforcement learning process are satisfied (in the case of Yes in step S410), the reinforcement learning process is ended. Note that the
物体操作装置に適用された強化学習済みモデルは、図4のステップS401~S405の処理を実行する(つまり、状態の変化を示す情報の取得、報酬の算出、モデルパラメータの更新等は行わない)。また、ステップS404では、把持機構部111の動作後の状態を示す情報として、最適な情報が出力されるように構成される。つまり、把持機構部111は、強化学習処理中とは異なり、様々な動作を網羅的に行う代わりに、可能な動作の集合の中から選択された最適な動作を行う。
The reinforcement learning model applied to the object manipulation device executes the processes of steps S401 to S405 in FIG. 4 (that is, it does not acquire information indicating changes in state, calculate rewards, update model parameters, etc.) . Further, in step S404, the configuration is such that optimal information is output as information indicating the state of the
<強化学習処理の実行例>
次に、強化学習システム100による強化学習処理の実行例について説明する。図5及び図6は、強化学習処理の実行例を示す第1及び第2の図である。図5(a)に示す目標物体画像510がユーザにより入力されると、強化学習装置120は、目標物体画像510に含まれる物体511を把持対象の物体として認識する。
<Execution example of reinforcement learning processing>
Next, an example of execution of reinforcement learning processing by the
このように、目標物体画像510の入力により把持対象の物体の種類を指定する構成とすることで、強化学習装置120によれば、ユーザは、物体群130に含まれる任意の物体を、把持対象の物体として指定することができる。
In this way, by specifying the type of the object to be grasped by inputting the
図5(b)において矢印500は、物体511が把持対象の物体として認識された時点での撮像装置112の位置及び姿勢(撮影位置及び撮影方向)を示している。また、撮影画像521は、矢印500に示す位置及び姿勢のもとで物体群130を撮影した場合の撮影画像を示している。
In FIG. 5B, an
撮影画像521に示すように、物体群130を上方向(Z軸方向)から撮影した場合、把持対象の物体511は、他の物体512によって遮蔽され、撮像装置112は、物体511を撮影することができない。つまり、この状態では、物体511を把持することができない。
As shown in the photographed
このため、強化学習装置120では、把持対象の物体511が撮影可能となるように把持機構部111の位置及び姿勢を変化させるべく、把持機構部111の動作後の状態を示す情報を出力する。これにより、駆動制御装置115では、把持機構部111の動作後の状態を示す情報に基づいて、把持機構部111の動作を制御する。
Therefore, the
図5(c)において矢印501は、把持機構部111の動作が制御されることで変化した、変化後の撮像装置112の位置及び姿勢(撮影位置及び撮影方向)を示している。また、撮影画像522は、矢印501に示す位置及び姿勢のもとで物体群130を撮影した場合の撮影画像を示している。
In FIG. 5C, an
撮影画像522に示すように、物体群130を横方向(X軸方向)から撮影することで、把持対象の物体511が撮影可能になっている。
As shown in the photographed
このため、強化学習装置120では、把持対象の物体511が把持可能となるように把持機構部111の位置及び姿勢を更に変化させるべく、把持機構部111の動作後の状態を示す情報を出力する。これにより、駆動制御装置115では、把持機構部111の動作後の状態を示す情報に基づいて、把持機構部111の動作を制御する。
For this reason, the
図6(a)において矢印601は、マニピュレータ110の動作が制御されることで変化した、変化後の撮像装置112の位置及び姿勢(撮影位置及び撮影方向)を示している。また、撮影画像611は、矢印601に示す位置及び姿勢のもとで物体群130を撮影した場合の撮影画像を示している。
In FIG. 6A, an
撮影画像611に示すように、把持対象の物体511に近づけたことで、把持対象の物体511が把持可能となっている。
As shown in the photographed
このため、強化学習装置120では、把持機構部111に把持対象の物体511を把持させるべく、把持機構部111の動作後の状態を示す情報を出力する。これにより、駆動制御装置115では、動作後の把持機構部111の状態を示す情報に基づいて、把持機構部111の動作を制御する。
For this reason, the
図6(b)において矢印602は、把持機構部111の動作が制御されることで変化した、変化後の撮像装置112の位置及び姿勢(撮影位置及び撮影方向)を示している(物体511が把持され、所定の高さまで持ち上げられた状態を示している)。また、撮影画像612は、矢印602に示す位置及び姿勢のもとで物体511を撮影した場合の撮影画像を示している。
In FIG. 6(b), an
このように、撮像装置112の位置及び姿勢が、把持機構部111の位置及び姿勢の変化に伴って変化するように構成したうえで、当該撮像装置により撮影された撮影画像を用いて強化学習を行うことで、
・撮像装置からの見え方が変わるなどの長期的な視点での評価ができる。
・把持対象の物体を把持するという動作を試行する過程で、把持対象の物体を探索するという動作を試行することができる。
In this way, the position and orientation of the
・It is possible to evaluate from a long-term perspective, such as changes in the appearance from the imaging device.
- In the process of attempting the action of grasping the object to be grasped, it is possible to attempt the action of searching for the object to be grasped.
つまり、強化学習の過程で、把持対象の物体が撮影可能となるように、把持機構部の動作を制御することができる。この結果、把持対象の物体の載置状態によらず、把持操作の成功確率を上げることができる。 That is, in the process of reinforcement learning, the operation of the gripping mechanism can be controlled so that the object to be gripped can be photographed. As a result, the success probability of the grasping operation can be increased regardless of the placement state of the object to be grasped.
<まとめ>
以上の説明から明らかなように、第1の実施形態に係る強化学習システム100は、
・把持機構部の位置及び姿勢の変化に伴って、位置及び姿勢が変化する撮像装置により撮影された撮影画像と、把持機構部が把持する把持対象の物体を示す目標物体画像とを、把持機構部の動作後の状態を示す情報を出力する強化学習モデルに入力する。
・把持機構部の動作後の状態を示す情報に基づき把持機構部の動作が制御された場合の、把持対象の物体に対する操作結果(エンドエフェクタによる把持操作が成功したか否かの判定結果)に基づいて、強化学習モデルのモデルパラメータを更新する。
<Summary>
As is clear from the above description, the
- A captured image taken by an imaging device whose position and orientation change as the position and orientation of the gripping mechanism changes, and a target object image showing the object to be gripped by the gripping mechanism, are transferred to the gripping mechanism. This information is input to a reinforcement learning model that outputs information indicating the state of the part after its operation.
・When the operation of the gripping mechanism is controlled based on the information indicating the state after the operation of the gripping mechanism, the result of the operation on the object to be gripped (the result of determining whether the gripping operation by the end effector was successful) Update the model parameters of the reinforcement learning model based on the information.
これにより、強化学習システム100によれば、把持対象の物体が遮蔽されるように載置されていた場合でも、強化学習の過程で把持対象の物体が撮影可能となるように、把持機構部の動作を制御することができる。
As a result, according to the
つまり、第1の実施形態によれば、載置状態によらず、指定された種類の物体に対して把持操作の成功確率を上げることが可能な、強化学習装置、強化学習システム、物体操作装置、モデル生成方法及び強化学習プログラムを提供することができる。 In other words, according to the first embodiment, there is a reinforcement learning device, a reinforcement learning system, and an object manipulation device that can increase the probability of success in grasping a specified type of object regardless of the placement state. , a model generation method and a reinforcement learning program can be provided.
[第2の実施形態]
第2の実施形態では、Q学習により、強化学習を行う場合について説明する。以下、第2の実施形態について、上記第1の実施形態との相違点を中心に説明する。
[Second embodiment]
In the second embodiment, a case will be described in which reinforcement learning is performed using Q learning. The second embodiment will be described below, focusing on the differences from the first embodiment.
<強化学習装置の機能構成>
はじめに、第2の実施形態に係る強化学習装置120の機能構成例について説明する。図7は、強化学習装置の機能構成の一例を示す第2の図である。図7に示すように、第2の実施形態に係る強化学習装置120は、更新部710、強化学習モデル720を有する。強化学習モデル720には、例えば、ニューラルネットワークが用いられてもよい。
<Functional configuration of reinforcement learning device>
First, an example of the functional configuration of the
更新部710は、報酬算出部711、パラメータ更新部712を有し、強化学習モデル720のモデルパラメータを更新する。
The
具体的には、更新部710は、把持対象の物体に対する把持操作が成功したか否かの判定結果、及び、把持機構部111の動作が制御されたことによる状態の変化を示す情報を取得する。
Specifically, the updating
また、報酬算出部711は、把持対象の物体に対する把持操作が成功したか否かの判定結果に基づき報酬を算出する。なお、把持対象の物体に対する把持操作が成功したか否かの判定方法や、報酬の算出方法は、上記第1の実施形態において説明済みであるため、ここでは説明を省略する。
Further, the
また、パラメータ更新部712は、強化学習モデル720に含まれる、画像解析部721、状態及び動作入力部722、期待値算出部724の各モデルパラメータを更新する。なお、パラメータ更新部712は、
・更新部710により取得された、状態の変化を示す情報、
・報酬算出部711により算出された報酬(即時報酬)、
・後述する期待値算出部724において算出された、割引累積報酬の期待値(Q値)の予測値、
に基づいて、モデルパラメータを更新する。
Furthermore, the
- Information indicating a change in state acquired by the
・Remuneration calculated by the remuneration calculation unit 711 (immediate remuneration),
- A predicted value of the expected value (Q value) of the discount cumulative reward calculated by the expected
Update model parameters based on.
強化学習モデル720は、更新部710によりモデルパラメータが更新される。また、モデルパラメータが更新された後の強化学習モデル720は、撮影画像、目標物体画像、把持機構部111の動作前の状態(s)を示す情報を入力として、把持機構部111の動作後の状態を示す情報を出力する。
The model parameters of the
具体的には、図7に示すように、強化学習モデル720は、画像解析部721、状態及び動作入力部722、加算部723、期待値算出部724、調整部725を有する。
Specifically, as shown in FIG. 7, the
画像解析部721は、駆動制御装置115より送信された撮影画像と、ユーザにより入力された目標物体(g)画像とを取得することで処理を実行し、実行結果を加算部723に出力する。なお、画像解析部721は、例えば、ニューラルネットワークを用いて構成される。より具体的には、画像解析部721は、例えば、第1の畳み込み層、第1のMaxPooling層、第2の畳み込み層、第2のMaxPooling層等により構成される。
The
状態及び動作入力部722は、把持機構部111の動作前の状態(s)を示す情報と、把持機構部111の動作(a)を示す情報とを取得することで処理を実行し、実行結果を加算部723に出力する。なお、状態及び動作入力部722は、例えば、ニューラルネットワークを用いて構成される。より具体的には、状態及び動作入力部722は、第1の線形層、第2の線形層、形状変換層等により構成される。また、状態及び動作入力部722には、後述する期待値算出部724により算出される最大のQ値を探索するために、調整部725により調整された、把持機構部111の動作(a)を示す情報が、所定回数(例えば、20回)入力される。
The state and
加算部723は、画像解析部721より出力された実行結果と、状態及び動作入力部722より出力された実行結果とを加算して、期待値算出部724に入力する。
The adding
期待値算出部724は、加算部723において加算された、画像解析部721の実行結果と、状態及び動作入力部722の実行結果とが入力されることで処理を実行し、Q値(Q(s,a,g))を算出する。期待値算出部724では、調整部725により調整された、把持機構部111の動作(a)を示す情報の数に応じた数のQ値を算出する。なお、期待値算出部724は、例えば、ニューラルネットワークを用いて構成される。より具体的には、期待値算出部724は、第1の畳み込み層、第1のMaxPooling層、第2の畳み込み層、第2のMaxPooling層等により構成される。
The expected
調整部725は、期待値算出部724においてQ値が算出されるごとに、把持機構部111の動作(a)を示す情報を調整し、状態及び動作入力部722に入力する。調整部725では、把持機構部111の動作(a)を示す情報を、所定回数(例えば、20回)調整し、その間に算出されたQ値の中から最大のQ値を抽出する。なお、調整部725は、例えば、ε-グリーディ法に基づいて、把持機構部111の可能な動作の集合の中から、いずれかの動作(a)を示す情報を特定する。
The
ε-グリーディ法によれば、最大のQ値に対応する動作(a)を示す情報が特定される場合もあれば、ランダムに選択された動作(a)を示す情報が特定される場合もある。 According to the ε-greedy method, information indicating the action (a) corresponding to the maximum Q value may be identified, or information indicating a randomly selected action (a) may be identified. .
更に、調整部725は、特定した把持機構部111の動作(a)を示す情報と、把持機構部111の動作前の状態(s)を示す情報とに基づいて、把持機構部111の動作後の状態を示す情報を導出し、駆動制御装置115に送信する。
Further, the
このように、第2の実施形態に係る強化学習装置120では、ε-グリーディ法を用いることで、把持機構部111の動作後の状態を示す情報として、様々な情報を網羅的に出力することができる。この結果、強化学習処理中の把持機構部111の動作には、可能な動作の集合の中から選択された最適な動作(Q値が最大となる動作)と、可能な動作の集合の中からランダムに選択された動作とが含まれることになる。
In this way, the
なお、かかる機能を実現する強化学習モデル720の構成として、図7に示した機能構成は、あくまで一例にすぎず、他の機能構成により強化学習モデル720を構成してもよい。例えば、上記説明では、画像解析部721、状態及び動作入力部722、期待値算出部724がそれぞれ、ニューラルネットワークを用いて構成されるものとしたが、強化学習モデル720全体がニューラルネットワークを用いて構成されてもよい。
Note that the functional configuration shown in FIG. 7 is merely an example of the configuration of the
また、上記説明では、強化学習処理時の機能について言及したが、強化学習処理が終了した後の機能については、上記第1の実施形態と同様である。すなわち、強化学習処理が終了した後は、更新部710による、状態の変化を示す情報の取得、報酬の算出、モデルパラメータの更新等は行われない。また、調整部725では、把持機構部111の動作後の状態を示す情報として、最適な情報(Q値が最大となる動作(a)を示す情報に基づいて導出された把持機構部111の動作後の状態を示す情報)が出力される。これにより、強化学習済みのモデルによれば、割引累積報酬の期待値(Q値)を最大化する行動則を獲得することができる。
Further, in the above description, the functions during the reinforcement learning process have been mentioned, but the functions after the reinforcement learning process is the same as those in the first embodiment. That is, after the reinforcement learning process is completed, the updating
<強化学習処理の流れ>
次に、第2の実施形態に係る強化学習装置120による強化学習処理の流れについて説明する。図8は、強化学習処理の流れを示す第2のフローチャートである。以下、図8を参照しながら、強化学習処理の流れについて説明する。なお、図8に示す強化学習処理は、あくまで一例であり、他のモデル生成方法により強化学習処理が実行されることで強化学習済みのモデルが生成されてもよい。
<Flow of reinforcement learning processing>
Next, the flow of reinforcement learning processing by the
ステップS801において、強化学習装置120の強化学習モデル720は、目標物体画像を取得する。
In step S801, the
ステップS802において、強化学習装置120の強化学習モデル720は、撮影画像を取得する。
In step S802, the
ステップS803において、強化学習装置120の強化学習モデル720は、把持機構部111の動作前(現在)の状態(s)を示す情報を取得する。
In step S803, the
ステップS804~S807は、例えば、ε-グリーディ法に基づいて、可能な動作の集合の中から、いずれかの動作(a)を示す情報を特定し、把持機構部111の動作後の状態を示す情報を網羅的に出力する。
Steps S804 to S807 identify information indicating one of the motions (a) from a set of possible motions based on the ε-greedy method, and indicate the state of the
具体的には、可能な動作の集合の中から、最適なQ値に対応する動作(a)を示す情報を特定する場合にあっては、ステップS804~S806を実行したうえで、ステップS807に進む。また、可能な動作の集合の中から、ランダムに選択された動作(a)を示す情報を特定する場合にあっては、直接、ステップS807に進む。 Specifically, when identifying information indicating the action (a) corresponding to the optimal Q value from a set of possible actions, steps S804 to S806 are executed, and then step S807 is performed. move on. Further, in the case of specifying information indicating a randomly selected action (a) from a set of possible actions, the process directly advances to step S807.
ステップS804において、強化学習装置120の強化学習モデル720は、Q値を算出する。
In step S804, the
ステップS805において、強化学習装置120の強化学習モデル720は、Q値を所定回数算出したか否かを判定する。ステップS805において、Q値を所定回数算出していないと判定した場合には(ステップS805においてNoの場合には)、ステップS806に進む。
In step S805, the
ステップS806において、強化学習装置120の強化学習モデル720は、把持機構部111の動作(a)を示す情報を調整し、ステップS804に戻る。
In step S806, the
一方、ステップS805において、Q値を所定回数算出したと判定した場合には(ステップS805においてYesの場合には)、ステップS807に進む。 On the other hand, if it is determined in step S805 that the Q value has been calculated a predetermined number of times (in the case of Yes in step S805), the process advances to step S807.
ステップS807において、強化学習装置120の強化学習モデル720は、ステップS804~S807を実行した場合にあっては、最大のQ値に対応する動作(a)を示す情報を特定し、把持機構部111の動作後の状態を示す情報を導出した後、駆動制御装置115に送信する。また、強化学習装置120の強化学習モデル720は、ステップS804~S807を実行しなかった場合にあっては、ランダムに選択した動作(a)を示す情報を特定し、把持機構部111の動作後の状態を示す情報を導出した後、駆動制御装置115に送信する。
In step S807, if steps S804 to S807 have been executed, the
ステップS808において、強化学習装置120の更新部710は、把持機構部111の動作が制御されたことによる状態の変化を示す情報を取得する。
In step S808, the updating
ステップS809において、強化学習装置120の更新部710は、把持対象の物体に対する把持操作が成功したか否かの判定結果を取得し、即時報酬を算出する。また、強化学習装置120の更新部710は、期待値算出部724により算出された割引累積報酬の期待値(Q値)の予測値を取得する。
In step S809, the updating
ステップS810において、強化学習装置120の更新部710は、取得した状態の変化を示す情報、算出した即時報酬、取得した割引累積報酬の期待値(Q値)の予測値を用いて、強化学習モデル720のモデルパラメータを更新する。
In step S810, the updating
ステップS811において、強化学習装置120は、現在の目標物体画像から、異なる目標物体画像へと切り替えるか否かを判定する。
In step S811, the
ステップS811において、異なる目標物体画像に切り替えないと判定した場合には(ステップS811においてNoの場合には)、ステップS802に戻る。 If it is determined in step S811 not to switch to a different target object image (No in step S811), the process returns to step S802.
一方、ステップS811において、異なる目標物体画像に切り替えると判定した場合には(ステップS811においてYesの場合には)、ステップS812に進む。 On the other hand, if it is determined in step S811 to switch to a different target object image (in the case of Yes in step S811), the process advances to step S812.
ステップS812において、強化学習装置120の更新部310は、強化学習処理の終了条件を満たすか否かを判定する。なお、強化学習処理の終了条件とは、例えば、強化学習システム100のユーザによって規定された条件であり、一例として、所定の物体に対する把持操作の目標成功確率等が挙げられる。
In step S812, the
ステップS812において、強化学習処理の終了条件を満たさないと判定した場合には(ステップS812においてNoの場合には)、ステップS801に戻る。 In step S812, if it is determined that the termination condition for the reinforcement learning process is not satisfied (in the case of No in step S812), the process returns to step S801.
一方、ステップS812において、強化学習処理の終了条件を満たすと判定した場合には(ステップS812においてYesの場合には)、強化学習処理を終了する。なお、強化学習処理を終了した後の強化学習モデル720は、強化学習済みモデルとして、物体操作装置に適用される。
On the other hand, if it is determined in step S812 that the conditions for ending the reinforcement learning process are satisfied (in the case of Yes in step S812), the reinforcement learning process is ended. Note that the
物体操作装置に適用された強化学習済みモデルは、図8のステップS801~S807の処理を実行する(つまり、状態の変化を示す情報の取得、報酬の算出、モデルパラメータの更新等は行わない)。また、ステップS807では、把持機構部111の動作後の状態を示す情報として、最適な情報が出力されるように構成される。つまり、把持機構部111は、強化学習処理中とは異なり、様々な動作を網羅的に行う代わりに、可能な動作の集合の中から選択された最適な動作(Q値が最大となる動作)を行う。
The reinforcement learning model applied to the object manipulation device executes the processes of steps S801 to S807 in FIG. 8 (that is, it does not acquire information indicating changes in state, calculate rewards, update model parameters, etc.) . Further, in step S807, the configuration is such that optimal information is output as information indicating the state of the
<まとめ>
以上の説明から明らかなように、第2の実施形態に係る強化学習システム100によれば、上記第1の実施形態と同様な効果を奏する。
<Summary>
As is clear from the above description, the
[第3の実施形態]
上記第1及び第2の実施形態では、指定された種類の物体に対して、把持操作を行う場合について説明した。しかしながら、指定された種類の物体に対して行う所定の操作は、把持操作に限定されず、他の任意の操作であってもよい。つまり、マニピュレータ110の本体部113の先端部分に取り付けられるエンドエフェクタは、把持機構部111に限定されず、他の任意の操作機構部であってもよい。ここでいう任意の操作には、例えば、指定された種類の物体を押す押圧操作や、指定された種類の物体を吸着する吸着操作、指定された種類の物体を電磁石等で吸引する吸引操作等が含まれる。
[Third embodiment]
In the first and second embodiments described above, a case has been described in which a gripping operation is performed on a specified type of object. However, the predetermined operation performed on the specified type of object is not limited to the grasping operation, and may be any other operation. That is, the end effector attached to the distal end portion of the
また、上記第1及び第2の実施形態では、マニピュレータの先端部分に撮像装置が取り付けられるものとして説明したが、撮像装置の取り付け位置はマニピュレータの先端部分に限定されない。把持機構部の位置及び姿勢の変化に応じて、撮像装置の位置及び姿勢が変化する位置であれば、他の位置であってもよい。 Furthermore, in the first and second embodiments described above, the imaging device is attached to the tip of the manipulator, but the mounting position of the imaging device is not limited to the tip of the manipulator. Any other position may be used as long as the position and orientation of the imaging device change in accordance with changes in the position and orientation of the gripping mechanism.
なお、把持機構部と撮像装置とは、例えば、異なるマニピュレータに取り付けられていてもよく、その場合も上述した強化学習モデルが適用可能である。この場合の強化学習モデルは、把持機構部の動作を制御するための情報に加え、撮像装置の少なくとも位置及び姿勢のいずれかを制御するための情報を出力するように構成されてもよい。 Note that the gripping mechanism section and the imaging device may be attached to different manipulators, for example, and the above-described reinforcement learning model can be applied in that case as well. The reinforcement learning model in this case may be configured to output information for controlling at least one of the position and orientation of the imaging device in addition to information for controlling the operation of the gripping mechanism.
また、上記第1及び第2の実施形態では、強化学習モデルに入力する、把持機構部の動作前の状態を示す情報として、把持機構部の位置及び姿勢を示す情報、把持機構部の開閉を示す情報が含まれるものとして説明した。しかしながら、把持機構部の動作前の状態を示す情報はこれらに限定されず、他の情報が入力されてもよい。 In addition, in the first and second embodiments described above, information indicating the position and orientation of the grasping mechanism, information indicating the opening and closing of the grasping mechanism, and information indicating the state before operation of the grasping mechanism are input to the reinforcement learning model. The explanation has been made assuming that the information shown is included. However, the information indicating the state of the gripping mechanism before operation is not limited to these, and other information may be input.
また、上記第1及び第2の実施形態では、マニピュレータ110と強化学習装置120(あるいは物体操作装置)とを別体として構成したが、マニピュレータ110と強化学習装置120(あるいは物体操作装置)とは一体として構成されてもよい。あるいは、駆動制御装置115と強化学習装置120(あるいは物体操作装置)とは一体として構成されてもよい。
Furthermore, in the first and second embodiments described above, the
また、上記第1及び第2の実施形態では、強化学習装置120より出力された、把持機構部111の動作後の状態を示す情報に基づいて、把持機構部111の動作を実際に制御することで強化学習処理を行うものとして説明した。しかしながら、把持機構部111の動作を実際に制御する必要はなく、実環境を模擬したシミュレータを用いて、強化学習処理を行うように構成してもよい。この場合、撮像装置についても、実環境を模擬したシミュレータ上で、位置及び姿勢を変化させたり、撮影を行うように構成してもよい。また、操作対象の物体に対する所定の操作及び操作結果の生成についても、実環境を模擬したシミュレータ上で行うように構成してもよい。
Furthermore, in the first and second embodiments described above, the operation of the
また、上記第1及び第2の実施形態では、マニピュレータ110の本体部113の先端部分にエンドエフェクタが取り付けられているケースについて、強化学習装置120が強化学習処理を行うものとして説明した。しかしながら、エンドエフェクタが先端部分に取り付けられていないマニピュレータ110が、本体部113により操作対象の物体を操作するケースについて、強化学習装置120が強化学習処理を行ってもよい。この場合、強化学習装置120では、マニピュレータ110の本体部113の先端部分の動作を制御するための情報を出力してもよい。
Furthermore, in the first and second embodiments, the
また、上記第1及び第2の実施形態では、マニピュレータ110の本体部113の先端部分の位置及び姿勢が変化するように構成されているものとして説明したが、少なくとも位置及び姿勢のいずれか一方が変化するように構成されていてもよい。つまり、把持機構部111は、少なくとも位置及び姿勢のいずれか一方が変化するように構成されていてもよい。また、撮像装置112は、把持機構部111の少なくとも位置及び姿勢のいずれか一方の変化に伴って、少なくとも位置及び姿勢のいずれか一方が変化するように構成されていてもよい。この場合、強化学習装置120では、把持機構部111の動作を制御するための情報として、把持機構部111の少なくも位置及び姿勢のいずれか一方を制御するための情報、及び、把持機構部111の開閉を制御するための情報を出力してもよい。
Furthermore, in the first and second embodiments, the position and orientation of the tip portion of the
[その他の実施形態]
本明細書(請求項を含む)において、「a、bおよびcの少なくとも1つ(一方)」又は「a、b又はcの少なくとも1つ(一方)」の表現(同様な表現を含む)が用いられる場合は、a、b、c、a-b、a-c、b-c、又はa-b-cのいずれかを含む。また、a-a、a-b-b、a-a-b-b-c-c等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a-b-c-dのようにdを有する等、列挙された要素(a、b及びc)以外の他の要素を加えることも含む。
[Other embodiments]
In this specification (including claims), the expression "at least one (one) of a, b, and c" or "at least one (one) of a, b, or c" (including similar expressions) When used, it includes any of a, b, c, a-b, a-c, b-c, or a-b-c. Further, each element may include multiple instances, such as aa, abb, aaabbbcc, etc. Furthermore, it also includes adding other elements other than the listed elements (a, b, and c), such as having d as in abcd.
また、本明細書(請求項を含む)において、「データを入力として/データに基づいて/に従って/に応じて」等の表現(同様な表現を含む)が用いられる場合は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を入力として用いる場合を含む。また「データに基づいて/に従って/に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び/又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を出力とする場合も含む。 In addition, in this specification (including claims), when expressions such as "as input data/based on data/according to/according to" (including similar expressions) are used, there is no specific notice. This includes cases in which various data itself is used as input, and cases in which various data subjected to some processing (for example, noise added, normalized, intermediate representation of various data, etc.) are used as input. In addition, if it is stated that a certain result is obtained "based on/according to/according to data", this includes cases where the result is obtained only based on the data, and other data other than the data, It may also include cases where the results are obtained under the influence of factors, conditions, and/or states. In addition, if it is stated that "data will be output", if there is no special notice, various data itself may be used as output, or data that has been processed in some way (for example, data with added noise, normal This also includes cases in which the output is digitized data, intermediate representations of various data, etc.).
また、本明細書(請求項を含む)において、「接続される(connected)」及び「結合される(coupled)」との用語が用いられる場合は、直接的な接続/結合、間接的な接続/結合、電気的(electrically)な接続/結合、通信的(communicatively)な接続/結合、機能的(operatively)な接続/結合、物理的(physically)な接続/結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続/結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。 In addition, in this specification (including claims), when the terms "connected" and "coupled" are used, direct connection/coupling, indirect connection /coupling, electrically connected/coupled, communicatively connected/coupled, functionally connected/coupled, physically connected/coupled, etc., but not limited to intended as a descriptive term. The term should be interpreted as appropriate depending on the context in which the term is used, but forms of connection/coupling that are not intentionally or naturally excluded are not included in the term. Should be construed in a limited manner.
また、本明細書(請求項を含む)において、「AがBするよう構成される(A configured to B)」との表現が用いられる場合は、要素Aの物理的構造が、動作Bを実行可能な構成を有するとともに、要素Aの恒常的(permanent)又は一時的(temporary)な設定(setting/configuration)が、動作Bを実際に実行するように設定(configured/set)されていることを含んでよい。例えば、要素Aが汎用プロセッサである場合、当該プロセッサが動作Bを実行可能なハードウェア構成を有するとともに、恒常的(permanent)又は一時的(temporary)なプログラム(命令)の設定により、動作Bを実際に実行するように設定(configured)されていればよい。また、要素Aが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Bを実際に実行するように構築(implemented)されていればよい。 In addition, in this specification (including the claims), when the expression "A configured to B" is used, it means that the physical structure of element A performs operation B. possible configuration and that the permanent or temporary setting/configuration of element A is configured/set to actually perform action B. may be included. For example, if element A is a general-purpose processor, the processor has a hardware configuration that can execute operation B, and can perform operation B by setting a permanent or temporary program (instruction). It only needs to be configured to actually execute. In addition, if element A is a dedicated processor or a dedicated arithmetic circuit, the circuit structure of the processor is configured to actually execute operation B, regardless of whether control instructions and data are actually attached. It is sufficient if it has been implemented.
また、本明細書(請求項を含む)において、含有又は所有を意味する用語(例えば、「含む(comprising/including)」及び「有する(having)」等)が用いられる場合は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。 In addition, in this specification (including claims), when terms meaning inclusion or ownership (for example, "comprising/including" and "having", etc.) are used, the purpose of the term is It is intended as an open-ended term, including the case of containing or possessing something other than the object indicated by the word. If the object of a term meaning inclusion or possession is an expression that does not specify a quantity or suggests a singular number (an expression with a or an as an article), the expression shall be interpreted as not being limited to a specific number. It should be.
また、本明細書(請求項を含む)において、ある箇所において「1つ又は複数(one or more)」又は「少なくとも1つ(at least one)」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)が用いられているとしても、後者の表現が「1つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)は、必ずしも特定の数に限定されないものとして解釈されるべきである。 In addition, in this specification (including the claims), expressions such as "one or more" or "at least one" are used in some places, and in other places, quantities are used. Even if an expression is used that does not specify or suggests the singular (an expression with a or an as an article), it is not intended that the latter expression means "one". In general, expressions that do not specify a quantity or imply a singular number (expressions with the article a or an) should be construed as not necessarily being limited to a particular number.
また、本明細書において、ある実施例の有する特定の構成について特定の効果(advantage/result)が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の1つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び/又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び/又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。 In addition, in this specification, if it is stated that a specific effect (advantage/result) can be obtained with a specific configuration of a certain embodiment, unless there is a reason to the contrary, another example having the configuration It should be understood that the same effect can also be obtained in a plurality of embodiments. However, it should be understood that the presence or absence of the said effect generally depends on various factors, conditions, and/or states, and that the said effect is not necessarily obtained by the said configuration. The effect is only obtained by the configuration described in the Examples when various factors, conditions, and/or states, etc. are satisfied, and in the claimed invention that specifies the configuration or a similar configuration. However, this effect is not necessarily obtained.
また、本明細書(請求項を含む)において、複数のハードウェアが所定の処理を行う場合、各ハードウェアが協働して所定の処理を行ってもよいし、一部のハードウェアが所定の処理の全てを行ってもよい。また、一部のハードウェアが所定の処理の一部を行い、別のハードウェアが所定の処理の残りを行ってもよい。本明細書(請求項を含む)において、「1又は複数のハードウェアが第1の処理を行い、前記1又は複数のハードウェアが第2の処理を行う」等の表現が用いられている場合、第1の処理を行うハードウェアと第2の処理を行うハードウェアは同じものであってもよいし、異なるものであってもよい。つまり、第1の処理を行うハードウェア及び第2の処理を行うハードウェアが、前記1又は複数のハードウェアに含まれていればよい。なお、ハードウェアは、電子回路、又は、電子回路を含む装置等を含んでよい。 In addition, in this specification (including claims), when multiple pieces of hardware perform a predetermined process, each piece of hardware may cooperate to perform the predetermined process, or some of the hardware may perform the predetermined process. You may perform all of the above processing. Further, some hardware may perform part of a predetermined process, and another piece of hardware may perform the rest of the predetermined process. In this specification (including claims), when expressions such as "one or more hardware performs the first process, and the one or more hardware performs the second process" are used , the hardware that performs the first processing and the hardware that performs the second processing may be the same or different. In other words, the hardware that performs the first processing and the hardware that performs the second processing may be included in the one or more pieces of hardware. Note that the hardware may include an electronic circuit, a device including an electronic circuit, or the like.
また、本明細書(請求項を含む)において、複数の記憶装置(メモリ)がデータの記憶を行う場合、複数の記憶装置(メモリ)のうち個々の記憶装置(メモリ)は、データの一部のみを記憶してもよいし、データの全体を記憶してもよい。 In addition, in this specification (including claims), when multiple storage devices (memories) store data, each storage device (memory) among the multiple storage devices (memories) stores a portion of the data. Only the data may be stored, or the entire data may be stored.
以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、説明に用いた数値は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。 Although the embodiments of the present disclosure have been described in detail above, the present disclosure is not limited to the individual embodiments described above. Various additions, changes, substitutions, and partial deletions are possible without departing from the conceptual idea and gist of the present invention derived from the content defined in the claims and equivalents thereof. For example, in all the embodiments described above, the numerical values used in the explanation are shown as examples, and the present invention is not limited to these. Further, the order of each operation in the embodiment is shown as an example, and is not limited to this order.
100 :強化学習システム
110 :マニピュレータ
111 :把持機構部
112 :撮像装置
113 :本体部
115 :駆動制御装置
120 :強化学習装置
310 :更新部
311 :報酬算出部
320 :状態入力部
330 :強化学習モデル
510 :目標物体画像
511 :物体
521、522 :撮影画像
611、612 :撮影画像
710 :更新部
711 :報酬算出部
712 :パラメータ更新部
720 :強化学習モデル
721 :画像解析部
722 :状態及び動作入力部
723 :加算部
724 :期待値算出部
725 :調整部
100: Reinforcement learning system 110: Manipulator 111: Gripping mechanism section 112: Imaging device 113: Main body section 115: Drive control device 120: Reinforcement learning device 310: Updating section 311: Reward calculation section 320: State input section 330: Reinforcement learning model 510: Target object image 511:
Claims (13)
少なくとも1つのプロセッサと、を有し、
前記少なくとも1つのプロセッサは、
少なくとも位置及び姿勢のいずれかが変化する撮像装置により撮影された撮影画像に関する情報と、エンドエフェクタにより操作される操作対象の物体を示す目標物体画像に関する情報とを、前記エンドエフェクタの動作を制御するための情報を出力する訓練モデルに入力することと、
前記訓練モデルにより出力された情報に基づき前記エンドエフェクタの動作が制御された場合の、前記物体に対する操作結果に基づいて、前記訓練モデルのパラメータを更新することと
を実行可能に構成される、
強化学習装置。 at least one memory;
at least one processor;
The at least one processor includes:
The operation of the end effector is controlled by using information regarding a photographed image photographed by an imaging device whose position or orientation changes at least, and information regarding a target object image indicating an object to be operated by the end effector. inputting information into a training model that outputs information for
and updating the parameters of the training model based on the operation result on the object when the operation of the end effector is controlled based on the information output by the training model.
Reinforcement learning device.
請求項1に記載の強化学習装置。 The at least one of the position and orientation of the imaging device changes depending on at least one of the position and orientation of the end effector.
The reinforcement learning device according to claim 1.
請求項2に記載の強化学習装置。 the imaging device is attached to the end effector;
The reinforcement learning device according to claim 2.
請求項1に記載の強化学習装置。 at least one of the position and orientation of the imaging device is controlled based on an output from the training model;
The reinforcement learning device according to claim 1.
前記少なくとも1つのプロセッサは、前記把持機構部による前記物体に対する把持操作が成功したか否かの判定結果に基づいて、前記訓練モデルのパラメータを更新する、請求項1乃至4のいずれか1項に記載の強化学習装置。 The end effector is a gripping mechanism that grips the object,
5. The at least one processor updates parameters of the training model based on a determination result of whether or not the gripping mechanism unit has successfully gripped the object. Reinforcement learning device described.
前記エンドエフェクタと前記撮像装置とが取り付けられたマニピュレータと、
を有する強化学習システム。 A reinforcement learning device according to any one of claims 1 to 8,
a manipulator to which the end effector and the imaging device are attached;
A reinforcement learning system with
少なくとも1つのプロセッサと、を備え、
前記少なくとも1つのプロセッサは、
少なくとも位置及び姿勢のいずれかが変化する撮像装置により撮影された撮影画像に関する情報と、前記エンドエフェクタにより操作される操作対象の物体を示す目標物体画像に関する情報とを、前記訓練モデルに入力することと、
前記訓練モデルにより出力された情報に基づいて、前記エンドエフェクタの動作を制御することと、
を実行可能に構成される、
物体操作装置。 at least one memory that stores a training model whose parameters have been updated by the reinforcement learning device according to any one of claims 1 to 8;
at least one processor;
The at least one processor includes:
Inputting into the training model information regarding a photographed image photographed by an imaging device whose position or orientation changes, and information regarding a target object image indicating an object to be operated by the end effector. and,
controlling the operation of the end effector based on information output by the training model;
configured to be executable,
Object manipulation device.
前記撮像装置と、
を更に有する、請求項10に記載の物体操作装置。 the end effector;
the imaging device;
The object manipulation device according to claim 10, further comprising:
少なくとも位置及び姿勢のいずれかが変化する撮像装置により撮影された撮影画像に関する情報と、エンドエフェクタにより操作される操作対象の物体を示す目標物体画像に関する情報とを、前記エンドエフェクタの動作を制御するための情報を出力する訓練モデルに入力する工程と、
前記訓練モデルにより出力された情報に基づき前記エンドエフェクタの動作が制御された場合の、前記物体に対する操作結果に基づいて、前記訓練モデルのパラメータを更新する工程と
を有するモデル生成方法。 A model generation method executed by at least one processor, the method comprising:
The operation of the end effector is controlled by using information regarding a photographed image photographed by an imaging device whose position or orientation changes at least, and information regarding a target object image indicating an object to be operated by the end effector. inputting information into a training model that outputs information for the purpose;
a step of updating parameters of the training model based on an operation result on the object when the operation of the end effector is controlled based on information output by the training model.
前記訓練モデルにより出力された情報に基づき前記エンドエフェクタの動作が制御された場合の、前記物体に対する操作結果に基づいて、前記訓練モデルのパラメータを更新する工程と
を少なくとも1台のコンピュータに実行させるための強化学習プログラム。 The operation of the end effector is controlled by using information regarding a photographed image photographed by an imaging device whose position or orientation changes at least, and information regarding a target object image indicating an object to be operated by the end effector. inputting information into a training model that outputs information for the purpose;
and causing at least one computer to execute a step of updating the parameters of the training model based on the operation result on the object when the operation of the end effector is controlled based on the information output by the training model. Reinforcement learning program for.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020119349A JP2023145809A (en) | 2020-07-10 | 2020-07-10 | Reinforcement learning device, reinforcement learning system, object operation device, model generation method and reinforcement learning program |
PCT/JP2021/025392 WO2022009859A1 (en) | 2020-07-10 | 2021-07-06 | Reinforcement learning device, reinforcement learning system, object manipulation device, model generation method, and reinforcement learning program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020119349A JP2023145809A (en) | 2020-07-10 | 2020-07-10 | Reinforcement learning device, reinforcement learning system, object operation device, model generation method and reinforcement learning program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023145809A true JP2023145809A (en) | 2023-10-12 |
Family
ID=79553121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020119349A Pending JP2023145809A (en) | 2020-07-10 | 2020-07-10 | Reinforcement learning device, reinforcement learning system, object operation device, model generation method and reinforcement learning program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023145809A (en) |
WO (1) | WO2022009859A1 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6522488B2 (en) * | 2015-07-31 | 2019-05-29 | ファナック株式会社 | Machine learning apparatus, robot system and machine learning method for learning work taking-out operation |
JP6810087B2 (en) * | 2018-03-29 | 2021-01-06 | ファナック株式会社 | Machine learning device, robot control device and robot vision system using machine learning device, and machine learning method |
-
2020
- 2020-07-10 JP JP2020119349A patent/JP2023145809A/en active Pending
-
2021
- 2021-07-06 WO PCT/JP2021/025392 patent/WO2022009859A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022009859A1 (en) | 2022-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6921151B2 (en) | Deep machine learning methods and equipment for robot grip | |
US11045949B2 (en) | Deep machine learning methods and apparatus for robotic grasping | |
US11897133B2 (en) | Deep reinforcement learning for robotic manipulation | |
US10717191B2 (en) | Apparatus and methods for haptic training of robots | |
JP6963041B2 (en) | Local feature model updates based on modifications to robot actions | |
US9387589B2 (en) | Visual debugging of robotic tasks | |
JP4609584B2 (en) | Robot device, face recognition method, and face recognition device | |
CN110769985A (en) | Viewpoint-invariant visual servoing of a robot end effector using a recurrent neural network | |
JP7458741B2 (en) | Robot control device and its control method and program | |
JP2018202550A (en) | Machine learning device, machine learning method, and machine learning program | |
Bohez et al. | Sensor fusion for robot control through deep reinforcement learning | |
JP2019018272A (en) | Motion generation method, motion generation device, system, and computer program | |
JP2022543926A (en) | System and Design of Derivative-Free Model Learning for Robotic Systems | |
CN114423574A (en) | Determining a sequence of actions for environmental adjustments of a robot task | |
JP2022061022A (en) | Technique of assembling force and torque guidance robot | |
KR20230122118A (en) | Guided autonomous gripping | |
KR20220155921A (en) | Method for controlling a robot device | |
CN116529033A (en) | Fine grained industrial robot assembly | |
JP2004298975A (en) | Robot device and obstacle searching method | |
JP2023145809A (en) | Reinforcement learning device, reinforcement learning system, object operation device, model generation method and reinforcement learning program | |
KR20230100101A (en) | Robot control system and method for robot setting and robot control using the same | |
JP4193098B2 (en) | TRACKING DEVICE, TRACKING DEVICE TRACKING METHOD, AND ROBOT DEVICE | |
JP2005271137A (en) | Robot device and control method thereof | |
US20240054393A1 (en) | Learning Device, Learning Method, Recording Medium Storing Learning Program, Control Program, Control Device, Control Method, and Recording Medium Storing Control Program | |
JP7456552B2 (en) | Information processing device, information processing method, and program |