JP2023137880A - Information processing device, information processing method and program - Google Patents
Information processing device, information processing method and program Download PDFInfo
- Publication number
- JP2023137880A JP2023137880A JP2022044303A JP2022044303A JP2023137880A JP 2023137880 A JP2023137880 A JP 2023137880A JP 2022044303 A JP2022044303 A JP 2022044303A JP 2022044303 A JP2022044303 A JP 2022044303A JP 2023137880 A JP2023137880 A JP 2023137880A
- Authority
- JP
- Japan
- Prior art keywords
- information
- reward
- ratio
- reinforcement learning
- expert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 65
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 230000002787 reinforcement Effects 0.000 claims abstract description 57
- 230000006399 behavior Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 36
- 230000003542 behavioural effect Effects 0.000 claims description 19
- 230000009471 action Effects 0.000 claims description 18
- 238000010801 machine learning Methods 0.000 abstract description 7
- 230000015654 memory Effects 0.000 description 13
- 230000007613 environmental effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
Description
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。 The present disclosure relates to an information processing device, an information processing method, and a program.
近年、逆強化学習(Inverse Reinforcement Learning)を用いた模倣学習アルゴリズムと、敵対的生成ネットワーク(GAN、Generative Adversarial Network)を組み合わせたGAIL(Generative Adversarial Imitation Learning)という手法が注目されている(非特許文献1を参照)。 In recent years, a method called GAIL (Generative Adversarial Imitation Learning), which combines an imitation learning algorithm using inverse reinforcement learning and a generative adversarial network (GAN), has been attracting attention (non-patent literature). 1).
なお、逆強化学習では、エキスパートの行動軌跡(専門家データ、Expert Trajectory)から環境の報酬関数を推定する手法であるため、環境からの報酬が得られない場合でも模倣学習を行う事ができる。逆強化学習を用いた模倣学習では、エキスパートの行動軌跡から報酬関数を求めるという問題と、得られた報酬関数から強化学習によってエキスパートの方策(Expert Policy)を求めるという問題の2つを解く必要がある。一方、GAILでは、GANの仕組みを利用することで、エキスパートの行動軌跡からエキスパートの方策を求めることができる。 Inverse reinforcement learning is a method that estimates the reward function of the environment from the expert's action trajectory (expert data, Expert Trajectory), so imitation learning can be performed even when no reward is obtained from the environment. In imitation learning using inverse reinforcement learning, it is necessary to solve two problems: the problem of finding a reward function from the expert's behavioral trajectory, and the problem of finding the expert policy from the obtained reward function by reinforcement learning. be. On the other hand, in GAIL, by using the GAN mechanism, it is possible to determine the expert's policy from the expert's action trajectory.
また、非特許文献2には、GAILを用いて、ロボットのアームの制御を機械学習する技術が開示されている。非特許文献2では、カメラで撮影された画像と、ロボットのアームの関節の位置及び角速度を示す情報とを取得する。また、模倣学習の報酬γgailと強化学習の報酬γtaskとを以下の式(1)のように組み合わせたハイブリッド報酬γを用いて、生成器(generator)を学習させる。なお、模倣学習の報酬γgailは、識別器(判別器、discriminator)を騙せたことに基づく報酬である。また、強化学習の報酬γtaskは、ロボットによるタスク(作業)が完了したことに基づく報酬である。 Furthermore, Non-Patent Document 2 discloses a technique for machine learning control of a robot arm using GAIL. In Non-Patent Document 2, an image taken with a camera and information indicating the position and angular velocity of a joint of a robot arm are acquired. Further, a generator is trained using a hybrid reward γ that is a combination of the imitation learning reward γ gail and the reinforcement learning reward γ task as shown in the following equation (1). Note that the imitation learning reward γ gail is a reward based on being able to fool the discriminator. Further, the reinforcement learning reward γ task is a reward based on the completion of a task (work) by the robot.
また、λは予め設定されている定数であり、0から1までのいずれかの値である。stは生成器への入力データであり、atは生成器からの出力データである。なお、λが0の場合は強化学習(RL、Reinforcement Learning)のみとなり、λが1の場合は通常の(例えば、非特許文献1に記載の)GAILとなる。
γ(st,at)=λγgail(st,at)+(1-λ)γtask(st,at)・・・(1)
Further, λ is a constant set in advance, and has a value between 0 and 1. s t is the input data to the generator, and a t is the output data from the generator. Note that when λ is 0, only reinforcement learning (RL) is used, and when λ is 1, normal GAIL (for example, as described in Non-Patent Document 1) is used.
γ (s t , at ) = λγ gail (s t , at ) + (1-λ) γ task (s t , at ) ...(1)
しかしながら、従来技術では、例えば、機械学習を効率的に実行できない場合がある。 However, with the conventional technology, for example, machine learning may not be efficiently executed.
本開示の目的は、機械学習の効率を向上させることができる情報処理装置、情報処理方法、及びプログラムを提供することである。 An object of the present disclosure is to provide an information processing device, an information processing method, and a program that can improve the efficiency of machine learning.
本開示に係る第1の態様では、特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する取得部と、行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得部により取得された情報と、前記強化学習の結果とに基づいて、行動情報を生成する生成器と、入力された情報が前記生成器により生成された行動情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する識別器と、を有し、前記生成器は、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、情報処理装置が提供される。 In a first aspect of the present disclosure, there is provided an acquisition unit that acquires information indicating a behavioral trajectory of an expert with respect to a specific task; Reinforcement learning is performed based on at least a reward and a second reward based on the execution of the specific task based on the behavioral information, and the information acquired by the acquisition unit and the result of the reinforcement learning are a generator that generates behavior information based on the information, and a discriminator that identifies whether input information is behavior information generated by the generator or information indicating a behavior trajectory of the expert. , the generator performs the reinforcement learning at a first point in time with a ratio of the second reward to the first reward as a first ratio, and sets the second reward to the first reward as a first ratio higher than the first ratio. An information processing device is provided that performs the reinforcement learning at a second time point after the first time point at a ratio of 2 to 2.
また、本開示に係る第2の態様では、特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する処理と、行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得する処理により取得した情報と、前記強化学習の結果とに基づいて、行動情報を生成する処理と、入力された情報が生成する処理により生成した情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する処理と、を実行し、前記生成する処理では、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、情報処理方法が提供される。 Further, in a second aspect of the present disclosure, there is provided a process of acquiring information indicating a behavioral trajectory of an expert with respect to a specific task, and a process of acquiring information indicating the behavioral trajectory of the expert with respect to a specific task, and Reinforcement learning is performed based on at least one reward and a second reward based on the execution of the specific task based on the behavioral information, and the information acquired by the acquisition process and the result of the reinforcement learning. and a process of identifying whether the input information is information generated by the generation process or information indicating the behavioral trajectory of the expert based on the generated behavior information. In the processing, the reinforcement learning is performed at a first time point by setting the ratio of the second reward to the first reward as a first ratio, and the second reward to the first reward is set to a second ratio higher than the first ratio. An information processing method is provided in which the reinforcement learning is performed at a second time point after the first time point.
また、本開示に係る第3の態様では、特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する処理と、行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得する処理により取得した情報と、前記強化学習の結果とに基づいて、行動情報を生成する処理と、入力された情報が生成する処理により生成した情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する処理と、をコンピュータに実行させ、前記生成する処理では、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、プログラムが提供される。 Further, in a third aspect of the present disclosure, there is provided a process of acquiring information indicating a behavioral trajectory of an expert with respect to a specific task, and a process of acquiring information indicating the behavioral trajectory of the expert with respect to a specific task; Reinforcement learning is performed based on at least one reward and a second reward based on the execution of the specific task based on the behavioral information, and the information acquired by the acquisition process and the result of the reinforcement learning. causing a computer to execute a process of generating behavioral information based on the above, and a process of identifying whether the input information is information generated by the generating process or information indicating the behavioral trajectory of the expert, In the generation process, the reinforcement learning is performed at a first point in time with the ratio of the second reward to the first reward as a first ratio, and the second reward to the first reward is set to a higher ratio than the first ratio. A program is provided that performs the reinforcement learning at a second point in time that is later than the first point in time.
一側面によれば、機械学習の効率を向上させることができる。 According to one aspect, the efficiency of machine learning can be improved.
本開示の原理は、いくつかの例示的な実施形態を参照して説明される。これらの実施形態は、例示のみを目的として記載されており、本開示の範囲に関する制限を示唆することなく、当業者が本開示を理解および実施するのを助けることを理解されたい。本明細書で説明される開示は、以下で説明されるもの以外の様々な方法で実装される。
以下の説明および特許請求の範囲において、他に定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。
以下、図面を参照して、本開示の実施形態を説明する。
The principles of the present disclosure are explained with reference to several exemplary embodiments. It is to be understood that these embodiments are described for illustrative purposes only and do not suggest limitations as to the scope of the disclosure, and to assist those skilled in the art in understanding and practicing the disclosure. The disclosure described herein may be implemented in a variety of ways other than those described below.
In the following description and claims, unless defined otherwise, all technical and scientific terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this disclosure belongs. has.
Embodiments of the present disclosure will be described below with reference to the drawings.
<システム構成>
図1を参照し、実施形態に係る情報処理システム1の構成について説明する。図1は、実施形態に係る情報処理システム1の構成の一例を示す図である。図1の例では、情報処理システム1は、情報処理装置10、ロボット20、及びセンサ30を有する。なお、情報処理装置10、ロボット20、及びセンサ30の数は、図1の例に限定されない。なお、情報処理装置10、及びセンサ30は、ロボット20の筐体の内部に収容されてもよい。情報処理装置10、ロボット20、及びセンサ30は、無線または有線により通信できるように接続されている。
<System configuration>
With reference to FIG. 1, the configuration of an information processing system 1 according to an embodiment will be described. FIG. 1 is a diagram illustrating an example of the configuration of an information processing system 1 according to an embodiment. In the example of FIG. 1, the information processing system 1 includes an
情報処理装置10は、機械学習を用いてロボット20を制御する装置である。情報処理装置10は、例えば、人間等が道具を用いてタスク(作業)を実行する際の動作をセンサ30によりエキスパートの行動軌跡を示す情報として取得し、取得した情報に基づいて学習を行う。そして、情報処理装置10は、ロボット20に当該道具を人間等と同様に用いらせて当該タスクを実行させる。
The
ロボット20は、アーム等により各種の道具を用いたタスクを行うロボットである。ロボット20は、道具を用いたタスクを実行できる装置であればよく、外観の形状は限定されない。ロボット20は、例えば、家庭用、探索用、工場用等の各種の目的で用いることができる。センサ30は、ロボット20の周辺を測定するセンサである。センサ30は、例えば、カメラ、またはLiDARでもよい。
The
<ハードウェア構成>
図2は、実施形態に係る情報処理装置10のハードウェア構成例を示す図である。図2の例では、情報処理装置10(コンピュータ100)は、プロセッサ101、メモリ102、通信インターフェイス103を含む。これら各部は、バス等により接続されてもよい。メモリ102は、プログラム104の少なくとも一部を格納する。通信インターフェイス103は、他のネットワーク要素との通信に必要なインターフェイスを含む。
<Hardware configuration>
FIG. 2 is a diagram showing an example of the hardware configuration of the
プログラム104が、プロセッサ101及びメモリ102等の協働により実行されると、コンピュータ100により本開示の実施形態の少なくとも一部の処理が行われる。メモリ102は、ローカル技術ネットワークに適した任意のタイプのものであってもよい。メモリ102は、非限定的な例として、非一時的なコンピュータ可読記憶媒体でもよい。また、メモリ102は、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなどの任意の適切なデータストレージ技術を使用して実装されてもよい。コンピュータ100には1つのメモリ102のみが示されているが、コンピュータ100にはいくつかの物理的に異なるメモリモジュールが存在してもよい。プロセッサ101は、任意のタイプのものであってよい。プロセッサ101は、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、および非限定的な例としてマルチコアプロセッサアーキテクチャに基づくプロセッサの1つ以上を含んでよい。コンピュータ100は、メインプロセッサを同期させるクロックに時間的に従属する特定用途向け集積回路チップなどの複数のプロセッサを有してもよい。
When the
本開示の実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジックまたはそれらの任意の組み合わせで実装され得る。いくつかの態様はハードウェアで実装されてもよく、一方、他の態様はコントローラ、マイクロプロセッサまたは他のコンピューティングデバイスによって実行され得るファームウェアまたはソフトウェアで実装されてもよい。 Embodiments of the present disclosure may be implemented in hardware or special purpose circuitry, software, logic or any combination thereof. Some aspects may be implemented in hardware, while other aspects may be implemented in firmware or software that may be executed by a controller, microprocessor, or other computing device.
本開示はまた、非一時的なコンピュータ可読記憶媒体に有形に記憶された少なくとも1つのコンピュータプログラム製品を提供する。コンピュータプログラム製品は、プログラムモジュールに含まれる命令などのコンピュータ実行可能命令を含み、対象の実プロセッサまたは仮想プロセッサ上のデバイスで実行され、本開示のプロセスまたは方法を実行する。プログラムモジュールには、特定のタスクを実行したり、特定の抽象データ型を実装したりするルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などが含まれる。プログラムモジュールの機能は、様々な実施形態で望まれるようにプログラムモジュール間で結合または分割されてもよい。プログラムモジュールのマシン実行可能命令は、ローカルまたは分散デバイス内で実行できる。分散デバイスでは、プログラムモジュールはローカルとリモートの両方のストレージメディアに配置できる。 The present disclosure also provides at least one computer program product tangibly stored on a non-transitory computer readable storage medium. A computer program product includes computer-executable instructions, such as instructions contained in program modules, that are executed on a device on a target real or virtual processor to perform the processes or methods of the present disclosure. Program modules include routines, programs, libraries, objects, classes, components, data structures, etc. that perform particular tasks or implement particular abstract data types. The functionality of the program modules may be combined or divided among program modules as desired in various embodiments. Machine-executable instructions of program modules can be executed locally or within distributed devices. In distributed devices, program modules can be located in both local and remote storage media.
本開示の方法を実行するためのプログラムコードは、1つ以上のプログラミング言語の任意の組み合わせで書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、またはその他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供される。プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/または実装するブロック図内の機能/動作が実行される。プログラムコードは、完全にマシン上で実行され、一部はマシン上で、スタンドアロンソフトウェアパッケージとして、一部はマシン上で、一部はリモートマシン上で、または完全にリモートマシンまたはサーバ上で実行される。 Program code for implementing the methods of this disclosure may be written in any combination of one or more programming languages. These program codes are provided to a processor or controller of a general purpose computer, special purpose computer, or other programmable data processing device. When the program code is executed by a processor or controller, the functions/acts illustrated in the flowcharts and/or implementing block diagrams are performed. Program code can run entirely on a machine, partially on a machine, as a standalone software package, partially on a machine, partially on a remote machine, or entirely on a remote machine or server. Ru.
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体を含む。非一時的なコンピュータ可読媒体の例には、磁気記録媒体、光磁気記録媒体、光ディスク媒体、半導体メモリ等が含まれる。磁気記録媒体には、例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ等が含まれる。光磁気記録媒体には、例えば、光磁気ディスク等が含まれる。光ディスク媒体には、例えば、ブルーレイディスク、CD(Compact Disc)-ROM(Read Only Memory)、CD-R(Recordable)、CD-RW(ReWritable)等が含まれる。半導体メモリには、例えば、ソリッドステートドライブ、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory)等が含まれる。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 The program can be stored and provided to a computer using various types of non-transitory computer-readable media. Non-transitory computer-readable media includes various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media, magneto-optical recording media, optical disk media, semiconductor memory, and the like. Magnetic recording media include, for example, flexible disks, magnetic tapes, hard disk drives, and the like. The magneto-optical recording medium includes, for example, a magneto-optical disk. Optical disc media include, for example, Blu-ray discs, CDs (Compact Discs)-ROMs (Read Only Memory), CD-Rs (Recordables), CD-RWs (ReWritables), and the like. Semiconductor memories include, for example, solid state drives, mask ROMs, PROMs (Programmable ROMs), EPROMs (Erasable PROMs), flash ROMs, RAMs (Random Access Memory), and the like. The program may also be provided to the computer on various types of temporary computer-readable media. Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can provide the program to the computer via wired communication channels, such as electrical wires and fiber optics, or wireless communication channels.
<構成>
次に、図3を参照し、実施形態に係る情報処理装置10の構成について説明する。図3は、実施形態に係る情報処理装置10の構成の一例を示す図である。図3の例では、情報処理装置10は、取得部11、生成器(generator)12、識別器(判別器、discriminator)13、及び制御部14を有する。これら各部は、情報処理装置10にインストールされた1以上のプログラムと、情報処理装置10のプロセッサ101、及びメモリ102等のハードウェアとの協働により実現されてもよい。
<Configuration>
Next, with reference to FIG. 3, the configuration of the
取得部11は、特定のタスクに対するエキスパートの行動軌跡を示す情報と、ロボット20に関する環境を示す情報とを、情報処理装置10内部の記憶装置または外部装置から取得する。
The
生成器12は、取得部11により取得された情報と、強化学習の結果とに基づいて、行動を示す情報を生成する。生成器12は、取得部11により取得されたエキスパートの行動軌跡を示す情報と、強化学習の結果に基づいて生成した行動を示す情報とのいずれかを識別器13に出力した場合の識別器13による識別結果に基づいて、報酬γgail(「第1報酬」の一例。)を決定する。また、生成器12は、ロボット20による特定のタスクの実行(完了、成功)に基づいて、報酬γtask(「第2報酬」の一例。)を決定する。
The
また、生成器12は、報酬γgailに対する報酬γtaskの割合を第1割合として第1時点における強化学習を行い、報酬γgailに対する報酬γtaskを第1割合よりも高い第2割合として第1時点よりも後の第2時点における強化学習を行う。
Further, the
識別器13は、生成器12から入力された情報が生成器12により生成された情報であるか取得部11により取得されたエキスパートの行動軌跡を示す情報であるかを識別する。制御部14は、生成器12により生成された行動を示す情報に基づいてロボット20を制御する。
The
<処理>
<<学習フェーズ>>
次に、図4を参照し、実施形態に係る情報処理装置10の学習処理の一例について説明する。図4は、実施形態に係る情報処理装置10の学習処理の一例を示すフローチャートである。
<Processing>
<<Learning phase>>
Next, with reference to FIG. 4, an example of the learning process of the
ステップS101において、情報処理装置10の取得部11は、特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する。特定のタスクは、例えば、ハンマーで釘を打つ、またはコップで水をすくう等でもよい。ここで、取得部11は、エキスパートの行動軌跡を示す情報として、例えば、人間により道具(例えば、ハンマー、コップ等)が使用された際の人間の腕及び道具の各時点における位置及び姿勢等を示す情報を取得してもよい。エキスパートの行動軌跡を示す情報は、例えば、カメラであるセンサ30で撮影された画像を畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)で分析することにより生成されてもよい。また、エキスパートの行動軌跡を示す情報は、例えば、人間の腕及び道具の少なくとも一方に装着されたセンサ30で測定されたデータに基づいて生成されてもよい。
In step S101, the
続いて、情報処理装置10の取得部11は、環境を示す情報(環境情報、ロボット20の行動軌跡を示す情報)を取得する(ステップS102)。環境情報は、例えば、カメラであるセンサ30で撮影された画像をCNNで分析することにより生成されてもよい。また、環境情報は、例えば、ロボット20のアーム及び道具の少なくとも一方に設けられた(装着された)センサ30で測定されたデータに基づいて生成されてもよい。環境情報には、例えば、道具の位置及び姿勢を示す情報が含まれてもよい。また、環境情報には、例えば、ロボット20のアームの関節の位置及び角速度を示す情報が含まれてもよい。
Subsequently, the
続いて、情報処理装置10の生成器12は、ハイブリッド報酬γsを決定(更新)する(ステップS103)。ここで、生成器12は、例えば、以下の式(2)における重み係数αの値を決定して、ハイブリッド報酬γsを算出してもよい。
γs(st,at)=αγgail(st,at)+(1-α)γtask(st,at)・・・(2)
Subsequently, the
γ s (s t , at )=αγ gail (s t , at )+(1-α) γ task (s t , at ) ...(2)
ここで、αは0から1までの変数でもよい。stは環境情報であり、atは行動を示す情報(行動情報)である。なお、αが0の場合は通常の強化学習のみとなり、αが1の場合は通常のGAIL(模倣学習)のみとなる。 Here, α may be a variable from 0 to 1. s t is environmental information, and a t is information indicating behavior (behavior information). Note that when α is 0, only normal reinforcement learning is used, and when α is 1, only normal GAIL (imitation learning) is used.
報酬γgailは通常のGAILによる模倣学習の報酬である。報酬γtask(「第2報酬」の一例。)は、ロボット20による特定のタスクの実行(完了、成功)に基づく強化学習の報酬である。
The reward γ gail is a reward for imitation learning by normal GAIL. The reward γ task (an example of a “second reward”) is a reinforcement learning reward based on execution (completion, success) of a specific task by the
GAILによる模倣学習の報酬γgailは、通常のGAILでの報酬である。すなわち、報酬γgailは、生成器12により生成した行動情報が、取得部11により取得されたエキスパートの行動軌跡を示す情報であると識別(判定、判断、判別)されたこと(識別器13を騙せたこと、生成した行動情報のエキスパートの行動軌跡らしさ)に基づく報酬である。
Reward γ gail for imitation learning by GAIL is a reward in normal GAIL. In other words, the reward γ gail is based on the fact that the behavior information generated by the
生成器12は、例えば、生成器12への入力データであるst及び生成器12からの出力データであるatの組み合わせのデータを識別器13に入力してもよい。そして、識別器13は、後述するステップS107において、当該データに対するエキスパートの行動軌跡らしさの値(確度、信頼度)を算出(推定、推論)してもよい。そして、生成器12は、識別器13により当該データに対して算出されたエキスパートの行動軌跡らしさpの値が高いほど、報酬γgailの値を高く決定してもよい。
For example, the
また、強化学習の報酬γtaskは、ロボット20により特定のタスクが実行されたことに基づく報酬である。制御部14は、例えば、生成器12により生成された行動情報atに基づいてロボットを制御する。そして、生成器12は、例えば、行動情報atに基づいて制御されたロボットのアームにより使用される道具の位置及び姿勢等が、エキスパートの行動軌跡におけるタスク開始時点の位置及び姿勢等からタスク完了時点の位置及び姿勢等に変化(遷移)した場合、強化学習の報酬γtaskの値を0以外の特定の値としてもよい。
In addition, the reinforcement learning reward γ task is a reward based on the execution of a specific task by the
生成器12は、学習が進行するにしたがって、αの値を小さな値に決定してもよい。これにより、例えば、学習の初期においてはGAILによる模倣学習の影響を比較的大きくし、学習の後期においてはタスクが実行できたことによる強化学習の影響を比較的大きくすることができる。そのため、当初は見様見真似で学習し、ある程度学習できたら自身で試行錯誤して微調整するような、人間と同様の学習過程により、機会学習の効率を向上させることができると考えられる。この場合、生成器12は、第1時点において報酬γgailに対する報酬γtaskを第1割合とし、第1時点よりも後の第2時点において報酬γgailに対する報酬γtaskを第1割合よりも高い第2割合としてもよい。
The
この場合、生成器12は、例えば、ステップS104の強化学習が行われた回数、及び強化学習の結果の性能の少なくとも一方に応じて、第1割合及び第2割合を決定してもよい。ここで、生成器12は、例えば、ロボット20による特定のタスクの実行にかかる所要時間、特定のタスクの実行にかかる消費電力、及び特定のタスクの実行にかかる前記行動を示す情報を生成した回数の少なくとも一つに基づいて、強化学習の結果の性能の値を決定(特定、算出)してもよい。この場合、生成器12は、例えば、ロボット20により特定のタスクが開始されてから完了するまでの所要時間が短いほど、当該性能の値を高く決定してもよい。また、生成器12は、例えば、ロボット20により特定のタスクが実行されるために消費された電力が少ないほど、当該性能の値を高く決定してもよい。また、生成器12は、例えば、ロボット20により特定のタスクが実行されるまでに生成した行動情報の数が少ないほど、当該性能の値を高く決定してもよい。なお、ロボット20での消費電力の値は、ロボット20のセンサ30により測定されてもよい。なお、上記式(2)の例では、GAILによる模倣学習の報酬γgailと、強化学習の報酬γtaskとに基づいてハイブリッド報酬γsを決定する例について説明したが、本開示の技術はこれに限定されない。生成器12は、例えば、GAILによる模倣学習の報酬γgailと、強化学習の報酬γtaskとに加え、他の学習手法の報酬にも基づいてハイブリッド報酬γsを決定してもよい。
In this case, the
続いて、情報処理装置10の生成器12は、上記の式(2)のハイブリッド報酬γsを用いて強化学習を行う(ステップS104)。続いて、情報処理装置10の生成器12は、強化学習の結果に基づいて、入力データである環境情報stに対する行動情報atを生成する(ステップS105)ここで、生成器12は、行動情報atとして、例えば、ロボットを制御するためのデータを生成して出力してもよい。この場合、行動情報には、例えば、当該ロボットのアームの各関節の角速度を示す情報が含まれてもよい。
Subsequently, the
続いて、情報処理装置10の識別器13は、環境情報stと行動情報atとの組み合わせのデータに対するエキスパートの行動軌跡らしさpの値(確度、信頼度)を算出(推定、推論)して生成器12へ出力する(ステップS106)。
Subsequently, the
続いて、情報処理装置10の識別器13は、例えば、ニューラルネットワーク(NN、Neural Network)を用いて、行動情報atが生成器12により生成されたものである場合はpの値を0と算出し、行動情報atがエキスパートの行動軌跡である場合はpの値を1と算出するように教師あり学習で学習する(ステップS107)。これにより、GAILと同様に、GANにより識別器13と生成器12とを競わせるように学習させることができる。ここで、識別器13は、例えば、環境情報stと、行動情報atと、行動情報atが生成器12により生成されたものであるか否かを示す正解ラベルとの組み合わせのデータに基づいて教師あり学習で学習してもよい。
Next, the
続いて、情報処理装置10の制御部14は、生成器12により生成された行動情報に基づいて、ロボット20を動作させる(ステップS108)。ここで、制御部14は、行動情報に応じた制御コマンドをロボット20に送信してもよい。続いて、情報処理装置10の生成器12は、学習を終了するか否かを判定する(ステップS109)。ここで、生成器12は、例えば、ロボット20により特定のタスクが実行された回数、ステップS104の強化学習が行われた回数、及び強化学習の結果の性能の少なくとも一つが閾値以上である場合に、学習を終了すると判定してもよい。
Subsequently, the
学習を終了しないと判定した場合(ステップS109でNO)、ステップS102の処理に進む。一方、学習を終了すると判定した場合(ステップS109でYES)、学習処理を終了する。 If it is determined that learning is not to be completed (NO in step S109), the process proceeds to step S102. On the other hand, if it is determined that learning is to be ended (YES in step S109), the learning process is ended.
<<推論フェーズ>>
次に、図5を参照し、実施形態に係る情報処理装置10の推論処理の一例について説明する。図5は、実施形態に係る情報処理装置10の推論処理の一例を示すフローチャートである。
<<Inference phase>>
Next, with reference to FIG. 5, an example of the inference processing of the
ステップS201において、情報処理装置10の制御部14は、ロボット20に実行させるタスクの内容を判定(認識)する。ここで、制御部14は、例えば、ユーザからの音声またはボタン操作等の入力に基づいて、タスクの内容を判定してもよい。制御部14は、例えば、ハンマーで釘を打つ、またはコップで水をすくう等のタスクの内容を判定してもよい。
In step S201, the
続いて、情報処理装置10の取得部11は、環境情報を取得する(ステップS202)。ステップS202の処理は、例えば、図4のステップS102の処理と同様でもよい。
Subsequently, the
続いて、情報処理装置10の生成器12は、強化学習の結果に基づいて、入力データである環境情報stに対する行動情報atを生成する(ステップS203)。ステップS203の処理は、例えば、図4のステップS105の処理と同様でもよい。
Subsequently, the
続いて、情報処理装置10の制御部14は、生成器12により生成された行動情報に基づいて、ロボット20を動作させる(ステップS204)。ステップS204の処理は、例えば、図4のステップS108の処理と同様でもよい。
Subsequently, the
<変形例>
情報処理装置10は、一つの筐体に含まれる装置でもよいが、本開示の情報処理装置10はこれに限定されない。情報処理装置10の各部は、例えば1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。これらのような情報処理装置についても、本開示の「情報処理装置」の一例に含まれる。
<Modified example>
The
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。 Note that the present invention is not limited to the above embodiments, and can be modified as appropriate without departing from the spirit.
1 情報処理システム
10 情報処理装置
11 取得部
12 生成器
13 識別器
14 制御部
20 ロボット
30 センサ
1
Claims (7)
行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得部により取得された情報と、前記強化学習の結果とに基づいて、行動情報を生成する生成器と、
入力された情報が前記生成器により生成された行動情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する識別器と、を有し、
前記生成器は、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、
情報処理装置。 an acquisition unit that acquires information indicating an expert's action trajectory for a specific task;
At least based on a first reward based on the fact that the behavior information is identified as information indicating a behavior trajectory of the expert, and a second reward based on the fact that the specific task is executed based on the behavior information. a generator that performs reinforcement learning and generates behavioral information based on the information acquired by the acquisition unit and the result of the reinforcement learning;
a discriminator that identifies whether the input information is behavior information generated by the generator or information indicating a behavior trajectory of the expert;
The generator performs the reinforcement learning at a first time point by setting a ratio of the second reward to the first reward as a first ratio, and sets the second reward to the first reward as a second ratio higher than the first ratio. performing the reinforcement learning at a second point in time that is later than the first point in time as a proportion;
Information processing device.
請求項1に記載の情報処理装置。 The generator determines the first ratio and the second ratio according to the number of times the reinforcement learning is performed.
The information processing device according to claim 1.
請求項1または2に記載の情報処理装置。 The generator determines the first ratio and the second ratio according to the performance of the reinforcement learning result.
The information processing device according to claim 1 or 2.
請求項3に記載の情報処理装置。 The generator is based on at least one of the time required to execute the specific task, the power consumption required to execute the specific task, and the number of times the behavior information related to the execution of the specific task is generated. , determining the value of said performance;
The information processing device according to claim 3.
前記行動情報には、ロボットのアームの関節の角速度を示す情報が含まれる、
請求項1から4のいずれか一項に記載の情報処理装置。 The expert's action trajectory for the specific task is the action trajectory of a human in a task using a specific tool,
The behavior information includes information indicating the angular velocity of the joint of the robot arm.
The information processing device according to any one of claims 1 to 4.
行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得する処理により取得した情報と、前記強化学習の結果とに基づいて、行動情報を生成する処理と、
入力された情報が生成する処理により生成した情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する処理と、を実行し、
前記生成する処理では、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、
情報処理方法。 a process of acquiring information indicating an expert's action trajectory for a specific task;
At least based on a first reward based on the fact that the behavior information is identified as information indicating a behavior trajectory of the expert, and a second reward based on the fact that the specific task is executed based on the behavior information. A process of performing reinforcement learning and generating behavioral information based on the information acquired by the acquisition process and the result of the reinforcement learning;
performing a process of identifying whether the input information is information generated by a generation process or information indicating an action trajectory of the expert;
In the generation process, the reinforcement learning is performed at a first point in time with the ratio of the second reward to the first reward as a first ratio, and the second reward to the first reward is set to a higher ratio than the first ratio. performing the reinforcement learning at a second time point later than the first time point at a rate of 2;
Information processing method.
行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得する処理により取得した情報と、前記強化学習の結果とに基づいて、行動情報を生成する処理と、
入力された情報が生成する処理により生成した情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する処理と、をコンピュータに実行させ、
前記生成する処理では、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、
プログラム。 a process of acquiring information indicating an expert's action trajectory for a specific task;
At least based on a first reward based on the fact that the behavior information is identified as information indicating a behavior trajectory of the expert, and a second reward based on the fact that the specific task is executed based on the behavior information. A process of performing reinforcement learning and generating behavioral information based on the information acquired by the acquisition process and the result of the reinforcement learning;
causing a computer to perform a process of identifying whether the input information is information generated by a generation process or information indicating an action trajectory of the expert;
In the generation process, the reinforcement learning is performed at a first point in time with the ratio of the second reward to the first reward as a first ratio, and the second reward to the first reward is set to a higher ratio than the first ratio. performing the reinforcement learning at a second time point later than the first time point at a rate of 2;
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022044303A JP2023137880A (en) | 2022-03-18 | 2022-03-18 | Information processing device, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022044303A JP2023137880A (en) | 2022-03-18 | 2022-03-18 | Information processing device, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023137880A true JP2023137880A (en) | 2023-09-29 |
Family
ID=88146288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022044303A Pending JP2023137880A (en) | 2022-03-18 | 2022-03-18 | Information processing device, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023137880A (en) |
-
2022
- 2022-03-18 JP JP2022044303A patent/JP2023137880A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6423075B2 (en) | Humanoid robot with omnidirectional wheel based on linear predictive position and velocity controller | |
JP6496396B2 (en) | Humanoid robot with omnidirectional wheel based on linear predictive position and velocity controller | |
US11235461B2 (en) | Controller and machine learning device | |
JP3968501B2 (en) | Robot self-position identification system and self-position identification method | |
JP2022518337A (en) | Devices, methods and articles that facilitate exercise planning in environments with dynamic objects | |
WO2020190272A1 (en) | Creation of digital twin of the interaction among parts of the physical system | |
US10913152B2 (en) | Robot device controller, robot device arrangement and method for controlling a robot device | |
JP2016100009A (en) | Method for controlling operation of machine and control system for iteratively controlling operation of machine | |
JP7427113B2 (en) | Robot demonstration learning skills template | |
JP2005508761A (en) | Robot intelligence architecture | |
JP2022543926A (en) | System and Design of Derivative-Free Model Learning for Robotic Systems | |
JP2020196102A (en) | Control device, system, learning device and control method | |
CN114047745B (en) | Robot motion control method, robot, computer device, and storage medium | |
CN114193443A (en) | Apparatus and method for controlling robot apparatus | |
JP4577353B2 (en) | Information processing apparatus, information processing method, and program | |
JP2023137880A (en) | Information processing device, information processing method and program | |
US20210349444A1 (en) | Accelerating robotic planning for operating on deformable objects | |
CN110962120B (en) | Network model training method and device, and mechanical arm motion control method and device | |
CN114332551A (en) | Method and system for learning joint potential confrontation training | |
JP2023156751A (en) | Information processing device, information processing method, program, and learned model | |
Barreto et al. | A distributed robotic control system based on a temporal self-organizing neural network | |
CN113191379B (en) | Prediction method and device | |
JP7275518B2 (en) | ROBOT CONTROL DEVICE, ROBOT, ROBOT CONTROL METHOD AND PROGRAM | |
JP2023135966A (en) | Information processing device, information processing method and program | |
JP7142803B1 (en) | Robot control system, robot control device, motion planning device, robot control program and motion planning program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240411 |