JP2021527289A - Sum Stochastic Gradient Estimating Methods, Devices, and Computer Programs - Google Patents

Sum Stochastic Gradient Estimating Methods, Devices, and Computer Programs Download PDF

Info

Publication number
JP2021527289A
JP2021527289A JP2021518295A JP2021518295A JP2021527289A JP 2021527289 A JP2021527289 A JP 2021527289A JP 2021518295 A JP2021518295 A JP 2021518295A JP 2021518295 A JP2021518295 A JP 2021518295A JP 2021527289 A JP2021527289 A JP 2021527289A
Authority
JP
Japan
Prior art keywords
gradient
policy
estimation method
estimates
calculation graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021518295A
Other languages
Japanese (ja)
Other versions
JP7378836B2 (en
Inventor
パラマス,パーヴォ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2021527289A publication Critical patent/JP2021527289A/en
Application granted granted Critical
Publication of JP7378836B2 publication Critical patent/JP7378836B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】勾配推定方法、勾配推定装置、およびコンピュータプログラムを提供する。
【解決手段】勾配推定方法は、計算グラフを含み、計算グラフ中の一の変数に対する他の変数の勾配を推定する勾配推定方法であって、計算グラフ中のいくつかのノードで、異なる勾配推定量を用いて同じ勾配の2つ以上の異なる推定を実行し、初期推定数よりも少なくなるように異なる推定値を結合し、結合した推定値を計算グラフ中の異なるノードに受け渡し、勾配推定値は更なる計算に使用される。
PROBLEM TO BE SOLVED: To provide a gradient estimation method, a gradient estimation device, and a computer program.
A gradient estimation method is a gradient estimation method that includes a calculation graph and estimates the slope of another variable with respect to one variable in the calculation graph, and different gradient estimation is performed at some nodes in the calculation graph. Perform two or more different estimates of the same gradient using the quantity, combine the different estimates so that they are less than the initial estimates, pass the combined estimates to different nodes in the calculation graph, and the gradient estimates. Is used for further calculations.

Description

本発明は、計算グラフにおいて定義された変数の勾配を推定する方法、上記推定を行う装置、およびコンピュータプログラムに関する。 The present invention relates to a method of estimating the gradient of a variable defined in a calculation graph, a device for making the above estimation, and a computer program.

ほとんどの機械学習問題には、何らかのデータ生成分布pData(x)全体の目的関数J(x;θ)の期待値の最適化を伴うが、この分布は、サンプルデータ点{x}を通じてのみアクセス可能である。 Most machine learning problems involve optimizing the expected value of the objective function J (x; θ) of some data generation distribution p Data (x) as a whole, but this distribution is only through the sample data points {x i}. It is accessible.

最も一般的な最適化方法は、逆伝播により計算されるPathwise導関数(pathwise derivative)を用いた勾配降下法である。 The most common optimization method is the gradient descent method using the Pathwise derivative calculated by backpropagation.

Bengio, Y., Simard, P., and Frasconi, P. Learning long-term dependencies with gradient descent is difficult. IEEE transactions on neural networks, 5(2):157-166, 1994Bengio, Y., Simard, P., and Frasconi, P. Learning long-term dependencies with gradient descent is difficult. IEEE transactions on neural networks, 5 (2): 157-166, 1994 Deisenroth, Marc Peter, Neumann, Gerhard, Peters, Jan, らによるA survey on policy search for robotics. Foundations and Trends in Robotics, 2(1-2):1-142, 2013A survey on policy search for robotics by Deisenroth, Marc Peter, Neumann, Gerhard, Peters, Jan, et al. Foundations and Trends in Robotics, 2 (1-2): 1-142, 2013 Deisenroth, Marc Peter, Fox, Dieter, and Rasmussen, Carl Edward. Gaussian processes for data-efficient learning in robotics and control. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(2):408-423, 2015Deisenroth, Marc Peter, Fox, Dieter, and Rasmussen, Carl Edward. Gaussian processes for data-efficient learning in robotics and control. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37 (2): 408-423, 2015

いくつかの状況(特に、非常に長い計算グラフまたはリカレントな計算グラフを伴う場合)において、この手法は、勾配分散の爆発によって、ランダムウォークに陥る可能性もある。通常、この現象は、ステップの増大および学習の不安定化につながる数値問題と捉えられる(非特許文献1参照)。 In some situations (especially with very long or recurrent computational graphs), this technique can also fall into a random walk due to the explosion of gradient variance. Usually, this phenomenon is regarded as a numerical problem leading to an increase in steps and destabilization of learning (see Non-Patent Document 1).

本発明の目的は、勾配推定に伴う課題を解決することである。本発明は、逆伝播アルゴリズムの代わりとして、任意の計算グラフに使用し得る汎用的な勾配推定方法である。 An object of the present invention is to solve a problem associated with gradient estimation. The present invention is a general purpose gradient estimation method that can be used for any computational graph as an alternative to the backpropagation algorithm.

勾配推定方法は、計算グラフを含み、計算グラフ中の他の変数に対するある変数の勾配を推定するものであって、グラフ中のいくつかのノードで、別個の勾配推定量を用いて同じ勾配の2つ以上の別個の推定を実行し、初期推定値数よりも少なくなるように別個の推定値を結合し、結合した推定値をグラフ中の異なるノードに受け渡し、勾配推定値が、さらなる計算に使用される。 Gradient estimation methods include computational graphs and estimate the gradient of a variable relative to other variables in the computational graph, with several nodes in the graph using separate gradient estimators for the same gradient. Perform two or more separate estimates, combine the separate estimates so that they are less than the initial number of estimates, pass the combined estimates to different nodes in the graph, and the gradient estimates are used for further calculations. used.

本出願によれば、より正確で、勾配の爆発に悩まされない勾配評価の代替的な柔軟性のあるフレームワークを提供することが可能である。 According to the present application, it is possible to provide an alternative and flexible framework for gradient assessment that is more accurate and does not suffer from gradient explosions.

本実施形態に係る、コンピューティングデバイス1のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware configuration of the computing device 1 which concerns on this embodiment. PILCOによるポリシー勾配評価アルゴリズムを説明する図である。It is a figure explaining the policy gradient evaluation algorithm by PILCO. 総和伝播アルゴリズムを説明する図である。It is a figure explaining the total propagation algorithm. 本実施形態に係る、コンピューティングデバイス1により実行される手順を説明するフローチャートである。It is a flowchart explaining the procedure executed by the computing device 1 which concerns on this Embodiment. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 分散のグラフである。It is a graph of variance. 分散のグラフである。It is a graph of variance. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 数式11における経路の例を示す図である。It is a figure which shows the example of the route in formula 11. 数式11における経路の例を示す図である。It is a figure which shows the example of the route in formula 11. モデル基準およびモデルなしのLR勾配推定の確率計算グラフを示す図である。It is a figure which shows the probability calculation graph of the model reference and LR gradient estimation without a model. モデル基準およびモデルなしのLR勾配推定の確率計算グラフを示す図である。It is a figure which shows the probability calculation graph of the model reference and LR gradient estimation without a model. 総和伝播と適合する様子を詳しく説明するためのアルゴリズム3を示す図である。It is a figure which shows the algorithm 3 for demonstrating in detail how it conforms with total propagation. ガウス成形勾配における計算経路を示す図である。It is a figure which shows the calculation path in the Gauss molding gradient. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. 実験結果を示す図である。It is a figure which shows the experimental result. アルゴリズムの一般形態を示す図である。It is a figure which shows the general form of an algorithm. 機械学習における全てのニューラルネットワークアプリケーションの他、その他多くのアプリケーションにおいて使用される逆伝播アルゴリズムを示す図である。It is a figure which shows the back propagation algorithm used in all the neural network applications in machine learning, as well as many other applications. 単一の勾配推定量となるように尤度比および再パラメータ化勾配推定量を結合することにより勾配推定が実行される場合の総和伝播アルゴリズムを示す図である。It is a figure which shows the sum propagation algorithm when the gradient estimation is performed by combining the likelihood ratio and the re-parameterized gradient estimator so that it becomes a single gradient estimator.

(実施形態1)
図1は、本実施形態に係る、コンピューティングデバイス1のハードウェア構成を示すブロック図である。本実施形態に係るコンピューティングデバイス1は、パソコン、サーバ装置等の情報処理装置である。コンピューティングデバイス1は、制御ユニット11、記憶ユニット12、入力ユニット13、通信ユニット14、操作ユニット15、および表示ユニット16を具備する。コンピューティングデバイス1は、本発明者らによる「PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos」、「Total Propagation Algorithm: Supplementary notes」、および「Total stochastic gradient algorithms and applications in reinforcement learning」において開示された方法を実装している。
(Embodiment 1)
FIG. 1 is a block diagram showing a hardware configuration of the computing device 1 according to the present embodiment. The computing device 1 according to the present embodiment is an information processing device such as a personal computer and a server device. The computing device 1 includes a control unit 11, a storage unit 12, an input unit 13, a communication unit 14, an operation unit 15, and a display unit 16. The computing device 1 is described in "PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos", "Total Propagation Algorithm: Supplementary notes", and "Total stochastic gradient algorithms and applications in reinforcement learning" by the present inventors. Implements the disclosed method.

制御ユニット11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を具備する。制御ユニット11のROMには、ハードウェアの各部の動作を制御する制御プログラム等が記憶されている。制御ユニット11のCPUは、ROMに記憶された制御プログラムおよび後述する記憶ユニット12に記憶された種々プログラムを実行して、前述の論文に開示の方法のように、ハードウェアの動作を制御する。制御ユニット11のRAMには、種々プログラムの実行に際して一時的に使用されるデータが記憶されている。 The control unit 11 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like. The ROM of the control unit 11 stores a control program or the like that controls the operation of each part of the hardware. The CPU of the control unit 11 executes a control program stored in the ROM and various programs stored in the storage unit 12 described later to control the operation of the hardware as in the method disclosed in the above-mentioned paper. The RAM of the control unit 11 stores data that is temporarily used when executing various programs.

なお、制御ユニット11は、上記構成に限定されず、シングルコアCPU、マルチコアCPU、GPU(Graphics Processing Unit)、マイクロコンピュータ、揮発性または不揮発性メモリを含む1つまたは複数の処理回路または演算回路であってもよい。また、制御ユニット11は、データおよび時間の情報を出力するクロック、測定開始命令の適用から測定終了命令が与えられるまでの経過時間を測定するタイマー、計数用のカウンタ等の機能を含んでいてもよい。 The control unit 11 is not limited to the above configuration, and may be one or a plurality of processing circuits or arithmetic circuits including a single-core CPU, a multi-core CPU, a GPU (Graphics Processing Unit), a microcomputer, and a volatile or non-volatile memory. There may be. Further, the control unit 11 may include functions such as a clock for outputting data and time information, a timer for measuring the elapsed time from the application of the measurement start command to the given of the measurement end command, and a counter for counting. good.

記憶ユニット12は、SRAM(Static Random Access Memory)、フラッシュメモリ、ハードディスク等を用いた記憶装置を含む。記憶ユニット12は、制御ユニット11により実行される種々のプログラム、種々のプログラムの実行に必要なデータ等を記憶する。記憶ユニット12に記憶されるプログラムとしては、たとえば上記論文に開示の技術を実装したコンピュータプログラムが挙げられる。 The storage unit 12 includes a storage device using a SRAM (Static Random Access Memory), a flash memory, a hard disk, or the like. The storage unit 12 stores various programs executed by the control unit 11, data necessary for executing various programs, and the like. Examples of the program stored in the storage unit 12 include a computer program in which the technique disclosed in the above paper is implemented.

記憶ユニット12に記憶されたプログラムは、プログラムが可読記録された記録媒体Mにより提供されるようになっていてもよい。記録媒体Mは、SD(Secure Digital)カード、マイクロSDカード、コンパクトフラッシュ(登録商標)等の携帯型メモリである。この場合、制御ユニット11は、読み出し装置(図示せず)を用いて記録媒体Mからプログラムを読み出し、この読み出したプログラムを記憶ユニット12にインストールすることができる。さらに、記憶ユニット12に記憶されたプログラムは、通信ユニット14を介して、通信により提供されるようになっていてもよい。この場合、制御ユニット11は、通信ユニット14を通じてプログラムを取得し、この取得したプログラムを記憶ユニット12にインストールすることができる。 The program stored in the storage unit 12 may be provided by the recording medium M in which the program is readable and recorded. The recording medium M is a portable memory such as an SD (Secure Digital) card, a micro SD card, and a compact flash (registered trademark). In this case, the control unit 11 can read a program from the recording medium M using a reading device (not shown), and the read program can be installed in the storage unit 12. Further, the program stored in the storage unit 12 may be provided by communication via the communication unit 14. In this case, the control unit 11 can acquire a program through the communication unit 14 and install the acquired program in the storage unit 12.

入力ユニット13は、種々データを装置に入力するための入力インターフェースを有する。制御ユニット11は、入力ユニット13を通じて、処理対象のデータを取得する。 The input unit 13 has an input interface for inputting various data to the device. The control unit 11 acquires data to be processed through the input unit 13.

通信ユニット14は、インターネット等の通信ネットワーク(図示せず)に接続するための通信インターフェースを含み、外部に通知されるさまざまな種類の情報を送信し、外部から送信されたさまざまな種類の情報を受信する。本実施形態においては、入力ユニット13を通じて処理対象のデータが取得されるが、通信ユニット14を通じて処理対象のデータが取得されるようになっていてもよい。 The communication unit 14 includes a communication interface for connecting to a communication network (not shown) such as the Internet, transmits various types of information notified to the outside, and transmits various types of information transmitted from the outside. Receive. In the present embodiment, the data to be processed is acquired through the input unit 13, but the data to be processed may be acquired through the communication unit 14.

操作ユニット15は、キーボードおよびタッチパネル等のユーザインターフェースを含み、さまざまな操作情報および設定情報を受け付ける。制御ユニット11は、操作ユニット15から入力された操作情報に基づいて適当な制御を実行し、必要に応じて、設定情報を記憶ユニット12に記憶する。 The operation unit 15 includes a user interface such as a keyboard and a touch panel, and receives various operation information and setting information. The control unit 11 executes appropriate control based on the operation information input from the operation unit 15, and stores the setting information in the storage unit 12 as needed.

表示ユニット16は、液晶表示パネルおよび有機EL(Electro Luminescence)表示パネル等の表示装置を含み、制御ユニット11から出力された制御信号に基づいて、ユーザに通知される情報を表示する。 The display unit 16 includes a display device such as a liquid crystal display panel and an organic EL (Electro Luminescence) display panel, and displays information notified to the user based on a control signal output from the control unit 11.

本実施形態において、上記論文に開示の構成は、制御ユニット11により実行されるソフトウェア処理によって実現されるが、LSI(Large Scale integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Arra)等が制御ユニット11と別個に搭載されていてもよい。この場合、制御ユニット11は、入力ユニット13から入力された処理対象のデータをハードウェアに送ることにより、上記論文に開示の方法をハードウェア内で実現する。 In the present embodiment, the configuration disclosed in the above paper is realized by software processing executed by the control unit 11, but LSI (Large Scale integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Arra). ) Etc. may be mounted separately from the control unit 11. In this case, the control unit 11 realizes the method disclosed in the above paper in the hardware by sending the data to be processed input from the input unit 13 to the hardware.

さらに、本実施形態において、コンピューティングデバイス1は、簡素化のため単一の装置として記載しているが、複数のコンピューティングデバイスにより構成されていてもよいし、1つまたは複数の仮想マシンにより構成されていてもよい。 Further, in the present embodiment, the computing device 1 is described as a single device for simplification, but may be composed of a plurality of computing devices, or may be composed of one or a plurality of virtual machines. It may be configured.

本実施形態においては、コンピューティングデバイス1が操作ユニット15および表示ユニット16を具備するが、操作ユニット15および表示ユニット16は、必須ではない。たとえば、コンピューティングデバイス1は、外部接続されたコンピュータを通じて操作を受け付け、外部コンピュータに通知される情報を出力するようにしてもよい。 In the present embodiment, the computing device 1 includes an operation unit 15 and a display unit 16, but the operation unit 15 and the display unit 16 are not essential. For example, the computing device 1 may accept an operation through an externally connected computer and output information notified to the external computer.

以下、本発明の勾配推定方法について説明する。以下の式では、小文字がスカラーを表し、太字がベクトルまたは行列を表す。ただし、以下の説明においては、小文字と太字とを区別なく示している。また、以下の説明において、「C_^」は、ハット付き文字を表し、「C_〜」は、チルダ付き文字を表す。 Hereinafter, the gradient estimation method of the present invention will be described. In the following formula, lowercase letters represent scalars and bold letters represent vectors or matrices. However, in the following description, lowercase letters and bold letters are shown without distinction. Further, in the following description, "C_ ^" represents a character with a hat, and "C_ ~" represents a character with a tilde.

(2.1 ポリシー探索)
ポリシー探索方法の総括としては、非特許文献2が参照される。なお、ポリシー探索は、アルゴリズムの1つのアプリケーションに過ぎず、特定の計算グラフには限定されず、如何なる計算グラフにも適用可能である。状態ベクトルx(たとえば、ロボットの位置および速度)ならびに適用動作/制御ベクトルu(たとえば、モータトルク)により記述される離散時間系を考える。固定された初期状態分布x〜p(x)から状態をサンプリングすることによって、エピソードが開始となる。ポリシーπθは、適用された動作u〜p(u)=π(x;θ)を決定する。動作の適用により、未知のダイナミクス関数xt+1〜p(xt+1)=f(x,u)に従って状態が遷移する。ポリシーおよびダイナミクスはいずれも、確率的かつ非線形であってもよい。最大T時間ステップまで動作および状態遷移が繰り返されて、軌跡τ:(x,u,x,u,・・・,x)が生成される。各エピソードは、リターン関数G(τ)に従ってスコアリングされる。リターンは、時間ステップごとのコストの総和G(τ)=Σt=0 c(x)(t=0,・・・,T)に分解されることが多く、ここで、c(x)はコスト関数である。その目標は、ポリシーパラメータθを最適化して、期待リターンJ(θ)=Er〜p(τ;θ)[G(τ)]を最小化することである。ここで、値V(x)=Et=h [Σc(x)]と定義する。
(2.1 Policy search)
Non-Patent Document 2 is referred to as a summary of the policy search method. Note that the policy search is only one application of the algorithm, and is not limited to a specific calculation graph, and can be applied to any calculation graph. The state vector x t (e.g., the position of the robot and speed) and apply operation / control vector u t (e.g., motor torque) consider a discrete-time system described by. The episode begins by sampling the states from a fixed initial state distribution x 0 to p (x 0). Policy [pi theta, applied operation u t ~p (u t) = π; determining (x t θ). The application of the operation, the unknown dynamics function x t + 1 ~p (x t + 1) = f (x t, u t) state transitions in accordance with. Both the policy and the dynamics may be stochastic and non-linear. The operation and state transition are repeated up to the maximum T time step, and the locus τ: (x 0 , u 0 , x 1 , u 1 , ..., X T ) is generated. Each episode is scored according to the return function G (τ). The return is often decomposed into the sum of the costs for each time step G (τ) = Σ t = 0 T c (x t ) (t = 0, ..., T), where c (x). ) Is a cost function. The goal is to optimize the policy parameter θ to minimize the expected return J (θ) = Er ~ p (τ; θ) [G (τ)]. Here, the value V h (x) = Et = h T [Σc (x t )] is defined.

学習は、システム上のポリシーの実行と、その後のθの更新による後続試行上の性能の向上とが交互に発生する。ポリシー勾配法では、目的関数の勾配d/dθ・J(θ)を直接推定し、これを最適化に使用する。一部のモデル基準のポリシー探索方法では、データを全て使用して、f_^で示されるfのモデルを学習し、これを試行間の「メンタルリハーサル」に使用してポリシーを最適化する。現実の試行ごとに何百回もの模擬試行を実行して、データ効率を大幅に向上可能である。ここで、f_^の微分によって、モデルなしアルゴリズムよりも優れた勾配推定量を求め得るという事実を利用する。この場合のモデルは、確率論的であり、状態分布を予測する。 Learning alternates between executing policies on the system and improving performance on subsequent trials by subsequently updating θ. In the policy gradient method, the gradient d / dθ · J (θ) of the objective function is directly estimated and used for optimization. Some model-based policy search methods use all the data to learn the model of f, indicated by f_ ^, and use it for "mental rehearsal" between trials to optimize the policy. Hundreds of simulated trials can be performed for each real-world trial to significantly improve data efficiency. Here we take advantage of the fact that the derivative of f_ ^ can yield a better gradient estimator than the unmodeled algorithm. The model in this case is stochastic and predicts the state distribution.

(確率的勾配推定)
ここで、サンプリング分布のパラメータに対する任意の関数φ(x)の期待値の勾配d/dθEx〜p(x;θ)[φ(x)](たとえば、ポリシーパラメータに対する期待リターン)を計算する方法について説明する。
(Stochastic gradient descent)
Here, a method of calculating the gradient d / dθE x to p (x; θ) [φ (x)] (for example, the expected return for a policy parameter) of the expected value of an arbitrary function φ (x) with respect to the parameters of the sampling distribution. Will be described.

(再パラメータ化勾配(RP))
一変量ガウス分布からのサンプリングを考える。ある手法では、ゼロ平均および単位分散ε〜N(0,1)でのサンプリングの後、この点をマッピングして、所望の分布からサンプルを複製する(x=μ+σε)。ここで、分布パラメータを参照して出力を微分するのは容易である。すなわち、dx/dμ=1およびdx/dσ=εである。サンプルの平均化dφ/dx・dx/dθによって、期待値の勾配の不偏推定値が与えられる。これは、正規分布のRP勾配である。多変量ガウス分布の場合は、σの代わりに、共分散行列のコレスキー因子(L、s.t.Σ=LL)を使用可能である。
(Reparameterization Gradient (RP))
Consider sampling from a univariate Gaussian distribution. In one technique, after sampling with zero mean and unit variance ε-N (0,1), this point is mapped to duplicate the sample from the desired distribution (x = μ + σε). Here, it is easy to differentiate the output with reference to the distribution parameters. That is, dx / dμ = 1 and dx / dσ = ε. The sample averaging dφ / dx · dx / dθ gives an unbiased estimate of the expected gradient. This is a normally distributed RP gradient. In the case of a multivariate Gaussian distribution, the Cholesky factor (L, st Σ = LL T ) of the covariance matrix can be used instead of σ.

(尤度比勾配(LR))
所望の勾配は、d/dθ・Ex〜p(x;θ)[φ(x)]=∫dp(x;θ)/dθφ(x)として記述可能である。一般に、∫φ(x)dx=∫q(x)φ(x)/q(x)dx=Ex〜q[φ(x)/q(x)]の実行によって、分布q(x)からサンプリングすることにより如何なる関数も積分可能である。尤度比勾配は、q(x)=p(x)を抜き取って、以下のように直接積分する。
(Likelihood ratio gradient (LR))
The desired gradient can be described as d / dθ · E x to p (x; θ) [φ (x)] = ∫dp (x; θ) / dθφ (x). In general, from the distribution q (x) by executing ∫φ (x) dx = ∫q (x) φ (x) / q (x) dx = Ex to q [φ (x) / q (x)] Any function can be integrated by sampling. The likelihood ratio gradient is directly integrated as follows by extracting q (x) = p (x).

Figure 2021527289
Figure 2021527289

LR勾配は、高分散の場合が多く、制御変量として知られる分散低減技術と組み合わせる必要がある(Greensmithら、2004)。一般的な手法では、関数値から一定基準値bを減算して、推定量Ex〜p[d/dθ・(log p(x;θ))(φ(x)−b)]を求める。bがサンプルと無関係の場合は、これによって、バイアスの導入なく、分散を大幅に低減可能である。実際には、サンプル平均が良い選択である(b=E[φ(x)])。バッチから勾配を推定する場合は、各点の一個抜き基準値を推定することによって、不偏勾配推定量を求めることができる。すなわち、b=Σj≠i φ(x)/(P−1)である。 LR gradients are often highly dispersed and need to be combined with dispersion reduction techniques known as control variables (Greensmith et al., 2004). In a general method, a constant reference value b is subtracted from a function value to obtain an estimator Ex to p [d / dθ · (log p (x; θ)) (φ (x) −b)]. If b is irrelevant to the sample, this can significantly reduce the dispersion without introducing a bias. In practice, sample mean is a good choice (b = E [φ (x)]). When estimating the gradient from a batch, the unbiased estimator can be obtained by estimating the reference value without one at each point. That is, b i = Σ j ≠ i P φ (x j) / (P-1).

(軌跡勾配推定)
特定の軌跡を観測する確率密度p(τ)=p(x,u,x,u,・・・,x)は、p(x)π(u|x)p(x|x,u)・・・p(x|xT−1,uT−1)として記述可能である。
(Trajectory gradient estimation)
The probability density p (τ) = p (x 0 , u 0 , x 1 , u 1 , ..., X T ) for observing a specific trajectory is p (x 0 ) π (u 0 | x 0 ) p. (X 1 | x 0 , u 0 ) ... It can be described as p (x T | x T-1 , u T-1).

RP勾配を使用するには、ダイナミクスp(xt+1|x|u)を把握または推定する必要がある。言い換えると、モデル基準の場合に適用可能である。このようなモデルによれば、連鎖律を用いて、予測軌跡を微分可能である。 To use the RP gradient dynamics p needs to know or estimate the (x t + 1 | u t | x t). In other words, it is applicable in the case of model criteria. According to such a model, the predicted locus can be differentiated using the chain rule.

なお、LR勾配を使用するには、p(τ)が積であることから、log p(τ)を総和に変換可能である。G(τ)=Σt=h c(x)と表す。なお、(1)動作分布のみがポリシーパラメータによって決まり、(2)過去の時間ステップで求められたコストに動作は影響せず、以下のような勾配推定量が得られる。 To use the LR gradient, log p (τ) can be converted to the sum because p (τ) is a product. It is expressed as G h (τ) = Σ t = h T c (x t). Note that (1) only the motion distribution is determined by the policy parameters, and (2) the motion does not affect the cost obtained in the past time step, and the following gradient estimator can be obtained.

Figure 2021527289
Figure 2021527289

(PILCO)
図2は、PILCOによるポリシー勾配評価アルゴリズムを説明した図である。ここでは元のPILCOに従うが、これは、ガウス過程ダイナミクスモデルを使用して、ある時間ステップから次の時間ステップまでの状態の変化を予測する。すなわち、p(Δxt+1 )=gP(x,u)(ただし、x∈R、u∈R、Δxt+1 =xt+1 −x )である。各次元aに対して、別個のガウス過程が学習される。ここでは、二乗指数共分散関数k(x_〜,x’_〜)=s exp(−(x_〜−x’_〜)Λ −1(x_〜−x’_〜))を使用する。ただし、sおよびΛ=diag([la1,la2,・・・,laD+F])はそれぞれ、関数分散および長さスケールのハイパーパラメータである。また、ノイズハイパーパラメータがσのガウス尤度関数を使用する。ハイパーパラメータは、訓練によって、周辺尤度を最大化する。これらのモデルからのサンプリングに際して、予測は、y=f_^(x)+ε(ただし、ε〜N(0,σ (x)+σ ))という形態を有する。ここで、σ は、モデルの不確実性を表し、領域中のデータの欠如に起因する。一方、σ は、学習済みの固有モデルノイズである。学習済みモデルノイズは、システム中の実観測ノイズσ と必ずしも同じではない。実際、潜在状態はモデル化されておらず、システムは、現在の観測を所与として、次の観測を予測することにより近似される。さらに、軌跡には、付加的な分散源が存在し、開始位置が異なれば軌跡も異なる。
(PILCO)
FIG. 2 is a diagram illustrating a policy gradient evaluation algorithm by PILCO. Here we follow the original PILCO, which uses a Gaussian process dynamics model to predict changes in state from one time step to the next. That is, p (Δx t + 1 a ) = gP (x t , ut) (where x ∈ R D , u RF F , Δ x t + 1 a = x t + 1 a −x t a ). A separate Gaussian process is learned for each dimension a. Here, the square exponential covariance function k a (x_~, x'_~) = s a 2 exp (- (x_~-x'_~) T Λ a -1 (x_~-x'_~)) To use. However, s a and Λ = diag ([ la1 , la2 , ..., laD + F ]) are hyperparameters of function variance and length scale, respectively. We also use a Gauss-likelihood function with noise hyperparameters of σ n. Hyperparameters maximize marginal likelihood by training. Upon sampling from these models, the prediction has the form y = f_ ^ (x) + ε (where ε to N (0, σ f 2 (x) + σ n 2 )). Here, σ f 2 represents the uncertainty of the model and is due to the lack of data in the region. On the other hand, σ n 2 is the learned intrinsic model noise. The trained model noise is not necessarily the same as the actual observed noise σ o 2 in the system. In fact, the latent state is not modeled and the system is approximated by predicting the next observation given the current observation. Further, there is an additional dispersion source in the locus, and the locus is different if the starting position is different.

(モーメントマッチング予測)
一般的に、ガウス分布が非線形関数によってマッピングされた場合、出力は、扱いにくく、非ガウス分布である。ただし、出力分布のモーメントを解析的に評価できる場合もある。モーメントマッチング(MM)は、平均および分散を真のモーメントとマッチングさせることにより、出力分布をガウス分布として近似する。なお、状態次元が別個の関数fa_^でモデル化されていても、MMは一体的に実行され、状態分布が共分散を含み得る。
(Moment matching prediction)
In general, when the Gaussian distribution is mapped by a nonlinear function, the output is awkward and non-Gaussian. However, there are cases where the moment of output distribution can be evaluated analytically. Moment matching (MM) approximates the output distribution as a Gaussian distribution by matching the mean and variance with the true moment. Note that even if the state dimensions are modeled by a separate function fa_ ^, the MM is executed integrally and the state distribution can include covariance.

(パーティクル予測)
一般的に、パーティクル軌跡予測は単純で、全てのパーティクル位置での予測、出力分布からのサンプリング、繰り返しを行う。ただし、ガウス再サンプリング(GR)に基づく方式との比較により、PILCOへのニューラルネットワークダイナミクスモデルの適用も行う。
(Particle prediction)
In general, particle trajectory prediction is simple, predicting at all particle positions, sampling from the output distribution, and repeating. However, the neural network dynamics model is also applied to PILCO by comparison with the method based on Gauss resampling (GR).

(ガウス再サンプリング(GR))
MMは、確率的に複製可能である。各時間ステップにおいて、パーティクルの平均μ_^=Σi=1 /Pおよび分散Σ_^=Σi=1 (x−μ_^)(x−μ_^)/(P−1)が推定される。その後、パーティクルは、適合分布x’〜μ_^+Lz|z〜N(0,I)(ただし、LはΣ_^のコレスキー因子)から再サンプリングされる。勾配dL=dΣ_^を求めることは、容易ではない。ここでは、与えられた記号表現を使用する。
(Gauss resampling (GR))
MM is stochastically replicable. In each time step, the average μ_^ = Σ i = 1 P x i / P and the variance Σ_ ^ = Σ i = 1 P (x i − μ_ ^) (x i − μ_ ^) T / (P-1) of the particles. ) Is estimated. After that, the particles, fit distribution x 'i ~μ _ ^ + Lz i | z i ~N (0, I) ( where, L is the Cholesky factor of Σ_ ^) is re-sampled from. It is not easy to find the gradient dL = dΣ_ ^. Here, the given symbolic representation is used.

(ハイブリッド勾配推定技術)
本発明の場合には、RP勾配を使用可能である。ただし、驚くべきことに、RP勾配は絶望的に不正確である(図5D参照)。この問題を解決するため、モデル導関数をLR勾配と結合した新たな勾配推定量を得た。特に、本発明の手法では、バッチ内重点サンプリングによって、サンプリング効率の向上を可能にした。
(Hybrid gradient estimation technology)
In the case of the present invention, an RP gradient can be used. However, surprisingly, the RP gradient is hopelessly inaccurate (see Figure 5D). To solve this problem, we obtained a new gradient estimator that combines the model derivative with the LR gradient. In particular, in the method of the present invention, sampling efficiency can be improved by in-batch weighted sampling.

(モデル基準のLR)
予測軌跡上の分布は、p(τ)=p(x)π(u|x)f_^(x|x,u)・・・f_^(x|xT−1,uT−1)として記述可能である。また、決定論的ポリシーによって、p(xt+1|x)=f_^(xt+1|x,π(x;θ))のように、モデルとポリシーとを結合可能であるが、これは、微分可能である(dpt+1/dθ=dpt+1/du・du/dθ)。モデル基準の勾配は、以下のように導かれる。
(Model standard LR)
The distribution on the predicted locus is p (τ) = p (x 0 ) π (u 0 | x 0 ) f_ ^ (x 1 | x 0 , u 0 ) ... f_ ^ (x T | x T-1) , U T-1 ). Also, depending on the deterministic policy, it is possible to combine the model and the policy, such as p (x t + 1 | x t ) = f_ ^ (x t + 1 | x t , π (x t; θ)). Is differentiable (dp t + 1 / dθ = dp t + 1 / du t · du t / dθ). The gradient of the model reference is derived as follows.

Figure 2021527289
Figure 2021527289

(バッチ重点加重LR(BIW−LR))
ここでは、並列計算を使用して、複数のパーティクルを同時にサンプリングする。状態分布は、混合分布q(xt+1)=Σi=1 p(xt+1|xi,t;θ)/Pとして表される。LRの導出と同様に、各時間ステップについて、バッチ内の重点サンプリングにより低分散推定量を以下のように導出可能である。
(Batch weighted LR (BIW-LR))
Here, parallel computing is used to sample multiple particles at the same time. The state distribution is expressed as a mixture distribution q (x t + 1 ) = Σ i = 1 P p (x t + 1 | x i, t ; θ) / P. Similar to the derivation of LR, for each time step, the low variance estimator can be derived as follows by intensive sampling in batch.

Figure 2021527289
Figure 2021527289

以下の方程式により、正規化重点サンプリングによって、リターンの一個抜き平均を推定するようにする。 The following equation is used to estimate the average of returns without one by normalization-weighted sampling.

Figure 2021527289
Figure 2021527289

ただし、cj,t+1=p(xj,t+1|xi,t)/Σk=1 p(xj,t+1|xk,t)である。正規化がなければ、基準値推定の高分散によって、LR勾配が不十分となる。なお、時間ステップごとにP基準値を計算する一方で、勾配推定量には、P成分が存在する。真の不偏勾配を求めるには、Pの一個抜き基準値(分布の各混合成分のパーティクルごとに1つ)を計算するものとする。本明細書には、ここに提示の基準値のみを用いた評価を含む(これにより、バイアスのほとんどを除去済みであることが分かっている)。 However, c j, t + 1 = p (x j, t + 1 | x i, t ) / Σ k = 1 P p (x j, t + 1 | x k, t ). Without normalization, the high variance of the reference value estimation results in an inadequate LR gradient. Incidentally, while calculating the P reference value for each time step, the gradient estimator, there is P 2 component. To determine the true unbiased gradient shall be calculated one vent reference value P 2 (the one for each particle of each mixture component distribution). The present specification includes an evaluation using only the reference values presented herein (which is known to have eliminated most of the bias).

(RP/LR加重平均)
計算の大部分は、dp(xt+1|x;θ)/dθ項に費やされる。これらの項は、LRおよびRPの両勾配に必要なため、両推定量の結合には如何なるペナルティも存在しない。周知の統計学的結果によれば、独立した推定量に関して、重みが逆分散に比例する場合は、最適な加重平均推定値が実現される。すなわち、μ=μLRLR+μRPRP(ただし、kLR=σLR_^−2/(σLR_^−2+σRP_^−2)およびkRP=1−kLR)である。
(RP / LR weighted average)
Most of the calculation is spent on the dp (x t + 1 | x t ; θ) / dθ term. Since these terms are required for both LR and RP gradients, there is no penalty for combining both estimators. Well-known statistical results show that for independent estimators, optimal weighted average estimates are achieved when the weights are proportional to the inverse variance. That is, μ = μ LR k LR + μ RP k RP (where k LR = σ LR _ ^ -2 / (σ LR _ ^ -2 + σ RP _ ^ -2 ) and k RP = 1-k LR ). ..

単純結合方式であれば、両推定量について、全軌跡の勾配を別個に計算した後、それらを結合することになるが、この手法では、軌跡の短い部分に再パラメータ化勾配を使用して、より優れた勾配推定値を求める機会が無視されてしまう。本発明の新たな総和伝播アルゴリズム(TP)は、この単純法に優る。TPでは、単一の後方パスによって、全ての考え得るRP深度にわたる和集合を計算するため、低分散の推定量に大きな重みが自動的に付与される。 In the simple coupling method, the gradients of all trajectories are calculated separately for both estimators and then combined, but in this method, reparameterization gradients are used for the short parts of the trajectories. Opportunities for better gradient estimates are ignored. The novel sum propagation algorithm (TP) of the present invention is superior to this simple method. In TP, a single back pass calculates the union over all possible RP depths, so the low variance estimator is automatically weighted heavily.

図3は、総和伝播アルゴリズムを説明した図である。アルゴリズム2においては、各後方ステップにおいて、LRおよびRPの両方法を用いることにより、ポリシーパラメータに対して勾配を評価する。また、ポリシーパラメータ空間における分散に基づいて比を評価するが、この分散は、ポリシー勾配推定量の分散に比例する。勾配は結合され、分布パラメータ空間における最良の推定値が過去の時間ステップに受け渡される。このアルゴリズムにおいては、V演算子が異なるパーティクルから勾配推定値のサンプル分散を取り出すが、他の分散推定方式も考えられ、たとえば、勾配の大きさの移動平均から分散を推定することも可能であるし、分散に対して異なる統計学的推定量を使用することも可能であるし、ポリシーパラメータの部分集合のみを使用することも可能である。このアルゴリズムは、RL問題に限定されず、一般的な確率的計算グラフにも適用可能であり、確率論的モデル、確率的ニューラルネットワーク等の訓練に使用することも可能である。一般的な計算グラフ設定においては、勾配をグラフ中で後方に伝播させることにより、グラフ中のいくつかのノードで複数の勾配推定量を結合するようにしてもよい。この場合に、時間ステップパラメータtを1だけ小さくすれば、これは、グラフ中でのノードの後方移動の一方、勾配の伝播に対応することになる。勾配推定量の結合方式での決定に用いられる分散等の統計値は、計算グラフ中のその他任意のノードから求められるようになっていてもよい。 FIG. 3 is a diagram illustrating a total propagation algorithm. In Algorithm 2, each backward step evaluates the gradient against policy parameters by using both the LR and RP methods. We also evaluate the ratio based on the variance in the policy parameter space, which is proportional to the variance of the policy gradient estimator. The gradients are combined and the best estimate in the distribution parameter space is passed to the past time step. In this algorithm, the sample variance of the gradient estimator is extracted from particles with different V operators, but other variance estimation methods are also conceivable. For example, it is possible to estimate the variance from the moving average of the gradient magnitude. However, it is possible to use different statistical inferences for the variance, or just a subset of the policy parameters. This algorithm is not limited to the RL problem, but can be applied to general probabilistic calculation graphs, and can also be used for training stochastic models, stochastic neural networks, and the like. In a typical computational graph setting, multiple gradient estimators may be combined at several nodes in the graph by propagating the gradient backwards in the graph. In this case, if the time step parameter t is reduced by 1, this corresponds to the backward movement of the node in the graph while the propagation of the gradient. Statistical values such as variance used to determine the gradient estimator in the combined method may be obtained from any other node in the calculation graph.

図4は、本実施形態に係る、コンピューティングデバイス1により実行される手順を説明したフローチャートである。コンピューティングデバイス1は、アルゴリズム2に従って、以下のプロセスを実行する。 FIG. 4 is a flowchart illustrating a procedure executed by the computing device 1 according to the present embodiment. The computing device 1 executes the following process according to the algorithm 2.

制御ユニット11は、種々パラメータを初期化する(ステップS101)。具体的には、制御ユニット11は、dGT+1/dζT+1=0、dJ/dθ=0、GT+1=0と設定する。ただし、ζは、分布パラメータ(たとえば、μおよびσ)である。 The control unit 11 initializes various parameters (step S101). Specifically, the control unit 11 sets the dG T + 1 / dζ T + 1 = 0, dJ / dθ = 0, G T + 1 = 0. Where ζ is a distribution parameter (eg μ and σ).

制御ユニット11は、時間(時間ステップ)tをTに設定し(ステップS102)、パーティクルiごとに以下の計算を実行する(ステップS103)。ただし、cは、時間tにおけるコストである。 The control unit 11 sets the time (time step) t to T (step S102), and executes the following calculation for each particle i (step S103). However, ct is the cost at time t.







Figure 2021527289
Figure 2021527289

制御ユニット11は、数式6の計算結果を用いて、以下の計算を実行する(ステップS104)。 The control unit 11 executes the following calculation using the calculation result of the formula 6 (step S104).

Figure 2021527289
Figure 2021527289

さらに、制御ユニット11は、数式6の計算結果を用いて、パーティクルiごとに、以下の計算を実行する(ステップS105)。 Further, the control unit 11 executes the following calculation for each particle i using the calculation result of the formula 6 (step S105).

Figure 2021527289
Figure 2021527289

次に、制御ユニット11は、時間tが所定の時間1に達したかを判定する(ステップS106)。時間tが時間1になっていない場合(S106:NO)、制御ユニット11は、時間tを1だけ減らし(ステップS107)、プロセスをステップS103に戻す。 Next, the control unit 11 determines whether the time t has reached the predetermined time 1 (step S106). If the time t is not time 1 (S106: NO), the control unit 11 reduces the time t by 1 (step S107) and returns the process to step S103.

(ポリシー最適化)
なお、勾配に基づく任意の最適化手順を使用することも可能であるが、本実施形態においては、RMSpropのような確率的勾配降下法を使用する(RMSpropに由来するアルゴリズムを使用する)。RMSpropでは、勾配の二乗の移動平均を利用して、そのSGDステップを正規化する。本発明の場合は、バッチサイズが大きいため、z=E[g]=E[g]+V[g](ただし、gが勾配)によって、バッチから二乗の期待値を直接推定する。また、平均の分散を使用する。すなわち、V[g]は、パーティクル数Pにより除された分散である。勾配ステップは、g/z1/2になる。また、パラメータγのモーメンタムを使用する。完全更新された方程式は、以下のようになる。
(Policy optimization)
It is possible to use any gradient-based optimization procedure, but in this embodiment, a stochastic gradient descent method such as RMSprop is used (an algorithm derived from RMSprop is used). RMSprop uses the moving average of the square of the gradient to normalize its SGD step. In the case of the present invention, since the batch size is large, the expected value of the square is directly estimated from the batch by z = E [g 2 ] = E [g] 2 + V [g] (where g is a gradient). Also, use the mean variance. That is, V [g] is the variance divided by the number of particles P. The gradient step is g / z 1/2 . Also, the momentum of the parameter γ is used. The fully updated equation looks like this:

Figure 2021527289
Figure 2021527289

乱数シードの固定によって、確率的問題を決定論的に変えることができ、RLコミュニティにおいてはPEGASUSトリックとしても知られている。シードが固定された場合は、RP勾配が対象の厳密な勾配であり、BFGS等の決定論的疑似ニュートンオプティマイザを使用可能である。 Fixed random number seeds can deterministically change stochastic problems and are also known in the RL community as PEGASUS tricks. When the seed is fixed, the RP gradient is the exact gradient of interest and a deterministic pseudo-Newton optimizer such as BFGS can be used.

(実験)
2つの目的で、実験を行った:(1)RP勾配が十分ではない理由を説明するため、(2)本発明の新たに開発された方法が学習効率の点でPILCOに匹敵し得ることを示すため。
(experiment)
Experiments were conducted for two purposes: (1) to explain why the RP gradient was not sufficient, and (2) that the newly developed method of the present invention could be comparable to PILCO in terms of learning efficiency. To show.

(値ランドスケープをプロットする)
図5A〜図5Fは実験結果を図示している。ランダムに選択された固定方向にポリシーパラメータθを摂動させ、目的関数および、射影勾配の大きさをΔθの関数としてプロットする。この実験の結果は、恐らくは本明細書において最も斬新な部分であり、「カオスの呪い(the curse of chaos)」という用語を思いついた。
(Plot the value landscape)
5A-5F illustrate the experimental results. The policy parameter θ is perturbed in a randomly selected fixed direction, and the objective function and the magnitude of the projection gradient are plotted as a function of Δθ. The results of this experiment were perhaps the most novel part of this specification, and came up with the term "the curse of chaos".

プロットは、非線形のcart−poleのタスクで、生成された。1000パーティクルを使用し、一方で図5Dの高分散が乱数性によって生じるのではなく、システムのカオスのような特性によるものであることを実証するために乱数シードは固定し続けた。信頼区間は、V ar / Pによって推定され、ここで、V arはサンプル分散であり、Pはパーティクル数である。後述するように、より原理的な手法を使用して分散のPに対する依存性をプロットする。 Plots were generated in a non-linear cart-pole task. Using 1000 particles, the random seeds were kept fixed to demonstrate that the high variance in Figure 5D was not caused by randomness, but by the chaotic properties of the system. The confidence interval is estimated by Var / P, where Var is the sample variance and P is the number of particles. As will be described later, a more principled method is used to plot the dependence of the variance on P.

図5Dには、特異な結果が含まれており、ある領域ではRP勾配が良好な振る舞いをしているが、ポリシーパラメータが摂動されると相遷移のような変化により分散が爆発している。Δθ=1.5における分散は、Δθ=0の〜4×10倍であり、この領域でRP勾配が正確となるためには4×10パーティクルが必要であることを意味している。実用に際しては、RP勾配で最適化することにより単純なランダムウォークが導かれる。 FIG. 5D contains a peculiar result, in which the RP gradient behaves well in some regions, but when the policy parameters are perturbed, the variance explodes due to changes such as phase transitions. Dispersion in [Delta] [theta] = 1.5 is to 4 × 10 5 times the [Delta] [theta] = 0, which means that for RP gradient in this region is the accurate are required 4 × 10 8 particles. In practical use, a simple random walk can be derived by optimizing with the RP gradient.

シードが固定されているため、図5DのRP勾配は図5Aの値の厳密な勾配である。したがって、図5Aの右に極微小の決定論的な「ノイズ」が存在する。しかし1000パーティクルにわたって平均化される値は、真の目的ではないが、無限数のパーティクルを平均化する必要がある。無限数のパーティクルを平均化した場合、まだ「ノイズ」が存在するだろうか?または、関数が滑らかになるだろうか? Since the seeds are fixed, the RP gradient in FIG. 5D is the exact gradient of the values in FIG. 5A. Therefore, there is a very small deterministic "noise" on the right side of FIG. 5A. However, the value averaged over 1000 particles is not the true purpose, but it is necessary to average an infinite number of particles. Is there still "noise" when averaging an infinite number of particles? Or will the function be smooth?

図5Eおよび図5Fの新たな勾配推定量は、真の目的が確かに滑らかであることを示唆している。さらなるエビデンスを与えるために、「ノイズ」を無視できるように、θにおいて十分に大きな摂動を使用して図5Aの値の有限差分から勾配の大きさを推定した。2つの別個の手法(1つはポリシーパラメータθを変化させる、もう1つはθを固定し続けるが軌跡から勾配を推定する)が合致するという事実は、真の目的が滑らかであるという説得力のあるエビデンスを与える。 The new gradient estimators in FIGS. 5E and 5F suggest that the true purpose is certainly smooth. To provide further evidence, the magnitude of the gradient was estimated from the finite difference of the values in FIG. 5A using a sufficiently large perturbation at θ so that “noise” could be ignored. The fact that two separate methods (one to change the policy parameter θ, the other to keep θ fixed but to estimate the gradient from the trajectory) is convincing that the true purpose is smooth. Give some evidence.

図5Bおよび図5Cは、RP勾配を使用する際の、分散の爆発の理由を説明している。図5Bは、最も左のパラメータ設定に対応し、図5Cは最も右のパラメータ設定に対応している。プロットは、値V(x;θ)(残存累積コスト)が位置xの関数としてどのように変化するかを示している。なお、乱数シードが固定されているため、値Vは残存リターンGと同一である。図面は、異なる固定シードで4パーティクルについて各点の軌跡を予測し、軌跡のコストを平均化することによって作成された。1パーティクルを試した後に、4パーティクルを予測するようにし、それについては値が階段のような部分を含むように見えたが、それ以外は現在の図面と比べてあまり興味深くはなかった。4パーティクルの平均値は不安定であるため、4パーティクルのうちの少なくとも1つは示される領域内で非常に不安定であったに違いない。 5B and 5C explain the reason for the dispersion explosion when using the RP gradient. FIG. 5B corresponds to the leftmost parameter setting, and FIG. 5C corresponds to the rightmost parameter setting. The plot shows how the value V (x; θ) (residual cumulative cost) changes as a function of position x. Since the random number seed is fixed, the value V is the same as the residual return G. The drawings were created by predicting the locus of each point for 4 particles with different fixed seeds and averaging the cost of the locus. After trying one particle, I tried to predict four particles, for which the values seemed to include stair-like parts, but otherwise it wasn't very interesting compared to the current drawing. Since the average value of the four particles is unstable, at least one of the four particles must have been very unstable within the area shown.

初期状態分布の中央から平均予測に四角が中央に位置付けられる。四角の軸は、わずかに異なっているが、θが変わると予測される位置p(x1;θ)が変わるからである。辺の長さはガウス分布p(x1;θ)の4標準偏差に対応している。速度は平均値に固定し続けた。 From the center of the initial state distribution, the square is positioned in the center of the average prediction. This is because the axes of the squares are slightly different, but the position p (x1; θ), which is predicted to change θ, changes. The edge lengths correspond to the four standard deviations of the Gaussian distribution p (x1; θ). The speed remained fixed at the average value.

RPはd/dθ ∫p(x;θ)V(x)dxを推定する。これは四角内部の点をサンプリングし、勾配dV/dθ=dV/dx・dx/dθを計算して、サンプルとともに平均化する。図5Cでは、Vを微分することで期待値の勾配を見出すことは全く絶望的である。対照的に、LR勾配(図5E)は、値Vの微分ではなく値Vだけを使用しており、この問題を被っていない。TP(図5F)は、両方の推定量を効果的に結合している。 RP estimates d / dθ ∫p (x 1 ; θ) V (x 1 ) dx. It samples the points inside the square, calculates the gradient dV / dθ = dV / dx · dx / dθ, and averages it with the sample. In FIG. 5C, finding the gradient of the expected value by differentiating V is quite hopeless. In contrast, the LR gradient (FIG. 5E) uses only the value V, not the derivative of the value V, and does not suffer from this problem. TP (Fig. 5F) effectively combines both estimators.

ガウス再サンプリングの場合についてプロット値と勾配を示すことはしないが、最終的に、これらの両方が固定された乱数シードに対して滑らかな関数であった。したがって、再サンプリングも「カオスの呪い」に対して有効である。 We do not show plot values and gradients for the Gauss resampling case, but in the end both of these were smooth functions for a fixed random seed. Therefore, resampling is also effective against the "curse of chaos".

図6Aおよび図6Bは、分散のグラフである。図6Aおよび図6Bでは、Δθ=0およびΔθ=1.5における勾配推定量の分散がパーティクル数Pにどのように依存するかをプロットした。分散は、多数回、推定量を繰り返しサンプリングし、評価の集合からの分散を計算することによって計算された。RP、TPならびにLR勾配を、バッチ重点加重(BIW)のある時とない時の両方とで比較して、本発明の重点サンプリング方式が分散を低減させることを示す。重点サンプリング基準値を使用した−実際には、通常のLR勾配はより単純な基準値を使用し、ずっと高い分散を有する。図6BではRP勾配が省略されているが、分散が10〜1015の間にあったためである。TP勾配が、BIW−LR、およびRP勾配を結合した。 6A and 6B are graphs of variance. In FIGS. 6A and 6B, how the variance of the gradient estimator at Δθ = 0 and Δθ = 1.5 depends on the number of particles P is plotted. The variance was calculated by iteratively sampling the estimator many times and calculating the variance from the set of evaluations. RP, TP and LR gradients are compared both with and without batch weighted (BIW) to show that the weighted sampling scheme of the present invention reduces variance. Using a weighted reference value-in practice, a normal LR gradient uses a simpler reference value and has a much higher variance. The RP gradient is omitted in FIG. 6B because the variance was between 10 8 and 10 15. The TP gradient combined the BIW-LR and RP gradients.

結果により、BIWが著しく分散を低減していることが確認される。さらに、本発明のTPアルゴリズムが最良であった。重要なことに、図6Bでは全軌跡についてのRP勾配の分散は他の推定量よりも10大きいが、TPは短い経路長のRP勾配を利用して250より少ないパーティクルについて10〜50%低減した分散を得ている。これは注目すべき結果であるが、勾配推定量が別個に計算される場合、結合された推定量についての最高の可能な精度は別個の推定量の精度の総和となるからである。しかしながら、本発明の総和伝播アルゴリズムは、計算のグラフ構造を利用しているため、総和よりも高い精度を実現している。 The results confirm that BIW significantly reduces dispersion. Furthermore, the TP algorithm of the present invention was the best. Importantly, the dispersion of the RP slope for all trajectories in Figure 6B is 106 greater than other estimates, TP 10-50% for less particles than 250 using the RP gradient short path length reduction Is getting the variance. This is a notable result, because when the gradient estimators are calculated separately, the highest possible accuracy for the combined estimators is the sum of the accuracy of the separate estimators. However, since the total propagation algorithm of the present invention uses the graph structure of calculation, it achieves higher accuracy than the total.

(学習実験)
エピソード的な学習タスクでのPILCOを以下のパーティクル基準の方法と比較する:RP、固定シードでのRP(RPFS)、ガウス再サンプリング(GR)、固定シードでのGR(GRFS)、モデル基準のバッチ重点加重尤度比(LR)、および総和伝播(TP)。さらに、パーティクル予測の2つのバリエーションを評価する。(1)モデルの不確実性を無視する一方で、各時間ステップにおいてノイズのみを加算するTP(TP−σ)。(2)予測ノイズが増加させたTP(TP+σ)。全ての場合で300パーティクルを使用した。
(Learning experiment)
Compare PILCO in episodic learning tasks with the following particle-based methods: RP, RP with fixed seed (RPFS), Gauss resampling (GR), GR with fixed seed (GRFS), model-based batch Weighted likelihood ratio (LR), and total propagation (TP). In addition, two variations of particle prediction are evaluated. (1) TP (TP-σ f ) that adds only noise at each time step while ignoring model uncertainty. (2) TP (TP + σ n ) in which the predicted noise is increased. 300 particles were used in all cases.

最近のPILCOの論文(非特許文献3):カートポールのスイングアップおよびバランス、ならびに一輪車のバランス、より学習タスクを実行した。シミュレーションダイナミクスは同一に設定し、他の態様は元のPILCOと同様にした。図7A、図7B、図8および図9は実験結果を図示している。 A recent PILCO paper (Non-Patent Document 3): Swing-up and balance of cart poles, and balance of unicycles, performed more learning tasks. The simulation dynamics were set to be the same, and other aspects were the same as the original PILCO. 7A, 7B, 8 and 9 illustrate the experimental results.

オプティマイザを、各試行間で600ポリシー評価について、実行した。SGD学習速度およびモーメンタムパラメータは、α=5×10−4およびγ=0.9であった。エピソード長は、カートポールでは3s、一輪車では2sであった。なお、一輪車タスクについては、ポリシーを長い試行に一般化するためには2sでは十分ではないが、それでもPILCOと比較することはできる。制御周波数は10Hzであった。コストは、タイプ1−exp(−(x−t)Q(x−t))であり、ここでtはターゲットである。ポリシー_(x)からの出力は飽和関数sat(u)=9sin(u)/8+sin(3u)/8によって制約され、ここでu=π_〜(x)である。1つの実験は(1;5)ランダム試行から構成され、カートと一輪車のタスクそれぞれについて学習済み試行(15;30)が続く。各実験は100回繰り返され、平均化した。各試行は、ポリシーを30回実行して平均化することにより評価したが、これは評価目的のためのみに実行したことに留意されたい(アルゴリズムのアクセスは1試行だけである)。最終試行のリターンが閾値を下回ったどうかによって、成功を判断した。 The optimizer was run for 600 policy evaluations between each trial. The SGD learning rate and momentum parameters were α = 5 × 10 -4 and γ = 0.9. The episode length was 3s for the cart pole and 2s for the unicycle. For unicycle tasks, 2s is not enough to generalize the policy to long trials, but it can still be compared to PILCO. The control frequency was 10 Hz. The cost is of type 1-exp (-(x-t) T Q (x-t)), where t is the target. The output from policy_ (x) is constrained by the saturation function sat (u) = 9sin (u) / 8 + sin (3u) / 8, where u = π_ to (x). One experiment consists of (1; 5) random trials, followed by learned trials (15; 30) for each of the cart and unicycle tasks. Each experiment was repeated 100 times and averaged. Each trial was evaluated by running the policy 30 times and averaging, but note that this was done for evaluation purposes only (algorithm access is only one trial). Success was judged by whether the return of the final trial was below the threshold.

(カート−ポールのスイングアップおよびバランス)
これは標準的な制御セオリーのベンチマーク課題である。タスクは、カートを前後に押して、直立に取り付けられた振り子を揺らしてそのバランスを保つことから構成される。状態空間は、x=[s,β,ds/dt,dβ/dt]と表現され、ここでsはカート位置であり、βはポール角度である。基準のノイズレベルはσ=0.01m、β=1deg、σds/dt=0.1m/s、σdβ/dt=10deg/sである。ノイズは、異なる実験では乗数k:σ=kσbase によって修正される。元の論文では、真の状態への直接アクセスが考慮されている。類似の設定を求めるために、k=10−2と設定したが、やはりk∈{1,4,9,16}を試験した。ポリシーπ_〜は、50基底関数を伴う動径基底関数ネットワーク(ガウシアンの総和)である。2つのコスト関数を考える。1つは、元のPILCOと同じものであり、xがサインとコサインを含み、振り子がバランスをとっている時の振り子の先端(Tip)と先端の位置との間の距離に依存している(Tip Cost)。もう1つのコストは、生の角度を使用し、Q=diag([1,1,0,0])であった(Angle Cost)。このコストはTip Costとは概念的に異なっており、振り子をスイングアップする正しい方向が1つだけであるからである。
(Cart-pole swing up and balance)
This is a standard control theory benchmarking task. The task consists of pushing the cart back and forth and rocking the upright mounted pendulum to maintain its balance. The state space is expressed as x = [s, β, ds / dt, dβ / dt], where s is the cart position and β is the pole angle. The reference noise levels are σ s = 0.01 m, β = 1 deg, σ ds / dt = 0.1 m / s, and σ dβ / dt = 10 deg / s. The noise is corrected by the multiplier k: σ 2 = kσ base 2 in different experiments. The original paper considers direct access to the true state. To determine the setting of the similarity, was set to k = 10 -2, were tested again k∈ {1,4,9,16}. Policy π_ ~ is a radial basis function network (sum of Gaussian) with 50 basis functions. Consider two cost functions. One is the same as the original PILCO, where x contains the sine and cosine and depends on the distance between the tip of the pendulum and the position of the tip when the pendulum is in balance. (Tip Cost). Another cost was Q = diag ([1,1,0,0]) using the raw angle (Angle Cost). This cost is conceptually different from Tip Cost, because there is only one correct direction to swing up the pendulum.

(一輪車のバランス)
タスクは、一輪車ロボットがバランスをとることから構成され、状態次元D=12、および制御次元F=2である。ノイズは低い値に設定した。制御を与えるπ_〜は線形である。
(Balance of unicycle)
The task consists of balancing the unicycle robot, with state dimension D = 12 and control dimension F = 2. The noise was set to a low value. Π_ ~ giving control is linear.

(学習実験)
PILCOは、ノイズのないシナリオでは良好に実行されるが、ノイズが加わると、結果が悪化する。この悪化は、MM近似における誤りの累積によって最も生じやすく、以前、予測に求積を使用したVinogradskaら、(2016)によって観測されている。パーティクルはこの問題を被っておらず、TP勾配を使用することは、高ノイズ状態で常にPILCOより優れている。
(Learning experiment)
PILCO works well in noisy scenarios, but the addition of noise worsens the results. This exacerbation is most likely to occur due to the accumulation of errors in the MM approximation, previously observed by Vinogradska et al. (2016), who used quadrature for prediction. Particles do not suffer from this problem and using a TP gradient is always better than PILCO in high noise conditions.

一方、低いノイズレベルでは、TPならびにLRのパフォーマンスは低下している。パーティクルの全てが、小さな領域からサンプリングされる場合、リターンの変化から勾配を推定することが困難になる(デルタ分散の極限では、LR勾配は評価すらできない)。TP勾配はこの問題をそれほど被らないが、RPからの情報を組み込むからである。最終的に、予測の不確実性が非常に低い場合(たとえばk=10−2)、モデルノイズを学習に影響するパラメータとして考え、より正確な勾配を得るためにそれを大きくすることができる。TP+σを参照されたい。ただし、モデルノイズ分散は100で乗じた。 On the other hand, at low noise levels, the performance of TP and LR is degraded. If all of the particles are sampled from a small area, it will be difficult to estimate the gradient from the change in return (at the limit of delta variance, the LR gradient cannot even be evaluated). The TP gradient does not suffer much from this problem, because it incorporates information from the RP. Finally, if the prediction uncertainty is very low (eg k = 10-2 ), model noise can be considered as a parameter affecting learning and increased to obtain a more accurate gradient. See TP + σ n. However, the model noise variance was multiplied by 100.

とりわけ、PILCOなどのMMを使用する手法、およびGRは、Tip Costを使用する場合、他よりも優れている。理由としては、目的のマルチモダリティを挙げることができる−Tip Costでは、振り子はタスクを解決するためにいずれの方向からもスイングアップされ得る;Angle Costでは、正しい方向は、1つだけである。MMを実行することは、アルゴリズムにユニモーダルな経路に沿うよう強制するが、それにもかかわらずパーティクル手法は、一部のパーティクルが一方から来てもう一方で止まるバイモーダルなスイングアップを試行する可能性がある。したがって、MMは最適化問題を簡略化する一種の「分布報酬成形」を実行している場合がある。そのような説明は、以前にGalら、(2016)によってなされている。 In particular, methods using MM, such as PILCO, and GR are superior to others when using Tip Cost. The reason can be the multi-modality of interest-in Tip Cost, the pendulum can be swung up from any direction to solve the task; in Angle Cost, there is only one correct direction. Running MM forces the algorithm to follow a unimodal path, but the particle technique can nevertheless attempt a bimodal swing-up where some particles come from one and stop at the other. There is sex. Therefore, the MM may perform a kind of "distribution reward shaping" that simplifies the optimization problem. Such an explanation was previously made by Gal et al. (2016).

最終的に、驚くべきTP−σ実験を指摘する。予測はモデルの不確実性を無視しているが、方法は93%の成功率を達成する。なぜ学習がうまくいったのかの説明は困難であるが、成功がGPのゼロ事前平均に関連し得るとの仮説を立てている。データがない領域では、GPダイナミクスモデルの平均は0に向かい、これは入力制御信号がパーティクルに対して効果がないことを意味している。したがって、ポリシー最適化を成功させるためには、パーティクルがデータの存在する領域に留まるように制御しなければならない。なお、同様の結果が、進化型アルゴリズムを使用して、モデル不確実性を無視する場合でもカート−ポールタスクで85〜90%の成功率を達成したChatzilygeroudisら、(2017)により見出されている。 Finally, we point out a surprising TP-σ f experiment. The prediction ignores model uncertainty, but the method achieves a success rate of 93%. It is difficult to explain why learning was successful, but we hypothesize that success can be associated with a zero prior average of GP. In the region with no data, the average of the GP dynamics model goes to 0, which means that the input control signal has no effect on the particles. Therefore, for successful policy optimization, the particles must be controlled to stay in the area where the data resides. Similar results were found by Chatzilygeroudis et al. (2017), who achieved a success rate of 85-90% in the cart-pole task even when using evolutionary algorithms and ignoring model uncertainty. There is.

ほとんどの機械学習問題には、何らかのデータ生成分布pData(x)に対する目的関数J(x;θ)の期待値の最適化を伴うが、この分布は、サンプルデータ点{x}を通じてのみアクセス可能である。本発明の予測的フレームワークは、深層モデルに類似している:p(x)は、データ生成分布であり、p(x;θ)はモデルレイヤにpData(x)を通すことにより求められる。最も一般的な最適化方法は、逆伝播により計算されるPathwise導関数を用いたSGDである。本発明の結果は、いくつかの状況(特に、非常に深いまたはリカレントなモデルの場合)において、この手法は、勾配分散の爆発によって、ランダムウォークに陥る可能性もあることを示唆している。 Most machine learning problems involve optimizing the expected value of the objective function J (x; θ) for some data generation distribution p Data (x), but this distribution is accessed only through the sample data points {x i}. It is possible. The predictive framework of the present invention is similar to a deep model: p (x 0 ) is a data generation distribution and p (x t ; θ) is by passing p Data (x) through the model layer. Desired. The most common optimization method is SGD using the Pathwise derivative calculated by backpropagation. The results of the present invention suggest that in some situations (especially in the case of very deep or recurrent models), this approach can also lead to random walks due to gradient dispersion explosions.

勾配の爆発は、深層学習の研究において、長年観測されている(Doya, 1993; Bengioら、1994)。通常、この現象は、ステップの増大および学習の不安定化につながる数値問題と見なされる。一般的な対策としては、勾配のクリッピング、ReLU活性化関数(Nair & Hinton, 2010)、およびスマート初期化が挙げられる。この問題に対する本発明の説明は異なる:勾配は、大きくなるだけではなく、勾配分散は爆発し、これはx〜pDataからのあらゆるサンプルが、モデルパラメータθをどのように変えて分布全体EpData[J(x)]についての目的の期待値を大きくするかについての情報を本質的に与えないことを意味している。良好な初期化を選択することがこの問題に対処する一手法である一方で、これはシステムが学習中にカオスにならないことを保証することは困難と思われる。たとえば計量経済学では、最適なポリシーがカオス的なダイナミクスをもたらす場合すらある(Deneckere & Pelikan, 1986)。勾配クリッピングにより、大きなパラメータステップを止めることができるが、勾配がランダムになれば根本的に問題を解決することにはならない。線形系ではカオスが生じないことを考慮して(Alligoodら、1996)、本発明の解析は、ReLUなどのカオスの影響を受けにくい区分線形活性化が深層学習でうまくいく理由を示唆している。 Gradient explosions have been observed for many years in deep learning studies (Doya, 1993; Bengio et al., 1994). This phenomenon is usually regarded as a numerical problem that leads to increased steps and learning instability. Common countermeasures include gradient clipping, ReLU activation function (Nair & Hinton, 2010), and smart initialization. The description of the present invention for this problem is different: not only does the gradient increase, but the gradient variance explodes, which means that every sample from x i to p Data changes the model parameter θ and the entire distribution E. It means that it essentially does not give information about whether to increase the expected value of the purpose for pData [J (x)]. While choosing good initialization is one way to deal with this problem, it seems difficult to guarantee that the system will not become chaotic during learning. In econometrics, for example, optimal policies can even result in chaotic dynamics (Deneckere & Pelikan, 1986). Gradient clipping can stop large parameter steps, but random gradients do not fundamentally solve the problem. Considering that chaos does not occur in linear systems (Alligood et al., 1996), the analysis of the present invention suggests why piecewise linear activation, which is less susceptible to chaos such as ReLU, works well in deep learning. ..

本発明の深層的な仮説をなお計算機的に確認しなければならない一方で、いくつかの研究によりニューラルネットワークにおけるカオスが調査されているが(Kolen & Pollack, 1991; Sompolinskyら、1988)、やはり本発明が初めて、カオスは逆伝播を使用して計算されると勾配を縮退させ得ることを示唆していると信じている。とりわけ、Pooleら、(2016)はそのような特性が「指数関数的な表現力」をもたらすことを示唆したが、この現象が呪いの代わりとなり得ると信じている。 While the deep hypothesis of the present invention must still be computationally confirmed, some studies have investigated chaos in neural networks (Kolen & Pollack, 1991; Sompolinsky et al., 1988), but again the book. For the first time, we believe that chaos suggests that gradients can be degenerated when calculated using backpropagation. In particular, Poole et al. (2016) suggested that such a property provides "exponential expressiveness", but believes that this phenomenon can replace the curse.

(結論と今後の研究)
逆伝播により計算されるものなど、Pathwise導関数を使用する期待値を最適化することの限界を説明した。さらに、計算にノイズを投入すること、および尤度比のトリックを使用することにより、この呪いに拮抗する方法を示す。本発明の総和伝播アルゴリズムは、任意の確率的計算グラフに対する再パラメータ化勾配を、あらゆる量の他の勾配推定量(値関数を使用して計算された勾配すら使用することができる)と結合するための効率的な方法を提供する。本発明の研究を拡張する数え切れないほどの方法がある:よりよい最適化、自然な勾配の組み込みなど。本発明の方法の柔軟な性質により、これらの拡大が容易になるはずである。
(Conclusion and future research)
The limitations of optimizing expected values using Pathwise derivatives, such as those calculated by backpropagation, have been explained. In addition, we show how to counteract this curse by adding noise to the calculation and using the likelihood ratio trick. The sum propagation algorithm of the present invention combines a reparameterized gradient for any probabilistic computational graph with any amount of other gradient estimators (even gradients calculated using value functions can be used). Provides an efficient way to do this. There are countless ways to extend the work of the present invention: better optimization, incorporation of natural gradients, etc. The flexible nature of the methods of the invention should facilitate these extensions.

(実施形態2)
確率論的な計算グラフ(PCG)の定義を提供する。なお、PCGの概念は、総和伝播アルゴリズムを説明するために使用した計算グラフの概念とは異なっているが、代わりに勾配推定量についての理由に関するフレームワークを説明している。定義は、標準的な有向グラフ的なモデルの定義と全く等価であるが、本発明の方法により注目するものであり、推論を実行するのではなく勾配を計算することにおける本発明の興味を強調している。主な違いは、たとえばガウシアンについての分布パラメータζ、平均μ、および共分散Σの明示的な包含である。
(Embodiment 2)
A definition of a probabilistic computational graph (PCG) is provided. Note that the PCG concept is different from the computational graph concept used to explain the sum propagation algorithm, but instead describes a framework for reasons for gradient estimators. The definition is quite equivalent to the definition of a standard directed graph model, but is more focused on the methods of the invention, emphasizing the invention's interest in calculating gradients rather than performing inference. ing. The main difference is the explicit inclusion of the distribution parameters ζ, mean μ, and covariance Σ for Gaussian, for example.

定義1(確率論的計算グラフ(PCG))
ノード/頂点VおよびエッジEを有する非巡回グラフは、以下の特性を満足する:
1.各ノードi∈Vは、周辺同時確率密度p(x;ζ)を有するランダムな変数の集合に対応し、ここでζは分布の恐らく無限なパラメータ。なお、パラメータ化は一意ではなく、あらゆるパラメータ化が受け入れ可能である。
2.各ノードの確率密度は条件的に親ノードに依存し、p(x|Pa)である。ここでPaは、ノードiの直接の親におけるランダム変数である。
3.同時確率密度はp(x,・・・,x)=Πi=1 p(x|Pa)を満足する。
4.各ζは、その親の関数であり、ζ=f(Pz)。ここで、Pzはノードiの親における分布パラメータである。特に、p(x;ζ=∫p(x|Pa)p(Pa;Pz)dPaである。
Definition 1 (Probabilistic Calculation Graph (PCG))
A non-circular graph with node / vertex V and edge E satisfies the following characteristics:
1. 1. Each node i ∈ V corresponds to a set of random variables with a peripheral joint probability density p (x i ; ζ i ), where ζ i is a perhaps infinite parameter of the distribution. It should be noted that the parameterization is not unique and any parameterization is acceptable.
2. Probability density for each node conditionally dependent on the parent node, p | a (x i Pa i). Where Pa i is a random variable in the immediate parent of node i.
3. 3. The joint probability density satisfies p (x 1 , ···, x n ) = Π i = 1 n p (x i | Pa i ).
4. Each ζ i is a function of its parent, ζ i = f (Pz i ). Here, Pz i is the distribution parameter in the parent node i. In particular, p (x i ; ζ i = ∫p (x i | Pa i ) p (Pa i ; Pz i ) dPa i .

本発明の数式化においては、確率的なことがないことを強調したい。各計算は解析的に扱いにくい場合があるが、決定論的である。さらに、この定義は決定論的なノードを除外するものではない、すなわちノードにおける分布はディラックのデルタ分散(質点)であり得ることを強調する。後に、勾配の確率的推定値を導出するためにこの数式化を使用する。 It should be emphasized that there is no stochastic in the mathematical formula of the present invention. Each calculation can be analytically cumbersome, but deterministic. Furthermore, this definition does not exclude deterministic nodes, that is, it emphasizes that the distribution at the nodes can be the Dirac delta variance (mass point). Later, we will use this formula to derive a stochastic estimate of the gradient.

(定理の導出)
興味の対象は、あるノードζにおける分布パラメータの、別のノードdζ/dζにおけるパラメータに対する全微分を計算することである。全微分の規則をイテレートすることにより、ノードjからノードiまでの経路にわたる総和が導かれ、以下の通りである。
(Derivation of the theorem)
The subject of interest is to calculate the total derivative of the distribution parameter at one node ζ i with respect to the parameter at another node dζ i / dζ j. By iterating the rule of total derivative, the sum over the path from node j to node i is derived as follows.

Figure 2021527289
Figure 2021527289

この等式は、あらゆる決定論的な計算グラフに当てはまり、またたとえばOJAコミュニティで周知でもある。この等式は自明に本発明の確率的勾配定理を導き、AからBへの経路にわたる総和が、Aから中間ノードおよび中間ノードからBへの経路の総和として書くことができることを説明している。図10Aおよび図10Bは、数式11における経路の例を図示している。 This equation applies to all deterministic computational graphs and is well known in the OJA community, for example. This equation naturally leads to the stochastic gradient theorem of the present invention, explaining that the sum of the paths from A to B can be written as the sum of the paths from A to the intermediate node and from the intermediate node to B. .. 10A and 10B illustrate examples of routes in Equation 11.

定理1(総和確率的勾配定理)
ある確率的計算グラフにおいてiとjを異なるノードとし、INを中間ノードの任意の集合とし、これはjからiへの経路をブロックする、すなわちINはjからiへの経路が存在しないようにするためのものであり、IN中でノードを通過しない。{a→b}をaからbへの経路の集合で表し、{a→b}/cはaからbへの経路の集合であり、bを除いて経路に沿うノードを集合cに含めることはできない。この場合、全微分dζ/dζは次の等式で書くことができる。
Theorem 1 (Sum Stochastic Gradient Theorem)
In a probabilistic calculation graph, i and j are different nodes, IN is an arbitrary set of intermediate nodes, which blocks the path from j to i, that is, IN so that there is no path from j to i. It is for doing so, and does not pass through the node in IN. {A → b} is represented by a set of paths from a to b, {a → b} / c is a set of paths from a to b, and nodes along the paths except b are included in the set c. Can't. In this case, the total derivative dζ i / dζ j can be written by the following equation.

Figure 2021527289
Figure 2021527289

数式10および数式11を結合して次を与えることができる。 Formula 10 and Formula 11 can be combined to give:

Figure 2021527289
Figure 2021527289

なお、r∈{j→m}/INとs∈{j→m}/INとをそれぞれスワップすることにより、類似の定理を導くことができる。これは次の等式を導く。 A similar theorem can be derived by swapping r ∈ {j → m} / IN and s ∈ {j → m} / IN, respectively. This leads to the following equation.

Figure 2021527289
Figure 2021527289

後半、および前半分の総和勾配等式として、それぞれ数式12および数式13を参照する。 Equations 12 and 13 are referred to as the sum-gradient equations for the second half and the first half, respectively.

(グラフ上での勾配推定)
前セクションでは、グラフ全体に対する勾配計算を分解してより狭いグラフに対する勾配計算とする手段を与え、またサブグラフに対して勾配を推定する方法を与えた。ここで、サブグラフに対する勾配をどのように結合してグラフ全体に対する勾配のための推定量とすることができるかの手法を明らかにする。タスクは、ノードjにおけるパラメータに対する遠位のノードiにおける期待値の導関数を推定することである:d/dζxi〜p(xi;ζi)[xi]。真のζは、扱いにくいため、サンプリング基準の推定を行う。p(x;ζ)のサブ分散をサンプリングすることを考える。すなわち、p(x;ζ)=∫p(x;ζ_^)p(ζ_^)dζ_^となるようにζ_^をサンプリングする。これは次のように書くことができる。
(Gradient estimation on the graph)
The previous section provided a means of decomposing the gradient calculation for the entire graph into a gradient calculation for a narrower graph, and also provided a method for estimating the gradient for subgraphs. Here we clarify a method of how the gradients for a subgraph can be combined into an estimator for the gradient for the entire graph. The task is to estimate the derivative of the expected value at the distal node i with respect to the parameter at node j: d / dζ j E xi to p (xi; ζ i) [xi]. Since true ζ is difficult to handle, the sampling standard is estimated. Consider sampling the subvariance of p (x; ζ). That is, ζ_^ is sampled so that p (x; ζ) = ∫p (x; ζ_^) p (ζ_^) dζ_^. This can be written as:

Figure 2021527289
Figure 2021527289

ζ_^は伝承サンプリング手順では自然に生じる。説明の簡素化のため、サンプリングは再パラメータ化可能である、すなわち、p(ζ_^;ζ)=f(ζ_^;ζ,z)p(z)とさらに想定する。これは次のように書くことができる。 ζ_ ^ occurs naturally in the traditional sampling procedure. For the sake of brevity, the sampling is reparameterizable, i.e. further assumed that p (ζ m _ ^; ζ j ) = f (ζ m _ ^; ζ j , z m ) p (z m). do. This can be written as:

Figure 2021527289
Figure 2021527289

項dζ_^/dζjは、Pathwise導関数推定量により推定される。残りの項d/dζ_^Exi〜p(xi;ζi_^)[xi]は、任意の他の推定量により推定され、たとえばジャンプ推定量を使用することができる。第2の推定量がやはり不偏であるとすれば、推定量全体が不偏となる。 The term dζ m _ ^ / dζj is estimated by the Pathwise derivative estimator. The remaining terms d / d ζ m _ ^ Ex i to p (xi; ζ i_ ^) [xi] are estimated by any other estimator, for example a jump estimator can be used. If the second estimator is also unbiased, then the entire estimator is unbiased.

要約すると、グラフ全体に対して、jからiまでの勾配推定量を作成する手順は以下の通りである:
1.経路jからiまでをブロックする中間ノードINの集合を選択する。
2.jから中間ノードINまでのPathwise導関数推定量を構築する。
3.INからiまでの全微分推定量を構築して、iからjまでの連鎖律を適用する。
In summary, for the entire graph, the steps to create a gradient estimator from j to i are:
1. 1. Select a set of intermediate nodes IN that block paths j to i.
2. Construct a Pathwise derivative estimator from j to the intermediate node IN.
3. 3. Construct a total derivative estimator from IN to i and apply the chain rule from i to j.

(ポリシー勾配定理に対する関係性)
典型的なモデルなしRLの問題では、エージェントは確率的ポリシーπに従って動作u〜π(u|x;θ)を実行し、状態xを遷移して、コストcを求める(または、逆に報酬を求める)。エージェントのゴールは、ポリシーパラメータθを見つけることであり、これは各エピソードの期待リターンG=Σt=0 を最適化する。図11Aおよび図11Bはモデル基準およびモデルなしのLR勾配推定の確率計算グラフを図示している。文献では、ポリシー勾配定理および決定論的ポリシー勾配定理の2つの「勾配定理」が全般的に適用される。
(Relationship to the policy gradient theorem)
In a typical model without RL problems, the agent operates u~π according probabilistic policy [pi |; running (u t x t θ), the transition state x t, determining the cost c t (or, On the contrary, ask for a reward). Agent goal is to find the policy parameters theta, which optimizes the expected return G = Σ t = 0 H c t of each episode. 11A and 11B illustrate the probability calculation graphs for model-based and LR gradient estimation without a model. In the literature, two "gradient theorems", the policy gradient theorem and the deterministic policy gradient theorem, are generally applied.

Figure 2021527289
Figure 2021527289

Figure 2021527289
Figure 2021527289

Qt_^は、動作uを選択した場合の特定の状態xからの残存リターンΣh=t H−1h+1の推定量に対応する。数式16について、任意の推定量が受け入れ可能であり、サンプリング基準の推定すら使用可能である。数式17については、Q_^は通常微分可能なサロゲートモデルである。重要なことに、上の等式が有効であるためには、Q_^が推定量でなければならず、真のQではない。すなわち、勾配を推定する際、ポリシーパラメータは現在の時間ステップについて変更されるだけであり、後続の時間ステップについては固定され続けることを想定しなければならない。図11Aは、これらの2つの定理が同一の確率論的計算グラフにどのように対応するかを示している。中間ノードは、各時間ステップで選択された動作である。中間ノードに続く全微分を推定するためのジャンプ推定量の選択に差異が存在する−ポリシー勾配定理はLR勾配を使用するが、決定論的なポリシー勾配定理はPathwise導関数をサロゲートモデルに対して使用する。 Qt_ ^ corresponds to the estimator of the residual return Σ h = t H-1 ch + 1 from the specific state x when the operation u is selected. For Equation 16, any estimator is acceptable, and even a sampling criterion estimate can be used. For Equation 17, Q_ ^ is usually a differentiable surrogate model. Importantly, for the above equation to be valid, Q_ ^ must be an estimator, not a true Q. That is, when estimating the gradient, it must be assumed that the policy parameters only change for the current time step and remain fixed for subsequent time steps. FIG. 11A shows how these two theorems correspond to the same probabilistic computational graph. The intermediate node is the operation selected at each time step. There is a difference in the choice of jump estimates to estimate the total derivative following the intermediate node-the policy gradient theorem uses the LR gradient, while the deterministic policy gradient theorem applies the Pathwise derivative to the surrogate model. use.

(新規なアルゴリズム)
典型的にPCGに対して勾配を推定する際は、グラフ全体を通じて伝承サンプリングを実行して1サンプルを求め、たとえばRL問題については軌跡をサンプリングする。そのようなサンプルをパーティクルと呼ぶ。そのようなサンプリングのバッチを使用して、勾配推定量を求めることができる。あるノードにおける推定される分布パラメータは、各サンプリングされたパーティクルζ_^={ζ_^} についての分布パラメータの集合によって与えられ、ここでPはパーティクル数である。たとえば、PCGがガウス分布からの順次的なサンプリングから成る場合、ζ_^は、パーティクルがそのノードでサンプリングされたガウシアンの平均および共分散に対応する。以下のセクションでは、パーティクルの集合を使用して、周辺分布について直接分布パラメータΓの異なる集合を推定するという選択肢を活用する。
(New algorithm)
Typically, when estimating the gradient for a PCG, traditional sampling is performed throughout the graph to obtain one sample, for example for the RL problem, the trajectory is sampled. Such samples are called particles. A batch of such samplings can be used to determine the gradient estimator. The estimated distribution parameters at a node are given by the set of distribution parameters for each sampled particle ζ _ ^ = {ζ i _ ^} i P, where P is the number of particles. For example, if the PCG consists of sequential sampling from a Gaussian distribution, ζ i _ ^ corresponds to the mean and covariance of Gaussian where the particles were sampled at that node. The following sections take advantage of the option of using a set of particles to estimate a different set of direct distribution parameters Γ for the marginal distribution.

(密度推定LR(DEL))
以下の説明により、サンプリングされたパーティクルの集合から分布パラメータΓを推定し、推定された分布ζ_^を使用してLR勾配を適用することを、試行することができる。特に、平均μ_^=Σ /Pおよび分散Σ_^=Σ (x−μ_^)/(P−1)を推定することにより密度をガウシアンとして近似する。次に標準的なLRトリックを使用して、勾配ΣiP dlogq(x)/dθ(G−b)を推定することができ、ここでq(x)=N(μ_^,Σ_^)である。この方法を使用するために、パーティクルxに関するμ_^およびΣ_^の微分を計算し、連鎖律を使用して勾配をポリシーパラメータまで伝えなければならないが、これは容易である。本発明の新たな方法をDEL推定量と呼ぶ。重要なことに、q(x)は勾配を推定するために使用されるが、如何なる方法でも軌跡サンプリングを修正するために使用されないことに留意されたい。これは、パーティクルがそのようにフィッティングされたガウス分布から再サンプリングされ、軌跡分布を修正するガウス再サンプリングの場合と対照的である。
DELの利点:計算にノイズを投入しなくてもLR勾配を使用することができる。
DELの不利な点:推定量が不偏であり、密度推定が困難になる可能性がある。
(Density estimation LR (DEL))
With the following description, it is possible to estimate the distribution parameter Γ from the set of sampled particles and try to apply the LR gradient using the estimated distribution ζ_ ^. In particular, the density is approximated as Gaussian by estimating the mean μ_^ = Σ i P x i / P and the variance Σ_ ^ = Σ i P (x i − μ_ ^) 2 / (P-1). The gradient ΣiP dlogq (x i ) / dθ (G i − b) can then be estimated using standard LR tricks, where q (x) = N (μ_ ^, Σ_ ^). be. To use this method, the derivatives of μ_ ^ and Σ_ ^ with respect to the particles x i must be calculated and the chain rule must be used to convey the gradient to the policy parameters, which is easy. The new method of the present invention is called a DEL estimator. Importantly, note that q (x) is used to estimate the gradient, but not in any way to modify trajectory sampling. This is in contrast to Gauss resampling, where particles are resampled from a Gaussian distribution so fitted and the trajectory distribution is modified.
Advantages of DEL: LR gradients can be used without adding noise to the calculation.
Disadvantages of DEL: The estimator is unbiased and can make density estimation difficult.

(ガウス成形勾配(GS))
これまで、全てのRL方法が総和勾配等式の後半(数式12)を使用してきた。等式の前半(数式13)を使用する推定量を作成できるだろうか?図13はガウス成形勾配における計算経路を図示している。図13は、これがどのように行われ得るかの例を与えている。xmにおける密度を、パーティクルに対するガウシアンをフィッティングにより推定することを提案する。次いで、dE[c]=dΓ(灰色のエッジ)が、この分布からパーティクルを再サンプリングすることにより(またはあらゆる他の積分の方法により)推定される。これは、dΓ/dθをどのように推定するかという疑問を残す(点線エッジおよび太線エッジ)。RP方法を使用することが、容易である。LR方法を使用するためには、まず総和勾配等式の後半をdΓ=dθに対して適用して項Σr∈{θ→k}/INΠ(p,t)∈r∂ζ/∂ζ(点線エッジ)およびdΓm/dζ(太線エッジ)を求める。考慮しているシナリオでは、これらの項の第1は単一の経路であり、RPを使用して推定される。第2の項は、より興味深いもので、これをLR方法を使用して推定する。ガウス近似を使用しているため、分布パラメータΓは、xの平均および分散であり、μ=E[x]およびΣm=E[x ]−μμ として推定することができる。これらの項のLR勾配推定量は次のように求めることができる。
(Gauss molding gradient (GS))
So far, all RL methods have used the latter half of the sum gradient equation (Equation 12). Is it possible to make an estimator using the first half of the equation (Formula 13)? FIG. 13 illustrates the calculation path in the Gauss forming gradient. FIG. 13 gives an example of how this can be done. We propose to estimate the density at xm by fitting Gaussian to particles. Then dE [ cm ] = dΓ m (gray edge) is estimated by resample the particles from this distribution (or by any other method of integration). This leaves the question of how to estimate dΓ m / dθ (dotted and thick edges). It is easy to use the RP method. To use the LR method, first apply the latter half of the sum gradient equation to the dΓ m = dθ term Σ r ∈ {θ → k} / IN Π (p, t) ∈ r ∂ζ t / Find ∂ζ p (dotted line edge) and dΓm / dζ k (thick line edge). In the scenario under consideration, the first of these terms is a single route and is estimated using RP. The second term is more interesting and is estimated using the LR method. Since the Gaussian approximation is used, the distribution parameter Γ m is the mean and variance of x m , where μ m = E [x m ] and Σ m = E [x m x m T ] -μ m μ m T. Can be estimated. The LR gradient estimators for these terms can be determined as follows.

Figure 2021527289
Figure 2021527289

実際には、サンプリング基準の推定ζ_^を行い、推定量がサンプルζ_^に対して条件付きではないかと懸念されるかも知れないが、興味の対象は条件付きではない推定値である。条件付き推定が等価であることを説明する。分散については、μは条件付きではない平均の推定であるため、推定全体が、条件付きではない分散の推定に直接対応していることに留意されたい。平均については、イテレートされた期待値の規則を以下の通り適用する。 In practice, you may make an estimate of the sampling criteria ζ k _ ^ and be concerned that the estimator is conditional on the sample ζ k _ ^, but you are interested in the non-conditional estimates. be. Explain that conditional estimates are equivalent. Note that for variances, μ m is an estimate of the unconditional mean, so the entire estimate directly corresponds to the estimate of the unconditional variance. For the mean, the iterated expected value rule applies as follows.

Figure 2021527289
Figure 2021527289

これにより、条件付き勾配推定量が、条件付きではない平均の勾配についての不偏な推定量であることが明らかである。 This makes it clear that the conditional gradient estimator is an unbiased estimator for the unconditional mean gradient.

(勾配を累積するための効率的なアルゴリズム)
具体的な例として、モデル基準のポリシー勾配方法を考え、そのPCGが図13に与えられる。本発明の以前の研究において、このアルゴリズムが、まず最初に考えられたものであり、ダイナミクスの微分可能な確率論的モデルへのアクセスに決定的に依存している。GS勾配をこの状況にどのように適用するかを説明する。xノードごとに、kの後の全てのxノードへのLRジャンプを実施し、ノードmにおける分布のガウス近似で勾配を計算したい。逆伝播のようなやり方で後方パスの間、全てのノードを累積する。なお、kおよび経路ごとに、勾配をdE[c]/dΓdΓ/dζ(dζ/duk−1duk−1/dθ)と書くことができる。項dE[c]/dΓ・dΓ/dζはdE[c]/dΓd logp(x;ζ)/dζとして推定され、ここでzmは上の項x−bμなどを要約しているベクトルに対応する。なお、dE[c]/dΓはただのスカラー量gである。したがって、後方パスの間の全てのgの合計を累積して、各kノードにおける全てのmノードを合計するアルゴリズムを使用する。図12は総和伝播と適合する様子を詳しく説明するためのアルゴリズム3を図示している。最終的なアルゴリズムは本質的には通常のコスト/報酬を修正された値で置換するだけであり、そのような手法はさらに、確率的ポリシーおよびLR勾配を使用してモデルなしポリシー勾配アルゴリズムに適用可能である。GSの2つの解釈:1.あるノードにおいて、周辺分布のガウス近似を行う。2.パーティクルの分布に基づいて、あるタイプの報酬成形を行う。特に、パーティクルの全てが複数の報酬の領域間で分布が分かれるのではなく報酬の1つの「島」に集中するよう軌跡分布をユニモーダルに保つよう本質的に推進する−これにより最適化が単純になる場合がある。
(Efficient algorithm for accumulating gradients)
As a specific example, consider a model-based policy gradient method, the PCG of which is given in FIG. In previous studies of the present invention, this algorithm was first conceived and relies decisively on access to a differentiable stochastic model of dynamics. How to apply the GS gradient to this situation will be described. For each x k node, we want to perform an LR jump to all x m nodes after k and calculate the gradient with a Gaussian approximation of the distribution at node m. Accumulate all nodes during the backward path in a back-propagation-like manner. The gradient can be written as dE [ cm ] / dΓ mm / dζ k (dζ k / du k-1 du k-1 / dθ) for each k and the path. The term dE [ cm ] / dΓ m · dΓ m / dζ k is estimated as dE [ cm ] / dΓ m z m d logp (x k ; ζ k ) / dζ k , where zm is the above term x. corresponding to vector summarizing the like m -b mu. In addition, dE [ cm ] / dΓ m z m is just a scalar amount g m . Therefore, we use an algorithm that accumulates the sum of all g during the backward path and sums all m nodes at each k node. FIG. 12 illustrates Algorithm 3 for explaining in detail how it fits with sum propagation. The final algorithm essentially simply replaces the normal cost / reward with the modified value, and such techniques are further applied to the unmodeled policy gradient algorithm using probabilistic policies and LR gradients. It is possible. Two interpretations of GS: 1. At a node, perform a Gaussian approximation of the marginal distribution. 2. Perform some type of reward shaping based on the distribution of particles. In particular, it essentially encourages the trajectory distribution to be unimodal so that all of the particles are concentrated on one "island" of the reward rather than split across multiple reward regions-this simplifies the optimization. May become.

(実験)
PILCOの論文により、モデル基準のRL模擬実験を行った。本発明のGS手法ならびに総和伝播との結合を試験するために、カート−ポールのスイングアップ、およびバランスの課題を試験した。さらに、この考えの実現性を示すために、より単純なカート−ポールの、バランスだけの課題に対して、DEL手法を試験した。本発明の新たな推定量を伴うパーティクル基準の勾配をPILCOと比較した。本発明の以前の研究において、パーティクルを使用して信頼できる結果を求めるためにコスト関数を変更しなければならなかった−現在の実験の主な動機の1つは、元のPILCOが使用したのと同じコストを使用してPILCOの結果とマッチングさせることである(これは、後にさらに詳述する)。
(experiment)
Based on the PILCO paper, a model-based RL simulation experiment was performed. Cart-pole swing-up and balance tasks were tested to test coupling with the GS method of the invention as well as total propagation. In addition, to demonstrate the feasibility of this idea, the DEL method was tested on a simpler cart-pole, balance-only task. Particle-based gradients with new estimators of the invention were compared to PILCO. In previous studies of the present invention, the cost function had to be modified to obtain reliable results using particles-one of the main motives of the current experiment was used by the original PILCO. Matching with PILCO results using the same cost as (this will be further detailed later).

(モデル基準のポリシー探索バックグラウンド)
モデルなしポリシー探索方法に対するモデル基準のアナログを考える。対応する確率論的計算グラフを図11Bに与える。表記は本発明の以前の研究に従う。各エピソードの後、p(Δxt+1 )=gP(x_〜),となるよう、データの全てを使用してダイナミクスの各次元の別個のガウス過程モデルを学習する。ここでx_〜=[x ,u ]かつx∈R、u∈Rである。次いで、このモデルを使用して、勾配降下法によりポリシーを最適化するためにエピソード間で「メンタルシミュレーション」を実行する。二乗指数共分散関数k(x_〜,x’_〜)=s exp(−(x_〜−x’_〜)Λ −1(x_〜−x’_〜))を使用した。また、ノイズハイパーパラメータがσn,2 のガウス尤度関数を使用する。ハイパーパラメータ{s,Λ,σ}は、周辺尤度を最大化することにより訓練される。予測はp(xt+1 )=N(μ(x_〜),σ (x_〜)+σ )の形態を取り、ここでσ (x_〜)はモデルについての不確実性であり、状態空間の領域内内のデータの可用性に依存している。図11Bでは、θから中間ノードまでの偏微分がPathwise導関数で推定され、中間ノードに続く全微分がジャンプ推定量で推定される。
(Model-based policy search background)
Consider a model-based analog for a modelless policy search method. The corresponding stochastic calculation graph is given in FIG. 11B. The notation follows previous work of the present invention. After each episode, we train a separate Gaussian process model for each dimension of dynamics using all of the data so that p (Δx t + 1 a ) = gP (x t _ ~). Here, x_ ~ = [x t T , ut T ] and x ∈ R D , u ∈ R F. This model is then used to perform a "mental simulation" between episodes to optimize the policy by gradient descent. Squared exponential covariance function k a (x_~, x'_~) = s a 2 exp - using ((x_~-x'_~) T Λ a -1 (x_~-x'_~)) .. The noise hyperparameter uses Gaussian likelihood function of sigma n, 2 2. Hyperparameters {s, Λ, σ n } are trained by maximizing marginal likelihood. The prediction takes the form of p (x t + 1 a ) = N (μ (x t _ ~), σ f 2 (x t _ ~) + σ n 2 ), where σ f 2 (x t _ ~) is a model. Uncertainty about, depending on the availability of data within the realm of the state space. In FIG. 11B, the partial derivative from θ to the intermediate node is estimated by the Pathwise derivative, and the total derivative following the intermediate node is estimated by the jump estimator.

(セットアップ)
カート−ポールは、前後に押すことができるカートと、取り付けられたポールから成る。状態空間は、[s,β,ds/dt,dβ/dt]であり、ここでsはカート位置であり、βは角度である。制御は、カートに対する水平方向の力である。ダイナミクスは、PILCOの論文と同様であった。セットアップは本発明の以前の研究に従う。
(setup)
A cart-pole consists of a cart that can be pushed back and forth and an attached pole. The state space is [s, β, ds / dt, dβ / dt], where s is the cart position and β is the angle. Control is a horizontal force on the cart. The dynamics were similar to the PILCO paper. The setup follows previous work of the present invention.

(タスクにおける共通の特性)
実験は1ランダムエピソード、続いて学習済ポリシーを有する15エピソードから成り、ポリシーはエピソード間で最適化される。各エピソード長は3sであり、制御周波数は10Hzであった。各タスクは再現性を試験するために異なる乱数シードで別個に100回評価した。乱数シードは、異なるアルゴリズム同士で共有した。各エピソードは30回評価し、コストを平均化したが、これは評価目的のためのみに行ったことに留意されたい−アルゴリズムのアクセスは1エピソードだけである。ポリシーは、本発明の以前の研究によるRMSpropのような学習規則を使用して最適化され、これは勾配を異なるパーティクルからの勾配のサンプリング分散を使用して勾配を正規化する。モデル基準のポリシー最適化では、ポリシー勾配評価ごとに300パーティクルを使用して600勾配ステップを実行した。学習速度およびモーメンタムパラメータはそれぞれ、α=5×10−4、γ=0:9であり、本発明の以前の研究と同じである。ポリシーからの出力はsat(u)=9sin(u)/8+sin(3u)/8によって飽和され、ここでu=π_〜(x)である。ポリシーπ_〜は、50基底関数および254パラメータの総和を伴う動径基底関数ネットワーク(ガウシアンの総和)である。コスト関数は、タイプ1−exp(−(x−t)Q(x−t))であり、ここでtはターゲットである。2つのタイプのコスト関数を考える:1)Angle Cost、Q=diag([1,1,0,0])であるコストが対角行列である、2)Tip Cost、元のPILCOの論文からのコストであり、バランスが取れている時の、振り子の先端から先端の位置までの距離に依存する。これらのコスト関数は概念的に異なっている−Tip Costでは、振り子はいずれの方向からもスイングアップすることができ、Angle Costでは、正しい方向は、1つだけである。基準の観測ノイズレベルは、σ=0.01m、σβ=1deg、σds/dt=0.1m/s、σdβ/dt=10deg/s、またこれらはσ=kσbase となるように乗数k∈{10−2,1}で修正される。
(Common characteristics in tasks)
The experiment consists of one random episode, followed by 15 episodes with a learned policy, and the policy is optimized between episodes. Each episode length was 3 s and the control frequency was 10 Hz. Each task was evaluated 100 times separately with different random seeds to test reproducibility. Random seeds were shared by different algorithms. Each episode was evaluated 30 times and the cost was averaged, but keep in mind that this was done for evaluation purposes only-the algorithm has access to only one episode. The policy is optimized using a learning rule such as RMSprop from previous studies of the present invention, which normalizes the gradient using a gradient sampling variance from different particles. In model-based policy optimization, 600 gradient steps were performed using 300 particles for each policy gradient evaluation. The learning rate and momentum parameters are α = 5 × 10 -4 and γ = 0: 9, respectively, which are the same as in the previous studies of the present invention. The output from the policy is saturated by sat (u) = 9sin (u) / 8 + sin (3u) / 8, where u = π_ to (x). Policy π_ ~ is a radial basis function network (Gaussian sum) with a sum of 50 basis functions and 254 parameters. The cost function is of type 1-exp (-(x-t) T Q (x-t)), where t is the target. Consider two types of cost functions: 1) Angle Cost, Q = diag ([1,1,0,0]) where the cost is a diagonal matrix, 2) Tip Cost, from the original PILCO paper. It is a cost and depends on the distance from the tip of the pendulum to the position of the tip when balanced. These cost functions are conceptually different-in Tip Cost, the pendulum can swing up from any direction, and in Angle Cost, there is only one correct direction. The reference observed noise levels are σ s = 0.01 m, σ β = 1 deg, σ ds / dt = 0.1 m / s, σ dβ / dt = 10 deg / s, and these are σ 2 = kσ base 2. It is corrected by the multiplier k ∈ {10 -2, 1}.

(カート−ポールのスイングアップおよびバランス)
このタスクでは、振り子は最初下方向にぶら下がっており、そしてスイングしてバランスを取らなければならない。本発明の以前の研究から、一部の結果を得た:1)PILCO、2)再パラメータ化法勾配(RP)、3)ガウス再サンプリング(GR)、4)バッチ重点加重基準値を伴うバッチ重点加重LR(LR)、5)LRとRPを結合する総和伝播(TP)。新たな方法と比較した:6)LR成分だけを使用するガウス成形勾配(GLR)、7)総和伝播を使用してLRとRP変量の両方を結合するガウス成形勾配(GTP)。総和伝播アルゴリズムの説明については、計算のグラフに対する複数の勾配推定量を効果的に結合する方法である本発明の以前の研究を参照されたい。さらには、モデルノイズ分散に25を乗じた場合のGTPを試験した(GTP+σn)。
(Cart-pole swing up and balance)
In this task, the pendulum first hangs downwards and then has to swing and balance. Some results have been obtained from previous studies of the present invention: 1) PILCO, 2) reparameterization gradient (RP), 3) Gauss resampling (GR), 4) batch with weighted reference values. Weighted LR (LR), 5) Total propagation (TP) that combines LR and RP. Compared with the new method: 6) Gauss forming gradient (GLR) using only the LR component, 7) Gauss forming gradient (GTP) combining both LR and RP variables using summation propagation. For a description of the sum propagation algorithm, see previous work of the present invention, which is a method of effectively combining multiple gradient estimators on a computational graph. Furthermore, the GTP when the model noise variance was multiplied by 25 was tested (GTP + σn).

(DEL推定量でのカート−ポールのバランス)
このタスクはずっと単純である−ポールは最初直立しており、そしてバランスを取らなければならない。実験は、DELが実現可能であり、さらに開発されれば有用な場合があることを示すために工夫された。Angle Costおよび基準ノイズレベルが使用された。
(Cart-pole balance in DEL estimator)
This task is much simpler-Paul is initially upright and must be balanced. Experiments have been devised to show that DEL is feasible and may be useful if further developed. Angle Cost and reference noise levels were used.

(結果)
図14および図15は実験結果を図示している。本発明の以前の研究と同様、ノイズが低い場合、LR成分を含む方法はうまくいかない。しかしながら、GTP+σnの実験はノイズをモデル予測に投入することが問題を解決できることを示している。主な重要な結果は、Tip CostシナリオではGTPがPILCOと一致することである。本発明の以前の研究では、懸念の1つは、このシナリオではTPがPILCOと一致しないことであった。図15Bおよび図15Cのコストを見ることだけでは、適切に差異が示されない。対照的に、成功率はTPもうまくいかなかったことを示している。成功率は、本発明の以前の研究で校正された閾値(15を下回る最終損失)ならびに全ての実験実行を視覚的に分類することの両方によって測定された。両方の方法が一致した。最終エピソードにおけるピークパフォーマの損失はTPであった:11.14±1.73、GTP:9.78±0.40、PILCO:9.10±0.22、これはやはりTPが著しく悪かったことを示している。ピークパフォーマがなお改善している間、残存実験は収束した。PILCOはなお、わずかによりデータ効率的に見えるが、必要とされるデータ量が少ないため、差異に実用的な有意性はほとんどない。図15BではTPの分散はより小さいことにも留意されたい。GTPおよびPILCOの大きな分散は、大きな損失を伴う外れ値により生ずる。これらの外れ値は、局所的最小値に収束し、これは状態分布のガウス近似のテールを利用している−これは、PILCOがガウス近似のテールを使用して探索を行う以前の示唆とは対照的である。
(result)
14 and 15 illustrate the experimental results. As in previous studies of the present invention, when the noise is low, the method containing the LR component does not work. However, GTP + σn experiments show that adding noise to model prediction can solve the problem. The main important result is that GTP is consistent with PILCO in the Tip Cost scenario. In previous studies of the invention, one concern was that TP was inconsistent with PILCO in this scenario. Just looking at the costs in FIGS. 15B and 15C does not properly show the difference. In contrast, the success rate indicates that TP did not work either. Success rates were measured both by the threshold calibrated in previous studies of the invention (final loss below 15) and by visually classifying all experimental runs. Both methods matched. The peak performer loss in the final episode was 11.14 ± 1.73, GTP: 9.78 ± 0.40, PILCO: 9.10 ± 0.22, which also means that TP was significantly worse. Is shown. Residual experiments converged while peak performers were still improving. PILCO still looks slightly more data efficient, but due to the small amount of data required, the differences have little practical significance. It should also be noted that the variance of TP is smaller in FIG. 15B. Large variances of GTP and PILCO are caused by outliers with large losses. These outliers converge to the local minimum, which utilizes the tail of the Gaussian approximation of the state distribution-this is a suggestion before PILCO searched using the tail of the Gaussian approximation. In contrast.

(実施形態3)
総和伝播アルゴリズムは、逆伝播と同様に、計算グラフに対する汎用的な勾配推定アルゴリズムであるが、勾配が爆発する問題を克服するものである。アルゴリズムにおける重要な考え方は、勾配計算の後方パスの間に勾配推定の複数の方法を組み合わせることである。重要なことに、複数の勾配推定値は勾配推定量のより小さな集合にアグリゲートされ(たとえば全ての勾配推定量は単一の最良の勾配の推定に結合される)、また勾配推定量の全てが別個にではなく、この勾配推定量の小さな集合が後方に渡される。そのような方法により、後方に渡される勾配推定量の増殖を招くことなく、計算のグラフにおける勾配推定の精度を高めるために多数の勾配推定技術を結合することができ、それにより良好な計算効率を実現する。
(Embodiment 3)
The sum-propagation algorithm, like backpropagation, is a general-purpose gradient estimation algorithm for computational graphs, but it overcomes the problem of gradient explosion. An important idea in the algorithm is to combine multiple methods of gradient estimation during the backward path of gradient calculation. Importantly, multiple gradient estimators are aggregated into a smaller set of gradient estimators (eg, all gradient estimators are combined into a single best gradient estimate), and all of the gradient estimators. Is not separate, but a small set of this gradient estimator is passed backwards. Such a method allows a number of gradient estimation techniques to be combined to improve the accuracy of the gradient estimation in the computational graph without causing the growth of the gradient estimator passed backwards, thereby resulting in good computational efficiency. To realize.

(フレームワークとアルゴリズムの説明)
計算グラフはノード/頂点Vと有向エッジEの集合であり、頂点にある変数同士の計算上の関係を定義している。各ノードiはその親ノードPaからの変数を入力として受け取り、出力x=f(Pa)を計算し、ここで関数fは確率的であることもできる。Paおよびxは1つまたは複数の変数の集合を表現しているため、ベクトル値化またはテンソル値化されている場合がある。変数xはノードiの子ノードに渡され、Chと表記される。図16はアルゴリズムの一般形態を図示している。アルゴリズムの一般形態は、アルゴリズム4に提示されており、ここで重要な新規性は、ステップ5および6を含む組み合わせである。総和伝播は逆伝播アルゴリズムに類似しており、連鎖法則を適用することにより計算した勾配をグラフの後方に送ることで、グラフ全体で勾配を計算する。標準的な逆伝播を図17に図示する。総和伝播は、いくつかのノードにおいて複数の勾配推定を実行すること、勾配推定量を結合すること、および結合した推定量を後方に送ること図18によりこの手順を修正する。
(Explanation of framework and algorithm)
The calculation graph is a set of nodes / vertices V and directed edges E, and defines the computational relationship between the variables at the vertices. Each node i receives a variable from its parent node Pa i as an input and calculates an output x i = f (Pa i ), where the function f can also be stochastic. Since Pa i and x i represent a set of one or more variables, they may be vector-valued or tensor-valued. The variable x i is passed to the child node of node i and is written as Ch i. FIG. 16 illustrates a general form of the algorithm. A general form of the algorithm is presented in Algorithm 4, where an important novelty is a combination that includes steps 5 and 6. Sum-propagation is similar to the back-propagation algorithm, where the gradient calculated by applying the chain rule is sent to the back of the graph to calculate the gradient for the entire graph. Standard backpropagation is illustrated in FIG. Sum-propagation modifies this procedure by performing multiple gradient estimates at some nodes, combining gradient estimators, and sending the combined estimates backwards with reference to FIG.

図17は、機械学習における全てのニューラルネットワークアプリケーションの他、その他多くのアプリケーションにおいて使用される逆伝播アルゴリズムを図示している。総和伝播アルゴリズムは、異なる勾配推定技術を使用してdL/dzの複数の推定値を求めること(たとえば、再パラメータ化法および尤度比法)、これらの推定値をより小さな勾配推定量の集合に結合すること、およびこれらを計算グラフの後方に渡すことにより、この手順を修正する。 FIG. 17 illustrates a backpropagation algorithm used in all neural network applications in machine learning, as well as many other applications. The sum propagation algorithm uses different gradient estimation techniques to obtain multiple estimates of dL / dz 2 (eg, reparameterization and likelihood ratio methods), and these estimates are used for smaller gradient estimators. Modify this procedure by joining them into a set and passing them to the back of the computational graph.

図18は、単一の勾配推定量となるように尤度比および再パラメータ化勾配推定量を結合することにより勾配推定が実行される場合の総和伝播アルゴリズムを図示している。これは、3つ以上の勾配推定量を勾配推定量の総和数よりも少ない数に結合すること、および結合した勾配推定量を後方に送ることを、簡単に一般化する。 FIG. 18 illustrates a total propagation algorithm when gradient estimation is performed by combining likelihood ratios and reparameterized gradient estimators to result in a single gradient estimator. This simply generalizes combining three or more gradient estimators to a number less than the sum of the gradient estimators, and sending the combined gradient estimators backwards.

Claims (25)

計算グラフを含み、前記計算グラフ中の一の変数に対する他の変数の勾配を推定する勾配推定方法であって、
前記計算グラフ中のいくつかのノードで、異なる勾配推定量を用いて同じ勾配の2つ以上の異なる推定を実行し、初期の推定値の数よりも少なくなるように異なる推定値を結合し、結合した推定値を前記計算グラフ中の異なるノードに受け渡し、勾配推定値は更なる計算に使用される、勾配推定方法。
A gradient estimation method that includes a calculation graph and estimates the slope of another variable with respect to one variable in the calculation graph.
At some nodes in the calculation graph, perform two or more different estimates of the same gradient with different gradient estimators and combine the different estimates so that they are less than the number of initial estimates. A gradient estimation method in which the combined estimates are passed to different nodes in the calculation graph and the gradient estimates are used for further calculations.
前記勾配の前記異なる推定値は、加重平均に基づいて結合され、前記加重平均の重みは、前記計算グラフ中のいくつかの変数に対する前記計算グラフ中の他のいくつかの変数の勾配推定の分散の明示的または暗示的な推定値に基づいて計算される、請求項1に記載の勾配推定方法。 The different estimates of the gradient are combined on the basis of the weighted average, and the weight of the weighted average is the variance of the gradient estimates of some other variables in the calculation graph relative to some variables in the calculation graph. The gradient estimation method according to claim 1, which is calculated based on an explicit or implicit estimate of. 前記重みは、前記分散の逆数の大きさに比例して設定される、請求項2に記載の勾配推定方法。 The gradient estimation method according to claim 2, wherein the weight is set in proportion to the magnitude of the reciprocal of the variance. 前記勾配推定量は、尤度比および再パラメータ化勾配推定量である、請求項1から請求項3のいずれか一項に記載の勾配推定方法。 The gradient estimation method according to any one of claims 1 to 3, wherein the gradient estimator is a likelihood ratio and a reparameterized gradient estimator. 前記勾配は、前記計算グラフ中のパラメータの最適化に使用される、請求項1から4のいずれか一項に記載の勾配推定方法。 The gradient estimation method according to any one of claims 1 to 4, wherein the gradient is used for optimizing parameters in the calculation graph. 計算グラフを含み、前記計算グラフ中の変数に対するある変数の勾配を推定する勾配推定方法であって、前記計算グラフ中のいくつかのノードで、尤度比および再パラメータ化の方法の両方に対する目的関数の勾配を推定し、両方の推定量を用いて前記計算グラフ中のパラメータを最適化する、勾配推定方法。 A gradient estimation method that includes a computational graph and estimates the gradient of a variable relative to a variable in the computational graph, the purpose for both the likelihood ratio and the reparameterization method at some nodes in the computational graph. A gradient estimation method that estimates the gradient of a function and uses both estimates to optimize the parameters in the calculation graph. 前記尤度比および再パラメータ化の勾配推定量は、加重平均に基づいて結合され、重みは、それぞれの勾配推定量の分散の逆数に比例する、請求項6に記載の勾配推定方法。 The gradient estimation method according to claim 6, wherein the likelihood ratio and reparameterization gradient estimators are combined based on a weighted average and the weights are proportional to the reciprocal of the variance of each gradient estimator. 前記計算グラフは、ポリシー探索、強化学習、機械学習、またはニューラルネットワークの計算グラフに対応する、請求項1から請求項7のいずれか一項に記載の勾配推定方法。 The gradient estimation method according to any one of claims 1 to 7, wherein the calculation graph corresponds to a policy search, reinforcement learning, machine learning, or neural network calculation graph. 結合した推定値は、前記計算グラフ中の先行ノードに受け渡される、請求項1から請求項8のいずれか一項に記載の勾配推定方法。 The gradient estimation method according to any one of claims 1 to 8, wherein the combined estimated value is passed to the preceding node in the calculation graph. 前記パラメータの最適化法は、勾配降下または上昇最適化法である、請求項6から請求項9のいずれか一項に記載の勾配推定方法。 The gradient estimation method according to any one of claims 6 to 9, wherein the parameter optimization method is a gradient descent or ascending optimization method. 前記更なる計算は、いくつかの変数に対する他のいくつかの変数の更なる勾配推定である、請求項1から請求項10のいずれか一項に記載の勾配推定方法。 The gradient estimation method according to any one of claims 1 to 10, wherein the further calculation is a further gradient estimation of some other variable with respect to some variable. 前記勾配推定値の結合は、以前の最適化ステップによる勾配に基づいて決定される、請求項5から請求項11のいずれか一項に記載の勾配推定方法。 The gradient estimation method according to any one of claims 5 to 11, wherein the combination of the gradient estimates is determined based on the gradient by the previous optimization step. 計算グラフを含み、前記計算グラフ中の一の変数に対する他の変数の勾配を推定する勾配推定方法であって、前記勾配推定方法は、前記計算グラフ中のいくつかのノードで、前記ノードにおける確率密度のパラメトリック形式を仮定し、前記計算グラフ中のサンプリングされた計算から前記確率密度のパラメータを推定し、現在の変数に依存したノードの期待変数の勾配を推定し、期待値は推定分布全体にわたって得られ、更に、前記勾配を前記ノードにおけるいくつかの統計値と掛け合わせてスカラー変数を求め、前記スカラー変数を用いて尤度比勾配推定量を求める、勾配推定方法。 A gradient estimation method that includes a calculation graph and estimates the gradient of another variable with respect to one variable in the calculation graph. The gradient estimation method is a probability at some nodes in the calculation graph. Assuming a parametric form of density, the parameters of the probability density are estimated from the sampled calculations in the calculation graph, the gradient of the expected variable of the node depending on the current variable is estimated, and the expected value is over the entire estimated distribution. A gradient estimation method obtained by multiplying the gradient with some statistical values at the node to obtain a scalar variable, and using the scalar variable to obtain a probability ratio gradient estimator. 確率分布の前記パラメトリック形式は、ガウス分布である、請求項13に記載の勾配推定方法。 The gradient estimation method according to claim 13, wherein the parametric form of the probability distribution is a Gaussian distribution. 推定パラメトリック確率分布に対する前記勾配との掛け合わせに先立って尤度比勾配推定が実行されるように、前記勾配を前記統計値と掛け合わせることおよび前記尤度比勾配推定値を求めることの順序が入れ替えられる、請求項13または請求項14に記載の勾配推定方法。 The order of multiplying the gradient with the statistical value and obtaining the likelihood ratio gradient estimate is such that the likelihood ratio gradient estimation is performed prior to the multiplication of the estimated parametric probability distribution with the gradient. The gradient estimation method according to claim 13 or 14, which is replaced. 請求項1から12のいずれか一項に記載の勾配推定方法と、請求項13、14または15に記載の勾配推定方法とを組み合わせて実行する、勾配推定方法。 A gradient estimation method according to a combination of the gradient estimation method according to any one of claims 1 to 12 and the gradient estimation method according to claims 13, 14 or 15. 請求項1から16のいずれか一項に記載の勾配推定方法を実行する装置。 An apparatus that executes the gradient estimation method according to any one of claims 1 to 16. 請求項1から16のいずれか一項に記載の勾配推定方法を実行させるコンピュータプログラム。 A computer program that executes the gradient estimation method according to any one of claims 1 to 16. 強化学習におけるポリシー探索方法であって、
ポリシーパラメータに対する平均総報酬の勾配を推定することであり、ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップそれぞれにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
ポリシー探索方法。
It is a policy search method in reinforcement learning,
Estimating the gradient of the average total reward for policy parameters, by combining the reparameterization method and the likelihood ratio method at each of the gradient backpropagation steps opposite to the direction in which the state transition occurs according to the policy and dynamics. Estimate the gradient of the average total reward for the parameters
The policy parameters are updated according to the evaluation result.
Policy search method.
更に、前記ポリシーパラメータに対する目的の勾配の分散に基づいて、加重平均の重みを設定する、
請求項19に記載のポリシー探索方法。
Further, the weight of the weighted average is set based on the variance of the desired gradient with respect to the policy parameter.
The policy search method according to claim 19.
前記再パラメータ化法および前記尤度比法に従って勾配推定量に割り当てられる前記重みは、それぞれの勾配推定量の分散の逆数の大きさに比例して設定される、
請求項20に記載のポリシー探索方法。
The weights assigned to the gradient estimators according to the re-parameterization method and the likelihood ratio method are set in proportion to the reciprocal of the variance of each gradient estimator.
The policy search method according to claim 20.
強化学習におけるポリシー探索装置であって、
離散時間システムにおける状態を計算し、
ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップそれぞれにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
ポリシー探索装置。
A policy search device for reinforcement learning
Compute the state in a discrete-time system,
By combining the reparameterization method and the likelihood ratio method at each of the gradient backpropagation steps opposite to the direction in which the state transition occurs according to the policy and dynamics, the gradient of the average total reward for the policy parameters is estimated.
The policy parameters are updated according to the evaluation result.
Policy search device.
更に、前記ポリシーパラメータに対する目的の勾配の分散に基づいて、加重平均の重みを設定する、
請求項22に記載のポリシー探索装置。
Further, the weight of the weighted average is set based on the variance of the desired gradient with respect to the policy parameter.
The policy search device according to claim 22.
前記再パラメータ化法および前記尤度比法に従って勾配推定量に割り当てられる前記重みは、それぞれの勾配推定量の分散の逆数の大きさに比例して設定される、
請求項23に記載のポリシー探索装置。
The weights assigned to the gradient estimators according to the re-parameterization method and the likelihood ratio method are set in proportion to the reciprocal of the variance of each gradient estimator.
The policy search device according to claim 23.
コンピュータに、
離散時間システムにおける状態を計算し、
ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップそれぞれにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
処理をコンピュータに実行させるためのコンピュータプログラム。
On the computer
Compute the state in a discrete-time system,
By combining the reparameterization method and the likelihood ratio method at each of the gradient backpropagation steps opposite to the direction in which the state transition occurs according to the policy and dynamics, the gradient of the average total reward for the policy parameters is estimated.
The policy parameters are updated according to the evaluation result.
A computer program that lets a computer perform processing.
JP2021518295A 2018-06-05 2019-06-05 Summative stochastic gradient estimation method, apparatus, and computer program Active JP7378836B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862680791P 2018-06-05 2018-06-05
US62/680,791 2018-06-05
US201862749908P 2018-10-24 2018-10-24
US62/749,908 2018-10-24
PCT/JP2019/022431 WO2019235551A1 (en) 2018-06-05 2019-06-05 Total stochastic gradient estimation method, device and computer program

Publications (2)

Publication Number Publication Date
JP2021527289A true JP2021527289A (en) 2021-10-11
JP7378836B2 JP7378836B2 (en) 2023-11-14

Family

ID=68770524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021518295A Active JP7378836B2 (en) 2018-06-05 2019-06-05 Summative stochastic gradient estimation method, apparatus, and computer program

Country Status (2)

Country Link
JP (1) JP7378836B2 (en)
WO (1) WO2019235551A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112688809B (en) * 2020-12-21 2023-10-03 声耕智能科技(西安)研究院有限公司 Diffusion self-adaptive network learning method, system, terminal and storage medium
CN113641905B (en) * 2021-08-16 2023-10-03 京东科技信息技术有限公司 Model training method, information pushing method, device, equipment and storage medium
CN115877868B (en) * 2022-12-01 2024-01-26 南京航空航天大学 Path planning method for resisting malicious interference of unmanned aerial vehicle in data collection of Internet of things

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124452A1 (en) * 2015-10-28 2017-05-04 Google Inc. Processing computational graphs

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124452A1 (en) * 2015-10-28 2017-05-04 Google Inc. Processing computational graphs

Also Published As

Publication number Publication date
WO2019235551A1 (en) 2019-12-12
JP7378836B2 (en) 2023-11-14

Similar Documents

Publication Publication Date Title
US10997511B2 (en) Optimizing automated modeling algorithms for risk assessment and generation of explanatory data
Yin et al. Near-optimal provable uniform convergence in offline policy evaluation for reinforcement learning
Chopin et al. SMC2: an efficient algorithm for sequential analysis of state space models
Deisenroth et al. Analytic moment-based Gaussian process filtering
US11574164B2 (en) Neural network cooperation
Singh et al. PI-LSTM: Physics-infused long short-term memory network
JP7378836B2 (en) Summative stochastic gradient estimation method, apparatus, and computer program
Zanger Convergence of a least‐squares Monte Carlo algorithm for American option pricing with dependent sample data
Tobar et al. Unsupervised state-space modeling using reproducing kernels
Clay et al. Towards real-time crowd simulation under uncertainty using an agent-based model and an unscented Kalman filter
Chen et al. Differentiable particle filters through conditional normalizing flow
Yang et al. Risk-sensitive model predictive control with Gaussian process models
Langford et al. Learning nonlinear dynamic models
Deveney et al. A deep surrogate approach to efficient Bayesian inversion in PDE and integral equation models
Sherri et al. A differential evolution Markov chain Monte Carlo algorithm for Bayesian model updating
Maire et al. Adaptive incremental mixture markov chain monte carlo
Blank et al. PSAF: A probabilistic surrogate-assisted framework for single-objective optimization
Block et al. Smoothed online learning for prediction in piecewise affine systems
Markov et al. Implementation and learning of quantum hidden markov models
WO2019225011A1 (en) Learning device, information processing system, learning method, and learning program
Costen et al. Planning with hidden parameter polynomial MDPs
US20230385611A1 (en) Apparatus and method for training parametric policy
McCarthy et al. Power-weighted densities for time series data
Zhang et al. A Gaussian mixture filter with adaptive refinement for nonlinear state estimation
Gardner et al. Bayesian history matching for forward model-driven structural health monitoring

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231025

R150 Certificate of patent or registration of utility model

Ref document number: 7378836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150