JP7378836B2 - Summative stochastic gradient estimation method, apparatus, and computer program - Google Patents

Summative stochastic gradient estimation method, apparatus, and computer program Download PDF

Info

Publication number
JP7378836B2
JP7378836B2 JP2021518295A JP2021518295A JP7378836B2 JP 7378836 B2 JP7378836 B2 JP 7378836B2 JP 2021518295 A JP2021518295 A JP 2021518295A JP 2021518295 A JP2021518295 A JP 2021518295A JP 7378836 B2 JP7378836 B2 JP 7378836B2
Authority
JP
Japan
Prior art keywords
gradient
estimation method
gradient estimation
policy
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021518295A
Other languages
Japanese (ja)
Other versions
JP2021527289A (en
Inventor
パラマス,パーヴォ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2021527289A publication Critical patent/JP2021527289A/en
Application granted granted Critical
Publication of JP7378836B2 publication Critical patent/JP7378836B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、計算グラフにおいて定義された変数の勾配を推定する方法、上記推定を行う装置、およびコンピュータプログラムに関する。 The present invention relates to a method for estimating the slope of a variable defined in a computational graph, an apparatus for performing the estimation, and a computer program.

ほとんどの機械学習問題には、何らかのデータ生成分布pData(x)全体の目的関数J(x;θ)の期待値の最適化を伴うが、この分布は、サンプルデータ点{x}を通じてのみアクセス可能である。 Most machine learning problems involve optimizing the expectation value of an objective function J(x; θ) over some data-producing distribution p Data (x), but this distribution is accessible.

最も一般的な最適化方法は、逆伝播により計算されるPathwise導関数(pathwise derivative)を用いた勾配降下法である。 The most common optimization method is gradient descent using pathwise derivatives calculated by backpropagation.

Bengio, Y., Simard, P., and Frasconi, P. Learning long-term dependencies with gradient descent is difficult. IEEE transactions on neural networks, 5(2):157-166, 1994Bengio, Y., Simard, P., and Frasconi, P. Learning long-term dependencies with gradient descent is difficult. IEEE transactions on neural networks, 5(2):157-166, 1994 Deisenroth, Marc Peter, Neumann, Gerhard, Peters, Jan, らによるA survey on policy search for robotics. Foundations and Trends in Robotics, 2(1-2):1-142, 2013Deisenroth, Marc Peter, Neumann, Gerhard, Peters, Jan, et al., A survey on policy search for robotics. Foundations and Trends in Robotics, 2(1-2):1-142, 2013 Deisenroth, Marc Peter, Fox, Dieter, and Rasmussen, Carl Edward. Gaussian processes for data-efficient learning in robotics and control. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(2):408-423, 2015Deisenroth, Marc Peter, Fox, Dieter, and Rasmussen, Carl Edward. Gaussian processes for data-efficient learning in robotics and control. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(2):408-423, 2015

いくつかの状況(特に、非常に長い計算グラフまたはリカレントな計算グラフを伴う場合)において、この手法は、勾配分散の爆発によって、ランダムウォークに陥る可能性もある。通常、この現象は、ステップの増大および学習の不安定化につながる数値問題と捉えられる(非特許文献1参照)。 In some situations (particularly with very long computational graphs or recurrent computational graphs), this approach can also fall into random walks due to exploding gradient variance. Usually, this phenomenon is considered to be a numerical problem that leads to an increase in steps and instability in learning (see Non-Patent Document 1).

本発明の目的は、勾配推定に伴う課題を解決することである。本発明は、逆伝播アルゴリズムの代わりとして、任意の計算グラフに使用し得る汎用的な勾配推定方法である。 The purpose of the invention is to solve the problems associated with gradient estimation. The present invention is a general gradient estimation method that can be used for arbitrary computational graphs as an alternative to backpropagation algorithms.

勾配推定方法は、計算グラフを含み、計算グラフ中の他の変数に対するある変数の勾配を推定するものであって、グラフ中のいくつかのノードで、別個の勾配推定量を用いて同じ勾配の2つ以上の別個の推定を実行し、初期推定値数よりも少なくなるように別個の推定値を結合し、結合した推定値をグラフ中の異なるノードに受け渡し、勾配推定値が、さらなる計算に使用される。 Gradient estimation methods involve a computational graph and estimate the slope of one variable with respect to other variables in the computational graph, such that at several nodes in the graph, separate slope estimators are used to estimate the slope of the same slope. Perform two or more separate estimates, combine the separate estimates to less than the initial number of estimates, pass the combined estimates to different nodes in the graph, and use the gradient estimate for further calculations. used.

本出願によれば、より正確で、勾配の爆発に悩まされない勾配評価の代替的な柔軟性のあるフレームワークを提供することが可能である。 According to the present application, it is possible to provide an alternative flexible framework for gradient evaluation that is more accurate and does not suffer from gradient explosion.

本実施形態に係る、コンピューティングデバイス1のハードウェア構成を示すブロック図である。1 is a block diagram showing the hardware configuration of a computing device 1 according to the present embodiment. FIG. PILCOによるポリシー勾配評価アルゴリズムを説明する図である。FIG. 2 is a diagram illustrating a policy gradient evaluation algorithm by PILCO. 総和伝播アルゴリズムを説明する図である。FIG. 2 is a diagram illustrating a summation propagation algorithm. 本実施形態に係る、コンピューティングデバイス1により実行される手順を説明するフローチャートである。2 is a flowchart illustrating a procedure executed by the computing device 1 according to the present embodiment. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 分散のグラフである。This is a graph of dispersion. 分散のグラフである。This is a graph of dispersion. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 数式11における経路の例を示す図である。11 is a diagram showing an example of a route in Formula 11. FIG. 数式11における経路の例を示す図である。11 is a diagram showing an example of a route in Formula 11. FIG. モデル基準およびモデルなしのLR勾配推定の確率計算グラフを示す図である。FIG. 6 is a diagram showing probability calculation graphs for model-based and model-free LR slope estimation; モデル基準およびモデルなしのLR勾配推定の確率計算グラフを示す図である。FIG. 6 is a diagram showing probability calculation graphs for model-based and model-free LR slope estimation; 総和伝播と適合する様子を詳しく説明するためのアルゴリズム3を示す図である。FIG. 7 is a diagram showing Algorithm 3 for explaining in detail how it is compatible with summation propagation. ガウス成形勾配における計算経路を示す図である。It is a figure which shows the calculation path in a Gaussian shaping gradient. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. 実験結果を示す図である。FIG. 3 is a diagram showing experimental results. アルゴリズムの一般形態を示す図である。FIG. 2 is a diagram showing the general form of the algorithm. 機械学習における全てのニューラルネットワークアプリケーションの他、その他多くのアプリケーションにおいて使用される逆伝播アルゴリズムを示す図である。FIG. 2 illustrates a backpropagation algorithm used in all neural network applications in machine learning, as well as many other applications. 単一の勾配推定量となるように尤度比および再パラメータ化勾配推定量を結合することにより勾配推定が実行される場合の総和伝播アルゴリズムを示す図である。FIG. 3 illustrates a summation propagation algorithm where gradient estimation is performed by combining likelihood ratios and reparameterized gradient estimators into a single gradient estimator.

(実施形態1)
図1は、本実施形態に係る、コンピューティングデバイス1のハードウェア構成を示すブロック図である。本実施形態に係るコンピューティングデバイス1は、パソコン、サーバ装置等の情報処理装置である。コンピューティングデバイス1は、制御ユニット11、記憶ユニット12、入力ユニット13、通信ユニット14、操作ユニット15、および表示ユニット16を具備する。コンピューティングデバイス1は、本発明者らによる「PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos」、「Total Propagation Algorithm: Supplementary notes」、および「Total stochastic gradient algorithms and applications in reinforcement learning」において開示された方法を実装している。
(Embodiment 1)
FIG. 1 is a block diagram showing the hardware configuration of a computing device 1 according to this embodiment. The computing device 1 according to this embodiment is an information processing device such as a personal computer or a server device. The computing device 1 comprises a control unit 11 , a storage unit 12 , an input unit 13 , a communication unit 14 , an operating unit 15 and a display unit 16 . The computing device 1 is described in "PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos", "Total Propagation Algorithm: Supplementary notes", and "Total stochastic gradient algorithms and applications in reinforcement learning" by the present inventors. Implements the disclosed method.

制御ユニット11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を具備する。制御ユニット11のROMには、ハードウェアの各部の動作を制御する制御プログラム等が記憶されている。制御ユニット11のCPUは、ROMに記憶された制御プログラムおよび後述する記憶ユニット12に記憶された種々プログラムを実行して、前述の論文に開示の方法のように、ハードウェアの動作を制御する。制御ユニット11のRAMには、種々プログラムの実行に際して一時的に使用されるデータが記憶されている。 The control unit 11 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like. The ROM of the control unit 11 stores control programs and the like that control the operations of each part of the hardware. The CPU of the control unit 11 executes a control program stored in the ROM and various programs stored in the storage unit 12, which will be described later, to control the operation of the hardware as in the method disclosed in the above-mentioned paper. The RAM of the control unit 11 stores data temporarily used when executing various programs.

なお、制御ユニット11は、上記構成に限定されず、シングルコアCPU、マルチコアCPU、GPU(Graphics Processing Unit)、マイクロコンピュータ、揮発性または不揮発性メモリを含む1つまたは複数の処理回路または演算回路であってもよい。また、制御ユニット11は、データおよび時間の情報を出力するクロック、測定開始命令の適用から測定終了命令が与えられるまでの経過時間を測定するタイマー、計数用のカウンタ等の機能を含んでいてもよい。 Note that the control unit 11 is not limited to the above configuration, and may be one or more processing circuits or arithmetic circuits including a single-core CPU, multi-core CPU, GPU (Graphics Processing Unit), microcomputer, volatile or non-volatile memory. There may be. The control unit 11 may also include functions such as a clock that outputs data and time information, a timer that measures the elapsed time from the application of the measurement start command until the measurement end command is given, and a counter for counting. good.

記憶ユニット12は、SRAM(Static Random Access Memory)、フラッシュメモリ、ハードディスク等を用いた記憶装置を含む。記憶ユニット12は、制御ユニット11により実行される種々のプログラム、種々のプログラムの実行に必要なデータ等を記憶する。記憶ユニット12に記憶されるプログラムとしては、たとえば上記論文に開示の技術を実装したコンピュータプログラムが挙げられる。 The storage unit 12 includes a storage device using an SRAM (Static Random Access Memory), a flash memory, a hard disk, or the like. The storage unit 12 stores various programs executed by the control unit 11, data necessary for executing the various programs, and the like. Examples of programs stored in the storage unit 12 include computer programs implementing the technology disclosed in the above-mentioned paper.

記憶ユニット12に記憶されたプログラムは、プログラムが可読記録された記録媒体Mにより提供されるようになっていてもよい。記録媒体Mは、SD(Secure Digital)カード、マイクロSDカード、コンパクトフラッシュ(登録商標)等の携帯型メモリである。この場合、制御ユニット11は、読み出し装置(図示せず)を用いて記録媒体Mからプログラムを読み出し、この読み出したプログラムを記憶ユニット12にインストールすることができる。さらに、記憶ユニット12に記憶されたプログラムは、通信ユニット14を介して、通信により提供されるようになっていてもよい。この場合、制御ユニット11は、通信ユニット14を通じてプログラムを取得し、この取得したプログラムを記憶ユニット12にインストールすることができる。 The program stored in the storage unit 12 may be provided by a recording medium M on which the program is readably recorded. The recording medium M is a portable memory such as an SD (Secure Digital) card, a micro SD card, or a compact flash (registered trademark). In this case, the control unit 11 can read the program from the recording medium M using a reading device (not shown) and install the read program into the storage unit 12. Furthermore, the program stored in the storage unit 12 may be provided by communication via the communication unit 14. In this case, the control unit 11 can acquire the program through the communication unit 14 and install the acquired program in the storage unit 12 .

入力ユニット13は、種々データを装置に入力するための入力インターフェースを有する。制御ユニット11は、入力ユニット13を通じて、処理対象のデータを取得する。 The input unit 13 has an input interface for inputting various data into the device. The control unit 11 obtains data to be processed through the input unit 13 .

通信ユニット14は、インターネット等の通信ネットワーク(図示せず)に接続するための通信インターフェースを含み、外部に通知されるさまざまな種類の情報を送信し、外部から送信されたさまざまな種類の情報を受信する。本実施形態においては、入力ユニット13を通じて処理対象のデータが取得されるが、通信ユニット14を通じて処理対象のデータが取得されるようになっていてもよい。 The communication unit 14 includes a communication interface for connecting to a communication network (not shown) such as the Internet, and transmits various types of information notified to the outside, and receives various types of information transmitted from the outside. Receive. In this embodiment, the data to be processed is acquired through the input unit 13, but the data to be processed may be acquired through the communication unit 14.

操作ユニット15は、キーボードおよびタッチパネル等のユーザインターフェースを含み、さまざまな操作情報および設定情報を受け付ける。制御ユニット11は、操作ユニット15から入力された操作情報に基づいて適当な制御を実行し、必要に応じて、設定情報を記憶ユニット12に記憶する。 The operation unit 15 includes a user interface such as a keyboard and a touch panel, and receives various operation information and setting information. The control unit 11 executes appropriate control based on the operation information input from the operation unit 15, and stores setting information in the storage unit 12 as necessary.

表示ユニット16は、液晶表示パネルおよび有機EL(Electro Luminescence)表示パネル等の表示装置を含み、制御ユニット11から出力された制御信号に基づいて、ユーザに通知される情報を表示する。 The display unit 16 includes a display device such as a liquid crystal display panel and an organic EL (Electro Luminescence) display panel, and displays information to be notified to the user based on a control signal output from the control unit 11.

本実施形態において、上記論文に開示の構成は、制御ユニット11により実行されるソフトウェア処理によって実現されるが、LSI(Large Scale integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Arra)等が制御ユニット11と別個に搭載されていてもよい。この場合、制御ユニット11は、入力ユニット13から入力された処理対象のデータをハードウェアに送ることにより、上記論文に開示の方法をハードウェア内で実現する。 In this embodiment, the configuration disclosed in the above-mentioned paper is realized by software processing executed by the control unit 11. ) etc. may be installed separately from the control unit 11. In this case, the control unit 11 implements the method disclosed in the above paper in the hardware by sending the data to be processed inputted from the input unit 13 to the hardware.

さらに、本実施形態において、コンピューティングデバイス1は、簡素化のため単一の装置として記載しているが、複数のコンピューティングデバイスにより構成されていてもよいし、1つまたは複数の仮想マシンにより構成されていてもよい。 Furthermore, in this embodiment, the computing device 1 is described as a single device for simplicity, but it may be configured by multiple computing devices or by one or more virtual machines. may be configured.

本実施形態においては、コンピューティングデバイス1が操作ユニット15および表示ユニット16を具備するが、操作ユニット15および表示ユニット16は、必須ではない。たとえば、コンピューティングデバイス1は、外部接続されたコンピュータを通じて操作を受け付け、外部コンピュータに通知される情報を出力するようにしてもよい。 In this embodiment, the computing device 1 includes an operation unit 15 and a display unit 16, but the operation unit 15 and display unit 16 are not essential. For example, the computing device 1 may accept operations through an externally connected computer and output information to be notified to the external computer.

以下、本発明の勾配推定方法について説明する。以下の式では、小文字がスカラーを表し、太字がベクトルまたは行列を表す。ただし、以下の説明においては、小文字と太字とを区別なく示している。また、以下の説明において、「C_^」は、ハット付き文字を表し、「C_~」は、チルダ付き文字を表す。 The gradient estimation method of the present invention will be explained below. In the formulas below, lowercase letters represent scalars and bold letters represent vectors or matrices. However, in the following description, lowercase letters and bold letters are shown without distinction. Furthermore, in the following description, "C_^" represents a character with a hat, and "C_~" represents a character with a tilde.

(2.1 ポリシー探索)
ポリシー探索方法の総括としては、非特許文献2が参照される。なお、ポリシー探索は、アルゴリズムの1つのアプリケーションに過ぎず、特定の計算グラフには限定されず、如何なる計算グラフにも適用可能である。状態ベクトルx(たとえば、ロボットの位置および速度)ならびに適用動作/制御ベクトルu(たとえば、モータトルク)により記述される離散時間系を考える。固定された初期状態分布x~p(x)から状態をサンプリングすることによって、エピソードが開始となる。ポリシーπθは、適用された動作u~p(u)=π(x;θ)を決定する。動作の適用により、未知のダイナミクス関数xt+1~p(xt+1)=f(x,u)に従って状態が遷移する。ポリシーおよびダイナミクスはいずれも、確率的かつ非線形であってもよい。最大T時間ステップまで動作および状態遷移が繰り返されて、軌跡τ:(x,u,x,u,・・・,x)が生成される。各エピソードは、リターン関数G(τ)に従ってスコアリングされる。リターンは、時間ステップごとのコストの総和G(τ)=Σt=0 c(x)(t=0,・・・,T)に分解されることが多く、ここで、c(x)はコスト関数である。その目標は、ポリシーパラメータθを最適化して、期待リターンJ(θ)=Er~p(τ;θ)[G(τ)]を最小化することである。ここで、値V(x)=Et=h [Σc(x)]と定義する。
(2.1 Policy search)
For a general overview of policy search methods, refer to Non-Patent Document 2. Note that policy search is just one application of the algorithm, and is not limited to a particular computational graph, but can be applied to any computational graph. Consider a discrete time system described by a state vector x t (eg, robot position and velocity) and an applied motion/control vector u t (eg, motor torque). An episode begins by sampling states from a fixed initial state distribution x 0 ~p(x 0 ). The policy π θ determines the applied action u t ~p(u t )=π(x t ; θ). Application of the action causes a state transition according to an unknown dynamics function x t+1 ~p(x t+1 )=f(x t , u t ). Both policies and dynamics may be stochastic and non-linear. The operations and state transitions are repeated up to a maximum of T time steps to generate a trajectory τ: (x 0 , u 0 , x 1 , u 1 , . . . , x T ). Each episode is scored according to the return function G(τ). The return is often decomposed into the sum of costs for each time step G(τ)=Σ t=0 T c(x t )(t=0,...,T), where c(x ) is the cost function. The goal is to optimize the policy parameter θ to minimize the expected return J(θ)=E r~p(τ;θ) [G(τ)]. Here, the value V h (x)=E t=h T [Σc(x t )] is defined.

学習は、システム上のポリシーの実行と、その後のθの更新による後続試行上の性能の向上とが交互に発生する。ポリシー勾配法では、目的関数の勾配d/dθ・J(θ)を直接推定し、これを最適化に使用する。一部のモデル基準のポリシー探索方法では、データを全て使用して、f_^で示されるfのモデルを学習し、これを試行間の「メンタルリハーサル」に使用してポリシーを最適化する。現実の試行ごとに何百回もの模擬試行を実行して、データ効率を大幅に向上可能である。ここで、f_^の微分によって、モデルなしアルゴリズムよりも優れた勾配推定量を求め得るという事実を利用する。この場合のモデルは、確率論的であり、状態分布を予測する。 Learning occurs alternately between executing a policy on the system and subsequently updating θ to improve performance on subsequent trials. In the policy gradient method, the gradient d/dθ·J(θ) of the objective function is directly estimated and used for optimization. Some model-based policy search methods use all the data to learn a model of f, denoted f_^, and use this for "mental rehearsal" between trials to optimize the policy. Hundreds of mock trials can be run for every real trial, greatly increasing data efficiency. Here, we exploit the fact that by differentiating f_^, we can obtain a gradient estimator that is better than the model-less algorithm. The model in this case is probabilistic and predicts the state distribution.

(確率的勾配推定)
ここで、サンプリング分布のパラメータに対する任意の関数φ(x)の期待値の勾配d/dθEx~p(x;θ)[φ(x)](たとえば、ポリシーパラメータに対する期待リターン)を計算する方法について説明する。
(Stochastic gradient estimation)
Here, how to calculate the gradient d/dθE of the expected value of any function φ(x ) with respect to the parameters of the sampling distribution I will explain about it.

(再パラメータ化勾配(RP))
一変量ガウス分布からのサンプリングを考える。ある手法では、ゼロ平均および単位分散ε~N(0,1)でのサンプリングの後、この点をマッピングして、所望の分布からサンプルを複製する(x=μ+σε)。ここで、分布パラメータを参照して出力を微分するのは容易である。すなわち、dx/dμ=1およびdx/dσ=εである。サンプルの平均化dφ/dx・dx/dθによって、期待値の勾配の不偏推定値が与えられる。これは、正規分布のRP勾配である。多変量ガウス分布の場合は、σの代わりに、共分散行列のコレスキー因子(L、s.t.Σ=LL)を使用可能である。
(Reparameterization Gradient (RP))
Consider sampling from a univariate Gaussian distribution. One approach, after sampling with zero mean and unit variance ε~N(0,1), maps this point to replicate samples from the desired distribution (x=μ+σε). Here, it is easy to differentiate the output with reference to the distribution parameters. That is, dx/dμ=1 and dx/dσ=ε. The averaging of the samples dφ/dx·dx/dθ gives an unbiased estimate of the slope of the expected value. This is a normally distributed RP slope. In the case of a multivariate Gaussian distribution, the Cholesky factor (L, s.t.Σ=LL T ) of the covariance matrix can be used instead of σ.

(尤度比勾配(LR))
所望の勾配は、d/dθ・Ex~p(x;θ)[φ(x)]=∫dp(x;θ)/dθφ(x)として記述可能である。一般に、∫φ(x)dx=∫q(x)φ(x)/q(x)dx=Ex~q[φ(x)/q(x)]の実行によって、分布q(x)からサンプリングすることにより如何なる関数も積分可能である。尤度比勾配は、q(x)=p(x)を抜き取って、以下のように直接積分する。
(Likelihood ratio gradient (LR))
The desired gradient can be written as d/dθ·E x~p(x;θ) [φ(x)]=∫dp(x;θ)/dθφ(x). In general, from the distribution q(x) by executing ∫φ(x)dx=∫q(x)φ(x)/q(x)dx=E x~q [φ(x)/q(x)] Any function can be integrated by sampling. The likelihood ratio gradient is obtained by extracting q(x)=p(x) and directly integrating it as follows.

Figure 0007378836000001
Figure 0007378836000001

LR勾配は、高分散の場合が多く、制御変量として知られる分散低減技術と組み合わせる必要がある(Greensmithら、2004)。一般的な手法では、関数値から一定基準値bを減算して、推定量Ex~p[d/dθ・(log p(x;θ))(φ(x)-b)]を求める。bがサンプルと無関係の場合は、これによって、バイアスの導入なく、分散を大幅に低減可能である。実際には、サンプル平均が良い選択である(b=E[φ(x)])。バッチから勾配を推定する場合は、各点の一個抜き基準値を推定することによって、不偏勾配推定量を求めることができる。すなわち、b=Σj≠i φ(x)/(P-1)である。 LR gradients are often highly dispersive and need to be combined with variance reduction techniques known as control variables (Greensmith et al., 2004). In a general method, a constant reference value b is subtracted from the function value to obtain the estimated amount E x~p [d/dθ·(log p(x;θ))(φ(x)−b)]. If b is independent of the sample, this can significantly reduce the variance without introducing bias. In practice, the sample average is a good choice (b=E[φ(x)]). When estimating a gradient from a batch, an unbiased gradient estimator can be obtained by estimating a reference value for each point. That is, b ij≠i P φ(x j )/(P-1).

(軌跡勾配推定)
特定の軌跡を観測する確率密度p(τ)=p(x,u,x,u,・・・,x)は、p(x)π(u|x)p(x|x,u)・・・p(x|xT-1,uT-1)として記述可能である。
(trajectory gradient estimation)
The probability density p(τ)=p(x 0 , u 0 , x 1 , u 1 , ..., x T ) of observing a specific trajectory is p(x 0 )π(u 0 |x 0 )p (x 1 |x 0 , u 0 )...p(x T |x T-1 , u T-1 ).

RP勾配を使用するには、ダイナミクスp(xt+1|x|u)を把握または推定する必要がある。言い換えると、モデル基準の場合に適用可能である。このようなモデルによれば、連鎖律を用いて、予測軌跡を微分可能である。 Using the RP gradient requires knowing or estimating the dynamics p(x t+1 |x t | ut ). In other words, it is applicable in the case of model criteria. According to such a model, the predicted trajectory can be differentiated using the chain rule.

なお、LR勾配を使用するには、p(τ)が積であることから、log p(τ)を総和に変換可能である。G(τ)=Σt=h c(x)と表す。なお、(1)動作分布のみがポリシーパラメータによって決まり、(2)過去の時間ステップで求められたコストに動作は影響せず、以下のような勾配推定量が得られる。 Note that to use the LR gradient, log p(τ) can be converted to a sum since p(τ) is a product. It is expressed as G h (τ)=Σ t=h T c (x t ). Note that (1) only the motion distribution is determined by the policy parameters, and (2) the motion does not affect the cost determined in the past time step, and the following gradient estimator is obtained.

Figure 0007378836000002
Figure 0007378836000002

(PILCO)
図2は、PILCOによるポリシー勾配評価アルゴリズムを説明した図である。ここでは元のPILCOに従うが、これは、ガウス過程ダイナミクスモデルを使用して、ある時間ステップから次の時間ステップまでの状態の変化を予測する。すなわち、p(Δxt+1 )=gP(x,u)(ただし、x∈R、u∈R、Δxt+1 =xt+1 -x )である。各次元aに対して、別個のガウス過程が学習される。ここでは、二乗指数共分散関数k(x_~,x’_~)=s exp(-(x_~-x’_~)Λ -1(x_~-x’_~))を使用する。ただし、sおよびΛ=diag([la1,la2,・・・,laD+F])はそれぞれ、関数分散および長さスケールのハイパーパラメータである。また、ノイズハイパーパラメータがσのガウス尤度関数を使用する。ハイパーパラメータは、訓練によって、周辺尤度を最大化する。これらのモデルからのサンプリングに際して、予測は、y=f_^(x)+ε(ただし、ε~N(0,σ (x)+σ ))という形態を有する。ここで、σ は、モデルの不確実性を表し、領域中のデータの欠如に起因する。一方、σ は、学習済みの固有モデルノイズである。学習済みモデルノイズは、システム中の実観測ノイズσ と必ずしも同じではない。実際、潜在状態はモデル化されておらず、システムは、現在の観測を所与として、次の観測を予測することにより近似される。さらに、軌跡には、付加的な分散源が存在し、開始位置が異なれば軌跡も異なる。
(PILCO)
FIG. 2 is a diagram illustrating a policy gradient evaluation algorithm by PILCO. We follow the original PILCO here, which uses a Gaussian process dynamics model to predict state changes from one time step to the next. That is, p(Δx t+1 a )=gP(x t , ut ) (where x∈R D , u∈R F , Δx t+1 a =x t+1 a −x t a ). A separate Gaussian process is learned for each dimension a. Here, the squared exponential covariance function k a (x_~, x'_~) = s a 2 exp (-(x_~-x'_~) T Λ a -1 (x_~-x'_~)) use. However, s a and Λ=diag([l a1 , l a2 , . . . , l aD+F ]) are hyperparameters of the function variance and length scale, respectively. Also, a Gaussian likelihood function with a noise hyperparameter σ n is used. Hyperparameters, through training, maximize the marginal likelihood. Upon sampling from these models, the prediction has the form y=f_^(x)+ε, where ε~N(0,σ f 2 (x)+σ n 2 ). Here, σ f 2 represents the model uncertainty and is due to the lack of data in the region. On the other hand, σ n 2 is learned unique model noise. The trained model noise is not necessarily the same as the actual observed noise σ o 2 in the system. In fact, the latent state is not modeled and the system is approximated by predicting the next observation given the current observation. Furthermore, there are additional sources of variance in the trajectory, and different starting positions result in different trajectories.

(モーメントマッチング予測)
一般的に、ガウス分布が非線形関数によってマッピングされた場合、出力は、扱いにくく、非ガウス分布である。ただし、出力分布のモーメントを解析的に評価できる場合もある。モーメントマッチング(MM)は、平均および分散を真のモーメントとマッチングさせることにより、出力分布をガウス分布として近似する。なお、状態次元が別個の関数fa_^でモデル化されていても、MMは一体的に実行され、状態分布が共分散を含み得る。
(Moment matching prediction)
In general, if a Gaussian distribution is mapped by a nonlinear function, the output is unwieldy and non-Gaussian. However, in some cases it is possible to analytically evaluate the moments of the output distribution. Moment matching (MM) approximates the output distribution as a Gaussian distribution by matching the mean and variance to the true moments. Note that even if the state dimension is modeled with a separate function fa_^, the MM is performed integrally and the state distribution may include covariance.

(パーティクル予測)
一般的に、パーティクル軌跡予測は単純で、全てのパーティクル位置での予測、出力分布からのサンプリング、繰り返しを行う。ただし、ガウス再サンプリング(GR)に基づく方式との比較により、PILCOへのニューラルネットワークダイナミクスモデルの適用も行う。
(Particle prediction)
In general, particle trajectory prediction is simple: predict at every particle position, sample from the output distribution, and iterate. However, we also apply a neural network dynamics model to PILCO by comparison with a method based on Gaussian resampling (GR).

(ガウス再サンプリング(GR))
MMは、確率的に複製可能である。各時間ステップにおいて、パーティクルの平均μ_^=Σi=1 /Pおよび分散Σ_^=Σi=1 (x-μ_^)(x-μ_^)/(P-1)が推定される。その後、パーティクルは、適合分布x’~μ_^+Lz|z~N(0,I)(ただし、LはΣ_^のコレスキー因子)から再サンプリングされる。勾配dL=dΣ_^を求めることは、容易ではない。ここでは、与えられた記号表現を使用する。
(Gaussian resampling (GR))
MM is probabilistically replicable. At each time step, the particle's mean μ_^=Σ i=1 P x i /P and variance Σ_^=Σ i=1 P (x i - μ_^)(x i - μ_^) T /(P-1 ) is estimated. The particles are then resampled from the fitted distribution x' i ~μ_^+Lz i |z i ~N(0,I), where L is the Cholesky factor of Σ_^. It is not easy to find the gradient dL=dΣ_^. Here we will use the given symbolic representation.

(ハイブリッド勾配推定技術)
本発明の場合には、RP勾配を使用可能である。ただし、驚くべきことに、RP勾配は絶望的に不正確である(図5D参照)。この問題を解決するため、モデル導関数をLR勾配と結合した新たな勾配推定量を得た。特に、本発明の手法では、バッチ内重点サンプリングによって、サンプリング効率の向上を可能にした。
(Hybrid gradient estimation technology)
In the case of the present invention, RP gradients can be used. However, surprisingly, the RP slope is hopelessly inaccurate (see Figure 5D). To solve this problem, we obtained a new slope estimator that combines the model derivative with the LR slope. In particular, the method of the present invention makes it possible to improve sampling efficiency by performing focused sampling within a batch.

(モデル基準のLR)
予測軌跡上の分布は、p(τ)=p(x)π(u|x)f_^(x|x,u)・・・f_^(x|xT-1,uT-1)として記述可能である。また、決定論的ポリシーによって、p(xt+1|x)=f_^(xt+1|x,π(x;θ))のように、モデルとポリシーとを結合可能であるが、これは、微分可能である(dpt+1/dθ=dpt+1/du・du/dθ)。モデル基準の勾配は、以下のように導かれる。
(LR based on model)
The distribution on the predicted trajectory is p(τ)=p(x 0 )π(u 0 |x 0 )f_^(x 1 |x 0 ,u 0 )...f_^(x T |x T-1 , u T-1 ). Also, by using a deterministic policy, it is possible to combine a model and a policy as shown in p(x t+1 | x t )=f_^(x t+1 | x t , π(x t ; θ)), but this is differentiable (dp t+1 /dθ=dp t+1 /du t ·du t /dθ). The slope of the model criterion is derived as follows.

Figure 0007378836000003
Figure 0007378836000003

(バッチ重点加重LR(BIW-LR))
ここでは、並列計算を使用して、複数のパーティクルを同時にサンプリングする。状態分布は、混合分布q(xt+1)=Σi=1 p(xt+1|xi,t;θ)/Pとして表される。LRの導出と同様に、各時間ステップについて、バッチ内の重点サンプリングにより低分散推定量を以下のように導出可能である。
(Batch weighted LR (BIW-LR))
Here, we use parallel computation to sample multiple particles at the same time. The state distribution is expressed as a mixture distribution q(x t+1 )=Σ i=1 P p(x t+1 |x i,t ; θ)/P. Similar to the derivation of LR, for each time step, a low variance estimator can be derived by weighted sampling within the batch as follows.

Figure 0007378836000004
Figure 0007378836000004

以下の方程式により、正規化重点サンプリングによって、リターンの一個抜き平均を推定するようにする。 The following equation is used to estimate the one-out average return using normalized weighted sampling.

Figure 0007378836000005
Figure 0007378836000005

ただし、cj,t+1=p(xj,t+1|xi,t)/Σk=1 p(xj,t+1|xk,t)である。正規化がなければ、基準値推定の高分散によって、LR勾配が不十分となる。なお、時間ステップごとにP基準値を計算する一方で、勾配推定量には、P成分が存在する。真の不偏勾配を求めるには、Pの一個抜き基準値(分布の各混合成分のパーティクルごとに1つ)を計算するものとする。本明細書には、ここに提示の基準値のみを用いた評価を含む(これにより、バイアスのほとんどを除去済みであることが分かっている)。 However, c j,t+1 =p(x j,t+1 |x i,t )/Σ k=1 P p(x j,t+1 |x k,t ). Without normalization, the high variance of the reference value estimates will result in poor LR slopes. Note that while the P reference value is calculated for each time step, there is a P2 component in the gradient estimator. In order to find the true unbiased gradient, a one-pick reference value of P 2 (one for each particle of each mixture component of the distribution) shall be calculated. This specification includes an evaluation using only the reference values presented here (which has been found to remove most of the bias).

(RP/LR加重平均)
計算の大部分は、dp(xt+1|x;θ)/dθ項に費やされる。これらの項は、LRおよびRPの両勾配に必要なため、両推定量の結合には如何なるペナルティも存在しない。周知の統計学的結果によれば、独立した推定量に関して、重みが逆分散に比例する場合は、最適な加重平均推定値が実現される。すなわち、μ=μLRLR+μRPRP(ただし、kLR=σLR_^-2/(σLR_^-2+σRP_^-2)およびkRP=1-kLR)である。
(RP/LR weighted average)
Most of the calculation is spent on the dp(x t+1 |x t ; θ)/dθ term. Since these terms are needed for both the LR and RP slopes, there is no penalty for combining both estimators. According to well-known statistical results, for independent estimators, an optimal weighted average estimate is achieved if the weights are proportional to the inverse variances. That is, μ=μ LR k LR + μ RP k RP (where k LRLR _^ -2 /(σ LR _^ -2RP _^ -2 ) and k RP =1-k LR ). .

単純結合方式であれば、両推定量について、全軌跡の勾配を別個に計算した後、それらを結合することになるが、この手法では、軌跡の短い部分に再パラメータ化勾配を使用して、より優れた勾配推定値を求める機会が無視されてしまう。本発明の新たな総和伝播アルゴリズム(TP)は、この単純法に優る。TPでは、単一の後方パスによって、全ての考え得るRP深度にわたる和集合を計算するため、低分散の推定量に大きな重みが自動的に付与される。 A simple combination method would calculate the gradients of the entire trajectory for both estimators separately and then combine them, but this method uses reparameterized gradients for short parts of the trajectory, Opportunities for better gradient estimates are ignored. Our new sum propagation algorithm (TP) outperforms this simple method. In TP, a single backward pass computes the union over all possible RP depths, so low variance estimators are automatically given greater weight.

図3は、総和伝播アルゴリズムを説明した図である。アルゴリズム2においては、各後方ステップにおいて、LRおよびRPの両方法を用いることにより、ポリシーパラメータに対して勾配を評価する。また、ポリシーパラメータ空間における分散に基づいて比を評価するが、この分散は、ポリシー勾配推定量の分散に比例する。勾配は結合され、分布パラメータ空間における最良の推定値が過去の時間ステップに受け渡される。このアルゴリズムにおいては、V演算子が異なるパーティクルから勾配推定値のサンプル分散を取り出すが、他の分散推定方式も考えられ、たとえば、勾配の大きさの移動平均から分散を推定することも可能であるし、分散に対して異なる統計学的推定量を使用することも可能であるし、ポリシーパラメータの部分集合のみを使用することも可能である。このアルゴリズムは、RL問題に限定されず、一般的な確率的計算グラフにも適用可能であり、確率論的モデル、確率的ニューラルネットワーク等の訓練に使用することも可能である。一般的な計算グラフ設定においては、勾配をグラフ中で後方に伝播させることにより、グラフ中のいくつかのノードで複数の勾配推定量を結合するようにしてもよい。この場合に、時間ステップパラメータtを1だけ小さくすれば、これは、グラフ中でのノードの後方移動の一方、勾配の伝播に対応することになる。勾配推定量の結合方式での決定に用いられる分散等の統計値は、計算グラフ中のその他任意のノードから求められるようになっていてもよい。 FIG. 3 is a diagram illustrating the summation propagation algorithm. In Algorithm 2, at each backward step, we evaluate the gradient against the policy parameters by using both LR and RP methods. We also evaluate the ratio based on the variance in the policy parameter space, which is proportional to the variance of the policy gradient estimator. The gradients are combined and the best estimate in the distribution parameter space is passed to past time steps. In this algorithm, the sample variance of the gradient estimate is extracted from particles with different V operators, but other variance estimation methods are also possible; for example, it is also possible to estimate the variance from a moving average of the gradient magnitude. However, it is also possible to use different statistical estimators for the variance, or only a subset of policy parameters. This algorithm is not limited to RL problems, but can also be applied to general probabilistic calculation graphs, and can also be used for training probabilistic models, probabilistic neural networks, etc. In a typical computational graph setting, multiple gradient estimators may be combined at some nodes in the graph by propagating the gradient backward through the graph. In this case, if we reduce the time step parameter t by 1, this will correspond to a backward movement of the node in the graph, while propagating the gradient. Statistical values such as variance used in determining the gradient estimator using the combination method may be obtained from any other node in the calculation graph.

図4は、本実施形態に係る、コンピューティングデバイス1により実行される手順を説明したフローチャートである。コンピューティングデバイス1は、アルゴリズム2に従って、以下のプロセスを実行する。 FIG. 4 is a flowchart illustrating a procedure executed by the computing device 1 according to the present embodiment. Computing device 1 executes the following process according to algorithm 2.

制御ユニット11は、種々パラメータを初期化する(ステップS101)。具体的には、制御ユニット11は、dGT+1/dζT+1=0、dJ/dθ=0、GT+1=0と設定する。ただし、ζは、分布パラメータ(たとえば、μおよびσ)である。 The control unit 11 initializes various parameters (step S101). Specifically, the control unit 11 sets dG T+1 /dζ T+1 =0, dJ/dθ=0, and G T+1 =0. where ζ is a distribution parameter (eg, μ and σ).

制御ユニット11は、時間(時間ステップ)tをTに設定し(ステップS102)、パーティクルiごとに以下の計算を実行する(ステップS103)。ただし、cは、時間tにおけるコストである。 The control unit 11 sets the time (time step) t to T (step S102), and executes the following calculation for each particle i (step S103). However, c t is the cost at time t.







Figure 0007378836000006
Figure 0007378836000006

制御ユニット11は、数式6の計算結果を用いて、以下の計算を実行する(ステップS104)。 The control unit 11 executes the following calculation using the calculation result of Equation 6 (step S104).

Figure 0007378836000007
Figure 0007378836000007

さらに、制御ユニット11は、数式6の計算結果を用いて、パーティクルiごとに、以下の計算を実行する(ステップS105)。 Further, the control unit 11 uses the calculation result of Equation 6 to perform the following calculation for each particle i (step S105).

Figure 0007378836000008
Figure 0007378836000008

次に、制御ユニット11は、時間tが所定の時間1に達したかを判定する(ステップS106)。時間tが時間1になっていない場合(S106:NO)、制御ユニット11は、時間tを1だけ減らし(ステップS107)、プロセスをステップS103に戻す。 Next, the control unit 11 determines whether the time t has reached a predetermined time 1 (step S106). If the time t has not reached time 1 (S106: NO), the control unit 11 decrements the time t by 1 (step S107) and returns the process to step S103.

(ポリシー最適化)
なお、勾配に基づく任意の最適化手順を使用することも可能であるが、本実施形態においては、RMSpropのような確率的勾配降下法を使用する(RMSpropに由来するアルゴリズムを使用する)。RMSpropでは、勾配の二乗の移動平均を利用して、そのSGDステップを正規化する。本発明の場合は、バッチサイズが大きいため、z=E[g]=E[g]+V[g](ただし、gが勾配)によって、バッチから二乗の期待値を直接推定する。また、平均の分散を使用する。すなわち、V[g]は、パーティクル数Pにより除された分散である。勾配ステップは、g/z1/2になる。また、パラメータγのモーメンタムを使用する。完全更新された方程式は、以下のようになる。
(Policy optimization)
Note that any optimization procedure based on gradients can be used, but in this embodiment, a stochastic gradient descent method such as RMSprop is used (an algorithm derived from RMSprop is used). RMSprop uses a moving average of the squared gradient to normalize its SGD steps. In the case of the present invention, since the batch size is large, the expected value of the square is directly estimated from the batch using z=E[g 2 ]=E[g] 2 +V[g] (where g is the gradient). Also, use the variance of the mean. That is, V[g] is the variance divided by the number of particles P. The gradient step will be g/z 1/2 . Also, the momentum of the parameter γ is used. The fully updated equation looks like this:

Figure 0007378836000009
Figure 0007378836000009

乱数シードの固定によって、確率的問題を決定論的に変えることができ、RLコミュニティにおいてはPEGASUSトリックとしても知られている。シードが固定された場合は、RP勾配が対象の厳密な勾配であり、BFGS等の決定論的疑似ニュートンオプティマイザを使用可能である。 Fixing the random number seed allows us to turn a stochastic problem into deterministic, also known in the RL community as the PEGASUS trick. If the seed is fixed, the RP gradient is the exact gradient of interest and a deterministic pseudo-Newton optimizer such as BFGS can be used.

(実験)
2つの目的で、実験を行った:(1)RP勾配が十分ではない理由を説明するため、(2)本発明の新たに開発された方法が学習効率の点でPILCOに匹敵し得ることを示すため。
(experiment)
Experiments were conducted for two purposes: (1) to explain why the RP gradient is not sufficient, and (2) to demonstrate that our newly developed method can be comparable to PILCO in terms of learning efficiency. To show.

(値ランドスケープをプロットする)
図5A~図5Fは実験結果を図示している。ランダムに選択された固定方向にポリシーパラメータθを摂動させ、目的関数および、射影勾配の大きさをΔθの関数としてプロットする。この実験の結果は、恐らくは本明細書において最も斬新な部分であり、「カオスの呪い(the curse of chaos)」という用語を思いついた。
(plot the value landscape)
5A-5F illustrate experimental results. We perturb the policy parameter θ in a randomly selected fixed direction and plot the objective function and the magnitude of the projection gradient as a function of Δθ. The results of this experiment, perhaps the most novel part of this paper, led to the term "the curse of chaos."

プロットは、非線形のcart-poleのタスクで、生成された。1000パーティクルを使用し、一方で図5Dの高分散が乱数性によって生じるのではなく、システムのカオスのような特性によるものであることを実証するために乱数シードは固定し続けた。信頼区間は、V ar / Pによって推定され、ここで、V arはサンプル分散であり、Pはパーティクル数である。後述するように、より原理的な手法を使用して分散のPに対する依存性をプロットする。 The plots were generated with a non-linear cart-pole task. 1000 particles were used, while the random number seed was kept fixed to demonstrate that the high dispersion in Figure 5D is not caused by randomness, but rather due to the chaos-like properties of the system. The confidence interval is estimated by Var/P, where Var is the sample variance and P is the number of particles. As described below, a more principled approach is used to plot the dependence of the variance on P.

図5Dには、特異な結果が含まれており、ある領域ではRP勾配が良好な振る舞いをしているが、ポリシーパラメータが摂動されると相遷移のような変化により分散が爆発している。Δθ=1.5における分散は、Δθ=0の~4×10倍であり、この領域でRP勾配が正確となるためには4×10パーティクルが必要であることを意味している。実用に際しては、RP勾配で最適化することにより単純なランダムウォークが導かれる。 Figure 5D contains an unusual result, where the RP gradient behaves well in some regions, but when the policy parameters are perturbed, the dispersion explodes due to phase transition-like changes. The variance at Δθ=1.5 is ~4×10 5 times that of Δθ=0, meaning that 4×10 8 particles are required for the RP gradient to be accurate in this region. In practice, a simple random walk is derived by optimizing with the RP gradient.

シードが固定されているため、図5DのRP勾配は図5Aの値の厳密な勾配である。したがって、図5Aの右に極微小の決定論的な「ノイズ」が存在する。しかし1000パーティクルにわたって平均化される値は、真の目的ではないが、無限数のパーティクルを平均化する必要がある。無限数のパーティクルを平均化した場合、まだ「ノイズ」が存在するだろうか?または、関数が滑らかになるだろうか? Since the seed is fixed, the RP slope in Figure 5D is the exact slope of the value in Figure 5A. Therefore, there is extremely small deterministic "noise" on the right side of FIG. 5A. However, a value that is averaged over 1000 particles is not the real goal, as it requires averaging over an infinite number of particles. If you average an infinite number of particles, will there still be "noise"? Or will the function be smooth?

図5Eおよび図5Fの新たな勾配推定量は、真の目的が確かに滑らかであることを示唆している。さらなるエビデンスを与えるために、「ノイズ」を無視できるように、θにおいて十分に大きな摂動を使用して図5Aの値の有限差分から勾配の大きさを推定した。2つの別個の手法(1つはポリシーパラメータθを変化させる、もう1つはθを固定し続けるが軌跡から勾配を推定する)が合致するという事実は、真の目的が滑らかであるという説得力のあるエビデンスを与える。 The new slope estimators in Figures 5E and 5F suggest that the true objective is indeed smooth. To provide further evidence, we estimated the magnitude of the slope from the finite difference of the values in Figure 5A using a sufficiently large perturbation in θ such that the "noise" was negligible. The fact that two separate methods (one that varies the policy parameter θ, the other that keeps θ fixed but estimates the gradient from the trajectory) agree is convincing that the real objective is smoothness. Give some evidence.

図5Bおよび図5Cは、RP勾配を使用する際の、分散の爆発の理由を説明している。図5Bは、最も左のパラメータ設定に対応し、図5Cは最も右のパラメータ設定に対応している。プロットは、値V(x;θ)(残存累積コスト)が位置xの関数としてどのように変化するかを示している。なお、乱数シードが固定されているため、値Vは残存リターンGと同一である。図面は、異なる固定シードで4パーティクルについて各点の軌跡を予測し、軌跡のコストを平均化することによって作成された。1パーティクルを試した後に、4パーティクルを予測するようにし、それについては値が階段のような部分を含むように見えたが、それ以外は現在の図面と比べてあまり興味深くはなかった。4パーティクルの平均値は不安定であるため、4パーティクルのうちの少なくとも1つは示される領域内で非常に不安定であったに違いない。 Figures 5B and 5C explain the reason for the explosion in dispersion when using RP gradients. FIG. 5B corresponds to the leftmost parameter setting, and FIG. 5C corresponds to the rightmost parameter setting. The plot shows how the value V(x; θ) (remaining cumulative cost) varies as a function of position x. Note that since the random number seed is fixed, the value V is the same as the residual return G. The drawings were created by predicting the trajectory of each point for four particles with different fixed seeds and averaging the cost of the trajectories. After trying 1 particle, I ended up predicting 4 particles, for which the values seemed to include some staircase-like parts, but otherwise weren't very interesting compared to the current drawing. Since the average value of 4 particles is unstable, at least one of the 4 particles must have been highly unstable within the region shown.

初期状態分布の中央から平均予測に四角が中央に位置付けられる。四角の軸は、わずかに異なっているが、θが変わると予測される位置p(x1;θ)が変わるからである。辺の長さはガウス分布p(x1;θ)の4標準偏差に対応している。速度は平均値に固定し続けた。 A square is centered from the center of the initial state distribution to the average prediction. The axes of the squares are slightly different, but this is because when θ changes, the predicted position p(x1; θ) changes. The length of the side corresponds to 4 standard deviations of the Gaussian distribution p(x1; θ). The speed remained fixed at the average value.

RPはd/dθ ∫p(x;θ)V(x)dxを推定する。これは四角内部の点をサンプリングし、勾配dV/dθ=dV/dx・dx/dθを計算して、サンプルとともに平均化する。図5Cでは、Vを微分することで期待値の勾配を見出すことは全く絶望的である。対照的に、LR勾配(図5E)は、値Vの微分ではなく値Vだけを使用しており、この問題を被っていない。TP(図5F)は、両方の推定量を効果的に結合している。 RP estimates d/dθ ∫p(x 1 ; θ)V(x 1 )dx. This samples the points inside the square, calculates the slope dV/dθ=dV/dx·dx/dθ, and averages it with the samples. In FIG. 5C, finding the slope of the expected value by differentiating V is completely hopeless. In contrast, the LR gradient (FIG. 5E) uses only the value V, rather than its derivative, and does not suffer from this problem. TP (Fig. 5F) effectively combines both estimators.

ガウス再サンプリングの場合についてプロット値と勾配を示すことはしないが、最終的に、これらの両方が固定された乱数シードに対して滑らかな関数であった。したがって、再サンプリングも「カオスの呪い」に対して有効である。 We will not show the plotted values and slopes for the case of Gaussian resampling, but in the end both of these were smooth functions for a fixed random seed. Therefore, resampling is also effective against the "curse of chaos."

図6Aおよび図6Bは、分散のグラフである。図6Aおよび図6Bでは、Δθ=0およびΔθ=1.5における勾配推定量の分散がパーティクル数Pにどのように依存するかをプロットした。分散は、多数回、推定量を繰り返しサンプリングし、評価の集合からの分散を計算することによって計算された。RP、TPならびにLR勾配を、バッチ重点加重(BIW)のある時とない時の両方とで比較して、本発明の重点サンプリング方式が分散を低減させることを示す。重点サンプリング基準値を使用した-実際には、通常のLR勾配はより単純な基準値を使用し、ずっと高い分散を有する。図6BではRP勾配が省略されているが、分散が10~1015の間にあったためである。TP勾配が、BIW-LR、およびRP勾配を結合した。 6A and 6B are graphs of dispersion. In FIGS. 6A and 6B, we plot how the variance of the gradient estimator at Δθ=0 and Δθ=1.5 depends on the number of particles P. Variance was calculated by repeatedly sampling the estimator many times and calculating the variance from the set of ratings. RP, TP and LR slopes are compared both with and without batch weighted weighting (BIW) to show that our weighted sampling scheme reduces variance. Used weighted sampling criteria - In practice, normal LR gradients use simpler criteria and have much higher variance. The RP slope is omitted in FIG. 6B because the variance was between 10 8 and 10 15 . A TP gradient combined the BIW-LR and RP gradients.

結果により、BIWが著しく分散を低減していることが確認される。さらに、本発明のTPアルゴリズムが最良であった。重要なことに、図6Bでは全軌跡についてのRP勾配の分散は他の推定量よりも10大きいが、TPは短い経路長のRP勾配を利用して250より少ないパーティクルについて10~50%低減した分散を得ている。これは注目すべき結果であるが、勾配推定量が別個に計算される場合、結合された推定量についての最高の可能な精度は別個の推定量の精度の総和となるからである。しかしながら、本発明の総和伝播アルゴリズムは、計算のグラフ構造を利用しているため、総和よりも高い精度を実現している。 The results confirm that BIW significantly reduces dispersion. Moreover, the TP algorithm of the present invention was the best. Importantly, in Figure 6B, the variance of the RP gradient for all trajectories is 10 6 larger than the other estimators, but TP is reduced by 10-50% for fewer than 250 particles utilizing short path length RP gradients. We have obtained a certain amount of variance. This is a remarkable result because if the gradient estimators are computed separately, the highest possible precision for the combined estimator will be the sum of the precisions of the separate estimators. However, since the summation propagation algorithm of the present invention utilizes the graph structure of computation, it achieves higher accuracy than summation.

(学習実験)
エピソード的な学習タスクでのPILCOを以下のパーティクル基準の方法と比較する:RP、固定シードでのRP(RPFS)、ガウス再サンプリング(GR)、固定シードでのGR(GRFS)、モデル基準のバッチ重点加重尤度比(LR)、および総和伝播(TP)。さらに、パーティクル予測の2つのバリエーションを評価する。(1)モデルの不確実性を無視する一方で、各時間ステップにおいてノイズのみを加算するTP(TP-σ)。(2)予測ノイズが増加させたTP(TP+σ)。全ての場合で300パーティクルを使用した。
(Learning experiment)
We compare PILCO for episodic learning tasks with the following particle-based methods: RP, RP with fixed seed (RPFS), Gaussian resampling (GR), GR with fixed seed (GRFS), and batch model-based. weighted likelihood ratio (LR), and sum propagation (TP). Furthermore, we evaluate two variations of particle prediction. (1) TP (TP-σ f ) that adds only noise at each time step while ignoring model uncertainties. (2) TP (TP+σ n ) with increased prediction noise. 300 particles were used in all cases.

最近のPILCOの論文(非特許文献3):カートポールのスイングアップおよびバランス、ならびに一輪車のバランス、より学習タスクを実行した。シミュレーションダイナミクスは同一に設定し、他の態様は元のPILCOと同様にした。図7A、図7B、図8および図9は実験結果を図示している。 Recent PILCO papers (Non-Patent Document 3): Cart pole swing up and balance, and unicycle balance, more learning tasks were performed. The simulation dynamics were set the same and other aspects were similar to the original PILCO. 7A, 7B, 8 and 9 illustrate experimental results.

オプティマイザを、各試行間で600ポリシー評価について、実行した。SGD学習速度およびモーメンタムパラメータは、α=5×10-4およびγ=0.9であった。エピソード長は、カートポールでは3s、一輪車では2sであった。なお、一輪車タスクについては、ポリシーを長い試行に一般化するためには2sでは十分ではないが、それでもPILCOと比較することはできる。制御周波数は10Hzであった。コストは、タイプ1-exp(-(x-t)Q(x-t))であり、ここでtはターゲットである。ポリシー_(x)からの出力は飽和関数sat(u)=9sin(u)/8+sin(3u)/8によって制約され、ここでu=π_~(x)である。1つの実験は(1;5)ランダム試行から構成され、カートと一輪車のタスクそれぞれについて学習済み試行(15;30)が続く。各実験は100回繰り返され、平均化した。各試行は、ポリシーを30回実行して平均化することにより評価したが、これは評価目的のためのみに実行したことに留意されたい(アルゴリズムのアクセスは1試行だけである)。最終試行のリターンが閾値を下回ったどうかによって、成功を判断した。 The optimizer was run for 600 policy evaluations between each trial. The SGD learning rate and momentum parameters were α=5×10 −4 and γ=0.9. The episode length was 3s for the cart pole and 2s for the unicycle. Note that for the unicycle task, 2s is not sufficient to generalize the policy to long trials, but it can still be compared with PILCO. The control frequency was 10Hz. The cost is of type 1-exp(-(xt) T Q(xt)), where t is the target. The output from policy_(x) is constrained by a saturation function sat(u)=9sin(u)/8+sin(3u)/8, where u=π_(x). One experiment consisted of (1;5) random trials, followed by (15;30) learned trials for the cart and unicycle tasks, respectively. Each experiment was repeated 100 times and averaged. Note that each trial was evaluated by running the policy 30 times and averaging, but this was done for evaluation purposes only (the algorithm only accesses one trial). Success was determined by whether the return on the final trial was below a threshold.

(カート-ポールのスイングアップおよびバランス)
これは標準的な制御セオリーのベンチマーク課題である。タスクは、カートを前後に押して、直立に取り付けられた振り子を揺らしてそのバランスを保つことから構成される。状態空間は、x=[s,β,ds/dt,dβ/dt]と表現され、ここでsはカート位置であり、βはポール角度である。基準のノイズレベルはσ=0.01m、β=1deg、σds/dt=0.1m/s、σdβ/dt=10deg/sである。ノイズは、異なる実験では乗数k:σ=kσbase によって修正される。元の論文では、真の状態への直接アクセスが考慮されている。類似の設定を求めるために、k=10-2と設定したが、やはりk∈{1,4,9,16}を試験した。ポリシーπ_~は、50基底関数を伴う動径基底関数ネットワーク(ガウシアンの総和)である。2つのコスト関数を考える。1つは、元のPILCOと同じものであり、xがサインとコサインを含み、振り子がバランスをとっている時の振り子の先端(Tip)と先端の位置との間の距離に依存している(Tip Cost)。もう1つのコストは、生の角度を使用し、Q=diag([1,1,0,0])であった(Angle Cost)。このコストはTip Costとは概念的に異なっており、振り子をスイングアップする正しい方向が1つだけであるからである。
(Cart-pole swing-up and balance)
This is a standard control theory benchmark problem. The task consists of pushing the cart back and forth and swinging an upright pendulum to maintain its balance. The state space is expressed as x = [s, β, ds/dt, dβ/dt], where s is the cart position and β is the pole angle. The reference noise levels are σ s =0.01 m, β=1 deg, σ ds/dt =0.1 m/s, and σ dβ/dt =10 deg/s. The noise is corrected by a multiplier k:σ 2 =kσ base 2 in different experiments. In the original paper, direct access to the true state is considered. To find a similar setting, we set k=10 −2 , but we also tested k∈{1,4,9,16}. The policy π_~ is a radial basis function network (Gaussian summation) with 50 basis functions. Consider two cost functions. One is the same as the original PILCO, where x includes sine and cosine and depends on the distance between the tip of the pendulum (Tip) and the position of the tip when the pendulum is balanced. (Tip Cost). Another cost used raw angles and was Q=diag([1,1,0,0]) (Angle Cost). This cost is conceptually different from the Tip Cost because there is only one correct direction for the pendulum to swing up.

(一輪車のバランス)
タスクは、一輪車ロボットがバランスをとることから構成され、状態次元D=12、および制御次元F=2である。ノイズは低い値に設定した。制御を与えるπ_~は線形である。
(unicycle balance)
The task consists of a unicycle robot balancing, state dimension D=12, and control dimension F=2. Noise was set to a low value. The control π_~ is linear.

(学習実験)
PILCOは、ノイズのないシナリオでは良好に実行されるが、ノイズが加わると、結果が悪化する。この悪化は、MM近似における誤りの累積によって最も生じやすく、以前、予測に求積を使用したVinogradskaら、(2016)によって観測されている。パーティクルはこの問題を被っておらず、TP勾配を使用することは、高ノイズ状態で常にPILCOより優れている。
(Learning experiment)
PILCO performs well in no-noise scenarios, but when noise is added, the results deteriorate. This deterioration is most likely caused by the accumulation of errors in the MM approximation and was previously observed by Vinogradska et al. (2016) who used quadrature for prediction. Particles do not suffer from this problem, and using TP gradients always outperforms PILCO in high noise conditions.

一方、低いノイズレベルでは、TPならびにLRのパフォーマンスは低下している。パーティクルの全てが、小さな領域からサンプリングされる場合、リターンの変化から勾配を推定することが困難になる(デルタ分散の極限では、LR勾配は評価すらできない)。TP勾配はこの問題をそれほど被らないが、RPからの情報を組み込むからである。最終的に、予測の不確実性が非常に低い場合(たとえばk=10-2)、モデルノイズを学習に影響するパラメータとして考え、より正確な勾配を得るためにそれを大きくすることができる。TP+σを参照されたい。ただし、モデルノイズ分散は100で乗じた。 On the other hand, at low noise levels, the performance of TP and LR is degraded. If all of the particles are sampled from a small area, it becomes difficult to estimate the slope from the change in return (in the limit of delta variance, the LR slope cannot even be evaluated). TP gradients do not suffer from this problem as much because they incorporate information from the RP. Finally, if the prediction uncertainty is very low (eg k=10 −2 ), we can consider the model noise as a parameter that affects learning and increase it to obtain a more accurate gradient. See TP+σ n . However, the model noise variance was multiplied by 100.

とりわけ、PILCOなどのMMを使用する手法、およびGRは、Tip Costを使用する場合、他よりも優れている。理由としては、目的のマルチモダリティを挙げることができる-Tip Costでは、振り子はタスクを解決するためにいずれの方向からもスイングアップされ得る;Angle Costでは、正しい方向は、1つだけである。MMを実行することは、アルゴリズムにユニモーダルな経路に沿うよう強制するが、それにもかかわらずパーティクル手法は、一部のパーティクルが一方から来てもう一方で止まるバイモーダルなスイングアップを試行する可能性がある。したがって、MMは最適化問題を簡略化する一種の「分布報酬成形」を実行している場合がある。そのような説明は、以前にGalら、(2016)によってなされている。 In particular, approaches using MM such as PILCO, and GR outperform others when using Tip Cost. The reason may be the multimodality of the objective - in Tip Cost, the pendulum can be swung up from either direction to solve the task; in Angle Cost, there is only one correct direction. Although running MM forces the algorithm to follow a unimodal path, the particle method can nevertheless attempt a bimodal swing-up where some particles come from one side and stop at the other. There is sex. Therefore, the MM may be performing a type of "distributed reward shaping" that simplifies the optimization problem. Such an explanation was previously made by Gal et al. (2016).

最終的に、驚くべきTP-σ実験を指摘する。予測はモデルの不確実性を無視しているが、方法は93%の成功率を達成する。なぜ学習がうまくいったのかの説明は困難であるが、成功がGPのゼロ事前平均に関連し得るとの仮説を立てている。データがない領域では、GPダイナミクスモデルの平均は0に向かい、これは入力制御信号がパーティクルに対して効果がないことを意味している。したがって、ポリシー最適化を成功させるためには、パーティクルがデータの存在する領域に留まるように制御しなければならない。なお、同様の結果が、進化型アルゴリズムを使用して、モデル不確実性を無視する場合でもカート-ポールタスクで85~90%の成功率を達成したChatzilygeroudisら、(2017)により見出されている。 Finally, we point out a surprising TP-σ f experiment. Although the prediction ignores model uncertainties, the method achieves a success rate of 93%. Although it is difficult to explain why learning was successful, we hypothesize that success may be related to the zero prior mean of GP. In regions where there is no data, the mean of the GP dynamics model tends toward 0, meaning that the input control signal has no effect on the particles. Therefore, in order to succeed in policy optimization, particles must be controlled to stay in the area where data exists. Similar results were found by Chatzilygeroudis et al. (2017), who used an evolutionary algorithm to achieve an 85-90% success rate in a cart-pole task even when ignoring model uncertainty. There is.

ほとんどの機械学習問題には、何らかのデータ生成分布pData(x)に対する目的関数J(x;θ)の期待値の最適化を伴うが、この分布は、サンプルデータ点{x}を通じてのみアクセス可能である。本発明の予測的フレームワークは、深層モデルに類似している:p(x)は、データ生成分布であり、p(x;θ)はモデルレイヤにpData(x)を通すことにより求められる。最も一般的な最適化方法は、逆伝播により計算されるPathwise導関数を用いたSGDである。本発明の結果は、いくつかの状況(特に、非常に深いまたはリカレントなモデルの場合)において、この手法は、勾配分散の爆発によって、ランダムウォークに陥る可能性もあることを示唆している。 Most machine learning problems involve optimizing the expectation of an objective function J(x; θ) for some data-producing distribution p Data (x), which is only accessible through sample data points {x i }. It is possible. Our predictive framework is similar to a deep model: p(x 0 ) is the data-generating distribution and p(x t ; θ) is by passing p Data (x) through the model layer. Desired. The most common optimization method is SGD using Pathwise derivatives calculated by backpropagation. Our results suggest that in some situations (particularly for very deep or recurrent models), this approach may also fall into random walks due to the explosion of gradient variance.

勾配の爆発は、深層学習の研究において、長年観測されている(Doya, 1993; Bengioら、1994)。通常、この現象は、ステップの増大および学習の不安定化につながる数値問題と見なされる。一般的な対策としては、勾配のクリッピング、ReLU活性化関数(Nair & Hinton, 2010)、およびスマート初期化が挙げられる。この問題に対する本発明の説明は異なる:勾配は、大きくなるだけではなく、勾配分散は爆発し、これはx~pDataからのあらゆるサンプルが、モデルパラメータθをどのように変えて分布全体EpData[J(x)]についての目的の期待値を大きくするかについての情報を本質的に与えないことを意味している。良好な初期化を選択することがこの問題に対処する一手法である一方で、これはシステムが学習中にカオスにならないことを保証することは困難と思われる。たとえば計量経済学では、最適なポリシーがカオス的なダイナミクスをもたらす場合すらある(Deneckere & Pelikan, 1986)。勾配クリッピングにより、大きなパラメータステップを止めることができるが、勾配がランダムになれば根本的に問題を解決することにはならない。線形系ではカオスが生じないことを考慮して(Alligoodら、1996)、本発明の解析は、ReLUなどのカオスの影響を受けにくい区分線形活性化が深層学習でうまくいく理由を示唆している。 Gradient explosion has been observed for many years in deep learning research (Doya, 1993; Bengio et al., 1994). This phenomenon is usually considered a numerical problem leading to increased steps and instability of learning. Common countermeasures include gradient clipping, ReLU activation functions (Nair & Hinton, 2010), and smart initialization. Our explanation for this problem is different: the slope not only grows, but the slope variance explodes, which explains how every sample from x i ~p Data changes the model parameter θ and changes the entire distribution E This means that essentially no information is given as to whether to increase the desired expected value for pData [J(x)]. While choosing a good initialization is one way to address this problem, this seems difficult to ensure that the system does not become chaotic during learning. For example, in econometrics, optimal policies can even lead to chaotic dynamics (Deneckere & Pelikan, 1986). Gradient clipping can stop large parameter steps, but it does not fundamentally solve the problem if the gradients become random. Considering that chaos does not occur in linear systems (Alligood et al., 1996), our analysis suggests why piecewise linear activations that are less sensitive to chaos, such as ReLU, work well in deep learning. .

本発明の深層的な仮説をなお計算機的に確認しなければならない一方で、いくつかの研究によりニューラルネットワークにおけるカオスが調査されているが(Kolen & Pollack, 1991; Sompolinskyら、1988)、やはり本発明が初めて、カオスは逆伝播を使用して計算されると勾配を縮退させ得ることを示唆していると信じている。とりわけ、Pooleら、(2016)はそのような特性が「指数関数的な表現力」をもたらすことを示唆したが、この現象が呪いの代わりとなり得ると信じている。 While the deep hypotheses of the invention still have to be verified computationally, several studies have investigated chaos in neural networks (Kolen & Pollack, 1991; Sompolinsky et al., 1988), but this book is still lacking. We believe that our invention suggests for the first time that chaos can degenerate gradients when computed using backpropagation. Among others, Poole et al. (2016) suggested that such properties result in "exponential expressiveness," and believe that this phenomenon could be an alternative to curses.

(結論と今後の研究)
逆伝播により計算されるものなど、Pathwise導関数を使用する期待値を最適化することの限界を説明した。さらに、計算にノイズを投入すること、および尤度比のトリックを使用することにより、この呪いに拮抗する方法を示す。本発明の総和伝播アルゴリズムは、任意の確率的計算グラフに対する再パラメータ化勾配を、あらゆる量の他の勾配推定量(値関数を使用して計算された勾配すら使用することができる)と結合するための効率的な方法を提供する。本発明の研究を拡張する数え切れないほどの方法がある:よりよい最適化、自然な勾配の組み込みなど。本発明の方法の柔軟な性質により、これらの拡大が容易になるはずである。
(Conclusion and future research)
We have discussed the limitations of optimizing expectations using Pathwise derivatives, such as those computed by backpropagation. Furthermore, we show how to counteract this curse by injecting noise into the calculations and using the likelihood ratio trick. Our summation propagation algorithm combines reparameterized gradients for arbitrary stochastic computational graphs with any quantity of other gradient estimators (even gradients computed using value functions can be used) provide an efficient method for There are countless ways to extend our work: better optimization, incorporating natural gradients, etc. The flexible nature of the methods of the invention should facilitate their expansion.

(実施形態2)
確率論的な計算グラフ(PCG)の定義を提供する。なお、PCGの概念は、総和伝播アルゴリズムを説明するために使用した計算グラフの概念とは異なっているが、代わりに勾配推定量についての理由に関するフレームワークを説明している。定義は、標準的な有向グラフ的なモデルの定義と全く等価であるが、本発明の方法により注目するものであり、推論を実行するのではなく勾配を計算することにおける本発明の興味を強調している。主な違いは、たとえばガウシアンについての分布パラメータζ、平均μ、および共分散Σの明示的な包含である。
(Embodiment 2)
Provides a definition of a probabilistic computational graph (PCG). Note that the concept of PCG is different from the concept of computational graphs used to describe the summation propagation algorithm, but instead describes a framework for reasoning about gradient estimators. The definition is quite equivalent to that of a standard directed graph model, but is more focused on our method, emphasizing our interest in computing gradients rather than performing inference. ing. The main difference is the explicit inclusion of the distribution parameters ζ, mean μ, and covariance Σ, for example for the Gaussian.

定義1(確率論的計算グラフ(PCG))
ノード/頂点VおよびエッジEを有する非巡回グラフは、以下の特性を満足する:
1.各ノードi∈Vは、周辺同時確率密度p(x;ζ)を有するランダムな変数の集合に対応し、ここでζは分布の恐らく無限なパラメータ。なお、パラメータ化は一意ではなく、あらゆるパラメータ化が受け入れ可能である。
2.各ノードの確率密度は条件的に親ノードに依存し、p(x|Pa)である。ここでPaは、ノードiの直接の親におけるランダム変数である。
3.同時確率密度はp(x,・・・,x)=Πi=1 p(x|Pa)を満足する。
4.各ζは、その親の関数であり、ζ=f(Pz)。ここで、Pzはノードiの親における分布パラメータである。特に、p(x;ζ=∫p(x|Pa)p(Pa;Pz)dPaである。
Definition 1 (Probabilistic Computation Graph (PCG))
An acyclic graph with nodes/vertices V and edges E satisfies the following properties:
1. Each node i∈V corresponds to a set of random variables with marginal joint probability density p(x i ; ζ i ), where ζ i is a possibly infinite parameter of the distribution. Note that parameterization is not unique, and any parameterization is acceptable.
2. The probability density of each node conditionally depends on the parent node and is p(x i |Pa i ). Here Pa i is a random variable in the immediate parent of node i.
3. The joint probability density satisfies p(x 1 , . . . , x n )=Π i=1 n p(x i |Pa i ).
4. Each ζ i is a function of its parent, ζ i =f(Pz i ). Here, Pz i is a distribution parameter in the parent of node i. In particular, p(x i ; ζ i =∫p(x i |Pa i )p(Pa i ; Pz i )dPa i .

本発明の数式化においては、確率的なことがないことを強調したい。各計算は解析的に扱いにくい場合があるが、決定論的である。さらに、この定義は決定論的なノードを除外するものではない、すなわちノードにおける分布はディラックのデルタ分散(質点)であり得ることを強調する。後に、勾配の確率的推定値を導出するためにこの数式化を使用する。 We would like to emphasize that there is nothing stochastic about the mathematical formulation of the present invention. Each calculation may be analytically unwieldy, but it is deterministic. Furthermore, we emphasize that this definition does not exclude deterministic nodes, i.e. the distribution at the nodes can be a Dirac delta distribution (particle mass). We later use this formulation to derive probabilistic estimates of the slope.

(定理の導出)
興味の対象は、あるノードζにおける分布パラメータの、別のノードdζ/dζにおけるパラメータに対する全微分を計算することである。全微分の規則をイテレートすることにより、ノードjからノードiまでの経路にわたる総和が導かれ、以下の通りである。
(Derivation of theorem)
We are interested in computing the total derivative of the distribution parameter at one node ζ i with respect to the parameter at another node dζ i /dζ j . By iterating over the total differentiation rule, the summation over the path from node j to node i is derived as follows.

Figure 0007378836000010
Figure 0007378836000010

この等式は、あらゆる決定論的な計算グラフに当てはまり、またたとえばOJAコミュニティで周知でもある。この等式は自明に本発明の確率的勾配定理を導き、AからBへの経路にわたる総和が、Aから中間ノードおよび中間ノードからBへの経路の総和として書くことができることを説明している。図10Aおよび図10Bは、数式11における経路の例を図示している。 This equation applies to any deterministic computational graph and is also well known, for example, in the OJA community. This equation trivially leads to our stochastic gradient theorem and explains that the summation over the path from A to B can be written as the summation of the paths from A to intermediate nodes and from intermediate nodes to B. . 10A and 10B illustrate examples of paths in Equation 11.

定理1(総和確率的勾配定理)
ある確率的計算グラフにおいてiとjを異なるノードとし、INを中間ノードの任意の集合とし、これはjからiへの経路をブロックする、すなわちINはjからiへの経路が存在しないようにするためのものであり、IN中でノードを通過しない。{a→b}をaからbへの経路の集合で表し、{a→b}/cはaからbへの経路の集合であり、bを除いて経路に沿うノードを集合cに含めることはできない。この場合、全微分dζ/dζは次の等式で書くことができる。
Theorem 1 (summation stochastic gradient theorem)
Let i and j be different nodes in some probabilistic computation graph, and let IN be any set of intermediate nodes, which blocks the path from j to i, i.e. IN is such that there is no path from j to i. It does not pass through the nodes in the IN. {a→b} is represented by a set of paths from a to b, {a→b}/c is a set of paths from a to b, and nodes along the path except for b are included in the set c. I can't. In this case, the total differential dζ i /dζ j can be written as the following equation.

Figure 0007378836000011
Figure 0007378836000011

数式10および数式11を結合して次を与えることができる。 Equations 10 and 11 can be combined to give the following:

Figure 0007378836000012
Figure 0007378836000012

なお、r∈{j→m}/INとs∈{j→m}/INとをそれぞれスワップすることにより、類似の定理を導くことができる。これは次の等式を導く。 Note that a similar theorem can be derived by swapping rε{j→m}/IN and sε{j→m}/IN, respectively. This leads to the following equation.

Figure 0007378836000013
Figure 0007378836000013

後半、および前半分の総和勾配等式として、それぞれ数式12および数式13を参照する。 Equations 12 and 13 are referred to as the total gradient equations for the second half and the first half, respectively.

(グラフ上での勾配推定)
前セクションでは、グラフ全体に対する勾配計算を分解してより狭いグラフに対する勾配計算とする手段を与え、またサブグラフに対して勾配を推定する方法を与えた。ここで、サブグラフに対する勾配をどのように結合してグラフ全体に対する勾配のための推定量とすることができるかの手法を明らかにする。タスクは、ノードjにおけるパラメータに対する遠位のノードiにおける期待値の導関数を推定することである:d/dζxi~p(xi;ζi)[xi]。真のζは、扱いにくいため、サンプリング基準の推定を行う。p(x;ζ)のサブ分散をサンプリングすることを考える。すなわち、p(x;ζ)=∫p(x;ζ_^)p(ζ_^)dζ_^となるようにζ_^をサンプリングする。これは次のように書くことができる。
(Gradient estimation on graph)
In the previous section, we provided a means to decompose the gradient computation for an entire graph into a gradient computation for a narrower graph, and also provided a method for estimating the gradient for subgraphs. Here, we demonstrate how the gradients for subgraphs can be combined into an estimator for the gradient for the entire graph. The task is to estimate the derivative of the expectation at distal node i for the parameter at node j: d/dζ j E xi~p(xi;ζi) [xi]. Since the true ζ is difficult to handle, we estimate the sampling criterion. Consider sampling a subvariance of p(x;ζ). That is, ζ_^ is sampled so that p(x;ζ)=∫p(x;ζ_^)p(ζ_^)dζ_^. This can be written as:

Figure 0007378836000014
Figure 0007378836000014

ζ_^は伝承サンプリング手順では自然に生じる。説明の簡素化のため、サンプリングは再パラメータ化可能である、すなわち、p(ζ_^;ζ)=f(ζ_^;ζ,z)p(z)とさらに想定する。これは次のように書くことができる。 ζ_^ occurs naturally in the tradition sampling procedure. For simplicity of explanation, we further assume that the sampling is reparameterizable, i.e., p(ζ m _^; ζ j ) = f(ζ m _^; ζ j , z m ) p(z m ) do. This can be written as:

Figure 0007378836000015
Figure 0007378836000015

項dζ_^/dζjは、Pathwise導関数推定量により推定される。残りの項d/dζ_^Exi~p(xi;ζi_^)[xi]は、任意の他の推定量により推定され、たとえばジャンプ推定量を使用することができる。第2の推定量がやはり不偏であるとすれば、推定量全体が不偏となる。 The term dζ m _^/dζj is estimated by the Pathwise derivative estimator. The remaining term d/dζ m_ ^Ex i~p(xi;ζi_^) [xi] can be estimated by any other estimator, for example using a jump estimator. If the second estimator is also unbiased, then the entire estimator is unbiased.

要約すると、グラフ全体に対して、jからiまでの勾配推定量を作成する手順は以下の通りである:
1.経路jからiまでをブロックする中間ノードINの集合を選択する。
2.jから中間ノードINまでのPathwise導関数推定量を構築する。
3.INからiまでの全微分推定量を構築して、iからjまでの連鎖律を適用する。
In summary, the steps to create a gradient estimator from j to i for the entire graph are as follows:
1. Select a set of intermediate nodes IN that block the path from j to i.
2. Construct a Pathwise derivative estimator from j to intermediate node IN.
3. Construct the total differential estimator from IN to i and apply the chain rule from i to j.

(ポリシー勾配定理に対する関係性)
典型的なモデルなしRLの問題では、エージェントは確率的ポリシーπに従って動作u~π(u|x;θ)を実行し、状態xを遷移して、コストcを求める(または、逆に報酬を求める)。エージェントのゴールは、ポリシーパラメータθを見つけることであり、これは各エピソードの期待リターンG=Σt=0 を最適化する。図11Aおよび図11Bはモデル基準およびモデルなしのLR勾配推定の確率計算グラフを図示している。文献では、ポリシー勾配定理および決定論的ポリシー勾配定理の2つの「勾配定理」が全般的に適用される。
(Relationship to policy gradient theorem)
In a typical model-less RL problem , an agent executes operations u~π(u t | (on the contrary, they seek compensation). The agent's goal is to find the policy parameters θ, which optimize the expected return G=Σ t=0 H c t for each episode. FIGS. 11A and 11B illustrate probability calculation graphs for model-based and model-free LR slope estimation. In the literature, two "gradient theorems" are commonly applied: the policy gradient theorem and the deterministic policy gradient theorem.

Figure 0007378836000016
Figure 0007378836000016

Figure 0007378836000017
Figure 0007378836000017

Qt_^は、動作uを選択した場合の特定の状態xからの残存リターンΣh=t H-1h+1の推定量に対応する。数式16について、任意の推定量が受け入れ可能であり、サンプリング基準の推定すら使用可能である。数式17については、Q_^は通常微分可能なサロゲートモデルである。重要なことに、上の等式が有効であるためには、Q_^が推定量でなければならず、真のQではない。すなわち、勾配を推定する際、ポリシーパラメータは現在の時間ステップについて変更されるだけであり、後続の時間ステップについては固定され続けることを想定しなければならない。図11Aは、これらの2つの定理が同一の確率論的計算グラフにどのように対応するかを示している。中間ノードは、各時間ステップで選択された動作である。中間ノードに続く全微分を推定するためのジャンプ推定量の選択に差異が存在する-ポリシー勾配定理はLR勾配を使用するが、決定論的なポリシー勾配定理はPathwise導関数をサロゲートモデルに対して使用する。 Qt_^ corresponds to an estimate of the residual return Σ h=t H−1 c h+1 from a particular state x when action u is selected. For Equation 16, any estimator is acceptable, even an estimate of the sampling criterion can be used. For Equation 17, Q_^ is a normally differentiable surrogate model. Importantly, for the above equation to be valid, Q_^ must be an estimator and not the true Q. That is, when estimating the gradient, it must be assumed that the policy parameters are only changed for the current time step and remain fixed for subsequent time steps. FIG. 11A shows how these two theorems correspond to the same probabilistic computation graph. Intermediate nodes are the actions selected at each time step. A difference exists in the choice of jump estimator to estimate the total derivative following an intermediate node - the policy gradient theorem uses the LR gradient, whereas the deterministic policy gradient theorem uses the Pathwise derivative for the surrogate model. use.

(新規なアルゴリズム)
典型的にPCGに対して勾配を推定する際は、グラフ全体を通じて伝承サンプリングを実行して1サンプルを求め、たとえばRL問題については軌跡をサンプリングする。そのようなサンプルをパーティクルと呼ぶ。そのようなサンプリングのバッチを使用して、勾配推定量を求めることができる。あるノードにおける推定される分布パラメータは、各サンプリングされたパーティクルζ_^={ζ_^} についての分布パラメータの集合によって与えられ、ここでPはパーティクル数である。たとえば、PCGがガウス分布からの順次的なサンプリングから成る場合、ζ_^は、パーティクルがそのノードでサンプリングされたガウシアンの平均および共分散に対応する。以下のセクションでは、パーティクルの集合を使用して、周辺分布について直接分布パラメータΓの異なる集合を推定するという選択肢を活用する。
(new algorithm)
Typically, when estimating gradients for a PCG, one sample is obtained by performing tradition sampling over the entire graph, and for example, for RL problems, the trajectory is sampled. Such samples are called particles. A batch of such samplings can be used to determine the slope estimator. The estimated distribution parameters at a node are given by the set of distribution parameters for each sampled particle ζ_^={ζ i _^} i P , where P is the number of particles. For example, if the PCG consists of sequential sampling from a Gaussian distribution, ζ i corresponds to the mean and covariance of the Gaussian at which the particles were sampled at that node. In the following sections, we exploit the option of using a collection of particles to directly estimate different sets of distribution parameters Γ for the marginal distribution.

(密度推定LR(DEL))
以下の説明により、サンプリングされたパーティクルの集合から分布パラメータΓを推定し、推定された分布ζ_^を使用してLR勾配を適用することを、試行することができる。特に、平均μ_^=Σ /Pおよび分散Σ_^=Σ (x-μ_^)/(P-1)を推定することにより密度をガウシアンとして近似する。次に標準的なLRトリックを使用して、勾配ΣiP dlogq(x)/dθ(G-b)を推定することができ、ここでq(x)=N(μ_^,Σ_^)である。この方法を使用するために、パーティクルxに関するμ_^およびΣ_^の微分を計算し、連鎖律を使用して勾配をポリシーパラメータまで伝えなければならないが、これは容易である。本発明の新たな方法をDEL推定量と呼ぶ。重要なことに、q(x)は勾配を推定するために使用されるが、如何なる方法でも軌跡サンプリングを修正するために使用されないことに留意されたい。これは、パーティクルがそのようにフィッティングされたガウス分布から再サンプリングされ、軌跡分布を修正するガウス再サンプリングの場合と対照的である。
DELの利点:計算にノイズを投入しなくてもLR勾配を使用することができる。
DELの不利な点:推定量が不偏であり、密度推定が困難になる可能性がある。
(Density estimation LR (DEL))
With the following explanation, one can try to estimate the distribution parameter Γ from the sampled collection of particles and apply the LR gradient using the estimated distribution ζ_^. In particular, the density is approximated as a Gaussian by estimating the mean μ_^=Σ i P x i /P and the variance Σ_^=Σ i P (x i −μ_^) 2 /(P−1). Standard LR tricks can then be used to estimate the slope ΣiP dlogq(x i )/dθ(G i -b), where q(x)=N(μ_^,Σ_^) be. To use this method, we have to compute the derivatives of μ_^ and Σ_^ with respect to particle x i and use the chain rule to propagate the gradients to the policy parameters, which is easy. The new method of the present invention is called the DEL estimator. Importantly, note that q(x) is used to estimate the slope, but not to modify the trajectory sampling in any way. This is in contrast to the case of Gaussian resampling, where particles are resampled from a Gaussian distribution so fitted, modifying the trajectory distribution.
Advantage of DEL: LR slope can be used without introducing noise into the calculation.
Disadvantages of DEL: The estimator is unbiased, which can make density estimation difficult.

(ガウス成形勾配(GS))
これまで、全てのRL方法が総和勾配等式の後半(数式12)を使用してきた。等式の前半(数式13)を使用する推定量を作成できるだろうか?図13はガウス成形勾配における計算経路を図示している。図13は、これがどのように行われ得るかの例を与えている。xmにおける密度を、パーティクルに対するガウシアンをフィッティングにより推定することを提案する。次いで、dE[c]=dΓ(灰色のエッジ)が、この分布からパーティクルを再サンプリングすることにより(またはあらゆる他の積分の方法により)推定される。これは、dΓ/dθをどのように推定するかという疑問を残す(点線エッジおよび太線エッジ)。RP方法を使用することが、容易である。LR方法を使用するためには、まず総和勾配等式の後半をdΓ=dθに対して適用して項Σr∈{θ→k}/INΠ(p,t)∈r∂ζ/∂ζ(点線エッジ)およびdΓm/dζ(太線エッジ)を求める。考慮しているシナリオでは、これらの項の第1は単一の経路であり、RPを使用して推定される。第2の項は、より興味深いもので、これをLR方法を使用して推定する。ガウス近似を使用しているため、分布パラメータΓは、xの平均および分散であり、μ=E[x]およびΣm=E[x ]-μμ として推定することができる。これらの項のLR勾配推定量は次のように求めることができる。
(Gaussian forming gradient (GS))
Until now, all RL methods have used the second half of the sum gradient equation (Equation 12). Can we create an estimator that uses the first half of the equation (Equation 13)? FIG. 13 illustrates the computational path in a Gaussian shaping gradient. Figure 13 gives an example of how this can be done. We propose to estimate the density at xm by fitting a Gaussian to the particle. dE[c m ]=dΓ m (gray edge) is then estimated by resampling particles from this distribution (or by any other method of integration). This leaves the question of how to estimate dΓ m /dθ (dotted and thick edges). It is easy to use the RP method. To use the LR method, first apply the second half of the summation gradient equation to dΓ m = dθ to obtain the term Σ r∈{θ→k}/IN Π (p, t)∈r ∂ζ t / Find ∂ζ p (dotted edge) and dΓm/dζ k (bold edge). In the scenario considered, the first of these terms is a single path and is estimated using RP. The second term is more interesting and is estimated using the LR method. Since we are using a Gaussian approximation, the distribution parameter Γ m is the mean and variance of x m , as μ m = E[x m ] and Σm = E[x m x m T ] − μ m μ m T It can be estimated. The LR gradient estimator for these terms can be determined as follows.

Figure 0007378836000018
Figure 0007378836000018

実際には、サンプリング基準の推定ζ_^を行い、推定量がサンプルζ_^に対して条件付きではないかと懸念されるかも知れないが、興味の対象は条件付きではない推定値である。条件付き推定が等価であることを説明する。分散については、μは条件付きではない平均の推定であるため、推定全体が、条件付きではない分散の推定に直接対応していることに留意されたい。平均については、イテレートされた期待値の規則を以下の通り適用する。 In practice, we estimate the sampling criterion ζ k _^ and may be concerned that the estimator is conditional on the sample ζ k _^, but what we are interested in is the estimate that is not conditional. be. Explain that conditional estimates are equivalent. Note that for the variance, since μ m is an estimate of the non-conditional mean, the overall estimate corresponds directly to the estimate of the non-conditional variance. For the average, apply the iterated expectation rule as follows.

Figure 0007378836000019
Figure 0007378836000019

これにより、条件付き勾配推定量が、条件付きではない平均の勾配についての不偏な推定量であることが明らかである。 This makes it clear that the conditional slope estimator is an unbiased estimator of the mean slope that is not conditional.

(勾配を累積するための効率的なアルゴリズム)
具体的な例として、モデル基準のポリシー勾配方法を考え、そのPCGが図13に与えられる。本発明の以前の研究において、このアルゴリズムが、まず最初に考えられたものであり、ダイナミクスの微分可能な確率論的モデルへのアクセスに決定的に依存している。GS勾配をこの状況にどのように適用するかを説明する。xノードごとに、kの後の全てのxノードへのLRジャンプを実施し、ノードmにおける分布のガウス近似で勾配を計算したい。逆伝播のようなやり方で後方パスの間、全てのノードを累積する。なお、kおよび経路ごとに、勾配をdE[c]/dΓdΓ/dζ(dζ/duk-1duk-1/dθ)と書くことができる。項dE[c]/dΓ・dΓ/dζはdE[c]/dΓd logp(x;ζ)/dζとして推定され、ここでzmは上の項x-bμなどを要約しているベクトルに対応する。なお、dE[c]/dΓはただのスカラー量gである。したがって、後方パスの間の全てのgの合計を累積して、各kノードにおける全てのmノードを合計するアルゴリズムを使用する。図12は総和伝播と適合する様子を詳しく説明するためのアルゴリズム3を図示している。最終的なアルゴリズムは本質的には通常のコスト/報酬を修正された値で置換するだけであり、そのような手法はさらに、確率的ポリシーおよびLR勾配を使用してモデルなしポリシー勾配アルゴリズムに適用可能である。GSの2つの解釈:1.あるノードにおいて、周辺分布のガウス近似を行う。2.パーティクルの分布に基づいて、あるタイプの報酬成形を行う。特に、パーティクルの全てが複数の報酬の領域間で分布が分かれるのではなく報酬の1つの「島」に集中するよう軌跡分布をユニモーダルに保つよう本質的に推進する-これにより最適化が単純になる場合がある。
(Efficient algorithm for accumulating gradients)
As a specific example, we consider a model-based policy gradient method and its PCG is given in FIG. In previous work of the present invention, this algorithm was first conceived and critically relies on access to a differentiable probabilistic model of the dynamics. We explain how GS gradients are applied to this situation. For each x k node, we want to perform an LR jump to all x m nodes after k and compute the gradient with a Gaussian approximation of the distribution at node m. Accumulate all nodes during the backward pass in a backpropagation-like manner. Note that for each k and path, the gradient can be written as dE[c m ]/dΓ mm /dζ k (dζ k /du k-1 du k-1 /dθ). The term dE[c m ]/dΓ m・dΓ m /dζ k is estimated as dE[c m ]/dΓ m z m d logp(x kk )/dζ k , where zm is the upper term x It corresponds to a vector summarizing m - b μ , etc. Note that dE[c m ]/dΓ m z m is just a scalar quantity g m . Therefore, we use an algorithm that accumulates all g sums during the backward pass and sums all m nodes at each k node. FIG. 12 illustrates Algorithm 3 for explaining in detail how it is compatible with summation propagation. The final algorithm essentially just replaces the normal costs/rewards with modified values, and such techniques can be further applied to model-less policy gradient algorithms using stochastic policies and LR gradients. It is possible. Two interpretations of GS: 1. A Gaussian approximation of the marginal distribution is performed at a certain node. 2. Do some type of reward shaping based on the distribution of particles. In particular, it inherently promotes keeping the trajectory distribution unimodal so that all of the particles are concentrated in one "island" of reward rather than having the distribution split across multiple reward regions - this simplifies optimization. It may become.

(実験)
PILCOの論文により、モデル基準のRL模擬実験を行った。本発明のGS手法ならびに総和伝播との結合を試験するために、カート-ポールのスイングアップ、およびバランスの課題を試験した。さらに、この考えの実現性を示すために、より単純なカート-ポールの、バランスだけの課題に対して、DEL手法を試験した。本発明の新たな推定量を伴うパーティクル基準の勾配をPILCOと比較した。本発明の以前の研究において、パーティクルを使用して信頼できる結果を求めるためにコスト関数を変更しなければならなかった-現在の実験の主な動機の1つは、元のPILCOが使用したのと同じコストを使用してPILCOの結果とマッチングさせることである(これは、後にさらに詳述する)。
(experiment)
Based on the paper by PILCO, we conducted a model-based RL simulation experiment. To test the GS method of the present invention and its coupling with summation propagation, cart-pole swing-up and balance tasks were tested. Furthermore, to demonstrate the feasibility of this idea, we tested the DEL method on a simpler cart-pole balance-only task. The particle-based slope with our new estimator was compared to PILCO. In our previous work, we had to modify the cost function in order to obtain reliable results using particles - one of the main motivations for the current experiments was that the original PILCO used (this will be explained in more detail later).

(モデル基準のポリシー探索バックグラウンド)
モデルなしポリシー探索方法に対するモデル基準のアナログを考える。対応する確率論的計算グラフを図11Bに与える。表記は本発明の以前の研究に従う。各エピソードの後、p(Δxt+1 )=gP(x_~),となるよう、データの全てを使用してダイナミクスの各次元の別個のガウス過程モデルを学習する。ここでx_~=[x ,u ]かつx∈R、u∈Rである。次いで、このモデルを使用して、勾配降下法によりポリシーを最適化するためにエピソード間で「メンタルシミュレーション」を実行する。二乗指数共分散関数k(x_~,x’_~)=s exp(-(x_~-x’_~)Λ -1(x_~-x’_~))を使用した。また、ノイズハイパーパラメータがσn,2 のガウス尤度関数を使用する。ハイパーパラメータ{s,Λ,σ}は、周辺尤度を最大化することにより訓練される。予測はp(xt+1 )=N(μ(x_~),σ (x_~)+σ )の形態を取り、ここでσ (x_~)はモデルについての不確実性であり、状態空間の領域内内のデータの可用性に依存している。図11Bでは、θから中間ノードまでの偏微分がPathwise導関数で推定され、中間ノードに続く全微分がジャンプ推定量で推定される。
(Model-based policy search background)
Consider a model-criteria analog to model-free policy search methods. The corresponding probabilistic calculation graph is given in FIG. 11B. The notation follows previous work of the present invention. After each episode, all of the data is used to train a separate Gaussian process model for each dimension of the dynamics, such that p(Δx t+1 a )=gP(x t _~),. Here, x_~=[x t T , u t T ] and x∈R D , u∈R F. This model is then used to perform "mental simulations" between episodes to optimize the policy via gradient descent. Using the squared exponential covariance function k a (x_~, x'_~) = s a 2 exp (-(x_~-x'_~) T Λ a -1 (x_~-x'_~)) . Also, a Gaussian likelihood function with a noise hyperparameter σ n,2 2 is used. The hyperparameters {s, Λ, σ n } are trained by maximizing the marginal likelihood. The prediction takes the form p(x t+1 a )=N(μ(x t _〜), σ f 2 (x t _〜)+σ n 2 ), where σ f 2 (x t _〜) is the model , and is dependent on the availability of data within the region of the state space. In FIG. 11B, partial derivatives from θ to intermediate nodes are estimated with Pathwise derivatives, and total derivatives following intermediate nodes are estimated with jump estimators.

(セットアップ)
カート-ポールは、前後に押すことができるカートと、取り付けられたポールから成る。状態空間は、[s,β,ds/dt,dβ/dt]であり、ここでsはカート位置であり、βは角度である。制御は、カートに対する水平方向の力である。ダイナミクスは、PILCOの論文と同様であった。セットアップは本発明の以前の研究に従う。
(set up)
A cart-pole consists of a cart that can be pushed back and forth and an attached pole. The state space is [s, β, ds/dt, dβ/dt], where s is the cart position and β is the angle. The control is a horizontal force on the cart. The dynamics were similar to the PILCO paper. The setup follows our previous work.

(タスクにおける共通の特性)
実験は1ランダムエピソード、続いて学習済ポリシーを有する15エピソードから成り、ポリシーはエピソード間で最適化される。各エピソード長は3sであり、制御周波数は10Hzであった。各タスクは再現性を試験するために異なる乱数シードで別個に100回評価した。乱数シードは、異なるアルゴリズム同士で共有した。各エピソードは30回評価し、コストを平均化したが、これは評価目的のためのみに行ったことに留意されたい-アルゴリズムのアクセスは1エピソードだけである。ポリシーは、本発明の以前の研究によるRMSpropのような学習規則を使用して最適化され、これは勾配を異なるパーティクルからの勾配のサンプリング分散を使用して勾配を正規化する。モデル基準のポリシー最適化では、ポリシー勾配評価ごとに300パーティクルを使用して600勾配ステップを実行した。学習速度およびモーメンタムパラメータはそれぞれ、α=5×10-4、γ=0:9であり、本発明の以前の研究と同じである。ポリシーからの出力はsat(u)=9sin(u)/8+sin(3u)/8によって飽和され、ここでu=π_~(x)である。ポリシーπ_~は、50基底関数および254パラメータの総和を伴う動径基底関数ネットワーク(ガウシアンの総和)である。コスト関数は、タイプ1-exp(-(x-t)Q(x-t))であり、ここでtはターゲットである。2つのタイプのコスト関数を考える:1)Angle Cost、Q=diag([1,1,0,0])であるコストが対角行列である、2)Tip Cost、元のPILCOの論文からのコストであり、バランスが取れている時の、振り子の先端から先端の位置までの距離に依存する。これらのコスト関数は概念的に異なっている-Tip Costでは、振り子はいずれの方向からもスイングアップすることができ、Angle Costでは、正しい方向は、1つだけである。基準の観測ノイズレベルは、σ=0.01m、σβ=1deg、σds/dt=0.1m/s、σdβ/dt=10deg/s、またこれらはσ=kσbase となるように乗数k∈{10-2,1}で修正される。
(Common characteristics in tasks)
The experiment consists of one random episode followed by 15 episodes with the learned policy, and the policy is optimized between episodes. Each episode length was 3 s and the control frequency was 10 Hz. Each task was evaluated separately 100 times with different random number seeds to test reproducibility. Random number seeds were shared between different algorithms. Note that each episode was evaluated 30 times and costs averaged, but this was done for evaluation purposes only - the algorithm only had access to one episode. The policy is optimized using a learning rule such as RMSprop from our previous work, which normalizes the gradient using the sampling variance of the gradient from different particles. For model-based policy optimization, 600 gradient steps were performed using 300 particles for each policy gradient evaluation. The learning rate and momentum parameters are α=5×10 −4 and γ=0:9, respectively, which are the same as in our previous work. The output from the policy is saturated by sat(u)=9sin(u)/8+sin(3u)/8, where u=π_~(x). The policy π_~ is a radial basis function network (Gaussian summation) with 50 basis functions and a summation of 254 parameters. The cost function is of type 1-exp(-(xt) T Q(xt)), where t is the target. Consider two types of cost functions: 1) Angle Cost, where the cost is a diagonal matrix with Q=diag([1,1,0,0]), 2) Tip Cost, from the original PILCO paper It is a cost and depends on the distance from tip to tip of the pendulum when balanced. These cost functions are conceptually different - with Tip Cost, the pendulum can swing up from either direction, and with Angle Cost, there is only one correct direction. The standard observation noise level is σ s = 0.01 m, σ β = 1 deg, σ ds/dt = 0.1 m/s, σ dβ/dt = 10 deg/s, and these are σ 2 = kσ base 2 . It is modified by the multiplier k∈{10 −2 , 1} as follows.

(カート-ポールのスイングアップおよびバランス)
このタスクでは、振り子は最初下方向にぶら下がっており、そしてスイングしてバランスを取らなければならない。本発明の以前の研究から、一部の結果を得た:1)PILCO、2)再パラメータ化法勾配(RP)、3)ガウス再サンプリング(GR)、4)バッチ重点加重基準値を伴うバッチ重点加重LR(LR)、5)LRとRPを結合する総和伝播(TP)。新たな方法と比較した:6)LR成分だけを使用するガウス成形勾配(GLR)、7)総和伝播を使用してLRとRP変量の両方を結合するガウス成形勾配(GTP)。総和伝播アルゴリズムの説明については、計算のグラフに対する複数の勾配推定量を効果的に結合する方法である本発明の以前の研究を参照されたい。さらには、モデルノイズ分散に25を乗じた場合のGTPを試験した(GTP+σn)。
(Cart-pole swing-up and balance)
In this task, the pendulum initially hangs downward and must then swing to balance. We obtained some results from our previous work: 1) PILCO, 2) Reparameterization gradient (RP), 3) Gaussian resampling (GR), 4) Batch with batch weighted reference values. weighted LR (LR); 5) summation propagation (TP) that combines LR and RP; We compared new methods: 6) Gaussian Shaped Gradient (GLR), which uses only the LR component, and 7) Gaussian Shaped Gradient (GTP), which uses summation propagation to combine both LR and RP variables. For a description of the summation propagation algorithm, see our previous work on how to effectively combine multiple gradient estimators for graphs of computations. Furthermore, GTP was tested when the model noise variance was multiplied by 25 (GTP+σn).

(DEL推定量でのカート-ポールのバランス)
このタスクはずっと単純である-ポールは最初直立しており、そしてバランスを取らなければならない。実験は、DELが実現可能であり、さらに開発されれば有用な場合があることを示すために工夫された。Angle Costおよび基準ノイズレベルが使用された。
(Kart-Paul balance with DEL estimator)
This task is much simpler - the pole is initially upright and must be balanced. Experiments were devised to demonstrate that DEL is feasible and may be useful if further developed. Angle Cost and reference noise level were used.

(結果)
図14および図15は実験結果を図示している。本発明の以前の研究と同様、ノイズが低い場合、LR成分を含む方法はうまくいかない。しかしながら、GTP+σnの実験はノイズをモデル予測に投入することが問題を解決できることを示している。主な重要な結果は、Tip CostシナリオではGTPがPILCOと一致することである。本発明の以前の研究では、懸念の1つは、このシナリオではTPがPILCOと一致しないことであった。図15Bおよび図15Cのコストを見ることだけでは、適切に差異が示されない。対照的に、成功率はTPもうまくいかなかったことを示している。成功率は、本発明の以前の研究で校正された閾値(15を下回る最終損失)ならびに全ての実験実行を視覚的に分類することの両方によって測定された。両方の方法が一致した。最終エピソードにおけるピークパフォーマの損失はTPであった:11.14±1.73、GTP:9.78±0.40、PILCO:9.10±0.22、これはやはりTPが著しく悪かったことを示している。ピークパフォーマがなお改善している間、残存実験は収束した。PILCOはなお、わずかによりデータ効率的に見えるが、必要とされるデータ量が少ないため、差異に実用的な有意性はほとんどない。図15BではTPの分散はより小さいことにも留意されたい。GTPおよびPILCOの大きな分散は、大きな損失を伴う外れ値により生ずる。これらの外れ値は、局所的最小値に収束し、これは状態分布のガウス近似のテールを利用している-これは、PILCOがガウス近似のテールを使用して探索を行う以前の示唆とは対照的である。
(result)
Figures 14 and 15 illustrate experimental results. Similar to our previous work, when the noise is low, methods involving LR components fail. However, the GTP+σn experiment shows that injecting noise into the model predictions can solve the problem. The main important result is that GTP matches PILCO in the Tip Cost scenario. In our previous work, one of the concerns was that TP would not match PILCO in this scenario. Just looking at the costs in FIGS. 15B and 15C does not adequately indicate the difference. In contrast, the success rate indicates that TP was also unsuccessful. Success rate was measured both by a threshold (final loss below 15) calibrated in our previous work as well as by visually classifying all experimental runs. Both methods were in agreement. The loss of peak performer in the final episode was TP: 11.14 ± 1.73, GTP: 9.78 ± 0.40, PILCO: 9.10 ± 0.22, which again indicates that TP was significantly worse. It shows. The remaining experiments converged while the peak performer still improved. PILCO still appears to be slightly more data efficient, but the difference has little practical significance due to the small amount of data required. Note also that the variance of TP is smaller in FIG. 15B. The large variance in GTP and PILCO is caused by outliers with large losses. These outliers converge to a local minimum, which takes advantage of the Gaussian tail of the state distribution - this is contrary to previous suggestions that PILCO uses the Gaussian tail to search. It's a contrast.

(実施形態3)
総和伝播アルゴリズムは、逆伝播と同様に、計算グラフに対する汎用的な勾配推定アルゴリズムであるが、勾配が爆発する問題を克服するものである。アルゴリズムにおける重要な考え方は、勾配計算の後方パスの間に勾配推定の複数の方法を組み合わせることである。重要なことに、複数の勾配推定値は勾配推定量のより小さな集合にアグリゲートされ(たとえば全ての勾配推定量は単一の最良の勾配の推定に結合される)、また勾配推定量の全てが別個にではなく、この勾配推定量の小さな集合が後方に渡される。そのような方法により、後方に渡される勾配推定量の増殖を招くことなく、計算のグラフにおける勾配推定の精度を高めるために多数の勾配推定技術を結合することができ、それにより良好な計算効率を実現する。
(Embodiment 3)
The summation propagation algorithm, like backpropagation, is a general-purpose gradient estimation algorithm for computational graphs, but it overcomes the problem of exploding gradients. The key idea in the algorithm is to combine multiple methods of gradient estimation during the backward pass of gradient computation. Importantly, multiple gradient estimates are aggregated into a smaller set of gradient estimators (e.g., all gradient estimators are combined into a single best gradient estimate), and all of the gradient estimators are This small set of gradient estimators is passed backwards, rather than separately. Such a method allows multiple gradient estimation techniques to be combined to increase the accuracy of gradient estimation in the graph of computation without incurring a proliferation of gradient estimators passed backwards, thereby achieving good computational efficiency. Realize.

(フレームワークとアルゴリズムの説明)
計算グラフはノード/頂点Vと有向エッジEの集合であり、頂点にある変数同士の計算上の関係を定義している。各ノードiはその親ノードPaからの変数を入力として受け取り、出力x=f(Pa)を計算し、ここで関数fは確率的であることもできる。Paおよびxは1つまたは複数の変数の集合を表現しているため、ベクトル値化またはテンソル値化されている場合がある。変数xはノードiの子ノードに渡され、Chと表記される。図16はアルゴリズムの一般形態を図示している。アルゴリズムの一般形態は、アルゴリズム4に提示されており、ここで重要な新規性は、ステップ5および6を含む組み合わせである。総和伝播は逆伝播アルゴリズムに類似しており、連鎖法則を適用することにより計算した勾配をグラフの後方に送ることで、グラフ全体で勾配を計算する。標準的な逆伝播を図17に図示する。総和伝播は、いくつかのノードにおいて複数の勾配推定を実行すること、勾配推定量を結合すること、および結合した推定量を後方に送ること図18によりこの手順を修正する。
(Framework and algorithm description)
A computational graph is a set of nodes/vertices V and directed edges E, and defines computational relationships between variables at the vertices. Each node i receives variables from its parent node Pa i as input and computes an output x i =f(Pa i ), where the function f can also be stochastic. Since Pa i and x i represent a set of one or more variables, they may be converted into vector values or tensor values. Variable x i is passed to the child node of node i and is denoted Ch i . FIG. 16 illustrates the general form of the algorithm. The general form of the algorithm is presented in Algorithm 4, where the key novelty is the combination comprising steps 5 and 6. Summation propagation is similar to the backpropagation algorithm, which computes the gradient across the graph by applying the chain rule and sending the computed gradient backwards through the graph. Standard backpropagation is illustrated in FIG. Sum propagation modifies this procedure by performing multiple gradient estimates at several nodes, combining the gradient estimators, and sending the combined estimators backwards.

図17は、機械学習における全てのニューラルネットワークアプリケーションの他、その他多くのアプリケーションにおいて使用される逆伝播アルゴリズムを図示している。総和伝播アルゴリズムは、異なる勾配推定技術を使用してdL/dzの複数の推定値を求めること(たとえば、再パラメータ化法および尤度比法)、これらの推定値をより小さな勾配推定量の集合に結合すること、およびこれらを計算グラフの後方に渡すことにより、この手順を修正する。 Figure 17 illustrates the backpropagation algorithm used in all neural network applications in machine learning, as well as many other applications. The summation propagation algorithm uses different gradient estimation techniques to obtain multiple estimates of dL/dz 2 (e.g., reparameterization and likelihood ratio methods) and then subdivides these estimates into smaller gradient estimators. We modify this procedure by joining into sets and passing them backwards in the computational graph.

図18は、単一の勾配推定量となるように尤度比および再パラメータ化勾配推定量を結合することにより勾配推定が実行される場合の総和伝播アルゴリズムを図示している。これは、3つ以上の勾配推定量を勾配推定量の総和数よりも少ない数に結合すること、および結合した勾配推定量を後方に送ることを、簡単に一般化する。 FIG. 18 illustrates a summation propagation algorithm where gradient estimation is performed by combining likelihood ratios and reparameterized gradient estimators into a single gradient estimator. This easily generalizes combining three or more gradient estimators into less than the total number of gradient estimators and sending the combined gradient estimators backwards.

Claims (22)

計算グラフを含み、前記計算グラフ中の一の変数に対する他の変数の勾配を推定するコンピュータによる勾配推定方法であって、
前記計算グラフ中のいくつかのノードで、異なる勾配推定量を用いて同じ勾配の2つ以上の異なる推定を実行し、
初期の推定値の数よりも少なくなるように異なる推定値を結合し、
結合した推定値を前記計算グラフ中の異なるノードに受け渡
処理を前記コンピュータにより実行し、
勾配推定値は更なる計算に使用される、勾配推定方法。
A computer-based gradient estimation method comprising a calculation graph and estimating the slope of one variable with respect to another variable in the calculation graph, the method comprising:
performing two or more different estimates of the same gradient using different gradient estimators at some nodes in the computational graph;
Combine the different estimates so that the number is less than the initial estimate,
Pass the combined estimates to different nodes in the calculation graph
executing the process by the computer;
Gradient estimation method, where the gradient estimate is used for further calculations.
前記勾配の前記異なる推定値は、加重平均に基づいて結合され、前記加重平均の重みは、前記計算グラフ中のいくつかの変数に対する前記計算グラフ中の他のいくつかの変数の勾配推定の分散の明示的または暗示的な推定値に基づいて計算される、請求項1に記載の勾配推定方法。 The different estimates of the slope are combined based on a weighted average, the weight of the weighted average being the variance of the slope estimates of some variables in the computational graph versus some other variables in the computational graph. The gradient estimation method according to claim 1, wherein the gradient estimation method is calculated based on an explicit or implicit estimate of . 前記重みは、前記分散の逆数の大きさに比例して設定される、請求項2に記載の勾配推定方法。 3. The gradient estimation method according to claim 2, wherein the weight is set in proportion to the magnitude of the reciprocal of the variance. 前記勾配推定量は、尤度比および再パラメータ化勾配推定量である、請求項1から請求項3のいずれか一項に記載の勾配推定方法。 4. A gradient estimation method according to any one of claims 1 to 3, wherein the gradient estimator is a likelihood ratio and a reparameterized gradient estimator. 前記勾配は、前記計算グラフ中のパラメータの最適化に使用される、請求項1から4のいずれか一項に記載の勾配推定方法。 The gradient estimation method according to any one of claims 1 to 4, wherein the gradient is used for optimizing parameters in the calculation graph. 結合した推定値は、前記計算グラフ中の先行ノードに受け渡される、請求項1から請求項5のいずれか一項に記載の勾配推定方法。A gradient estimation method according to any one of claims 1 to 5, wherein the combined estimate is passed to a preceding node in the computational graph. 計算グラフを含み、前記計算グラフ中の変数に対するある変数の勾配を推定するコンピュータによる勾配推定方法であって、
前記計算グラフ中のいくつかのノードで、尤度比および再パラメータ化の方法の両方に対する目的関数の勾配を推定し、
両方の推定量を用いて前記計算グラフ中のパラメータを最適化する
処理を前記コンピュータにより実行する、勾配推定方法。
A computer-based gradient estimation method that includes a calculation graph and estimates the slope of a variable with respect to a variable in the calculation graph, the method comprising:
Estimate the gradient of the objective function for both the likelihood ratio and reparameterization methods at some nodes in the computational graph;
Optimize the parameters in the calculation graph using both estimators
A gradient estimation method , wherein processing is executed by the computer .
前記尤度比および再パラメータ化の勾配推定量は、加重平均に基づいて結合され、重みは、それぞれの勾配推定量の分散の逆数に比例する、請求項に記載の勾配推定方法。 8. The gradient estimation method of claim 7 , wherein the likelihood ratio and reparameterization gradient estimators are combined based on a weighted average, the weights being proportional to the inverse of the variance of the respective gradient estimators. 前記パラメータの最適化法は、勾配降下または上昇最適化法である、請求項5、7、8のいずれか一項に記載の勾配推定方法。9. The gradient estimation method according to claim 5, wherein the parameter optimization method is a gradient descent or ascent optimization method. 前記更なる計算は、いくつかの変数に対する他のいくつかの変数の更なる勾配推定である、請求項1から請求項のいずれか一項に記載の勾配推定方法。 7. A gradient estimation method according to any one of claims 1 to 6 , wherein the further calculation is a further gradient estimation of some variables with respect to some other variables. 前記勾配推定値の結合は、以前の最適化ステップによる勾配に基づいて決定される、請求項から請求項のいずれか一項に記載の勾配推定方法。 A gradient estimation method according to any one of claims 1 to 6 , wherein the combination of gradient estimates is determined based on gradients from previous optimization steps. 計算グラフを含み、前記計算グラフ中の一の変数に対する他の変数の勾配を推定するコンピュータによる勾配推定方法であって
記計算グラフ中のいくつかのノードで、前記ノードにおける確率密度のパラメトリック形式を仮定し、
前記計算グラフ中のサンプリングされた計算から前記確率密度のパラメータを推定し、
現在の変数に依存したノードの期待変数の勾配を推定する
処理を前記コンピュータにより実行し、
期待値は推定分布全体にわたって得られ、
更に、前記勾配を前記ノードにおけるいくつかの統計値と掛け合わせてスカラー変数を求め、
前記スカラー変数を用いて尤度比勾配推定量を求める
処理を前記コンピュータにより実行する、勾配推定方法。
A computer-based gradient estimation method comprising a calculation graph and estimating the slope of one variable with respect to another variable in the calculation graph ,
At some nodes in the computational graph, assume a parametric form of the probability density at the nodes;
estimating parameters of the probability density from sampled calculations in the calculation graph;
Estimate the gradient of a node's expected variable depending on the current variable
executing the process by the computer;
Expected values are obtained over the entire estimated distribution,
Further, multiplying the gradient by some statistical value at the node to obtain a scalar variable,
Find the likelihood ratio gradient estimator using the scalar variables
A gradient estimation method , wherein processing is executed by the computer .
確率分布の前記パラメトリック形式は、ガウス分布である、請求項12に記載の勾配推定方法。 13. A gradient estimation method according to claim 12 , wherein the parametric form of a probability distribution is a Gaussian distribution. 推定パラメトリック確率分布に対する前記勾配との掛け合わせに先立って尤度比勾配推定が実行されるように、前記勾配を前記統計値と掛け合わせることおよび前記尤度比勾配推定を求めることの順序が入れ替えられる、請求項12または請求項13に記載の勾配推定方法。 The order of multiplying the gradient by the statistic and determining the likelihood ratio gradient estimator is such that likelihood ratio gradient estimation is performed prior to multiplying the estimated parametric probability distribution by the gradient. The gradient estimation method according to claim 12 or claim 13 , wherein the gradient estimation method is replaced. 請求項1から11のいずれか一項に記載の勾配推定方法と、請求項1213または14に記載の勾配推定方法とを組み合わせて実行する、勾配推定方法。 A gradient estimation method, which is performed by combining the gradient estimation method according to any one of claims 1 to 11 and the gradient estimation method according to claim 12 , 13 , or 14 . 前記計算グラフは、ポリシー探索、強化学習、機械学習、またはニューラルネットワークの計算グラフに対応する、請求項1から請求項15のいずれか一項に記載の勾配推定方法。The gradient estimation method according to any one of claims 1 to 15, wherein the calculation graph corresponds to a calculation graph of policy search, reinforcement learning, machine learning, or neural network. 請求項1から16のいずれか一項に記載の勾配推定方法を実行する装置。 An apparatus for carrying out the gradient estimation method according to any one of claims 1 to 16. 請求項1から16のいずれか一項に記載の勾配推定方法を実行させるコンピュータプログラム。 A computer program for executing the gradient estimation method according to any one of claims 1 to 16. 強化学習におけるポリシー探索装置であって、
離散時間システムにおける状態を計算し、
ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
ポリシー探索装置。
A policy search device in reinforcement learning,
compute states in a discrete-time system,
In a gradient backpropagation step opposite to the direction in which state transitions occur according to the policy and dynamics, estimate the gradient of the average total reward with respect to the policy parameters by combining reparameterization and likelihood ratio methods,
updating the policy parameters according to the evaluation results;
Policy search device.
更に、前記ポリシーパラメータに対する目的の勾配の分散に基づいて、加重平均の重みを設定する、
請求項19に記載のポリシー探索装置。
further, setting weights for the weighted average based on the variance of the desired gradient for the policy parameters;
The policy search device according to claim 19 .
前記再パラメータ化法および前記尤度比法に従って勾配推定量に割り当てられる前記重みは、それぞれの勾配推定量の分散の逆数の大きさに比例して設定される、
請求項20に記載のポリシー探索装置。
the weights assigned to gradient estimators according to the reparameterization method and the likelihood ratio method are set proportional to the magnitude of the inverse of the variance of the respective gradient estimator;
The policy search device according to claim 20 .
コンピュータに、
離散時間システムにおける状態を計算し、
ポリシーおよびダイナミクスに従って状態遷移が発生する方向と反対の勾配逆伝播ステップにおいて、再パラメータ化法および尤度比法を組み合わせることにより、ポリシーパラメータに対する平均総報酬の勾配を推定し、
評価結果に従って、前記ポリシーパラメータを更新する、
処理をコンピュータに実行させるためのコンピュータプログラム。
to the computer,
compute states in a discrete-time system,
In a gradient backpropagation step opposite to the direction in which state transitions occur according to the policy and dynamics, estimate the gradient of the average total reward with respect to the policy parameters by combining reparameterization and likelihood ratio methods,
updating the policy parameters according to the evaluation results;
A computer program that causes a computer to perform a process.
JP2021518295A 2018-06-05 2019-06-05 Summative stochastic gradient estimation method, apparatus, and computer program Active JP7378836B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862680791P 2018-06-05 2018-06-05
US62/680,791 2018-06-05
US201862749908P 2018-10-24 2018-10-24
US62/749,908 2018-10-24
PCT/JP2019/022431 WO2019235551A1 (en) 2018-06-05 2019-06-05 Total stochastic gradient estimation method, device and computer program

Publications (2)

Publication Number Publication Date
JP2021527289A JP2021527289A (en) 2021-10-11
JP7378836B2 true JP7378836B2 (en) 2023-11-14

Family

ID=68770524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021518295A Active JP7378836B2 (en) 2018-06-05 2019-06-05 Summative stochastic gradient estimation method, apparatus, and computer program

Country Status (2)

Country Link
JP (1) JP7378836B2 (en)
WO (1) WO2019235551A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112688809B (en) * 2020-12-21 2023-10-03 声耕智能科技(西安)研究院有限公司 Diffusion self-adaptive network learning method, system, terminal and storage medium
CN113641905B (en) * 2021-08-16 2023-10-03 京东科技信息技术有限公司 Model training method, information pushing method, device, equipment and storage medium
CN115877868B (en) * 2022-12-01 2024-01-26 南京航空航天大学 Path planning method for resisting malicious interference of unmanned aerial vehicle in data collection of Internet of things

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124452A1 (en) 2015-10-28 2017-05-04 Google Inc. Processing computational graphs

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124452A1 (en) 2015-10-28 2017-05-04 Google Inc. Processing computational graphs

Also Published As

Publication number Publication date
WO2019235551A1 (en) 2019-12-12
JP2021527289A (en) 2021-10-11

Similar Documents

Publication Publication Date Title
Nagabandi et al. Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning
US11593611B2 (en) Neural network cooperation
US9047423B2 (en) Monte-Carlo planning using contextual information
US20190019082A1 (en) Cooperative neural network reinforcement learning
JP7378836B2 (en) Summative stochastic gradient estimation method, apparatus, and computer program
Pozna et al. New results in modelling derived from Bayesian filtering
Singh et al. Pi-lstm: Physics-infused long short-term memory network
US20180032868A1 (en) Early prediction of an intention of a user's actions
Hall et al. Modelling and control of nonlinear systems using Gaussian processes with partial model information
Andersen et al. Active exploration for learning symbolic representations
Pereira et al. A metamodel for estimating error bounds in real-time traffic prediction systems
Clay et al. Towards real-time crowd simulation under uncertainty using an agent-based model and an unscented kalman filter
Chen et al. Differentiable particle filters through conditional normalizing flow
Hu et al. Hidden behavior prediction of complex system based on time-delay belief rule base forecasting model
Langford et al. Learning nonlinear dynamic models
Sherri et al. A differential evolution Markov chain Monte Carlo algorithm for Bayesian model updating
Deveney et al. A deep surrogate approach to efficient Bayesian inversion in PDE and integral equation models
Zhang et al. An end-to-end inverse reinforcement learning by a boosting approach with relative entropy
US11636399B2 (en) Parameter estimation system, parameter estimation method, and parameter estimation program recording medium for estimating parameter and kernel functions by incorporating machine learning
US20210201138A1 (en) Learning device, information processing system, learning method, and learning program
Vergé et al. An island particle algorithm for rare event analysis
Bashiri et al. Distributionally robust imitation learning
Nayek et al. Identification of piecewise-linear mechanical oscillators via Bayesian model selection and parameter estimation
Costen et al. Planning with hidden parameter polynomial MDPs
Powell Approximate dynamic programming-II: algorithms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231025

R150 Certificate of patent or registration of utility model

Ref document number: 7378836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150