JP2018005739A - Method for learning reinforcement of neural network and reinforcement learning device - Google Patents
Method for learning reinforcement of neural network and reinforcement learning device Download PDFInfo
- Publication number
- JP2018005739A JP2018005739A JP2016134486A JP2016134486A JP2018005739A JP 2018005739 A JP2018005739 A JP 2018005739A JP 2016134486 A JP2016134486 A JP 2016134486A JP 2016134486 A JP2016134486 A JP 2016134486A JP 2018005739 A JP2018005739 A JP 2018005739A
- Authority
- JP
- Japan
- Prior art keywords
- experience data
- reinforcement learning
- experience
- action
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、制御対象の状態に応じて行動を決定するための最適方策を学習する学習器としてニューラルネットワークを用いる場合に、そのニューラルネットワークを強化学習するための強化学習方法及び強化学習装置に関する。 The present invention relates to a reinforcement learning method and reinforcement learning apparatus for reinforcement learning of a neural network when a neural network is used as a learning device for learning an optimal policy for determining an action according to a state of a control target.
例えば、非特許文献1には、多層構造のニューラルネットワークを、最適行動価値関数の関数近似器として用いた場合における、強化学習(reinforcement learning)の手法について記載されている。 For example, Non-Patent Document 1 describes a method of reinforcement learning when a neural network having a multilayer structure is used as a function approximator of an optimal action value function.
強化学習とは、ある環境中に置かれたエージェントが、環境との相互作用を通じて、最適な方策を得るための機械学習の手法をいう。具体的には、エージェントは、環境の現在の状態を観測し、方策に基づいて取るべき行動を決定する。エージェントが決定した行動により、環境の状態が変化する。環境の状態がどのように変化したかに応じて報酬が定まる。強化学習では、一連の行動を通じて、報酬が最も多く得られるような行動を決定するようにエージェントの方策を学習する。この強化学習の代表的な手法としてTD学習やQ学習が知られている。 Reinforcement learning is a machine learning technique that enables an agent placed in a certain environment to obtain an optimal policy through interaction with the environment. Specifically, the agent observes the current state of the environment and determines an action to be taken based on the policy. The state of the environment changes according to the action determined by the agent. Rewards are determined according to how the state of the environment has changed. In reinforcement learning, an agent's policy is learned so as to determine an action that can obtain the most reward through a series of actions. TD learning and Q learning are known as typical methods of reinforcement learning.
非特許文献1では、Q学習に基づく手法によって強化学習を行っている。Q学習に基づく手法では、行動価値関数と呼ばれる関数を近似することで最適方策を学習する。換言すると、将来に渡る累積的な報酬の和を最大化させる行動価値関数の近似関数を、最適方策として学習する。非特許文献1では、この最適方策の学習器として、多層構造のニューラルネットワークを用いている。 In Non-Patent Document 1, reinforcement learning is performed by a method based on Q-learning. In the method based on Q-learning, an optimal policy is learned by approximating a function called an action value function. In other words, an approximate function of an action value function that maximizes the sum of cumulative rewards in the future is learned as an optimal policy. In Non-Patent Document 1, a multi-layered neural network is used as a learning device for this optimal policy.
非特許文献1における、多層構造のニューラルネットワークの強化学習の手法について簡単に説明すると、まず、上述した環境の状態、その状態に対する行動、行動により得られる報酬、及び行動により遷移した環境の状態を収集し、それらを経験データとして所定のメモリに保存する。強化学習では、そのメモリから経験データをサンプリングして、以下の数式1により教師信号を作成する。
数式1において、rは報酬を示し、γは割引率と呼ばれる強化学習のパラメータ(0<γ<1)を示し、Qθ(s,a)はニューラルネットワークのパラメータθを用いて表された行動価値関数の近似関数を示し、s’は状態sで行動aを取った場合の次の状態を示し、a’は次の状態s’で取るべき次の行動を示す。 In Equation 1, r represents a reward, γ represents a parameter of reinforcement learning called a discount rate (0 <γ <1), and Q θ (s, a) is an action expressed using the parameter θ of the neural network. An approximate function of the value function is shown, s ′ represents the next state when the action a is taken in the state s, and a ′ represents the next action to be taken in the next state s ′.
この教師信号targetを用いることで、誤差関数は、以下の数式2のように定めることができる。
そして、ニューラルネットワークに対して誤差逆伝播法を適用して、各ニューロンの重みを更新する。その結果、上記誤差関数Lθ(s,a)が十分に小さくなったと判定されると、学習は終了する。 Then, the back propagation method is applied to the neural network to update the weight of each neuron. As a result, when it is determined that the error function L θ (s, a) has become sufficiently small, the learning ends.
ここで、強化学習により、ある種の経験データに過剰に適合するようにニューラルネットワークの学習が行われてしまうと、ニューラルネットワークは新たなデータに対してうまく適応することができなくなるという問題がある。つまり、学習に用いられた経験データとは傾向の異なるデータに対して、ニューラルネットワークは、最大の報酬を得るための行動を決定することができないといった問題が生じる。このような過剰適合が発生する原因の一つとして、連続的に観測される経験データの相関性が挙げられる。連続的に観測される経験データは、通常、大きく変化することはなく、ある相関性を有している。そのため、これら相関性を持つ経験データを用いて強化学習を行った場合、その相関性により学習結果がバイアスを受けることになる。 Here, there is a problem that if the neural network is learned so as to be excessively adapted to certain kinds of experience data by reinforcement learning, the neural network cannot be adapted well to new data. . That is, there is a problem that the neural network cannot determine an action for obtaining the maximum reward for data having a tendency different from that of the experience data used for learning. One of the causes of such overfitting is the correlation of continuously observed experience data. Continuously observed empirical data usually does not change significantly and has a certain correlation. Therefore, when reinforcement learning is performed using experience data having such correlation, the learning result is biased by the correlation.
このような問題に対処するために、非特許文献1では、「Experience Replay(経験再生)」という手法を用いている。「Experience Replay」とは、エージェントが経験した様々な状況における経験データをメモリに記憶しておき、強化学習の際には、そのメモリから、ランダムに経験データをサンプリングするものである。これにより、経験データの相関性が低減され、学習結果がバイアスを受けることを抑制することができる。 In order to deal with such a problem, Non-Patent Document 1 uses a technique called “Experience Replay”. “Experience Replay” stores experience data in various situations experienced by an agent in a memory, and randomly samples the experience data from the memory during reinforcement learning. Thereby, the correlation of experience data is reduced and it can suppress that a learning result receives a bias.
上述したように、「Experience Replay」を実行するためには、エージェントが経験した経験データをメモリに保存しておく必要がある。しかし、メモリは、無限に経験データを保存できるわけではなく、経験データの保存量がメモリの記憶容量の上限値に達すると、いずれかの経験データを削除する必要が生じる。この際、一般的には、「First In First Out(FIFO)」方式により、最も古い経験データが削除される。 As described above, in order to execute “Experience Replay”, it is necessary to store the experience data experienced by the agent in a memory. However, the memory cannot store the experience data indefinitely. When the storage amount of the experience data reaches the upper limit value of the storage capacity of the memory, it is necessary to delete any experience data. At this time, the oldest experience data is generally deleted by the “First In First Out (FIFO)” method.
しかしながら、FIFO方式で経験データを削除すると、学習が進むにつれて、エージェントが直面する状況のバリエーションが減少するため、類似性の低い経験データが削除される一方で、類似性の高い経験データが新たに保存される可能性が高くなる。その結果、メモリに保存される経験データ全体として、類似性の高い経験データの比率が高まることになる。このため、「Experience Reply」を実行しても、学習のための経験データとして、類似性が高い経験データがサンプリングされる可能性が高くなるので、ニューラルネットワークは、その類似性の高い経験データに過剰適合してしまう傾向が生じる。 However, when the experience data is deleted by the FIFO method, as the learning progresses, the variation of the situation faced by the agent decreases. Therefore, the experience data with low similarity is deleted while the experience data with high similarity is newly added. The possibility of being preserved increases. As a result, the ratio of highly similar experience data increases as the entire experience data stored in the memory. For this reason, even if “Experience Reply” is executed, there is a high possibility that experience data with high similarity will be sampled as experience data for learning. There is a tendency to overfit.
本発明は、上述した点に鑑みてなされたもので、ニューラルネットワークを強化学習する際に、ニューラルネットワークの過剰適合を効果的に防止することが可能なニューラルネットワークの強化学習方法及び強化学習装置を提供することを目的とする。 The present invention has been made in view of the above-described points, and provides a reinforcement learning method and reinforcement learning device for a neural network that can effectively prevent excessive adaptation of the neural network when performing reinforcement learning on the neural network. The purpose is to provide.
上記目的を達成するために、本発明によるニューラルネットワーク(12)の強化学習方法は、制御対象の状態に応じて行動を決定するための最適方策を学習する学習器としてニューラルネットワーク(12)を用いる場合において、ニューラルネットワーク(12)を強化学習するものであって、
コンピュータ(10)が、制御対象の状態、制御対象に対する行動、その行動により得られる報酬、及びその行動によって遷移した制御対象の状態を含む経験データを収集して、有限の記憶容量を持つ経験データ記憶部(13)に記憶させ、
コンピュータ(10)が、経験データ記憶部(13)に記憶されたそれぞれの経験データに関して、他の経験データとどの程度異なっているかを示すユニークネスパラメータを算出し、
コンピュータ(10)が、算出したユニークネスパラメータに基づいて、他の経験データと類似している経験データを経験データ記憶部(13)から削除し、
コンピュータ(10)が、経験データ記憶部(13)に記憶されている経験データを用いて、ニューラルネットワーク(12)の強化学習を行う。
In order to achieve the above object, the reinforcement learning method of the neural network (12) according to the present invention uses the neural network (12) as a learning device for learning an optimal policy for determining an action according to the state of the controlled object. In some cases, reinforcement learning of the neural network (12),
The computer (10) collects experience data including the state of the controlled object, the action for the controlled object, the reward obtained by the action, and the state of the controlled object changed by the action, and the experience data having a finite storage capacity Store in the storage unit (13),
The computer (10) calculates a uniqueness parameter indicating how different each experience data stored in the experience data storage unit (13) from other experience data,
Based on the calculated uniqueness parameter, the computer (10) deletes experience data similar to other experience data from the experience data storage unit (13),
The computer (10) performs reinforcement learning of the neural network (12) using the experience data stored in the experience data storage unit (13).
また、本発明によるニューラルネットワーク(12)の強化学習装置は、
制御対象の状態、制御対象に対する行動、その行動により得られる報酬、及びその行動によって遷移した制御対象の状態を含む経験データが収集されるごとに、その経験データを記憶する、有限の記憶容量を持つ経験データ記憶部(13)と、
経験データ記憶部に記憶されたそれぞれの経験データに関して、他の経験データとどの程度異なっているかを示すユニークネスパラメータを算出する算出部(S200)と、
算出部が算出したユニークネスパラメータに基づいて、他の経験データと類似している経験データを経験データ記憶部から削除する削除部(S210)と、
経験データ記憶部に記憶されている経験データを用いて、ニューラルネットワークの強化学習を行う強化学習部(11)と、を備える。
Further, the reinforcement learning device of the neural network (12) according to the present invention is:
Each time empirical data is collected that includes the state of the controlled object, the action for the controlled object, the reward obtained by the action, and the state of the controlled object that has been transitioned by the action, a finite storage capacity is stored to store the experience data. Having an experience data storage unit (13);
For each experience data stored in the experience data storage unit, a calculation unit (S200) that calculates a uniqueness parameter indicating how different from other experience data;
A deletion unit (S210) that deletes experience data similar to other experience data from the experience data storage unit based on the uniqueness parameter calculated by the calculation unit;
A reinforcement learning unit (11) that performs reinforcement learning of the neural network using the experience data stored in the experience data storage unit.
上述したように、本発明によるニューラルネットワークの強化学習方法及び強化学習装置では、経験データ記憶部に記憶されたそれぞれの経験データに関して、他の経験データとどの程度異なっているかを示すユニークネスパラメータを算出する。そして、算出したユニークネスパラメータに基づいて、他の経験データと類似している経験データを経験データ記憶部から削除する。これにより、経験データ記憶部に記憶される経験データが、類似性の高い経験データに偏ることを防ぐことができる。換言すれば、経験データ記憶部には、他の経験データとの類似性が低い、すなわち独自性の高い経験データが削除されずに残される。そのため、経験データ記憶部に記憶されている経験データを、経験データの要素を軸とする空間にプロットした場合、経験データは広い範囲に分布するとともに、分布密度に極端な差が生じることも抑制される。従って、このような広く分布した経験データを用いてニューラルネットワークの強化学習を行うことにより、ニューラルネットワークの過剰適合を効果的に防止することができる。 As described above, in the neural network reinforcement learning method and reinforcement learning apparatus according to the present invention, the uniqueness parameter indicating how different each experience data stored in the experience data storage unit is from other experience data. calculate. Based on the calculated uniqueness parameter, experience data similar to other experience data is deleted from the experience data storage unit. Thereby, it is possible to prevent the experience data stored in the experience data storage unit from being biased toward highly similar experience data. In other words, experience data having a low similarity with other experience data, that is, highly unique experience data is left in the experience data storage unit without being deleted. Therefore, when the experience data stored in the experience data storage unit is plotted in a space centered on the elements of the experience data, the experience data is distributed over a wide range and the occurrence of extreme differences in distribution density is also suppressed. Is done. Therefore, by performing reinforcement learning of the neural network using such widely distributed experience data, it is possible to effectively prevent overfitting of the neural network.
上記括弧内の参照番号は、本発明の理解を容易にすべく、後述する実施形態における具体的な構成との対応関係の一例を示すものにすぎず、なんら本発明の範囲を制限することを意図したものではない。 The reference numerals in the parentheses merely show an example of a correspondence relationship with a specific configuration in an embodiment described later in order to facilitate understanding of the present invention, and are intended to limit the scope of the present invention. Not intended.
また、上述した特徴以外の、特許請求の範囲の各請求項に記載した技術的特徴に関しては、後述する実施形態の説明及び添付図面から明らかになる。 Further, the technical features described in the claims of the claims other than the features described above will become apparent from the description of embodiments and the accompanying drawings described later.
以下、本発明の実施形態によるニューラルネットワークの強化学習方法及び学習装置について図面を参照しつつ詳細に説明する。図1は、本実施形態に係るニューラルネットワークの強化学習装置の構成を概念的に示した図である。本実施形態では、ニューラルネットワークの強化学習装置は、ニューラルネットワークの学習機能を備えたアプリケーションをコンピュータ10において実行することで具現化される。図1には、アプリケーションの実行により、コンピュータによって実現される各種の機能をブロックとして示している。
A neural network reinforcement learning method and learning device according to an embodiment of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a diagram conceptually illustrating the configuration of a reinforcement learning device for a neural network according to the present embodiment. In the present embodiment, a reinforcement learning device for a neural network is implemented by executing an application having a learning function for a neural network on the
図1に示すように、ニューラルネットワークの強化学習装置は、エージェント11と環境14とを備えている。
As shown in FIG. 1, the neural network reinforcement learning apparatus includes an
エージェント11は、学習器としての多層構造のニューラルネットワーク(Deep Neural Network :DNN)12と、経験データ記憶部13とを備えている。エージェント11は、強化学習のために経験データを収集して、経験データ記憶部13に記憶させる。
The
経験データの収集において、エージェント11は、ある時点tにおける、制御対象としての環境14の状態stを観測し、その状態stに基づいて行動atを選択する。この際、多様な状態sと行動aとの組が選択されるように、状態sに基づく行動aは、ある比率で、ε-greedy法やボルツマン選択法などの行動選択方法を用いて選択される。例えば、学習を開始した直後は、95%の比率で、上述した行動選択方法によって行動aを決定し、残りの5%の比率で、DNN12がその時点で保有している方策に従って行動aを決定する。なお、DNN12は、状態sを入力すると、保有している方策に基づいて、状態sに対して最も適した行動aに関して最も高い評価値を出力するように構成されている。
In the collection of empirical data,
そして、エージェント11は、強化学習が進むにつれて、徐々に、上述した行動選択方法によって行動aを決定する比率を低下させ、DNN12の方策によって行動aを選択する比率を高める。例えば、学習が行われるごとに、99%の比率で行動選択法による行動選択の比率を低下させる。そして、行動選択法による行動選択比率が所定の最小比率(例えば、5%)に達すると、それ以上の低下を中止する。
Then, as reinforcement learning proceeds, the
エージェント11は、ある時点tの状態stに応じて選択した行動atを環境14に与える。環境14は、現時点の状態st及び選択される行動atによって,次に遷移する状態st+1を決定する。例えば、環境14は、現時点の状態stと行動atにより、次の状態st+1に遷移する確率と、現時点の状態stから次の状態st+1に遷移した際の報酬r(の期待値)を算出する。環境14は、最も遷移確率の高い次の状態st+1と、そのときに期待される報酬rとをエージェント11に与える。
エージェント11は、環境14から次の状態st+1と報酬rを受け取ると、現時点の状態st及び行動atとセットにして経験データを作成し、経験データ記憶部13に保存する。すなわち、各経験データeiは、現時点の状態st、行動at、報酬rt、次の状態st+1を含み、ei=(st、at、rt、st+1)である。
エージェント11は、経験データ記憶部13に経験データeiが蓄積されると、経験データ記憶部13から所定数の経験データをランダムにサンプリングして、強化学習を実行する。この強化学習には、従来と同様に、TD学習やQ学習など公知の手法が適用される。そして、これらTD学習やQ学習の手法により、サンプリングした経験データを用いて、誤差関数を定め、DNN12に対して誤差逆伝播法を適用して、各ニューロンの重みを更新することで、DNN12の強化学習を行う。
When the experience data e i is accumulated in the experience
ここで、本実施形態においても、DNN12の強化学習のために、経験データ記憶部13からランダムに経験データをサンプリングしており、従来の「Experience Replay(経験再生)」を採用している。これにより、ある程度、経験データの相関性が低減され、学習結果がバイアスを受けることを抑制することができる。
Here, also in the present embodiment, experience data is randomly sampled from the experience
しかし、経験データ記憶部13の記憶容量は有限である。従って、経験データの保存量が経験データ記憶部13の記憶容量の上限値に達したとき、新たな経験データを保存するためには、すでに保存されている経験データを削除する必要がある。この場合に、いわゆるFIFO方式で経験データを削除すると、学習が進むにつれて、エージェント11が直面する状況のバリエーションが減少するため、類似性の低い経験データが削除される一方で、類似性の高い経験データばかりが新たに保存される可能性が高くなる。その結果、経験データ記憶部13に保存される経験データ全体として、類似性の高い経験データの比率が高まることになる。このため、「Experience Reply」を実行しても、ニューラルネットワークは、その類似性の高い経験データに過剰適合してしまう傾向が生じる。
However, the storage capacity of the experience
そのため、本実施形態に係るニューラルネットワークの強化学習装置では、図1に示すように、単純なFIFO方式ではなく、各経験データの他の経験データとの非類似性を評価し、その非類似性に基づいて、経験データを選別して削除するデータ削除部15を設けた。より具体的には、データ削除部15は、他の経験データと非類似性の低い(すなわち、他の経験データと近似している)経験データを削除する一方で、非類似性の高い(すなわち、独自性の高い)経験データを残す。
Therefore, in the reinforcement learning apparatus of the neural network according to the present embodiment, as shown in FIG. 1, the dissimilarity between each experience data and other experience data is evaluated instead of a simple FIFO method, and the dissimilarity is evaluated. Based on the above, a
これにより、経験データ記憶部13に保存される経験データが、類似性の高い経験データに偏ることを防ぐことができる。換言すれば、経験データ記憶部13には、他の経験データとの類似性が低い、すなわち独自性の高い経験データが削除されずに残される。そのため、経験データ記憶部13に記憶されている経験データを、経験データの要素を軸とする多次元空間にプロットした場合、経験データは広い範囲に分布するとともに、分布密度に極端な差が生じることも抑制される。従って、このような広く分布した経験データを用いてDNN12の強化学習を行うことにより、DNN12の過剰適合を効果的に防止することができる。
Thereby, it is possible to prevent the experience data stored in the experience
以下、本実施形態に係るニューラルネットワークの強化学習装置における、経験データの保存及び削除方法について、図2,図3のフローチャートを参照して詳しく説明する。図2のフローチャートは、エージェント11が、経験データを収集して経験データ記憶部13に保存するための処理を示している。また、図3のフローチャートは、経験データ記憶部13が満杯になった場合に、データ削除部15によって実行されるデータ削除処理を示している。
Hereinafter, a method for storing and deleting experience data in the reinforcement learning apparatus for a neural network according to the present embodiment will be described in detail with reference to the flowcharts of FIGS. The flowchart of FIG. 2 shows a process for the
まず、経験データの保存処理について、図2のフローチャートを参照して説明する。図2のフローチャートのステップS100では、エージェント11が、観測された状態sに対する行動aを選択して、環境14に与える。続くステップS110では、エージェント11は、環境14から次の状態st+1と報酬rを受け取って、現時点の状態st及び行動atとセットにする。これにより、経験データが収集される。
First, the experience data storage process will be described with reference to the flowchart of FIG. In step S100 of the flowchart of FIG. 2, the
次に、ステップS120において、経験データの保存量が、経験データ記憶部13の記憶容量の上限に達しており、経験データ記憶部13が満杯になっているか否かを判定する。このステップS120の判定処理において、経験データ記憶部13が満杯になっていると判定すると、ステップS130の処理に進む。ステップS130では、データ削除部15による経験データの削除処理が実行される。この経験データ削除処理については、後述する。
Next, in step S120, it is determined whether the storage amount of the experience data has reached the upper limit of the storage capacity of the experience
そして、ステップS130のデータ削除処理によって経験データが削除され、経験データ記憶部13に新たな経験データを保存するための空き容量が確保されると、ステップS140の処理が実行される。ステップS140では、収集された経験データを経験データ記憶部13に保存する。一方、ステップS120の判定処理において、経験データ記憶部13は満杯にはなっていないと判定すると、直接、ステップS140の処理に進んで、エージェント11は、収集された経験データを経験データ記憶部13に保存する。
Then, when the experience data is deleted by the data deletion process of step S130 and a free space for storing new experience data is secured in the experience
そして、エージェント11は、経験データ記憶部13に保存されている経験データを用いてDNN12の強化学習を行う。この強化学習は、例えば、所定数の経験データが経験データ記憶部13に保存されたとき、制御対象(環境14)に対する制御の終了条件が決められている場合に、制御開始から制御終了までを1エピソードとし、所定回数のエピソードが完了したとき、あるいは、前回の強化学習から所定の時間が経過したときなど、所定のタイミングで繰り返し行われる。
Then, the
次に、経験データの削除処理について、図3のフローチャートを参照して説明する。図3のフローチャートのステップS200では、データ削除部15が、各経験データの他の経験データとの非類似性を評価するためのユニークネスパラメータを、各経験データについて算出する。
Next, the experience data deletion process will be described with reference to the flowchart of FIG. In step S200 of the flowchart of FIG. 3, the
例えば、図4に示すように、経験データの各要素を軸とする多次元空間に各経験データをプロットした場合に、ある経験データxからユークリッド距離kの範囲に属する経験データの数の逆数をユニークネスパラメータuとして定義することができる。これは、ある経験データxからユークリッド距離kの範囲に属する経験データの数が多くなるほど、その経験データxは他の経験データと類似性が高いデータとみなすことができるためである。 For example, as shown in FIG. 4, when each experience data is plotted in a multi-dimensional space with each element of the experience data as an axis, the reciprocal of the number of experience data belonging to the range of the Euclidean distance k from a certain experience data x is obtained. It can be defined as a uniqueness parameter u. This is because as the number of experience data belonging to the range of the Euclidean distance k from a certain experience data x increases, the experience data x can be regarded as data having higher similarity to other experience data.
このようにユニークネスパラメータuを定義することにより、周囲の経験データの数が多くなるほど低い値がuとして算出され、逆に、周囲の経験データの数が少なくなるほど高い値がuとして算出されるようになる。なお、周囲の経験データの数がゼロである場合には、所定の最大値がuとして算出されるように定めておけば良い。 By defining the uniqueness parameter u in this way, a lower value is calculated as u as the number of surrounding experience data increases, and conversely, a higher value is calculated as u as the number of surrounding experience data decreases. It becomes like this. Note that when the number of surrounding experience data is zero, it may be determined that a predetermined maximum value is calculated as u.
経験データ同士の類似度を図るための距離としては、上述したユークリッド距離に限らず、他の公知の距離(例えば、マハラノビス距離など)を用いるようにしても良い。さらに、各経験データをベクトルとして捉え、コサイン類似度などを用いてベクトルとしての類似性を評価するようにしても良い。例えば、ある経験データのベクトルに対して所定以上の類似度のベクトルを持つ経験データの数の逆数をユニークネスパラメータとして定義するようにしても良い。 The distance for obtaining the similarity between the experience data is not limited to the above-mentioned Euclidean distance, and other known distances (for example, Mahalanobis distance) may be used. Furthermore, each experience data may be regarded as a vector, and the similarity as a vector may be evaluated using a cosine similarity or the like. For example, the reciprocal of the number of experience data having a predetermined similarity vector or more with respect to a certain experience data vector may be defined as the uniqueness parameter.
また、各経験データのユニークネスパラメータを算出する場合、必ずしも、経験データに含まれるすべての要素を用いなくとも良い。具体的には、経験データに含まれる要素(現時点の状態st、行動at、報酬rt、次の状態st+1)の内、次の状態st+1を除く3つの要素からユニークネスパラメータを算出するようにしても良い。これは、次の状態st+1は現時点の状態stとの相関性が高く、両方の要素を用いても、情報が冗長的になるだけであるためである。 Further, when calculating the uniqueness parameter of each experience data, it is not always necessary to use all elements included in the experience data. Specifically, among the elements included in the experience data (current state s t , action a t , reward r t , next state s t + 1 ), the uniqueness parameter is obtained from three elements excluding the next state s t + 1. It may be calculated. This is because the next state s t + 1 is highly correlated with the current state s t, and even if both elements are used, the information is only redundant.
さらに、経験データに含まれる、状態sと行動aとの少なくとも一方が高次元データからなる場合、その高次元データを低次元化した後に、それぞれの経験データのユニークネスパラメータを算出するようにしても良い。例えば、状態sが画像として保存されている場合、オートエンコーダーなどの次元圧縮アルゴリズムを用いて低次元化された特徴量を抽出し、その抽出した特徴量からユニークネスパラメータを算出するようにしても良い。これにより、ユニークネスパラメータを算出するための計算負荷を低減することができる。なお、次元圧縮アルゴリズムとしては、主成分分析などを用いても良い。 Furthermore, when at least one of the state s and the action a included in the experience data is composed of high-dimensional data, the uniqueness parameter of each experience data is calculated after reducing the high-dimensional data. Also good. For example, when the state s is stored as an image, a reduced feature quantity is extracted using a dimension compression algorithm such as an auto encoder, and a uniqueness parameter is calculated from the extracted feature quantity. good. Thereby, the calculation load for calculating the uniqueness parameter can be reduced. Note that principal component analysis or the like may be used as the dimension compression algorithm.
図3のフローチャートのステップS210では、低いユニークネスパラメータuを持つ経験データを経験データ記憶部13から削除する。この際、最も低いユニークネスパラメータuを持つ1つの経験データを削除しても良いが、そうすると、新たな経験データが収集されるごとに、経験データ記憶部13に保存されている各経験データに関してユニークネスパラメータuを算出しなければならなくなり、計算負荷が増大してしまう。そのため、本実施形態では、所定の削除基準値以下のユニークネスパラメータuを持つ複数の経験データをまとめて削除する。これにより、ユニークネスパラメータuの算出頻度を低減することができ、ユニークネスパラメータuを算出することによる計算負荷の増加を抑制することが可能になる。
In step S210 of the flowchart of FIG. 3, experience data having a low uniqueness parameter u is deleted from the experience
また、経験データの削除に関しては、ユニークネスパラメータuを、直接、削除基準値と比較して、削除基準値以下のユニークネスパラメータuを持つ経験データを決定論的に削除しても良いが、ユニークネスパラメータuを元に経験データを削除する確率を算出することで、削除すべき経験データを確率論的に選択するようにしても良い。例えば、下記の数式3に示すように、経験データ毎のユニークネスパラメータuを、全経験データのユニークネスパラメータを用いて正規化することで削除確率Pを定義し、その削除確率Pに従って、削除すべき経験データを決定するようにしても良い。具体的な実装方法としては、例えば0〜1の一様乱数値を発生させる乱数発生器を用意し、この乱数発生器が生成した乱数値と削除確率Pと比較して、乱数値の方が削除確率Pよりも小さい場合に経験データを削除する方法が考えられる。
確率論的に削除する経験データを決定することで、例えば、経験記憶部に保持されている経験データが密集している場合に、密集部のデータを間引く効果が期待される。ユニークネスパラメータuそのものを削除基準値と比較して、その削除基準値以下のユニークネスパラメータuを持つ複数の経験データをまとめて削除する場合、経験データの密集度によっては、密集している経験データの大部分が削除されてしまう可能性がある。それに対して、上述した確率的手法を用いることにより、経験データが密集している場合であっても、まばらに経験データを削除することが可能になる。 By determining the experience data to be deleted probabilistically, for example, when the experience data held in the experience storage unit is dense, an effect of thinning out the data in the dense part is expected. When the uniqueness parameter u itself is compared with the deletion reference value and a plurality of pieces of experience data having the uniqueness parameter u equal to or less than the deletion reference value are deleted at once, depending on the density of the experience data, the dense experience Most of the data can be deleted. On the other hand, by using the probabilistic method described above, it is possible to sparsely delete the experience data even when the experience data is dense.
次に、上述したデータ削除処理が、経験データ記憶部13に保存される経験データに対してどのような影響を及ぼすのか、また、その結果、学習の安定性にどの程度寄与するのかについて、本実施形態によるデータ削除処理により経験データを削除したケースと、FIFO方式で経験データを削除したケースとを対比しつつ説明する。
Next, the effect of the above-described data deletion process on the experience data stored in the experience
なお、対比するケースでは、エージェント11は、自動車を制御対象とし、その自動車を直線道路の中心線に沿って走行させるようにDNN12を学習させるものとした。エージェント11は、状態sとして、車両の中心位置と道路の中心線との横方向距離lC、及び道路の中心線の方向に対する車両の進行方向OCを用い、行動aとしては、直進、右操舵、左操舵の3種類の行動からいずれかを選択するものとした。
Note that, in the case of comparison, the
車両の走行開始地点から車両の制御を開始し、所定の終了条件が成立して車両の走行を停止するまでを1エピソードと定義した。終了条件は、車両が所定距離離れたゴールに到達する、車両の中心位置が道路の中心線から所定距離以上離れる(道路から逸脱する)、もしくは、所定の時間が経過するとの3条件とした。報酬関数riは以下の数式4のように定義した。
数式4において、wl、wo、woffroadは、車両の横方向距離lC、車両の進行方向OC、及び道路逸脱に対するマイナスの報酬(罰則)を与えるための重み要素である。 In Equation 4, w l , w o , and w offload are weighting elements for giving a negative reward (penalty) for the lateral distance l C of the vehicle, the traveling direction O C of the vehicle, and the road deviation.
DNN12は、4相構造を持ち、入力相である第1相のニューロン数が2、第2相のニューロン数が50、第3相のニューロン数が20、出力相である第4相のニューロン数が3である。DNN12の全ての重みは、−0.05〜0.05の範囲で均等に分散するようにランダムに初期化した。学習率は、初期値が0.001であり、1回の学習当り割引率99%で0.00003まで徐々に低減されるものとした。
The
上述した条件の下で、FIFO方式でデータ削除を行った場合と、本実施形態によるデータ削除処理によってデータ削除を行った場合の、経験データの分散の様子を図5及び図6に示す。なお、図5及び図6において、経験データは、主成分分析により2次元に次元圧縮されている。 FIG. 5 and FIG. 6 show how experience data is distributed when data is deleted by the FIFO method under the above-described conditions and when data is deleted by the data deletion processing according to the present embodiment. In FIG. 5 and FIG. 6, the empirical data is two-dimensionally compressed by principal component analysis.
図5(a)は、FIFO方式において、経験データ記憶部13がほぼ満杯となったとき、すなわち、まだデータの削除を行っていないときの、経験データの分散の様子を示す。また、図6(a)は、本実施形態において、同様に、経験データ記憶部13がほぼ満杯となったときの経験データの分散の様子を示す。図5(a)及び図6(a)とも、上述した行動選択法によって多様な状態sと行動aとの組が選択されるので、初期段階では、ほぼ同様に経験データが広く分散していることが分かる。
FIG. 5A shows how the experience data is distributed when the experience
一方、図5(b)は、FIFO方式により経験データの削除を行いつつ、エピソードを7000回繰り返した後に、経験データ記憶部13に保存されている経験データの分散の様子を示している。また、図6(b)は、本実施形態によるデータ削除処理によってデータ削除を行いつつ、エピソードを7000回繰り返した後に、経験データ記憶部13に保存されている経験データの分散の様子を示している。
On the other hand, FIG. 5B shows how the experience data stored in the experience
図5(a)では、経験データが中央付近に密集しており、その周辺の経験データはまばらになっていることが確認できる。これは、新しい経験データが保存されるごとに古い経験データが削除される場合、学習が進むにつれて、類似の状態sに対しては類似の行動aを選択する傾向が強まるためであると推測される。それに対し、本実施形態によるデータ削除処理によってデータ削除を行った場合には、図6(a)に示す初期段階から大きく変化することなく、経験データが広い範囲に分布した状態を維持していることが確認できる。これは、上述したように、本実施形態では、経験データ削除処理において、類似している経験データを削除し、独自性の高い経験データを残すようにしているためである。 In FIG. 5A, it can be confirmed that the experience data is concentrated near the center, and the experience data around the center is sparse. This is presumed to be because when old experience data is deleted each time new experience data is saved, the tendency to select a similar action a for a similar state s increases as learning progresses. The On the other hand, when data deletion is performed by the data deletion processing according to the present embodiment, the state in which the experience data is distributed over a wide range is maintained without largely changing from the initial stage shown in FIG. I can confirm that. This is because, as described above, in the present embodiment, in the experience data deletion process, similar experience data is deleted to leave highly unique experience data.
次に、FIFO方式でデータ削除を行いつつ、所定の学習実行条件が成立したときに、経験データ記憶部13に保存されている経験データを用いてDNN12の強化学習を繰り返した場合に、5回のエピソードが完了するごとに、それらエピソードの実行中に得られた報酬rの累積値をカウントした結果を図7に示す。同様に、本実施形態によるデータ削除処理によりデータ削除を行いつつ、所定の学習実行条件が成立したときに、経験データ記憶部13に保存されている経験データを用いてDNN12の強化学習を繰り返した場合に、5回のエピソードが完了するごとに、それらエピソードの実行中に得られた報酬rの累積値をカウントした結果を図8に示す。
Next, when the reinforcement learning of the
図7から、FIFO方式で経験データを削除すると、学習回数が多くなっても、報酬の累積値の変動が収まらず、常に安定した報酬を得られるような学習ができていないことが確認できる。それに対し、本実施形態によるデータ削除処理によって経験データを削除した場合、学習が進展するにつれて、報酬rの累積値の変動が明らかに小さくなっていることが確認できる。これは、上述したように、経験データ記憶部13に保存される経験データに関して、広い範囲に分布した状態を維持することができ、換言すれば、経験データ記憶部13に多様な経験データが保存されているためである。この結果、経験データを用いた学習によって、類似性の高いデータに対しての過剰適合を抑制することができ、入力される状態sがレアなものであっても、良い報酬rが得られる行動aを選択することが可能になる。
From FIG. 7, when the experience data is deleted by the FIFO method, it can be confirmed that even if the number of times of learning increases, the fluctuation of the accumulated value of the reward does not stop, and learning that always obtains a stable reward cannot be performed. On the other hand, when the experience data is deleted by the data deletion process according to the present embodiment, it can be confirmed that the fluctuation of the accumulated value of the reward r is clearly reduced as learning progresses. As described above, the experience data stored in the experience
以上、本発明の好ましい実施形態について説明したが、本発明は、なんら上述した実施形態に制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形して実施することが可能である。 The preferred embodiments of the present invention have been described above. However, the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the spirit of the present invention. .
例えば、上述した実施形態では、エージェント11が1つのDNN12を有する例について説明したが、例えば、エージェント11は、Actorとして用いられるニューラルネットワークと、Criticとして用いられるニューラルネットワークとを別個に備えるものであっても良い。
For example, in the above-described embodiment, the example in which the
また、上述した実施形態では、エージェント11が、制御対象としての自動車を道路の中心線に沿って走行させることを学習させる例について説明した。しかしながら、例えば障害物を避けつつ自動車を自動運転させるような、より複雑な制御の学習を行っても良いし、制御対象も自動車に限られず、画像(の認識)、音声(の認識)、ロボットなど、入ラルネットワークによって制御したり、処理したりすることができる対象であれば良い。
Further, in the above-described embodiment, the example in which the
さらに、上述した実施形態では、1つのコンピュータが、エージェント11、環境14、データ削除部15などの機能を実現する例について説明したが、それぞれの機能を複数のコンピュータによって実現するように構成しても良い。
Furthermore, in the above-described embodiment, an example in which one computer realizes the functions of the
10 コンピュータ
11 エージェント
12 Deep Neural Network
13 経験データ記憶部
14 環境
15 データ削除部
10
13 Experience data storage unit 14
Claims (14)
コンピュータ(10)が、制御対象の状態、制御対象に対する行動、その行動により得られる報酬、及びその行動によって遷移した制御対象の状態と、を含む経験データを収集して、有限の記憶容量を持つ経験データ記憶部(13)に記憶させ、
コンピュータ(10)が、前記経験データ記憶部に記憶されたそれぞれの経験データに関して、他の経験データとどの程度異なっているかを示すユニークネスパラメータを算出し、
コンピュータ(10)が、算出したユニークネスパラメータに基づいて、他の経験データと類似している経験データを前記経験データ記憶部から削除し、
コンピュータ(10)が、前記経験データ記憶部に記憶されている経験データを用いて、前記ニューラルネットワークの強化学習を行う強化学習方法。 In the case of using a neural network (12) as a learning device for learning an optimal policy for determining an action according to a state of a controlled object, a reinforcement learning method for reinforcement learning of the neural network,
The computer (10) collects empirical data including the state of the controlled object, the action on the controlled object, the reward obtained by the action, and the state of the controlled object transitioned by the action, and has a finite storage capacity Store it in the experience data storage unit (13),
The computer (10) calculates a uniqueness parameter indicating how different each experience data stored in the experience data storage unit from other experience data,
Based on the calculated uniqueness parameter, the computer (10) deletes experience data similar to other experience data from the experience data storage unit,
A reinforcement learning method in which a computer (10) performs reinforcement learning of the neural network using experience data stored in the experience data storage unit.
制御対象の状態、制御対象に対する行動、その行動により得られる報酬、及びその行動によって遷移した制御対象の状態と、を含む経験データが収集されるごとに、その経験データを記憶する、有限の記憶容量を持つ経験データ記憶部(13)と、
前記経験データ記憶部に記憶されたそれぞれの経験データに関して、他の経験データとどの程度異なっているかを示すユニークネスパラメータを算出する算出部(S200)と、
前記算出部が算出したユニークネスパラメータに基づいて、他の経験データと類似している経験データを前記経験データ記憶部から削除する削除部(S210)と、
前記経験データ記憶部に記憶されている経験データを用いて、前記ニューラルネットワークの強化学習を行う強化学習部と、を備える強化学習装置。 In the case of using a neural network (12) as a learning device for learning an optimal policy for determining an action according to a state of a control target, a reinforcement learning device for reinforcement learning of the neural network,
A finite memory that stores experience data each time it collects experience data that includes the state of the control object, the action on the control object, the reward obtained by the action, and the state of the control object that has been transitioned by the action An experience data storage unit (13) having a capacity;
For each experience data stored in the experience data storage unit, a calculation unit (S200) that calculates a uniqueness parameter indicating how different from other experience data;
Based on the uniqueness parameter calculated by the calculation unit, a deletion unit (S210) that deletes experience data similar to other experience data from the experience data storage unit,
A reinforcement learning device comprising: a reinforcement learning unit that performs reinforcement learning of the neural network using experience data stored in the experience data storage unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016134486A JP2018005739A (en) | 2016-07-06 | 2016-07-06 | Method for learning reinforcement of neural network and reinforcement learning device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016134486A JP2018005739A (en) | 2016-07-06 | 2016-07-06 | Method for learning reinforcement of neural network and reinforcement learning device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018005739A true JP2018005739A (en) | 2018-01-11 |
Family
ID=60946516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016134486A Pending JP2018005739A (en) | 2016-07-06 | 2016-07-06 | Method for learning reinforcement of neural network and reinforcement learning device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018005739A (en) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108822A (en) * | 2018-01-16 | 2018-06-01 | 中国科学技术大学 | The different tactful deeply learning method of parallel training |
JP2019175194A (en) * | 2018-03-28 | 2019-10-10 | 株式会社日立製作所 | Machine learning system |
WO2020004103A1 (en) | 2018-06-28 | 2020-01-02 | 三菱重工業株式会社 | Decision-making device, unmanned system, decision-making method, and program |
JP2020009416A (en) * | 2018-05-01 | 2020-01-16 | 本田技研工業株式会社 | System and method for generating command for navigating intersection on autonomous vehicle |
CN111191934A (en) * | 2019-12-31 | 2020-05-22 | 北京理工大学 | Multi-target cloud workflow scheduling method based on reinforcement learning strategy |
WO2020111647A1 (en) * | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | Multi-task based lifelong learning |
KR20200082909A (en) * | 2018-12-31 | 2020-07-08 | 한국기술교육대학교 산학협력단 | Imitational reinforcement learning system for controlling devices remotely and the method thereof |
JP2020119139A (en) * | 2019-01-22 | 2020-08-06 | 富士通株式会社 | Reinforcement learning method, reinforcement learning program, and reinforcement learning apparatus |
CN111507167A (en) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | Method and device for realizing attention-driven resource allocation by AVM and reinforcement learning |
JP2020148329A (en) * | 2019-03-15 | 2020-09-17 | ダイキン工業株式会社 | Machine learning device and magnetic bearing device |
US11416743B2 (en) | 2019-04-25 | 2022-08-16 | International Business Machines Corporation | Swarm fair deep reinforcement learning |
JP2022539696A (en) * | 2020-05-05 | 2022-09-13 | 株式会社ストラドビジョン | A method for on-device learning of a machine learning network of an autonomous vehicle through multi-stage learning using adaptive hyperparameter sets and an on-device learning device using the same |
EP3987478A4 (en) * | 2019-06-21 | 2022-12-28 | Services Pétroliers Schlumberger | Field development planning based on deep reinforcement learning |
US11593618B2 (en) | 2019-02-19 | 2023-02-28 | Kabushiki Kaisha Toshiba | Data processing apparatus, data processing method, and storage medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0535711A (en) * | 1991-07-31 | 1993-02-12 | Toyoda Mach Works Ltd | Learning data storage for neural network |
JP2006119926A (en) * | 2004-10-21 | 2006-05-11 | Honda Motor Co Ltd | Behavior learning controller |
JP2013084175A (en) * | 2011-10-12 | 2013-05-09 | Sony Corp | Information processing apparatus, information processing method, and program |
-
2016
- 2016-07-06 JP JP2016134486A patent/JP2018005739A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0535711A (en) * | 1991-07-31 | 1993-02-12 | Toyoda Mach Works Ltd | Learning data storage for neural network |
JP2006119926A (en) * | 2004-10-21 | 2006-05-11 | Honda Motor Co Ltd | Behavior learning controller |
JP2013084175A (en) * | 2011-10-12 | 2013-05-09 | Sony Corp | Information processing apparatus, information processing method, and program |
Non-Patent Citations (2)
Title |
---|
VOLODYMYR MNIH ET AL.: "Human-level control through deep reinforcement learning", NATURE, vol. 518, JPN6020013731, 26 February 2015 (2015-02-26), pages 529 - 533, XP037437579, ISSN: 0004363409, DOI: 10.1038/nature14236 * |
笠原伸幸、外2名: "コネクショニストQ学習エージェント群の経験再演による協調行動の獲得", 第60回(平成12年前期)全国大会講演論文集(2), JPN6020013733, 14 March 2000 (2000-03-14), pages 2 - 339, ISSN: 0004363410 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108822A (en) * | 2018-01-16 | 2018-06-01 | 中国科学技术大学 | The different tactful deeply learning method of parallel training |
JP2019175194A (en) * | 2018-03-28 | 2019-10-10 | 株式会社日立製作所 | Machine learning system |
JP2020009416A (en) * | 2018-05-01 | 2020-01-16 | 本田技研工業株式会社 | System and method for generating command for navigating intersection on autonomous vehicle |
JP7016295B2 (en) | 2018-06-28 | 2022-02-04 | 三菱重工業株式会社 | Decision-making devices, unmanned systems, decision-making methods, and programs |
WO2020004103A1 (en) | 2018-06-28 | 2020-01-02 | 三菱重工業株式会社 | Decision-making device, unmanned system, decision-making method, and program |
JP2020004120A (en) * | 2018-06-28 | 2020-01-09 | 三菱重工業株式会社 | Decision-making device, unmanned system, decision-making method, and program |
US11775812B2 (en) | 2018-11-30 | 2023-10-03 | Samsung Electronics Co., Ltd. | Multi-task based lifelong learning |
WO2020111647A1 (en) * | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | Multi-task based lifelong learning |
KR102198450B1 (en) * | 2018-12-31 | 2021-01-05 | 한국기술교육대학교 산학협력단 | Imitational reinforcement learning system for controlling devices remotely and the method thereof |
KR20200082909A (en) * | 2018-12-31 | 2020-07-08 | 한국기술교육대학교 산학협력단 | Imitational reinforcement learning system for controlling devices remotely and the method thereof |
JP7159883B2 (en) | 2019-01-22 | 2022-10-25 | 富士通株式会社 | Reinforcement learning method, reinforcement learning program, and reinforcement learning device |
JP2020119139A (en) * | 2019-01-22 | 2020-08-06 | 富士通株式会社 | Reinforcement learning method, reinforcement learning program, and reinforcement learning apparatus |
CN111507167A (en) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | Method and device for realizing attention-driven resource allocation by AVM and reinforcement learning |
CN111507167B (en) * | 2019-01-31 | 2023-09-29 | 斯特拉德视觉公司 | Method and device for realizing attention-driven resource allocation by AVM and reinforcement learning |
US11593618B2 (en) | 2019-02-19 | 2023-02-28 | Kabushiki Kaisha Toshiba | Data processing apparatus, data processing method, and storage medium |
JP2020148329A (en) * | 2019-03-15 | 2020-09-17 | ダイキン工業株式会社 | Machine learning device and magnetic bearing device |
WO2020189565A1 (en) * | 2019-03-15 | 2020-09-24 | ダイキン工業株式会社 | Machine-learning device and magnetic bearing device |
US11416743B2 (en) | 2019-04-25 | 2022-08-16 | International Business Machines Corporation | Swarm fair deep reinforcement learning |
EP3987478A4 (en) * | 2019-06-21 | 2022-12-28 | Services Pétroliers Schlumberger | Field development planning based on deep reinforcement learning |
CN111191934B (en) * | 2019-12-31 | 2022-04-15 | 北京理工大学 | Multi-target cloud workflow scheduling method based on reinforcement learning strategy |
CN111191934A (en) * | 2019-12-31 | 2020-05-22 | 北京理工大学 | Multi-target cloud workflow scheduling method based on reinforcement learning strategy |
JP2022539696A (en) * | 2020-05-05 | 2022-09-13 | 株式会社ストラドビジョン | A method for on-device learning of a machine learning network of an autonomous vehicle through multi-stage learning using adaptive hyperparameter sets and an on-device learning device using the same |
JP7295282B2 (en) | 2020-05-05 | 2023-06-20 | 株式会社ストラドビジョン | Method for on-device learning of machine learning network of autonomous driving car through multi-stage learning using adaptive hyperparameter set and on-device learning device using the same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018005739A (en) | Method for learning reinforcement of neural network and reinforcement learning device | |
CN111340227A (en) | Method and device for compressing business prediction model through reinforcement learning model | |
US20100318478A1 (en) | Information processing device, information processing method, and program | |
Kemertas et al. | Towards robust bisimulation metric learning | |
Papini et al. | Optimistic policy optimization via multiple importance sampling | |
Sledge et al. | Balancing exploration and exploitation in reinforcement learning using a value of information criterion | |
US20210357782A1 (en) | Methods and systems for support policy learning | |
CN112052936A (en) | Reinforced learning exploration method and device based on generation countermeasure mechanism | |
CN114117878B (en) | Target motion trajectory segmented compression method based on improved particle swarm optimization | |
JP2018160200A (en) | Method for learning neural network, neural network learning program, and neural network learning program | |
JP7315007B2 (en) | LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM | |
Lehnert et al. | Successor features support model-based and model-free reinforcement learning | |
WO2021095176A1 (en) | Learning device, learning method, and recording medium | |
CN112364012B (en) | Data feature determination method and device and electronic equipment | |
Wirth et al. | EPMC: Every visit preference Monte Carlo for reinforcement learning | |
US20190303714A1 (en) | Learning apparatus and method therefor | |
US11651282B2 (en) | Learning method for learning action of agent using model-based reinforcement learning | |
Dong et al. | Robust Reinforcement Learning through Efficient Adversarial Herding | |
Awasthi et al. | Online learning under adversarial corruptions | |
WO2021226709A1 (en) | Neural architecture search with imitation learning | |
Schoknecht et al. | Speeding-up reinforcement learning with multi-step actions | |
EP2381394B1 (en) | A method of reinforcement learning, corresponding computer program product, and data storage device therefor | |
Girgin et al. | State Similarity Based Approach for Improving Performance in RL. | |
Rahimi-Kalahroudi et al. | Replay Buffer With Local Forgetting for Adaptive Deep Model-Based Reinforcement Learning | |
JP7290133B2 (en) | Information processing device, important node identification method, and important node identification program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190617 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200414 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201013 |