JP2018151876A - 機械学習に使用される経験を格納する経験データベースを更新する方法 - Google Patents

機械学習に使用される経験を格納する経験データベースを更新する方法 Download PDF

Info

Publication number
JP2018151876A
JP2018151876A JP2017047791A JP2017047791A JP2018151876A JP 2018151876 A JP2018151876 A JP 2018151876A JP 2017047791 A JP2017047791 A JP 2017047791A JP 2017047791 A JP2017047791 A JP 2017047791A JP 2018151876 A JP2018151876 A JP 2018151876A
Authority
JP
Japan
Prior art keywords
experience
robot
experiences
similarity
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017047791A
Other languages
English (en)
Other versions
JP2018151876A5 (ja
Inventor
フォン グエン
Huong Nguyen
フォン グエン
高行 秋山
Takayuki Akiyama
高行 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017047791A priority Critical patent/JP2018151876A/ja
Publication of JP2018151876A publication Critical patent/JP2018151876A/ja
Publication of JP2018151876A5 publication Critical patent/JP2018151876A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Manipulator (AREA)

Abstract

【課題】格納される経験の多様性を増し、格納されている経験をサンプリングして行う学習を、より効率的で、より適切に行う。【解決手段】開示されるのは、機械学習に使用される経験を格納する経験データベース、を更新する方法であって、エージェントの新しい経験を取得し、前記新しい経験と経験データベースから取得された1以上の過去の経験との間の、類似度を決定し、前記経験データベースは、強化学習において、前記エージェントの行動の評価値を決定するニューラルネットワークを学習するために使用され、前記類似度に基づいて、前記新しい経験を前記経験データベースに格納するか決定する。【選択図】図11

Description

本発明は、機械学習に使用される経験を格納する経験データベースを更新する方法に関する。
社会において、人々をサポートし、補助するために、ロボットが使用されることが益々多くなってきている。ロボットの振る舞いや行動は、伝統的に、ルールに基づいてプログラミングされる。より多くの機能が必要となるにしたがって、より多くのより複雑なルールが存在するようになっている。そのため、全てのルールを策定しプログラミングするために、長い時間がかかっている。
深層強化学習は、深層学習と強化学習の利点を使用して、ルールをプログラミングすることなく、ロボットがタスクを実行する訓練を行うのに、有効なものとなっている。例えば、国際公開第2015/054264号は、人よりも上手にゲームを行うように、深層強化学習に基づいてロボットを訓練する技術を開示する。
深層強化学習は、経験(状態、行動、次の状態、報酬を含む)をメモリに蓄積し、学習のためにサンプリングする。上手く学習するためには、ネットワークの訓練のために様々な経験が必要とされる。例えば、ロボットが顧客に近寄るために、ロボットは、顧客に近づき会う、といことを経験する必要である。
国際公開第2015/054264号
しかし、壁に衝突する、顧客と接触する、といった経験の割合は、非常に低い。なぜなら、ロボットは、訓練の初期においては、ランダムに移動しているからである。そのため、メモリにおいて類似する経験が支配的となる。深層強化学習がメモリをサンプルする場合、稀な経験はサンプリングされる可能性が非常に低い。そのため、ニューラルネットワークとリプレイ機構のためのメモリとを使用するだけでは、ロボットに適切に学習させることができない。
このように、従来の技術において、メモリにおける多様な経験のバランスが取れていない場合に、エージェント(例えばロボット)が取るべき行動を適切に学習することができないことが問題となる。メモリにおける経験をサンプリングする場合に、学習を、より効率的に、より適切に行うことができる技術が望まれる。
本発明の代表的な一例は、機械学習に使用される経験を格納する経験データベース、を更新する方法であって、エージェントの新しい経験を取得し、前記新しい経験と経験データベースから取得された1以上の過去の経験との間の、類似度を決定し、前記経験データベースは、機械学習において、前記エージェントの行動の評価値を決定する評価モデルを学習するために使用され、前記類似度に基づいて、前記新しい経験を前記経験データベースに格納するか決定する。
本発明の一態様によれば、格納される経験の多様性を増し、格納されている経験をサンプリングして行う学習を、より効率的で、より適切に行うことができる。
実施形態1に係る学習システムの構成の模式図を示す。 実施形態1に係る学習システムの機能ブロック図を示す。 実施形態1に係る、メモリデータベースの模式図を示す。 実施形態1に係るニューラルネットワークパラメータデータベースの模式図を示す。 実施形態1に係る仮想環境の模式図を示す。 実施形態1に係る仮想環境シミュレーション部のフローチャートを示す。 実施形態1に係るロボット制御部のフローチャートを示す。 実施形態1に係るニューラルネットワーク部のフローチャートを示す。 フィードフォワードニューラルネットワークを示す。 バックプロパゲーションニューラルネットワークを示す。 実施形態1に係る学習部のフローチャートを示す。 実施形態1に係る経験フィルタリング部のフローチャートを示す。 実施形態2に係る経験フィルタリング部のフローチャートを示す。 実施形態3に係る学習システムの構成例を示す。 実施形態3に係る学習システムの機能ブロック例を示す。 実施形態3に係る、類似度マトリックスデータベースの説明図を示す。 実施形態3に係る経験フィルタリング部のフローチャートを示す。 実施形態4に係る学習システム及びそれを適用した実ロボットの構成例を示す。 実施形態4に係る学習システムにおけるロボット端末の機能ブロック図を示す。 実施形態4に係るロボット制御部のフローチャートを示す。
以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。
以下において、学習システムが開示される。学習システムの例として、ロボットが行動を取る、例えば、ロボットが、障害物や壁に衝突することなく顧客のところまで行けるように移動するための、学習システムが説明される。
本開示の学習システムは、メモリに格納される経験の多様性を増すように、経験フィルタリングを実行する。ロボットが訓練を行うにつれ、より多くの経験が生成される。経験は、例えば、経験は、元の状態、行動、報酬、及び次の状態で表わされる。新しい経験が生成されると、経験フィルタリング部は、新しい経験とメモリにおける他の既存の経験との間の類似度を決定し、稀な経験をメモリに格納する可能性を高め、一般的な類似経験を格納する可能性を低くする。これにより、メモリからサンプリングした経験により、ロボットが取るべき行動を適切に学習することができる。
<実施形態1>
図1から12を参照して実施形態1を説明する。学習システムは、サーバ100を含む。サーバ100は、仮想環境を実行する。仮想環境は、実世界環境をシミュレートし、ロボットが仮想環境において行動を取ることを学習できるようにする。経験フィルタリングプログラムは、メモリ内の他の既存の経験との類似度に基づいて、新しい経験をメモリに格納するか決定する。仮想環境により効率的にロボットの経験を収集することができる。なお、システム設計により、実環境においてロボットを動作させて経験を収集してもよい。
図1は、実施形態1に係る学習システムの構成の模式図を示す。サーバ100は、プロセッサ110、メモリ120、補助記憶130を含む。上記構成要素は、バスによって互いに接続されている。メモリ120、補助記憶130又はこれらの組み合わせは記憶装置の例である。
プロセッサ110は、メモリ120を参照し、様々な計算処理を実行する。メモリ120は、仮想環境シミュレーションプログラム121、ロボット制御プログラム122、ニューラルネットワークプログラム123、学習プログラム124、経験フィルタリングプログラム125、を格納している。
仮想環境シミュレーションプログラム121は、実世界環境をシミュレートする。例えば、ロボットが実世界における障害物や壁に衝突することなく移動する方法を学習するように、仮想環境シミュレーションプログラム121は、壁や障害部の形状を地図内で記述する。
地図は、実世界においてロボットが衝突すべきではない物体を記述する。加えて、仮想環境シミュレーションプログラム121は、ロボットが壁や障害物に衝突するときや、ロボットが人に近づくとき等の、移動の軌跡の情報を含む。仮想環境シミュレーションプログラム121によって、実世界環境における物理法則(例えば、ロボットのスピードや、ロボットは壁をすり抜けることができない、等)をシミュレートすることができる。
ロボット制御プログラム122は、仮想環境において、ロボットの行動を決定する。ロボットの行動は、ロボットの能力、仕様、学習の目的により定義される。例えば、ロボットが壁や障害物に衝突することなく移動することを学習するためには、ロボットの行動は、例えば、スピードを上げる、スピードを下げる、右に回る、左に回る、等が挙げられる。さらに、それらの行動は、能力と仕様によって範囲が決められる。例えば、スピードは最大5km/hまで上げることができ、右/左への回転は、最大45°までに設定される。
ニューラルネットワークプログラム123は、情報フィードフォワードを行うために使用され、ロボットの観測状態が入力であり、ロボットが取り得る各行動のQ値(行動評価値)が出力である。ニューラルネットワークは評価値を決定する評価モデル(又は評価関数)であり、そのパラメータは、学習プログラム124により随時更新される。以下に開示する学習システム例は、深層強化学習システムであって、行動評価モデルが深層ニューラルネットワークにより表わされる。ニューラルワークプログラムは編集可能であって、適用システムに応じてカスタマイズされる。
学習プログラム124は、ニューラルネットワークのパラメータの更新と最適化を行う。学習プログラム124は、補助記憶130から、メモリデータベース131に格納されている経験をサンプリングし、バックプロパゲーションによってニューラルネットワークのパラメータを最適化する。これにより、ニューラルネットワークは、所与の状態における各行動のQ値をより正確に推定することができ、ロボットがより知的に行動することができるようになる。
経験フィルタリングプログラム125は、新しい経験とメモリデータベース131内の既存の経験との類似度に基づき、新しい経験をメモリデータベース131に格納すべきか決定する。ロボットが行動すると、状態の遷移が起きる。ロボットの経験は、元の状態、その状態においてロボットが取った行動、行動が取られた後の新しい状態、そして新しい状態からロボットが得る報酬、のタプル(tuple)である。
しかし、経験が互いに非常に類似する又は同一である状況が存在する。そのような場合、メモリデータベース131は類似する経験のみを含むことになり、望ましくない学習結果につながる。従って、経験フィルタリングプログラム125のタスクは、メモリデータベース131に格納されるロボットの経験の多様性を大きくすることである。
補助記憶130は、メモリデータベース131及びニューラルネットワークパラメータデータベース132を格納する。メモリデータベース131は、四つのエレメントからなるタプルの集合を格納する。四つのエレメントは、状態(元の状態)、行動、報酬、そして次の状態である。
タプルは、訓練フェーズにおけるロボットの経験である。メモリデータベース131は、限られた容量(例えば、100万経験)を有し、エンジニアにより予め決められている。メモリデータベース131が一杯になると、メモリデータベース131における最初の経験が削除され、新しい経験のための空きスペースが形成される。メモリデータベース131の構造例は、図3を参照して後に詳述する。
ニューラルネットワークパラメータデータベース132は、ニューラルネットワークにおけるノード間のリンク(ノードからの出力)の重みとバイアスを含む。重みとバイアスを使用して、ノードは他のノードに情報を伝える。バックプロパゲーション法を使用して重みとバイアスを最適化することで、ニューラルネットワークが各行動に対するQ値をより正確に推定できるように、ニューラルネットワークパラメータデータベース132を更新する。ニューラルネットワークパラメータデータベース132の構成例は、図4を参照して後に詳述する。
図2は、実施形態1に係る学習システムの機能ブロック図を示す。仮想環境シミュレーション部1210は、実世界環境をシミュレートし、地図、障害物、物理法則等を含む。仮想環境シミュレーション部1210は、プロセッサ110が、仮想環境シミュレーションプログラム121を実行することが実現される。仮想環境シミュレーション部1210は、ロボットがどのように移動し、どのような行動を取るか、又、ロボットが壁や障害物に衝突するかどうか、を知ることができる。
ロボットの状態、行動、及び報酬は、経験フィルタリング部1250に送られる。報酬は予め設定されている。仮想環境シミュレーション部1210は、さらに、仮想世界においてロボットを動かすために、ロボットの行動をロボット制御部1220から受け取る。仮想環境シミュレーション部1210の処理フローは、図5及び6を参照して後に詳述する。
ロボット制御部1220は、ロボットの行動を決定する。ロボット制御部1220は、プロセッサ110がロボット制御プログラム122を実行することにより実現される。ロボット制御部1220は、センサデータをロボットの状態として、仮想環境シミュレーション部1210から受信し、その状態をニューラルネットワーク部1230に送信して、取ることができる各行動に対するQ値を取得する。
ロボット制御部1220は、行動の決定に、Q値情報を使用する場合と、使用しない場合がある。ロボット制御部1220は、イプシロン(ε)と呼ばれるパラメータを有し、それに基づき、Q値を利用すべきか、ランダムな行動を探索すべきか決定する(ε−greedy法)。パラメータεは、開発者に予め固定値(例えばε=0.5)に設定される、又は、訓練時間に比例して、1から0まで減少する。
ロボット制御部1220は、数字をランダムに選択し、ε値と比較して、Q値利用とランダムな行動探索と、いずれを選択するか判定する。最後に、ロボット制御部1220は、決定した行動を仮想環境シミュレーション部1210に送信し、仮想環境においてロボットに行動を取らせる。ロボット制御部1220の処理フローは、図7を参照して後に詳述する。
学習部1240は、訓練期間において、ニューラルネットワークが、入力がロボットの現在の状態とした場合に各行動に対するQ値をより正確に推定できるように、ニューラルネットワークパラメータを最適化する。学習部1240は、学習プログラム124をプロセッサ110が実行することで実現される。学習部1240は、所定数の経験をメモリデータベース131からサンプリングし、バックプロパゲーションを行って、ニューラルネットワークの重みとバイアスを最適化する。学習部1240の処理フローは、図10を参照して後に詳述する。
経験フィルタリング部1250は、仮想環境シミュレーション部1210から受信した新しい経験をメモリデータベース131に格納するか判定する。経験フィルタリング部1250は、経験フィルタリングプログラム125をプロセッサ110が実行することで実現される。
経験フィルタリング部1250は、新しい経験とメモリデータベース131に格納されている既存の経験との類似度を計算し、新しい経験を格納する確率を、類似度の計算結果に基づいて与える。新しい経験がメモリデータベース131に格納されている既存経験群と、高いトータル類似度(類似度の総計)を有する場合、その経験を格納する確率は低く、また、その逆が成り立つ。
図3は、実施形態1に係る、メモリデータベース131の模式図を示す。メモリデータベース131は、インデックス301、状態302、行動303、報酬304、次の状態305の、欄を有する。なお、メモリデータベースは、経験の情報を格納することができればどのような構造を有していてもよい。
インデックス301は、整数を示し、メモリデータベース131に格納されている経験の順序を示す。インデックス301は、メモリデータベース131に格納されているいずれの経験が、最も古く、メモリデータベース131が一杯であって新しい経験を格納する場合に削除される経験であるかを、示す。
状態302は、仮想世界における周囲環境についてのロボットのセンサ測定値の集合であって、センサ測定値の集合がロボットの状態と定義される。行動303は、正数値を示し、ロボットが取ることができる行動、つまり、行動IDを示す。各数字は、特定の一つの行動を示す。例えば、行動1は、左回転を示し、行動2は直進を示し、行動3は右回転を示す。行動はロボットの能力と仕様に依存する。
報酬304は、ロボットが行動を取り次の状態に遷移した後に得ることができる報酬を定義する数値を示す。例えば、ロボットが壁に近く、直進する行動を取ることを決定する場合、結果として壁に衝突することになるので、得られる報酬は負の値である。ロボットがゴール(例えば顧客)に近く、顧客の範囲にとどまるように直進する行動を取ることを決定する場合、得られる報酬は正の値である。各状態の各行動に対する報酬は予め設定されている。
次の状態305は、ロボットが、状態302から行動303を取った後の、遷移状態である。この状態について、ロボットが報酬304を得ることができるか定義されている。次の状態305も、仮想世界における周囲環境についてのロボットのセンサ測定値の集合である。
図4は、実施形態1に係るニューラルネットワークパラメータデータベース132の模式図を示す。ニューラルネットワークパラメータデータベース132は、ID401、重み402、バイアス403の欄を有する。ニューラルネットワークパラメータデータベース132は、ニューラルネットワークパラメータの情報を格納していれば、どのような構造を有していてもよい。ID401は、ニューラルネットワークにおけるノード間の各リンク(ノードペア)を識別する。ID401の各値は、リンクの接続先ノードと接続元ノードのIDを下線によってつなぐ。例えば、ID3_1及びID3_2は、ノード1からノード3のリンク及びノード2からノード3へのリンクそれぞれを示す。
各リンク(ノードペア)に対して、重み402とバイアス403が関連付けられている。図4の例において、例えば、ID3_1の重み402は8であり、バイアス403は2である。また、ID3_2の重み402は1であり、バイアス403は1である。ノード3に対して、ノード1及びノード2のみが接続されているとして、ノード3の入力は、((ノード1の出力×8+2)+(ノード2の出力×1+1))である。
図5は、実施形態1に係る仮想環境の模式図を示す。図の地図は、壁501、障害物502、ロボット503、距離センサ504、顧客までの距離センサ505、及び顧客506を示す。壁501は、平面図における実世界の壁の形状を示す。ロボット503は、壁501を通り抜けることはできない。
障害物502は、ロボット503が通り抜けることができない実世界の障害物を示し、例えば、テーブル、椅子、カウンタ等である。ロボット503は、仮想環境において移動し、スピード性能や障害物を通り抜けることができないといった、物理法則に従う。ロボット503の位置は、ロボット503が、左、右、又は正面に進むといった行動を取る度に変化する。
距離センサ504は、ロボットから周囲の障害物までの距離を測定する。距離センサ504は、限られた範囲の障害物を検知することができ、特定の距離範囲に障害物が存在しない場合、測定値は最大値を示す。例えば、センサ範囲の最大値は3mである。障害物が存在する場合、測定値は、最大値より小さく、0より大きい。ロボットが障害物に衝突すると、測定値は0である。
顧客距離センサ505は、ロボット503から最も近い顧客までの距離を測定する。例えば、距離センサ504と顧客距離センサ505の測定値の組み合わせが、ロボット503の状態を示す。仮想世界における顧客506は、実世界における本物の顧客と似た振る舞いを示す。例えば、顧客506は仮想世界において移動することができ、物理法則に従う。
図6は、実施形態1に係る仮想環境シミュレーション部1210のフローチャートを示す。仮想環境シミュレーション処理は、プロセッサ110により実行される。まず、ステップ601において、仮想環境シミュレーション部1210は、仮想環境オブジェクト、例えば、壁、障害物、ロボットの位置、顧客の位置などを、設定する。
次に、ステップ602において、仮想環境シミュレーション部1210は、ロボット制御部1220から行動を受け取り、受け取った行動に従ってロボットを動かす。ステップ603において、ステップ602においてロボットが移動された後、仮想環境シミュレーション部1210は、新しい位置におけるロボットの状態と元の状態(行動直前の状態)とを、決定する。
ステップ604において、仮想環境シミュレーション部1210は、この新しい状態におけるロボットへの報酬を決定する。ステップ605において、仮想環境シミュレーション部1210は、集めた情報を統合する。具体的には、元の状態、ロボットが取った行動、報酬、そして新しい状態を一つのタプルに含める。
ステップ606において、仮想環境シミュレーション部1210は、新しい状態が終端状態であるか判定する。終端状態は、例えば、ロボットが壁に衝突したとき、又はロボットが成功裏に顧客の前に行きついたとき、等である。新しい状態が終端状態であるとステップ606で判定された場合(606:YES)、ステップ607において、仮想環境シミュレーション部1210は、ロボットの位置を所定の初期位置又はランダムな位置に、再設定する。
新しい状態が終端状態ではないとステップ606で判定された場合(606:NO)、仮想環境シミュレーション部1210は、ステップ608に進む。ステップ608において、仮想環境シミュレーション部1210は、ステップ605で統合した情報を経験フィルタリング部1250(経験フィルタリングプログラム125)に送る。統合した情報は、元の状態、ロボットの行動、報酬、新しい状態を含む。以上により、仮想環境シミュレーション処理は終了する。
図7は、実施形態1に係るロボット制御部1220のフローチャートを示す。ロボット制御処理は、プロセッサ110のより実行される。まず、ステップ701において、ロボット制御部1220は、センサデータを、ロボットの状態として、仮想環境シミュレーション部1210から受信する。
ステップ702において、ロボット制御部1220は、この状態をニューラルネットワーク部1230に転送し、ニューラルネットワーク部1230から、各行動についてのQ値を受信する。ステップ703において、ロボット制御部1220は、0から1までの、一つの乱数を生成する。
ステップ704において、ロボット制御部1220は、乱数をεと比較する。ステップ704において乱数がεよりも大きくない場合(704:NO)、ステップ705において、ロボット制御部1220は、ランダムな行動を選択する。乱数がεより大きいとステップ704において判定された場合(704:YES)、ステップ706において、ロボット制御部1220は、最も高いQ値の行動を選択する。
最後に、ステップ707において、ロボット制御部1220は、選択した行動を仮想環境シミュレーション部1210に送信する。以上により、ロボット制御処理が終了する。なお、ロボット制御部1220は、ε−greedy法と異なるアルゴリズムに従って行動を選択してもよい。
図8は、実施形態1に係るニューラルネットワーク部1230のフローチャートを示す。ニューラルネットワーク処理は、プロセッサ110により実行される。ステップ801において、ニューラルネットワーク部1230は、他の機能部から、ロボットの状態の情報を受信する。
ステップ802において、ニューラルネットワーク部1230は、フィードフォワードニューラルネットワークを使用し、受信した状態を入力として、ニューラルネットワークパラメータデータベース132におけるパラメータを使用して、各行動に対するQ値を出力する。ステップ803において、ニューラルネットワーク部1230は、行動それぞれに対するQ値のリストを、要求元に返す。以上により、ニューラルネットワーク処理が終了する。
図9A、9Bは、実施形態1に係るニューラルネットワークの例の説明図を示す。図9Aは、上記のフィードフォワードニューラルネットワークを示す。フィードフォワードニューラルネットワークにおいて、入力層901、隠れ層902、そして出力層903が存在する。情報は、入力層901から隠れ層902、さらに出力層903へと進んでいく。
図9Bは、バックプロパゲーションニューラルネットワークを示す。バックプロパゲーションニューラルネットワークは、ネットワークにおける全ての重みについて、損失関数の勾配を計算する方法を示す。勾配は、最適化において、損失を最小化するように重みを更新するために使用される。そのため、望ましい出力906を知る必要があり、バックプロパゲーションニューラルネットワークを使用して、入力904に対してより正確に出力できるように、ネットワーク905において重みとバイアスが最適化される。
図10は、実施形態1に係る学習部1240のフローチャートを示す。学習処理は、プロセッサ110により実行される。ステップ1001において、学習部1240は、メモリデータベース131に十分な経験が格納されているかチェックする。十分な経験の閾値は、予め開発者によって設定されている。例えば、少なくとも5000の経験がメモリデータベース131に格納されていれば十分と見なされる。
十分な経験がメモリデータベース131に存在しないと判定されると(1001:NO)、学習処理は終了する。ニューラルネットワークのいずれのパラメータも更新されない。十分な経験がメモリデータベース131に存在すると判定されると(1001:YES)、ステップ1002において、学習部1240は、メモリデータベース131から、N個の経験をサンプリングする。Nは整数であって(例えば32)、前もって開発者によって決められている。サンプリングされた経験は<ss、aa、rr、ss´>と表わされる。
ここで
ssは元の状態のリストを示す。
aaは元の状態においてロボットが取る行動のリストを示す。
rrは新しい状態におけるロボットの報酬のリストを示す。
ss´はロボットが行動を取った後の新しい状態のリストを示す。
ステップ1003において、メモリデータベース131から学習部1240がサンプリングした経験のリストに基づき、学習部1240は、ニューラルネットワークを以下のルールで訓練するために、ターゲット値(所望出力)を計算する。
ss´が終端状態である場合、tt=rrである。
そうでない場合、tt=rr+γmax[Q(ss´、aa´)]である。
ここで、ttはターゲット値、γは割引率である。
γは、0から1の間で予め開発者に設定される(例えば0.9)。
次に、ステップ1004において、学習部1240は、損失関数(tt−Q(ss、aa))により、ニューラルネットワークの重みとバイアスを最適化するように、ミニバッチバックプロパゲーションを実行する。ステップ1005において、学習部1240は、ニューラルネットワークパラメータデータベース132において、新しい重みとバイアスを更新する。以上により、学習処理は終了する。なお、上記学習処理は一例であって、他のアルゴリズムに従って学習処理が実行されてもよい。
図11は、実施形態1に係る経験フィルタリング部1250のフローチャートを示す。経験フィルタリング処理は、プロセッサ110に実行される。まず、ステップ1101において、経験フィルタリング部1250は、新しい経験を仮想環境シミュレーション部1210から受信する。新しい経験は、元の状態、行動、報酬、そして新しい状態(s、a、r、s´)を含む。
ステップ1102において、経験フィルタリング部1250は、新しい経験とメモリデータベース131内の他の経験群との間のトータル類似度を計算する。新しい経験(M1)と他の経験(M2)との間の類似度S(M1、M2)は、例えば、以下のように定義することができる。
Figure 2018151876
ここで、
E()は、ユークリッド距離であり、0から1までの値となるように規格化される。
D(x,y)は、xがyに等しい場合に0、他の場合に1を示す。
M1.s、M2.sは、新たしい経験と他の経験の元の状態を示す。
M1.a、M2.aは、新たしい経験と他の経験の行動を示す。
M1.r、M2.rは、新たしい経験と他の経験の報酬を示す。
M1.s’、M2.s’ は、新たしい経験と他の経験の次の状態を示す。
S(M1,M2)は、経験M1と経験M2の類似度を示し、0から1までの値となる。
新しい経験と他の既存の経験群との間のトータル類似度は、次のように計算される。
Figure 2018151876
ここで、
nは、メモリデータベースに格納されている既存経験の数を示す。
newは、新しい経験を示す。
は、メモリデータベースに格納されている既存経験を示す。
ステップ1103において、経験フィルタリング部1250は、新しい経験に確率を割り当て、この経験をメモリデータベース131に格納するか決定する。経験フィルタリング部1250は、新しい経験とメモリデータベース131に格納されている他の既存の経験群との間のトータル類似度に基づき、新しい経験を格納する確率を割り当てる。例えば、確率は、次のように決定される。
Figure 2018151876
ステップ1104において、経験フィルタリング部1250は、0から1までの乱数を生成する。ステップ1105において、経験フィルタリング部1250は、乱数と確率P(Mnew)を比較する。このように乱数と比較する統計的手法によって、全ての新しい経験に格納の可能性を残すことができ、特定の新たな経験を完全に無視することを避けることができる。なお、乱数に代えて予め設定された固定の閾値を使用してもよい。
確率P(Mnew)が乱数以下ある場合(1105:NO)、経験フィルタリング部1250は、新しい経験をメモリデータベース131に格納することなく本処理を終了する。確率P(Mnew)が乱数より大きい場合(1105:YES)、ステップ1106において、経験はメモリデータベース131に格納される。メモリデータベース131に格納する前に、経験フィルタリング部1250は、メモリデータベース131に格納されている既存経験数が、メモリデータベース131に格納される最大数に達しているか判定する。これにより、その後の処理を効率化する。
既存経験数がメモリデータベース131に格納される最大数よりも少なくない場合(1106:NO)、ステップ1107において、経験フィルタリング部1250は、経験インデックスに基づき(例えば最も小さいインデックスの経験が最も古い)、メモリデータベース131内の最も古い経験を削除する。
既存経験数がメモリデータベース131に格納される最大数よりも少ない場合(1106:YES)、経験フィルタリング部1250は、ステップ1108に移る。ステップ1108において、経験フィルタリング部1250は、新しい経験をメモリデータベース131に追加することで、メモリデータベース131を更新する。以上により、ニューラルネットワーク処理は終了する。
以上のように、本実施形態によれば、メモリデータベースから読み出した経験を使用して学習を行う経験リプレイにおいて、学習を好適化するようにメモリデータベースに格納する新たな経験を選択することができる。
上述のように、新しい経験とメモリデータベース内の全ての経験とのトータル類似度に基づき、新しい経験の格納の有無を判定することで、より適切に格納する新しい経験を選択することができる。他の例において、メモリデータベース内の一部の経験と新しい経験の類似度を使用してもよい。
新しい経験と同一の経験がメモリデータベースに格納されている場合に、新しい経験を格納することなく処理を終了してもよい。格納経験数がメモリデータベースの最大数未満の規定数に達した場合に、メモリデータベースから経験を削除してもよい。メモリデータベースの既存経験数が規定数に達していることを条件とすることで、無用は処理を回避できる。
類似度の計算は上記例に限定されず、例えば、コサイン類似度を使用することができる。新しい経験の確率を計算するとなく、トータル類似度と所定範囲の乱数を直接に比較し、その比較結果に基づいて新しい経験をメモリデータベースに格納するか判定してもよい。上記例は、ロボットの行動を学習する学習システムであるが、本実施形態の概念は、ロボットと異なるエージェントの行動を学習するシステムに適用することができる。
上述のように、メモリデータベースにおいて最も古い経験の削除は、経験のメモリデータベースへの格納順序に基づき削除する一例であり、格納順序に基づく他の方法が使用されてもよい。例えば、格納順序が最も古い経験から選択した複数(1より多い所定数)の既存経験において、新しい経験と類似度が最も大きい既存経験が削除されてもよい。本実施例のメモリデータベースの更新手法は、様々な機械学習に適用でき、DQN(Deep Q−Network)の他、DDPG(Deep Deterministic Policy Gradient)や教師あり学習に適用できる。
<実施形態2>
実施形態2を、図12を参照して説明する。実施形態1において、経験フィルタリング部1250は、経験インデックスに基づき、最も古い経験をメモリデータベース131から削除する。この方法は、他の経験と類似度が低い経験がメモリデータベース131において最も古い場合、その経験を削除する。これを回避するため、経験フィルタリング部1250は、メモリデータベース131における経験の多様性を維持又は増すように、メモリデータベース131における経験を削除するように構成される。
図12は、実施形態2に係る経験フィルタリング部1250のフローチャートを示す。ステップ1201から1206は、図11に示すフローチャートのステップ1101から1106に対応する。
ステップ1206において、経験フィルタリング部1250は、メモリデータベース131における経験数が、メモリデータベース131に格納される最大数より小さいか判定する。
メモリデータベース131における経験数が、メモリデータベース131に格納される最大数より小さくない場合(1206:NO)、ステップ1207において、経験フィルタリング部1250は、メモリデータベース131における各既存経験とメモリデータベース131における他の既存経験との間の、トータル類似度を計算する。一つの経験についてのトータル類似度計算は、例えば、次の数式に従う。
Figure 2018151876
ここで、
S*は、メモリデータベースにおける経験iのトータル類似度である。
nは、メモリデータベースにおける経験の総数である。
次に、ステップ1208において、経験フィルタリング部1250は、最も高いトータル類似度を有するインデックスを特定する。
Index_to_delete = arg max(S*i) (5)
経験フィルタリング部1250は、最も高いトータル類似度を有する経験を削除して、メモリデータベース131を更新する。複数の経験が最も高いトータル類似度を有する場合、任意の一つの経験が選択される。
メモリデータベース131における経験数が、メモリデータベース131に格納される最大数より小さい場合(1206:YES)、経験フィルタリング部1250は、ステップ1209に進む。ステップ1209において、経験フィルタリング部1250は、新しい経験をメモリデータベース131に格納して、メモリデータベース131を更新する。以上により、経験フィルタリング処理が終了する。
<実施形態3>
図13から16を参照して、実施形態3を説明する。実施形態2において、経験フィルタリング部1250は、新しい経験を格納するときにメモリデータベース131が一杯である場合に、メモリデータベース131内の各経験のトータル類似度を計算して、最もトータル類似度が高い経験を決定する。しかしメモリサイズが大きい場合、経験ペアの類似度の計算量が非常に多くなる。実施形態3は類似度マトリックスを使用し、経験フィルタリング部1250が、毎回、全ての経験ペアの類似度の計算を行うよりも効率的な処理を可能とする。
図13は、実施形態3に係る学習システムの構成例を示す。補助記憶130における類似度マトリックス133以外の構成は、実施形態1に係る学習システムと同様である。類似度マトリックス133は、各経験ペアの類似度を格納し、経験フィルタリング部1250は、これを使用して、メモリデータベース131におけるいずれの既存経験が、最も高いトータル類似度有し、削除すべき経験であるか、決定する。
図14は、実施形態3に係る学習システムの機能ブロック例を示す。類似度マトリックス133以外の構成は、実施形態1に係る学習システムと同様である。経験フィルタリング部1250は、新しい経験をメモリデータベース131に格納することを決定し、メモリデータベース131が一杯である場合、各経験ペアの類似度を計算する代わりに、類似度マトリックス133を調べ、最も高いトータル類似度を有する経験を決定する。類似度マトリックス133の例は、図15を参照して後に詳述される。
図15は、実施形態3に係る、類似度マトリックス133の説明図を示す。例として、メモリサイズ上限は5経験である。類似度マトリックス133は、経験ID1501、exp_1 1502、exp_2 1503、exp_3 1504、exp_4 1505、exp_5 1506、そしてトータル1507の欄を有する。exp_1からexp_5は、それぞれ経験の識別子である。なお、類似度マトリックス133は、既存経験間の類似度の情報を格納していれば、どのような構造を有してもよい。
経験ID1501は、現在のメモリに格納されている5経験のIDを含む。exp_1 1502、exp_2 1503、exp_3 1504、exp_4 1505、exp_5 1506は、それぞれ、その欄名の経験を含む経験ペアの類似度を示す。同一経験は、1の類似度を有する。トータル1507は、各経験の、類似度の総計(トータル類似度)を示す。
図16は、実施形態3に係る経験フィルタリング部1250のフローチャートを示す。図11のフローチャートと比較して、ステップ1601から1606、1609は、図11におけるステップ1101から1106、1109に対応する。図11におけるステップ1107は、ステップ1607及び1608に変更され、ステップ1610が追加されている。
ステップ1606において、経験フィルタリング部1250は、メモリデータベース131における経験数が、メモリデータベース131に格納する最大数より小さいかチェックする。
メモリにおける経験数がメモリに格納する最大数より小さくない場合(1606:NO)、ステップ1607において、経験フィルタリング部1250は、類似度マトリックス133を調べ、最もトータル類似度が高い経験のインデックスを特定する。
Index_to_delete = arg max(Similarity_Matrix.Total) (6)
ステップ1608において、経験フィルタリング部1250は、最もトータル類似度が高い経験を削除する。複数の経験が最も高いトータル類似度を有する場合、任意の一つが選択される。メモリデータベース131における経験数がメモリに格納する最大数より小さい場合(1606:YES)、経験フィルタリング部1250はステップ1609に進む。ステップ1609において、メモリデータベース131に新しい経験が追加されて、メモリデータベース131が更新される。
ステップ1610において、経験フィルタリング部1250は、メモリデータベース131が一杯である場合には、類似度マトリックス133において、メモリデータベース131から削除された経験の情報を新しい経験の情報に置き換える。そうでない場合、経験フィルタリング部1250は、新たな経験の類似度を類似度マトリックス133に追加する。類似度マトリックス133において、トータル類似度も計算され、更新される。以上により、経験フィルタリング処理が終了する。
<実施形態4>
実施形態1において、仮想ロボットは、仮想世界において行動を取る方法を学習する。実施形態4は、仮想ロボットが仮想世界で学習したことを現実に適用するため、現実のロボット端末をさらに含み、通信インタフェースを介してサーバに接続する。
図17は、実施形態4に係る学習システム及びそれを適用した実ロボットの構成例を示す。実施形態4に係る構成は、通信インタフェース140がサーバ100に追加されている点を除き、実施形態1と同様である。通信インタフェース140は、サーバ100をネットワーク150に接続するためのインタフェースである。
ロボット端末200は、プロセッサ210、メモリ220、センサ230、補助記憶240、通信インタフェース250を含む。これら構成要素はバスにより互いに接続されている。プロセッサ210は、メモリ220を参照して、様々な処理を実行する。メモリ220は、ロボット制御プログラム221及びニューラルネットワークプログラム222を格納する。図17は一つのロボット端末200を示すが、同様の構成を有する複数のロボット端末が、同様に制御されてもよい。
補助記憶240は、ニューラルネットワークパラメータデータベース241を格納する。通信インタフェース250は、ロボット端末200をネットワーク150に接続するためのインタフェースである。
サーバ100が訓練フェーズを終了すると、サーバ100は、ロボット端末200に、ニューラルネットワークパラメータデータベース241を更新する要求を、ネットワーク150を介して送信する。ニューラルネットワークパラメータは、サーバ100からネットワーク150を介してロボットの補助記憶240にダウンロードされ、ニューラルネットワークパラメータデータベース241に格納される。
ニューラルネットワークプログラム222は、実施形態1におけるニューラルネットワークプログラム123と同様である。ロボット制御プログラム221がロボットの行動を制御する。
図18は、実施形態4に係る学習システムにおけるロボット端末200の機能ブロック図を示す。ロボット制御部2210は、プロセッサ210が、ロボット制御プログラム221を実行することで実現される。ロボット制御部2210は、現在の状態として、センサ測定値をセンサ230から受信し、状態情報をニューラルネットワーク部2220に送信し、各行動に対するQ値の応答を受信する。ロボット制御部2210は、常に最もQ値が高い行動を取る。ロボット制御部2210の処理フローは図19を参照して詳述される。
図19は、実施形態4に係るロボット制御部2210のフローチャートである。ロボット制御処理は、プロセッサ210により実行される。ステップ1901において、ロボット制御部2210は、センサ230からのセンサ測定値を現在の状態としてセンサ230から受信する。
ステップ1902において、ロボット制御部2210は、この状態をニューラルネットワーク部2220に送信し、各行動に対するQ値の応答を受信する。ステップ1903において、ロボット制御部2210は、最もQ値が高い行動を選択する。ステップ1904において、ロボット制御部2210は、選択した行動を実行する。以上によりロボット制御処理が終了する。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
100 サーバ、110 プロセッサ、120 メモリ、121 仮想環境シミュレーションプログラム、122 ロボット制御プログラム、123 ニューラルネットワークプログラム、124 学習プログラム、125 経験フィルタリングプログラム、130 補助記憶、131 メモリデータベース、132 ニューラルネットワークパラメータデータベース、133 類似度マトリックス、140 通信インタフェース、150 ネットワーク、200 ロボット端末、210 プロセッサ、220 メモリ、221 ロボット制御プログラム、222 ニューラルネットワークプログラム、230 センサ、240 補助記憶、241 ニューラルネットワークパラメータデータベース、250 通信インタフェース、301 インデックス、302 状態、303 行動、304 報酬、305 次の状態、401 ID、402 重み、403 バイアス、501 壁、502 障害物、503 ロボット、504 距離センサ、505 顧客距離センサ、506 顧客、901 入力層、902 隠れ層、903 出力層、1210 仮想環境シミュレーション部、1220 ロボット制御部、1230 ニューラルネットワーク部、1240 学習部、1250 経験フィルタリング部

Claims (10)

  1. 機械学習に使用される経験を格納する経験データベース、を更新する方法であって、
    エージェントの新しい経験を取得し、
    前記新しい経験と経験データベースから取得された1以上の過去の経験との間の、類似度を決定し、
    前記経験データベースは、機械学習において、前記エージェントの行動の評価値を決定する評価モデルを学習するために使用され、
    前記類似度に基づいて、前記新しい経験を前記経験データベースに格納するか決定する、方法。
  2. 請求項1に記載の方法であって、
    前記新しい経験と前記経験データベースに格納されている全経験それぞれとの間の類似度の総計に基づいて、前記新しい経験を前記経験データベースに格納するか決定する、方法。
  3. 請求項1に記載の方法であって、
    前記経験データベースに格納されている既存経験の数が規定数に達している場合に、前記類似度に基づいて、前記新しい経験を前記経験データベースに格納するか決定する、方法。
  4. 請求項1に記載の方法であって、
    前記類似度と乱数とに基づいて、前記新しい経験を前記経験データベースに格納するか決定する、方法。
  5. 請求項1に記載の方法であって、
    前記経験データベースに格納されている既存経験の数が規定数に達している場合に、前記既存経験の格納順に基づいて、前記既存経験から削除する経験を選択する、方法。
  6. 請求項1に記載の方法であって、
    前記経験データベースに格納されている既存経験の数が規定数に達している場合に、前記既存経験間の類似度に基づいて、前記既存経験から削除する経験を選択する、方法。
  7. 請求項6に記載の方法であって、
    前記既存経験間の類似度を示すテーブルを参照して、前記既存経験間の類似度を決定し、
    前記経験データベースの更新に応じて、前記テーブルを更新する、方法。
  8. 請求項1に記載の方法であって、
    前記エージェントは仮想環境におけるロボットであり、
    ニューラルネットワークに基づいて、前記仮想環境において前記ロボットの行動を決定し、
    前記新しい経験は、前記ロボットの前記行動による経験であり、
    前記経験データベースからサンプリングした経験を使用して、バックプロパゲーションにより、前記ニューラルネットワークのパラメータを更新する、方法。
  9. 請求項8に記載の方法であって、
    実ロボット端末に、前記ニューラルネットワークのパラメータを送信する、方法。
  10. 学習システムであって、
    記憶装置と、
    プロセッサと、
    前記記憶装置は、経験データベースを格納し、
    前記経験データベースは、機械学習において、エージェントの行動の評価値を決定する評価モデルを学習するために使用され、
    前記プロセッサは、
    前記エージェントの新しい経験を取得し、
    前記新しい経験と前記経験データベースから取得された1以上の過去の経験との間の、類似度を決定し、
    前記類似度に基づいて、前記新しい経験を前記経験データベースに格納するか決定する、学習システム。
JP2017047791A 2017-03-13 2017-03-13 機械学習に使用される経験を格納する経験データベースを更新する方法 Pending JP2018151876A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017047791A JP2018151876A (ja) 2017-03-13 2017-03-13 機械学習に使用される経験を格納する経験データベースを更新する方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017047791A JP2018151876A (ja) 2017-03-13 2017-03-13 機械学習に使用される経験を格納する経験データベースを更新する方法

Publications (2)

Publication Number Publication Date
JP2018151876A true JP2018151876A (ja) 2018-09-27
JP2018151876A5 JP2018151876A5 (ja) 2020-03-05

Family

ID=63681775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017047791A Pending JP2018151876A (ja) 2017-03-13 2017-03-13 機械学習に使用される経験を格納する経験データベースを更新する方法

Country Status (1)

Country Link
JP (1) JP2018151876A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
WO2020111647A1 (en) * 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. Multi-task based lifelong learning
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制系统
WO2020179299A1 (ja) * 2019-03-01 2020-09-10 株式会社Preferred Networks 情報処理装置及び情報処理方法
KR20200123574A (ko) * 2019-04-22 2020-10-30 서울대학교병원 학습 기반의 증상 및 질환 관리 장치 및 방법
KR20200126822A (ko) * 2019-04-30 2020-11-09 중앙대학교 산학협력단 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템
CN113022582A (zh) * 2019-12-24 2021-06-25 本田技研工业株式会社 控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统
JP2021189621A (ja) * 2020-05-27 2021-12-13 株式会社 日立産業制御ソリューションズ 行動選択システム及び行動選択方法
WO2023164223A1 (en) * 2022-02-28 2023-08-31 Advanced Micro Devices, Inc. Quantifying the human-likeness of artificially intelligent agents using statistical methods and techniques

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535711A (ja) * 1991-07-31 1993-02-12 Toyoda Mach Works Ltd ニユーラルネツトワークの学習データ記憶装置
WO2008047835A1 (fr) * 2006-10-19 2008-04-24 Nec Corporation Système, procédé et programme d'étude active
JP2013084175A (ja) * 2011-10-12 2013-05-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム
JP2014505934A (ja) * 2010-12-30 2014-03-06 アイロボット コーポレイション 可動式ロボットシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535711A (ja) * 1991-07-31 1993-02-12 Toyoda Mach Works Ltd ニユーラルネツトワークの学習データ記憶装置
WO2008047835A1 (fr) * 2006-10-19 2008-04-24 Nec Corporation Système, procédé et programme d'étude active
JP2014505934A (ja) * 2010-12-30 2014-03-06 アイロボット コーポレイション 可動式ロボットシステム
JP2013084175A (ja) * 2011-10-12 2013-05-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TEERAPAT ROJANAARPA ET AL.: "Density-based Data Pruning Method for Deep Reinforcement Learning", PROCEEDINGS OF THE 2016 15TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS, JPN6021003933, 18 December 2016 (2016-12-18), pages 266 - 271, XP033055534, ISSN: 0004490000, DOI: 10.1109/ICMLA.2016.0051 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111647A1 (en) * 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. Multi-task based lifelong learning
US11775812B2 (en) 2018-11-30 2023-10-03 Samsung Electronics Co., Ltd. Multi-task based lifelong learning
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
WO2020179299A1 (ja) * 2019-03-01 2020-09-10 株式会社Preferred Networks 情報処理装置及び情報処理方法
KR20200123574A (ko) * 2019-04-22 2020-10-30 서울대학교병원 학습 기반의 증상 및 질환 관리 장치 및 방법
KR102338964B1 (ko) * 2019-04-22 2021-12-14 서울대학교병원 학습 기반의 증상 및 질환 관리 장치 및 방법
KR20200126822A (ko) * 2019-04-30 2020-11-09 중앙대학교 산학협력단 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템
KR102240442B1 (ko) * 2019-04-30 2021-04-15 중앙대학교 산학협력단 심층 강화학습 기반 mmWave 차량 네트워크의 비디오 품질을 고려한 선제적 캐싱정책 학습 기법 및 그의 시스템
CN113022582A (zh) * 2019-12-24 2021-06-25 本田技研工业株式会社 控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统
JP2021103356A (ja) * 2019-12-24 2021-07-15 本田技研工業株式会社 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム
JP7357537B2 (ja) 2019-12-24 2023-10-06 本田技研工業株式会社 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム
CN113022582B (zh) * 2019-12-24 2024-02-13 本田技研工业株式会社 控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统
US11934951B2 (en) 2019-12-24 2024-03-19 Honda Motor Co., Ltd. Control apparatus, control method for control apparatus, non-transitory computer readable storage medium, information processing server, information processing method, and control system for controlling system using reinforcement learning
CN111300390B (zh) * 2020-03-20 2021-03-23 南栖仙策(南京)科技有限公司 基于蓄水池采样和双经验池的机械臂智能控制系统
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制系统
JP2021189621A (ja) * 2020-05-27 2021-12-13 株式会社 日立産業制御ソリューションズ 行動選択システム及び行動選択方法
JP7365967B2 (ja) 2020-05-27 2023-10-20 株式会社 日立産業制御ソリューションズ 行動選択システム及び行動選択方法
WO2023164223A1 (en) * 2022-02-28 2023-08-31 Advanced Micro Devices, Inc. Quantifying the human-likeness of artificially intelligent agents using statistical methods and techniques

Similar Documents

Publication Publication Date Title
JP2018151876A (ja) 機械学習に使用される経験を格納する経験データベースを更新する方法
US11836625B2 (en) Training action selection neural networks using look-ahead search
CN110276442B (zh) 一种神经网络架构的搜索方法及装置
Wan et al. An improved hybrid genetic algorithm with a new local search procedure
Jeerige et al. Comparison of deep reinforcement learning approaches for intelligent game playing
Huang et al. Continual model-based reinforcement learning with hypernetworks
CN103218391B (zh) 搜索装置、搜索方法和聚类装置
KR102596158B1 (ko) 이중 액터 크리틱 알고리즘을 통한 강화 학습
KR102492205B1 (ko) 역강화학습 기반 배달 수단 탐지 장치 및 방법
Serban et al. The bottleneck simulator: A model-based deep reinforcement learning approach
EP2788924A2 (en) Particle methods for nonlinear control
Mondal et al. A survey of reinforcement learning techniques: strategies, recent development, and future directions
Cheong et al. Obstacle rearrangement for robotic manipulation in clutter using a deep Q-network
Gosavi Solving Markov decision processes via simulation
CN114861368B (zh) 一种基于近端策略的铁路纵断面设计学习模型的构建方法
Song et al. A data-efficient reinforcement learning method based on local Koopman operators
CN115829097A (zh) 一种基于vmd和kelm的空调超短期负荷预测方法
García et al. Incremental reinforcement learning for multi-objective robotic tasks
JP3132282B2 (ja) 計画立案方法及び計画立案装置
Khanesar et al. Hybrid training of recurrent fuzzy neural network model
JP4267726B2 (ja) 制御装置における動作信号と操作量との関係を決定する装置、制御装置、データ生成装置、入出力特性決定装置及び相関関係評価装置
WO2024116608A1 (ja) 計算機システム及び情報処理方法
Lin et al. Solving maze problem with reinforcement learning by a mobile robot
US20240185070A1 (en) Training action selection neural networks using look-ahead search
Shil et al. Improved Soft Actor-Critic: Reducing Bias and Estimation Error for Fast Learning

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210319

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210420