JP7348296B2

JP7348296B2 - 目標志向的強化学習方法及びこれを遂行するための装置

Info

Publication number: JP7348296B2
Application number: JP2021546353A
Authority: JP
Inventors: ジャン，ビョン－タク; キム，キボム; リ，ミンス; フリ，ミン; キム，ユンソン
Original assignee: Seoul National University R&DB Foundation
Current assignee: SNU R&DB Foundation
Priority date: 2020-10-12
Filing date: 2020-12-08
Publication date: 2023-09-20
Anticipated expiration: 2040-12-08
Also published as: JP2023502804A; WO2022080582A1; US20220398830A1; KR102345267B1

Description

特許法第３０条第２項適用ＫｏｒｅａＳｏｆｔｗａｒｅＣｏｎｇｒｅｓｓ２０１９韓国情報科学会２０１９韓国ソフトウェア総合学術大会論文集（５３０ページ～５３２ページ掲載）

本明細書で開示する実施例は強化学習の効率性を高めるために目標に対する学習を一緒に遂行する目標志向的強化学習方法及びこれを遂行するための装置に関する。

本研究は科学技術情報通信部と情報通信企画評価院のＩＣＴ融合産業源泉技術開発事業の研究結果として遂行された（ＩＩＴＰ－２０１８－０－００６２２－００３）。

本研究は産業通商資源部と韓国産業技術振興院の産業技術国際協力事業の研究結果として遂行された（ＫＩＡＴ－Ｐ０００６７２０）。

本研究は科学技術情報通信部と情報通信企画評価院のＳＷコンピューティング産業源泉技術開発事業の研究結果として遂行された（ＩＩＴＰ－２０１５－０－００３１０－００６）。

本研究は教育部と韓国研究財団の個人基礎研究事業の研究結果として遂行された（ＮＲＦ－２０１８Ｒ１Ｄ１Ａ１Ｂ０７０４９９２３）。

強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）とは与えられた状態（ｓｔａｔｅ）で最適の行動（ａｃｔｉｏｎ）を選択するための学習方法である。ここで、学習の主体となる構成をエージェント（ａｇｅｎｔ）といい、エージェントは学習によって補償（ｒｅｗａｒｄ）を最大化する方向に行動を選択するための政策（ｐｏｌｉｃｙ）を樹立する。

一般的な強化学習によれば、エージェントは目標（ｔａｒｇｅｔ）についての情報を持っていない状態で探索（ｅｘｐｌｏｒａｔｉｏｎ）によって最適の行動が何であるかを学習する過程を繰り返す。言い換えれば、エージェントは、無数に多い行動を遂行しながら、どの場合に補償が得られ、どの場合には補償が得られないかを確認し、その結果によってどの行動が最適であるかを判断するので多くの試行錯誤を経験することになり、それによって強化学習は効率性が低い問題を持っている。また、稀少補償状況では補償を獲得するようになる状況自体がたまに発生するので強化学習の効果が低くなることがある。

一方、前述した背景技術は発明者が本発明の導出のために保有しているか本発明の導出過程で習得した技術情報であり、必ずしも本発明の出願前に一般の公衆に公開された公知技術であるとは言えない。

本明細書で開示する実施例は、強化学習を遂行する過程で容易に得られる目標データ（ｔａｒｇｅｔｄａｔａ）を介して目標に対する学習も一緒に遂行することにより学習効率を高めるための方法及び装置を提供しようとする。

このような技術的課題を解決するために本明細書で開示する実施例では、強化学習を遂行する過程で収集されるデータを用いて強化学習の目標に対する学習を遂行し、学習結果を反映して強化学習を遂行する。

前述した課題解決手段のいずれか一つによれば、強化学習を遂行しながら目標データに対する学習も一緒に遂行することにより、早くて効率的な学習を助け、強化学習の効果及び効率性を高める効果を期待することができる。

また、前述した課題解決手段のいずれか一つによれば、一般的な強化学習モデルを遂行する過程で容易に得られる目標データを介して学習を遂行して目標についての情報を獲得することにより、効率的に強化学習の効果を高める利点がある。

開示する実施例で得られる効果は以上で言及した効果に制限されず、言及しなかった他の効果は下記の記載で開示する実施例が属する技術分野で通常の知識を有する者に明らかに理解可能であろう。

一実施例による目標志向的強化学習を遂行するためのモデルを示す図である。一実施例による目標志向的強化学習を遂行するためのコンピューティング装置の構成を示す図である。実施例による目標志向的強化学習を説明するためのフローチャートである。実施例による目標志向的強化学習を説明するためのフローチャートである。実施例による目標志向的強化学習を説明するためのフローチャートである。

上述した技術的課題を達成するための技術的手段として、一実施例によれば、目標志向的強化学習方法は、強化学習を遂行する過程で前記強化学習の目標に関連したデータを目標データとして収集する段階と、前記強化学習に対する補助学習として前記収集された目標データを学習する段階と、前記目標データを学習した結果を前記強化学習遂行の際に反映する段階とを含む。

他の実施例によれば、目標志向的強化学習方法を遂行するためのコンピュータプログラムを提供し、目標志向的強化学習方法は、強化学習を遂行する過程で前記強化学習の目標に関連したデータを目標データとして収集する段階と、前記強化学習に対する補助学習として前記収集された目標データを学習する段階と、前記目標データを学習した結果を前記強化学習遂行の際に反映する段階とを含む。

さらに他の実施例によれば、目標志向的強化学習方法を遂行するためのプログラムが記録されたコンピュータ可読の記録媒体を提供し、目標志向的強化学習方法は、強化学習を遂行する過程で前記強化学習の目標に関連したデータを目標データとして収集する段階と、前記強化学習に対する補助学習として前記収集された目標データを学習する段階と、前記目標データを学習した結果を前記強化学習遂行の際に反映する段階とを含む。

さらに他の実施例によれば、目標志向的強化学習を遂行するためのコンピューティング装置は、データを受信し、これを演算処理した結果を出力するための入出力部と、強化学習を遂行するためのプログラム及び前記強化学習を遂行する過程で収集される目標データを保存する保存部と、少なくとも一つのプロセッサを含み、前記プログラムを実行させることにより、前記入出力部を介して受信されたデータを用いて強化学習を遂行する制御部とを含み、前記制御部が前記プログラムを実行することによって具現される目標志向的強化学習モデルは、前記強化学習を遂行する過程で前記強化学習の目標に関連したデータを前記目標データとして収集し、前記強化学習に対する補助学習として前記収集された目標データを学習し、前記目標データを学習した結果を前記強化学習遂行の際に反映する。

以下では添付図面に基づいて多様な実施例を詳細に説明する。以下で説明する実施例は様々な相異なる形態に変形されて実施されることもできる。実施例の特徴をより明確に説明するために、以下の実施例が属する技術分野で通常の知識を有する者に広く知られている事項についての詳細な説明は省略する。そして、図面で実施例の説明に関係ない部分は省略し、明細書全般にわたって類似の部分に対しては類似の図面符号を付けた。

明細書全般で、ある構成が他の構成と連結されていると言うとき、これは直接的に連結されている場合だけではなく、その中間に他の構成を挟んで連結されている場合も含む。また、ある構成が他の構成を含むというとき、特に反対の記載がない限り、さらに他の構成を除くものではなくて他の構成をさらに含むこともできることを意味する。

まず、本明細書でよく使われる用語の意味を定義する。

‘目標作業（ｔａｒｇｅｔｔａｓｋ）’とはエージェントがこれを達成する場合に補償が与えられる作業を意味し、‘目標データ（ｔａｒｇｅｔｄａｔａ）’とはエージェントが強化学習を遂行する過程で獲得される目標に関連したデータを意味する。本明細書で説明する実施例では、目標イメージ（ｔａｒｇｅｔｉｍａｇｅ）が目標データとして使われると仮定し、目標データ及び目標イメージの具体的な例又はこれを収集する具体的な方法については以下で詳細に説明する。

‘目標志向的強化学習（ｔａｒｇｅｔｏｒｉｅｎｔｅｄｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）’とは本明細書で提示する新しい強化学習方法であり、一般的な強化学習とともに目標データに対する学習を遂行することにより、目標についての情報をエージェントが獲得することができるようにする学習方法を意味する。

‘補助学習（ａｕｘｉｌｉａｒｙｌｅａｒｎｉｎｇ）’又は‘補助作業（ａｕｘｉｌｉａｒｙｔａｓｋ）’とは一つのディープラーニングモデルで学習しようとするメイン作業を遂行する過程で直間接的に得られる情報を出力にしてメイン作業とともに学習することを意味する。補助学習を用いれば、グラジエントをさらに確保することにより、モデルの深い層を学習するか、追加的な情報を学習することにより、メイン作業を学習するのに役立つことができる。

以上で定義しなかった用語は以下で必要時に定義する。

以下、添付図面に基づいて実施例を詳細に説明する。

図１は一実施例による目標志向的強化学習を遂行するためのモデルを示す図、図２は一実施例による目標志向的強化学習を遂行するためのコンピューティング装置の構成を示す図である。図１に示したモデルは、図２のコンピューティング装置２００の制御部２２０が保存部２３０に保存されたプログラムを実行することによって具現することができる。以下では、コンピューティング装置２００に含まれた構成について先に簡単に説明した後、図１に示した強化学習モデルを介して目標志向的強化学習を遂行する方法について詳細に説明する。

図２を参照すると、一実施例によるコンピューティング装置２００は、入出力部２１０、制御部２２０及び保存部２３０を含むことができる。

入出力部２１０は、強化学習に関連した使用者の命令やデータを受信し、強化学習を遂行した結果を出力するための構成である。入出力部２１０は使用者から入力を受信するための多様な種類の入力装置（例えば、キーボード、タッチスクリーンなど）を含むことができ、さらに強化学習に使われるデータ及び強化学習結果データを送受信するための連結ポートや通信モジュールを含むこともできる。

制御部２２０はＣＰＵなどのような少なくとも一つのプロセッサを含む構成であり、保存部２３０に保存されたプログラムを実行することにより、以下で提示するプロセスによって強化学習を遂行する。言い換えれば、制御部２２０が保存部２３０に保存されたプログラムを実行することにより、図１に示した目標志向的強化学習モデル１００を具現し、制御部２２０は目標志向的強化学習モデル１００を介して強化学習を遂行する。制御部２２０が目標志向的強化学習モデル１００を用いて強化学習を遂行する方法については以下で図１を参照して詳細に説明する。

保存部２３０はファイル及びプログラムを保存することができる構成であり、多様な種類のメモリから構成されることができる。特に、保存部２３０は、制御部２２０が以下で提示するプロセスによって目標志向的強化学習のための演算を遂行することができるようにするデータ及びプログラムを保存することができる。また、保存部２３０は強化学習を遂行する過程で収集された目標イメージがラベリング（ｌａｂｅｌｉｎｇ）されて保存され、学習に使われることができる。

以下では、制御部２２０が保存部２３０に保存されたプログラムを実行させることにより一実施例による目標志向的強化学習を遂行する過程について図１を参照して詳細に説明する。

前述したように、目標志向的強化学習モデル１００は制御部２２０が保存部２３０に保存されたプログラムを実行することにより具現されるものなので、以後の実施例で目標志向的強化学習モデル１００が遂行すると説明される動作やプロセスは、実際には制御部２２０が遂行するものと見なされる。また、目標志向的強化学習モデル１００に含まれる詳細構成は目標志向的強化学習を遂行する全体的なプログラムで特定の機能や役割を担当するソフトウェア単位で見なすことができる。

図１を参照すると、一実施例による目標志向的強化学習モデル１００は、特徴抽出部１１０、行動モジュール１２０及び分類モジュール１３０を含むことができる。

特徴抽出部１１０は状態を示す状態データ及び目標データから特徴を抽出するための構成である。特徴抽出部１１０が状態データから抽出した特徴は行動モジュール１２０に伝達され、目標データから抽出した特徴は分類モジュール１３０に伝達される。行動モジュール１２０は、状態データから抽出された特徴に基づき、政策による行動及び価値を出力することができる。分類モジュール１３０は目標データから抽出された特徴に基づいて目標データを分類することができる。特徴抽出部１１０、行動モジュール１２０及び分類モジュール１３０が遂行する具体的な動作は以下で数式を参照して説明する。

一実施例による目標志向的強化学習モデル１００は、特徴抽出部１１０以後に政策π及び価値関数Ｖを出力する行動モジュール１２０につながる一般的な強化学習モデル構造に、多層パーセプトロン（ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）から構成された分類モジュール１３０をさらに含むことができる。

したがって、特徴抽出部１１０及び行動モジュール１２０は強化学習の遂行時に用いることができ、特徴抽出部１１０及び分類モデル１３０は目標イメージを学習する補助作業の遂行時に用いることができる。言い換えれば、メイン作業の遂行のための損失関数は行動モジュール１２０によって実行し、目標イメージ判別のための補助損失関数は分類モジュール１３０によって実行することができる。

図１を参照すると、エージェントが‘ＧｅｔｔｈｅＡｒｍｏｒ’という指示１を受ければ、ｔ時点での状態ｓ_tを示すイメージ２が特徴抽出部１１０に対する入力として印加される。

特徴抽出部１１０は以下の式１によって状態ｓ_tをエンコードデータに変換する。

ついで、行動モジュール１２０は以下の式２によってｅ_ｔから政策０πと価値関数Ｖを出力する。

ここで、ａ_ｔはｔ時点でエージェントが遂行する行動を意味する。

ここで、Ｌ_Ｐ及びＬ_Ｖはそれぞれ政策の損失及び価値関数の損失を意味し、Ｒ_ｔは最初からｔ－１時点までの補償の和で、リターン（ｒｅｔｕｒｎ）を意味する。Ｈ及びβはそれぞれエントロピーターム及びエントロピー係数を意味する。

目標志向的強化学習モデル１００は、以上で説明したアルゴリズムにしたがって強化学習を遂行する過程で目標イメージを収集し、収集された目標イメージにラベリングを遂行して目標保存部１０に保存する。ここで、目標保存部１０は図２の保存部２３０に含まれる構成であることができる。

目標志向的強化学習モデル１００が目標イメージを収集する過程について詳細に説明すれば次のようである。まず、目標イメージの上位概念である目標データの収集方法について説明し、目標イメージを収集する具体的な例示を説明する。

目標志向的強化学習モデル１００は強化学習を遂行する過程で強化学習の目標に関連したデータを目標データとして収集し、一実施例によれば、強化学習を遂行するエージェントが目標達成に成功すれば、目標の視覚的表現（ｖｉｓｕａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を含むイメージを目標データ（目標イメージ）として収集し、収集された目標データには目標に対応することを意味するラベリングを遂行して保存することができる。

より具体的に説明すれば、目標志向的強化学習モデル１００は、補償獲得又は特定作業遂行の成功又は失敗のようなイベント（例えば、目標状態に到達）が発生すれば、当該イベントに関連したデータを目標データとして収集する。ついで、目標志向的強化学習モデル１００は、収集された目標データに、当該目標データに関連したイベントを示すためのラベリングを遂行してから目標保存部１０に保存する。

例えば、エージェントがゲーム内のキャラクターになってゲームをプレイするケースを想定すれば、目標志向的強化学習モデル１００は、ゲーム内で特定のイベントが発生する前（例えば、エージェントが特定のアイテムを得るかミッションを遂行する前）、一定個数のゲーム画面フレーム（例えば、アイテムを得る時点以前の６０～７０フレーム）を目標イメージとして収集し、収集された目標イメージに対応するイベントを示すためのラベリングを遂行した後、目標保存部１０に保存することができる。すなわち、収集される目標イメージは目標の視覚的表現を含むことができる。

一実施例によれば、目標志向的強化学習モデル１００は、ゲーム内でエージェントが目標を達成して補償を受けるイベントが発生した場合、すなわち目標作業の遂行に成功した場合、イベントが発生した時点以前に一定個数のゲーム画面フレームを目標イメージとして保存し、保存された目標イメージには‘目標’に対応することを意味するラベリングを行うことができる。特徴抽出部１１０及び分類モジュール１３０は保存された目標イメージを介して目標の視覚的表現（ｖｉｓｕａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を学習するようになり、よって特徴抽出部１１０は、状態として印加されるゲーム画面に目標が含まれたら、目標を識別するための特徴を効果的に抽出することにより、強化学習の性能及び効率性を高めることができる。

目標志向的強化学習モデル１００が特定イベントの発生の際に目標データを収集するかは使用者が予め設定しておくことができる。すなわち、目標データは使用者によって指定されるハイパーパラメーター（Ｈｙｐｅｒｐａｒａｍｅｔｅｒ）と見なされる。

目標志向的強化学習モデル１００は強化学習を遂行しながら経験する試行錯誤過程で多数の目標イメージを収集することができる。

ここで、Ｍは目標イメージのバッチ（ｂａｔｃｈ）数を意味する。

このような過程により、目標志向的強化学習モデル１００は目標イメージに対する視覚的表現を学習することができる。すなわち、目標志向的強化学習モデル１００は分類モデル１３０によってどのイメージが目標を示すか又はどのイメージが目標を含んでいるかを判断する方法を学習することができ、特徴抽出部１１０は学習結果を用いることにより、状態ｓ_ｔとして受信するイメージから目標に関連した特徴を抽出することができる。すなわち、エージェントは行動を遂行するとき目標についての情報を用いることにより、学習性能及び効率性を向上させることができる。

言い換えれば、目標志向的強化学習モデル１００は、政策を学習しながら分類モジュール１３０によって目標データを一緒に学習し、よって特徴抽出部１１０は目標をよりうまく分類することができるようになる。すなわち、補助作業によって特徴抽出部１１０が目標データの視覚的表現を学習するものと思われる。

一方、学習される目標イメージは以前の試行錯誤過程で収集されたものであるので、政策による行動出力に用いられない。言い換えれば、特徴抽出部１１０及び分類モジュール１３０を用いた目標イメージに対する学習は訓練時にのみ遂行されるだけである。

以下では、上述したようなコンピューティング装置２００を用いて目標志向的強化学習を遂行する方法を説明する。図３～図５は一実施例による目標志向的強化学習方法を説明するためのフローチャートである。

図３～図５に示した実施例による目標志向的強化学習方法は、図２に示したコンピューティング装置２００で時系列的に処理する段階を含む。よって、以下で省略された内容であると言っても図２のコンピューティング装置２００について以上で記述した内容は図３～図５に示した実施例による目標志向的強化学習方法にも適用することができる。

図３を参照すると、３０１段階で、目標志向的強化学習モデル１００は強化学習を遂行する過程で強化学習の目標に関連したデータを目標データとして収集する。

図４は図３の３０１段階に含まれる詳細段階を示す。図４を参照すると、４０１段階で、目標志向的強化学習モデル１００は強化学習を遂行するエージェントが目標達成に成功すれば、目標の視覚的表現を含むイメージを目標データとして収集する。４０２段階で、目標志向的強化学習モデル１００は目標データに目標に対応することを意味するラベリングを遂行する。

また、図３を参照すると、３０２段階で、目標志向的強化学習モデル１００は強化学習に対する補助学習として目標データを学習する。

図５を参照すると、５０１段階で、目標志向的強化学習モデル１００の特徴抽出部１１０は目標データのバッチデータから特徴を抽出する。５０２段階で、目標志向的強化学習モデル１００の分類モジュール１３０は目標データのバッチデータから抽出された特徴によって予測値を抽出する。５０３段階で、目標志向的強化学習モデル１００は予測値及びバッチデータのラベルを用いて補助学習に対する損失を算出する。５０４段階で、目標志向的強化学習モデル１００は補助学習に対する損失を用いて目標データに対する視覚的表現を学習する。目標志向的強化学習モデル１００が強化学習に対する補助学習として目標データを学習する具体的な方法は先に式６～８を参照して説明したようである。

以上で説明した実施例によれば、強化学習を遂行する過程で目標イメージを収集し、収集された目標イメージを一緒に学習することにより、早くて効率的な学習を助け、強化学習の性能及び効率性を高める効果を期待することができる。

一般的な強化学習でエージェントが政策を学習するためには幾多の試行錯誤を経験しなければならなく、多くの試行錯誤にもかかわらず学習性能が高くない問題があるが、本明細書で提示する実施例によればこのような問題点を解決することができる。

また、学習過程で外部データを追加する方式ではなく、強化学習を遂行する過程で収集されるデータを用いるので、外部の介入なしに学習が可能であるという利点がある。

以上の実施例で使われる‘～部’という用語はソフトウェア又はＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）又はＡＳＩＣのようなハードウェア構成要素を意味し、‘～部’はある役割をする。しかし、‘～部’はソフトウェア又はハードウェアに限定される意味ではない。‘～部’はアドレス可能な記憶媒体にあるように構成されることもでき、一つ又はそれ以上のプロセッサを再生させるように構成されることもできる。よって、一例として、‘～部’はソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラム特許コードのセグメント、ドライバー、ファームウエア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、及び変数を含む。

構成要素及び‘～部’内で提供される機能はより小さな数の構成要素及び‘～部’と結合するか追加的な構成要素及び‘～部’から分離されることができる。

それだけでなく、構成要素及び’～部’はデバイス又は保安マルチメディアカード内の一つ又はそれ以上のＣＰＵを再生させるように具現されることもできる。

図３～図５に基づいて説明した実施例による目標志向的強化学習方法は、コンピュータによって実行可能な命令語及びデータを記憶する、コンピュータ可読の媒体の形態にも具現されることができる。ここで、命令語及びデータはプログラムコードの形態として記憶されることができ、プロセッサによって実行されたとき、所定のプログラムモジュールを生成して所定の動作を実行することができる。また、コンピュータ可読の媒体はコンピュータによってアクセス可能な任意の可用媒体であってもよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれも含む。また、コンピュータ可読の媒体はコンピュータ記録媒体であってもよい。コンピュータ記録媒体はコンピュータ可読の命令語、データ構造、プログラムモジュール又はその他のデータのような情報の記憶のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれも含むことができる。例えば、コンピュータ記録媒体は、ＨＤＤ及びＳＳＤなどのマグネチック記憶媒体、ＣＤ、ＤＶＤ及びブルーレイディスクなどの光学的記録媒体、又はネットワークを介して接近可能なサーバーに含まれるメモリであってもよい。

また、図３～図５に基づいて説明した実施例による目標志向的強化学習方法はコンピュータによって実行可能な命令語を含むコンピュータプログラム（又はコンピュータプログラム商品）で具現されることもできる。コンピュータプログラムはプロセッサによって処理されるプログラミング可能な機械命令語を含み、高レベルプログラミング言語（Ｈｉｇｈ－ｌｅｖｅｌＰｒｏｇｒａｍｍｉｎｇＬａｎｇｕａｇｅ）、オブジェクト指向プログラミング言語（Ｏｂｊｅｃｔ－ｏｒｉｅｎｔｅｄＰｒｏｇｒａｍｍｉｎｇＬａｎｇｕａｇｅ）、アセンブリー言語又は機械言語などで具現されることができる。また、コンピュータプログラムは類型のコンピュータ判読可能記録媒体（例えば、メモリ、ハードディスク、磁気／光学媒体又はＳＳＤ（Ｓｏｌｉｄ－ＳｔａｔｅＤｒｉｖｅ）など）に記録できる。

したがって、図３～図５に基づいて説明した実施例による目標志向的強化学習方法は上述したようなコンピュータプログラムがコンピューティング装置によって実行されることによって具現されることができる。コンピューティング装置は、プロセッサと、メモリと、記憶装置と、メモリ及び高速拡張ポートに接続している高速インターフェースと、低速バスと記憶装置に接続している低速インターフェースの少なくとも一部を含むことができる。このような成分のそれぞれは多様なバスを用いて互いに接続されており、共通マザーボードに搭載されるか他の適切な方式で装着できる。

ここで、プロセッサはコンピューティング装置内で命令語を処理することができる。このような命令語としては、例えば高速インターフェースに接続されたディスプレイのように外部入力及び出力装置上にＧＵＩ（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供するためのグラフィック情報を表示するためにメモリ又は記憶装置に記憶された命令語を有することができる。他の実施例として、多数のプロセッサ及び／又は多数のバスが適切に多数のメモリ及びメモリ形態と一緒に用いられることができる。また、プロセッサは独立的な多数のアナログ及び／又はデジタルプロセッサを含むチップからなるチップセットで具現されることができる。

また、メモリはコンピューティング装置内に情報を記憶する。一例として、メモリは揮発性メモリユニット又はそれらの集合で構成されることができる。他の例として、メモリは不揮発性メモリユニット又はそれらの集合で構成されることができる。また、メモリは、例えば磁気又は光ディスクのような他の形態のコンピュータ可読の媒体であってもよい。

そして、記憶装置はコンピューティング装置に大容量の記憶空間を提供することができる。記憶装置はコンピュータ可読の媒体であるかこのような媒体を含む構成であってもよく、例えばＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）内の装置又は他の構成も含むことができ、フロッピーディスク装置、ハードディスク装置、光ディスク装置、又はテープ装置、フラッシュメモリー、それと類似した他の半導体メモリ装置又は装置アレイであってもよい。

上述した実施例は例示のためのものであり、上述した実施例が属する技術分野の通常の知識を有する者は上述した実施例が有する技術的思想又は必須な特徴を変更しなくて他の具体的な形態に易しく変形可能であることを理解することができるであろう。したがって、上述した実施例は全ての面で例示的なもので、限定的なものではないことを理解しなければならない。例えば、単一型として説明されている各構成要素は分散されて実施されることもでき、同様に分散されたものとして説明されている構成要素も結合された形態に実施されることができる。

本明細書によって保護を受けようとする範囲は前記詳細な説明よりは後述する特許請求範囲によって決定され、特許請求範囲の意味及び範囲とその均等な概念から導出される全ての変更又は変形の形態を含むものに解釈されなければならない。

１０目標保存部
１１０特徴抽出部
１２０行動モジュール
１３０分類モジュール
２１０入出力部
２２０制御部
２３０保存部

Claims

目標志向的強化学習モデルによって遂行する強化学習方法であって、
強化学習を遂行する過程で前記強化学習の目標に関連したデータを目標データとして収集する段階と、
前記強化学習に対する補助学習として前記収集された目標データを学習する段階と、及び、
前記目標データを学習した結果を前記強化学習遂行の際に反映する段階とを含む、強化学習方法であって、
前記目標志向的強化学習モデルは、
状態データ及び目標データから特徴を抽出するための特徴抽出部と、
前記状態データから抽出された特徴に基づき、政策による行動及び価値を出力するための行動モジュールと、及び、
前記目標データから抽出された特徴に基づいて前記目標データを分類するための分類モジュールとを含む強化学習方法であって、
前記収集された目標データを学習する段階は、
前記特徴抽出部が前記目標データのバッチデータ（ｂａｔｃｈｄａｔａ）から特徴を抽出する段階と、
前記分類モジュールが前記目標データのバッチデータから抽出された特徴によって予測値を抽出する段階と、
前記目標志向的強化学習モデルが予測値及び前記バッチデータのラベルを用いて前記補助学習に対する損失を算出する段階と、及び、
前記目標志向的強化学習モデルが前記補助学習に対する損失を用いて前記目標データに対する視覚的表現を学習する段階とを含むことを特徴とする、強化学習方法。
前記目標データとして収集する段階は、
前記強化学習を遂行するエージェントが前記目標達成に成功すれば、前記目標の視覚的表現を含むイメージを前記目標データとして収集する段階と、及び、
前記目標データに目標に対応することを意味するラベリングを遂行する段階とを含むことを特徴とする、請求項１に記載の強化学習方法。
コンピュータで請求項１項に記載の方法を実行させるためのプログラムが記録されたコンピュータ可読の記録媒体。
コンピューティング装置によって遂行され、請求項１に記載の方法を遂行するために媒体に保存された、コンピュータプログラム。
目標志向的強化学習を遂行するためのコンピューティング装置であって、
データを受信し、これを演算処理した結果を出力するための入出力部と、
強化学習を遂行するためのプログラム及び前記強化学習を遂行する過程で収集される目標データを保存する保存部と、及び、
少なくとも一つのプロセッサを含み、前記プログラムを実行させることにより、前記入出力部を介して受信されたデータを用いて強化学習を遂行する制御部とを含み、
前記制御部が前記プログラムを実行することによって具現される目標志向的強化学習モデルは、
前記強化学習を遂行する過程で前記強化学習の目標に関連したデータを前記目標データとして収集し、前記強化学習に対する補助学習として前記収集された目標データを学習し、前記目標データを学習した結果を前記強化学習遂行の際に反映する、コンピューティング装置であって、
前記目標志向的強化学習モデルは、
状態データ及び目標データから特徴を抽出するための特徴抽出部と、
前記状態データから抽出された特徴に基づき、政策による行動及び価値を出力するための行動モジュールと、及び、
前記目標データから抽出された特徴に基づいて前記目標データを分類するための分類モジュールとを含むコンピューティング装置であって、
前記目標志向的強化学習モデルは、前記収集された目標データを学習するにあたり、
前記特徴抽出部が前記目標データのバッチデータ（ｂａｔｃｈｄａｔａ）から特徴を抽出し、前記分類モジュールが前記目標データのバッチデータから抽出された特徴によって予測値を抽出し、前記目標志向的強化学習モデルが前記予測値及び前記バッチデータのラベルを用いて前記補助学習に対する損失を算出し、前記目標志向的強化学習モデルが前記補助学習に対する損失を用いて前記目標データに対する視覚的表現を学習することを特徴とする、コンピューティング装置。
前記目標志向的強化学習モデルは、前記目標データを収集するにあたり、
前記強化学習を遂行するエージェントが前記目標達成に成功すれば、前記目標の視覚的表現を含むイメージを前記目標データとして収集し、前記目標データには目標に対応することを意味するラベリングを遂行することを特徴とする、請求項５に記載のコンピューティング装置。