JP7348296B2 - 目標志向的強化学習方法及びこれを遂行するための装置 - Google Patents

目標志向的強化学習方法及びこれを遂行するための装置 Download PDF

Info

Publication number
JP7348296B2
JP7348296B2 JP2021546353A JP2021546353A JP7348296B2 JP 7348296 B2 JP7348296 B2 JP 7348296B2 JP 2021546353 A JP2021546353 A JP 2021546353A JP 2021546353 A JP2021546353 A JP 2021546353A JP 7348296 B2 JP7348296 B2 JP 7348296B2
Authority
JP
Japan
Prior art keywords
reinforcement learning
goal
data
target data
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021546353A
Other languages
English (en)
Other versions
JP2023502804A (ja
Inventor
ジャン,ビョン-タク
キム,キボム
リ,ミンス
フ リ,ミン
キム,ユンソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SNU R&DB Foundation
Original Assignee
Seoul National University R&DB Foundation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seoul National University R&DB Foundation filed Critical Seoul National University R&DB Foundation
Publication of JP2023502804A publication Critical patent/JP2023502804A/ja
Application granted granted Critical
Publication of JP7348296B2 publication Critical patent/JP7348296B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

特許法第30条第2項適用 Korea Software Congress2019 韓国情報科学会2019 韓国ソフトウェア総合学術大会論文集(530ページ~532ページ掲載)
本明細書で開示する実施例は強化学習の効率性を高めるために目標に対する学習を一緒に遂行する目標志向的強化学習方法及びこれを遂行するための装置に関する。
本研究は科学技術情報通信部と情報通信企画評価院のICT融合産業源泉技術開発事業の研究結果として遂行された(IITP-2018-0-00622-003)。
本研究は産業通商資源部と韓国産業技術振興院の産業技術国際協力事業の研究結果として遂行された(KIAT-P0006720)。
本研究は科学技術情報通信部と情報通信企画評価院のSWコンピューティング産業源泉技術開発事業の研究結果として遂行された(IITP-2015-0-00310-006)。
本研究は教育部と韓国研究財団の個人基礎研究事業の研究結果として遂行された(NRF-2018R1D1A1B07049923)。
強化学習(reinforcement learning)とは与えられた状態(state)で最適の行動(action)を選択するための学習方法である。ここで、学習の主体となる構成をエージェント(agent)といい、エージェントは学習によって補償(reward)を最大化する方向に行動を選択するための政策(policy)を樹立する。
一般的な強化学習によれば、エージェントは目標(target)についての情報を持っていない状態で探索(exploration)によって最適の行動が何であるかを学習する過程を繰り返す。言い換えれば、エージェントは、無数に多い行動を遂行しながら、どの場合に補償が得られ、どの場合には補償が得られないかを確認し、その結果によってどの行動が最適であるかを判断するので多くの試行錯誤を経験することになり、それによって強化学習は効率性が低い問題を持っている。また、稀少補償状況では補償を獲得するようになる状況自体がたまに発生するので強化学習の効果が低くなることがある。
一方、前述した背景技術は発明者が本発明の導出のために保有しているか本発明の導出過程で習得した技術情報であり、必ずしも本発明の出願前に一般の公衆に公開された公知技術であるとは言えない。
本明細書で開示する実施例は、強化学習を遂行する過程で容易に得られる目標データ(target data)を介して目標に対する学習も一緒に遂行することにより学習効率を高めるための方法及び装置を提供しようとする。
このような技術的課題を解決するために本明細書で開示する実施例では、強化学習を遂行する過程で収集されるデータを用いて強化学習の目標に対する学習を遂行し、学習結果を反映して強化学習を遂行する。
前述した課題解決手段のいずれか一つによれば、強化学習を遂行しながら目標データに対する学習も一緒に遂行することにより、早くて効率的な学習を助け、強化学習の効果及び効率性を高める効果を期待することができる。
また、前述した課題解決手段のいずれか一つによれば、一般的な強化学習モデルを遂行する過程で容易に得られる目標データを介して学習を遂行して目標についての情報を獲得することにより、効率的に強化学習の効果を高める利点がある。
開示する実施例で得られる効果は以上で言及した効果に制限されず、言及しなかった他の効果は下記の記載で開示する実施例が属する技術分野で通常の知識を有する者に明らかに理解可能であろう。
一実施例による目標志向的強化学習を遂行するためのモデルを示す図である。 一実施例による目標志向的強化学習を遂行するためのコンピューティング装置の構成を示す図である。 実施例による目標志向的強化学習を説明するためのフローチャートである。 実施例による目標志向的強化学習を説明するためのフローチャートである。 実施例による目標志向的強化学習を説明するためのフローチャートである。
上述した技術的課題を達成するための技術的手段として、一実施例によれば、目標志向的強化学習方法は、強化学習を遂行する過程で前記強化学習の目標に関連したデータを目標データとして収集する段階と、前記強化学習に対する補助学習として前記収集された目標データを学習する段階と、前記目標データを学習した結果を前記強化学習遂行の際に反映する段階とを含む。
他の実施例によれば、目標志向的強化学習方法を遂行するためのコンピュータプログラムを提供し、目標志向的強化学習方法は、強化学習を遂行する過程で前記強化学習の目標に関連したデータを目標データとして収集する段階と、前記強化学習に対する補助学習として前記収集された目標データを学習する段階と、前記目標データを学習した結果を前記強化学習遂行の際に反映する段階とを含む。
さらに他の実施例によれば、目標志向的強化学習方法を遂行するためのプログラムが記録されたコンピュータ可読の記録媒体を提供し、目標志向的強化学習方法は、強化学習を遂行する過程で前記強化学習の目標に関連したデータを目標データとして収集する段階と、前記強化学習に対する補助学習として前記収集された目標データを学習する段階と、前記目標データを学習した結果を前記強化学習遂行の際に反映する段階とを含む。
さらに他の実施例によれば、目標志向的強化学習を遂行するためのコンピューティング装置は、データを受信し、これを演算処理した結果を出力するための入出力部と、強化学習を遂行するためのプログラム及び前記強化学習を遂行する過程で収集される目標データを保存する保存部と、少なくとも一つのプロセッサを含み、前記プログラムを実行させることにより、前記入出力部を介して受信されたデータを用いて強化学習を遂行する制御部とを含み、前記制御部が前記プログラムを実行することによって具現される目標志向的強化学習モデルは、前記強化学習を遂行する過程で前記強化学習の目標に関連したデータを前記目標データとして収集し、前記強化学習に対する補助学習として前記収集された目標データを学習し、前記目標データを学習した結果を前記強化学習遂行の際に反映する。
以下では添付図面に基づいて多様な実施例を詳細に説明する。以下で説明する実施例は様々な相異なる形態に変形されて実施されることもできる。実施例の特徴をより明確に説明するために、以下の実施例が属する技術分野で通常の知識を有する者に広く知られている事項についての詳細な説明は省略する。そして、図面で実施例の説明に関係ない部分は省略し、明細書全般にわたって類似の部分に対しては類似の図面符号を付けた。
明細書全般で、ある構成が他の構成と連結されていると言うとき、これは直接的に連結されている場合だけではなく、その中間に他の構成を挟んで連結されている場合も含む。また、ある構成が他の構成を含むというとき、特に反対の記載がない限り、さらに他の構成を除くものではなくて他の構成をさらに含むこともできることを意味する。
まず、本明細書でよく使われる用語の意味を定義する。
‘目標作業(target task)’とはエージェントがこれを達成する場合に補償が与えられる作業を意味し、‘目標データ(target data)’とはエージェントが強化学習を遂行する過程で獲得される目標に関連したデータを意味する。本明細書で説明する実施例では、目標イメージ(target image)が目標データとして使われると仮定し、目標データ及び目標イメージの具体的な例又はこれを収集する具体的な方法については以下で詳細に説明する。
‘目標志向的強化学習(target oriented reinforcement learning)’とは本明細書で提示する新しい強化学習方法であり、一般的な強化学習とともに目標データに対する学習を遂行することにより、目標についての情報をエージェントが獲得することができるようにする学習方法を意味する。
‘補助学習(auxiliary learning)’又は‘補助作業(auxiliary task)’とは一つのディープラーニングモデルで学習しようとするメイン作業を遂行する過程で直間接的に得られる情報を出力にしてメイン作業とともに学習することを意味する。補助学習を用いれば、グラジエントをさらに確保することにより、モデルの深い層を学習するか、追加的な情報を学習することにより、メイン作業を学習するのに役立つことができる。
以上で定義しなかった用語は以下で必要時に定義する。
以下、添付図面に基づいて実施例を詳細に説明する。
図1は一実施例による目標志向的強化学習を遂行するためのモデルを示す図、図2は一実施例による目標志向的強化学習を遂行するためのコンピューティング装置の構成を示す図である。図1に示したモデルは、図2のコンピューティング装置200の制御部220が保存部230に保存されたプログラムを実行することによって具現することができる。以下では、コンピューティング装置200に含まれた構成について先に簡単に説明した後、図1に示した強化学習モデルを介して目標志向的強化学習を遂行する方法について詳細に説明する。
図2を参照すると、一実施例によるコンピューティング装置200は、入出力部210、制御部220及び保存部230を含むことができる。
入出力部210は、強化学習に関連した使用者の命令やデータを受信し、強化学習を遂行した結果を出力するための構成である。入出力部210は使用者から入力を受信するための多様な種類の入力装置(例えば、キーボード、タッチスクリーンなど)を含むことができ、さらに強化学習に使われるデータ及び強化学習結果データを送受信するための連結ポートや通信モジュールを含むこともできる。
制御部220はCPUなどのような少なくとも一つのプロセッサを含む構成であり、保存部230に保存されたプログラムを実行することにより、以下で提示するプロセスによって強化学習を遂行する。言い換えれば、制御部220が保存部230に保存されたプログラムを実行することにより、図1に示した目標志向的強化学習モデル100を具現し、制御部220は目標志向的強化学習モデル100を介して強化学習を遂行する。制御部220が目標志向的強化学習モデル100を用いて強化学習を遂行する方法については以下で図1を参照して詳細に説明する。
保存部230はファイル及びプログラムを保存することができる構成であり、多様な種類のメモリから構成されることができる。特に、保存部230は、制御部220が以下で提示するプロセスによって目標志向的強化学習のための演算を遂行することができるようにするデータ及びプログラムを保存することができる。また、保存部230は強化学習を遂行する過程で収集された目標イメージがラベリング(labeling)されて保存され、学習に使われることができる。
以下では、制御部220が保存部230に保存されたプログラムを実行させることにより一実施例による目標志向的強化学習を遂行する過程について図1を参照して詳細に説明する。
前述したように、目標志向的強化学習モデル100は制御部220が保存部230に保存されたプログラムを実行することにより具現されるものなので、以後の実施例で目標志向的強化学習モデル100が遂行すると説明される動作やプロセスは、実際には制御部220が遂行するものと見なされる。また、目標志向的強化学習モデル100に含まれる詳細構成は目標志向的強化学習を遂行する全体的なプログラムで特定の機能や役割を担当するソフトウェア単位で見なすことができる。
図1を参照すると、一実施例による目標志向的強化学習モデル100は、特徴抽出部110、行動モジュール120及び分類モジュール130を含むことができる。
特徴抽出部110は状態を示す状態データ及び目標データから特徴を抽出するための構成である。特徴抽出部110が状態データから抽出した特徴は行動モジュール120に伝達され、目標データから抽出した特徴は分類モジュール130に伝達される。行動モジュール120は、状態データから抽出された特徴に基づき、政策による行動及び価値を出力することができる。分類モジュール130は目標データから抽出された特徴に基づいて目標データを分類することができる。特徴抽出部110、行動モジュール120及び分類モジュール130が遂行する具体的な動作は以下で数式を参照して説明する。
一実施例による目標志向的強化学習モデル100は、特徴抽出部110以後に政策π及び価値関数Vを出力する行動モジュール120につながる一般的な強化学習モデル構造に、多層パーセプトロン(multilayer perceptron)から構成された分類モジュール130をさらに含むことができる。
したがって、特徴抽出部110及び行動モジュール120は強化学習の遂行時に用いることができ、特徴抽出部110及び分類モデル130は目標イメージを学習する補助作業の遂行時に用いることができる。言い換えれば、メイン作業の遂行のための損失関数は行動モジュール120によって実行し、目標イメージ判別のための補助損失関数は分類モジュール130によって実行することができる。
図1を参照すると、エージェントが‘Get the Armor’という指示1を受ければ、t時点での状態stを示すイメージ2が特徴抽出部110に対する入力として印加される。
特徴抽出部110は以下の式1によって状態stをエンコードデータに変換する。
ついで、行動モジュール120は以下の式2によってeから政策0πと価値関数Vを出力する。
ここで、aはt時点でエージェントが遂行する行動を意味する。
ここで、L及びLはそれぞれ政策の損失及び価値関数の損失を意味し、Rは最初からt-1時点までの補償の和で、リターン(return)を意味する。H及びβはそれぞれエントロピーターム及びエントロピー係数を意味する。
目標志向的強化学習モデル100は、以上で説明したアルゴリズムにしたがって強化学習を遂行する過程で目標イメージを収集し、収集された目標イメージにラベリングを遂行して目標保存部10に保存する。ここで、目標保存部10は図2の保存部230に含まれる構成であることができる。
目標志向的強化学習モデル100が目標イメージを収集する過程について詳細に説明すれば次のようである。まず、目標イメージの上位概念である目標データの収集方法について説明し、目標イメージを収集する具体的な例示を説明する。
目標志向的強化学習モデル100は強化学習を遂行する過程で強化学習の目標に関連したデータを目標データとして収集し、一実施例によれば、強化学習を遂行するエージェントが目標達成に成功すれば、目標の視覚的表現(visual representation)を含むイメージを目標データ(目標イメージ)として収集し、収集された目標データには目標に対応することを意味するラベリングを遂行して保存することができる。
より具体的に説明すれば、目標志向的強化学習モデル100は、補償獲得又は特定作業遂行の成功又は失敗のようなイベント(例えば、目標状態に到達)が発生すれば、当該イベントに関連したデータを目標データとして収集する。ついで、目標志向的強化学習モデル100は、収集された目標データに、当該目標データに関連したイベントを示すためのラベリングを遂行してから目標保存部10に保存する。
例えば、エージェントがゲーム内のキャラクターになってゲームをプレイするケースを想定すれば、目標志向的強化学習モデル100は、ゲーム内で特定のイベントが発生する前(例えば、エージェントが特定のアイテムを得るかミッションを遂行する前)、一定個数のゲーム画面フレーム(例えば、アイテムを得る時点以前の60~70フレーム)を目標イメージとして収集し、収集された目標イメージに対応するイベントを示すためのラベリングを遂行した後、目標保存部10に保存することができる。すなわち、収集される目標イメージは目標の視覚的表現を含むことができる。
一実施例によれば、目標志向的強化学習モデル100は、ゲーム内でエージェントが目標を達成して補償を受けるイベントが発生した場合、すなわち目標作業の遂行に成功した場合、イベントが発生した時点以前に一定個数のゲーム画面フレームを目標イメージとして保存し、保存された目標イメージには‘目標’に対応することを意味するラベリングを行うことができる。特徴抽出部110及び分類モジュール130は保存された目標イメージを介して目標の視覚的表現(visual representation)を学習するようになり、よって特徴抽出部110は、状態として印加されるゲーム画面に目標が含まれたら、目標を識別するための特徴を効果的に抽出することにより、強化学習の性能及び効率性を高めることができる。
目標志向的強化学習モデル100が特定イベントの発生の際に目標データを収集するかは使用者が予め設定しておくことができる。すなわち、目標データは使用者によって指定されるハイパーパラメーター(Hyperparameter)と見なされる。
目標志向的強化学習モデル100は強化学習を遂行しながら経験する試行錯誤過程で多数の目標イメージを収集することができる。
ここで、Mは目標イメージのバッチ(batch)数を意味する。
このような過程により、目標志向的強化学習モデル100は目標イメージに対する視覚的表現を学習することができる。すなわち、目標志向的強化学習モデル100は分類モデル130によってどのイメージが目標を示すか又はどのイメージが目標を含んでいるかを判断する方法を学習することができ、特徴抽出部110は学習結果を用いることにより、状態sとして受信するイメージから目標に関連した特徴を抽出することができる。すなわち、エージェントは行動を遂行するとき目標についての情報を用いることにより、学習性能及び効率性を向上させることができる。
言い換えれば、目標志向的強化学習モデル100は、政策を学習しながら分類モジュール130によって目標データを一緒に学習し、よって特徴抽出部110は目標をよりうまく分類することができるようになる。すなわち、補助作業によって特徴抽出部110が目標データの視覚的表現を学習するものと思われる。
一方、学習される目標イメージは以前の試行錯誤過程で収集されたものであるので、政策による行動出力に用いられない。言い換えれば、特徴抽出部110及び分類モジュール130を用いた目標イメージに対する学習は訓練時にのみ遂行されるだけである。
以下では、上述したようなコンピューティング装置200を用いて目標志向的強化学習を遂行する方法を説明する。図3~図5は一実施例による目標志向的強化学習方法を説明するためのフローチャートである。
図3~図5に示した実施例による目標志向的強化学習方法は、図2に示したコンピューティング装置200で時系列的に処理する段階を含む。よって、以下で省略された内容であると言っても図2のコンピューティング装置200について以上で記述した内容は図3~図5に示した実施例による目標志向的強化学習方法にも適用することができる。
図3を参照すると、301段階で、目標志向的強化学習モデル100は強化学習を遂行する過程で強化学習の目標に関連したデータを目標データとして収集する。
図4は図3の301段階に含まれる詳細段階を示す。図4を参照すると、401段階で、目標志向的強化学習モデル100は強化学習を遂行するエージェントが目標達成に成功すれば、目標の視覚的表現を含むイメージを目標データとして収集する。402段階で、目標志向的強化学習モデル100は目標データに目標に対応することを意味するラベリングを遂行する。
また、図3を参照すると、302段階で、目標志向的強化学習モデル100は強化学習に対する補助学習として目標データを学習する。
図5を参照すると、501段階で、目標志向的強化学習モデル100の特徴抽出部110は目標データのバッチデータから特徴を抽出する。502段階で、目標志向的強化学習モデル100の分類モジュール130は目標データのバッチデータから抽出された特徴によって予測値を抽出する。503段階で、目標志向的強化学習モデル100は予測値及びバッチデータのラベルを用いて補助学習に対する損失を算出する。504段階で、目標志向的強化学習モデル100は補助学習に対する損失を用いて目標データに対する視覚的表現を学習する。目標志向的強化学習モデル100が強化学習に対する補助学習として目標データを学習する具体的な方法は先に式6~8を参照して説明したようである。
以上で説明した実施例によれば、強化学習を遂行する過程で目標イメージを収集し、収集された目標イメージを一緒に学習することにより、早くて効率的な学習を助け、強化学習の性能及び効率性を高める効果を期待することができる。
一般的な強化学習でエージェントが政策を学習するためには幾多の試行錯誤を経験しなければならなく、多くの試行錯誤にもかかわらず学習性能が高くない問題があるが、本明細書で提示する実施例によればこのような問題点を解決することができる。
また、学習過程で外部データを追加する方式ではなく、強化学習を遂行する過程で収集されるデータを用いるので、外部の介入なしに学習が可能であるという利点がある。
以上の実施例で使われる‘~部’という用語はソフトウェア又はFPGA(field programmable gate array)又はASICのようなハードウェア構成要素を意味し、‘~部’はある役割をする。しかし、‘~部’はソフトウェア又はハードウェアに限定される意味ではない。‘~部’はアドレス可能な記憶媒体にあるように構成されることもでき、一つ又はそれ以上のプロセッサを再生させるように構成されることもできる。よって、一例として、‘~部’はソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラム特許コードのセグメント、ドライバー、ファームウエア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、及び変数を含む。
構成要素及び‘~部’内で提供される機能はより小さな数の構成要素及び‘~部’と結合するか追加的な構成要素及び‘~部’から分離されることができる。
それだけでなく、構成要素及び’~部’はデバイス又は保安マルチメディアカード内の一つ又はそれ以上のCPUを再生させるように具現されることもできる。
図3~図5に基づいて説明した実施例による目標志向的強化学習方法は、コンピュータによって実行可能な命令語及びデータを記憶する、コンピュータ可読の媒体の形態にも具現されることができる。ここで、命令語及びデータはプログラムコードの形態として記憶されることができ、プロセッサによって実行されたとき、所定のプログラムモジュールを生成して所定の動作を実行することができる。また、コンピュータ可読の媒体はコンピュータによってアクセス可能な任意の可用媒体であってもよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれも含む。また、コンピュータ可読の媒体はコンピュータ記録媒体であってもよい。コンピュータ記録媒体はコンピュータ可読の命令語、データ構造、プログラムモジュール又はその他のデータのような情報の記憶のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれも含むことができる。例えば、コンピュータ記録媒体は、HDD及びSSDなどのマグネチック記憶媒体、CD、DVD及びブルーレイディスクなどの光学的記録媒体、又はネットワークを介して接近可能なサーバーに含まれるメモリであってもよい。
また、図3~図5に基づいて説明した実施例による目標志向的強化学習方法はコンピュータによって実行可能な命令語を含むコンピュータプログラム(又はコンピュータプログラム商品)で具現されることもできる。コンピュータプログラムはプロセッサによって処理されるプログラミング可能な機械命令語を含み、高レベルプログラミング言語(High-level Programming Language)、オブジェクト指向プログラミング言語(Object-oriented Programming Language)、アセンブリー言語又は機械言語などで具現されることができる。また、コンピュータプログラムは類型のコンピュータ判読可能記録媒体(例えば、メモリ、ハードディスク、磁気/光学媒体又はSSD(Solid-State Drive)など)に記録できる。
したがって、図3~図5に基づいて説明した実施例による目標志向的強化学習方法は上述したようなコンピュータプログラムがコンピューティング装置によって実行されることによって具現されることができる。コンピューティング装置は、プロセッサと、メモリと、記憶装置と、メモリ及び高速拡張ポートに接続している高速インターフェースと、低速バスと記憶装置に接続している低速インターフェースの少なくとも一部を含むことができる。このような成分のそれぞれは多様なバスを用いて互いに接続されており、共通マザーボードに搭載されるか他の適切な方式で装着できる。
ここで、プロセッサはコンピューティング装置内で命令語を処理することができる。このような命令語としては、例えば高速インターフェースに接続されたディスプレイのように外部入力及び出力装置上にGUI(Graphic User Interface)を提供するためのグラフィック情報を表示するためにメモリ又は記憶装置に記憶された命令語を有することができる。他の実施例として、多数のプロセッサ及び/又は多数のバスが適切に多数のメモリ及びメモリ形態と一緒に用いられることができる。また、プロセッサは独立的な多数のアナログ及び/又はデジタルプロセッサを含むチップからなるチップセットで具現されることができる。
また、メモリはコンピューティング装置内に情報を記憶する。一例として、メモリは揮発性メモリユニット又はそれらの集合で構成されることができる。他の例として、メモリは不揮発性メモリユニット又はそれらの集合で構成されることができる。また、メモリは、例えば磁気又は光ディスクのような他の形態のコンピュータ可読の媒体であってもよい。
そして、記憶装置はコンピューティング装置に大容量の記憶空間を提供することができる。記憶装置はコンピュータ可読の媒体であるかこのような媒体を含む構成であってもよく、例えばSAN(Storage Area Network)内の装置又は他の構成も含むことができ、フロッピーディスク装置、ハードディスク装置、光ディスク装置、又はテープ装置、フラッシュメモリー、それと類似した他の半導体メモリ装置又は装置アレイであってもよい。
上述した実施例は例示のためのものであり、上述した実施例が属する技術分野の通常の知識を有する者は上述した実施例が有する技術的思想又は必須な特徴を変更しなくて他の具体的な形態に易しく変形可能であることを理解することができるであろう。したがって、上述した実施例は全ての面で例示的なもので、限定的なものではないことを理解しなければならない。例えば、単一型として説明されている各構成要素は分散されて実施されることもでき、同様に分散されたものとして説明されている構成要素も結合された形態に実施されることができる。
本明細書によって保護を受けようとする範囲は前記詳細な説明よりは後述する特許請求範囲によって決定され、特許請求範囲の意味及び範囲とその均等な概念から導出される全ての変更又は変形の形態を含むものに解釈されなければならない。
10 目標保存部
110 特徴抽出部
120 行動モジュール
130 分類モジュール
210 入出力部
220 制御部
230 保存部

Claims (6)

  1. 目標志向的強化学習モデルによって遂行する強化学習方法であって、
    強化学習を遂行する過程で前記強化学習の目標に関連したデータを目標データとして収集する段階と、
    前記強化学習に対する補助学習として前記収集された目標データを学習する段階と、及び、
    前記目標データを学習した結果を前記強化学習遂行の際に反映する段階とを含む、強化学習方法であって、
    前記目標志向的強化学習モデルは、
    状態データ及び目標データから特徴を抽出するための特徴抽出部と、
    前記状態データから抽出された特徴に基づき、政策による行動及び価値を出力するための行動モジュールと、及び、
    前記目標データから抽出された特徴に基づいて前記目標データを分類するための分類モジュールとを含む強化学習方法であって、
    前記収集された目標データを学習する段階は、
    前記特徴抽出部が前記目標データのバッチデータ(batch data)から特徴を抽出する段階と、
    前記分類モジュールが前記目標データのバッチデータから抽出された特徴によって予測値を抽出する段階と、
    前記目標志向的強化学習モデルが予測値及び前記バッチデータのラベルを用いて前記補助学習に対する損失を算出する段階と、及び、
    前記目標志向的強化学習モデルが前記補助学習に対する損失を用いて前記目標データに対する視覚的表現を学習する段階とを含むことを特徴とする、強化学習方法
  2. 前記目標データとして収集する段階は、
    前記強化学習を遂行するエージェントが前記目標達成に成功すれば、前記目標の視覚的表現を含むイメージを前記目標データとして収集する段階と、及び、
    前記目標データに目標に対応することを意味するラベリングを遂行する段階とを含むことを特徴とする、請求項1に記載の強化学習方法。
  3. コンピュータで請求項1項に記載の方法を実行させるためのプログラムが記録されたコンピュータ可読の記録媒体。
  4. コンピューティング装置によって遂行され、請求項1に記載の方法を遂行するために媒体に保存された、コンピュータプログラム。
  5. 目標志向的強化学習を遂行するためのコンピューティング装置であって、
    データを受信し、これを演算処理した結果を出力するための入出力部と、
    強化学習を遂行するためのプログラム及び前記強化学習を遂行する過程で収集される目標データを保存する保存部と、及び、
    少なくとも一つのプロセッサを含み、前記プログラムを実行させることにより、前記入出力部を介して受信されたデータを用いて強化学習を遂行する制御部とを含み、
    前記制御部が前記プログラムを実行することによって具現される目標志向的強化学習モデルは、
    前記強化学習を遂行する過程で前記強化学習の目標に関連したデータを前記目標データとして収集し、前記強化学習に対する補助学習として前記収集された目標データを学習し、前記目標データを学習した結果を前記強化学習遂行の際に反映する、コンピューティング装置であって、
    前記目標志向的強化学習モデルは、
    状態データ及び目標データから特徴を抽出するための特徴抽出部と、
    前記状態データから抽出された特徴に基づき、政策による行動及び価値を出力するための行動モジュールと、及び、
    前記目標データから抽出された特徴に基づいて前記目標データを分類するための分類モジュールとを含むコンピューティング装置であって、
    前記目標志向的強化学習モデルは、前記収集された目標データを学習するにあたり、
    前記特徴抽出部が前記目標データのバッチデータ(batchdata)から特徴を抽出し、前記分類モジュールが前記目標データのバッチデータから抽出された特徴によって予測値を抽出し、前記目標志向的強化学習モデルが前記予測値及び前記バッチデータのラベルを用いて前記補助学習に対する損失を算出し、前記目標志向的強化学習モデルが前記補助学習に対する損失を用いて前記目標データに対する視覚的表現を学習することを特徴とする、コンピューティング装置
  6. 前記目標志向的強化学習モデルは、前記目標データを収集するにあたり、
    前記強化学習を遂行するエージェントが前記目標達成に成功すれば、前記目標の視覚的表現を含むイメージを前記目標データとして収集し、前記目標データには目標に対応することを意味するラベリングを遂行することを特徴とする、請求項に記載のコンピューティング装置。
JP2021546353A 2020-10-12 2020-12-08 目標志向的強化学習方法及びこれを遂行するための装置 Active JP7348296B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020200131334A KR102345267B1 (ko) 2020-10-12 2020-10-12 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치
KR10-2020-0131334 2020-10-12
PCT/KR2020/017859 WO2022080582A1 (ko) 2020-10-12 2020-12-08 목표 지향적 강화학습 방법 및 이를 수행하기 위한 장치

Publications (2)

Publication Number Publication Date
JP2023502804A JP2023502804A (ja) 2023-01-26
JP7348296B2 true JP7348296B2 (ja) 2023-09-20

Family

ID=79177477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021546353A Active JP7348296B2 (ja) 2020-10-12 2020-12-08 目標志向的強化学習方法及びこれを遂行するための装置

Country Status (4)

Country Link
US (1) US20220398830A1 (ja)
JP (1) JP7348296B2 (ja)
KR (1) KR102345267B1 (ja)
WO (1) WO2022080582A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102615781B1 (ko) * 2022-11-22 2023-12-19 국방과학연구소 모방학습 장치, 모방학습 방법, 및 모방학습 방법을 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체
CN116109525B (zh) * 2023-04-11 2024-01-05 北京龙智数科科技服务有限公司 基于多维度数据增强的强化学习方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102755A (ja) 2015-12-02 2017-06-08 池上通信機株式会社 機械学習支援装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6926203B2 (ja) * 2016-11-04 2021-08-25 ディープマインド テクノロジーズ リミテッド 補助タスクを伴う強化学習
CN117371492A (zh) * 2016-11-04 2024-01-09 渊慧科技有限公司 一种计算机实现的方法及其系统
US10890916B2 (en) * 2019-01-30 2021-01-12 StradVision, Inc. Location-specific algorithm selection for optimized autonomous driving

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102755A (ja) 2015-12-02 2017-06-08 池上通信機株式会社 機械学習支援装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
進藤 智則,Sexy Technology,NIKKEI Robotics 第12号 ,日本,日経BP社,2016年08月22日,第14-19頁

Also Published As

Publication number Publication date
JP2023502804A (ja) 2023-01-26
WO2022080582A1 (ko) 2022-04-21
US20220398830A1 (en) 2022-12-15
KR102345267B1 (ko) 2021-12-31

Similar Documents

Publication Publication Date Title
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN111433784B (zh) 用于检索视频时间段的方法、系统和计算机系统
CN107832662B (zh) 一种获取图片标注数据的方法和系统
WO2017133188A1 (zh) 一种特征集确定的方法及装置
JP4891197B2 (ja) 画像処理装置および画像処理方法
JP7348296B2 (ja) 目標志向的強化学習方法及びこれを遂行するための装置
CN112819052B (zh) 多模态细粒度混合方法、系统、设备和存储介质
KR20220122455A (ko) 영상 데이터에 포함된 객체 분할 방법 및 이를 수행하는 장치
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
WO2022152104A1 (zh) 动作识别模型的训练方法及装置、动作识别方法及装置
JP6160143B2 (ja) 画像処理装置、画像処理方法及び設備
US20200342287A1 (en) Selective performance of deterministic computations for neural networks
US20150278707A1 (en) Predictive space aggregated regression
CN113821629A (zh) 一种文本分类方法、评论情感分析方法及装置
US20230154191A1 (en) Apparatus and method with image segmentation
KR20210107278A (ko) 컨텍스트 스타일 변환기를 이용한 영상 처리 기법
CN115810152A (zh) 基于图卷积的遥感图像变化检测方法、装置和计算机设备
Ambardekar et al. Ground truth verification tool (GTVT) for video surveillance systems
US20210342642A1 (en) Machine learning training dataset optimization
CN116030295A (zh) 物品识别方法、装置、电子设备及存储介质
JP2023553630A (ja) キーポイントベースの行動位置特定
CN114297022A (zh) 云环境异常检测方法、装置、电子设备和存储介质
KR102675490B1 (ko) 다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치
US11955272B1 (en) Method for generating object detector based on deep learning capable of detecting extended object class and detector generation device using the same
Thai et al. Multiple Teacher Knowledge Distillation for Head Pose Estimation Without Keypoints

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211124

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20211006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230907

R150 Certificate of patent or registration of utility model

Ref document number: 7348296

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150