JP2022537846A - 条件付きエピソード構成を用いた強化学習装置及び方法 - Google Patents

条件付きエピソード構成を用いた強化学習装置及び方法 Download PDF

Info

Publication number
JP2022537846A
JP2022537846A JP2020558930A JP2020558930A JP2022537846A JP 2022537846 A JP2022537846 A JP 2022537846A JP 2020558930 A JP2020558930 A JP 2020558930A JP 2020558930 A JP2020558930 A JP 2020558930A JP 2022537846 A JP2022537846 A JP 2022537846A
Authority
JP
Japan
Prior art keywords
episode
reinforcement learning
compensation
steps
conditional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020558930A
Other languages
English (en)
Other versions
JP7387953B2 (ja
Inventor
ロ、チョル-キョン
イ、ソン-リョン
ミン、イェ-リン
ル、ファム-トゥエン
Original Assignee
アジャイルソーダ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アジャイルソーダ インコーポレイテッド filed Critical アジャイルソーダ インコーポレイテッド
Publication of JP2022537846A publication Critical patent/JP2022537846A/ja
Application granted granted Critical
Publication of JP7387953B2 publication Critical patent/JP7387953B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Robotics (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

条件付きエピソード構成を用いた強化学習装置及び方法を開示する。本発明は個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在価値を反映した補償の和が最大化されるようにすることによって、連続性のない状態を用いる問題でも容易に強化学習を適用することができる。

Description

本発明は条件付きエピソード構成を用いた強化学習装置及び方法に関する発明であって、より詳しくは、連続性のない状態を用いる問題でも容易に強化学習が適用できるように個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在価値を反映した補償の和が最大化されるようにする条件付きエピソード構成を用いた強化学習装置及び方法に関するものである。
強化学習は環境(environment)と相互作用しながら目標を達成するエージェントを扱う学習方法であって、ロボットや人工知能分野でたくさん使われている。
このような強化学習は学習の行動主体である強化学習エージェント(Agent)がどんな行動をすれば、より多い補償(Reward)を受けるのかを突き止めることを目的とする。
即ち、定まった答がない状態でも補償を最大化させるために何をするかを学ぶものであって、入力と出力が明確な関係を有している状況で事前にどんな行為をするかを聞いて行うことでなく、試行錯誤を経ながら補償を最大化させることを学ぶ過程を経る。
また、エージェントは時間ステップが流れるにつれて順次にアクションを選択することになり、前記アクションが環境に及ぼした影響に基盤して補償(reward)を受けるようになる。
図1は従来技術に従う強化学習装置の構成を示すブロック図であって、図1に示すように、エージェント10が強化学習モデルの学習を通じてアクション(Action、または行動)aを決定する方法を学習させ、各アクションであるAはその次の状態(state)Sに影響を及ぼし、成功した程度は補償(Reward)Rとして測定することができる。
即ち、補償は強化学習モデルを通じて学習を進行する場合、どんな状態(State)によってエージェント10が決定するアクション(行動)に対する補償点数であって、学習に従うエージェント10の意思決定に対する一種のフィードバックである。
環境20はエージェント10が取れる行動、それに従う補償など、全ての規則であって、状態、アクション、補償などは全て環境の構成要素であり、エージェント10の以外の全ての定まったものが環境である。
一方、補償をどのように策定するかによって学習結果に多い影響が発生するので、強化学習を通じてエージェント10は未来の補償が最大になるようにアクションを取るようになる。
しかしながら、従来技術に従う強化学習装置は与えられた環境で明確に定まった行動に対する場合の数と事前に定義された環境の目標を解く方向のみに使用しなければならないという限界を有している。
即ち、強化学習でたくさん適用するゲームのように環境が明確な場合には補償がゲームスコアに確定されているが、実際の事業(ビジネス)環境はそうでないので、強化学習のために補償を別途に設定しなければならないという問題点がある。
また、従来技術に従う強化学習装置は事業(ビジネス)問題の適用時、明確に次の状態と定義できない(連続性のない)データに対するエピソードを定義することは非常に難しい問題点がある。
ここで、エピソードは初期状態(State)から最後の状態(State)までの軌跡(trajectory)を意味するものであって、例えばゲームでは‘ゲーム開始’から‘ゲーム終了’までの軌跡をエピソードと見ることができる。
より具体的には、キャラクターが行動をし、1つの状態(State)を終えた後、次の状態に移ることを繰り返してから死んだ時までの軌跡をエピソードということができ、この時のエピソードはキャラクターが死ぬ前まで取るようになった状態、行動、補償の過程を集めた軌跡である。
しかしながら、実際ビジネスでは該当状態と次の状態の連続性がない場合が多く、この際、定まった終了状態がないので、別途に終了状態を定義しなければ、エージェントを学習させることができないという問題点がある。
また、終了状態が定義されたとしても、N個のステップからなるエピソードを始めから終わりまで全て処理した結果値を探す場合にも、学習させればさせるほど時間が幾何級数的に増える問題点がある。
また、状態と補償に対する関係を考慮せず、N個のステップに一括してエピソードを維持して学習させるようになれば、エージェントが新たな状態でアクションを取る時、過適合(Overfitting)による誤ったアクションを行う場合が発生することがある。
このような問題点を解決するために、本発明は連続性のない状態を用いる問題でも容易に強化学習が適用できるように個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在の価値を反映した補償の和が最大化されるようにする条件付きエピソード構成を用いた強化学習装置及び方法を提供することを目的とする。
前記の目的を達成するために、本発明の一実施形態は条件付きエピソード構成を用いた強化学習装置であって、状態の単位がW個存在する任意のデータセットでサンプリングを通じて複数の状態(State)をN(≦W)個抽出し、前記抽出された状態のうち、任意のT(≦N)個に対してエピソードが終了する条件を設定し、前記条件が設定されたT個のステップに定義されるエピソードを構成してエージェントに提供する条件付きエピソード構成部;及び前記エピソードに基づいてT個のステップから得る補償(Reward)の和が最大化されるようにアクション(Action)を決定する強化学習エージェントを含む。
また、前記実施形態に従うエピソードはT個のステップで状態、アクション、及び補償に対する条件を通じて前記エピソードの終了時点を設定し、前記エピソードの終了時点は誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか1つであることを特徴とする。
また、前記実施形態に従う条件付きエピソード構成部は、任意のデータセットでサンプリングを通じて複数の状態(State)を抽出するサンプリング部;前記抽出された状態のうち、任意のT個に対してエピソードが終了する条件を設定し、かつ前記Nは抽出された複数の状態数より小さいか等しい数になるように設定する条件設定部;及び前記条件が設定されたT個のステップに定義されるエピソードを構成するエピソード設定部;を含むことを特徴とする。
また、前記実施形態に従う強化学習エージェントはエピソードの終了時点まで現在価値化された補償の総和を最大化する方向に強化学習することを特徴とする。
また、前記実施形態に従う補償の総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント(Policy Gradient)が累積補償を増加する方向であり、下記式として定義できる。
Figure 2022537846000002
ここで、∇θJ(π)はポリシーグラジエント、πは最も大きい補償を与えることができる政策、θはニューラルネットの係数(または、モデルパラメータ)、Tは条件が設定されたステップの個数、aはアクション、sは状態、G(H)は1つのエピソードで現在価値化された補償の総和である。
また、本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習方法は、a)条件付きエピソード構成部が状態の単位がW個存在する任意のデータセットでサンプリングを通じて複数の状態(State)をN(≦W)個抽出するステップ;b)前記条件付きエピソード構成部が抽出された状態のうち、任意のT(≦N)個に対してエピソードが終了する条件を設定するステップ;c)前記条件付きエピソード構成部が条件が設定されたT個のステップとして定義されるエピソードを構成して設定するステップ;及びd)強化学習エージェントが前記設定されたエピソードに基づいてT個のステップから得る補償(Reward)の和が最大化されるように学習してアクション(Action)を決定するステップ;を含む。
また、前記実施形態に従うb)ステップの条件付きエピソード構成部は、エピソードがT個のステップで状態、アクション、及び補償に対する条件を通じて誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか1つをエピソードの終了時点に設定することを特徴とする。
また、前記実施形態に従うd)ステップの強化学習エージェントは、エピソードの終了時点まで現在価値化された補償の総和を最大化する方向に学習することを特徴とする。
また、前記実施形態に従う補償の総和が最大化する方向は、強化学習の目的関数に対するポリシーグラジエント(Policy Gradient)が累積補償を増加する方向であり、下記式として定義されることを特徴とする。
Figure 2022537846000003
ここで、∇θJ(π)はポリシーグラジエント、πは最も大きい補償を与えることができる政策、θはニューラルネットの係数(または、モデルパラメータ)、Tは条件が設定されたステップの個数、aはアクション、sは状態、G(H)は1つのエピソードで現在価値化された補償の総和である。
本発明は個別意思決定に対して条件を与えて、与えられた条件を満たさなければ エピソードを終了して現在価値を反映した補償の和が最大化されるようにすることによって、連続性のない状態を用いる問題でも容易に強化学習が適用できる長所がある。
また、本発明は明確に次の状態と定義できない(連続性のない)データに対するエピソードを構成することによって、カード、与信などのビジネス意思決定分野で与えられた条件を満たさなければ、他の方向に学習することを遮断して意図しない強化学習が防止できる長所がある。
また、本発明はエピソードを条件により定義することによって、補償を算出する過程で現在価値化する範囲が決定されることができ、サンプリングされたN個内で条件を満たすまでをエピソードと自動定義することによって、即ち条件を満たさなければエピソード終了、条件を通じてユーザの所望の方向に制御することができる長所がある。
また、本発明はエピソードで強化学習エージェントの初期状態はランダムにサンプリングされ、相互作用は環境が条件を満たすことまで到達するまで進行されることによって、エピソード当たり総補償予想値を最大化し、最大限少ない数のエピソードで高い水準の成果が達成できる長所がある。
一般的な強化学習装置の構成を示すブロック図。 本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置を概略的に示すブロック図。 図2の実施形態に従う条件付きエピソード構成を用いた強化学習装置の条件付き構成を示すブロック図。 本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置の学習方法を示すフローチャート。
以下、本発明の好ましい実施形態及び添付の図面を参照して本発明を詳細に説明し、かつ図面の同一の参照符号は同一の構成要素を称することを前提にして説明する。
本発明の実施のための具体的な内容を説明する前に、本発明の技術的要旨と直接的な関連のない構成に対しては本発明の技術的要旨を乱さない範囲内で省略したことに留意しなければならない。
また、本明細書及び請求範囲に使われた用語または単語は発明者が自身の発明を最善の方法により説明するために適切な用語の概念を定義することができるという原則に即して発明の技術的思想に符合する意味と概念として解釈されなければならない。
本明細書で、ある部分がある構成要素を“含む”という表現は他の構成要素を排除することでなく、他の構成要素をさらに含むことができるということを意味する。
また、“‥部”、“‥機”、“‥モジュール”などの用語は、少なくとも1つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェア、またはその2つの結合に区分できる。
また、“少なくとも1つの”という用語は単数及び複数を含む用語として定義され、“少なくとも1つの”という用語が存在しなくても各構成要素が単数または複数に存在することができ、単数または複数を意味することができることは自明である。
また、各構成要素が単数または複数に備えられることは、実施形態によって変更可能である。
以下、添付の図面を参照して本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置及び方法の好ましい実施形態を詳細に説明する。
図2は本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置を概略的に示すブロック図であり、図3は本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置の構成を示すブロック図である。
図2及び図3を参照すると、本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置は、個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在価値を反映した補償の和が最大化されるようにアクションを決定する条件付きエピソード構成部100と、強化学習エージェント200を含んで構成される。
条件付きエピソード構成部100は、任意のデータからなるデータセットでT個に対して条件を設定し、前記条件が設定されたT個のステップとして定義されるエピソードを構成して強化学習エージェント200に提供する構成であって、サンプリング部110と、条件設定部120と、エピソード設定部130を含んで構成される。
サンプリング部110はデータセット、例えば、金融詐欺データ、カード重複決済データ、損失率データ、収益率データ、限度減少率データなど、状態の単位がW個存在する多様なデータのセットでサンプリングを通じて複数の状態(State)をN個抽出する構成であって、一定個数の状態をランダムに抽出する。
ここで、抽出される状態の個数‘N’は‘W’より小さいか等しい数(N≦W)になるように設定することができる。
条件設定部120はサンプリング部110から抽出された複数の状態のうちのT個を選択し、選択されたT個に対してエピソードが終了する任意の条件が設定されるようにする。
また、条件設定部120は予め設定された個数、またはユーザの設定によってTの個数を設定することができる。
また、選択される‘T’の個数はサンプリング部110から抽出された複数の状態(State)個数‘N’より小さいか等しい数(T≦N)になるように設定することもできる。
ここで、条件設定部120はエピソードの終了と関連した条件として、分類の問題である場合、誤った予測を遂行すればエピソードを終了する条件、特定しきい値を超過すればエピソードを終了する条件などを設定することができる。
また、条件設定部120は現在ステップでの補償値が小さい場合、エピソードを終了する条件などを設定することができる。
即ち、条件設定部120は予め定まった条件を通じてエピソードの終了時点を設定することができるが、エピソードの終了時点は誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合など、多様に設定できる。
エピソード設定部130は条件設定部120でエピソードが終了する条件が設定されたT個のステップとして定義されるエピソードに基づいて臨時エピソードを構成し、以後、強化学習エージェント200の訓練または学習を通じて臨時エピソードのステップのうち、条件を満たすステップを抽出してエピソードを構成する。
即ち、エピソード設定部130がエピソードを条件設定部120の条件により定義する場合、補償が計算される時、現在価値化する範囲が定まるようになることによって、エピソードが流動的に変更できる。
したがって、エピソード設定部130は条件設定部120でT個のステップからなるエピソードを臨時エピソードに設定して強化学習エージェント200に提供し、強化学習エージェント200の訓練または学習を遂行してT個のステップのうち、状態、アクション、及び補償に対する条件を通じてエピソードが終了すれば、条件を満たして学習がよくなされたステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成する。
このような条件設定を通じてのエピソード設定部130のエピソード設定を用いてユーザの所望の方向に訓練及び学習できるようにして不必要な方向に学習することが排除できるようにする。
強化学習エージェント200は、任意の強化学習モデルが設けられた状態で、条件付きエピソード構成部100から入力されるエピソードに基づいて強化学習を遂行し、強化学習を通じてT個のステップから得る補償(Reward)の和が最大化されるようにアクション(Action)を決定する。
即ち、強化学習エージェント200は提供されるエピソードに基づいてエピソードの終了時点まで現在価値化された補償の総和を最大化する方向に学習する。
これをより詳細に説明すると、例えばサンプリングを通じて100個のステップを抽出し、抽出された100個のステップに対してエピソードが終了する任意の条件が設定されればT=100個のステップに定義されたエピソードが構成できる。
以後、強化学習エージェント200が学習を遂行する過程で任意のステップが条件を満たさなければ、学習を終了し、その時までの学習内容を反映してアップデートし、次のエピソードをアップデートされたエージェントが学習を遂行する。
ここで、設定された条件を通じて例えば60%のみ合って、学習を終了した場合、エージェントは残りの40%を合せるために学習が改善される方向、即ち補償の総和が最大化する方向に学習が遂行できる。
したがって、抽出されたサンプリングの個数を予め定まった条件が設定されたステップTの個数に設定し、学習がよくなされてTまで行く場合、補償が最大化できる。
一方、補償の総和が最大化される方向は強化学習の目的関数に対するポリシーグラジエント(Policy Gradient)が累積補償を増加させる方向であり、下記式として定義できる。
Figure 2022537846000004
ここで、∇θJ(π)はポリシーグラジエント、πは最も大きい補償を与えることができる政策、θはニューラルネットの係数(または、モデルパラメータ)、Tは条件が設定されたステップの個数、aはアクション、sは状態、G(H)は1つのエピソードで現在価値化された補償の総和である。
また、補償はエピソードでT個のステップから得る補償の和からなるようになる。
また、補償関数Gt=R(s、a)+ΓR(st+1、at+1)+ΓR(st+2、at+2)+…+ΓR(s、a)であり、Γ∈[0、1]である。
ここで、Γは補償の現在価値化と関連した係数であって、0に近いほど未来より現在の決定ステップの補償を重要視し、1に近いほど全ての決定ステップ補償を同一の加重値として重要視するようになる。
次は、本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習方法を説明する。
図4は、本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置の学習方法を示すフローチャートである。
図2乃至図4を参照して説明すると、条件付きエピソード構成部100が任意のデータセットでサンプリングを通じて複数の状態(State)データを抽出(S100)する。
ステップS100で、条件付きエピソード構成部100は状態の単位がW個存在する多様なデータのセットでサンプリングを通じてランダムに複数の状態(State)をN個抽出する。
ここで、抽出される状態の個数‘N’は‘W’より小さいか等しい数(N≦W)である。
条件付きエピソード構成部100がステップS100で抽出された複数の状態のうち、任意のT個を選択し、選択されたT個に対して条件を設定(S200)する。
また、ステップS200で条件付きエピソード構成部100は予め設定された個数、またはユーザの設定によってTの個数を設定することもできる。
また、ステップS200で条件付きエピソード構成部100は選択される‘T’の個数がステップS100で抽出された複数の状態(State)個数‘N’より小さいか等しい数(T≦N)になるように設定することもできる。
また、ステップS200で条件付きエピソード構成部100はエピソードの終了と関連した条件として、分類の問題である場合、誤った予測を遂行すればエピソードを終了する条件、特定しきい値を超過すればエピソードを終了する条件などを設定することができる。
また、現在ステップでの補償値が小さい場合、エピソードを終了する条件を多様に設定することができる。
次に、条件付きエピソード構成部100はエピソードが終了する条件が設定されたT個のステップに定義されるエピソードを設定するステップ(S300)を遂行する。
また、ステップS300で条件付きエピソード構成部100はエピソードが終了する条件が設定されたT個のステップに定義されるエピソードに基づいて臨時エピソードを構成し、以後、強化学習エージェント200の訓練または学習を通じて臨時エピソードのステップのうち、条件を満たすステップを抽出してエピソードを構成することができる。
即ち、ステップS300で条件付きエピソード構成部100はエピソードを条件により定義する場合、補償を計算する時、現在価値化する範囲が定まるようになることによって、エピソードが流動的に変更されることができ、これによって、T個のステップからなるエピソードを臨時エピソードに設定して強化学習エージェント200に提供する。
また、ステップS300は条件付きエピソード構成部100が強化学習エージェント200の訓練または学習を遂行してT個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成する。
ステップS300で構成されたエピソードは強化学習エージェント200に提供され、強化学習エージェント200は設定されたエピソードに基づいてT個のステップから得る補償(Reward)の和が最大化されるように強化学習を遂行(S400)してアクション(Action)を決定する。
また、ステップS400で強化学習エージェント200はエピソードの終了時点まで現在価値化された補償の総和を最大化する方向に学習し、補償の総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント(Policy Gradient)が累積補償を増加させる方向であり、下記式として定義できる。
Figure 2022537846000005
ここで、∇θJ(π)はポリシーグラジエント、πは最も大きい補償を与えることができる政策、θはニューラルネットの係数(または、モデルパラメータ)、Tは条件が設定されたステップの個数、aはアクション、sは状態、G(H)は1つのエピソードで現在価値化された補償の総和である。
また、補償はエピソードでT個のステップから得る補償の和からなるようになり、補償関数Gt=R(s、a)+ΓR(st+1、at+1)+ΓR(st+2、at+2)+…+ΓR(s、a)であり、Γ∈[0、1]から構成できる。
ここで、Γは補償の現在価値化と関連した係数であって、0に近いほど未来より現在の決定ステップの補償を重要視し、1に近いほど全ての決定ステップ補償を同一の加重値として重要視するようになる。
下記の表はUCI(University of California)で公開した22%詐欺取引を含んでいる実際クレジットカード取引データを用いて各エピソード定義別性能実験した結果である。
実験で表1はF-1測定、補償(Reward)、損失金額の3つを測定した性能比較表である。
また、特定条件を基準にエピソードを構成して強化学習エージェントが詐欺件に対して誤った行動をした時までをエピソード終了条件にして1つのエピソードとして定義した。
即ち、SL(Supervised Learning)は指導学習を意味し、One-stepはOne-STEP方法を意味し、N-stepは全体配置大きさ(サイズ)をエピソードに使用したN-STEP方法を意味し、FALSEは条件が設定されたステップで強化学習エージェントが誤った行動をした時までを1つのエピソードとして定義しており、FN(False Negative)は条件が設定されたステップで強化学習エージェントが詐欺件に対して誤った行動をした時までを1つのエピソードとして定義した。
Figure 2022537846000006
ここで、高い性能に該当する数値は太い数字で強調し、損失金額は低い値であるほど良い性能を意味する。前記表から分かるように、強化学習エージェントが特定条件、例えば1回も合わなくてはならないことを条件にしてエピソードを構成したFALSEと、1回も合わなくてならないが、詐欺件を合わなくてはならないことを条件にしてエピソードを構成したFNに対して良い性能を示し、特にFNエピソード実験が最も良い性能を示している。
したがって、個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在価値を反映した補償の和が最大化されるようにすることによって、連続性のない状態を用いる問題でも容易に強化学習を適用することができる。
また、明確に次の状態と定義できない(連続性のない)データに対するエピソードを構成することによって、カード、与信などのビジネス意思決定分野で与えられた条件を満たさなければ、他の方向に学習することを遮断して意図しない強化学習を防止することができる。
また、エピソードを条件により定義することによって、補償を算出する過程で現在価値化する範囲が決定されることができ、サンプリングされたN個内で条件を満たす時までをエピソードとして自動定義することによって、即ち条件を満たさなければエピソード終了、条件を通じてユーザの所望の方向に強化学習を制御することができる。
また、エピソードで強化学習エージェントの初期状態はランダムにサンプリングされ、相互作用は環境が条件を満たすことまで到達する時まで進行されることによって、エピソード当たり総補償予想値を最大化し、最大限少ない数のエピソードで高い水準の成果を達成することができる。
上記のように、本発明の好ましい実施形態を参照して説明したが、該当技術分野の熟練した当業者であれば、下記の特許請求範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を多様に修正及び変更させることができることを理解することができる。
また、本発明の特許請求範囲に記載された図面番号は説明の明瞭性と便宜のために記載したものであり、これに限定されるのではなく、実施形態を説明する過程で図面に図示された線の厚さや構成要素のサイズなどは説明の明瞭性と便宜上、誇張して図示されることもある。
また、前述した用語は本発明での機能を考慮して定義された用語であって、これはユーザ、運用者の意図または慣例によって変わることがあるので、このような用語に対する解釈は本明細書の全般に亘る内容に基づいて下されるべきである。
また、明示的に図示または説明されなかったとしても本発明が属する技術分野で通常の知識を有する者が本発明の記載事項から本発明による技術的思想を含む多様な形態に変形することができることは自明であり、これは相変らず本発明の権利範囲に属する。
また、添付の図面を参照して説明された上記の実施形態は本発明を説明するための目的として記述されたものであり、本発明の権利範囲はこのような実施形態に限定されない。

Claims (9)

  1. 状態の単位がW個存在する任意のデータセットでサンプリングを通じて複数の状態(State)をN(≦W)個抽出し、かつ、
    抽出された前記状態のうち、任意のT(≦N)個に対してエピソードが終了する条件を設定し、
    補償を計算する時、現在価値化する範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、
    前記エピソードが終了する条件が設定されたT個のステップに定義されるエピソードに基づいて臨時エピソードを構成して強化学習エージェント200に提供し、
    前記臨時エピソードのステップのうち、前記強化学習エージェント200の学習を通じてT個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成する条件付きエピソード構成部100;及び
    前記条件付きエピソード構成部100から入力されるエピソードに基づいてT個のステップから得る補償(Reward)の和が最大化されるようにアクション(Action)を決定する強化学習エージェント200を含む条件付きエピソード構成を用いた強化学習装置。
  2. 前記エピソードはT個のステップで状態、アクション、及び補償に対する条件を通じて前記エピソードの終了時点を設定し、かつ、
    前記エピソードの終了時点は誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか1つであることを特徴とする、請求項1に記載の条件付きエピソード構成を用いた強化学習装置。
  3. 前記条件付きエピソード構成部100は、任意のデータセットでサンプリングを通じて複数の状態(State)を抽出するサンプリング部110;
    前記抽出された状態のうち、任意のT個に対してエピソードが終了する条件を設定し、かつ前記Tは抽出された複数の状態数より小さいか等しい数になるように設定する条件設定部120;及び
    前記条件が設定されたT個のステップに定義されるエピソードを構成し、かつ
    補償を計算する時、現在価値化する範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、前記エピソードが終了する条件が設定されたT個のステップに定義されるエピソードに基づいて臨時エピソードを構成して強化学習エージェント200に提供し、前記臨時エピソードのステップのうち、前記強化学習エージェント200の学習を通じてT個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成するエピソード設定部130;を含むことを特徴とする、請求項1に記載の条件付きエピソード構成を用いた強化学習装置。
  4. 前記強化学習エージェント200は、エピソードの終了時点まで現在価値化された補償の総和を最大化する方向に強化学習することを特徴とする、請求項1に記載の条件付きエピソード構成を用いた強化学習装置。
  5. 前記補償の総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント(Policy Gradient)が累積補償を増加させる方向であり、下記式
    Figure 2022537846000007

    ここで、∇θJ(π)はポリシーグラジエント、πは最も大きい補償を与えることができる政策、θはニューラルネットの係数(または、モデルパラメータ)、Tは条件が設定されたステップの個数、aはアクション、sは状態、G(H)は1つのエピソードで現在価値化された補償の総和である、
    として定義されることを特徴とする、請求項4に記載の条件付きエピソード構成を用いた強化学習装置。
  6. a)条件付きエピソード構成部100が状態の単位がW個存在する任意のデータセットでサンプリングを通じて複数の状態(State)をN(≦W)個抽出するステップ;
    b)前記条件付きエピソード構成部100が抽出された状態のうち、任意のT(≦N)個に対してエピソードが終了する条件を設定するステップ;
    c)前記条件付きエピソード構成部100が補償を計算する時、現在価値化する範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、エピソードが終了する条件が設定されたT個のステップに定義される臨時エピソードを構成して設定するステップ;
    d)強化学習エージェント200が前記設定された臨時エピソードに基づいてT個のステップから得る補償(Reward)の和が最大化されるように学習してアクション(Action)を決定するステップ;及び
    e)前記条件付きエピソード構成部100は、前記強化学習エージェント200の学習を通じてT個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成するステップ; を含む条件付きエピソード構成を用いた強化学習方法。
  7. 前記b)ステップの条件付きエピソード構成部100は、エピソードがT個のステップで状態、アクション、及び補償に対する条件を通じて誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか1つをエピソードの終了時点に設定することを特徴とする、請求項6に記載の条件付きエピソード構成を用いた強化学習方法。
  8. 前記d)ステップの強化学習エージェント200は、エピソードの終了時点まで現在価値化された補償の総和を最大化する方向に学習することを特徴とする、請求項6に記載の条件付きエピソード構成を用いた強化学習方法。
  9. 前記補償の総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント(Policy Gradient)が累積補償を増加させる方向であり、下記式
    Figure 2022537846000008

    ここで、∇θJ(π)はポリシーグラジエント、πは最も大きい補償を与えることができる政策、θはニューラルネットの係数(または、モデルパラメータ)、Tは条件が設定されたステップの個数、aはアクション、sは状態、G(H)は1つのエピソードで現在価値化された補償の総和である、
    として定義されることを特徴とする、請求項8に記載の条件付きエピソード構成を用いた強化学習方法。
JP2020558930A 2020-05-22 2020-08-21 条件付きエピソード構成を用いた強化学習装置及び方法 Active JP7387953B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020200061890A KR102169876B1 (ko) 2020-05-22 2020-05-22 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법
KR10-2020-0061890 2020-05-22
PCT/KR2020/011169 WO2021235603A1 (ko) 2020-05-22 2020-08-21 조건부 에피소드 구성을 이용한 강화학습 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2022537846A true JP2022537846A (ja) 2022-08-31
JP7387953B2 JP7387953B2 (ja) 2023-11-29

Family

ID=73136133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020558930A Active JP7387953B2 (ja) 2020-05-22 2020-08-21 条件付きエピソード構成を用いた強化学習装置及び方法

Country Status (4)

Country Link
US (1) US20230206079A1 (ja)
JP (1) JP7387953B2 (ja)
KR (1) KR102169876B1 (ja)
WO (1) WO2021235603A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018024036A (ja) * 2016-08-09 2018-02-15 株式会社日立製作所 制御装置、制御方法、および制御プログラム
KR102055141B1 (ko) * 2018-12-31 2019-12-12 한국기술교육대학교 산학협력단 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법
KR102079745B1 (ko) * 2019-07-09 2020-04-07 (주) 시큐레이어 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치
KR102100688B1 (ko) * 2020-02-19 2020-04-14 주식회사 애자일소다 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6530783B2 (ja) * 2017-06-12 2019-06-12 ファナック株式会社 機械学習装置、制御装置及び機械学習プログラム
CN110889487A (zh) * 2018-09-10 2020-03-17 富士通株式会社 神经网络架构搜索装置和方法及计算机可读记录介质
KR20190098107A (ko) 2019-08-02 2019-08-21 엘지전자 주식회사 딥 러닝을 위한 신경망 학습 장치 및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018024036A (ja) * 2016-08-09 2018-02-15 株式会社日立製作所 制御装置、制御方法、および制御プログラム
KR102055141B1 (ko) * 2018-12-31 2019-12-12 한국기술교육대학교 산학협력단 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법
KR102079745B1 (ko) * 2019-07-09 2020-04-07 (주) 시큐레이어 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치
KR102100688B1 (ko) * 2020-02-19 2020-04-14 주식회사 애자일소다 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOUCHTI, AE ET AL.: ""Fraud detection in banking using deep reinforcement learning"", 2017 SEVENTH INTERNATIONAL CONFERENCE ON INNOVATIVE COMPUTING TECHNOLOGY (INTECH) [ONLINE], JPN6022036421, 2017, pages 58 - 63, ISSN: 0004862419 *
LE, TP ET AL.: ""Importance sampling policy gradient algorithms in reproducing kernel Hilbert space"", ARTIFICIAL INTELLIGENCE REVIEW [ONLINE], vol. 52, no. 3, JPN6022036419, 2017, pages 2039 - 2059, XP036884511, ISSN: 0004862420, DOI: 10.1007/s10462-017-9579-x *

Also Published As

Publication number Publication date
JP7387953B2 (ja) 2023-11-29
US20230206079A1 (en) 2023-06-29
WO2021235603A1 (ko) 2021-11-25
KR102169876B1 (ko) 2020-10-27

Similar Documents

Publication Publication Date Title
Levine et al. Rotting bandits
Gossner et al. Attention please!
Skirzyński et al. Automatic discovery of interpretable planning strategies
Krefeld-Schwalb et al. Structural parameter interdependencies in computational models of cognition.
Wei et al. Model-based reinforcement learning for predictions and control for limit order books
Chatterjee et al. Computational approaches for stochastic shortest path on succinct MDPs
Neufeld et al. Robust $ Q $-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty
CN115034886A (zh) 一种违约风险预测方法及装置
Jin et al. A survey of numerical solutions for stochastic control problems: Some recent progress
Li et al. Modeling human trust and reliance in ai-assisted decision making: A markovian approach
Cousineau et al. Estimating causal effects with optimization-based methods: A review and empirical comparison
Keskin et al. Conflict-based negotiation strategy for human-agent negotiation
Little Numerical predictions for serial, parallel, and coactive logical rule-based models of categorization response time
JP2022537846A (ja) 条件付きエピソード構成を用いた強化学習装置及び方法
Ellis et al. What can the demand analyst learn from machine learning?
Bick Towards delivering a coherent self-contained explanation of proximal policy optimization
Hu et al. Dtr bandit: Learning to make response-adaptive decisions with low regret
Davis et al. The Best of Both Worlds: Machine Learning and Behavioral Science in Operations Management
Bouneffouf et al. Toward skills dialog orchestration with online learning
Lee et al. Evidence or Confidence: What Really Accumulates During a Decision?
Cheng et al. Adversarial learning with optimism for bias reduction in machine learning
Sandqvist A multistate approach to disability insurance reserving with information delays
Jehiel et al. On Second Thoughts, Selective Memory, and Resulting Behavioral Biases
Hu et al. Striking a Balance in Fairness for Dynamic Systems Through Reinforcement Learning
Balles Noise-aware stochastic optimization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231016

R150 Certificate of patent or registration of utility model

Ref document number: 7387953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150