JP2022537846A

JP2022537846A - 条件付きエピソード構成を用いた強化学習装置及び方法

Info

Publication number: JP2022537846A
Application number: JP2020558930A
Authority: JP
Inventors: ロ、チョル－キョン; イ、ソン－リョン; ミン、イェ－リン; ル、ファム－トゥエン
Original assignee: アジャイルソーダインコーポレイテッド
Priority date: 2020-05-22
Filing date: 2020-08-21
Publication date: 2022-08-31
Anticipated expiration: 2040-08-21
Also published as: JP7387953B2; US20230206079A1; WO2021235603A1; KR102169876B1

Abstract

条件付きエピソード構成を用いた強化学習装置及び方法を開示する。本発明は個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在価値を反映した補償の和が最大化されるようにすることによって、連続性のない状態を用いる問題でも容易に強化学習を適用することができる。

Description

本発明は条件付きエピソード構成を用いた強化学習装置及び方法に関する発明であって、より詳しくは、連続性のない状態を用いる問題でも容易に強化学習が適用できるように個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在価値を反映した補償の和が最大化されるようにする条件付きエピソード構成を用いた強化学習装置及び方法に関するものである。

強化学習は環境（environment）と相互作用しながら目標を達成するエージェントを扱う学習方法であって、ロボットや人工知能分野でたくさん使われている。

このような強化学習は学習の行動主体である強化学習エージェント（Agent）がどんな行動をすれば、より多い補償（Reward）を受けるのかを突き止めることを目的とする。

即ち、定まった答がない状態でも補償を最大化させるために何をするかを学ぶものであって、入力と出力が明確な関係を有している状況で事前にどんな行為をするかを聞いて行うことでなく、試行錯誤を経ながら補償を最大化させることを学ぶ過程を経る。

また、エージェントは時間ステップが流れるにつれて順次にアクションを選択することになり、前記アクションが環境に及ぼした影響に基盤して補償（reward）を受けるようになる。

図１は従来技術に従う強化学習装置の構成を示すブロック図であって、図１に示すように、エージェント１０が強化学習モデルの学習を通じてアクション（Action、または行動）ａを決定する方法を学習させ、各アクションであるＡはその次の状態（state）Ｓに影響を及ぼし、成功した程度は補償（Reward）Ｒとして測定することができる。

即ち、補償は強化学習モデルを通じて学習を進行する場合、どんな状態（State）によってエージェント１０が決定するアクション（行動）に対する補償点数であって、学習に従うエージェント１０の意思決定に対する一種のフィードバックである。

環境２０はエージェント１０が取れる行動、それに従う補償など、全ての規則であって、状態、アクション、補償などは全て環境の構成要素であり、エージェント１０の以外の全ての定まったものが環境である。

一方、補償をどのように策定するかによって学習結果に多い影響が発生するので、強化学習を通じてエージェント１０は未来の補償が最大になるようにアクションを取るようになる。

しかしながら、従来技術に従う強化学習装置は与えられた環境で明確に定まった行動に対する場合の数と事前に定義された環境の目標を解く方向のみに使用しなければならないという限界を有している。

即ち、強化学習でたくさん適用するゲームのように環境が明確な場合には補償がゲームスコアに確定されているが、実際の事業（ビジネス）環境はそうでないので、強化学習のために補償を別途に設定しなければならないという問題点がある。

また、従来技術に従う強化学習装置は事業（ビジネス）問題の適用時、明確に次の状態と定義できない（連続性のない）データに対するエピソードを定義することは非常に難しい問題点がある。

ここで、エピソードは初期状態（State）から最後の状態（State）までの軌跡（trajectory）を意味するものであって、例えばゲームでは‘ゲーム開始’から‘ゲーム終了’までの軌跡をエピソードと見ることができる。

より具体的には、キャラクターが行動をし、１つの状態（State）を終えた後、次の状態に移ることを繰り返してから死んだ時までの軌跡をエピソードということができ、この時のエピソードはキャラクターが死ぬ前まで取るようになった状態、行動、補償の過程を集めた軌跡である。

しかしながら、実際ビジネスでは該当状態と次の状態の連続性がない場合が多く、この際、定まった終了状態がないので、別途に終了状態を定義しなければ、エージェントを学習させることができないという問題点がある。

また、終了状態が定義されたとしても、Ｎ個のステップからなるエピソードを始めから終わりまで全て処理した結果値を探す場合にも、学習させればさせるほど時間が幾何級数的に増える問題点がある。

また、状態と補償に対する関係を考慮せず、Ｎ個のステップに一括してエピソードを維持して学習させるようになれば、エージェントが新たな状態でアクションを取る時、過適合（Overfitting）による誤ったアクションを行う場合が発生することがある。

このような問題点を解決するために、本発明は連続性のない状態を用いる問題でも容易に強化学習が適用できるように個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在の価値を反映した補償の和が最大化されるようにする条件付きエピソード構成を用いた強化学習装置及び方法を提供することを目的とする。

前記の目的を達成するために、本発明の一実施形態は条件付きエピソード構成を用いた強化学習装置であって、状態の単位がＷ個存在する任意のデータセットでサンプリングを通じて複数の状態（State）をＮ（≦Ｗ）個抽出し、前記抽出された状態のうち、任意のＴ（≦Ｎ）個に対してエピソードが終了する条件を設定し、前記条件が設定されたＴ個のステップに定義されるエピソードを構成してエージェントに提供する条件付きエピソード構成部；及び前記エピソードに基づいてＴ個のステップから得る補償（Reward）の和が最大化されるようにアクション（Action）を決定する強化学習エージェントを含む。

また、前記実施形態に従うエピソードはＴ個のステップで状態、アクション、及び補償に対する条件を通じて前記エピソードの終了時点を設定し、前記エピソードの終了時点は誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか１つであることを特徴とする。

また、前記実施形態に従う条件付きエピソード構成部は、任意のデータセットでサンプリングを通じて複数の状態（State）を抽出するサンプリング部；前記抽出された状態のうち、任意のＴ個に対してエピソードが終了する条件を設定し、かつ前記Ｎは抽出された複数の状態数より小さいか等しい数になるように設定する条件設定部；及び前記条件が設定されたＴ個のステップに定義されるエピソードを構成するエピソード設定部；を含むことを特徴とする。

また、前記実施形態に従う強化学習エージェントはエピソードの終了時点まで現在価値化された補償の総和を最大化する方向に強化学習することを特徴とする。

また、前記実施形態に従う補償の総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント（Policy Gradient）が累積補償を増加する方向であり、下記式として定義できる。

ここで、∇_θＪ（π）はポリシーグラジエント、πは最も大きい補償を与えることができる政策、θはニューラルネットの係数（または、モデルパラメータ）、Ｔは条件が設定されたステップの個数、ａ_ｔはアクション、ｓ_ｔは状態、Ｇ（Ｈ）は１つのエピソードで現在価値化された補償の総和である。

また、本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習方法は、ａ）条件付きエピソード構成部が状態の単位がＷ個存在する任意のデータセットでサンプリングを通じて複数の状態（State）をＮ（≦Ｗ）個抽出するステップ；ｂ）前記条件付きエピソード構成部が抽出された状態のうち、任意のＴ（≦Ｎ）個に対してエピソードが終了する条件を設定するステップ；ｃ）前記条件付きエピソード構成部が条件が設定されたＴ個のステップとして定義されるエピソードを構成して設定するステップ；及びｄ）強化学習エージェントが前記設定されたエピソードに基づいてＴ個のステップから得る補償（Reward）の和が最大化されるように学習してアクション（Action）を決定するステップ；を含む。

また、前記実施形態に従うｂ）ステップの条件付きエピソード構成部は、エピソードがＴ個のステップで状態、アクション、及び補償に対する条件を通じて誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか１つをエピソードの終了時点に設定することを特徴とする。

また、前記実施形態に従うｄ）ステップの強化学習エージェントは、エピソードの終了時点まで現在価値化された補償の総和を最大化する方向に学習することを特徴とする。

また、前記実施形態に従う補償の総和が最大化する方向は、強化学習の目的関数に対するポリシーグラジエント（Policy Gradient）が累積補償を増加する方向であり、下記式として定義されることを特徴とする。

本発明は個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在価値を反映した補償の和が最大化されるようにすることによって、連続性のない状態を用いる問題でも容易に強化学習が適用できる長所がある。

また、本発明は明確に次の状態と定義できない（連続性のない）データに対するエピソードを構成することによって、カード、与信などのビジネス意思決定分野で与えられた条件を満たさなければ、他の方向に学習することを遮断して意図しない強化学習が防止できる長所がある。

また、本発明はエピソードを条件により定義することによって、補償を算出する過程で現在価値化する範囲が決定されることができ、サンプリングされたＮ個内で条件を満たすまでをエピソードと自動定義することによって、即ち条件を満たさなければエピソード終了、条件を通じてユーザの所望の方向に制御することができる長所がある。

また、本発明はエピソードで強化学習エージェントの初期状態はランダムにサンプリングされ、相互作用は環境が条件を満たすことまで到達するまで進行されることによって、エピソード当たり総補償予想値を最大化し、最大限少ない数のエピソードで高い水準の成果が達成できる長所がある。

一般的な強化学習装置の構成を示すブロック図。本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置を概略的に示すブロック図。図２の実施形態に従う条件付きエピソード構成を用いた強化学習装置の条件付き構成を示すブロック図。本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置の学習方法を示すフローチャート。

以下、本発明の好ましい実施形態及び添付の図面を参照して本発明を詳細に説明し、かつ図面の同一の参照符号は同一の構成要素を称することを前提にして説明する。

本発明の実施のための具体的な内容を説明する前に、本発明の技術的要旨と直接的な関連のない構成に対しては本発明の技術的要旨を乱さない範囲内で省略したことに留意しなければならない。

また、本明細書及び請求範囲に使われた用語または単語は発明者が自身の発明を最善の方法により説明するために適切な用語の概念を定義することができるという原則に即して発明の技術的思想に符合する意味と概念として解釈されなければならない。

本明細書で、ある部分がある構成要素を“含む”という表現は他の構成要素を排除することでなく、他の構成要素をさらに含むことができるということを意味する。

また、“‥部”、“‥機”、“‥モジュール”などの用語は、少なくとも１つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェア、またはその２つの結合に区分できる。

また、“少なくとも１つの”という用語は単数及び複数を含む用語として定義され、“少なくとも１つの”という用語が存在しなくても各構成要素が単数または複数に存在することができ、単数または複数を意味することができることは自明である。

また、各構成要素が単数または複数に備えられることは、実施形態によって変更可能である。

以下、添付の図面を参照して本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置及び方法の好ましい実施形態を詳細に説明する。

図２は本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置を概略的に示すブロック図であり、図３は本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置の構成を示すブロック図である。

図２及び図３を参照すると、本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置は、個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在価値を反映した補償の和が最大化されるようにアクションを決定する条件付きエピソード構成部１００と、強化学習エージェント２００を含んで構成される。

条件付きエピソード構成部１００は、任意のデータからなるデータセットでＴ個に対して条件を設定し、前記条件が設定されたＴ個のステップとして定義されるエピソードを構成して強化学習エージェント２００に提供する構成であって、サンプリング部１１０と、条件設定部１２０と、エピソード設定部１３０を含んで構成される。

サンプリング部１１０はデータセット、例えば、金融詐欺データ、カード重複決済データ、損失率データ、収益率データ、限度減少率データなど、状態の単位がＷ個存在する多様なデータのセットでサンプリングを通じて複数の状態（State）をＮ個抽出する構成であって、一定個数の状態をランダムに抽出する。

ここで、抽出される状態の個数‘Ｎ’は‘Ｗ’より小さいか等しい数（Ｎ≦Ｗ）になるように設定することができる。

条件設定部１２０はサンプリング部１１０から抽出された複数の状態のうちのＴ個を選択し、選択されたＴ個に対してエピソードが終了する任意の条件が設定されるようにする。

また、条件設定部１２０は予め設定された個数、またはユーザの設定によってＴの個数を設定することができる。

また、選択される‘Ｔ’の個数はサンプリング部１１０から抽出された複数の状態（State）個数‘Ｎ’より小さいか等しい数（Ｔ≦Ｎ）になるように設定することもできる。

ここで、条件設定部１２０はエピソードの終了と関連した条件として、分類の問題である場合、誤った予測を遂行すればエピソードを終了する条件、特定しきい値を超過すればエピソードを終了する条件などを設定することができる。

また、条件設定部１２０は現在ステップでの補償値が小さい場合、エピソードを終了する条件などを設定することができる。

即ち、条件設定部１２０は予め定まった条件を通じてエピソードの終了時点を設定することができるが、エピソードの終了時点は誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合など、多様に設定できる。

エピソード設定部１３０は条件設定部１２０でエピソードが終了する条件が設定されたＴ個のステップとして定義されるエピソードに基づいて臨時エピソードを構成し、以後、強化学習エージェント２００の訓練または学習を通じて臨時エピソードのステップのうち、条件を満たすステップを抽出してエピソードを構成する。

即ち、エピソード設定部１３０がエピソードを条件設定部１２０の条件により定義する場合、補償が計算される時、現在価値化する範囲が定まるようになることによって、エピソードが流動的に変更できる。

したがって、エピソード設定部１３０は条件設定部１２０でＴ個のステップからなるエピソードを臨時エピソードに設定して強化学習エージェント２００に提供し、強化学習エージェント２００の訓練または学習を遂行してＴ個のステップのうち、状態、アクション、及び補償に対する条件を通じてエピソードが終了すれば、条件を満たして学習がよくなされたステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成する。

このような条件設定を通じてのエピソード設定部１３０のエピソード設定を用いてユーザの所望の方向に訓練及び学習できるようにして不必要な方向に学習することが排除できるようにする。

強化学習エージェント２００は、任意の強化学習モデルが設けられた状態で、条件付きエピソード構成部１００から入力されるエピソードに基づいて強化学習を遂行し、強化学習を通じてＴ個のステップから得る補償（Reward）の和が最大化されるようにアクション（Action）を決定する。

即ち、強化学習エージェント２００は提供されるエピソードに基づいてエピソードの終了時点まで現在価値化された補償の総和を最大化する方向に学習する。

これをより詳細に説明すると、例えばサンプリングを通じて１００個のステップを抽出し、抽出された１００個のステップに対してエピソードが終了する任意の条件が設定されればＴ＝１００個のステップに定義されたエピソードが構成できる。

以後、強化学習エージェント２００が学習を遂行する過程で任意のステップが条件を満たさなければ、学習を終了し、その時までの学習内容を反映してアップデートし、次のエピソードをアップデートされたエージェントが学習を遂行する。

ここで、設定された条件を通じて例えば６０％のみ合って、学習を終了した場合、エージェントは残りの４０％を合せるために学習が改善される方向、即ち補償の総和が最大化する方向に学習が遂行できる。

したがって、抽出されたサンプリングの個数を予め定まった条件が設定されたステップＴの個数に設定し、学習がよくなされてＴまで行く場合、補償が最大化できる。

一方、補償の総和が最大化される方向は強化学習の目的関数に対するポリシーグラジエント（Policy Gradient）が累積補償を増加させる方向であり、下記式として定義できる。

また、補償はエピソードでＴ個のステップから得る補償の和からなるようになる。

また、補償関数Ｇｔ＝Ｒ（ｓ_ｔ、ａ_ｔ）＋ΓＲ（ｓ_ｔ＋１、ａ_ｔ＋１）＋Γ^２Ｒ（ｓ_ｔ＋２、ａ_ｔ＋２）＋…＋Γ^ＴＲ（ｓ_Ｔ、ａ_Ｔ）であり、Γ∈［０、１］である。

ここで、Γは補償の現在価値化と関連した係数であって、０に近いほど未来より現在の決定ステップの補償を重要視し、１に近いほど全ての決定ステップ補償を同一の加重値として重要視するようになる。

次は、本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習方法を説明する。

図４は、本発明の一実施形態に従う条件付きエピソード構成を用いた強化学習装置の学習方法を示すフローチャートである。

図２乃至図４を参照して説明すると、条件付きエピソード構成部１００が任意のデータセットでサンプリングを通じて複数の状態（State）データを抽出（Ｓ１００）する。

ステップＳ１００で、条件付きエピソード構成部１００は状態の単位がＷ個存在する多様なデータのセットでサンプリングを通じてランダムに複数の状態（State）をＮ個抽出する。

ここで、抽出される状態の個数‘Ｎ’は‘Ｗ’より小さいか等しい数（Ｎ≦Ｗ）である。

条件付きエピソード構成部１００がステップＳ１００で抽出された複数の状態のうち、任意のＴ個を選択し、選択されたＴ個に対して条件を設定（Ｓ２００）する。

また、ステップＳ２００で条件付きエピソード構成部１００は予め設定された個数、またはユーザの設定によってＴの個数を設定することもできる。

また、ステップＳ２００で条件付きエピソード構成部１００は選択される‘Ｔ’の個数がステップＳ１００で抽出された複数の状態（State）個数‘Ｎ’より小さいか等しい数（Ｔ≦Ｎ）になるように設定することもできる。

また、ステップＳ２００で条件付きエピソード構成部１００はエピソードの終了と関連した条件として、分類の問題である場合、誤った予測を遂行すればエピソードを終了する条件、特定しきい値を超過すればエピソードを終了する条件などを設定することができる。

また、現在ステップでの補償値が小さい場合、エピソードを終了する条件を多様に設定することができる。

次に、条件付きエピソード構成部１００はエピソードが終了する条件が設定されたＴ個のステップに定義されるエピソードを設定するステップ（Ｓ３００）を遂行する。

また、ステップＳ３００で条件付きエピソード構成部１００はエピソードが終了する条件が設定されたＴ個のステップに定義されるエピソードに基づいて臨時エピソードを構成し、以後、強化学習エージェント２００の訓練または学習を通じて臨時エピソードのステップのうち、条件を満たすステップを抽出してエピソードを構成することができる。

即ち、ステップＳ３００で条件付きエピソード構成部１００はエピソードを条件により定義する場合、補償を計算する時、現在価値化する範囲が定まるようになることによって、エピソードが流動的に変更されることができ、これによって、Ｔ個のステップからなるエピソードを臨時エピソードに設定して強化学習エージェント２００に提供する。

また、ステップＳ３００は条件付きエピソード構成部１００が強化学習エージェント２００の訓練または学習を遂行してＴ個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成する。

ステップＳ３００で構成されたエピソードは強化学習エージェント２００に提供され、強化学習エージェント２００は設定されたエピソードに基づいてＴ個のステップから得る補償（Reward）の和が最大化されるように強化学習を遂行（Ｓ４００）してアクション（Action）を決定する。

また、ステップＳ４００で強化学習エージェント２００はエピソードの終了時点まで現在価値化された補償の総和を最大化する方向に学習し、補償の総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント（Policy Gradient）が累積補償を増加させる方向であり、下記式として定義できる。

また、補償はエピソードでＴ個のステップから得る補償の和からなるようになり、補償関数Ｇｔ＝Ｒ（ｓ_ｔ、ａ_ｔ）＋ΓＲ（ｓ_ｔ＋１、ａ_ｔ＋１）＋Γ^２Ｒ（ｓ_ｔ＋２、ａ_ｔ＋２）＋…＋Γ^ＴＲ（ｓ_Ｔ、ａ_Ｔ）であり、Γ∈［０、１］から構成できる。

下記の表はＵＣＩ（University of California）で公開した２２％詐欺取引を含んでいる実際クレジットカード取引データを用いて各エピソード定義別性能実験した結果である。

実験で表１はＦ－１測定、補償（Reward）、損失金額の３つを測定した性能比較表である。

また、特定条件を基準にエピソードを構成して強化学習エージェントが詐欺件に対して誤った行動をした時までをエピソード終了条件にして１つのエピソードとして定義した。

即ち、ＳＬ（Supervised Learning）は指導学習を意味し、One-stepはOne-STEP方法を意味し、N-stepは全体配置大きさ（サイズ）をエピソードに使用したN-STEP方法を意味し、FALSEは条件が設定されたステップで強化学習エージェントが誤った行動をした時までを１つのエピソードとして定義しており、ＦＮ（False Negative）は条件が設定されたステップで強化学習エージェントが詐欺件に対して誤った行動をした時までを１つのエピソードとして定義した。

ここで、高い性能に該当する数値は太い数字で強調し、損失金額は低い値であるほど良い性能を意味する。前記表から分かるように、強化学習エージェントが特定条件、例えば１回も合わなくてはならないことを条件にしてエピソードを構成したFALSEと、１回も合わなくてならないが、詐欺件を合わなくてはならないことを条件にしてエピソードを構成したＦＮに対して良い性能を示し、特にＦＮエピソード実験が最も良い性能を示している。

したがって、個別意思決定に対して条件を与えて、与えられた条件を満たさなければエピソードを終了して現在価値を反映した補償の和が最大化されるようにすることによって、連続性のない状態を用いる問題でも容易に強化学習を適用することができる。

また、明確に次の状態と定義できない（連続性のない）データに対するエピソードを構成することによって、カード、与信などのビジネス意思決定分野で与えられた条件を満たさなければ、他の方向に学習することを遮断して意図しない強化学習を防止することができる。

また、エピソードを条件により定義することによって、補償を算出する過程で現在価値化する範囲が決定されることができ、サンプリングされたＮ個内で条件を満たす時までをエピソードとして自動定義することによって、即ち条件を満たさなければエピソード終了、条件を通じてユーザの所望の方向に強化学習を制御することができる。

また、エピソードで強化学習エージェントの初期状態はランダムにサンプリングされ、相互作用は環境が条件を満たすことまで到達する時まで進行されることによって、エピソード当たり総補償予想値を最大化し、最大限少ない数のエピソードで高い水準の成果を達成することができる。

上記のように、本発明の好ましい実施形態を参照して説明したが、該当技術分野の熟練した当業者であれば、下記の特許請求範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を多様に修正及び変更させることができることを理解することができる。

また、本発明の特許請求範囲に記載された図面番号は説明の明瞭性と便宜のために記載したものであり、これに限定されるのではなく、実施形態を説明する過程で図面に図示された線の厚さや構成要素のサイズなどは説明の明瞭性と便宜上、誇張して図示されることもある。

また、前述した用語は本発明での機能を考慮して定義された用語であって、これはユーザ、運用者の意図または慣例によって変わることがあるので、このような用語に対する解釈は本明細書の全般に亘る内容に基づいて下されるべきである。

また、明示的に図示または説明されなかったとしても本発明が属する技術分野で通常の知識を有する者が本発明の記載事項から本発明による技術的思想を含む多様な形態に変形することができることは自明であり、これは相変らず本発明の権利範囲に属する。

また、添付の図面を参照して説明された上記の実施形態は本発明を説明するための目的として記述されたものであり、本発明の権利範囲はこのような実施形態に限定されない。

Claims

状態の単位がＷ個存在する任意のデータセットでサンプリングを通じて複数の状態（State）をＮ（≦Ｗ）個抽出し、かつ、
抽出された前記状態のうち、任意のＴ（≦Ｎ）個に対してエピソードが終了する条件を設定し、
補償を計算する時、現在価値化する範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、
前記エピソードが終了する条件が設定されたＴ個のステップに定義されるエピソードに基づいて臨時エピソードを構成して強化学習エージェント２００に提供し、
前記臨時エピソードのステップのうち、前記強化学習エージェント２００の学習を通じてＴ個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成する条件付きエピソード構成部１００；及び
前記条件付きエピソード構成部１００から入力されるエピソードに基づいてＴ個のステップから得る補償（Reward）の和が最大化されるようにアクション（Action）を決定する強化学習エージェント２００を含む条件付きエピソード構成を用いた強化学習装置。
前記エピソードはＴ個のステップで状態、アクション、及び補償に対する条件を通じて前記エピソードの終了時点を設定し、かつ、
前記エピソードの終了時点は誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか１つであることを特徴とする、請求項１に記載の条件付きエピソード構成を用いた強化学習装置。
前記条件付きエピソード構成部１００は、任意のデータセットでサンプリングを通じて複数の状態（State）を抽出するサンプリング部１１０；
前記抽出された状態のうち、任意のＴ個に対してエピソードが終了する条件を設定し、かつ前記Ｔは抽出された複数の状態数より小さいか等しい数になるように設定する条件設定部１２０；及び
前記条件が設定されたＴ個のステップに定義されるエピソードを構成し、かつ
補償を計算する時、現在価値化する範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、前記エピソードが終了する条件が設定されたＴ個のステップに定義されるエピソードに基づいて臨時エピソードを構成して強化学習エージェント２００に提供し、前記臨時エピソードのステップのうち、前記強化学習エージェント２００の学習を通じてＴ個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成するエピソード設定部１３０；を含むことを特徴とする、請求項１に記載の条件付きエピソード構成を用いた強化学習装置。
前記強化学習エージェント２００は、エピソードの終了時点まで現在価値化された補償の総和を最大化する方向に強化学習することを特徴とする、請求項１に記載の条件付きエピソード構成を用いた強化学習装置。
前記補償の総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント（Policy Gradient）が累積補償を増加させる方向であり、下記式

ここで、∇_θＪ（π）はポリシーグラジエント、πは最も大きい補償を与えることができる政策、θはニューラルネットの係数（または、モデルパラメータ）、Ｔは条件が設定されたステップの個数、ａ_ｔはアクション、ｓ_ｔは状態、Ｇ（Ｈ）は１つのエピソードで現在価値化された補償の総和である、
として定義されることを特徴とする、請求項４に記載の条件付きエピソード構成を用いた強化学習装置。
ａ）条件付きエピソード構成部１００が状態の単位がＷ個存在する任意のデータセットでサンプリングを通じて複数の状態（State）をＮ（≦Ｗ）個抽出するステップ；
ｂ）前記条件付きエピソード構成部１００が抽出された状態のうち、任意のＴ（≦Ｎ）個に対してエピソードが終了する条件を設定するステップ；
ｃ）前記条件付きエピソード構成部１００が補償を計算する時、現在価値化する範囲が定まるようになってエピソードが流動的に変更できるようにエピソードを前記条件に定義し、エピソードが終了する条件が設定されたＴ個のステップに定義される臨時エピソードを構成して設定するステップ；
ｄ）強化学習エージェント２００が前記設定された臨時エピソードに基づいてＴ個のステップから得る補償（Reward）の和が最大化されるように学習してアクション（Action）を決定するステップ；及び
ｅ）前記条件付きエピソード構成部１００は、前記強化学習エージェント２００の学習を通じてＴ個のステップのうち、状態、アクション、及び補償に対する条件を満たさなくてエピソードが終了すれば、条件を満たして学習がよくなされた現在までのステップに基づいて補償の和が最大化できるようにエピソードを自動に定義して再構成するステップ；を含む条件付きエピソード構成を用いた強化学習方法。
前記ｂ）ステップの条件付きエピソード構成部１００は、エピソードがＴ個のステップで状態、アクション、及び補償に対する条件を通じて誤った予測、特定しきい値超過、現在ステップの補償値が小さい場合のうち、いずれか１つをエピソードの終了時点に設定することを特徴とする、請求項６に記載の条件付きエピソード構成を用いた強化学習方法。
前記ｄ）ステップの強化学習エージェント２００は、エピソードの終了時点まで現在価値化された補償の総和を最大化する方向に学習することを特徴とする、請求項６に記載の条件付きエピソード構成を用いた強化学習方法。
前記補償の総和が最大化する方向は強化学習の目的関数に対するポリシーグラジエント（Policy Gradient）が累積補償を増加させる方向であり、下記式

ここで、∇_θＪ（π）はポリシーグラジエント、πは最も大きい補償を与えることができる政策、θはニューラルネットの係数（または、モデルパラメータ）、Ｔは条件が設定されたステップの個数、ａ_ｔはアクション、ｓ_ｔは状態、Ｇ（Ｈ）は１つのエピソードで現在価値化された補償の総和である、
として定義されることを特徴とする、請求項８に記載の条件付きエピソード構成を用いた強化学習方法。