JP7219986B2

JP7219986B2 - 階層構造を有する意思決定エージェント

Info

Publication number: JP7219986B2
Application number: JP2021170044A
Authority: JP
Inventors: ファムトゥエンレ; 盧哲均; 李聖靈; 閔豫麟
Original assignee: アジャイルソーダインコーポレイテッド
Priority date: 2020-10-30
Filing date: 2021-10-18
Publication date: 2023-02-09
Anticipated expiration: 2041-10-18
Also published as: KR102264571B1; US20220138656A1; JP2022074019A

Description

本発明は、階層構造を有する意思決定エージェントに係り、さらに詳しくは、強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習することができる、階層構造を有する意思決定エージェントに関する。

企業がビジネスリソースを整理して使用可能にするためには、ビジネス及び情報技術の構成要素の評価、識別、構成、変調、拡張及び統合が行われなければならない。

しかしながら、大部分の企業には、戦略的な情報技術計画方案が導入され、これらが必須ビジネス及び情報技術の構成要素を展開するように開発することができる基盤が不足である。

したがって、ビジネスは、エンドツーエンドアクティビティ（end-to-end activities）への交差機能的ビジネスプロセスの成功的な情報技術の可用性を保障することができない。

ビジネスアーキテクチャーが、技術アーキテクチャーを導入し、また、技術アーキテクチャーがビジネスの実行の新しくて創造的な方法を可能にするか、または提供することにより、ビジネスアーキテクチャーの構成に直接影響を与えるようにする基礎フレームワークまたは構造をビジネスに提供することが要求される。

一般のビジネスアーキテクチャー構造を用いるときは、階層化されたアーキテクチャーパターンを主に用いている。

このような階層化されたアーキテクチャーパターン内の構成要素は、水平階層で構成され、それぞれの階層は、特定の役割を行うように構成される。

階層構造パターンでは、パターンに存在しなければならない階層の数や類型が指定されていないが、一般に、四つの標準階層で構成される。

図１は、一般の階層化されたアーキテクチャーパターンのプラットホームを示すブロック図である。

図１を参照すると、階層化されたアーキテクチャーパターンのプラットホーム１０は、プレゼンテーション階層（Presentation Layer）１１、ビジネス階層（Business Layer）１２、パーシステンス階層（Persistence Layer）１３、データベース階層（Database Layer）１４で構成され、ビジネス要請を満たすために行わなければならない作業に対する抽象化を形成する。

例えば、要請が入力されると、プレゼンテーション階層１１は、前記入力された要請について把握する必要がないか、心配に対する方法または顧客データを得るために、当該要請情報を特定形式の画面にのみ表示する。

ビジネス階層１２は、画面に表示するために顧客データの形式を指定する方法や顧客データの出処について心配する必要がない。

前記ビジネス階層１２は、パーシステンス階層１３からデータを取り込み、データに対する値を計算するか、データ集計等を行い、当該実行結果の情報をプレゼンテーション階層１１に伝えるように構成される。

また、要請が入力されると、階層から次の階層に移動するとき、真下の階層を経て、当該階層下の次の階層に移動し、例えば、プレゼンテーション階層１１から始まった要請は、ビジネス階層１２を通過した後、最終的にデータベース階層１４に到達する前にパーシステンス階層１３に移動しなければならない。

しかしながら、このような従来技術による階層構造のアーキテクチャーは、パーシステンス階層のような隔離階層を介して変更を隔離することができるが、大部分の実現が、モノリシック特性とともに、一般に発見される構成要素の緊密な結合のため、アーキテクチャーのパターンを変更し難く、多くの時間が要求されるという問題がある。

また、従来技術による階層構造のアーキテクチャーは、構成要素を一回変更すれば、全体アプリケーション(またはアプリケーションの相当部分)を再配布しなければならないことがあるので、追加配布に対する問題がある。

また、従来技術による階層構造のアーキテクチャーパターンは、モノリシックで実現され、このようなアーキテクチャーパターンを用いてビルドするアプリケーションは、階層を別々の物理的配置に分割するか、全体アプリケーションを多くのノードで複製して、階層化されたアーキテクチャーに拡張することができるが、全体的に細分化するには大き過ぎて、拡張し難いという問題点がある。

また、従来技術による階層構造のアーキテクチャーは、ビジネス問題を解くための強化学習やＡＩ関連の専門的な知識を有するユーザのみが使用することができ、使用が制限されるという問題点がある。

大韓民国公開特許公報第１０－２００２－００２６５８７号

このような問題点を解決するために、本発明は、強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習することができる、階層構造を有する意思決定エージェントを提供することを目的とする。

上記した目的を達成するために、本発明の一実施形態は、階層構造を有する意思決定エージェントであって、ビジネスドメインに合う強化学習の環境要素を定義する第１階層部と、前記強化学習の学習速度及び性能向上のためのオートチューニング（Auto tuning）アルゴリズムを設定する第２階層部と、前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第３階層部と、前記ビジネスドメインにより、エージェントの学習を進めるための強化学習アルゴリズムを選択する第４階層部と、を含む。

また、前記実施形態による第１階層部は、ステート（State）、アクション（Action）、リワード（Reward）、エージェント（Agent）、及びステート遷移（State-Transition）を環境要素として定義することを特徴とする。

また、前記実施形態による第１階層部は、データからＤ-次元ベクトルを抽出して特徴空間（Feature space）を設計するステートエンコーダと、前記特徴空間からＤ-次元空間にデータを変形するステートデコーダと、を含むことを特徴とする。

また、前記実施形態による第１階層部は、Ｄ-次元ベクトル空間においてＫ－次元ベクトルに変換するアクションエンコーダと、前記Ｋ-次元ベクトルをアクションの形態に変形するアクションデコーダと、を含み、前記アクションの形態は、離散的決定、連続的決定、及び、前記離散的決定と前記連続的決定の組合せのうちいずれか一つであることを特徴とする。

また、前記実施形態による第１階層部は、ユーザにより定義されて用いられるユーザカスタマイズ（Customized）リワード、データに存在する変数またはそれぞれの会社のＫＰＩ（Key Performance Indicator）を加重値調節方式で使用するウィザード（Wizard）リワード、及び、ユーザが簡単な学習及び強化学習ベースラインの確認用途として使えるオートリワード（Auto reward）のうちいずれか一つが、報酬関数の設計のための変数として選択されることを特徴とする。

また、前記実施形態による第２階層部は、ステートの形態を分析して整形データ、イメージデータ、及びテキストデータに対して自動で前処理を行うオートフィーチャリング部と、前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを自動で設計するオートデザイン部と、前記強化学習において性能の向上のために要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部と、前記強化学習に要求されるリワードから、加重値の自動サーチ（search）またはオートリワードのようなリワードタイプを選択し、リワードを自動で計算するオートリワーディング部と、を含むことを特徴とする。

また、前記実施形態による第３階層部は、エージェントの意思決定に対する解析のためのモデルを提供する説明可能ＡＩモデル部と、前記エージェントの意思決定時に足りないデータを生成する生成的ＡＩモデル部と、事前に学習されたモデルを提供する学習されたモデル部と、を含むことを特徴とする。

また、前記実施形態による第４階層部は、環境に対する特定の仮定なしに、モデルが環境を探索して学習するモデルフリー強化学習部と、前記環境に対する情報に基づいてモデルが学習するモデルベース強化学習部と、エージェントを複数階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習するアルゴリズムを提供する階層型強化学習アルゴリズム部と、一つの環境に複数のエージェントが存在すると、前記エージェント間の競争または協業により学習するようにアルゴリズムを提供するマルチエージェントアルゴリズム部と、を含むことを特徴とする。

本発明は、強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習することができるという長所がある。

また、本発明は、ユーザのドメイン知識と一般の機械学習の知識のみでも、強化学習をユーザのビジネス問題に容易に適用することができるという長所がある。

また、本発明は、ユーザが、強化学習によりビジネス問題を解くために、強化学習やＡＩ関連知識よりも、ドメイン知識にさらに集中してＡＩを導入することができるという長所がある。

また、本発明は、一般の強化学習プラットホームよりも、最小限の労力でビジネス問題に様々な強化学習の設計を構築して、高い水準の成果を達成することができるという長所がある。

一般の階層化されたアーキテクチャーパターンのプラットホームを示すブロック図である。本発明の一実施形態による階層構造を有する意思決定エージェントを示すブロック図である。図２の実施形態による階層構造を有する意思決定エージェントの第１階層部の構成を示すロック図である。図３の実施形態による第１階層部のステート部の構成を示すブロック図である。図３の実施形態による第１階層部のアクション部の構成を示すブロック図である。図２の実施形態による階層構造を有する意思決定エージェントの第２階層部の構成を示すブロック図である。図２の実施形態による階層構造を有する意思決定エージェントの第３階層部の構成を示すブロック図である。図２の実施形態による階層構造を有する意思決定エージェントの第４階層部の構成を示すブロック図である。

以下、本発明における好適な実施形態及び添付図面を参照して、本発明について詳しく説明するが、図面における同じ参照符号は、同じ構成要素を指すことを前提として説明する。

本発明の実施のための具体的な内容を説明する前に、本発明の技術的要旨と直接的関連のない構成については、本発明の技術的要旨を損なわない範囲内で省略したことに留意しなければならないであろう。

また、この明細書及び請求範囲に用いられた用語や単語は、発明者が自分の発明を最善の方法で説明するために用語の概念を適切に定義できるという原則に即して、発明の技術的思想に符合する意味と概念で解釈されなければならない。

この明細書において、ある部分がある構成要素を「含む」という表現は、他の構成要素を排除するものではなく、他の構成要素をさらに含んでもよいことを意味する。

また、「…部」、「…器」、「…モジュール」等の用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェアやソフトウェア、またはこれらの結合に分けられる。

また、「少なくとも一つの」という用語は、単数及び複数を含む用語として定義され、「少なくとも一つの」という用語が存在しなくても、それぞれの構成要素が単数または複数で存在してもよく、単数または複数を意味し得ることは自明であろう。

また、それぞれの構成要素が単数または複数で備えられることは、実施形態により変更可能である。

以下、添付された図面を参照して、本発明の一実施形態による階層構造を有する意思決定エージェントの好適な実施形態について詳細に説明する。

図２は、本発明の一実施形態による階層構造を有する意思決定エージェントを示すブロック図であり、図３は、図２の実施形態による階層構造を有する意思決定エージェントの第１階層部の構成を示すロック図であり、図４は、図３の実施形態による第１階層部のステート部の構成を示すブロック図であり、図５は、図３の実施形態による第１階層部のアクション部の構成を示すブロック図であり、図６は、図２の実施形態による階層構造を有する意思決定エージェントの第２階層部の構成を示すブロック図であり、図７は、図２の実施形態による階層構造を有する意思決定エージェントの第３階層部の構成を示すブロック図であり、図８は、図２の実施形態による階層構造を有する意思決定エージェントの第４階層部の構成を示すブロック図である。

図２乃至図８を参照すると、本発明の一実施形態による階層構造を有する意思決定エージェント１００は、プラットホームで構成されてもよく、コンピュータシステムまたはサーバシステムにインストールされて動作することができ、第１階層部１１０、第２階層部１２０、第３階層部１３０、第４階層部１４０を含んで構成される。

第１階層部１１０は、ビジネスドメインに合う強化学習の環境要素を定義する構成であって、表現階層（Representation Layer）からなってもよく、ユーザが、任意のユーザインターフェース（ＵＩ）上において、ステート、アクション、リワード、エージェント、ステート遷移を環境要素として定義できるようにする。

また、第１階層部１１０は、入力データに応じてステートを定義するステート部１１１、アクションを定義するアクション部１１２、リワードを定義するリワード部１１３、ビジネスドメインに合う強化学習エージェントを選択するエージェント部１１４、及びビジネス問題の不確実性を測定できるトランジション部１１５を含んで構成されてもよい。

ここで、ビジネスドメインは、エージェントが応答すべき入力及びエージェントに提供される知識であってもよいが、例えば、自動車製造工程の自動化である場合、製造工程のプロセス、材料等をモデリングするときに、必須で知っていなければならないビジネス情報を意味してもよい。

ステート部１１１は、入力データセットにおいて、ステートとして用いられる部分をステートとして定義し、ここで、定義されたステートは、エージェントが学習する間、利用されてもよい。

また、整形データ、イメージデータ、テキストデート等の様々なフォーマットのデータとアルゴリズムとにより処理方式が変わるので、ステート部１１１は、ステート（状態）を定義するためのステートエンコーダ１１１ａ及びステートデコーダ１１１ｂを含んで構成されてもよい。

ステートエンコーダ１１１ａは、入力データセットからＤ-次元ベクトル（D-dimensional vector）を抽出し、抽出されたＤ-次元ベクトルから特徴空間を設計する。

ステートデコーダ１１１ｂは、ステートエンコーダ１１１ａで設計された特徴空間からＤ-次元空間（Χ∈Ｒ^Ｄ）に表現データ（Representation Data）を変形することにより、ステートを定義する。

アクション部１１２は、アクションを定義する構成であって、実際のビジネスの意思決定の構成が極めて複雑であるので、意思決定を強化学習アルゴリズムで最適化できる形態に変換し、アクションエンコーダ１１２ａ及びアクションデコーダ１１２ｂを含んで構成されてもよい。

アクションエンコーダ１１２ａは、強化学習アルゴリズムを介して、Ｄ-次元ベクトル空間（Χ∈Ｒ^Ｄ）においてＫ-次元ベクトル（Ｙ∈Ｒ^Ｋ）に変換する。

アクションデコーダ１１２ｂは、Ｋ-次元ベクトルをアクションの形態に変形し、ここで変形されるアクションの形態は、はい（Yes）、いいえ（No）、増加（Up）、減少（Down）、維持（Stay）等の離散的決定（Discrete Decision）、フロート値（Float values）等の連続的決定（Continuous Decision）、離散及び連続の組合せ（Combination of Discrete and Continuous）のうちいずれか一つの形態に変形される。

リワード部１１３は、学習のための補償システムの定義のための要素、例えば、正解（label）、目標（Metric）等のリワードの計算に必要な要素を定義する構成であって、正解のあるデータセットにおいて正解（label）として表現されてもよく、収益、費用等の企業の目標（Metric）として表現されてもよい。

また、リワードは、ステートにおいてエージェントのアクションにより得られ、エージェントは、総リワードを最大化する行動を行わせることが目標である。

また、リワード部１１３は、報酬関数（または補償関数）の設計のための変数に対して、ユーザカスタマイズ型方式、ウィザード方式、正解を活用する方式により、オートリワードを設定することができる。

ユーザカスタマイズ型方式は、ユーザインターフェースを介してユーザから定義されるリワードが、報酬関数の設計のための変数に設定されるようにする。

ウィザード方式は、データに存在する変数やそれぞれの会社のＫＰＩを加重値調節方式として使用するリワードを出力し、報酬関数の設計のための変数に設定されるようにする。

オートリワードは、ユーザが簡単な学習及び強化学習のベースラインの確認用途として使えるように、報酬関数の設計のための変数に設定されるようにする。

また、オートリワードは、正解を活用する方式を使用してもよく、正解を用いて与えられたステート-アクションのペアからリワードを算出するビルトイン報酬関数（Ａ２ＧＡＮ）を設定してもよい。

エージェント部１１４は、ビジネスドメイン特性と強化学習アルゴリズムに基づいてエージェントを選択する構成であって、例えば、ポリシーに基づくエージェント（Policy-based Agent）は、ポリシーに基づく強化学習アルゴリズムと互換されてもよく、価値に基づくエージェント（Value-based Agent）は、価値に基づく強化学習アルゴリズムのみと互換され、アクションに基づくエージェントは、離散アクションと定義するドメインと互換されてもよい。

トランジション部１１５は、エージェントが任意のアクションを取った場合に、次のステートとして何が出るかまたはエージェントが行ったアクションの効果が何かについて表現する構成であって、遷移モデルを、数学的方法論であるＤＢＮｓ（Dynamic Bayesian Networks）、ＨＭＭｓ（Hidden Markov Models）、ＧＰｓ（Gaussian Processes）、及びＧＭＭｓ（Gaussian Mixture Models）等を用いて表現することができる。

また、トランジション部１１５は、他のビジネス領域に状態遷移関数をカスタマイズ型で構成し、ビジネス領域では、ラベル付きデータを用いて状態遷移モデルが設定されるようにする。

第２階層部１２０は、ユーザインターフェースを用いて、強化学習の学習速度及び性能向上のためのオートチューニングアルゴリズムを設定する構成であって、エージェントが、ユーザインターフェースを用いて、シミュレートされたモデル（Simulated models）に対する速い理解、良好なステート構成、最適のアーキテクチャー構成、及び自動補償関数システムを設定するようにカタリスト階層（Catalyst Layer）からなってもよく、オートフィーチャリング部１２１、オートデザイン部１２２、オートチューニング部１２３、オートリワーディング部１２４で構成されてもよい。

オートフィーチャリング部１２１は、ステート１１１の形態を分析して、整形データ、イメージデータ、及びテキストデータに対する前処理を行う構成であって、与えられたシミュレートされたモデルに対するステートを分析して、重要ステートを選別する。

また、オートフィーチャリング部１２１は、アルゴリズムを介して自動で与えられたステートに対する次元の過適合等を回避できるようにする。

また、オートフィーチャリング部１２１は、自動でステートを構成してもよく、ユーザがステートに対する構成を行うように、任意のステートを選択して、データパイプラインで構成できるようにする。

また、オートフィーチャリング部１２１は、整形データに対して、分類と回帰、クラスタリング、次元縮小、モデル選択、前処理に対して様々なアルゴリズムを提供するサイキットラーン（Scikit-Learn）やサイパイ（Scipy）等のような前処理モジュールを用いて欠測値の代替、連続変数、カテゴリ変数、次元縮小、変数選択、異常値除去等のような様々な前処理が行われるようにする。

また、オートフィーチャリング部１２１は、イメージデータに対して、イメージノイズ除去、データ増大、サイズ調整等の前処理が行われるようにする。

また、オートフィーチャリング部１２１は、テキストデータに対して、トークナイザー、フィルタリング、クレンジング等のモジュールを介して前処理が行われるようにする。

オートデザイン部１２２は、ビジネスドメインに適合したニューラルネットワーク（Multi-Layer Perceptron Convolutional Neural Network）アーキテクチャーを自動で設計する構成であって、強化学習、進化（Evolutionary）、ベイズ的最適化（Bayesian Optimization）、勾配ベースの最適化（Gradient-based Optimization）等を介して最適のニューラルネットワークアーキテクチャーを検索する。

すなわち、オートデザイン部１２２は、良い性能のエージェントを学習させるために、当該ビジネスドメインに合う最適のアーキテクチャーが要求されるので、自動で最適のアーキテクチャーを検索する。

オートチューニング部１２３は、強化学習において高い性能を得るために多くの試みが必要なハイパーパラメータのチューニングを自動で行うように動作する構成であって、強化学習エージェントの性能に多くの影響を与えるハイパーパラメータをグリッドサーチ（Grid-Search）、ベイズ的最適化、勾配ベースの最適化、人口ベース最適化（Population based Optimization）を用いて検索し、検索結果に基づいて最適のハイパーパラメータの組合せを提供する。

オートリワーディング部１２４は、強化学習に要求されるリワードが、予め設定された補償パターンにより自動で設定されるように動作する構成であって、リワードにおける加重値の自動サーチまたはオートリワード等のリワードのタイプを選択して、自動でリワードが計算されるようにする。

第３階層部１３０は、第２階層部１２０で処理された様々な前処理、最適のニューラルネットワークアーキテクチャー、ハイパーパラメータ等のカタリスト（Catalyst）である最適化情報を用いて、強化学習の学習性能または説明力のために、生成モデル及び説明可能な人工知能モデルアルゴリズム等を選択する構成であって、説明可能ＡＩモデル部１３１、生成的ＡＩモデル部１３２、学習されたモデル部１３３を含んで構成されてもよい。

また、第３階層部１３０は、入力されたデータタイプ、例えば、整形データ、イメージデータ、テキストデータ等に基づき、モデルのタイプを区別してもよい。

説明可能ＡＩモデル部（Explainable AI Models）１３１は、エージェントの意思決定に対する解析のためのモデルを提供する構成であって、強化学習を含むニューラルネットワークアルゴリズムは、学習結果に対する説明力が不足であるので、意思決定に対する説明を要するドメインのためのモデルを提供する。

生成的ＡＩモデル部（Generative Models）１３２は、エージェントの意思決定の際に不足なデータを生成するためのモデルを提供する構成であって、欠測値のあるデータは、既存のデータ分布を用いて、欠測値が代替されたデータを生成するモデルを提供する。

また、データ不足の問題を解決するために、データを増強させることができ、正解のないデータに対するラベル付けを介して、正解のあるモデルで提供することもできる。

学習されたモデル部１３３は、事前に学習されたモデルを提供する構成であって、事前に学習されたモデルを用いてエージェントを迅速に学習させることができるモデルを提供する。

第４階層部１４０は、ビジネスドメインによりエージェントを学習させるための強化学習アルゴリズムを選択する構成であって、モデルフリー強化学習部（Model free Reinforcement Learning）１４１、モデルベース強化学習部（Model based Reinforcement Learning）１４２、階層型強化学習アルゴリズム部（Hierarchical Reinforcement Learning Algorithm）１４３、マルチエージェントアルゴリズム部（Multi agent Algorithm）１４４を含んで構成されてもよい。

モデルフリー強化学習部１４１は、アクションを行うアルゴリズムを提供する構成であって、価値に基づくアルゴリズム、ポリシーに基づくアルゴリズムを介してアクションを行う。

ここで、価値に基づくアルゴリズムは、ＤＱＮ（Deep Q Networks）、ＤＤＱＮ（Double Deep Q Networks）、ＤｕｅｌｉｎｇＤＤＱＮ（Dueling Double Deep Q Networks）等で構成されてもよい。

また、ポリシーに基づくアルゴリズムは、価値関数（Value function）を使用するものと、使用しないものとにより、ＤＰＳ（Direct Policy Search）とＡＣ（Actor Critic）に分けられる。

ＡＣに基づくアルゴリズムは、Ａ２Ｃ（Advantage Actor Critic）、ＴＲＰＯ（Trust Region Policy Optimization）、ＰＰＯ（Proximal Policy Optimization）、ＤＤＰＧ（Deep Deterministic Policy Gradient）、ＳＡＣ（Soft Actor Critic）等で構成されてもよい。

モデルベース強化学習部１４２は、モデルフリー強化学習部１４１とは異なり、環境に関する情報がある状態で、モデルが学習するアルゴリズムを提供する構成であって、モデルに基づくアルゴリズムの遷移モデル(transition model)を用いて、エージェントを学習させる。

また、モデルに基づくアルゴリズムは、実際のデータとシミュレーション環境から出たデータの両方をポリシーアップデートの際に使用し、実際のデータを用いて遷移モデルを学習させるか、ＬＱＲ（Linear Quadratic Regulator）のような数理的モデルを用いてもよい。

また、モデルベース強化学習部１４２は、ＤｙｎＡ、ＰＩＬＣＯ（Probabilistic Inference for Learning Control)、ＭＣＴＳ（Monte-Carlo Tree Search）、ＷｏｒｌｄＭｏｄｅｌｓ等で構成されてもよい。

階層型強化学習アルゴリズム部１４３は、ビジネスドメインが極めて複雑であり、単一エージェントでは問題の解決が難しい場合に、エージェントを多くの階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習し、マスターエージェントの学習を助けることができる構造のアルゴリズムを提供する。

マルチエージェントアルゴリズム部１４４は、一つの環境に複数のエージェントが存在すると、エージェント間の競争または協業により学習するようにアルゴリズムを提供する。

また、第４階層部１４０は、指導学習のようにエージェントを学習させるか、ラベル付きデータセットで補償関数を逆に見い出してラベルなしデータセットの学習に使用するアルゴリズム、ＬＳＴＭ（Long Short Term Memory）、ＭＡＭＬ（Model-Agnostic Meta Learning）、ＭＱＬ（Meta Q Learning）等のメタ強化学習アルゴリズム、環境とリアルタイムの相互作用が難しいビジネスドメインにおいて、オフラインデータを用いて学習するバッチ強化学習アルゴリズム、Ａ２ＧＡＮを用いたアルゴリズム等を含む、その他のアルゴリズム部１４５を含んで構成されてもよい。

したがって、強化学習に関する知識のないユーザが、強化学習の核心要素をユーザインターフェースを介して選択及び設定することにより、ビジネス問題に容易に適用して学習できるようになる。

また、ユーザのドメイン知識と一般の機械学習の知識だけでも、ユーザのビジネス問題に強化学習を容易に適用することができ、ユーザが強化学習によりビジネス問題を解決するために、強化学習やＡＩ関連知識よりも、ドメイン知識にさらに集中してＡＩを導入することができる。

また、一般の強化学習プラットホームよりも、最小限の労力で、ビジネス問題に様々な強化学習の設計を構築して、高い水準の成果を達成することができる。

以上、本発明の好適な実施形態を参照して説明したが、当該技術分野における熟練した当業者であれば、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で、本発明を様々に修正及び変更させてもよいことを理解することができるであろう。

また、本発明の特許請求の範囲に記載された図面符号は、説明の明瞭性と便宜のために記載されたものであり、これに限定されるものではなく、実施形態を説明するにあたって、図示された線の太さや構成要素の大きさ等は、説明の明瞭性と便宜のために誇張して示されてもよい。

また、上述した用語は、本発明における機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例により変わり得るので、このような用語に対する解釈は、この明細書の全般にわたった内容に基づいて行われなければならない。

また、明示的に図示または説明されていなくても、本発明が属する技術分野における通常の知識を有する者が、本発明の記載事項から本発明による技術的思想を含む様々な形態の変形を導き出せることは自明であり、これは、依然として本発明の権利範囲に属する。

また、添付図面を参照して説明された上記した実施形態は、本発明を説明するための目的で記述されたものであり、本発明の権利範囲は、このような実施形態に限定されるものではない。

１００エージェント
１１０第１階層部
１１１ステート部
１１１ａステートエンコーダ
１１１ｂステートデコーダ
１１２アクション
１１２ａアクションエンコーダ
１１２ｂアクションデコーダ
１１３リワード
１１４エージェント部
１１５トランジション
１２０第２階層部
１２１オートフィーチャリング部
１２２オートデザイン部
１２３オートチューニング部
１２４オートリワーディング部
１３０第３階層部
１３１説明可能ＡＩモデル部
１３２生成的ＡＩモデル部
１３３学習されたモデル部
１４０第４階層部
１４１モデルフリー強化学習部
１４２モデルベース強化学習部
１４３階層型強化学習アルゴリズム部
１４４マルチエージェントアルゴリズム部
１４５その他のアルゴリズム部

Claims

ビジネスドメインに合う強化学習の環境要素を定義する第１階層部（１１０）と、
前記強化学習の学習速度及び性能向上のためのオートチューニング（Auto tuning）ア
ルゴリズムを設定する第２階層部（１２０）と、
前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第３階層部（１３０）と、
前記ビジネスドメインにより、自装置の学習を進めるための強化学習アルゴリズムを選択する第４階層部（１４０）と、を含み、
前記第２階層部（１２０）は、
ステート部（１１１）が入力データセットで定義されたステートの形態を分析して重要ステートを選別し、整形データ、イメージデータ、及びテキストデータに対して自動で任意の前処理を行うオートフィーチャリング部（１２１）と、
前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを検索して、自動でニューラルネットワークアーキテクチャーを設計するオートデザイン部（１２２）と、
前記強化学習における性能の向上のために、ハイパーパラメータを検索し、検索結果に基づき最適のハイパーパラメータの組合せを提供して、要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部（１２３）と、
前記強化学習に要求されるリワードが予め設定された報酬パターンにより自動で設定されるように、加重値の自動サーチ（search）またはオートリワードのようなリワードタイプを選択し、選択されたリワードタイプにより自動でリワードを計算するオートリワーディング部（１２４）と、
を含むことを特徴とする階層構造を有する意思決定エージェント装置。
前記第１階層部（１１０）は、ステート（State）、アクション（Action）、リワード
（Reward）、エージェント（Agent）、及びステート遷移（State-Transition）を環境要
素として定義することを特徴とする、請求項１に記載の階層構造を有する意思決定エージェント。
前記第１階層部（１１０）は、
データからＤ-次元ベクトルを抽出して特徴空間（Feature space）を設計するステートエンコーダ（１１１ａ）と、
前記特徴空間からＤ-次元空間にデータを変形するステートデコーダ（１１１ｂ）と、
を含むことを特徴とする、請求項２に記載の階層構造を有する意思決定エージェント。
前記第１階層部（１１０）は、
Ｄ-次元ベクトル空間においてＫ-次元ベクトルに変換するアクションエンコーダ（１１２ａ）と、
前記Ｋ-次元ベクトルをアクションの形態に変形するアクションデコーダ（１１２ｂ）
と、を含み、
前記アクションの形態は、離散的決定、連続的決定、及び、前記離散的決定と前記連続的決定の組合せのうちいずれか一つであることを特徴とする、
請求項３に記載の階層構造を有する意思決定エージェント。
前記第１階層部（１１０）は、ユーザにより定義されて用いられるユーザカスタマイズ（Customized）リワード、データに存在する変数またはそれぞれの会社のＫＰＩ（Key Performance Indicator）を加重値調節方式で使用するウィザード（Wizard）リワード、及び、ユーザが簡単な学習及び強化学習ベースラインの確認用途として使えるオートリワード（Auto reward）のうちいずれか一つが、報酬関数の設計のための変数として選択され
ることを特徴とする、請求項４に記載の階層構造を有する意思決定エージェント。
前記第３階層部（１３０）は、
エージェントの意思決定に対する解析のためのモデルを提供する説明可能ＡＩモデル部（１３１）と、
前記エージェントの意思決定時に足りないデータを生成する生成的ＡＩモデル部（１３２）と、
事前に学習されたモデルを提供する学習されたモデル部（１３３）と、
を含むことを特徴とする、請求項１に記載の階層構造を有する意思決定エージェント。
前記第４階層部（１４０）は、
環境に対する特定の仮定なしに、モデルが環境を探索して学習するモデルフリー強化学習部（１４１）と、
前記環境に対する情報に基づいてモデルが学習するモデルベース強化学習部（１４２）と、
エージェントを複数階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習するアルゴリズムを提供する階層型強化学習アルゴリズム部（１４３）と、
一つの環境に複数のエージェントが存在すると、前記エージェント間の競争または協業により学習するようにアルゴリズムを提供するマルチエージェントアルゴリズム部（１４４）と、
を含むことを特徴とする、請求項１に記載の階層構造を有する意思決定エージェント。
意思決定エージェントがインストールされたコンピュータシステムであって、
前記意思決定エージェントは、階層構造を有し、
ビジネスドメインに合う強化学習の環境要素を定義する第１階層部（１１０）と、
前記強化学習の学習速度及び性能向上のためのオートチューニング（Auto tuning）ア
ルゴリズムを設定する第２階層部（１２０）と、
前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第３階層部（１３０）と、
前記ビジネスドメインにより、エージェントの学習を進めるための強化学習アルゴリズムを選択する第４階層部（１４０）と、を含み、
前記第２階層部（１２０）は、
ステート部（１１１）が入力データセットで定義されたステートの形態を分析して重要ステートを選別し、整形データ、イメージデータ、及びテキストデータに対して自動で任意の前処理を行うオートフィーチャリング部（１２１）と、
前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを検索して、自動でニューラルネットワークアーキテクチャーを設計するオートデザイン部（１２２）と、
前記強化学習における性能の向上のために、ハイパーパラメータを検索し、検索結果に基づき最適のハイパーパラメータの組合せを提供して、要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部（１２３）と、
前記強化学習に要求されるリワードが予め設定された報酬パターンにより自動で設定されるように、加重値の自動サーチ（search）またはオートリワードのようなリワードタイプを選択し、選択されたリワードタイプにより自動でリワードを計算するオートリワーディング部（１２４）と、を含む、
コンピュータシステム。