JP7219986B2 - 階層構造を有する意思決定エージェント - Google Patents

階層構造を有する意思決定エージェント Download PDF

Info

Publication number
JP7219986B2
JP7219986B2 JP2021170044A JP2021170044A JP7219986B2 JP 7219986 B2 JP7219986 B2 JP 7219986B2 JP 2021170044 A JP2021170044 A JP 2021170044A JP 2021170044 A JP2021170044 A JP 2021170044A JP 7219986 B2 JP7219986 B2 JP 7219986B2
Authority
JP
Japan
Prior art keywords
reinforcement learning
unit
decision
auto
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021170044A
Other languages
English (en)
Other versions
JP2022074019A (ja
Inventor
ファム トゥエン レ
盧哲均
李聖靈
閔豫麟
Original Assignee
アジャイルソーダ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アジャイルソーダ インコーポレイテッド filed Critical アジャイルソーダ インコーポレイテッド
Publication of JP2022074019A publication Critical patent/JP2022074019A/ja
Application granted granted Critical
Publication of JP7219986B2 publication Critical patent/JP7219986B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、階層構造を有する意思決定エージェントに係り、さらに詳しくは、強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習することができる、階層構造を有する意思決定エージェントに関する。
企業がビジネスリソースを整理して使用可能にするためには、ビジネス及び情報技術の構成要素の評価、識別、構成、変調、拡張及び統合が行われなければならない。
しかしながら、大部分の企業には、戦略的な情報技術計画方案が導入され、これらが必須ビジネス及び情報技術の構成要素を展開するように開発することができる基盤が不足である。
したがって、ビジネスは、エンドツーエンドアクティビティ(end-to-end activities)への交差機能的ビジネスプロセスの成功的な情報技術の可用性を保障することができない。
ビジネスアーキテクチャーが、技術アーキテクチャーを導入し、また、技術アーキテクチャーがビジネスの実行の新しくて創造的な方法を可能にするか、または提供することにより、ビジネスアーキテクチャーの構成に直接影響を与えるようにする基礎フレームワークまたは構造をビジネスに提供することが要求される。
一般のビジネスアーキテクチャー構造を用いるときは、階層化されたアーキテクチャーパターンを主に用いている。
このような階層化されたアーキテクチャーパターン内の構成要素は、水平階層で構成され、それぞれの階層は、特定の役割を行うように構成される。
階層構造パターンでは、パターンに存在しなければならない階層の数や類型が指定されていないが、一般に、四つの標準階層で構成される。
図1は、一般の階層化されたアーキテクチャーパターンのプラットホームを示すブロック図である。
図1を参照すると、階層化されたアーキテクチャーパターンのプラットホーム10は、プレゼンテーション階層(Presentation Layer)11、ビジネス階層(Business Layer)12、パーシステンス階層(Persistence Layer)13、データベース階層(Database Layer)14で構成され、ビジネス要請を満たすために行わなければならない作業に対する抽象化を形成する。
例えば、要請が入力されると、プレゼンテーション階層11は、前記入力された要請について把握する必要がないか、心配に対する方法または顧客データを得るために、当該要請情報を特定形式の画面にのみ表示する。
ビジネス階層12は、画面に表示するために顧客データの形式を指定する方法や顧客データの出処について心配する必要がない。
前記ビジネス階層12は、パーシステンス階層13からデータを取り込み、データに対する値を計算するか、データ集計等を行い、当該実行結果の情報をプレゼンテーション階層11に伝えるように構成される。
また、要請が入力されると、階層から次の階層に移動するとき、真下の階層を経て、当該階層下の次の階層に移動し、例えば、プレゼンテーション階層11から始まった要請は、ビジネス階層12を通過した後、最終的にデータベース階層14に到達する前にパーシステンス階層13に移動しなければならない。
しかしながら、このような従来技術による階層構造のアーキテクチャーは、パーシステンス階層のような隔離階層を介して変更を隔離することができるが、大部分の実現が、モノリシック特性とともに、一般に発見される構成要素の緊密な結合のため、アーキテクチャーのパターンを変更し難く、多くの時間が要求されるという問題がある。
また、従来技術による階層構造のアーキテクチャーは、構成要素を一回変更すれば、全体アプリケーション(またはアプリケーションの相当部分)を再配布しなければならないことがあるので、追加配布に対する問題がある。
また、従来技術による階層構造のアーキテクチャーパターンは、モノリシックで実現され、このようなアーキテクチャーパターンを用いてビルドするアプリケーションは、階層を別々の物理的配置に分割するか、全体アプリケーションを多くのノードで複製して、階層化されたアーキテクチャーに拡張することができるが、全体的に細分化するには大き過ぎて、拡張し難いという問題点がある。
また、従来技術による階層構造のアーキテクチャーは、ビジネス問題を解くための強化学習やAI関連の専門的な知識を有するユーザのみが使用することができ、使用が制限されるという問題点がある。
大韓民国公開特許公報第10-2002-0026587号
このような問題点を解決するために、本発明は、強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習することができる、階層構造を有する意思決定エージェントを提供することを目的とする。
上記した目的を達成するために、本発明の一実施形態は、階層構造を有する意思決定エージェントであって、ビジネスドメインに合う強化学習の環境要素を定義する第1階層部と、前記強化学習の学習速度及び性能向上のためのオートチューニング(Auto tuning)アルゴリズムを設定する第2階層部と、前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第3階層部と、前記ビジネスドメインにより、エージェントの学習を進めるための強化学習アルゴリズムを選択する第4階層部と、を含む。
また、前記実施形態による第1階層部は、ステート(State)、アクション(Action)、リワード(Reward)、エージェント(Agent)、及びステート遷移(State-Transition)を環境要素として定義することを特徴とする。
また、前記実施形態による第1階層部は、データからD-次元ベクトルを抽出して特徴空間(Feature space)を設計するステートエンコーダと、前記特徴空間からD-次元空間にデータを変形するステートデコーダと、を含むことを特徴とする。
また、前記実施形態による第1階層部は、D-次元ベクトル空間においてK-次元ベクトルに変換するアクションエンコーダと、前記K-次元ベクトルをアクションの形態に変形するアクションデコーダと、を含み、前記アクションの形態は、離散的決定、連続的決定、及び、前記離散的決定と前記連続的決定の組合せのうちいずれか一つであることを特徴とする。
また、前記実施形態による第1階層部は、ユーザにより定義されて用いられるユーザカスタマイズ(Customized)リワード、データに存在する変数またはそれぞれの会社のKPI(Key Performance Indicator)を加重値調節方式で使用するウィザード(Wizard)リワード、及び、ユーザが簡単な学習及び強化学習ベースラインの確認用途として使えるオートリワード(Auto reward)のうちいずれか一つが、報酬関数の設計のための変数として選択されることを特徴とする。
また、前記実施形態による第2階層部は、ステートの形態を分析して整形データ、イメージデータ、及びテキストデータに対して自動で前処理を行うオートフィーチャリング部と、前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを自動で設計するオートデザイン部と、前記強化学習において性能の向上のために要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部と、前記強化学習に要求されるリワードから、加重値の自動サーチ(search)またはオートリワードのようなリワードタイプを選択し、リワードを自動で計算するオートリワーディング部と、を含むことを特徴とする。
また、前記実施形態による第3階層部は、エージェントの意思決定に対する解析のためのモデルを提供する説明可能AIモデル部と、前記エージェントの意思決定時に足りないデータを生成する生成的AIモデル部と、事前に学習されたモデルを提供する学習されたモデル部と、を含むことを特徴とする。
また、前記実施形態による第4階層部は、環境に対する特定の仮定なしに、モデルが環境を探索して学習するモデルフリー強化学習部と、前記環境に対する情報に基づいてモデルが学習するモデルベース強化学習部と、エージェントを複数階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習するアルゴリズムを提供する階層型強化学習アルゴリズム部と、一つの環境に複数のエージェントが存在すると、前記エージェント間の競争または協業により学習するようにアルゴリズムを提供するマルチエージェントアルゴリズム部と、を含むことを特徴とする。
本発明は、強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習することができるという長所がある。
また、本発明は、ユーザのドメイン知識と一般の機械学習の知識のみでも、強化学習をユーザのビジネス問題に容易に適用することができるという長所がある。
また、本発明は、ユーザが、強化学習によりビジネス問題を解くために、強化学習やAI関連知識よりも、ドメイン知識にさらに集中してAIを導入することができるという長所がある。
また、本発明は、一般の強化学習プラットホームよりも、最小限の労力でビジネス問題に様々な強化学習の設計を構築して、高い水準の成果を達成することができるという長所がある。
一般の階層化されたアーキテクチャーパターンのプラットホームを示すブロック図である。 本発明の一実施形態による階層構造を有する意思決定エージェントを示すブロック図である。 図2の実施形態による階層構造を有する意思決定エージェントの第1階層部の構成を示すロック図である。 図3の実施形態による第1階層部のステート部の構成を示すブロック図である。 図3の実施形態による第1階層部のアクション部の構成を示すブロック図である。 図2の実施形態による階層構造を有する意思決定エージェントの第2階層部の構成を示すブロック図である。 図2の実施形態による階層構造を有する意思決定エージェントの第3階層部の構成を示すブロック図である。 図2の実施形態による階層構造を有する意思決定エージェントの第4階層部の構成を示すブロック図である。
以下、本発明における好適な実施形態及び添付図面を参照して、本発明について詳しく説明するが、図面における同じ参照符号は、同じ構成要素を指すことを前提として説明する。
本発明の実施のための具体的な内容を説明する前に、本発明の技術的要旨と直接的関連のない構成については、本発明の技術的要旨を損なわない範囲内で省略したことに留意しなければならないであろう。
また、この明細書及び請求範囲に用いられた用語や単語は、発明者が自分の発明を最善の方法で説明するために用語の概念を適切に定義できるという原則に即して、発明の技術的思想に符合する意味と概念で解釈されなければならない。
この明細書において、ある部分がある構成要素を「含む」という表現は、他の構成要素を排除するものではなく、他の構成要素をさらに含んでもよいことを意味する。
また、「…部」、「…器」、「…モジュール」等の用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェアやソフトウェア、またはこれらの結合に分けられる。
また、「少なくとも一つの」という用語は、単数及び複数を含む用語として定義され、「少なくとも一つの」という用語が存在しなくても、それぞれの構成要素が単数または複数で存在してもよく、単数または複数を意味し得ることは自明であろう。
また、それぞれの構成要素が単数または複数で備えられることは、実施形態により変更可能である。
以下、添付された図面を参照して、本発明の一実施形態による階層構造を有する意思決定エージェントの好適な実施形態について詳細に説明する。
図2は、本発明の一実施形態による階層構造を有する意思決定エージェントを示すブロック図であり、図3は、図2の実施形態による階層構造を有する意思決定エージェントの第1階層部の構成を示すロック図であり、図4は、図3の実施形態による第1階層部のステート部の構成を示すブロック図であり、図5は、図3の実施形態による第1階層部のアクション部の構成を示すブロック図であり、図6は、図2の実施形態による階層構造を有する意思決定エージェントの第2階層部の構成を示すブロック図であり、図7は、図2の実施形態による階層構造を有する意思決定エージェントの第3階層部の構成を示すブロック図であり、図8は、図2の実施形態による階層構造を有する意思決定エージェントの第4階層部の構成を示すブロック図である。
図2乃至図8を参照すると、本発明の一実施形態による階層構造を有する意思決定エージェント100は、プラットホームで構成されてもよく、コンピュータシステムまたはサーバシステムにインストールされて動作することができ、第1階層部110、第2階層部120、第3階層部130、第4階層部140を含んで構成される。
第1階層部110は、ビジネスドメインに合う強化学習の環境要素を定義する構成であって、表現階層(Representation Layer)からなってもよく、ユーザが、任意のユーザインターフェース(UI)上において、ステート、アクション、リワード、エージェント、ステート遷移を環境要素として定義できるようにする。
また、第1階層部110は、入力データに応じてステートを定義するステート部111、アクションを定義するアクション部112、リワードを定義するリワード部113、ビジネスドメインに合う強化学習エージェントを選択するエージェント部114、及びビジネス問題の不確実性を測定できるトランジション部115を含んで構成されてもよい。
ここで、ビジネスドメインは、エージェントが応答すべき入力及びエージェントに提供される知識であってもよいが、例えば、自動車製造工程の自動化である場合、製造工程のプロセス、材料等をモデリングするときに、必須で知っていなければならないビジネス情報を意味してもよい。
ステート部111は、入力データセットにおいて、ステートとして用いられる部分をステートとして定義し、ここで、定義されたステートは、エージェントが学習する間、利用されてもよい。
また、整形データ、イメージデータ、テキストデート等の様々なフォーマットのデータとアルゴリズムとにより処理方式が変わるので、ステート部111は、ステート(状態)を定義するためのステートエンコーダ111a及びステートデコーダ111bを含んで構成されてもよい。
ステートエンコーダ111aは、入力データセットからD-次元ベクトル(D-dimensional vector)を抽出し、抽出されたD-次元ベクトルから特徴空間を設計する。
ステートデコーダ111bは、ステートエンコーダ111aで設計された特徴空間からD-次元空間(Χ∈R)に表現データ(Representation Data)を変形することにより、ステートを定義する。
アクション部112は、アクションを定義する構成であって、実際のビジネスの意思決定の構成が極めて複雑であるので、意思決定を強化学習アルゴリズムで最適化できる形態に変換し、アクションエンコーダ112a及びアクションデコーダ112bを含んで構成されてもよい。
アクションエンコーダ112aは、強化学習アルゴリズムを介して、D-次元ベクトル空間(Χ∈R)においてK-次元ベクトル(Y∈R)に変換する。
アクションデコーダ112bは、K-次元ベクトルをアクションの形態に変形し、ここで変形されるアクションの形態は、はい(Yes)、いいえ(No)、増加(Up)、減少(Down)、維持(Stay)等の離散的決定(Discrete Decision)、フロート値(Float values)等の連続的決定(Continuous Decision)、離散及び連続の組合せ(Combination of Discrete and Continuous)のうちいずれか一つの形態に変形される。
リワード部113は、学習のための補償システムの定義のための要素、例えば、正解(label)、目標(Metric)等のリワードの計算に必要な要素を定義する構成であって、正解のあるデータセットにおいて正解(label)として表現されてもよく、収益、費用等の企業の目標(Metric)として表現されてもよい。
また、リワードは、ステートにおいてエージェントのアクションにより得られ、エージェントは、総リワードを最大化する行動を行わせることが目標である。
また、リワード部113は、報酬関数(または補償関数)の設計のための変数に対して、ユーザカスタマイズ型方式、ウィザード方式、正解を活用する方式により、オートリワードを設定することができる。
ユーザカスタマイズ型方式は、ユーザインターフェースを介してユーザから定義されるリワードが、報酬関数の設計のための変数に設定されるようにする。
ウィザード方式は、データに存在する変数やそれぞれの会社のKPIを加重値調節方式として使用するリワードを出力し、報酬関数の設計のための変数に設定されるようにする。
オートリワードは、ユーザが簡単な学習及び強化学習のベースラインの確認用途として使えるように、報酬関数の設計のための変数に設定されるようにする。
また、オートリワードは、正解を活用する方式を使用してもよく、正解を用いて与えられたステート-アクションのペアからリワードを算出するビルトイン報酬関数(A2GAN)を設定してもよい。
エージェント部114は、ビジネスドメイン特性と強化学習アルゴリズムに基づいてエージェントを選択する構成であって、例えば、ポリシーに基づくエージェント(Policy-based Agent)は、ポリシーに基づく強化学習アルゴリズムと互換されてもよく、価値に基づくエージェント(Value-based Agent)は、価値に基づく強化学習アルゴリズムのみと互換され、アクションに基づくエージェントは、離散アクションと定義するドメインと互換されてもよい。
トランジション部115は、エージェントが任意のアクションを取った場合に、次のステートとして何が出るかまたはエージェントが行ったアクションの効果が何かについて表現する構成であって、遷移モデルを、数学的方法論であるDBNs(Dynamic Bayesian Networks)、HMMs(Hidden Markov Models)、GPs(Gaussian Processes)、及びGMMs(Gaussian Mixture Models)等を用いて表現することができる。
また、トランジション部115は、他のビジネス領域に状態遷移関数をカスタマイズ型で構成し、ビジネス領域では、ラベル付きデータを用いて状態遷移モデルが設定されるようにする。
第2階層部120は、ユーザインターフェースを用いて、強化学習の学習速度及び性能向上のためのオートチューニングアルゴリズムを設定する構成であって、エージェントが、ユーザインターフェースを用いて、シミュレートされたモデル(Simulated models)に対する速い理解、良好なステート構成、最適のアーキテクチャー構成、及び自動補償関数システムを設定するようにカタリスト階層(Catalyst Layer)からなってもよく、オートフィーチャリング部121、オートデザイン部122、オートチューニング部123、オートリワーディング部124で構成されてもよい。
オートフィーチャリング部121は、ステート111の形態を分析して、整形データ、イメージデータ、及びテキストデータに対する前処理を行う構成であって、与えられたシミュレートされたモデルに対するステートを分析して、重要ステートを選別する。
また、オートフィーチャリング部121は、アルゴリズムを介して自動で与えられたステートに対する次元の過適合等を回避できるようにする。
また、オートフィーチャリング部121は、自動でステートを構成してもよく、ユーザがステートに対する構成を行うように、任意のステートを選択して、データパイプラインで構成できるようにする。
また、オートフィーチャリング部121は、整形データに対して、分類と回帰、クラスタリング、次元縮小、モデル選択、前処理に対して様々なアルゴリズムを提供するサイキットラーン(Scikit-Learn)やサイパイ(Scipy)等のような前処理モジュールを用いて欠測値の代替、連続変数、カテゴリ変数、次元縮小、変数選択、異常値除去等のような様々な前処理が行われるようにする。
また、オートフィーチャリング部121は、イメージデータに対して、イメージノイズ除去、データ増大、サイズ調整等の前処理が行われるようにする。
また、オートフィーチャリング部121は、テキストデータに対して、トークナイザー、フィルタリング、クレンジング等のモジュールを介して前処理が行われるようにする。
オートデザイン部122は、ビジネスドメインに適合したニューラルネットワーク(Multi-Layer Perceptron Convolutional Neural Network)アーキテクチャーを自動で設計する構成であって、強化学習、進化(Evolutionary)、ベイズ的最適化(Bayesian Optimization)、勾配ベースの最適化(Gradient-based Optimization)等を介して最適のニューラルネットワークアーキテクチャーを検索する。
すなわち、オートデザイン部122は、良い性能のエージェントを学習させるために、当該ビジネスドメインに合う最適のアーキテクチャーが要求されるので、自動で最適のアーキテクチャーを検索する。
オートチューニング部123は、強化学習において高い性能を得るために多くの試みが必要なハイパーパラメータのチューニングを自動で行うように動作する構成であって、強化学習エージェントの性能に多くの影響を与えるハイパーパラメータをグリッドサーチ(Grid-Search)、ベイズ的最適化、勾配ベースの最適化、人口ベース最適化(Population based Optimization)を用いて検索し、検索結果に基づいて最適のハイパーパラメータの組合せを提供する。
オートリワーディング部124は、強化学習に要求されるリワードが、予め設定された補償パターンにより自動で設定されるように動作する構成であって、リワードにおける加重値の自動サーチまたはオートリワード等のリワードのタイプを選択して、自動でリワードが計算されるようにする。
第3階層部130は、第2階層部120で処理された様々な前処理、最適のニューラルネットワークアーキテクチャー、ハイパーパラメータ等のカタリスト(Catalyst)である最適化情報を用いて、強化学習の学習性能または説明力のために、生成モデル及び説明可能な人工知能モデルアルゴリズム等を選択する構成であって、説明可能AIモデル部131、生成的AIモデル部132、学習されたモデル部133を含んで構成されてもよい。
また、第3階層部130は、入力されたデータタイプ、例えば、整形データ、イメージデータ、テキストデータ等に基づき、モデルのタイプを区別してもよい。
説明可能AIモデル部(Explainable AI Models)131は、エージェントの意思決定に対する解析のためのモデルを提供する構成であって、強化学習を含むニューラルネットワークアルゴリズムは、学習結果に対する説明力が不足であるので、意思決定に対する説明を要するドメインのためのモデルを提供する。
生成的AIモデル部(Generative Models)132は、エージェントの意思決定の際に不足なデータを生成するためのモデルを提供する構成であって、欠測値のあるデータは、既存のデータ分布を用いて、欠測値が代替されたデータを生成するモデルを提供する。
また、データ不足の問題を解決するために、データを増強させることができ、正解のないデータに対するラベル付けを介して、正解のあるモデルで提供することもできる。
学習されたモデル部133は、事前に学習されたモデルを提供する構成であって、事前に学習されたモデルを用いてエージェントを迅速に学習させることができるモデルを提供する。
第4階層部140は、ビジネスドメインによりエージェントを学習させるための強化学習アルゴリズムを選択する構成であって、モデルフリー強化学習部(Model free Reinforcement Learning)141、モデルベース強化学習部(Model based Reinforcement Learning)142、階層型強化学習アルゴリズム部(Hierarchical Reinforcement Learning Algorithm)143、マルチエージェントアルゴリズム部(Multi agent Algorithm)144を含んで構成されてもよい。
モデルフリー強化学習部141は、アクションを行うアルゴリズムを提供する構成であって、価値に基づくアルゴリズム、ポリシーに基づくアルゴリズムを介してアクションを行う。
ここで、価値に基づくアルゴリズムは、DQN(Deep Q Networks)、DDQN(Double Deep Q Networks)、Dueling DDQN(Dueling Double Deep Q Networks)等で構成されてもよい。
また、ポリシーに基づくアルゴリズムは、価値関数(Value function)を使用するものと、使用しないものとにより、DPS(Direct Policy Search)とAC(Actor Critic)に分けられる。
ACに基づくアルゴリズムは、A2C(Advantage Actor Critic)、TRPO(Trust Region Policy Optimization)、PPO(Proximal Policy Optimization)、DDPG(Deep Deterministic Policy Gradient)、SAC(Soft Actor Critic)等で構成されてもよい。
モデルベース強化学習部142は、モデルフリー強化学習部141とは異なり、環境に関する情報がある状態で、モデルが学習するアルゴリズムを提供する構成であって、モデルに基づくアルゴリズムの遷移モデル(transition model)を用いて、エージェントを学習させる。
また、モデルに基づくアルゴリズムは、実際のデータとシミュレーション環境から出たデータの両方をポリシーアップデートの際に使用し、実際のデータを用いて遷移モデルを学習させるか、LQR(Linear Quadratic Regulator)のような数理的モデルを用いてもよい。
また、モデルベース強化学習部142は、DynA、PILCO(Probabilistic Inference for Learning Control)、MCTS(Monte-Carlo Tree Search)、World Models等で構成されてもよい。
階層型強化学習アルゴリズム部143は、ビジネスドメインが極めて複雑であり、単一エージェントでは問題の解決が難しい場合に、エージェントを多くの階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習し、マスターエージェントの学習を助けることができる構造のアルゴリズムを提供する。
マルチエージェントアルゴリズム部144は、一つの環境に複数のエージェントが存在すると、エージェント間の競争または協業により学習するようにアルゴリズムを提供する。
また、第4階層部140は、指導学習のようにエージェントを学習させるか、ラベル付きデータセットで補償関数を逆に見い出してラベルなしデータセットの学習に使用するアルゴリズム、LSTM(Long Short Term Memory)、MAML(Model-Agnostic Meta Learning)、MQL(Meta Q Learning)等のメタ強化学習アルゴリズム、環境とリアルタイムの相互作用が難しいビジネスドメインにおいて、オフラインデータを用いて学習するバッチ強化学習アルゴリズム、A2GANを用いたアルゴリズム等を含む、その他のアルゴリズム部145を含んで構成されてもよい。
したがって、強化学習に関する知識のないユーザが、強化学習の核心要素をユーザインターフェースを介して選択及び設定することにより、ビジネス問題に容易に適用して学習できるようになる。
また、ユーザのドメイン知識と一般の機械学習の知識だけでも、ユーザのビジネス問題に強化学習を容易に適用することができ、ユーザが強化学習によりビジネス問題を解決するために、強化学習やAI関連知識よりも、ドメイン知識にさらに集中してAIを導入することができる。
また、一般の強化学習プラットホームよりも、最小限の労力で、ビジネス問題に様々な強化学習の設計を構築して、高い水準の成果を達成することができる。
以上、本発明の好適な実施形態を参照して説明したが、当該技術分野における熟練した当業者であれば、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で、本発明を様々に修正及び変更させてもよいことを理解することができるであろう。
また、本発明の特許請求の範囲に記載された図面符号は、説明の明瞭性と便宜のために記載されたものであり、これに限定されるものではなく、実施形態を説明するにあたって、図示された線の太さや構成要素の大きさ等は、説明の明瞭性と便宜のために誇張して示されてもよい。
また、上述した用語は、本発明における機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例により変わり得るので、このような用語に対する解釈は、この明細書の全般にわたった内容に基づいて行われなければならない。
また、明示的に図示または説明されていなくても、本発明が属する技術分野における通常の知識を有する者が、本発明の記載事項から本発明による技術的思想を含む様々な形態の変形を導き出せることは自明であり、これは、依然として本発明の権利範囲に属する。
また、添付図面を参照して説明された上記した実施形態は、本発明を説明するための目的で記述されたものであり、本発明の権利範囲は、このような実施形態に限定されるものではない。
100 エージェント
110 第1階層部
111 ステート部
111a ステートエンコーダ
111b ステートデコーダ
112 アクション
112a アクションエンコーダ
112b アクションデコーダ
113 リワード
114 エージェント部
115 トランジション
120 第2階層部
121 オートフィーチャリング部
122 オートデザイン部
123 オートチューニング部
124 オートリワーディング部
130 第3階層部
131 説明可能AIモデル部
132 生成的AIモデル部
133 学習されたモデル部
140 第4階層部
141 モデルフリー強化学習部
142 モデルベース強化学習部
143 階層型強化学習アルゴリズム部
144 マルチエージェントアルゴリズム部
145 その他のアルゴリズム部

Claims (8)

  1. ビジネスドメインに合う強化学習の環境要素を定義する第1階層部(110)と、
    前記強化学習の学習速度及び性能向上のためのオートチューニング(Auto tuning)ア
    ルゴリズムを設定する第2階層部(120)と、
    前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第3階層部(130)と、
    前記ビジネスドメインにより、自装置の学習を進めるための強化学習アルゴリズムを選択する第4階層部(140)と、を含み、
    前記第2階層部(120)は、
    ステート部(111)が入力データセットで定義されたステートの形態を分析して重要ステートを選別し、整形データ、イメージデータ、及びテキストデータに対して自動で任意の前処理を行うオートフィーチャリング部(121)と、
    前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを検索して、自動でニューラルネットワークアーキテクチャーを設計するオートデザイン部(122)と、
    前記強化学習における性能の向上のために、ハイパーパラメータを検索し、検索結果に基づき最適のハイパーパラメータの組合せを提供して、要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部(123)と、
    前記強化学習に要求されるリワードが予め設定された報酬パターンにより自動で設定されるように、加重値の自動サーチ(search)またはオートリワードのようなリワードタイプを選択し、選択されたリワードタイプにより自動でリワードを計算するオートリワーディング部(124)と、
    を含むことを特徴とする階層構造を有する意思決定エージェント装置
  2. 前記第1階層部(110)は、ステート(State)、アクション(Action)、リワード
    (Reward)、エージェント(Agent)、及びステート遷移(State-Transition)を環境要
    素として定義することを特徴とする、請求項1に記載の階層構造を有する意思決定エージェント。
  3. 前記第1階層部(110)は、
    データからD-次元ベクトルを抽出して特徴空間(Feature space)を設計するステートエンコーダ(111a)と、
    前記特徴空間からD-次元空間にデータを変形するステートデコーダ(111b)と、
    を含むことを特徴とする、請求項2に記載の階層構造を有する意思決定エージェント。
  4. 前記第1階層部(110)は、
    D-次元ベクトル空間においてK-次元ベクトルに変換するアクションエンコーダ(112a)と、
    前記K-次元ベクトルをアクションの形態に変形するアクションデコーダ(112b)
    と、を含み、
    前記アクションの形態は、離散的決定、連続的決定、及び、前記離散的決定と前記連続的決定の組合せのうちいずれか一つであることを特徴とする、
    請求項3に記載の階層構造を有する意思決定エージェント。
  5. 前記第1階層部(110)は、ユーザにより定義されて用いられるユーザカスタマイズ(Customized)リワード、データに存在する変数またはそれぞれの会社のKPI(Key Performance Indicator)を加重値調節方式で使用するウィザード(Wizard)リワード、及び、ユーザが簡単な学習及び強化学習ベースラインの確認用途として使えるオートリワード(Auto reward)のうちいずれか一つが、報酬関数の設計のための変数として選択され
    ることを特徴とする、請求項4に記載の階層構造を有する意思決定エージェント。
  6. 前記第3階層部(130)は、
    エージェントの意思決定に対する解析のためのモデルを提供する説明可能AIモデル部(131)と、
    前記エージェントの意思決定時に足りないデータを生成する生成的AIモデル部(132)と、
    事前に学習されたモデルを提供する学習されたモデル部(133)と、
    を含むことを特徴とする、請求項1に記載の階層構造を有する意思決定エージェント。
  7. 前記第4階層部(140)は、
    環境に対する特定の仮定なしに、モデルが環境を探索して学習するモデルフリー強化学習部(141)と、
    前記環境に対する情報に基づいてモデルが学習するモデルベース強化学習部(142)と、
    エージェントを複数階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習するアルゴリズムを提供する階層型強化学習アルゴリズム部(143)と、
    一つの環境に複数のエージェントが存在すると、前記エージェント間の競争または協業により学習するようにアルゴリズムを提供するマルチエージェントアルゴリズム部(144)と、
    を含むことを特徴とする、請求項1に記載の階層構造を有する意思決定エージェント。
  8. 意思決定エージェントがインストールされたコンピュータシステムであって、
    前記意思決定エージェントは、階層構造を有し、
    ビジネスドメインに合う強化学習の環境要素を定義する第1階層部(110)と、
    前記強化学習の学習速度及び性能向上のためのオートチューニング(Auto tuning)ア
    ルゴリズムを設定する第2階層部(120)と、
    前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第3階層部(130)と、
    前記ビジネスドメインにより、エージェントの学習を進めるための強化学習アルゴリズムを選択する第4階層部(140)と、を含み、
    前記第2階層部(120)は、
    ステート部(111)が入力データセットで定義されたステートの形態を分析して重要ステートを選別し、整形データ、イメージデータ、及びテキストデータに対して自動で任意の前処理を行うオートフィーチャリング部(121)と、
    前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを検索して、自動でニューラルネットワークアーキテクチャーを設計するオートデザイン部(122)と、
    前記強化学習における性能の向上のために、ハイパーパラメータを検索し、検索結果に基づき最適のハイパーパラメータの組合せを提供して、要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部(123)と、
    前記強化学習に要求されるリワードが予め設定された報酬パターンにより自動で設定されるように、加重値の自動サーチ(search)またはオートリワードのようなリワードタイプを選択し、選択されたリワードタイプにより自動でリワードを計算するオートリワーディング部(124)と、を含む、
    コンピュータシステム。
JP2021170044A 2020-10-30 2021-10-18 階層構造を有する意思決定エージェント Active JP7219986B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200143282A KR102264571B1 (ko) 2020-10-30 2020-10-30 계층 구조를 갖는 의사결정 에이전트
KR10-2020-0143282 2020-10-30

Publications (2)

Publication Number Publication Date
JP2022074019A JP2022074019A (ja) 2022-05-17
JP7219986B2 true JP7219986B2 (ja) 2023-02-09

Family

ID=76411862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021170044A Active JP7219986B2 (ja) 2020-10-30 2021-10-18 階層構造を有する意思決定エージェント

Country Status (3)

Country Link
US (1) US20220138656A1 (ja)
JP (1) JP7219986B2 (ja)
KR (1) KR102264571B1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11775850B2 (en) 2016-01-27 2023-10-03 Microsoft Technology Licensing, Llc Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model
US11841789B2 (en) 2016-01-27 2023-12-12 Microsoft Technology Licensing, Llc Visual aids for debugging
US11868896B2 (en) * 2016-01-27 2024-01-09 Microsoft Technology Licensing, Llc Interface for working with simulations on premises
US10733532B2 (en) 2016-01-27 2020-08-04 Bonsai AI, Inc. Multiple user interfaces of an artificial intelligence system to accommodate different types of users solving different types of problems with artificial intelligence
US11836650B2 (en) 2016-01-27 2023-12-05 Microsoft Technology Licensing, Llc Artificial intelligence engine for mixing and enhancing features from one or more trained pre-existing machine-learning models
US11373132B1 (en) * 2022-01-25 2022-06-28 Accenture Global Solutions Limited Feature selection system
KR102480518B1 (ko) * 2022-02-25 2022-12-23 주식회사 에이젠글로벌 신용평가 모델 업데이트 또는 교체 방법 및 장치
KR102556070B1 (ko) * 2022-06-21 2023-07-19 주식회사 애자일소다 항구별 컨테이너 할당을 위한 강화학습 장치 및 방법
CN116820711B (zh) * 2023-06-07 2024-05-28 上海幽孚网络科技有限公司 任务驱动的自治代理方法
CN117412323A (zh) * 2023-09-27 2024-01-16 华中科技大学 一种基于MAPPO算法的WiFi网络资源调度方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002525715A (ja) 1998-09-16 2002-08-13 アイ2・テクノロジーズ・インコーポレイテッド コンピュータによる製品開発プランニング方法
JP2019533257A (ja) 2016-10-28 2019-11-14 グーグル エルエルシー ニューラルアーキテクチャ検索
KR102079745B1 (ko) 2019-07-09 2020-04-07 (주) 시큐레이어 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162427B1 (en) 1999-08-20 2007-01-09 Electronic Data Systems Corporation Structure and method of modeling integrated business and information technology frameworks and architecture in support of a business
KR102055141B1 (ko) * 2018-12-31 2019-12-12 한국기술교육대학교 산학협력단 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법
US10776542B2 (en) * 2019-01-30 2020-09-15 StradVision, Inc. Method and device for calibrating physics engine of virtual world simulator to be used for learning of deep learning-based device, and a learning method and learning device for real state network used therefor
WO2021025217A1 (ko) * 2019-08-08 2021-02-11 엘지전자 주식회사 인공지능 서버
KR102100688B1 (ko) * 2020-02-19 2020-04-14 주식회사 애자일소다 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002525715A (ja) 1998-09-16 2002-08-13 アイ2・テクノロジーズ・インコーポレイテッド コンピュータによる製品開発プランニング方法
JP2019533257A (ja) 2016-10-28 2019-11-14 グーグル エルエルシー ニューラルアーキテクチャ検索
KR102079745B1 (ko) 2019-07-09 2020-04-07 (주) 시큐레이어 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치

Also Published As

Publication number Publication date
KR102264571B1 (ko) 2021-06-15
US20220138656A1 (en) 2022-05-05
JP2022074019A (ja) 2022-05-17

Similar Documents

Publication Publication Date Title
JP7219986B2 (ja) 階層構造を有する意思決定エージェント
Noaeen et al. Reinforcement learning in urban network traffic signal control: A systematic literature review
Alzubaidi et al. A survey on deep learning tools dealing with data scarcity: definitions, challenges, solutions, tips, and applications
Hagras Toward human-understandable, explainable AI
US20230153599A1 (en) Explainable transducer transformers
US9875440B1 (en) Intelligent control with hierarchical stacked neural networks
Chen et al. Deep reinforcement learning in recommender systems: A survey and new perspectives
Wiering et al. Reinforcement learning algorithms for solving classification problems
Wang et al. Learning performance prediction via convolutional GRU and explainable neural networks in e-learning environments
D’Aniello et al. A granular computing framework for approximate reasoning in situation awareness
KR102257082B1 (ko) 의사결정 에이전트 생성 장치 및 방법
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Miletić et al. A review of reinforcement learning applications in adaptive traffic signal control
Van Cranenburgh et al. Choice modelling in the age of machine learning
Tariq et al. Combining machine learning and fuzzy rule-based system in automating signal timing experts’ decisions during non-recurrent congestion
Shamsi et al. Reinforcement learning for traffic light control with emphasis on emergency vehicles
Sukhobokov Business analytics and AGI in corporate management systems
Zhu et al. Intelligent traffic light via policy-based deep reinforcement learning
Leon-Garza et al. A type-2 fuzzy system-based approach for image data fusion to create building information models
Jarboui et al. Markov decision process for mooc users behavioral inference
Buijs et al. Using neural nets to predict transportation mode choice: Amsterdam network change analysis
Wang et al. eMARLIN: distributed coordinated adaptive traffic signal control with topology-embedding propagation
Heinen et al. Dealing with continuous-state reinforcement learning for intelligent control of traffic signals
Sucar et al. Bayesian Networks: Learning
Sachdeva et al. Gapformer: Fast autoregressive transformers meet rnns for personalized adaptive cruise control

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230123

R150 Certificate of patent or registration of utility model

Ref document number: 7219986

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150