JP7219986B2 - 階層構造を有する意思決定エージェント - Google Patents
階層構造を有する意思決定エージェント Download PDFInfo
- Publication number
- JP7219986B2 JP7219986B2 JP2021170044A JP2021170044A JP7219986B2 JP 7219986 B2 JP7219986 B2 JP 7219986B2 JP 2021170044 A JP2021170044 A JP 2021170044A JP 2021170044 A JP2021170044 A JP 2021170044A JP 7219986 B2 JP7219986 B2 JP 7219986B2
- Authority
- JP
- Japan
- Prior art keywords
- reinforcement learning
- unit
- decision
- auto
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/043—Distributed expert systems; Blackboards
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Description
110 第1階層部
111 ステート部
111a ステートエンコーダ
111b ステートデコーダ
112 アクション
112a アクションエンコーダ
112b アクションデコーダ
113 リワード
114 エージェント部
115 トランジション
120 第2階層部
121 オートフィーチャリング部
122 オートデザイン部
123 オートチューニング部
124 オートリワーディング部
130 第3階層部
131 説明可能AIモデル部
132 生成的AIモデル部
133 学習されたモデル部
140 第4階層部
141 モデルフリー強化学習部
142 モデルベース強化学習部
143 階層型強化学習アルゴリズム部
144 マルチエージェントアルゴリズム部
145 その他のアルゴリズム部
Claims (8)
- ビジネスドメインに合う強化学習の環境要素を定義する第1階層部(110)と、
前記強化学習の学習速度及び性能向上のためのオートチューニング(Auto tuning)ア
ルゴリズムを設定する第2階層部(120)と、
前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第3階層部(130)と、
前記ビジネスドメインにより、自装置の学習を進めるための強化学習アルゴリズムを選択する第4階層部(140)と、を含み、
前記第2階層部(120)は、
ステート部(111)が入力データセットで定義されたステートの形態を分析して重要ステートを選別し、整形データ、イメージデータ、及びテキストデータに対して自動で任意の前処理を行うオートフィーチャリング部(121)と、
前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを検索して、自動でニューラルネットワークアーキテクチャーを設計するオートデザイン部(122)と、
前記強化学習における性能の向上のために、ハイパーパラメータを検索し、検索結果に基づき最適のハイパーパラメータの組合せを提供して、要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部(123)と、
前記強化学習に要求されるリワードが予め設定された報酬パターンにより自動で設定されるように、加重値の自動サーチ(search)またはオートリワードのようなリワードタイプを選択し、選択されたリワードタイプにより自動でリワードを計算するオートリワーディング部(124)と、
を含むことを特徴とする階層構造を有する意思決定エージェント装置。 - 前記第1階層部(110)は、ステート(State)、アクション(Action)、リワード
(Reward)、エージェント(Agent)、及びステート遷移(State-Transition)を環境要
素として定義することを特徴とする、請求項1に記載の階層構造を有する意思決定エージェント。 - 前記第1階層部(110)は、
データからD-次元ベクトルを抽出して特徴空間(Feature space)を設計するステートエンコーダ(111a)と、
前記特徴空間からD-次元空間にデータを変形するステートデコーダ(111b)と、
を含むことを特徴とする、請求項2に記載の階層構造を有する意思決定エージェント。 - 前記第1階層部(110)は、
D-次元ベクトル空間においてK-次元ベクトルに変換するアクションエンコーダ(112a)と、
前記K-次元ベクトルをアクションの形態に変形するアクションデコーダ(112b)
と、を含み、
前記アクションの形態は、離散的決定、連続的決定、及び、前記離散的決定と前記連続的決定の組合せのうちいずれか一つであることを特徴とする、
請求項3に記載の階層構造を有する意思決定エージェント。 - 前記第1階層部(110)は、ユーザにより定義されて用いられるユーザカスタマイズ(Customized)リワード、データに存在する変数またはそれぞれの会社のKPI(Key Performance Indicator)を加重値調節方式で使用するウィザード(Wizard)リワード、及び、ユーザが簡単な学習及び強化学習ベースラインの確認用途として使えるオートリワード(Auto reward)のうちいずれか一つが、報酬関数の設計のための変数として選択され
ることを特徴とする、請求項4に記載の階層構造を有する意思決定エージェント。 - 前記第3階層部(130)は、
エージェントの意思決定に対する解析のためのモデルを提供する説明可能AIモデル部(131)と、
前記エージェントの意思決定時に足りないデータを生成する生成的AIモデル部(132)と、
事前に学習されたモデルを提供する学習されたモデル部(133)と、
を含むことを特徴とする、請求項1に記載の階層構造を有する意思決定エージェント。 - 前記第4階層部(140)は、
環境に対する特定の仮定なしに、モデルが環境を探索して学習するモデルフリー強化学習部(141)と、
前記環境に対する情報に基づいてモデルが学習するモデルベース強化学習部(142)と、
エージェントを複数階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習するアルゴリズムを提供する階層型強化学習アルゴリズム部(143)と、
一つの環境に複数のエージェントが存在すると、前記エージェント間の競争または協業により学習するようにアルゴリズムを提供するマルチエージェントアルゴリズム部(144)と、
を含むことを特徴とする、請求項1に記載の階層構造を有する意思決定エージェント。 - 意思決定エージェントがインストールされたコンピュータシステムであって、
前記意思決定エージェントは、階層構造を有し、
ビジネスドメインに合う強化学習の環境要素を定義する第1階層部(110)と、
前記強化学習の学習速度及び性能向上のためのオートチューニング(Auto tuning)ア
ルゴリズムを設定する第2階層部(120)と、
前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第3階層部(130)と、
前記ビジネスドメインにより、エージェントの学習を進めるための強化学習アルゴリズムを選択する第4階層部(140)と、を含み、
前記第2階層部(120)は、
ステート部(111)が入力データセットで定義されたステートの形態を分析して重要ステートを選別し、整形データ、イメージデータ、及びテキストデータに対して自動で任意の前処理を行うオートフィーチャリング部(121)と、
前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを検索して、自動でニューラルネットワークアーキテクチャーを設計するオートデザイン部(122)と、
前記強化学習における性能の向上のために、ハイパーパラメータを検索し、検索結果に基づき最適のハイパーパラメータの組合せを提供して、要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部(123)と、
前記強化学習に要求されるリワードが予め設定された報酬パターンにより自動で設定されるように、加重値の自動サーチ(search)またはオートリワードのようなリワードタイプを選択し、選択されたリワードタイプにより自動でリワードを計算するオートリワーディング部(124)と、を含む、
コンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200143282A KR102264571B1 (ko) | 2020-10-30 | 2020-10-30 | 계층 구조를 갖는 의사결정 에이전트 |
KR10-2020-0143282 | 2020-10-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022074019A JP2022074019A (ja) | 2022-05-17 |
JP7219986B2 true JP7219986B2 (ja) | 2023-02-09 |
Family
ID=76411862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021170044A Active JP7219986B2 (ja) | 2020-10-30 | 2021-10-18 | 階層構造を有する意思決定エージェント |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220138656A1 (ja) |
JP (1) | JP7219986B2 (ja) |
KR (1) | KR102264571B1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11775850B2 (en) | 2016-01-27 | 2023-10-03 | Microsoft Technology Licensing, Llc | Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model |
US11841789B2 (en) | 2016-01-27 | 2023-12-12 | Microsoft Technology Licensing, Llc | Visual aids for debugging |
US11868896B2 (en) * | 2016-01-27 | 2024-01-09 | Microsoft Technology Licensing, Llc | Interface for working with simulations on premises |
US10733532B2 (en) | 2016-01-27 | 2020-08-04 | Bonsai AI, Inc. | Multiple user interfaces of an artificial intelligence system to accommodate different types of users solving different types of problems with artificial intelligence |
US11836650B2 (en) | 2016-01-27 | 2023-12-05 | Microsoft Technology Licensing, Llc | Artificial intelligence engine for mixing and enhancing features from one or more trained pre-existing machine-learning models |
US11373132B1 (en) * | 2022-01-25 | 2022-06-28 | Accenture Global Solutions Limited | Feature selection system |
KR102480518B1 (ko) * | 2022-02-25 | 2022-12-23 | 주식회사 에이젠글로벌 | 신용평가 모델 업데이트 또는 교체 방법 및 장치 |
KR102556070B1 (ko) * | 2022-06-21 | 2023-07-19 | 주식회사 애자일소다 | 항구별 컨테이너 할당을 위한 강화학습 장치 및 방법 |
CN116820711B (zh) * | 2023-06-07 | 2024-05-28 | 上海幽孚网络科技有限公司 | 任务驱动的自治代理方法 |
CN117412323A (zh) * | 2023-09-27 | 2024-01-16 | 华中科技大学 | 一种基于MAPPO算法的WiFi网络资源调度方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002525715A (ja) | 1998-09-16 | 2002-08-13 | アイ2・テクノロジーズ・インコーポレイテッド | コンピュータによる製品開発プランニング方法 |
JP2019533257A (ja) | 2016-10-28 | 2019-11-14 | グーグル エルエルシー | ニューラルアーキテクチャ検索 |
KR102079745B1 (ko) | 2019-07-09 | 2020-04-07 | (주) 시큐레이어 | 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7162427B1 (en) | 1999-08-20 | 2007-01-09 | Electronic Data Systems Corporation | Structure and method of modeling integrated business and information technology frameworks and architecture in support of a business |
KR102055141B1 (ko) * | 2018-12-31 | 2019-12-12 | 한국기술교육대학교 산학협력단 | 강화학습 기반 디바이스 원격 제어 시스템 및 그 방법 |
US10776542B2 (en) * | 2019-01-30 | 2020-09-15 | StradVision, Inc. | Method and device for calibrating physics engine of virtual world simulator to be used for learning of deep learning-based device, and a learning method and learning device for real state network used therefor |
WO2021025217A1 (ko) * | 2019-08-08 | 2021-02-11 | 엘지전자 주식회사 | 인공지능 서버 |
KR102100688B1 (ko) * | 2020-02-19 | 2020-04-14 | 주식회사 애자일소다 | 한도 소진률을 높이기 위한 데이터 기반 강화 학습 장치 및 방법 |
-
2020
- 2020-10-30 KR KR1020200143282A patent/KR102264571B1/ko active IP Right Grant
-
2021
- 2021-10-18 JP JP2021170044A patent/JP7219986B2/ja active Active
- 2021-10-25 US US17/509,322 patent/US20220138656A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002525715A (ja) | 1998-09-16 | 2002-08-13 | アイ2・テクノロジーズ・インコーポレイテッド | コンピュータによる製品開発プランニング方法 |
JP2019533257A (ja) | 2016-10-28 | 2019-11-14 | グーグル エルエルシー | ニューラルアーキテクチャ検索 |
KR102079745B1 (ko) | 2019-07-09 | 2020-04-07 | (주) 시큐레이어 | 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR102264571B1 (ko) | 2021-06-15 |
US20220138656A1 (en) | 2022-05-05 |
JP2022074019A (ja) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7219986B2 (ja) | 階層構造を有する意思決定エージェント | |
Noaeen et al. | Reinforcement learning in urban network traffic signal control: A systematic literature review | |
Alzubaidi et al. | A survey on deep learning tools dealing with data scarcity: definitions, challenges, solutions, tips, and applications | |
Hagras | Toward human-understandable, explainable AI | |
US20230153599A1 (en) | Explainable transducer transformers | |
US9875440B1 (en) | Intelligent control with hierarchical stacked neural networks | |
Chen et al. | Deep reinforcement learning in recommender systems: A survey and new perspectives | |
Wiering et al. | Reinforcement learning algorithms for solving classification problems | |
Wang et al. | Learning performance prediction via convolutional GRU and explainable neural networks in e-learning environments | |
D’Aniello et al. | A granular computing framework for approximate reasoning in situation awareness | |
KR102257082B1 (ko) | 의사결정 에이전트 생성 장치 및 방법 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
Miletić et al. | A review of reinforcement learning applications in adaptive traffic signal control | |
Van Cranenburgh et al. | Choice modelling in the age of machine learning | |
Tariq et al. | Combining machine learning and fuzzy rule-based system in automating signal timing experts’ decisions during non-recurrent congestion | |
Shamsi et al. | Reinforcement learning for traffic light control with emphasis on emergency vehicles | |
Sukhobokov | Business analytics and AGI in corporate management systems | |
Zhu et al. | Intelligent traffic light via policy-based deep reinforcement learning | |
Leon-Garza et al. | A type-2 fuzzy system-based approach for image data fusion to create building information models | |
Jarboui et al. | Markov decision process for mooc users behavioral inference | |
Buijs et al. | Using neural nets to predict transportation mode choice: Amsterdam network change analysis | |
Wang et al. | eMARLIN: distributed coordinated adaptive traffic signal control with topology-embedding propagation | |
Heinen et al. | Dealing with continuous-state reinforcement learning for intelligent control of traffic signals | |
Sucar et al. | Bayesian Networks: Learning | |
Sachdeva et al. | Gapformer: Fast autoregressive transformers meet rnns for personalized adaptive cruise control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221025 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7219986 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |