JP6982557B2 - 報酬関数の生成方法及び計算機システム - Google Patents
報酬関数の生成方法及び計算機システム Download PDFInfo
- Publication number
- JP6982557B2 JP6982557B2 JP2018163057A JP2018163057A JP6982557B2 JP 6982557 B2 JP6982557 B2 JP 6982557B2 JP 2018163057 A JP2018163057 A JP 2018163057A JP 2018163057 A JP2018163057 A JP 2018163057A JP 6982557 B2 JP6982557 B2 JP 6982557B2
- Authority
- JP
- Japan
- Prior art keywords
- reward function
- reward
- function
- partial
- key performance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/24765—Rule-based classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
110 KPI最適化管理サーバ
120 ユーザ端末
101、111、121 CPU
102、112、122 メモリ
103、113、123 ストレージ装置
104、114、124 ネットワークインタフェース
125 入力装置
126 出力装置
140 ネットワーク
201 強化学習実行部
202 問題調整部
203 環境実行部
204 データベース
211 問題設定部
212 報酬関数生成部
213 強化学習評価部
214 結果出力部
215 報酬関数管理情報
216 関数定義情報
217 強化学習評価情報
221 アプリケーション
301 環境実行定義情報
302 状態/行動定義情報
303 強化学習定義情報
304 報酬関数定義情報
400 GUI
420 報酬管理テーブル
700 評価テーブル
800 学習結果テーブル
Claims (12)
- 計算機が実行する、強化学習における報酬を算出するための報酬関数の生成方法であって、
前記計算機は、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有し、
前記報酬関数の生成方法は、
前記プロセッサが、重要業績評価指標に関する情報である設定データを複数含む報酬関数の生成指示の入力を受け付ける第1のステップと、
前記プロセッサが、一つの前記設定データに対して一つの部分報酬関数を生成し、前記メモリに格納する第2のステップと、
前記プロセッサが、前記複数の部分報酬関数の線形結合を前記報酬関数として生成し、前記メモリに格納する第3のステップと、
前記プロセッサが、前記強化学習を実行する計算機に、前記生成された報酬関数に関する情報を出力する第4のステップと、を含むことを特徴とする報酬関数の生成方法。 - 請求項1に記載の報酬関数の生成方法であって、
前記設定データは、重要業績評価指標の種別、前記重要業績評価指標の制御目的、前記重要業績評価指標に関する報酬の算出タイミング、及び前記重要業績評価指標の制御目的の優先順位を示す優先度を含み、
前記メモリは、前記重要業績評価指標の制御目的及び前記報酬の算出タイミングの組合せと、関数のタイプとを対応づけた関数定義情報を格納し、
前記報酬関数の生成指示は、前記重要業績評価指標の定義情報を含み、
前記第2のステップは、
前記プロセッサが、前記報酬関数の生成指示に含まれる前記複数の設定データの中からターゲット設定データを選択するステップと、
前記プロセッサが、前記ターゲット設定データに含まれる、前記重要業績評価指標の制御目的及び前記報酬の算出タイミングの組合せに基づいて前記関数定義情報を参照し、生成する関数のタイプを特定するステップと、
前記プロセッサが、前記特定された関数のタイプ及び前記重要業績評価指標の定義情報に基づいて、前記重要業績評価指標に関連するパラメータを変数とする関数を生成するステップと、
前記プロセッサが、前記ターゲット設定データに含まれる優先度に基づいて、前記関数を用いて算出される値の大きさを規定するスケールファクタを算出するステップと、
前記プロセッサが、前記ターゲット設定データに含まれる前記重要業績評価指標の定義域に基づいて、重みを算出するステップと、
前記プロセッサが、前記関数、前記スケールファクタ、及び前記重みに基づいて、前記部分報酬関数を生成するステップと、を含むことを特徴とする報酬関数の生成方法。 - 請求項2に記載の報酬関数の生成方法であって、
前記プロセッサが、前記生成された報酬関数を用いた前記強化学習の結果を取得し、前記強化学習の結果を評価する第5のステップと、
前記プロセッサが、前記評価の結果に基づいて、修正対象の前記部分報酬関数を特定し、前記特定された部分報酬関数を修正する第6のステップと、
前記プロセッサが、前記特定された部分報酬関数の修正結果に基づいて、前記報酬関数を更新する第7のステップと、を含むことを特徴とする報酬関数の生成方法。 - 請求項3に記載の報酬関数の生成方法であって、
前記重要業績評価指標の制御目的は、前記重要業績評価指標が満たすべき制約を含み、
前記報酬関数は、第1の制約を前記重要業績評価指標の制御目的として含む前記設定データに基づいて生成された第1の部分報酬関数を含み、
前記第6のステップは、前記第1の制約が満たされていない場合、前記プロセッサが、前記第1の部分報酬関数を、前記修正対象の部分報酬関数として特定するステップを含むことを特徴とする報酬関数の生成方法。 - 請求項3に記載の報酬関数の生成方法であって、
前記部分報酬関数は、前記設定データと対応づけて管理され、
前記第5のステップは、前記プロセッサが、前記強化学習における行動の選択に対する、前記複数の部分報酬関数の各々から得られる値の寄与の大きさを示す寄与度を算出するステップを含み、
前記第6のステップは、
前記プロセッサが、前記部分報酬関数に対応する前記設定データに含まれる優先度に基づいて、前記部分報酬関数をソートした順番である第一ソート順と、前記寄与度に基づいて、前記部分報酬関数をソートした順番である第二ソート順とを比較するステップと、
前記プロセッサが、前記第一ソート順及び第二ソート順が異なる前記部分報酬関数を、前記修正対象の部分報酬関数として特定するステップを含むことを特徴とする報酬関数の生成方法。 - 請求項3に記載の報酬関数の生成方法であって、
前記プロセッサが、前記設定データ及び前記部分報酬関数の修正方法を設定するためのインタフェースを提供するステップを含むことを特徴とする報酬関数の生成方法。 - 複数の計算機を備える計算機システムであって、
前記複数の計算機の各々は、プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるネットワークインタフェースを有し、
前記計算機システムは、強化学習を実行する学習部、及び前記強化学習における報酬を算出するための報酬関数を生成する報酬関数生成部を備え、
前記報酬関数生成部は、
重要業績評価指標に関する情報である設定データを複数含む報酬関数の生成指示の入力を受け付けた場合、一つの前記設定データに対して一つの部分報酬関数を生成し、
前記複数の部分報酬関数の線形結合を前記報酬関数として生成し、
前記学習部に、前記生成された報酬関数に関する情報を出力することを特徴とする計算機システム。 - 請求項7に記載の計算機システムであって、
前記設定データは、重要業績評価指標の種別、前記重要業績評価指標の制御目的、前記重要業績評価指標に関する報酬の算出タイミング、及び前記重要業績評価指標の制御目的の優先順位を示す優先度を含み、
前記報酬関数生成部は、前記重要業績評価指標の制御目的及び前記報酬の算出タイミングの組合せと、関数のタイプとを対応づけた関数定義情報を管理し、
前記報酬関数の生成指示は、前記重要業績評価指標の定義情報を含み、
前記報酬関数生成部は、
前記報酬関数の生成指示に含まれる前記複数の設定データの中からターゲット設定データを選択し、
前記ターゲット設定データに含まれる、前記重要業績評価指標の制御目的及び前記報酬の算出タイミングの組合せに基づいて前記関数定義情報を参照し、生成する関数のタイプを特定し、
前記特定された関数のタイプ及び前記重要業績評価指標の定義情報に基づいて、前記重要業績評価指標に関連するパラメータを変数とする関数を生成し、
前記ターゲット設定データに含まれる優先度に基づいて、前記関数を用いて算出される値の大きさを規定するスケールファクタを算出し、
前記ターゲット設定データに含まれる前記重要業績評価指標の定義域に基づいて、重みを算出し、
前記関数、前記スケールファクタ、及び前記重みに基づいて、前記部分報酬関数を生成することを特徴とする計算機システム。 - 請求項8に記載の計算機システムであって、
前記学習部は、
前記生成された報酬関数を用いて前記強化学習を実行し、
前記報酬関数生成部に、前記生成された報酬関数を用いて強化学習の結果を送信し、
前記報酬関数生成部は、
前記生成された報酬関数を用いて強化学習の結果を評価し、
前記評価の結果に基づいて、修正対象の前記部分報酬関数を特定し、前記特定された部分報酬関数を修正し、
前記特定された部分報酬関数の修正結果に基づいて、前記報酬関数を更新することを特徴とする計算機システム。 - 請求項9に記載の計算機システムであって、
前記重要業績評価指標の制御目的は、前記重要業績評価指標が満たすべき制約を含み、
前記報酬関数は、第1の制約を前記重要業績評価指標の制御目的として含む前記設定データに基づいて生成された第1の部分報酬関数を含み、
前記報酬関数生成部は、前記第1の制約が満たされていない場合、前記第1の部分報酬関数を、前記修正対象の部分報酬関数として特定することを特徴とする計算機システム。 - 請求項9に記載の計算機システムであって、
前記部分報酬関数は、前記設定データと対応づけて管理され、
前記報酬関数生成部は、
前記強化学習における行動の選択に対する、前記複数の部分報酬関数の各々から得られる値の寄与の大きさを示す寄与度を算出し、
前記部分報酬関数に対応する前記設定データに含まれる優先度に基づいて、前記部分報酬関数をソートした順番である第一ソート順と、前記寄与度に基づいて、前記部分報酬関数をソートした順番である第二ソート順とを比較し、
前記第一ソート順及び前記第二ソート順が異なる前記部分報酬関数を、前記修正対象の部分報酬関数として特定することを特徴とする計算機システム。 - 請求項9に記載の計算機システムであって、
前記報酬関数生成部は、前記設定データ及び前記部分報酬関数の修正方法を設定するためのインタフェースを提供することを特徴とする計算機システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018163057A JP6982557B2 (ja) | 2018-08-31 | 2018-08-31 | 報酬関数の生成方法及び計算機システム |
US16/545,165 US11487972B2 (en) | 2018-08-31 | 2019-08-20 | Reward function generation method and computer system |
EP19192913.2A EP3617951A1 (en) | 2018-08-31 | 2019-08-21 | Reward function generation method and computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018163057A JP6982557B2 (ja) | 2018-08-31 | 2018-08-31 | 報酬関数の生成方法及び計算機システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020035320A JP2020035320A (ja) | 2020-03-05 |
JP6982557B2 true JP6982557B2 (ja) | 2021-12-17 |
Family
ID=67659740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018163057A Active JP6982557B2 (ja) | 2018-08-31 | 2018-08-31 | 報酬関数の生成方法及び計算機システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11487972B2 (ja) |
EP (1) | EP3617951A1 (ja) |
JP (1) | JP6982557B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021025601A1 (en) * | 2019-08-06 | 2021-02-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and nodes in a communications network |
JP7263980B2 (ja) * | 2019-08-27 | 2023-04-25 | 富士通株式会社 | 強化学習方法、強化学習プログラム、および強化学習装置 |
CN111998847A (zh) * | 2020-07-16 | 2020-11-27 | 西北工业大学 | 一种基于深度强化学习的水下航行器仿生地磁导航方法 |
CN112381428B (zh) * | 2020-11-19 | 2023-09-19 | 平安科技(深圳)有限公司 | 基于强化学习的业务分配方法、装置、设备及存储介质 |
US11847679B2 (en) * | 2021-11-30 | 2023-12-19 | Dell Products, L.P. | Persona based co-operative multi-agent reinforcement learning to enhance user experience |
CN118550240A (zh) * | 2024-07-29 | 2024-08-27 | 浙江恒以蓝环保设备有限公司 | 一种用于定型机废气处理的远程监控方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8756177B1 (en) * | 2011-04-18 | 2014-06-17 | The Boeing Company | Methods and systems for estimating subject intent from surveillance |
JP2014130520A (ja) * | 2012-12-28 | 2014-07-10 | International Business Maschines Corporation | リスクを抑制して期待リターンを最大化するアクションを選択する方策を最適化する方法、コンピュータシステム及びコンピュータプログラム |
JP6352798B2 (ja) | 2014-12-22 | 2018-07-04 | 株式会社日立製作所 | マーケティング施策最適化装置、方法、及びプログラム |
US20180165602A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
JP6562373B2 (ja) * | 2017-01-13 | 2019-08-21 | パナソニックIpマネジメント株式会社 | 予測装置及び予測方法 |
EP3625731A1 (en) * | 2017-05-18 | 2020-03-25 | Microsoft Technology Licensing, LLC | Hybrid reward architecture for reinforcement learning |
US20180374138A1 (en) * | 2017-06-23 | 2018-12-27 | Vufind Inc. | Leveraging delayed and partial reward in deep reinforcement learning artificial intelligence systems to provide purchase recommendations |
JP6538766B2 (ja) * | 2017-07-18 | 2019-07-03 | ファナック株式会社 | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 |
JP7268047B2 (ja) * | 2018-03-08 | 2023-05-02 | ノキア テクノロジーズ オーユー | 周波数間負荷バランスを最適化するための無線アクセスネットワークコントローラの方法およびシステム |
-
2018
- 2018-08-31 JP JP2018163057A patent/JP6982557B2/ja active Active
-
2019
- 2019-08-20 US US16/545,165 patent/US11487972B2/en active Active
- 2019-08-21 EP EP19192913.2A patent/EP3617951A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
US11487972B2 (en) | 2022-11-01 |
US20200074236A1 (en) | 2020-03-05 |
EP3617951A1 (en) | 2020-03-04 |
JP2020035320A (ja) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6982557B2 (ja) | 報酬関数の生成方法及び計算機システム | |
US8370808B2 (en) | Apparatus and a method for generating a test case | |
JP4736713B2 (ja) | プロジェクトメンバーの選定を支援するシステムと方法 | |
US20070192160A1 (en) | Plan solver | |
JP2015087973A (ja) | 生成装置、生成方法、およびプログラム | |
US11531643B2 (en) | Computer system and method of evaluating changes to data in a prediction model | |
JP2013003664A (ja) | 情報処理装置および方法 | |
JP2021064049A (ja) | 計算機システム及び数理モデルの生成支援方法 | |
US11416302B2 (en) | Computer system and method for determining of resource allocation | |
JP2009163497A (ja) | 事務フロー生成装置およびその方法 | |
JP2014160457A (ja) | 対話的変数選択装置、対話的変数選択方法および対話的変数選択プログラム | |
KR20180130733A (ko) | 협업 의존성 기반 컴포넌트 재사용 추천 시스템 및 방법 | |
WO2016063502A1 (ja) | 知識管理装置、知識管理方法、及び、プログラムの記録媒体 | |
JP5560220B2 (ja) | 工数見積装置、工数見積方法、工数見積プログラム | |
US20210097447A1 (en) | Computer System and Method for Supporting Model Selection | |
JP6617605B2 (ja) | 需要量予測プログラム、需要量予測方法、及び情報処理装置 | |
WO2021095137A1 (ja) | ソフトウェア開発支援装置、ソフトウェア開発支援方法及びプログラム | |
JP6758344B2 (ja) | 計算機システム及び学習制御方法 | |
JP2021110974A (ja) | モデルを再利用する方法 | |
US20210192407A1 (en) | Computer system and method of verifying scheduling system | |
JP6355554B2 (ja) | 設定データ記憶装置、方法及びプログラム | |
JP5949764B2 (ja) | 構成管理装置、構成管理方法、及び構成管理プログラムを記憶するプログラム記録媒体 | |
JP7506542B2 (ja) | 計算機システム及び作業に対する作業員の割当て案の算出方法 | |
US20240241700A1 (en) | Schedule optimization system construction support device and schedule optimization system construction support method | |
JP7311373B2 (ja) | 計算機システム、計画の生成方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211102 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6982557 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |