JP7450833B1 - パラメータ最適化装置およびパラメータ最適化方法 - Google Patents
パラメータ最適化装置およびパラメータ最適化方法 Download PDFInfo
- Publication number
- JP7450833B1 JP7450833B1 JP2023570348A JP2023570348A JP7450833B1 JP 7450833 B1 JP7450833 B1 JP 7450833B1 JP 2023570348 A JP2023570348 A JP 2023570348A JP 2023570348 A JP2023570348 A JP 2023570348A JP 7450833 B1 JP7450833 B1 JP 7450833B1
- Authority
- JP
- Japan
- Prior art keywords
- generation
- small group
- unit
- parameter
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 148
- 238000000034 method Methods 0.000 title claims description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 114
- 238000011156 evaluation Methods 0.000 claims abstract description 91
- 230000035772 mutation Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 16
- 230000002787 reinforcement Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 231100000310 mutation rate increase Toxicity 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Feedback Control In General (AREA)
Abstract
Description
例えば、特許文献1に記載される学習方法は、進化的アルゴリズム、特にCMA-ES(共分散行列適応進化戦略)アルゴリズムまたは差分進化的アルゴリズムのうちの少なくとも一つのパラメータ(σ)を最適に適応化する戦略(π)を学習するものである。
この方法は、問題インスタンスに関する状態情報(S)に依存して、パラメータ(σ)のパラメータ表示(A)を算定する戦略を初期化するステップと、強化学習を用いて戦略(π)を学習するステップとを含む。そして、CMA-ESアルゴリズムと、状態情報(S)に依存する戦略を用いて決定されたパラメータ表示と、問題インスタンスと、報酬信号(R)との相互作用に基づいて、可能な状態情報にとっていずれのパラメータ表示が最適であるかが学習される。
このため、1世代での環境の変動が大きい場合、1世代での個体の評価では環境の変動に追従できず、パラメータ選択の最適性が低下するという課題があった。
例えば、1世代における環境の変化には、進化的アルゴリズムを用いて解決する問題の制約条件が変動するか、目的関数が変わることもある。また、進化のタイミング、または変化パターンが変化することもある。これらの環境要因の変動はパラメータ選択に大きく影響を与える。
まず、従来の進化的アルゴリズムのパラメータ最適化における問題点について図1Aを用いて説明する。図1Aは、進化的アルゴリズムのパラメータ最適化の概要を示す概要図であり、従来のパラメータ最適化装置100によるパラメータの最適化を示している。
パラメータ最適化装置100は、進化的アルゴリズム部101および最適化部102を備える。進化的アルゴリズム部101は、対象問題の世代ごとに設定された個体数の次世代の個体群である小集団を、世代ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した小集団を評価するものである。
このように、AOSは、パラメータの選択および評価を世代でまとめて行うので、常に前世代の評価のみからパラメータ選択を行うことになり、非効率的である。
図1Bは、実施の形態1に係るパラメータ最適化装置1による、進化的アルゴリズムのパラメータ最適化の概要を示す概要図である。パラメータ最適化装置1は、進化的アルゴリズム部2および最適化部3を備える。進化的アルゴリズム部2は、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した小集団を評価する。
これら一連の処理は、予め設定された次世代の個体数に達するまで繰り返し行われる。
このように、パラメータ最適化装置1では、次世代の小集団の評価結果が小集団の生成過程にフィードバックされるので、世代ごとの環境の変動に対する適応性が向上し、進化的アルゴリズムのパラメータ選択の最適性を高めることが可能である。
なお、記憶部は、パラメータ最適化装置1がアクセス可能なものであればよく、パラメータ最適化装置1の外部に設けられてもよい。
なお、パラメータに含まれる個体数は、従来の進化的アルゴリズムのように、各世代に設定される個体数だけでなく、次世代生成部21が生成する次世代小集団の数、および、次世代小集団生成部212が生成する小集団ごとの個体数も含まれる。
交叉部2121および点変異部2122による個体生成は、個別に行われてもよいし、それぞれ組み合わせて行ってもよい。
また、評価部214は、対象問題に関する目的関数を用いて次世代小集団を評価してもよい。目的関数は、対象問題の解としての尤もらしさを数値的に表した関数である。評価部214は、目的関数を用いて個体を評価する。
選択肢iの価値=(0.5+SUM(選択肢iの直近の報酬))/(SUM(選択肢iの直近の観測回数)+1) (1)
平均(選択肢iの直近N回の評価)<選択肢iによる次世代小集団の評価 (2)
パラメータの選択には、例えば、softmax関数、ε-greedy法、UCB1アルゴリズム、UCB1-tuned、PM、あるいはAP等の各種方策が用いられる。
次に、選択部33は、正規化された価値が示す選択肢から、行動に関するパラメータに関する選択肢を、下記式(4)に従って選択する。
正規化された価値=選択肢の価値/SUM(選択肢の価値) (3)
行動=任意の方策(正規化された価値) (4)
実施の形態1に係るパラメータ最適化方法には、進化的アルゴリズムステップ、および最適化ステップが含まれる。進化的アルゴリズムステップでは、進化的アルゴリズム部2が、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である次世代小集団を、次世代小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した次世代小集団を評価する。最適化ステップでは、最適化部3が、次世代小集団の評価結果に基づいて次世代小集団の生成を学習し、この学習結果に基づいて次世代小集団の生成に用いられるパラメータを選択する。パラメータ最適化装置1が、この方法を実行することにより、進化的アルゴリズムのパラメータ選択の最適性の低下を抑えることができる。
次世代小集団生成部212は、パラメータ設定部211により設定されたパラメータを用いて、初期集団に基づき、新たな次世代小集団を生成する(ステップST3)。
報酬生成部312は、評価部214から取得した評価情報を用いて、次世代小集団の評価に対する報酬を算出する。制御学習部311は、報酬およびパラメータを用いて学習を評価する(ステップST4-1)。
選択部33は、制御学習部311が算出した制御評価値に基づいて、次世代生成部21に設定するパラメータを選択する(ステップST4-2)。
生成終了判定部215は、次世代分の個体、すなわち、次世代小集団が規定数だけ生成されたか否かを判定する(ステップST5)。ここで、次世代小集団の生成数が規定数に満たない場合(ステップST5;NO)、ステップST2からステップST4までの一連の処理が実行される。
図5は、巡回セールスマン問題の一例を示す概要図である。図5に示す問題は、始点(start)から、18都市を巡回して終点(goal)に至るまでの最短経路を探索するものである。また、図6は、図5の問題に対する進化的アルゴリズムのパラメータに含まれる突然変異率の最適化のシミュレーション結果を示すグラフである。図6における結果は、パラメータ最適化装置1およびパラメータ最適化装置100が、図5に示す問題の個体生成を1500世代実施した場合に得られる結果である。
パラメータ最適化装置1が備える進化的アルゴリズム部2および最適化部3は、処理回路によって実現される。すなわち、パラメータ最適化装置1は、図4に示したステップST1からステップST6までの各処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するCPU(Central Processing Unit)であってもよい。
このように、処理回路はハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって上記機能を実現することができる。
これにより、パラメータ最適化装置1は、進化的アルゴリズムのパラメータ選択の最適性を高めることができる。
Claims (10)
- 対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、前記小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した前記小集団を評価する進化的アルゴリズム部と、
前記小集団の評価結果に基づいて学習し、学習結果に基づいて、前記進化的アルゴリズム部が前記小集団の生成に用いる前記パラメータを選択する最適化部と、を備えた
ことを特徴とするパラメータ最適化装置。 - 前記進化的アルゴリズム部は、
前記最適化部が選択した前記パラメータを用いて前記小集団を生成する生成部と、
前記小集団を評価し、評価結果を前記最適化部に出力する評価部と、を備え、
前記生成部および前記評価部による各処理は、世代ごとの終了条件を満たすまで繰り返し実行され、前記終了条件を満たすと世代交代する
ことを特徴とする請求項1に記載のパラメータ最適化装置。 - 前記最適化部は、
前記評価結果に基づいて前記小集団の評価に対する報酬を算出する報酬生成部と、
前記報酬と前記パラメータとを用いて前記小集団の生成を強化学習する制御学習部と、
前記小集団を生成する行動として前記進化的アルゴリズム部に設定する前記パラメータを選択する選択部とを備える
ことを特徴とする請求項2に記載のパラメータ最適化装置。 - 前記報酬は、前記小集団の生成の学習進捗であり、
前記パラメータは、交叉率および突然変異率を含むパラメータ値、および、交叉演算子および突然変異演算子を含む演算子である
ことを特徴とする請求項3に記載のパラメータ最適化装置。 - 前記学習進捗は、進化計算アルゴリズムにおける前記小集団の適応度であり、
前記報酬は、前記学習進捗の値、世代交代前後の前記学習進捗の差分による評価値、または、世代交代前後の前記学習進捗の大小関係による評価値である
ことを特徴とする請求項4に記載のパラメータ最適化装置。 - パラメータ最適化装置によるパラメータ最適化方法であって、
進化的アルゴリズム部が、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、前記小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した前記小集団を評価するステップと、
最適化部が、前記小集団の評価結果に基づいて学習し、学習結果に基づいて、前記進化的アルゴリズム部が前記小集団の生成に用いる前記パラメータを選択するステップと、を備えた
ことを特徴とするパラメータ最適化方法。 - コンピュータに、
対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、前記小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した前記小集団を評価する処理と、
前記小集団の評価結果に基づいて学習し、学習結果に基づいて、前記小集団の生成に用いる前記パラメータを選択する処理とを実行させるためのプログラム。 - 第1世代に含まれる第1小集団の評価を利用して設定された、進化的アルゴリズムのパラメータである第1パラメータに基づいて、前記第1世代より後の世代である第2世代に含まれる第2小集団を生成する生成部と、
生成された、前記第2小集団を評価する評価部と、
前記第2小集団の評価を利用した学習結果に基づいて、前記第2世代に含まれる第3小集団の生成に利用する、前記進化的アルゴリズムのパラメータである第2パラメータを選択する選択部とを備えた
ことを特徴とする装置。 - 第1世代に含まれる第1小集団の評価を利用して設定された、進化的アルゴリズムのパラメータである第1パラメータに基づいて、前記第1世代より後の世代である第2世代に含まれる第2小集団を生成するステップと、
生成された、前記第2小集団を評価するステップと、
前記第2小集団の評価を利用した学習結果に基づいて、前記第2世代に含まれる第3小集団の生成に利用する、前記進化的アルゴリズムのパラメータである第2パラメータを選択するステップとを備えた
ことを特徴とする方法。 - コンピュータに、
第1世代に含まれる第1小集団の評価を利用して設定された、進化的アルゴリズムのパラメータである第1パラメータに基づいて、前記第1世代より後の世代である第2世代に含まれる第2小集団を生成する処理と、
生成された、前記第2小集団を評価する処理と、
前記第2小集団の評価を利用した学習結果に基づいて、前記第2世代に含まれる第3小集団の生成に利用する、前記進化的アルゴリズムのパラメータである第2パラメータを選択する処理とを実行させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023024852 | 2023-07-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7450833B1 true JP7450833B1 (ja) | 2024-03-15 |
Family
ID=90194688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023570348A Active JP7450833B1 (ja) | 2023-07-05 | 2023-07-05 | パラメータ最適化装置およびパラメータ最適化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7450833B1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005222286A (ja) | 2004-02-05 | 2005-08-18 | Canon Inc | 最適解探索方法および最適解探索装置 |
CN110989538A (zh) | 2019-12-23 | 2020-04-10 | 北京化工大学 | 一种复杂生产过程闭环调度优化方法 |
-
2023
- 2023-07-05 JP JP2023570348A patent/JP7450833B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005222286A (ja) | 2004-02-05 | 2005-08-18 | Canon Inc | 最適解探索方法および最適解探索装置 |
CN110989538A (zh) | 2019-12-23 | 2020-04-10 | 北京化工大学 | 一种复杂生产过程闭环调度优化方法 |
Non-Patent Citations (1)
Title |
---|
SAKURAI, Y. et al.,A Method to Control Parameters of Evolutionary Algorithms by using Reinforcement Learning,2010 Sixth International Conference on Signal-Image Technology and Internet Based Systems,2011年02月17日,pp. 74-79,[online], [retrieved on 2024-01-30], Retrieved from <https://ieeexplore.ieee.org/document/5714532>,<doi: 10.1109/ SITIS.2010.22> |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220210028A1 (en) | Cloud software service resource allocation method based on qos model self-correctio | |
US8700548B2 (en) | Optimization technique using evolutionary algorithms | |
Papageorgiou et al. | Fuzzy cognitive maps | |
JP6646234B2 (ja) | プログラム生成装置、プログラム生成方法および生成プログラム | |
Moraglio et al. | Geometric generalisation of surrogate model based optimisation to combinatorial spaces | |
CN109271320B (zh) | 一种上位多目标测试用例优先级排序方法 | |
CN113128655B (zh) | 基于多种群遗传算法工控入侵检测分类器参数选择方法 | |
CN110991724A (zh) | 用于预测风景区客流量的方法、系统及存储介质 | |
JP6902487B2 (ja) | 機械学習システム | |
EP3739473B1 (en) | Optimization device and method of controlling optimization device | |
JP7137074B2 (ja) | 最適化計算方法、最適化計算装置及び最適化計算プログラム | |
Idais et al. | Optimal knots allocation in the cubic and bicubic spline interpolation problems | |
CN111860939A (zh) | 基于注意力机制和rclstm网络的客流量预测方法及系统 | |
Lu et al. | Adaptive online data-driven closed-loop parameter control strategy for swarm intelligence algorithm | |
JP7450833B1 (ja) | パラメータ最適化装置およびパラメータ最適化方法 | |
Siwik et al. | Elitist evolutionary multi-agent system in solving noisy multi-objective optimization problems | |
CN114154615A (zh) | 基于硬件性能的神经架构搜索方法和设备 | |
KR102559605B1 (ko) | 함수 최적화 방법 및 장치 | |
Luo et al. | Sampling-based adaptive bounding evolutionary algorithm for continuous optimization problems | |
US7139986B2 (en) | Systems and methods for determining costs associated with a selected objective | |
CN113094945B (zh) | 一种sa-beso联合拓扑优化方法 | |
Li et al. | Covariance and crossover matrix guided differential evolution for global numerical optimization | |
Chen et al. | Using learning classifier systems to learn stochastic decision policies | |
WO2023155259A1 (zh) | 一种缓冲器插入方法、装置、存储介质及电子设备 | |
US20230259682A1 (en) | Buffer insertion method and device, storage medium, and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231114 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231114 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7450833 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |