JP7450833B1

JP7450833B1 - パラメータ最適化装置およびパラメータ最適化方法

Info

Publication number: JP7450833B1
Application number: JP2023570348A
Authority: JP
Inventors: 玖仁朗佐鳥; 昇之芳川; 潤丸田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2024-03-15
Anticipated expiration: 2043-07-05

Abstract

パラメータ最適化装置（１）は、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である次世代小集団を、次世代小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、次世代小集団を評価する進化的アルゴリズム部（２）と、次世代小集団の評価結果に基づいて小集団の生成を学習し、学習結果に基づいて次世代小集団の生成に用いられるパラメータを選択する最適化部（３）を備える。

Description

本開示は、パラメータ最適化装置およびパラメータ最適化方法に関する。

進化的アルゴリズムは、様々な最適化問題を解決する手法として広く用いられている。
例えば、特許文献１に記載される学習方法は、進化的アルゴリズム、特にＣＭＡ－ＥＳ（共分散行列適応進化戦略）アルゴリズムまたは差分進化的アルゴリズムのうちの少なくとも一つのパラメータ（σ）を最適に適応化する戦略（π）を学習するものである。
この方法は、問題インスタンスに関する状態情報（Ｓ）に依存して、パラメータ（σ）のパラメータ表示（Ａ）を算定する戦略を初期化するステップと、強化学習を用いて戦略（π）を学習するステップとを含む。そして、ＣＭＡ－ＥＳアルゴリズムと、状態情報（Ｓ）に依存する戦略を用いて決定されたパラメータ表示と、問題インスタンスと、報酬信号（Ｒ）との相互作用に基づいて、可能な状態情報にとっていずれのパラメータ表示が最適であるかが学習される。

特開２０２２－２１１７７号公報

従来の進化的アルゴリズムのパラメータ最適化では、世代ごとにパラメータが選択され、選択されたパラメータを用いて、世代ごとに設定された数分の個体（候補解）を生成してから、生成した個体集団をまとめて評価している。
このため、１世代での環境の変動が大きい場合、１世代での個体の評価では環境の変動に追従できず、パラメータ選択の最適性が低下するという課題があった。
例えば、１世代における環境の変化には、進化的アルゴリズムを用いて解決する問題の制約条件が変動するか、目的関数が変わることもある。また、進化のタイミング、または変化パターンが変化することもある。これらの環境要因の変動はパラメータ選択に大きく影響を与える。

なお、特許文献１に記載される学習方法においても、進化的アルゴリズムのパラメータ（σ）の選択および学習が世代ごとに行われている。このため、１世代での環境の変動が大きい場合、特許文献１に記載される学習方法では、パラメータ選択の最適性が低下し、進化的アルゴリズムの学習効率が低下する可能性が高い。

本開示は上記課題を解決するものであり、進化的アルゴリズムのパラメータ選択の最適性を高めることができる、パラメータ最適化装置を得ることを目的とする。

本開示に係るパラメータ最適化装置は、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した小集団を評価する進化的アルゴリズム部と、小集団の評価結果に基づいて学習し、学習結果に基づいて、進化的アルゴリズム部が小集団の生成に用いるパラメータを選択する最適化部と、を備える。

本開示によれば、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した小集団の評価結果に基づいて小集団の生成を学習し、学習結果に基づいて小集団の生成に用いられるパラメータを選択する。パラメータの選択とパラメータを用いて生成した小集団の評価とを、小集団の生成ごとに行うことで、次世代の小集団の評価結果が小集団の生成過程にフィードバックされる。これにより、世代ごとの環境の変動に対する適応性が向上するので、本開示に係るパラメータ最適化装置は、進化的アルゴリズムのパラメータ選択の最適性を高めることができる。

図１Ａおよび図１Ｂは、進化的アルゴリズムのパラメータ最適化の概要を示す概要図である。実施の形態１に係るパラメータ最適化装置の構成例を示すブロック図である。次世代小集団生成部の構成例を示すブロック図である。実施の形態１に係るパラメータ最適化方法を示すフローチャートである。巡回セールスマン問題の一例を示す概要図である。図５の問題に対する進化的アルゴリズムのパラメータに含まれる突然変異率の最適化のシミュレーション結果を示すグラフである。図７Ａおよび図７Ｂは、実施の形態１に係るパラメータ最適化装置の機能を実現するハードウェア構成を示すブロック図である。

実施の形態１．
まず、従来の進化的アルゴリズムのパラメータ最適化における問題点について図１Ａを用いて説明する。図１Ａは、進化的アルゴリズムのパラメータ最適化の概要を示す概要図であり、従来のパラメータ最適化装置１００によるパラメータの最適化を示している。
パラメータ最適化装置１００は、進化的アルゴリズム部１０１および最適化部１０２を備える。進化的アルゴリズム部１０１は、対象問題の世代ごとに設定された個体数の次世代の個体群である小集団を、世代ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した小集団を評価するものである。

進化的アルゴリズムは、対象問題に対して変化と選択に基づく世代交代を繰り返すことにより、候補解である個体の集団を進化させて最適解を得るものである。進化的アルゴリズムは、様々な最適化問題に対処する能力を有する。しかしながら、進化的アルゴリズムのパフォーマンスは、パラメータの調整、すなわち、交叉率および突然変異率といったハイパーパラメータの値、および、交叉演算子および突然変異演算子といった演算子として最適なものを選択できるか否かに依存する。

パラメータ選択の最適性を向上させるため、従来、進化的アルゴリズム部１０１として多腕バンディットを適用することで問題解決を行う、ＡＯＳ（ＡｄａｐｔｉｖｅＯｐｅｒａｔｏｒＳｅｌｅｃｔｉｏｎ）が提案されている。パラメータ最適化装置１００は、ＡＯＳを行うものである。ＡＯＳは、進化的アルゴリズムのパラメータを学習しながら、現世代までに実行された個体生成の履歴情報のみを用いて、現世代で生成した個体を評価し、評価結果に基づいて次の世代に残す個体を決定する。ＡＯＳによって、各世代に最適なパラメータが選択されるので、最適な個体生成を効率的に制御することが可能となる。

例えば、世代更新作業Ｔ（世代Ｔの処理）において、最適化部１０２は、前世代で生成した個体の小集団についての評価値である適応度ｆ_Ｔを取得し、適応度ｆ_Ｔに基づいて、最適なパラメータ（例えば、交叉率ｐ_Ｔと突然変異率ｅ_Ｔ）を選択する。最適化部１０２は、選択したパラメータを進化的アルゴリズム部１０１に設定する。例えば、適応度ｆ_Ｔは、個体が目的関数にどの程度適したかを示す指標である。適応度ｆ_Ｔが高い個体ほど、次世代に引き継がれる確率が高くなる。

進化的アルゴリズム部１０１は、最適化部１０２により設定された世代Ｔのパラメータを用いて交叉および点変異を行い、次世代Ｔ＋１の個体の小集団を生成する。交叉とは、二つの前世代の個体（親個体）の遺伝情報を組み合わせて新たな次世代の個体（子孫個体）を生成する操作である。進化的アルゴリズム部１０１は、最適化部１０２が設定した交叉率に基づいた交叉によって次世代Ｔ＋１の個体を生成する。また、点変異は、個体の遺伝情報の一部をランダムに変える操作である。進化的アルゴリズム部１０１は、最適化部１０２が設定した突然変異率に基づいた点変異によって次世代Ｔ＋１の個体を生成する。

進化的アルゴリズム部１０１は、世代Ｔのパラメータに含まれる候補解数の個体群からなる、次世代Ｔ＋１の個体の小集団を生成すると、この小集団の評価処理（適応度評価）を行い、評価値である適応度ｆ_Ｔ＋１を最適化部１０２に出力する。続いて、進化的アルゴリズム部１０１は、世代Ｔから世代Ｔ＋１に交代し、世代更新作業Ｔ＋１（世代Ｔ＋１の処理）において、世代Ｔ＋１のパラメータに含まれる候補解数の個体群からなる、次世代Ｔ＋２の個体の小集団を生成する。進化的アルゴリズム部１０１は、次世代Ｔ＋２の個体の小集団を生成し、この小集団の適応度ｆ_Ｔ＋２を最適化部１０２に出力する。これら一連の処理は、予め設定された世代数に達するまで繰り返し行われる。

図１Ａに示すように、従来のパラメータ最適化装置１００では、世代ごとにパラメータが選択され、前世代までの情報（前世代に生成した小集団の適応度ｆ_Ｔ）のみを用いて、その世代に設定された個体数の個体からなる次世代の小集団を生成し、生成した小集団をまとめて評価している。このため、１世代での環境の変動が大きい場合、１世代での個体の評価では環境の変動に追従できず、パラメータ選択の最適性が低下してしまう。
このように、ＡＯＳは、パラメータの選択および評価を世代でまとめて行うので、常に前世代の評価のみからパラメータ選択を行うことになり、非効率的である。

これに対して、実施の形態１に係るパラメータ最適化装置は、パラメータの選択およびパラメータを用いて生成した小集団の評価を小集団の生成ごとに行うものである。
図１Ｂは、実施の形態１に係るパラメータ最適化装置１による、進化的アルゴリズムのパラメータ最適化の概要を示す概要図である。パラメータ最適化装置１は、進化的アルゴリズム部２および最適化部３を備える。進化的アルゴリズム部２は、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した小集団を評価する。

世代更新作業Ｔにおいて、最適化部３は、進化的アルゴリズム部２が順次生成する次世代Ｔ＋１の個体ｋの小集団の適応度ｆ_Ｔｋを取得して、小集団の生成に関するパラメータを学習する。そして、最適化部３は、学習結果に基づいて次の小集団の生成に用いられるパラメータ（例えば、交叉率ｐ_Ｔｋ＋１と突然変異率ｅ_Ｔｋ＋１）を選択し、選択したパラメータを進化的アルゴリズム部２に設定する。

進化的アルゴリズム部２は、最適化部３から設定されたパラメータを用いて次の次世代Ｔ＋１の個体ｋの小集団を生成すると、この小集団の評価処理（適応度評価）を行い、適応度ｆ_Ｔｋを最適化部３に出力する。次に、進化的アルゴリズム部２は、世代Ｔから世代Ｔ＋１に交代し、世代更新作業Ｔ＋１において、世代Ｔ＋１のパラメータに含まれる候補解数より少ない数の個体群からなる、次世代Ｔ＋２の個体の小集団を順次生成する。進化的アルゴリズム部２は、生成した小集団の適応度ｆ_Ｔ＋１ｋを最適化部３に出力する。

最適化部３は、小集団の生成を学習し、この学習結果に基づいて、進化的アルゴリズム部２による次の小集団の生成に用いられるパラメータ（例えば、交叉率ｐ_{Ｔ＋１ｋ＋１}と突然変異率ｅ_{Ｔ＋１ｋ＋１}）を選択して進化的アルゴリズム部２に設定する。
これら一連の処理は、予め設定された次世代の個体数に達するまで繰り返し行われる。
このように、パラメータ最適化装置１では、次世代の小集団の評価結果が小集団の生成過程にフィードバックされるので、世代ごとの環境の変動に対する適応性が向上し、進化的アルゴリズムのパラメータ選択の最適性を高めることが可能である。

図２はパラメータ最適化装置１の構成例を示すブロック図である。図２に示すように、パラメータ最適化装置１は、演算部および記憶部を備えた装置である。演算部は、パラメータ最適化装置１の全体動作を制御するものである。演算部は、進化的アルゴリズム部２および最適化部３を備える。演算部が、パラメータ最適化用の情報処理アプリケーションを実行することにより、進化的アルゴリズム部２および最適化部３の各種の機能が実現される。

記憶部は、パラメータ最適化用の情報処理アプリケーション、および演算部の演算処理に用いられる情報を記憶する。この記憶部は、例えば、評価値記憶部３２および個体記憶部２１３を実現するものである。また、記憶部は、パラメータ最適化装置１として機能するコンピュータが備える記憶装置であってもよい。例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）もしくはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等のストレージ、または、後述する図７Ｂのメモリ１０４を含むものである。
なお、記憶部は、パラメータ最適化装置１がアクセス可能なものであればよく、パラメータ最適化装置１の外部に設けられてもよい。

進化的アルゴリズム部２は、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である次世代小集団を、次世代小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、次世代小集団を評価するものである。例えば、進化的アルゴリズム部２は、初期世代からＮ回の世代交代を重ねて対象問題の個体を生成し、その適応度を高めた最終世代の個体を生成する。なお、Ｎは２以上の整数である。

進化的アルゴリズム部２において動作される進化的アルゴリズムは、例えば、世代交代を行うアルゴリズムである遺伝的アルゴリズム、差分進化アルゴリズム、または、多目的最適化アルゴリズム等である。進化的アルゴリズム部２は、図２に示すように、次世代生成部２１および世代交代終了判定部２２を備える。

次世代生成部２１は、進化的アルゴリズムによる、対象問題の次世代小集団の生成と、その評価を行うものであり、パラメータ設定部２１１、次世代小集団生成部２１２、個体記憶部２１３、評価部２１４および生成終了判定部２１５を備える。また、世代交代終了判定部２２は、初期世代から、次世代生成部２１に設定された最終世代まで、次世代生成部２１による動作が行われたか否かを判定する。例えば、最終世代がＮ世代である場合、次世代生成部２１は、Ｎ世代の個体を生成するまで初期世代からＮ回の世代交代を重ねることにより、適応度が高められた最終世代の個体を生成する。

パラメータ設定部２１１は、最適化部３から取得したパラメータを、次世代小集団生成部２１２に設定するものである。最適化部３から取得するパラメータは、いわゆるハイパーパラメータであり、進化的アルゴリズムを動作させる際に調整する必要があるパラメータである。例えば、パラメータには、次世代生成部２１が個体生成を行う最終世代を特定するための世代数、次世代小集団生成部２１２が生成する個体数、交差率、突然変異率、および、次の世代での個体生成に利用する個体を選択する方法等が含まれる。
なお、パラメータに含まれる個体数は、従来の進化的アルゴリズムのように、各世代に設定される個体数だけでなく、次世代生成部２１が生成する次世代小集団の数、および、次世代小集団生成部２１２が生成する小集団ごとの個体数も含まれる。

次世代小集団生成部２１２は、最適化部３が選択したパラメータを用いて次世代小集団を生成する生成部である。次世代小集団とは、対象問題の候補解である複数の個体で構成される小集団である。次世代小集団には、最適化部３が選択したパラメータに含まれる、次世代小集団ごとに設定された個体数の個体が含まれる。なお、次世代小集団ごとの個体数は、その世代に設定された個体数よりも少ないものとする。

図３は、次世代小集団生成部２１２の構成例を示すブロック図である。図３に示すように、次世代小集団生成部２１２は、交叉部２１２１、点変異部２１２２、および、次世代小集団終了判定部２１２３を備える。交叉部２１２１は、パラメータ設定部２１１により設定されたパラメータから個体間が交叉する確率である交叉率を抽出し、交叉率に従って二つの個体間を交叉させることにより、新たな個体を生成する。なお、交叉率が高くなるにつれて個体の多様性が失われ、低すぎると最適な個体への収束が遅れる可能性がある。

点変異部２１２２は、パラメータ設定部２１１により設定されたパラメータから、個体が変異する確率である突然変異率を抽出し、突然変異率に従って個体の遺伝子情報を変化させることにより、新たな個体を生成する。なお、突然変異率が高くなるにつれて個体の多様性が失われ、低すぎると最適な個体への収束が遅れる可能性がある。
交叉部２１２１および点変異部２１２２による個体生成は、個別に行われてもよいし、それぞれ組み合わせて行ってもよい。

次世代小集団終了判定部２１２３は、交叉部２１２１と点変異部２１２２による一つの小集団の生成終了を判定するものである。例えば、次世代小集団終了判定部２１２３は、交叉部２１２１および点変異部２１２２が生成した個体の数が、パラメータ設定部２１１により設定されたパラメータに含まれる、次世代小集団ごとに設定された個体数に達した場合、次世代小集団の生成終了と判定する。次世代小集団ごとに設定された個体数に達しておらず、終了判定がされない場合、交叉部２１２１および点変異部２１２２は、パラメータ設定部２１１により設定されたパラメータを用いて個体生成を繰り返す。

個体記憶部２１３は、次世代小集団生成部２１２が生成した次世代小集団である個体群を記憶する記憶部である。なお、個体記憶部２１３は、次世代小集団生成部２１２および次世代小集団終了判定部２１２３がアクセス可能なものであればよく、パラメータ最適化装置１の外部に設けられてもよい。

評価部２１４は、次世代小集団生成部２１２により生成された次世代小集団を評価し、その評価結果を最適化部３に出力する評価部である。例えば、評価部２１４は、個体が解決すべき問題にどの程度適しているかを示す適応度を用いて、次世代小集団の個体を評価する。次世代小集団がＮ個の個体で構成される場合に、評価部２１４は、Ｎ個の適応度の平均値を算出し、この平均値を、次世代小集団の評価情報として最適化部３に出力する。
また、評価部２１４は、対象問題に関する目的関数を用いて次世代小集団を評価してもよい。目的関数は、対象問題の解としての尤もらしさを数値的に表した関数である。評価部２１４は、目的関数を用いて個体を評価する。

生成終了判定部２１５は、次世代生成部２１における次世代小集団の生成の終了を判定するものである。例えば、生成終了判定部２１５は、次世代生成部２１が生成した次世代小集団の数が、パラメータ設定部２１１により設定されたパラメータに含まれる、各世代に設定される次世代小集団の生成数に達した場合、次世代小集団の生成終了と判定する。一方、各世代に設定される次世代小集団の生成数に達しておらず、終了判定がされなければ、次世代生成部２１は、パラメータ設定部２１１により設定されたパラメータを用いて次世代小集団の生成を繰り返す。

最適化部３は、次世代小集団の評価結果に基づいて次世代小集団の生成を学習し、この学習結果に基づいて次世代小集団の生成に用いられるパラメータを選択するものである。例えば、最適化部３は、深層強化学習、Ｑ学習、または多腕バンディット等の強化学習を行う。また、最適化部３は、図２に示すように制御評価部３１、評価値記憶部３２および選択部３３を備える。

制御評価部３１は、次世代生成部２１に設定されるパラメータと次世代生成部２１から取得した次世代小集団の評価情報とを用いて次世代小集団の生成を学習し、この学習結果に基づいて次世代小集団の生成に関する制御評価値を算出する。制御評価部３１が算出した制御評価値は、評価値記憶部３２に記憶される。また、制御評価部３１は、図２に示すように、制御学習部３１１および報酬生成部３１２を備える。

制御学習部３１１は、報酬とパラメータとを用いて次世代小集団の生成を強化学習するものである。例えば、制御学習部３１１が多腕バンディットを実行し、複数の選択肢の中から、対象問題の解として最適な次世代小集団を生成可能と予想されるパラメータの選択肢についての価値を算出する。選択肢の価値は、次世代小集団の生成に関する制御評価値として評価値記憶部３２に記憶される。

例えば、制御学習部３１１は、下記式（１）に従って、ｉ番目の選択肢（以下、選択肢ｉと記載する。）の価値を算出する。選択肢ｉの直近の報酬は、報酬生成部３１２が次世代小集団の評価値に基づき生成した報酬である。選択肢ｉの直近の観測回数は、前世代までに選択肢ｉに関するパラメータが観測された回数である。ＳＵＭ（）は（）内の和を求める演算子である。
選択肢ｉの価値＝（０．５＋ＳＵＭ（選択肢ｉの直近の報酬））／（ＳＵＭ（選択肢ｉの直近の観測回数）＋１）（１）

報酬生成部３１２は、評価情報に基づいて次世代小集団の評価に対する報酬を算出するものである。報酬は、例えば、次世代小集団の生成の学習進捗である。ここで、学習進捗は、最適な次世代小集団の生成に関する学習の進捗を表す数値であり、例えば、次世代小集団の適応度である。なお、報酬は、学習進捗の値そのものであってもよいし、世代交代前後の学習進捗の差分による評価値であってもよいし、世代交代前後の学習進捗の大小関係による評価値であってもよい。これらの報酬を用いることで、パラメータ最適化装置１は、進化的アルゴリズムのパラメータ選択の最適性を高めることができる。

例えば、報酬生成部３１２は、下記式（２）に示すように、選択肢ｉの直近Ｎ回の評価値（適応度）を平均した値よりも、評価部２１４から取得した選択肢ｉによる次世代小集団の評価値が大きい場合に、報酬＝１とする。これ以外であれば、報酬＝０とする。報酬生成部３１２が生成した報酬は、制御学習部３１１に出力される。
平均（選択肢ｉの直近Ｎ回の評価）＜選択肢ｉによる次世代小集団の評価（２）

評価値記憶部３２は、制御評価部３１が算出した制御評価値を記憶する記憶部である。なお、評価値記憶部３２は、選択部３３および制御学習部３１１がアクセス可能なものであればよく、パラメータ最適化装置１の外部に設けられてもよい。

選択部３３は、次世代小集団の生成に関する制御内容（以下、「行動」と記載する。）として、進化的アルゴリズム部２に設定するパラメータを選択するものである。
パラメータの選択には、例えば、ｓｏｆｔｍａｘ関数、ε－ｇｒｅｅｄｙ法、ＵＣＢ１アルゴリズム、ＵＣＢ１－ｔｕｎｅｄ、ＰＭ、あるいはＡＰ等の各種方策が用いられる。

選択部３３は、評価値記憶部３２に記憶される制御評価値（選択肢の価値）に基づいて、次世代小集団の生成に用いられるパラメータを選択する。例えば、選択部３３は、制御評価値である選択肢の価値を、下記式（３）に従って正規化する。下記式（３）は、正規化された価値が合計で１になるようにしたものである。
次に、選択部３３は、正規化された価値が示す選択肢から、行動に関するパラメータに関する選択肢を、下記式（４）に従って選択する。
正規化された価値＝選択肢の価値／ＳＵＭ（選択肢の価値）（３）
行動＝任意の方策（正規化された価値）（４）

次に、実施の形態１に係るパラメータ最適化方法について説明する。
実施の形態１に係るパラメータ最適化方法には、進化的アルゴリズムステップ、および最適化ステップが含まれる。進化的アルゴリズムステップでは、進化的アルゴリズム部２が、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である次世代小集団を、次世代小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した次世代小集団を評価する。最適化ステップでは、最適化部３が、次世代小集団の評価結果に基づいて次世代小集団の生成を学習し、この学習結果に基づいて次世代小集団の生成に用いられるパラメータを選択する。パラメータ最適化装置１が、この方法を実行することにより、進化的アルゴリズムのパラメータ選択の最適性の低下を抑えることができる。

図４は、実施の形態１に係るパラメータ最適化方法を示すフローチャートであり、上述したパラメータ最適化方法の詳細な流れを示している。図４におけるステップＳＴ１からステップＳＴ６までの処理のうち、ステップＳＴ４－１およびステップＳＴ４－２を除く一連の処理が、進化的アルゴリズムステップである。さらに、ステップＳＴ４－１およびステップＳＴ４－２が、最適化ステップである。

まず、次世代小集団生成部２１２は、初期集団として、ランダムに次世代小集団を生成する（ステップＳＴ１）。また、パラメータ設定部２１１は、最適化部３により選択されたパラメータを、次世代小集団生成部２１２に設定する（ステップＳＴ２）。
次世代小集団生成部２１２は、パラメータ設定部２１１により設定されたパラメータを用いて、初期集団に基づき、新たな次世代小集団を生成する（ステップＳＴ３）。

評価部２１４は、次世代小集団生成部２１２により生成された次世代小集団を評価し、評価情報を最適化部３に出力する（ステップＳＴ４）。
報酬生成部３１２は、評価部２１４から取得した評価情報を用いて、次世代小集団の評価に対する報酬を算出する。制御学習部３１１は、報酬およびパラメータを用いて学習を評価する（ステップＳＴ４－１）。
選択部３３は、制御学習部３１１が算出した制御評価値に基づいて、次世代生成部２１に設定するパラメータを選択する（ステップＳＴ４－２）。

ステップＳＴ２において、パラメータ設定部２１１は、最適化部３により選択されたパラメータを、次世代小集団生成部２１２に設定する。このようにしてステップＳＴ２からステップＳＴ４までの処理が繰り返し実行される。
生成終了判定部２１５は、次世代分の個体、すなわち、次世代小集団が規定数だけ生成されたか否かを判定する（ステップＳＴ５）。ここで、次世代小集団の生成数が規定数に満たない場合（ステップＳＴ５；ＮＯ）、ステップＳＴ２からステップＳＴ４までの一連の処理が実行される。

次世代小集団の生成数が規定の数に達した場合（ステップＳＴ５；ＹＥＳ）、世代交代終了判定部２２は、最終世代まで処理が完了したか否かを判定する（ステップＳＴ６）。最終世代まで処理が完了していない場合（ステップＳＴ６；ＮＯ）、進化的アルゴリズム部２は、世代交代を行って、ステップＳＴ２からステップＳＴ５までの一連の処理を実行する。また、最終世代まで処理が完了した場合（ステップＳＴ６；ＹＥＳ）、パラメータ最適化装置１は、図４の処理を終了する。

次に、最適化問題に対するパラメータ最適化装置１の有効性について説明する。
図５は、巡回セールスマン問題の一例を示す概要図である。図５に示す問題は、始点（ｓｔａｒｔ）から、１８都市を巡回して終点（ｇｏａｌ）に至るまでの最短経路を探索するものである。また、図６は、図５の問題に対する進化的アルゴリズムのパラメータに含まれる突然変異率の最適化のシミュレーション結果を示すグラフである。図６における結果は、パラメータ最適化装置１およびパラメータ最適化装置１００が、図５に示す問題の個体生成を１５００世代実施した場合に得られる結果である。

図６において、Ａｍａｘは、パラメータ最適化装置１による各世代の個体生成で得られた突然変異率の適応度の最大値である。Ａｍｉｎは、パラメータ最適化装置１による各世代の個体生成で得られた突然変異率の適応度の最小値である。Ａａｖｅは、パラメータ最適化装置１による各世代の個体生成で得られた突然変異率の適応度の最小値から最大値までの間に含まれる適応度の平均値である。

Ｂｍａｘは、パラメータ最適化装置１００による各世代の個体生成で得られた突然変異率の適応度の最大値である。Ｂｍｉｎは、パラメータ最適化装置１００による各世代の個体生成で得られた突然変異率の適応度の最小値である。Ｂａｖｅは、パラメータ最適化装置１００による各世代の個体生成で得られた突然変異率の適応度の最小値から最大値までの間に含まれる適応度の平均値である。

図６に示すように、Ａａｖｅは、５００世代程度で、Ｂａｖｅとの間に差分Δａｖｅが生じている。このように、パラメータ最適化装置１では、世代が比較的早い段階で適応度が向上している。また、Ａｍｉｎは、５００世代程度で、Ｂｍｉｎとの間に差分Δｍｉｎが生じている。しかしながら、パラメータ最適化装置１は、世代が比較的早い段階で適応度の最小値が低くなっている。これにより、シミュレーション結果全体をみると、パラメータ最適化装置１は、安定した学習を行えていることがわかる。

次に、パラメータ最適化装置１の機能を実現するハードウェア構成について説明する。
パラメータ最適化装置１が備える進化的アルゴリズム部２および最適化部３は、処理回路によって実現される。すなわち、パラメータ最適化装置１は、図４に示したステップＳＴ１からステップＳＴ６までの各処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよい。

図７Ａは、パラメータ最適化装置１の機能を実現するハードウェア構成を示すブロック図である。図７Ｂは、パラメータ最適化装置１の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。図７Ａおよび図７Ｂにおいて、入力インタフェース２００は、外部装置からパラメータ最適化装置１へ出力される、対象問題に関するデータを中継するインタフェースである。出力インタフェース２０１は、パラメータ最適化装置１から後段の外部装置へ出力される対象問題の最適解を中継するインタフェースである。

処理回路が、図７Ａに示す専用のハードウェアの処理回路２０２である場合、処理回路２０２は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）または、これらを組み合わせたものが該当する。パラメータ最適化装置１が備える、進化的アルゴリズム部２および最適化部３の機能を、別々の処理回路が実現してもよく、これらの機能をまとめて一つの処理回路が実現してもよい。

処理回路が図７Ｂに示すプロセッサ２０３である場合、パラメータ最適化装置１が備える、進化的アルゴリズム部２および最適化部３の機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせにより実現される。なお、ソフトウェアまたはファームウェアは、プログラムとして記述されてメモリ２０４に記憶される。

プロセッサ２０３は、メモリ２０４に記憶されたプログラムを読み出して実行することにより、パラメータ最適化装置１が備える、進化的アルゴリズム部２および最適化部３の機能を実現する。例えば、パラメータ最適化装置１は、プロセッサ２０３により実行されるときに、図４に示したステップＳＴ１からステップＳＴ６の処理が結果的に実行されるプログラムを記憶するためのメモリ２０４を備える。これらのプログラムは、進化的アルゴリズム部２および最適化部３が行う処理の手順または方法を、コンピュータに実行させる。メモリ２０４は、コンピュータを、進化的アルゴリズム部２および最適化部３として機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。

メモリ２０４は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ－ＥＰＲＯＭ）などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤなどが該当する。

パラメータ最適化装置１が備える、進化的アルゴリズム部２および最適化部３の機能の一部が専用のハードウェアで実現され、残りがソフトウェアまたはファームウェアで実現されてもよい。例えば、進化的アルゴリズム部２は、専用のハードウェアである処理回路２０２によってその機能が実現され、最適化部３は、プロセッサ２０３がメモリ２０４に記憶されたプログラムを読み出して実行することによりその機能が実現される。
このように、処理回路はハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって上記機能を実現することができる。

以上のように、実施の形態１に係るパラメータ最適化装置１は、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である次世代小集団を、次世代小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、次世代小集団を評価する進化的アルゴリズム部２と、次世代小集団の評価結果に基づいて次世代小集団の生成を学習し、学習結果に基づいて次世代小集団の生成に用いられるパラメータを選択する最適化部３とを備える。パラメータの選択とパラメータを用いて生成した次世代小集団の評価とを、次世代小集団の生成ごとに行い、次世代小集団の評価結果を小集団の生成過程にフィードバックする。これにより、世代ごとの環境の変動に対する適応性が向上するので、パラメータ最適化装置１は、進化的アルゴリズムのパラメータ選択の最適性を高めることができる。

実施の形態１に係るパラメータ最適化装置１において、進化的アルゴリズム部２は、最適化部３が選択したパラメータを用いて次世代小集団を生成する次世代小集団生成部２１２を備え、次世代小集団を評価し、評価結果を最適化部３に出力する評価部２１４を備える。次世代小集団生成部２１２および評価部２１４による各処理は、世代ごとの終了条件を満足するまで繰り返し実行され、終了条件を満足すると世代交代する。
これにより、パラメータ最適化装置１は、進化的アルゴリズムのパラメータ選択の最適性を高めることができる。

実施の形態１に係るパラメータ最適化装置１において、最適化部３は、評価情報に基づいて次世代小集団の評価に対する報酬を算出する報酬生成部３１２と、報酬とパラメータとを用いて次世代小集団の生成を強化学習する制御学習部３１１と、次世代小集団を生成する行動として進化的アルゴリズム部２に設定するパラメータを選択する選択部３３と、を備える。これにより、パラメータ最適化装置１は、進化的アルゴリズムのパラメータ選択の最適性を高めることができる。

実施の形態１に係るパラメータ最適化装置１において、報酬は、次世代小集団の生成の学習進捗である。パラメータは、交叉率および突然変異率を含むパラメータ値、および、交叉演算子および突然変異演算子を含む演算子である。これにより、パラメータ最適化装置１は、進化的アルゴリズムのパラメータ選択の最適性を高めることができる。

実施の形態１に係るパラメータ最適化装置１において、学習進捗は、進化計算アルゴリズムにおける次世代小集団の適応度である。報酬は、学習進捗の値そのものであるか、世代交代前後の学習進捗の差分による評価値、または、世代交代前後の学習進捗の大小関係による評価値である。これにより、パラメータ最適化装置１は、進化的アルゴリズムのパラメータ選択の最適性を高めることができる。

実施の形態１に係るパラメータ最適化方法は、進化的アルゴリズム部２が、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である次世代小集団を、次世代小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した次世代小集団を評価するステップと、最適化部３が、次世代小集団の評価結果に基づいて次世代小集団の生成を学習し、学習結果に基づいて次世代小集団の生成に用いられるパラメータを選択するステップとを備える。パラメータ最適化装置１が、この方法を実行することにより、進化的アルゴリズムのパラメータ選択の最適性を高めることができる。

なお、実施の形態の任意の構成要素の変形もしくは実施の形態の任意の構成要素の省略が可能である。

本開示に係るパラメータ最適化装置は、例えば、様々な最適化問題に利用可能である。

１，１００パラメータ最適化装置、２，１０１進化的アルゴリズム部、３，１０２最適化部、２１次世代生成部、２２世代交代終了判定部、３１制御評価部、３２評価値記憶部、３３選択部、２１１パラメータ設定部、２１２次世代小集団生成部、２１３個体記憶部、２１４評価部、２１５生成終了判定部、３１１制御学習部、３１２報酬生成部、２１２１交叉部、２１２２点変異部、２１２３次世代小集団終了判定部。

Claims

対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、前記小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した前記小集団を評価する進化的アルゴリズム部と、
前記小集団の評価結果に基づいて学習し、学習結果に基づいて、前記進化的アルゴリズム部が前記小集団の生成に用いる前記パラメータを選択する最適化部と、を備えた
ことを特徴とするパラメータ最適化装置。
前記進化的アルゴリズム部は、
前記最適化部が選択した前記パラメータを用いて前記小集団を生成する生成部と、
前記小集団を評価し、評価結果を前記最適化部に出力する評価部と、を備え、
前記生成部および前記評価部による各処理は、世代ごとの終了条件を満たすまで繰り返し実行され、前記終了条件を満たすと世代交代する
ことを特徴とする請求項１に記載のパラメータ最適化装置。
前記最適化部は、
前記評価結果に基づいて前記小集団の評価に対する報酬を算出する報酬生成部と、
前記報酬と前記パラメータとを用いて前記小集団の生成を強化学習する制御学習部と、
前記小集団を生成する行動として前記進化的アルゴリズム部に設定する前記パラメータを選択する選択部とを備える
ことを特徴とする請求項２に記載のパラメータ最適化装置。
前記報酬は、前記小集団の生成の学習進捗であり、
前記パラメータは、交叉率および突然変異率を含むパラメータ値、および、交叉演算子および突然変異演算子を含む演算子である
ことを特徴とする請求項３に記載のパラメータ最適化装置。
前記学習進捗は、進化計算アルゴリズムにおける前記小集団の適応度であり、
前記報酬は、前記学習進捗の値、世代交代前後の前記学習進捗の差分による評価値、または、世代交代前後の前記学習進捗の大小関係による評価値である
ことを特徴とする請求項４に記載のパラメータ最適化装置。
パラメータ最適化装置によるパラメータ最適化方法であって、
進化的アルゴリズム部が、対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、前記小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した前記小集団を評価するステップと、
最適化部が、前記小集団の評価結果に基づいて学習し、学習結果に基づいて、前記進化的アルゴリズム部が前記小集団の生成に用いる前記パラメータを選択するステップと、を備えた
ことを特徴とするパラメータ最適化方法。
コンピュータに、
対象問題の世代ごとに設定された個体数よりも少ない数の次世代の個体群である小集団を、前記小集団の生成ごとに設定される、進化的アルゴリズムのパラメータを用いて生成し、生成した前記小集団を評価する処理と、
前記小集団の評価結果に基づいて学習し、学習結果に基づいて、前記小集団の生成に用いる前記パラメータを選択する処理とを実行させるためのプログラム。
第１世代に含まれる第１小集団の評価を利用して設定された、進化的アルゴリズムのパラメータである第１パラメータに基づいて、前記第１世代より後の世代である第２世代に含まれる第２小集団を生成する生成部と、
生成された、前記第２小集団を評価する評価部と、
前記第２小集団の評価を利用した学習結果に基づいて、前記第２世代に含まれる第３小集団の生成に利用する、前記進化的アルゴリズムのパラメータである第２パラメータを選択する選択部とを備えた
ことを特徴とする装置。
第１世代に含まれる第１小集団の評価を利用して設定された、進化的アルゴリズムのパラメータである第１パラメータに基づいて、前記第１世代より後の世代である第２世代に含まれる第２小集団を生成するステップと、
生成された、前記第２小集団を評価するステップと、
前記第２小集団の評価を利用した学習結果に基づいて、前記第２世代に含まれる第３小集団の生成に利用する、前記進化的アルゴリズムのパラメータである第２パラメータを選択するステップとを備えた
ことを特徴とする方法。
コンピュータに、
第１世代に含まれる第１小集団の評価を利用して設定された、進化的アルゴリズムのパラメータである第１パラメータに基づいて、前記第１世代より後の世代である第２世代に含まれる第２小集団を生成する処理と、
生成された、前記第２小集団を評価する処理と、
前記第２小集団の評価を利用した学習結果に基づいて、前記第２世代に含まれる第３小集団の生成に利用する、前記進化的アルゴリズムのパラメータである第２パラメータを選択する処理とを実行させるためのプログラム。