JP2021174078A

JP2021174078A - 最適化装置および最適化方法

Info

Publication number: JP2021174078A
Application number: JP2020075063A
Authority: JP
Inventors: 大佑萩原; Daisuke Hagiwara; 宣隆木村; Nobutaka Kimura; 泰樹矢野; Taiki Yano; 宏視荒; Hiromi Ara
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2021-11-01
Anticipated expiration: 2040-04-21
Also published as: JP7370924B2

Abstract

【課題】探索性能の悪化を招くような平坦な領域が評価関数に含まれる場合でも、効率的な探索を可能とするパラメータの最適化技術を提供する。【解決手段】パラメータの値の最適化を行う最適化装置であり、探索したいパラメータとその評価指標となる評価関数を受け取る入力部と、評価関数に基づいてパラメータの値の最適値を求める最適化計算部と最適値を出力する出力部と、を含む。最適化計算部は、評価するパラメータの値である探索点を探索点生成分布から生成する探索点生成部と、評価関数に基づいて探索点の評価値を計算する評価値計算部と、評価値に基づいて探索点生成分布を更新する分布形状更新部と、探索点生成分布を特徴づける量を時系列情報として保持する分布形状保持部と、時系列情報をもとに探索するパラメータを選択する探索パラメータ選択部と、所定の終了条件をもとに終了判定を行う終了判定部と、を有する。【選択図】図１

Description

本発明は、パラメータの最適化技術に関する。

近年、計算機の性能の向上に伴い、計算機によるパラメータ最適化の対象はますます拡大してきている。しかし、その評価指標（以下、評価関数）が複数のパラメータに複雑に依存するような場合、そのパラメータ最適化に依然膨大な時間を要することがしばしば課題となっている。特に、評価関数の具体的な関数形が分からないために、パラメータ値を決めたときの評価関数の値（以下、評価値）は求まるが、その微分値は求められない状況においては、あるパラメータ値の下での評価値を複数計算して、それらを直接比較する必要があり、毎回の評価値計算に要する時間が無視できない場合は、計算時間の長さは顕著となる。

そこで、評価するパラメータ値（以下、探索点）を毎回ランダムに生成するのではなく、前に計算した探索点の評価値を考慮して次の探索点を生成することで、効率的に最適パラメータを探索する最適化手法が広く用いられている。例えば、分布予測型アルゴリズムとして知られる最適化手法群では、評価値の情報から明示的に構成される確率分布（以下、探索点生成分布）に基づいて探索点を生成することで、探索の効率化を図っている。

しかし、そのような最適化手法の課題の一つとして、評価関数があるパラメータの変化に対してほとんど変化しないような平坦な領域を持つ場合に、探索性能が悪化することが挙げられる。

非特許文献１では、多変量正規分布からの探索点生成とその評価値に基づく分布の中心位置と共分散行列の更新を繰り返して最適パラメータを探索するCMA-ES（共分散行列適応進化戦略：Covariance Matrix Adaptation Evolution Strategy）と呼ばれる分布予測型アルゴリズムにおいて、悪条件な評価関数に対する探索性能の悪化を軽減するために、探索の対象となるパラメータを毎回ランダムに選択した少数のパラメータに制限することを提案している。ここで、悪条件関数とは、多変数関数でその曲がり具合いが方向によって大きく異なるものを指し、平坦な領域を持つ関数は悪条件関数に含まれる。また、特許文献１では、過去の探索点とその評価値に基づいて学習ベースで構成される判定器を導入して、各探索点に対して評価値計算を行うかどうかを判定することで、無駄な評価値計算を省き、計算時間を削減することを提案している。

特開２０１９−１９２１６０号公報

清水洸希、小宮山純平、豊田正史、"高次元悪条件最適化問題のための確率的次元選択CMA-ES"、DEIM Forum 2019 A4-3

非特許文献１で提案されている手法では、探索の対象となるパラメータの選択がランダムであるため、個々の悪条件の特徴に応じた探索パラメータの選択ができない。特に、悪条件でない評価関数に対しては、従来のCMA-ESと比べて探索性能が悪化してしまうことが、非特許文献１内で指摘されている。

特許文献１では、判定器を学習ベースで構築することを想定している。そのため、探索性能の悪化を招くような（平坦性を含む）様々な原因に対応することが、原理的には可能である。しかし、学習のために保持すべきデータ量や学習コストが大きいことが課題として挙げられる。

本発明は以上の問題を鑑みてなされたものであり、悪条件性の中でも特に平坦性に起因する探索性能の悪化を回避して、効率的な探索を実現する手法を提供することを目的とする。

本発明の好ましい一側面は、パラメータの値の最適化を行う最適化装置である。この装置は、探索したいパラメータとその評価指標となる評価関数を受け取る入力部と、前記評価関数に基づいて前記パラメータの値の最適値を求める最適化計算部と、前記最適値を出力する出力部と、を含む。前記最適化計算部は、評価するパラメータの値である探索点を探索点生成分布から生成する探索点生成部と、前記評価関数に基づいて前記探索点の評価値を計算する評価値計算部と、前記評価値に基づいて前記探索点生成分布を更新する分布形状更新部と、前記探索点生成分布を特徴づける量を時系列情報として保持する分布形状保持部と、前記時系列情報をもとに探索するパラメータを選択する探索パラメータ選択部と、所定の終了条件をもとに終了判定を行う終了判定部と、を有する。

本発明の好ましい他の一側面は、入力装置、出力装置、プロセッサおよび記憶装置を備える情報処理装置で実行され、パラメータの値の最適化を行う最適化方法である。この方法は、探索したいパラメータとその評価指標となる評価関数を受け取る第１のステップと、探索するパラメータの値である探索点を探索点生成分布から生成する第２のステップと、前記評価関数に基づいて前記探索点の評価値を計算する第３のステップと、前記評価値に基づいて前記探索点生成分布を更新する第４のステップと、前記探索点生成分布を特徴づける量を時系列情報として保持する第５のステップと、前記時系列情報をもとに探索するパラメータを選択する第６のステップと、
を実行する。

本発明によれば、探索性能の悪化を招くような平坦な領域が評価関数に含まれる場合でも、効率的な探索を可能とする。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

実施例の最適化装置の機能構成例を示すブロック図である。実施例の最適化装置のハードウェア構成例を示すブロック図である。実施例の最適化装置の処理の例を示すフローチャートである。分布予測型アルゴリズムの処理の例を示す説明図である。平坦性に起因する冗長な計算の例を示す説明図である。実施例の最適化装置の探索パラメータ選択の処理の例を示す説明図である。探索パラメータ選択部の詳細な処理の例を示すフローチャートである。パラメータ間に相関がある場合の処理の例を示す説明図である。評価関数の平坦性が局所的な場合の例を示す図である。実施例の最適化装置の特徴的な応答の例を示す説明図である。実施例２における探索進捗度合いを表示する出力装置の例を示す斜視図である。

以下、本発明の実施形態を、図面を用いて説明する。なお、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。

以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。

同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。

本明細書等における「第１」、「第２」、「第３」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。

本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。

本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。

以下で詳細に説明される実施例の代表的な構成の一つとして以下を採用する。この例は、探索したいパラメータとその評価関数、及びそのパラメータの初期値やハイパーパラメータの値を入力として、評価値を最大にするパラメータ値を出力する最適化装置である。この装置では、ある探索点生成分布から探索点を生成する探索点生成部と、その探索点の評価値を計算する評価値計算部と、その評価値に基づいて探索点生成分布を更新する分布形状更新部と、その分布を特徴づける量（例えば分散値である）を保持する分布形状保持部と、その分布形状の情報に基づいて各パラメータに対して探索を行うかどうかを選択する探索パラメータ選択部と、探索の終了判定を行う終了判定部とを、含む。さらに、前記探索パラメータ選択部は、その選択処理によって探索パラメータ数に変化が生じた場合、最適化手法のハイパーパラメータの中で探索パラメータ数に依存するものを適切な値に更新する処理も行う。

以上の構成によれば、分布形状保持部に蓄積された探索点生成分布の形状の時系列情報を参照して、評価関数の形状を推測することが可能となり、探索パラメータ選択部でその推測結果に応じた探索パラメータの選択を行うことが可能である。

本実施例は、例えば物体認識における特徴点抽出のしきい値を最適化する場合に使用できる。例えば、物流現場等で用いられるピッキングロボットが、多様な物品の位置や姿勢の認識に対応するためには、しきい値等のパラメータの最適化処理を行うことが有効である。本実施例を採用することにより、パラメータの最適化処理を効率化しつつ、認識の精度や速度の向上が期待できる。

図１は、本実施形態の機能構成例を示すブロック図である。図１に示すように、本実施形態の最適化装置１は、最適化対象の評価指標となる評価関数とその評価関数が依存するパラメータ、及びそのパラメータの初期値やハイパーパラメータの値を登録する入力部１１と、その評価関数の値をできるだけ大きくするパラメータ値を後述するループ処理によって探索する最適化計算部１２と、その結果のパラメータ値を出力する出力部１３と、で構成されている。

さらに、最適化計算部１２は、探索点生成分布の形状を特徴づける量を保持する分布形状保持部１２１と、その情報に基づく探索パラメータの選択と探索パラメータ数に依存するハイパーパラメータの更新を行う探索パラメータ選択部１２２と、そこで選択されたパラメータについて探索点生成分布から探索点を生成する探索点生成部１２３と、その探索点での評価値を計算する評価値計算部１２４と、予め設定された評価値の目標値や評価値計算回数の最大値などから探索を終了するかどうかを判定する終了判定部１２５と、その判定で探索が終了しない場合に探索点とその評価値に基づいて探索点生成分布を更新してその形状を特徴づける量を分布形状保持部１２１に保存する分布形状更新部１２６と、で構成されている。

ここで（及び、以下では）、探索点の生成を明示的な確率分布から行う最適化手法の例で説明しているが、探索点の生成方法が確率分布からのサンプリングに帰着できる場合は本実施形態に含めることができる。上記の最適化計算部１２の構成では、終了判定部１２５の終了条件を満たすまでループ処理が続き、ループ処理ごとに分布形状保持部１２１に探索点生成分布を特徴づける量が時系列的に蓄積されていく。そのため、探索パラメータ選択部１２２では、探索パラメータを選択する際の判定基準として探索点生成分布の形状の時系列情報を活用することができる。ただし、後述するように、探索パラメータ選択部１２２で用いないデータは破棄してもよい。また、各ループでのすべての探索点と評価値を保持するのではなく、それらから抽出した分布形状を特徴づける比較的少数の量を保持するだけで済むため、メモリ効率が比較的良いということは、本実施形態の特徴の一つとして挙げられる。

分布形状更新部１２６における探索点生成分布の更新方法は、不偏性を有すること以外は要請しない。ここで、分布更新における不偏性とは、探索点とその評価値に相関がない（例えば、一様、ランダムなど）場合に、更新に伴う分布の変動が平均するとゼロになるような、分布更新の性質を指す。不偏性がない場合は、求まる最適パラメータの値が、探索パラメータの初期値設定などに影響を受けるため、目的にもよるが、一般的には好ましくない。

ここで、本実施形態を実行した結果として分布形状保持部１２１に蓄積されている情報を、最適化計算終了後も保持しておくことで、次のような効果が得られる。つまり、実行済みの最適化計算と類似した最適化計算を実行したい場合、入力部１１で探索したいパラメータやその初期値、ハイパーパラメータの値を設定する際に、前述の分布形状保持部１２１に保持されている情報を活用することができる。例えば、後述するように分布形状保持部１２１の情報から評価関数の平坦な領域の存在とその範囲を推測することができるため、それに対応する探索する重要度の低いパラメータを事前に除去することやその定義域を制限することが可能である。
ここまで本実施例では、入力部１１で登録するパラメータの初期値やハイパーパラメータの値を外部から直接指定すること想定しているが、それらを内部処理で決定しても構わない。例えば、事前知識が何もない場合にパラメータの初期値を定義域からランダムに選択することが考えられる。

図２は、図１の機能構成例を実現するためのハードウェア構成例を示している。本実施形態の最適化装置１は、例えば、プロセッサ１０１、メモリ１０２、補助記憶装置１０３、入力装置１０４、出力装置１０５、及び通信IF（Interface）１０６を有し、それらがバス等の内部通信線１０７によって接続された計算機によって構成される。

プロセッサ１０１は、メモリ１０２に格納されたプログラムを実行して、最適化計算部１２の分布形状保持部１２１以外の機能を実現する。分布形状保持部１２１は、主にメモリ１０２で実現される。ただし、保持すべきデータ量が大きい場合や、得られたデータを他の類似最適化計算時に利用したい場合は、補助記憶装置１０３もその役割を担うことになる。メモリ１０２は、例えば、変更する必要のないプログラムを格納するための不揮発性の記憶素子（例えば、ROM（Read Only Memory））と、実行するプログラム及びプログラム実行時に使用するデータを一時的に格納するための揮発性の記憶素子（例えば、RAM（Random Access Memory））と、で構成される。一方、補助記憶装置１０３は、例えば磁気記憶装置（HDD（Hard Disk Drive））のような不揮発性で大容量な記憶装置を含み、プロセッサ１０１が実行するプログラム及びプログラム実行時に使用されるデータを格納する。以上の要素により、最適化プログラムは、例えば、まず補助記憶装置１０３から読みだされて、メモリ１０２にロードされて、プロセッサ１０１によって実行されることになる。

入力装置１０４は、キーボードやマウスのような、オペレータからの入力を受け付ける装置であり、最適化装置の入力部１１への入力操作などを可能とする。出力装置１０５は、ディスプレイやプリンタのような、プログラムの実行結果（例えば、出力部１３の出力）をオペレータが認識可能な形式で出力する装置である。通信IF１０６は、本最適化装置と他の装置との通信を制御するネットワークインターフェース装置である。

以上のように、本実施例では計算や制御等の機能は、メモリ１０２や補助記憶装置１０３に格納されたプログラムがプロセッサ１０１によって実行されることで、定められた処理を他のハードウェアと協働して実現される。計算機などが実行するプログラム、その機能、あるいはその機能を実現する手段を、「機能」、「手段」、「部」、「ユニット」、「モジュール」等と呼ぶ場合がある。図１に示した探索パラメータ選択部１２２、探索点生成部１２３、評価値計算部１２４、終了判定部１２５、分布形状更新部１２６は、それぞれが実現する機能を実行するためのプログラムがメモリ１０２や補助記憶装置１０３に格納されているものとする。なお、プログラムで構成した機能と同等の機能は、FPGA（Field Programmable Gate Array）、ASIC（Application Specific Integrated Circuit）などのハードウェアでも実現できる。

以上の構成は、単体のコンピュータで構成してもよいし、あるいは、プロセッサ１０１、メモリ１０２、補助記憶装置１０３、入力装置１０４、出力装置１０５、及び通信IF１０６の任意の部分が、ネットワークで接続された他のコンピュータで構成されてもよい。

図３は、本実施形態の最適化計算部１２で行われる処理の一例を示すフローチャートである。本実施形態の最適化計算では、CMA-ESを一部応用している。CMA-ESは進化計算（Evolutionary Computation）の一つであり、対象とする問題の解を擬似的に生物個体とみなし，その集団（個体群）を用いて解探索を行う多点探索法である。よく知られるように、CMA-ESでは、次世代の個体群を正規分布に基づく突然変異によって生成し，その正規分布の共分散行列がCovariance matrix adaptationと呼ばれるメカニズムで更新されていく。

図３に示す処理のうち、探索点生成のステップＳ３０、評価値計算のステップＳ４０、終了判定のステップＳ５０、ステップＳ６０のうち探索点生成分布の更新については、従来のCMA-ESの技術を適用してよい。なお、本実施例ではCMA-ESを利用しているが、CMA-ESに代えて、実数値遺伝アルゴリズムやES（Evolution Strategy, ES）アルゴリズム等の概念を含む、各種の分布予測型アルゴリズムを利用してもよい。

図３のフローチャートに従って、その処理の流れを説明する。前述のように、最適化計算部１２はループ処理を行うため、ｋループ目に入った時点からの処理を説明する。以下では、説明のために、探索したいパラメータをｄ次元ベクトルｘ＝（ｘ_１，…，ｘ_ｄ）で表す。ｄはパラメータ数を表す自然数で、各パラメータはそれぞれ連続値もしく離散値をとる。また、評価関数をＦ（ｘ）、探索点生成分布をＰ（Ｓ^（ｋ））で表す。ここでＳ^（ｋ）は分布形状を特徴づける量の集合で、その要素数は任意である。

まず、ステップＳ１０で、探索パラメータ選択部１２２は、探索パラメータの選択を行う。その選択基準として、分布形状保持部１２１に蓄積されている情報を用いる。分布形状保持部１２１に蓄積されている情報とは、過去分を含めたＳ^（ｋ）の履歴である。ここで、ループ数ｋが小さいために、分布形状保持部１２１にデータが蓄積されていない、もしくは不十分な場合は、ステップＳ４０に移る。分布形状保持部１２１に十分なデータが存在する場合は、探索を行うパラメータの選択を行う。探索を行うパラメータのインデックス集合をＩ^（ｋ）、探索を行わないパラメータのインデックス集合をＪ^（ｋ）とする。

次のステップＳ２０では、探索パラメータ選択部１２２は、探索パラメータの数が前回のループ処理（ｋ−１ループ目）のときから変化したかどうかをまず判断する。｜Ｉ^（ｋ）|＝｜Ｉ^{（ｋ−１）}｜の場合は、何もせずにステップＳ３０に移る。｜Ｉ^（ｋ）|≠｜Ｉ^{（ｋ−１）}｜の場合は、ステップＳ２１に移り、探索パラメータ選択部１２２は、ハイパーパラメータの更新を行う。

例えば、CMA-ESの場合、後述のステップＳ３０において生成される探索点数やステップＳ６０の分布更新時の学習率などは、探索パラメータ数に応じて探索が効率的になる推奨値が存在する。そのようなハイパーパラメータを、探索パラメータ数に対応する値に変更した上でステップＳ３０に移る。

ハイパーパラメータの更新のために、探索パラメータ選択部１２２が参照可能なデータテーブルをメモリ１０２内に準備しておく。データテーブルの内容は、例えば探索パラメータの数や範囲に対応して、探索点数や分布更新時の学習率の推奨値を格納したものでよい。

ハイパーパラメータは更新せずに固定値とすることもでき、その場合はステップＳ２０とステップＳ２１は省略することができる。ただし、ここでのハイパーパラメータ更新処理により、探索性能のさらなる向上が期待できる。

ステップＳ３０では、探索点生成部１２３は、探索点生成を行う。探索点は下記の式（１）で表すことができる。

ここで、ｘ_ｉ；ｎ ^（ｋ）はｋループ目で生成されるｎ番目の探索点の第ｉ成分を表す。また、ｘ^＾ _ｉ；ｎ ^（ｋ）は探索を行わないパラメータに対する値である。平坦性への対応を考えている限りは、その値は重要ではない。なぜならば、平坦であるということは、その方向についてはパラメータの値を変えても評価関数の値は変わらないということであり、ｘ^＾ _ｉ；ｎ ^（ｋ）は評価関数の値に関係ないので、任意の値にとっても結果が変らないためである。例えばｘ^＾ _ｉ；ｎ ^（ｋ）の値としてＰの中心位置の対応する成分を採用することが考えられる。このように、式（１）によれば、Ｉ^（ｋ）に属する次元については、探索点生成分布Ｐ（Ｓ^（ｋ））から値を変えた探索点を選び、Ｊ^（ｋ）に属する次元については、任意の固定値にする。

続いてステップＳ４０で、評価値計算部１２４は、各探索点での評価値を計算する。つまり、Ｆ（ｘ_；ｎ ^（ｋ））をすべてのｎに関して求める。この評価値計算に時間を要することが、最適パラメータが求まるまでの計算時間が膨大になることの主な原因となる。ここで、ステップＳ１０で、選択されなかったパラメータのｉ成分は定数として扱われることになるので、計算時間が短縮される。

次のステップＳ５０では、終了判定部１２５は、探索の終了判定を行う。具体的な終了判定は目的に応じて設定することができる。例えば、ループ数ｋがある最大繰り返し数以上になったかどうかや評価値の最大値ｍａｘ（Ｆ（ｘ））がある目標値以上になったかどうか、などがある。終了条件を満たした場合はループ処理を抜けて、求まった最適パラメータ値ａｒｇｍａｘ（Ｆ（ｘ））を、出力部１３に渡す。一方、終了条件を満たさなかった場合は、ステップＳ６０に移る。

ステップＳ６０では、分布形状更新部１２６は、ｋループ目に生成された探索点とその評価値に基づいて探索点生成分布Ｐの更新を行う。これに伴いＳ^（ｋ）が更新され、更新後の値Ｓ^{（ｋ＋１）}の中で必要な要素を分布形状保持部１２１に保存した上で、ステップＳ１０に戻る。

以上のような本実施形態の処理の中で特筆すべき特徴として、分布形状保持部１２１に保存された分布形状の時系列情報を利用して、探索するパラメータの制限を行うことがあげられる。また、他の特徴として、パラメータの制限に伴いハイパーパラメータの更新を行うことが挙げられる。その振る舞いや効果をより具体的に説明するために、以下では、探索したいパラメータの数を２（つまり、ｄ＝２）、探索点生成分布Ｐを中心位置と共分散行列で特徴づけられる多変量正規分布とする。そして、関係する各量を下記の式（２）で表すことにする。

ここで、μ^（ｋ）はｋループ目のＰの中心位置、Ｃ^（ｋ）はｋループ目のＰの共分散行列である。

図４を用いて、まず本実施形態が主な対象としている分布予測型アルゴリズムにおける、探索パラメータ選択処理がない場合の典型的な探索点の生成・評価値計算と探索点生成分布の更新の様子を説明する。

図４の(a1)では、正規分布である探索点生成分布と、そこから生成された８個の探索点が記載されている。各探索点は、評価値が大きいものを白点、小さいもの黒点としている。その評価値に基づき変形された探索点生成分布が、(a1)の探索点と共に、(b1)に示されている。(b1)から分かるように、評価値が大きい探索点が生成されやすい分布になるように、探索点生成分布が変形されている。(a2)では、(b1)の探索点生成分布とそこから生成された８個の新たな探索点が示されている。先ほどのように、その評価値に基づいた分布の更新を行った結果が(b2)である。この流れから分かるように、できるだけ評価値が大きい探索点を生成するような分布へと徐々に探索点生成分布が変形されていくことが分かる。ここで、図４は簡単なイメージ図であり、実際のアルゴリズムでは、より洗練された更新方法を採用していることには注意すべきである。

図５を用いて、次に、上記のような最適化手法における、評価関数に平坦な領域が存在する場合の影響について説明する。図５では、(a)のようなｘ_１方向は上に凸だがｘ_２方向は平坦になっている評価関数を考えている。(b)のように、探索点生成分布から生成された５個の探索点に関して評価値計算を行う状況を考える。ここで、ｘ_２方向に関しては評価関数の値は変化しないため、評価関数は実質的に１変数関数とみなすことができる。実際(c)のように、全探索点のｘ_２の値を正規分布の中心位置の対応する成分の値μ_２ ^（ｋ）に射影して、評価値計算を行っても結果は変わらない。そして、各ループで生成する探索点数に探索パラメータ数に応じた推奨値があり、仮に探索パラメータ数２個・１個に対して探索点推奨個数がそれぞれ５個・３個とすると、(d)のように探索点を３個に制限することでより効率的な探索が可能となる。ここで、ｘ_２方向の分布の幅は、不偏性により、平均してみれば以降の計算で変化しないことには注意すべきである。

ここまでで、評価値を変えないパラメータがあって、評価関数に平坦な領域が存在する場合は、そのことを考慮することで効率的な探索ができることが分かるが、そのためには平坦な領域を探索途中に検知する必要がある。ここで、評価関数の平坦性を事前に調査することも考えられるが、後述のように一般的には現実的でない。本実施形態では、探索途中の平坦性の検知を実現することができる。

図６を用いて、探索途中の平坦性の検知を実現する様子を説明する。ｋ−ｒ＋１ループ目で、図６の(a)のような状況だとする。そして、ｒ回のループ処理の後に、(b)のようになったとする。今回の例では、分布形状保持部１２１にｒループ前までの正規分布のｘ_１とｘ_２方向の標準偏差が保存されているとする。ここで、不偏性のために、標準偏差の変動が小さい、もしくはある小さなしきい値以下の場合、評価関数は対応する方向に関して平坦、もしくはランダムであると判断できる。例えば、その判定条件は下記の式（３）で表現できる。

ここで、εはしきい値、ΔＳ_ｉ ^{（ｋ；ｒ）}はｉ方向標準偏差のｋ−ｒ＋１ループ目からｋループ目までの変動度合いを表す量である。後者は、例えば下記の式（４）のように定義できる。

ここで、Ｓ_ｉ ^（ｋ）はｋループ目でのｉ方向標準偏差を表す。上記の判定基準では、あるループで探索対象から外れたパラメータはそれ以降探索が行われないこととなるが、局所解に陥る危険性を考慮して、そのようなパラメータを再び探索するかどうかの判定を追加してもよい。例えば、その判定は下記の式（５）のように定義できる。

ここで、ｃは１より大きい定数である。この式は、探索対象の全パラメータに関して、対応する標準偏差の変動がある程度小さくなった場合に、探索から除外されているパラメータをすべて探索対象へと復帰させる処理を表している。このような判定の追加により、局所解に陥る危険性を軽減できるが、探索に要する時間が増加することには注意すべきである。

また、以上の変動量の指標や判定基準は上記に挙げたものに制限されるものではないことにも注意すべきである。加えて、上記のような判定基準に基づく探索パラメータ選択では、平坦でない領域での探索中は、一般的に分布に有意な変動が生じるため、選択処理がない場合の探索性能を保持できるということは重要な特徴として強調しておく。いずれにせよ、それ以上探索しても評価値の安定した向上が、他の方向と比べて期待できないような、パラメータを上記のような方法で判定することができる。そして、本実施形態では、そのような処理を、分布形状保持部１２１と探索パラメータ選択部１２２を用いることで実現できる。

図６の(c)の右側では、上記処理があってｘ_２方向をｋループ目以降探索しない場合を、左側は上記処理がない場合であり、不要なパラメータの除去により少ない評価点数でも同等の探索が行われている様子を示している。最後に、この例では、分布形状保持部１２１に保持する標準偏差をｒループ分としており、保持すべきデータ量を比較的少なく保つことが可能である。

図７は、図６で示した原理を実現するため、探索パラメータ選択部１２２が実行するステップＳ１０の詳細なフローを示す図である。実線矢印は処理の流れを、点線矢印はデータの流れを示す。ここで、ｉはパラメータのインデックスであり、初期値はｉ＝１である。ステップＳ１０では、分布形状保持部１２１に保存されている探索点生成分布の分布形状の時系列情報、例えば分布の分散値をもとに、分布形状の変化が閾値以上のパラメータの選択を行う。

ステップＳ１１で、探索パラメータ選択部１２２は、分布形状保持部１２１から所定のｒループ前までの正規分布の各方向の標準偏差の履歴、すなわち情報Ｓ^（ｋ）の履歴を読み込む。

ステップＳ１２で、探索パラメータ選択部１２２は、例えば式（４）を用いて、ｉ方向の分布の標準偏差の変動を計算することにより、分布形状の変化を測定する。

ステップＳ１３で、探索パラメータ選択部１２２は、例えば式（３）を用いて、標準偏差の変動が閾値より小さいパラメータを抽出し、当該パラメータは平坦性を有すると推定して検索対象から除外する。ここで、パラメータを検索対象から除外するとは、定数としてその後の処理を行うということである。この場合、パラメータが完全に平坦であれば、任意の定数を選択可能である。また、所定の範囲のみにおいて平坦性が推定される場合には、平坦性が推定される範囲で定数を選択すればよい。例えば、平坦な範囲は、探索点生成分布の幅程度(分布の中心から標準偏差の大きさの距離程度)と推定されるため、その範囲内の値から選択すればよい。分布の中心は常にその範囲内にあるため、実用的には中心値を選択すればよい。すなわち、探索パラメータ選択部１２２で選択されなかったパラメータは、探索点生成分布の中心値に対応する値に固定する。

ステップＳ１４で、探索パラメータ選択部１２２は、全てのパラメータについて処理を終えたかを判定する。例えば、ｉがパラメータの最大インデックス数に達したかどうかを判定して終了判定を行う。終了していなければ、ステップＳ１５で、次のパラメータの処理を行う。

全てのパラメータについて処理を終わっている場合には、探索パラメータ選択部１２２は、例えば式（５）を用いて、ステップＳ１６で探索対象の全パラメータあるいは所定割合のパラメータに関して、標準偏差の変動が閾値より小さいかどうかを判定する。判定の結果、標準偏差の変動が閾値より小さい場合、ステップＳ１７で、検索対象から除外した方向を再検索するかどうかの判定を行う。このとき、前述のように、除外したパラメータを全て復帰させてもよい。あるいは、除外したパラメータをオペレータに示し、オペレータが復帰させるパラメータを選択できるようにしてもよい。

なお、ステップＳ１６とステップ１７が省略可能であることは、既に述べたとおりである。

図６の説明では、２つのパラメータが独立な場合を想定して説明をしているが、互いに相関がある場合は、共分散行列の対角化を行いその固有値に注目することで、より適切に評価関数の平坦な領域を検知できる。

図８を用いて説明する。図８では、図５の(b)のような評価関数を左に４５度傾けたものを考えており、直線ｘ_１＝ｘ_２が平坦な方向になっている。そして、図８(a)の状態から探索が進み、図８(b)のような状態になったとする。前述のようにｘ_１とｘ_２方向の標準偏差（Ｃ^（ｋ）の対角成分の平方根）を考えると、どちらも変化しているため、探索対象から除かれることはない。しかし、４５度回転した座標系（ｙ_１，ｙ_２）でみると、平坦方向に対応するｙ_１方向の標準偏差に変化はない。つまり、相関のあるパラメータに対して平坦な領域をより細かく検知するためには、共分散行列の固有値の変動に着目する必要があることが分かる。

このような機能を実装するためには、探索点生成分布の形状を特徴づける量の中に２階の行列で表現される量がある場合、探索パラメータ選択部１２２が分布形状保持部１２１に保存する量を抽出するために、行列の対角化処理を行う機能を持てばよい。あるいは、分布形状保持部１２１に探索点生成分布の形状を特徴づける量を格納する際に、同様の処理を行ってもよい。

今の例では２次元の共分散行列を考えているが、より高次元の場合への拡張も可能である。ただし、上記の処理では行列の対角化が毎回のループ処理で必要となるため、対角化に要する時間とそれによる効率化の度合いを比較して、実際に採用するか否かは判断する必要がある。

評価関数の平坦な領域の検知を、本実施形態のように探索途中に行うのではなく、事前に調べておくことも考えられるが、評価関数の平坦性はパラメータの取る値の範囲によっても変わるため、平坦性を適切に把握するためには、各パラメータの全定義域にわたる網羅的な調査が必要となり、相応の計算コストを要する。

図９は、ある一つのパラメータに対して評価関数の平坦な領域が局所的に存在する場合の例を示す図である。この図が示すように、この評価関数は領域９１に関しては平坦だが、領域９２に関しては平坦ではないという判断になる。

図１０を用いて、最後に、本実施形態における最適化装置の特徴的な応答の様子について述べる。本実施形態では、これ以上探索する重要性の低いパラメータを検知するために、分布形状の時系列変化に着目しているが、その判断は分布更新の不偏性に依拠しているため、そこでは平坦性とランダム性の区別までは行っていない。ただし、ランダム性に関しても、その領域での探索を続けても評価値の有意な差を見いだせないという点では、平坦性と同様に探索を継続する重要度は低い。

本実施形態の入力部１１では、探索したいパラメータと共にそれらに依存する評価関数を与える必要がある。その評価関数の設計の際には、しばしば外部からの入力を必要とする。例えば、流体シミュレーションでは流体の粘性などのパラメータの値を与える必要がある。また、画像認識において、ある物体の認識率を最大にするパラメータを求めたい場合、その物体の情報に加えてその物体が映った画像を与える必要がある。そのような外部入力に人為的な変更を加えることを通じて、評価関数に平坦性、もしくはランダム性をもたらすことが可能である場合が多い。

例えば、上記の画像認識の例では、入力画像に大きなランダムノイズをのせることで、評価関数をランダムに、入力画像の色などの特徴量を一様化することで、評価関数を平坦にできる場合がある。このような処理を加えて設計した評価関数を用いて、本実施形態の最適化装置１に入力すると、どちらの場合も探索の不要性が検知され速やかに探索が終了する。これは、例えば勾配法のような最適化手法では、平坦な場合には同様の振る舞いだが、ランダムな場合には計算が安定せず探索も終わらないという、顕著な違いが生じる。つまり、このような応答特性は、本実施形態の特徴として特筆すべきものであると言える。その他の特徴的な応答として例えば、探索したいパラメータに評価関数とは全く無関係のパラメータを任意の数、追加しても、それらは不要であることが速やかに検知されるため、探索に要する時間がその追加数によらずほとんど一定であることが挙げられる。

本実施形態は、実施例の最適化装置を、ピッキングロボットの物体認識パラメータの最適化に適用するものである。ただし、本実施形態は、実施例の最適化装置の具体的なハードウェア上での効果の例を説明するものであって、その適用先を限定するものではないことには注意すべきである。

近年、人手不足に伴い、物流・製造現場での人手作業を代替する自律作業ロボットの需要が高まってきている。特に、目的の物体を把持して所定の場所に置く作業が可能なピッキングロボットは、様々な場面での活躍が期待されている。ここで、そのようなピッキングロボットが、物体を正しく把持するためには、その物体の位置、姿勢、及び種類を正確に認識できなければならない。しかし、多様な物品が扱われる、もしくは扱われる物品の入れ替わりが激しい現場での運用を考えると、高い認識率を保つためには、物体認識処理に関係するパラメータを、目的の物体が変わるたびに、その物体に合わせて調整する必要がある。本実施形態では、その物体ごとのパラメータ最適化を、実施例１の最適化装置が担う。すなわち、本実施形態は、最適化装置の出力部１３に出力される最適パラメータを用いた、ピッキングロボットの物体認識及び把持の機能を持つこと以外は、その構成は実施例１と同じである。以下では、この例における、最適化装置の入出力やその効果を具体的に説明する。

本実施形態のピッキングロボットの物体認識機能では、カメラで撮影されたある状況の画像（以下、シーン画像）の中に目的物体があるかどうか、そしてある場合はそれがどこにどのような姿勢で存在するかを、判断するものとする。一般に、その機能を実現するプログラムには、認識性能に影響を与えうるパラメータが複数存在する。例えば、予め取得した目的物体の特徴点とシーン画像の特徴点とのマッチングに基づく姿勢推定の場合、認識性能に影響を与えるパラメータとして、シーン画像からの特徴点取得に関するもの（例えば、特徴点とみなす輝度勾配の最小許容値）や、特徴点マッチングに関するもの（例えば、組とみなす距離の最大許容値）、などが考えられる。そのようなパラメータの最適化における評価関数は認識性能であり、具体的にはシーン画像に対する目的物体の認識率となる。ただし、目的に応じて、認識処理時間が短いほど値が大きくなるような項を加えてもよい。いずれにせよ複雑な認識処理を伴うため、評価関数の具体的な関数形は分からず、微分値の情報を利用することができない。そのため、今の場合、（本実施例が対象としているような）探索点生成分布を用いた最適パラメータ探索が有力な最適化手法となる。

最適化装置の入力部１１は、目的物体の情報（例えば、特徴点やその特徴量）、シーン画像群、物体認識処理に関係するパラメータとその初期値、及びハイパーパラメータの値を受け付ける。ここで、各パラメータを探索対象に含めるか否かの事前選定は一般に困難であり、全パラメータを初期パラメータとして入力部１１に登録しておくことが望ましい。ただし、その弊害として不要なパラメータが含まれ探索性能の悪化が起こり得る。最適化計算部１２では、認識性能を最大にするパラメータを探索するが、その評価値計算ではシーン画像群に対する認識を毎回実行する必要があり、一般に所要時間が長くなるため、探索の効率化の恩恵は大きい。出力部１３に出力された最適パラメータは、出力装置もしくは通信IFを介して、ピッキングロボットの制御装置に送られ、目的物品の正確な把持を実現する。なお、最適化装置１はピッキングロボットの制御装置の一部としてもよいし、別個独立の構成としてもよい。

上記のような適用例における、本実施例の効果は以下である。前述のように、本実施形態では入力パラメータとして不要なものを含み得る。さらに、複数のパラメータが複雑に依存しあっているため、評価関数が局所的な平坦領域を複数有する可能性も大いにある。しかし、本実施形態の最適化装置では、その探索パラメータ選択処理により、探索途中に探索の重要性の低いパラメータが検知され除かれるため、探索悪化の影響を低減できる。そのため、目的物体の把持に必要な教示を効率的に行うことができ、ピッキングロボットの多品種への対応を容易にする。

本実施形態は、実施例１での実施形態の構成において、出力部１３が、最適化計算終了時に得られる最適パラメータだけではなく、探索途中に得られる情報も受け取る機能を有し、その情報を出力装置を通じて外部にリアルタイムで表示することを特徴とする。実施例１での実施形態で示したように、各ループ処理ごとに、分布形状保持部１２１には探索途中の探索点生成分布の形状を特徴づける量が保存されていき、さらに探索パラメータ選択部１２２の処理により各パラメータが探索対象であるかどうかが選択される。本実施形態の出力部１３では、最適パラメータに加えて、それらの情報を探索途中に受け付けることができる。本実施形態における出力装置を実現するハードウェアは、受け付けた情報をオペレータが視覚的に認識できる形で常時表示できるものであれば制限はなく、例えばディスプレイが考えられる。

図１１は、本実施形態を実現するハードウェア構成例を示す図である。この例では、プロセッサ１０１やメモリ１０２や補助記憶装置１０３等の記憶装置が積まれた計算機と、最適化プログラムの実行などを指示する入力装置１０４であるキーボードと、出力装置１０５であるディスプレイ１１０１と、が描かれている。そして、この例では、ディスプレイ１１０１に表示される情報が、最適化計算中に刻々と変化していくことになる。具体的な構成としては、探索パラメータ選択部１２２で選択されたパラメータと選択されなかったパラメータが、ディスプレイ１１０１上に表示されている。

また、入力部における入力パラメータの選択、その定義域や初期値の設定、及びハイパーパラメータの設定のために、分布形状保持部１２１が保持する種々の情報を参照することが可能な構成を追加してもよい。

上記のような機能が追加されることで、実施例１の実施形態と比べて、例えば以下の利点が生まれる。

一つ目は、初期入力パラメータ数で見積もるよりも、より正確な探索の進捗度合いの見積もりが可能となることである。例えば、探索対象から外れたパラメータの数と種類が分かっているときと分かっていないときでは、あるループ処理における評価値計算の結果が同じ場合でも、前者の方が残りの探索がより早く終了するという判断を下すことができる。このようなより正確な見積もりは、目的に応じて、探索の早期終了に役立てることが可能である。例えば、評価関数の最大値が未知で、最大評価値が目標値に達したかどうかを探索終了判定に用いることができない場合に、追加の終了条件として全パラメータが探索対象から外れたかどうかを採用することができる。また、本利点により、探索パラメータ数に応じて最適化手法（例えば、探索点生成分布の更新方法）を変更することも可能性として考えられる。

二つ目は、探索点生成分布の形状を特徴づける量を表示することで、類似最適化計算を効率化できることである。前述のように、本実施形態の分布形状保持部１２１に蓄積されているデータは、評価関数の形状が類似することが予想されるような別の最適化計算において、入力パラメータの設計を支援することが可能である。特に、本実施形態のようなリアルタイム表示機能の形を採用することは、複数の類似最適化計算を並行して進めたい場合での迅速な入力パラメータ設計支援を可能とする。

以上の実施例で説明したように、ある分布からの探索点の生成とその評価値に基づく分布の更新、を繰り返して最適パラメータを探索する最適化手法において、分布更新に不偏性がある場合、評価関数の平坦な領域の存在が探索性能の悪化を招いてしまう。本実施例が提供する技術によれば、探索したいパラメータとその評価関数の登録を受け付けた後、ある分布に基づく探索点の生成とその評価値計算、その評価値に基づく分布の更新、を繰り返して、評価値ができるだけ大きくなるようなパラメータ値を出力する、最適化装置であって、分布形状の時系列情報を保持するデータベースを有しており、その情報を利用して各パラメータの探索を行うか否かの判断、及びそれに伴うハイパーパラメータの更新を行うことで、探索の効率化を実現することができる。

１最適化装置、１１入力部、１２最適化計算部、１３出力部、１０１プロセッサ、１０２メモリ、１０３補助記憶装置、１０４入力装置、１０５出力装置、１０６通信IF、１０７内部通信線、１２１分布形状保持部、１２２探索パラメータ選択部、１２３探索点生成部、１２４評価値計算部、１２５終了判定部、１２６分布形状更新部

Claims

パラメータの値の最適化を行う最適化装置であって、
探索したいパラメータとその評価指標となる評価関数を受け取る入力部と、
前記評価関数に基づいて前記パラメータの値の最適値を求める最適化計算部と、
前記最適値を出力する出力部と、
を含み、
前記最適化計算部は、
評価するパラメータの値である探索点を探索点生成分布から生成する探索点生成部と、
前記評価関数に基づいて前記探索点の評価値を計算する評価値計算部と、
前記評価値に基づいて前記探索点生成分布を更新する分布形状更新部と、
前記探索点生成分布を特徴づける量を時系列情報として保持する分布形状保持部と、
前記時系列情報をもとに探索するパラメータを選択する探索パラメータ選択部と、
所定の終了条件をもとに終了判定を行う終了判定部と、
を有する最適化装置。
請求項１に記載の最適化装置であって、
前記探索パラメータ選択部が、前記分布形状保持部に保存されている探索点生成分布の分布形状の時系列情報をもとに、前記分布形状の変化が閾値以上のパラメータの選択を行うことを特徴とする、最適化装置。
請求項１に記載の最適化装置であって、
前記分布形状更新部の更新方法が、前記評価値と前記探索点に相関がない前記評価関数に対して、分布形状の変化が平均的にはゼロになるという特徴を有する、最適化装置。
請求項１に記載の最適化装置であって、
前記最適化計算部は、前記パラメータの値の最適値をループ処理によって求め、
前記分布形状保持部が、各ループ処理で前記分布形状更新部により更新された探索点生成分布の形状を特徴づける量を時系列情報として保持していることを特徴とする、最適化装置。
請求項１に記載の最適化装置であって、

前記探索パラメータ選択部は、探索するパラメータの選択結果に基づいて、ハイパーパラメータの値を変更することを特徴とする、最適化装置。
請求項１に記載の最適化装置であって、
前記探索点生成分布を特徴づける量は、分散値であることを特徴とする、最適化装置。
請求項１に記載の最適化装置であって、
前記探索パラメータ選択部で選択されなかったパラメータは、前記探索点生成分布の中心値に対応する定数値に固定される、最適化装置。
請求項１に記載の最適化装置であって、
前記探索パラメータ選択部が、一度探索対象から外れたパラメータに対して、再度探索を再開するかどうかを判定する機能を含んでいる、最適化装置。
請求項１に記載の最適化装置であって、
前記探索点生成分布の形状を特徴づける量の中に２階の行列で表現される量があって、前記探索パラメータ選択部は、前記行列の対角化処理を行うことを特徴とする、最適化装置。
請求項１に記載の最適化装置を用いた最適化装置であって、
ピッキングロボットの物体認識機能の最適化装置として構成され、
前記入力部が受け取る情報の中に、目的物体の情報および目的物体が映っている画像群を含み、
前記出力部が、前記目的物体が画像に含まれているか否か、及び含まれている場合は物体の位置と姿勢、を認識できるような認識処理機能のパラメータ値を出力し、
前記パラメータが、ピッキングロボットによる目的物体の正確な認識や把持に利用されることを特徴とする、最適化装置。
請求項１に記載の最適化装置であって、
前記出力部が、探索の進捗度合いおよび評価関数形状を反映した探索途中の計算結果を受け付け、探索途中でもそれらの情報を視覚的に表示することが可能な出力装置を有する、最適化装置。
入力装置、出力装置、プロセッサおよび記憶装置を備える情報処理装置で実行され、パラメータの値の最適化を行う最適化方法であって、
探索したいパラメータとその評価指標となる評価関数を受け取る第１のステップと、
探索するパラメータの値である探索点を探索点生成分布から生成する第２のステップと、
前記評価関数に基づいて前記探索点の評価値を計算する第３のステップと、
前記評価値に基づいて前記探索点生成分布を更新する第４のステップと、
前記探索点生成分布を特徴づける量を時系列情報として保持する第５のステップと、
前記時系列情報をもとに探索するパラメータを選択する第６のステップと、
を実行する最適化方法。
前記第６のステップの後前記第２のステップに戻り、終了判定条件を満たすまでループ処理を繰り返す、
請求項１２記載の最適化方法。
前記第２のステップ、前記第３のステップ、および前記第４のステップは、分布予測型アルゴリズムに基づいて実行される、
請求項１２記載の最適化方法。
探索するパラメータの数に基づいてハイパーパラメータを更新する第７のステップを実行する、
請求項１２記載の最適化方法。