JP2023177389A

JP2023177389A - 計算プログラム、計算方法および情報処理装置

Info

Publication number: JP2023177389A
Application number: JP2022090013A
Authority: JP
Inventors: アミルハデルバシュ; Haderbache Amir; マチューパリジ; Matthew Parisi
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2023-12-14
Also published as: EP4287079A1; US20230394106A1

Abstract

【課題】組み合わせ最適化処理を行うソルバ装置のパラメータ値の調整を高速化する。【解決手段】コンピュータは、離散値をとる複数の変数を含む解ベクトルと複数の変数に対応する行および列をもつ係数行列とから算出される評価値に基づいて、解ベクトルの最適値を探索する組み合わせ最適化処理に対して、係数行列から特徴データを生成する。コンピュータは、アニーリング法によって組み合わせ最適化処理を行うソルバ装置の探索方法を制御するパラメータの複数の候補値のうち、１つの候補値を示すパラメータデータを生成する。コンピュータは、特徴データとパラメータデータとを、訓練済みの機械学習モデルに入力することで、１つの候補値に対応する評価値の予測を示す予測値を算出する。コンピュータは、パラメータデータの生成と予測値の算出とを繰り返すことで、ソルバ装置のパラメータに設定するパラメータ値を決定する。【選択図】図５

Description

本発明は計算プログラム、計算方法および情報処理装置に関する。

情報処理システムは、計算量の大きい組み合わせ最適化問題を高速に解きたいことがある。組み合わせ最適化問題の例として、巡回セールスマン問題やナップザック問題などがある。情報処理システムは、アニーリング法によって最適解を探索するソルバ装置を使用することがある。ソルバ装置は、量子アニーリングを実行する量子コンピュータであることがある。また、ソルバ装置は、電子回路を用いて量子アニーリングをシミュレートするシミュレーテッドアニーリングを実行する電子コンピュータであることがある。

ソルバ装置を使用する場合、情報処理システムは、組み合わせ最適化問題を二次制約なし二値最適化（ＱＵＢＯ：Quadratic Unconstrained Binary Optimization）行列を用いて表現することがある。ソルバ装置は、ＱＵＢＯ行列および解ベクトルから目的関数によって算出される評価値が改善するように（例えば、評価値が最小化または最大化するように）、解ベクトルの最適値を探索することがある。

なお、量子デバイスを用いて、パラメータ化標的ハミルトニアンによって規定される自由エネルギーの最小値を推定するサンプリング装置が提案されている。サンプリング装置は、確率的勾配降下法、最急降下法、ベイズ最適化、ランダム探索、局所探索などの複数の最適化プロトコルの中から選択される何れか１つの最適化プロトコルを実行する。

また、画像認識用のニューラルネットワークの機械学習を制御するハイパーパラメータの値を、複数の最適化アルゴリズムの中から選択される何れか１つの最適化アルゴリズムを用いて最適化する演算装置が提案されている。また、グラフニューラルネットワーク（ＧＮＮ：Graph Neural Network）を用いて入力データのカテゴリを判定するシステムが提案されている。また、訓練用のグラフデータを取得してグラフニューラルネットワークのパラメータ値を反復的に更新するシステムが提案されている。

米国特許出願公開第２０２１／０３３４６０６号明細書特開２０２０－１２３２７０号公報特開２０２１－１５２８９２号公報米国特許第１１２２７１９０号明細書

ソルバ装置は、解ベクトルの最適解を探索する探索方法を制御するためのパラメータをもつことがある。ソルバ装置は、設定されるパラメータ値が異なると、最適解に到達しないことがあり、異なる評価値をもつ解ベクトルを算出することがある。情報処理システムは、より良好な評価値を達成できるようにパラメータ値を調整したいことがある。しかし、パラメータ値を変えながらソルバ装置を反復的に呼び出すことは、長時間を要することがある。そこで、１つの側面では、本発明は、組み合わせ最適化処理を行うソルバ装置のパラメータ値の調整を高速化することを目的とする。

１つの態様では、コンピュータに以下の処理を実行させる計算プログラムが提供される。離散値をとる複数の変数を含む解ベクトルと複数の変数に対応する行および列をもつ係数行列とから算出される評価値に基づいて、解ベクトルの最適値を探索する組み合わせ最適化処理に対して、係数行列から特徴データを生成する。アニーリング法によって組み合わせ最適化処理を行うソルバ装置の探索方法を制御するパラメータの複数の候補値のうち、１つの候補値を示すパラメータデータを生成する。特徴データとパラメータデータとを、訓練済みの機械学習モデルに入力することで、１つの候補値に対応する評価値の予測を示す予測値を算出する。パラメータデータの生成と予測値の算出とを繰り返すことで、ソルバ装置のパラメータに設定するパラメータ値を決定する。

また、１つの態様では、コンピュータが実行する計算方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

１つの側面では、組み合わせ最適化処理を行うソルバ装置のパラメータ値の調整を高速化できる。

第１の実施の形態の情報処理装置を説明するための図である。第２の実施の形態の情報処理装置のハードウェア例を示す図である。ＱＵＢＯ行列とコスト関数の例を示す図である。パラメータ値に対するベイズ最適化の例を示す図である。パラメータ探索におけるデータフロー例を示す図である。グラフニューラルネットワークの構造例を示す図である。グラフ畳み込み演算の例を示す図である。訓練データテーブルの例を示す図である。ソルバパラメータ値の分布例を示すグラフである。コスト関数値と正規化コスト関数値の分布例を示すグラフである。コスト関数値の予測例を示すグラフである。情報処理装置の機能例を示すブロック図である。機械学習の手順例を示すフローチャートである。パラメータ探索の手順例を示すフローチャートである。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、ソルバ装置２０がもつパラメータ２１に設定するパラメータ値を決定するパラメータ探索を行う。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータ、古典コンピュータ、機械学習装置またはパラメータ探索装置と呼ばれてもよい。

ソルバ装置２０は、アニーリング法によって、組み合わせ最適化問題における解ベクトルの最適値を探索する組み合わせ最適化処理を行う。組み合わせ最適化問題の例として、巡回セールスマン問題やナップザック問題などがある。パラメータ２１は、ソルバ装置２０の探索方法を制御するパラメータである。ソルバ装置２０は、パラメータ２１に設定されるパラメータ値に応じた探索方法によって、解ベクトルの最適値を探索する。

ソルバ装置２０は、量子ビットを用いて量子アニーリングを実行する量子コンピュータでもよい。また、ソルバ装置２０は、電子回路を用いて量子アニーリングをシミュレートするシミュレーテッドアニーリングを実行する電子コンピュータでもよい。量子アニーリングは、量子ゆらぎを徐々に小さくすることで、解ベクトルの探索空間の中から、目的関数によって算出される評価値が最小化または最大化される最適解を探索する。目的関数は、コスト関数またはエネルギー関数と呼ばれることがある。量子アニーリングは、探索空間に複数の局所解が存在する組み合わせ最適化問題に好適である。

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

記憶部１１は、係数行列１４を記憶する。組み合わせ最適化処理は、解ベクトル１３と係数行列１４とから算出される評価値に基づいて、解ベクトル１３の最適値を探索する。組み合わせ最適化処理は、例えば、評価値が最小化または最大化されるような解ベクトル１３を探索する。解ベクトル１３は、離散値（例えば、０または１の二値）をそれぞれとる複数の変数を含む。係数行列１４は、それら複数の変数に対応する行および列をもつ。係数行列１４は、正方行列でもよく対称行列でもよい。解ベクトル１３をｘと表し、係数行列１４をＱと表すと、評価値はｘ^ｔ×Ｑ×ｘであってもよい。ｘ^ｔはｘの転置である。評価値が、コストまたはエネルギーと呼ばれてもよい。

係数行列１４は、組み合わせ最適化問題の定義から導出される。係数行列１４は、いわゆるＱＵＢＯ行列であってもよい。係数行列１４には、ゼロ要素と非ゼロ要素とが混在していることがある。係数行列１４は、コスト行列と制約行列とを含んでもよい。コスト行列は、複数の変数の間の制約を考慮しない組み合わせ最適化問題の本質を表す係数を含む。制約行列は、複数の変数の間の制約を表す係数を含む。制約行列が、ペナルティ行列と呼ばれてもよい。制約行列は、制約を満たさない解ベクトル１３から算出される評価値に対して、大きいペナルティを付加する。コスト行列と制約行列とは分離されていてもよい。また、係数行列１４は、コスト行列と制約行列とを加算した行列でもよい。

また、記憶部１１は、訓練済みの機械学習モデル１７を記憶する。後述するように、機械学習モデル１７は、特徴データ１５およびパラメータデータ１６から予測値１８を算出する。情報処理装置１０は、複数の係数行列と複数のパラメータ値と複数の評価値とを対応付けた訓練データを用いて、機械学習モデル１７を訓練してもよい。機械学習モデル１７は、ニューラルネットワークでもよいし、畳み込み演算を行う畳み込みニューラルネットワークでもよい。また、機械学習モデル１７は、グラフデータに対して畳み込み演算を行うグラフニューラルネットワーク（ＧＮＮ）でもよい。

処理部１２は、ある組み合わせ最適化問題を示す係数行列１４から、ソルバ装置２０のパラメータ２１に設定するパラメータ値を決定するパラメータ探索を行う。ソルバ装置２０は、パラメータ２１に設定されるパラメータ値によっては、解ベクトル１３の最適解に到達しないことがあり、異なる評価値をもつ解ベクトル１３を算出することがある。そこで、処理部１２は、良好な評価値が得られるパラメータ値を探索する。このとき、処理部１２は、ソルバ装置２０を実際に呼び出さなくてもよい。

処理部１２は、対象の組み合わせ最適化処理に対して、係数行列１４から特徴データ１５を生成する。特徴データ１５は、複数の変数に対応する複数のノードを含むグラフデータと、それら複数のノードに対応付けられる複数の特徴ベクトルとを含んでもよい。例えば、処理部１２は、係数行列１４のｉ行ｊ列が非ゼロ要素である場合、ノードｉとノードｊとの間にエッジを付与し、係数行列１４のｉ行ｊ列がゼロ要素である場合、ノードｉとノードｊとの間にエッジを付与しない。また、例えば、処理部１２は、係数行列１４のｉ行目またはｉ列目を、ノードｉに特徴ベクトルとして付与する。なお、係数行列１４が対称行列である場合、ｉ行目とｊ列目は同じ数値列を含む。

処理部１２は、パラメータ２１がとり得る複数の候補値のうち、選択された１つの候補値を示すパラメータデータ１６を生成する。パラメータデータ１６は、選択された候補値そのものでもよく、選択された候補値を変換した値でもよい。なお、ソルバ装置２０が、複数のパラメータをもっていてもよい。その場合、処理部１２は、パラメータ毎に１つの候補値を選択することで、パラメータセットに対応する候補値セットを生成する。

処理部１２は、特徴データ１５およびパラメータデータ１６を機械学習モデル１７に入力することで、予測値１８を算出する。予測値１８は、選択された候補値のもとで達成される評価値の予測を示す。達成される評価値は、ソルバ装置２０が組み合わせ最適化処理によって到達する解ベクトル１３に対応する評価値である。このとき、処理部１２は、評価値を算出するためにソルバ装置２０を実際に呼び出さなくてよい。

処理部１２は、選択する候補値を変えながらパラメータデータ１６の生成と予測値１８の算出とを繰り返すことで、パラメータ２１に設定するパラメータ値を決定する。例えば、処理部１２は、予測値１８が最小化または最大化されるパラメータ値を探索する。処理部１２は、決定したパラメータ値と係数行列１４とを用いてソルバ装置２０を呼び出すことで、ソルバ装置２０から解ベクトル１３の最適解を取得してもよい。また、処理部１２は、決定したパラメータ値を表示装置に表示してもよいし、不揮発性ストレージに保存してもよいし、他の情報処理装置に送信してもよい。

パラメータ値の決定では、処理部１２は、ベイズ最適化を実行してもよい。例えば、処理部１２は、試行済みの１以上の候補値と算出された１以上の予測値とから、回帰分析などの統計分析によって、未試行の候補値に対応する予測値の期待値および分散を推定する。処理部１２は、分散を考慮して、現時点よりも良好な予測値が算出される可能性のある候補値を、次に試行する候補値として選択する。処理部１２は、期待値および分散から９５％信頼区間の端点を算出し、算出した端点が最小または最大となる候補値を選択してもよい。良好な予測値が算出された試行済みの候補値の近傍にある候補値や、試行済みの候補値から離れた候補値が、次に選択されやすい。

以上説明したように、第１の実施の形態の情報処理装置１０は、解ベクトル１３と係数行列１４とから算出される評価値に基づいて解ベクトル１３の最適値を探索する組み合わせ最適化処理に対して、係数行列１４から特徴データ１５を生成する。情報処理装置１０は、ソルバ装置２０の探索方法を制御するパラメータ２１の複数の候補値のうち、１つの候補値を示すパラメータデータ１６を生成する。情報処理装置１０は、特徴データ１５とパラメータデータ１６とを機械学習モデル１７に入力することで、評価値の予測を示す予測値１８を算出する。情報処理装置１０は、パラメータデータ１６の生成と予測値１８の算出とを繰り返すことで、パラメータ２１に設定するパラメータ値を決定する。

これにより、情報処理装置１０は、ソルバ装置２０が解ベクトル１３の最適値に到達するようにパラメータ値を調整することができ、組み合わせ最適化処理の精度が向上する。また、ソルバ装置２０を繰り返し呼び出す場合と比べて、情報処理装置１０は、ソルバ装置２０のパラメータ値の調整を高速化することができる。

なお、特徴データ１５は、変数に対応するノードを含むグラフデータとノードに対応付けられる特徴ベクトルとを含んでもよく、機械学習モデル１７は、ノード間の接続関係に応じて特徴ベクトルの畳み込み演算を行うグラフ畳み込みモデルであってもよい。これにより、機械学習モデル１７は、変数のペアの関係を示す係数行列１４から適切な特徴量を抽出することができ、評価値の予測精度が向上する。

また、情報処理装置１０は、加算前のコスト行列と制約行列それぞれからグラフデータを生成してもよく、機械学習モデル１７は、２つのグラフデータそれぞれに対してグラフ畳み込み演算を行ってもよい。これにより、情報処理装置１０は、コスト行列に含まれる係数の分布と制約行列に含まれる係数の分布の間の傾向の違いを考慮して、コスト行列と制約行列から適切な特徴量を抽出することができ、評価値の予測精度が向上する。

また、情報処理装置１０は、試行済みの１以上の候補値と算出された１以上の予測値とから、ベイズ最適化によって最適なパラメータ値を決定してもよい。これにより、情報処理装置１０は、少ない試行回数で効率的に最適なパラメータ値を探索できる。また、情報処理装置１０は、複数の係数行列と複数のパラメータ値と複数の評価値とを対応付けた訓練データを用いて、機械学習モデル１７を訓練してもよい。これにより、予測精度の高い機械学習モデル１７を生成することができる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
第２の実施の形態の情報処理装置１００は、アニーリング法を実行するＱＵＢＯソルバ装置３０を呼び出すことでＱＵＢＯ問題の解を算出する。また、情報処理装置１００は、ＱＵＢＯソルバ装置３０がもつパラメータの最適値を探索するパラメータ探索を行う。また、情報処理装置１００は、パラメータ探索に用いられる機械学習モデルを訓練する機械学習を行う。ただし、機械学習、パラメータ探索およびＱＵＢＯ問題の求解が、異なる情報処理装置によって実行されてもよい。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００が、コンピュータ、古典コンピュータ、機械学習装置またはパラメータ探索装置と呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。ＱＵＢＯソルバ装置３０は、第１の実施の形態のソルバ装置２０に対応する。

図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。
情報処理装置１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１またはＧＰＵ１０４は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータをＲＡＭ１０２にロードし、プログラムを実行する。情報処理装置１００は、複数のプロセッサを有してもよい。

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

ＨＤＤ１０３は、オペレーティングシステム（ＯＳ：Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラムと、データとを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。情報処理装置１００に、プリンタなどの他の種類の出力デバイスが接続されてもよい。また、ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Unit）として使用されてもよい。ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムを実行する。情報処理装置１００は、ＲＡＭ１０２以外の揮発性半導体メモリをＧＰＵメモリとして有してもよい。

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。情報処理装置１００に複数の入力デバイスが接続されてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

通信インタフェース１０７は、ネットワーク１１４を介して他の情報処理装置やＱＵＢＯソルバ装置３０と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

ＱＵＢＯソルバ装置３０は、アニーリング法によって、組み合わせ最適化問題を示すＱＵＢＯ問題を解くコンピュータである。ＱＵＢＯソルバ装置３０は、量子アニーリングを実行する量子コンピュータでもよいし、電子回路を用いて量子アニーリングをシミュレートするシミュレーテッドアニーリングを実行する電子コンピュータでもよい。

ＱＵＢＯソルバ装置３０は、量子ビット群３１および制御部３２を有する。量子ビット群３１は、複数の量子ビットを含む。ただし、ＱＵＢＯソルバ装置３０は、電子回路を用いて量子ビットの挙動をシミュレートしてもよい。制御部３２は、情報処理装置１００から、ＱＵＢＯ問題を示すＱＵＢＯ行列と、最適解の探索方法を制御するパラメータ値とを含む要求メッセージを受信する。制御部３２は、パラメータ値に応じた探索方法に従って、量子ビット群３１を用いて、ＱＵＢＯ行列から最適解を示す解ベクトルを算出する。制御部３２は、コスト関数値が改善するように（例えば、コスト関数値が最小化または最大化するように）解ベクトルを算出する。制御部３２は、解ベクトルと、その解ベクトルに対応するコスト関数値とを情報処理装置１００に送信する。

図３は、ＱＵＢＯ行列とコスト関数の例を示す図である。
組み合わせ最適化問題は、ＱＵＢＯ行列４２によって表現される。コスト関数Ｅ（ｘ）は、数式（１）に示すように、最適化対象の解ベクトル４１と所与のＱＵＢＯ行列４２とからコスト関数値を算出する。解ベクトル４１は、複数の変数を含むベクトルである。各変数は、０または１の二値をとる。ＱＵＢＯ行列４２は、複数の変数に対応する行および列をもつ対称行列である。ＱＵＢＯ行列４２に含まれる各要素は実数である。数式（１）において、ｘは解ベクトルであり、ＱはＱＵＢＯ行列であり、ｘ_ｉはｉ番目の変数であり、ｑ_ｉｊはＱＵＢＯ行列の中のｉ行ｊ列の要素である。

コスト関数Ｅ（ｘ）は、目的関数、評価関数またはエネルギー関数と呼ばれることがある。コスト関数値は、評価値、コストまたはエネルギーと呼ばれることがある。ＱＵＢＯソルバ装置３０は、コスト関数値が最小または最大になる解ベクトル４１を探索する。

ＱＵＢＯ行列４２は、コスト行列４３と制約行列４４とを合成することで生成される。ＱＵＢＯ行列４２は、コスト行列４３に制約行列４４のα倍を加算したものである。αは、制約行列４４のコスト関数値への影響度を調整するためのＱＵＢＯ倍率である。

コスト行列４３は、制約以外の組み合わせ最適化問題の定義から導出される係数行列であり、変数のペアの間の関係を示す。制約行列４４は、複数の変数がとる値に対する制約条件を示す。制約行列４４は、ペナルティ行列と呼ばれることがある。制約行列４４は、制約条件を満たさない解ベクトル４１に対応するコスト関数値に、大きなペナルティを付与する。情報処理装置１００は、組み合わせ最適化問題の定義から、コスト行列４３と制約行列４４とを分けて生成することができる。

ここでは、組み合わせ最適化問題の一例として、二次ナップザック問題（ＱＫＰ：Quadratic Knapsack Problem）を説明する。この二次ナップザック問題は、数式（２）に示すコスト関数によって定義される。容量Ｃのナップザックに、複数の荷物のうちの一部の荷物が詰め込まれる。ｉ番目の荷物は、属性として価値ｖ_ｉと重さｗ_ｉをもつ。この二次ナップザック問題は、詰め込まれる荷物の重さの合計が容量Ｃを超えない範囲で、詰め込まれる荷物の価値の合計が最大になるように、ナップザックに詰め込む荷物を選択する。

数式（２）において、ｐ_ｉｊは、ｉ番目の荷物とｊ番目の荷物の両方が詰め込まれる場合の価値を示す。例えば、ｐ_ｉｊはｖ_ｉとｖ_ｊの和である。また、ｘ_ｉは、ｉ番目の荷物をナップザックに詰め込むか否かを示す変数であり、０または１の二値をとる。数式（２）の右辺第１項は、コスト行列４３に対応する。ｐ_ｉｊは、コスト行列４３のｉ行ｊ列の係数に相当する。数式（２）の右辺第２項は、制約行列４４に対応する。右辺第２項を展開することで、制約行列４４に含まれる係数が算出される。

ここで、ＱＵＢＯソルバ装置３０は、解ベクトル４１の最適解を探索する探索方法を制御するためのソルバパラメータを含む。ソルバパラメータの具体例については後述する。ＱＵＢＯソルバ装置３０は、ソルバパラメータのパラメータ値によっては、一定時間内に最適解に到達しないことがあり、異なるコスト関数値をもつ解ベクトル４１を探索結果として出力し得る。そこで、情報処理装置１００は、ベイズ最適化によって、コスト関数値が最小化または最大化するようなパラメータ値を探索する。なお、コスト関数値を最小化するか最大化するかは、組み合わせ最適化問題の定義から決まる。

図４は、パラメータ値に対するベイズ最適化の例を示す図である。
ベイズ最適化は、これまでに試行されたパラメータ値に対応するコスト関数値を、測定点としてパラメータ空間にプロットする。ベイズ最適化は、プロットされた測定点に基づいて、パラメータ空間におけるコスト関数値の分布を推定する。このとき、ベイズ最適化は、コスト関数値の期待値に加えて、推定誤差を示す分散も算出する。ベイズ最適化は、分散も考慮して、現時点の何れの測定点よりも良好なコスト関数値（例えば、小さなコスト関数値または大きなコスト関数値）が得られる可能性があるパラメータ値を選択する。

例えば、ベイズ最適化は、複数の測定点から、コスト関数値の期待値の分布を示す曲線５１を算出する。また、ベイズ最適化は、９５％信頼区間の上限を示す曲線５２や、９５％信頼区間の下限を示す曲線５３を算出する。測定点における分散は、ゼロであるか十分に小さい。測定点に近いパラメータ値における分散は、比較的小さい。一方、測定点から遠いパラメータ値における分散は、比較的大きい。よって、良好なコスト関数が得られた測定点の近傍にあるパラメータ値や、測定点から離れたパラメータ値が選択されやすい。

コスト関数値の最小化が目的である場合、ベイズ最適化は、例えば、９５％信頼区間の下限が最小であるパラメータ値を、次に試行するパラメータ値として選択する。コスト関数値の最大化が目的である場合、ベイズ最適化は、例えば、９５％信頼区間の上限が最大であるパラメータ値を、次に試行するパラメータ値として選択する。

このように、情報処理装置１００は、ベイズ最適化によってＱＵＢＯソルバ装置３０のパラメータ値を最適化することができる。ただし、あるパラメータ値に対応するコスト関数値を測定するために、ＱＵＢＯソルバ装置３０を実際に反復的に呼び出すと、パラメータ探索に長時間を要することがある。そこで、情報処理装置１００は、機械学習モデルを用いて、パラメータ値に対応するコスト関数値を予測する。

図５は、パラメータ探索におけるデータフロー例を示す図である。
情報処理装置１００は、ＱＵＢＯ問題１３１に対して好適なＱＵＢＯソルバ装置３０のパラメータ値を探索する。まず、情報処理装置１００は、グラフ生成器を用いて、ＱＵＢＯ問題１３１からコストグラフ１３２、コスト特徴データ１３３、制約グラフ１３４および制約特徴データ１３５を生成する。

コストグラフ１３２は、複数の変数に対応する複数ノードを含む無向グラフである。コストグラフ１３２は、ノード間のエッジとして、コスト行列４３に含まれる非ゼロ要素の分布に応じたエッジを含む。コストグラフ１３２は、コスト行列４３から生成される。コスト行列４３のｉ行ｊ列がゼロでない場合、コストグラフ１３２は、ノードｉとノードｊとを接続するエッジを含む。コスト行列４３のｉ行ｊ列がゼロである場合、コストグラフ１３２は、ノードｉとノードｊとを接続するエッジを含まない。

コスト特徴データ１３３は、コストグラフ１３２の複数のノードに対応付けられる複数の特徴ベクトルを含む。コスト特徴データ１３３は、コスト行列４３から生成される。ノードｉの特徴ベクトルは、コスト行列４３のｉ行目の要素を列挙したものである。よって、特徴ベクトルの次元数は、コスト行列４３の一辺の長さと同じであり、解ベクトル４１の次元数と同じである。ただし、コスト行列４３は対称行列であるため、ノードｉの特徴ベクトルは、コスト行列４３のｉ列目の要素を列挙したものと同じである。

制約グラフ１３４は、コストグラフ１３２と同様に、複数の変数に対応する複数ノードを含む無向グラフである。ただし、制約グラフ１３４は、ノード間のエッジとして、制約行列４４に含まれる非ゼロ要素の分布に応じたエッジを含む。制約グラフ１３４は、制約行列４４から生成される。制約行列４４のｉ行ｊ列がゼロでない場合、制約グラフ１３４は、ノードｉとノードｊとを接続するエッジを含む。制約行列４４のｉ行ｊ列がゼロである場合、制約グラフ１３４は、ノードｉとノードｊとを接続するエッジを含まない。

制約特徴データ１３５は、制約グラフ１３４の複数のノードに対応付けられる複数の特徴ベクトルを含む。制約特徴データ１３５は、制約行列４４から生成される。ノードｉの特徴ベクトルは、制約行列４４のｉ行目の要素を列挙したものである。よって、特徴ベクトルの次元数は、制約行列４４の一辺の長さと同じであり、解ベクトル４１の次元数と同じである。ただし、制約行列４４は対称行列であるため、ノードｉの特徴ベクトルは、制約行列４４のｉ列目の要素を列挙したものと同じである。

ここで、コスト行列４３と制約行列４４とでは、非ゼロ要素の分布の傾向が異なる。コスト行列４３は、比較的浅い負数（絶対値が比較的小さい負数）を多く含む。一方、制約行列４４は、正数と比較的深い負数（絶対値が比較的大きい負数）とを混在して含む。よって、コストグラフ１３２と制約グラフ１３４とを分離し、コスト特徴データ１３３と制約特徴データ１３５とを分離することで、機械学習モデルの予測精度が向上する。

情報処理装置１００は、次に試行するパラメータ値１３６を選択する。情報処理装置１００は、コストグラフ１３２、コスト特徴データ１３３、制約グラフ１３４、制約特徴データ１３５およびパラメータ値１３６を、訓練済みのグラフニューラルネットワークに入力する。グラフニューラルネットワークは、これらの入力データから正規化コスト関数値１３７を算出する。正規化コスト関数値１３７は、コスト関数値を０以上１以下の範囲に正規化したものである。グラフニューラルネットワークの訓練および予測が適切に行われるよう、グラフニューラルネットワークの出力は正規化されている。

情報処理装置１００は、スケール変換器を用いて、正規化コスト関数値１３７をコスト関数値１３８に変換する。例えば、情報処理装置１００は、０以上１以下の正規化コスト関数値１３７を、－２０００万以上０以下のコスト関数値１３８に変換する。スケール変換は、例えば、Ｍｉｎ－Ｍａｘ法による線形変換である。情報処理装置１００は、ベイズ最適化器を用いて、これまでに算出されたコスト関数値１３８に基づいて、次にグラフニューラルネットワークに入力するパラメータ値１３６を選択する。情報処理装置１００は、コスト関数値１３８を最小化または最大化するパラメータ値１３６が見つかったと判断した場合、すなわち、より良好なコスト関数値１３８が得られる可能性のあるパラメータ値１３６がないと判断した場合、ベイズ最適化を停止する。

グラフニューラルネットワークを用いたコスト関数値１３８の予測は、ＧＰＵ１０４を用いて実行することが可能である。ＱＵＢＯソルバ装置３０の呼び出しは、１回当たり数秒（例えば、３秒）程度を要することがある。一方、ＧＰＵ１０４を用いたコスト関数値１３８の予測は、１回当たり数十ミリ秒（例えば、４６ミリ秒）程度で実行され得る。よって、パラメータ探索の実行時間が短縮される。

図６は、グラフニューラルネットワークの構造例を示す図である。
グラフニューラルネットワークは、パラメータ値１３６に関して、全結合層１４０および活性化層１４１を含む。全結合層１４０は、１以上のパラメータ値を受け付ける。例えば、全結合層１４０は、ＱＵＢＯソルバ装置３０がもつ４つのソルバパラメータのパラメータ値を列挙した４次元ベクトルを受け付ける。全結合層１４０は、受け付けた１以上のパラメータ値をそれぞれ変換して特徴ベクトルを出力する。全結合層１４０の出力の次元数は、入力の次元数と同じでもよいし入力の次元数と異なってもよい。活性化層１４１は、全結合層１４０が出力する特徴ベクトルの各要素を活性化関数に通す。活性化関数は、例えば、ｔａｎｈまたはシグモイド関数である。例えば、活性化層１４１は、ソルバパラメータの個数に相当する次元数をもつ特徴ベクトルを出力する。

また、グラフニューラルネットワークは、コストグラフ１３２に関して、グラフ畳み込み層１４２－１，１４４－１などの複数のグラフ畳み込み層、活性化層１４３－１，１４５－１などの複数の活性化層および全結合層１４６－１を含む。複数のグラフ畳み込み層と複数の活性化層とは交互に配置される。

グラフ畳み込み層１４２－１は、コストグラフ１３２およびコスト特徴データ１３３を受け付ける。グラフ畳み込み層１４２－１は、コストグラフ１３２が示すノード間エッジに従って、コスト特徴データ１３３に含まれる各ノードの特徴ベクトルを更新するグラフ畳み込み演算を行う。グラフ畳み込み演算については後述する。更新後の特徴ベクトルの次元数は、更新前と同じでもよいし更新前と異なってもよい。活性化層１４３－１は、グラフ畳み込み層１４２－１が出力する特徴ベクトルの各要素を活性化関数に通す。

グラフ畳み込み層１４４－１は、コストグラフ１３２が示すノード間エッジに従って、前段の活性化層から受け付けた各ノードの特徴ベクトルを更新するグラフ畳み込み演算を行う。活性化層１４５－１は、グラフ畳み込み層１４４－１が出力する特徴ベクトルの各要素を活性化関数に通す。全結合層１４６－１は、活性化層１４５－１が出力する複数のノードの特徴ベクトルを合成して、単一の特徴ベクトルを出力する。全結合層１４６－１の出力の次元数は、グラフ畳み込み層１４２－１が受け付ける特徴ベクトルの次元数と同じでもよいし異なってもよい。例えば、全結合層１４６－１は、組み合わせ最適化問題の変数の個数に相当する次元数をもつ特徴ベクトルを出力する。

また、グラフニューラルネットワークは、制約グラフ１３４に関して、グラフ畳み込み層１４２－２，１４４－２などの複数のグラフ畳み込み層、活性化層１４３－２，１４５－２などの複数の活性化層および全結合層１４６－２を含む。複数のグラフ畳み込み層と複数の活性化層とは交互に配置される。

グラフ畳み込み層１４２－２は、制約グラフ１３４および制約特徴データ１３５を受け付ける。グラフ畳み込み層１４２－２は、制約グラフ１３４が示すノード間エッジに従って、制約特徴データ１３５に含まれる各ノードの特徴ベクトルを更新するグラフ畳み込み演算を行う。グラフ畳み込み演算の手順はグラフ畳み込み層１４２－１と同じであるものの、演算対象データがグラフ畳み込み層１４２－１と異なる。更新後の特徴ベクトルの次元数は、更新前と同じでもよいし更新前と異なってもよい。活性化層１４３－２は、グラフ畳み込み層１４２－２が出力する特徴ベクトルの各要素を活性化関数に通す。

グラフ畳み込み層１４４－２は、制約グラフ１３４が示すノード間エッジに従って、前段の活性化層から受け付けた各ノードの特徴ベクトルを更新するグラフ畳み込み演算を行う。活性化層１４５－２は、グラフ畳み込み層１４４－２が出力する特徴ベクトルの各要素を活性化関数に通す。全結合層１４６－２は、活性化層１４５－２が出力する複数のノードの特徴ベクトルを合成して、単一の特徴ベクトルを出力する。全結合層１４６－２の出力の次元数は、グラフ畳み込み層１４２－２が受け付ける特徴ベクトルの次元数と同じでもよいし異なってもよい。例えば、全結合層１４６－２は、組み合わせ最適化問題の変数の個数に相当する次元数をもつ特徴ベクトルを出力する。

更に、グラフニューラルネットワークは、全結合層１４７，１４９および活性化層１４８を含む。全結合層１４７は、活性化層１４１および全結合層１４６－１，１４６－２が出力する特徴ベクトルを連結する。全結合層１４７の入力の次元数は、活性化層１４１および全結合層１４６－１，１４６－２の出力の次元数の合計である。全結合層１４７は、連結された特徴ベクトルの各要素を変換して別の特徴ベクトルを出力する。全結合層１４７の出力の次元数は、入力の次元数と同じでもよいし入力の次元数と異なってもよい。

活性化層１４８は、全結合層１４７が出力する特徴ベクトルの各要素を活性化関数に通す。全結合層１４９は、活性化層１４８が出力する特徴ベクトルから正規化コスト関数値を算出する。正規化コスト関数値は、０以上１以下のスカラ値である。

図７は、グラフ畳み込み演算の例を示す図である。
変数＃０に対応するノード６０は、変数＃１に対応するノード６１および変数＃２に対応するノード６２との間にエッジをもつ。ノード６０には、特徴ベクトル６３が対応付けられている。ノード６１には、特徴ベクトル６４が対応付けられている。ノード６２には、特徴ベクトル６５が対応付けられている。ここでは、ノード６０の特徴ベクトル６３を、周辺ノードの特徴ベクトルに基づいて更新する場合について説明する。

グラフニューラルネットワークは、特徴ベクトル６３に係数行列６６を乗じて特徴ベクトル６７を算出する。同様に、グラフニューラルネットワークは、特徴ベクトル６４に係数行列６６を乗じて特徴ベクトル６８を算出し、特徴ベクトル６５に係数行列６６を乗じて特徴ベクトル６９を算出する。特徴ベクトル６７，６８，６９の次元数は同じである。特徴ベクトル６７，６８，６９の次元数は、特徴ベクトル６３，６４，６５と同じでもよいし異なってもよい。係数行列６６は、機械学習を通じて決定される。

グラフニューラルネットワークは、特徴ベクトル６７に、ノード６０と隣接するノード６１，６２の特徴ベクトル６８，６９を合成することで、ノード６０の更新後の特徴ベクトルを算出する。例えば、グラフニューラルネットワークは、特徴ベクトル６７に特徴ベクトル６８，６９を加算する。グラフ畳み込み演算においては、ノード６０と隣接しないノードの特徴ベクトルは、特徴ベクトル６７と合成されない。

次に、グラフニューラルネットワークの機械学習について説明する。
図８は、訓練データテーブルの例を示す図である。
情報処理装置１００は、訓練データを用いて前述のグラフニューラルネットワークを訓練する。訓練データは、入力データと教師データとを対応付けた複数のサンプルを含む。例えば、訓練データは、２００００個のサンプルを含む。情報処理装置１００は、訓練データが登録された訓練データテーブル１２８を記憶する。

訓練データのサンプルは、サンプルＩＤ、ＱＵＢＯタイプ、ソルバパラメータ、メタパラメータおよびコスト関数値を含む。サンプルＩＤは、サンプルを識別する識別子である。ＱＵＢＯタイプは、ＱＵＢＯ行列を生成するためのパラメータである。情報処理装置１００は、ＱＵＢＯタイプに応じたＱＵＢＯ行列をランダムに生成する。ソルバパラメータは、ＱＵＢＯソルバ装置３０がもつパラメータのうち前述のパラメータ探索の対象となるパラメータである。メタパラメータは、ＱＵＢＯソルバ装置３０がもつパラメータのうち前述のパラメータ探索の対象外のパラメータである。コスト関数値は、グラフニューラルネットワークの出力の正解を示す教師データに相当する。

ＱＵＢＯタイプは、ＱＵＢＯサイズ、ＱＵＢＯ密度（Density）、ＱＵＢＯ倍率（Factor）およびＱＵＢＯシード（Seed）を含む。ＱＵＢＯサイズは、ＱＵＢＯ行列の一辺の長さを調整するためのパラメータである。ＱＵＢＯサイズ＋５０が、ＱＵＢＯ行列の一辺の長さである。例えば、ＱＵＢＯサイズは９５０に固定される。

ＱＵＢＯ密度は、ＱＵＢＯ行列に含まれる非ゼロ要素の割合を示す。例えば、ＱＵＢＯ密度の候補は、２５％、５０％、７５％および１００％の４通りである。ＱＵＢＯ倍率は、制約行列の重みαを示す。例えば、ＱＵＢＯ倍率は１００に固定される。ＱＵＢＯシードは、ＱＵＢＯ行列の要素をランダムに生成するための乱数調整値である。例えば、ＱＵＢＯシードの候補は、１以上２５以下の範囲の２５通りである。情報処理装置１００は、ＱＵＢＯタイプに従って、コスト行列と制約行列とを分けて生成する。

ソルバパラメータは、グローバル探索レベル（ｇｓ＿ｌｅｖｅｌ）、カットオフレベル（ｇｓ＿ｃｕｔｏｆｆ）、試行回数（ｎｕｍ＿ｒｕｎ）およびグループ数（ｎｕｍ＿ｇｒｏｕｐ）を含む。グローバル探索レベルは、ローカル探索の開始点を繰り返し選択するグローバル探索の強度を示す。例えば、グローバル探索レベルの候補は、０以上１００以下の範囲の１０１通りである。カットオフレベルは、グローバル探索における収束判定に用いられる閾値である。例えば、カットオフレベルの候補は、０以上８０００以下の範囲の４８７３通りである。試行回数は、グループ毎の並列試行回数である。試行回数の候補は、０以上１０００以下の範囲の１００４通りである。グループ数×試行回数が、全体の並列試行回数である。グループ数の候補は、１以上１６以下の範囲の１６通りである。

メタパラメータは、実行時間（ｔｉｍｅ＿ｒｕｎｎｅｒ）を含む。実行時間は、ＱＵＢＯソルバ装置３０による１回当たりの解探索の最大実行時間である。設定された実行時間を経過すると解探索が打ち切られる。例えば、実行時間は３秒に固定される。コスト関数値は、探索された解ベクトルに対応するコスト関数値である。例えば、コスト関数の候補は、－２０００万以上０以下の範囲の２００００通りである。ただし、訓練データテーブル１２８に登録されるコスト関数値は、０以上１以下の範囲に正規化されていてもよい。訓練データテーブル１２８を作成するにあたり、情報処理装置１００は、ＱＵＢＯソルバ装置３０を呼び出すことでコスト関数値を測定する。

情報処理装置１００は、訓練データテーブル１２８に基づいてグラフニューラルネットワークを訓練する。情報処理装置１００は、サンプル毎に、ＱＵＢＯタイプを満たすコスト行列および制約行列をランダムに生成する。情報処理装置１００は、サンプル毎に、生成されたコスト行列からコストグラフおよびコスト特徴データを生成し、生成された制約行列から制約グラフおよび制約特徴データを生成する。

情報処理装置１００は、サンプル毎に、グラフニューラルネットワークにソルバパラメータ、コストグラフ、コスト特徴データ、制約グラフおよび制約特徴データを入力する。情報処理装置１００は、グラフニューラルネットワークが出力する予測値と正解のコスト関数値とを比較して誤差を算出する。情報処理装置１００は、一定数のサンプルを含むミニバッチ単位で、誤差逆伝播法によって、グラフニューラルネットワークに含まれる重みそれぞれの誤差勾配を算出し、算出された誤差勾配に基づいて重みを更新する。

図９は、ソルバパラメータ値の分布例を示すグラフである。
グラフ７１は、２００００個のサンプルに含まれるグローバル探索レベルの分布の例を示す。グラフ７１の横軸はグローバル探索レベルの値を示し、グラフ７１の縦軸はサンプル数を示す。グラフ７２は、２００００個のサンプルに含まれるカットオフレベルの分布の例を示す。グラフ７２の横軸はカットオフレベルの値を示し、グラフ７２の縦軸はサンプル数を示す。グラフ７３は、２００００個のサンプルに含まれる試行回数の分布の例を示す。グラフ７３の横軸は試行回数の値を示し、グラフ７３の縦軸はサンプル数を示す。グラフ７４は、２００００個のサンプルに含まれるグループ数の分布の例を示す。グラフ７４の横軸はグループ数の値を示し、グラフ７４の縦軸はサンプル数を示す。

図１０は、コスト関数値と正規化コスト関数値の分布例を示すグラフである。
グラフ７５は、２００００個のサンプルに含まれる正規化前のコスト関数値の分布の例を示す。グラフ７５の横軸はコスト関数値を示し、グラフ７５の縦軸はサンプル数を示す。グラフ７６は、グラフ７５に対応する正規化コスト関数値の分布の例を示す。グラフ７６の横軸は正規化コスト関数値を示し、グラフ７６の縦軸はサンプル数を示す。このように、コスト関数値の正規化は、Ｍｉｎ－Ｍａｘ法による線形変換である。

図１１は、コスト関数値の予測例を示すグラフである。
グラフ７７は、上記の訓練データを用いて訓練されたグラフニューラルネットワークが、あるＱＵＢＯ問題に対して予測するコスト関数値の例を示す。グラフ７７の横軸はソルバパラメータのパラメータ値に対応し、グラフ７７は正規化されていないコスト関数値の予測を示す。グラフ７７に示すように、グラフニューラルネットワークは、パラメータ値によって異なるコスト関数値を予測する。情報処理装置１００は、全てのパラメータ値に対応するコスト関数値を予測しなくても、ベイズ最適化によって、最も良好なコスト関数値（例えば、最小のコスト関数値）が得られるパラメータ値を特定する。

次に、情報処理装置１００の機能および処理手順について説明する。
図１２は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、訓練データ記憶部１２１およびモデル記憶部１２２を有する。これらの記憶部は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。また、情報処理装置１００は、ＱＵＢＯ行列生成部１２３、グラフ生成部１２４、モデル訓練部１２５、パラメータ探索部１２６およびソルバ呼出部１２７を有する。これらの処理部は、例えば、ＣＰＵ１０１またはＧＰＵ１０４とプログラムとを用いて実装される。

訓練データ記憶部１２１は、前述の訓練データテーブル１２８を記憶する。ＱＵＢＯタイプ、ソルバパラメータおよびメタパラメータの値は、ユーザから指定されてもよいし、自動サンプリングアルゴリズムを用いて算出されてもよい。コスト関数値は、ソルバ呼出部１２７によって記録される。また、訓練データ記憶部１２１は、ＱＵＢＯ行列生成部１２３によって生成されるＱＵＢＯ行列を記憶する。モデル記憶部１２２は、モデル訓練部１２５によって訓練されるグラフニューラルネットワークを記憶する。

ＱＵＢＯ行列生成部１２３は、訓練データテーブル１２８に含まれる各サンプルのＱＵＢＯタイプから、そのＱＵＢＯタイプの条件に合致するＱＵＢＯ行列をランダムに生成する。このとき、ＱＵＢＯ行列は、コスト行列と制約行列とに分けて生成される。

グラフ生成部１２４は、訓練データ記憶部１２１に記憶された各サンプルのＱＵＢＯ行列をグラフデータに変換する。グラフ生成部１２４は、コスト行列からコストグラフおよびコスト特徴データを生成し、制約行列から制約グラフおよび制約特徴データを生成する。また、グラフ生成部１２４は、グラフニューラルネットワークが訓練された後、解きたいＱＵＢＯ問題を示すＱＵＢＯ行列を受け付ける。このＱＵＢＯ行列は、ユーザによって作成されてもよいし、ＱＵＢＯ問題の定義から自動的に生成されてもよい。グラフ生成部１２４は、上記と同様に、このＱＵＢＯ行列をグラフデータに変換する。

モデル訓練部１２５は、訓練データを用いてグラフニューラルネットワークを訓練する。モデル訓練部１２５は、サンプル毎に、ソルバパラメータのパラメータ値、コストグラフ、コスト特徴データ、制約グラフおよび制約特徴データをグラフニューラルネットワークに入力し、正規化コスト関数値の予測値を算出する。モデル訓練部１２５は、予測値と正解の正規化コスト関数値との間の誤差を算出する。モデル訓練部１２５は、ミニバッチ毎単位で、誤差が小さくなるようにグラフニューラルネットワークの重みを更新する。

パラメータ探索部１２６は、訓練されたグラフニューラルネットワークを用いて、解きたいＱＵＢＯ問題にとって最適なソルバパラメータのパラメータ値を推定する。パラメータ探索部１２６は、パラメータ値を選択し、選択したパラメータ値、コストグラフ、コスト特徴データ、制約グラフおよび制約特徴データをグラフニューラルネットワークに入力し、正規化コスト関数値の予測値を算出する。パラメータ探索部１２６は、正規化コスト関数値の予測値を、正規化されていないコスト関数値の予測値に変化する。パラメータ探索部１２６は、ベイズ最適化によって、次に試行するパラメータ値を選択する。パラメータ探索部１２６は、上記を繰り返すことで最適なパラメータ値を推定する。

ソルバ呼出部１２７は、ＱＵＢＯソルバ装置３０を呼び出して、ＱＵＢＯソルバ装置３０にＱＵＢＯ問題を解かせる。ソルバ呼出部１２７は、訓練データテーブル１２８に含まれるサンプル毎に、ＱＵＢＯ行列生成部１２３によって生成されたＱＵＢＯ行列とソルバパラメータのパラメータ値とを、ＱＵＢＯソルバ装置３０に対して指定する。このとき、コスト行列と制約行列とは合算されて指定される。ソルバ呼出部１２７は、ＱＵＢＯソルバ装置３０が算出した解ベクトルに対応するコスト関数値を訓練データテーブル１２８に記録する。コスト関数値の測定値は、ＱＵＢＯソルバ装置３０から取得したものであってもよいし、解ベクトルからソルバ呼出部１２７が算出するものであってもよい。

また、ソルバ呼出部１２７は、パラメータ探索部１２６が推定した最適なパラメータ値を取得する。ソルバ呼出部１２７は、解きたいＱＵＢＯ問題を示すＱＵＢＯ行列と推定されたパラメータ値とを指定してＱＵＢＯソルバ装置３０を呼び出す。ソルバ呼出部１２７は、算出された解ベクトルとコスト関数値とを取得する。なお、パラメータ探索部１２６は、解きたいＱＵＢＯ問題に対して２以上のパラメータ値の候補を挙げてもよく、ソルバ呼出部１２７は、ＱＵＢＯソルバ装置３０を２回以上呼び出してもよい。

図１３は、機械学習の手順例を示すフローチャートである。
（Ｓ１０）ＱＵＢＯ行列生成部１２３は、各サンプルのＱＵＢＯタイプの値からＱＵＢＯ行列をランダムに生成する。ここでは、コスト行列と制約行列とが分かれている。

（Ｓ１１）ソルバ呼出部１２７は、各サンプルのＱＵＢＯ行列とソルバパラメータの値とから、ＱＵＢＯソルバ装置３０を呼び出してコスト関数値を測定する。
（Ｓ１２）グラフ生成部１２４は、各サンプルのＱＵＢＯ行列からグラフデータを生成する。グラフ生成部１２４は、コスト行列からコストグラフおよびコスト特徴データを生成し、制約行列から制約グラフおよび制約特徴データを生成する。

（Ｓ１３）モデル訓練部１２５は、ミニバッチサイズのサンプルを抽出し、各サンプルのグラフデータとソルバパラメータの値とをグラフニューラルネットワークに入力する。
（Ｓ１４）モデル訓練部１２５は、グラフニューラルネットワークが出力する予測値と正解の正規化コスト関数値との間の誤差を算出する。モデル訓練部１２５は、誤差逆伝播法によって、誤差が小さくなるようにグラフニューラルネットワークを更新する。

（Ｓ１５）モデル訓練部１２５は、ステップＳ１３，Ｓ１４のイテレーション回数が、事前に設定された閾値に達したか判断する。イテレーション回数が閾値に達した場合はステップＳ１６に処理が進み、それ以外の場合はステップＳ１３に処理が戻る。

（Ｓ１６）モデル訓練部１２５は、訓練されたグラフニューラルネットワークを保存する。なお、モデル訓練部１２５は、訓練されたグラフニューラルネットワークを、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

図１４は、パラメータ探索の手順例を示すフローチャートである。
（Ｓ２０）グラフ生成部１２４は、解きたいＱＵＢＯ問題に対応するＱＵＢＯ行列を取得する。ここでは、コスト行列と制約行列とが分かれている。

（Ｓ２１）グラフ生成部１２４は、取得したＱＵＢＯ行列からグラフデータを生成する。グラフ生成部１２４は、コスト行列からコストグラフおよびコスト特徴データを生成し、制約行列から制約グラフおよび制約特徴データを生成する。

（Ｓ２２）パラメータ探索部１２６は、ソルバパラメータの値を選択する。
（Ｓ２３）パラメータ探索部１２６は、グラフデータと選択したソルバパラメータの値とをグラフニューラルネットワークに入力する。

（Ｓ２４）パラメータ探索部１２６は、グラフニューラルネットワークが出力する正規化コスト関数値の予測値を、コスト関数値の予測値にスケール変換する。
（Ｓ２５）パラメータ探索部１２６は、これまでに取得されたソルバパラメータの値とコスト関数値の予測値との対応関係を分析する。パラメータ探索部１２６は、ベイズ最適化によって、これまでに取得された予測値より良好なコスト関数値が得られる可能性のあるソルバパラメータの値を探索する。

（Ｓ２６）パラメータ探索部１２６は、ソルバパラメータの最適値が既に見つかったか判断する。ソルバパラメータの最適値が既に見つかったと判断した場合、ステップＳ２７に処理が進む。より良好なコスト関数値が得られる可能性のあるソルバパラメータの値が未試行である場合、ステップＳ２２に処理が戻る。

（Ｓ２７）ソルバ呼出部１２７は、ＱＵＢＯ行列とソルバパラメータの最適値とから、ＱＵＢＯソルバ装置３０を呼び出して解ベクトルおよびコスト関数値を取得する。
（Ｓ２８）ソルバ呼出部１２７は、取得した解ベクトルおよびコスト関数値を出力する。ソルバ呼出部１２７は、解ベクトルおよびコスト関数値を不揮発性ストレージに保存してもよいし、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

以上説明したように、第２の実施の形態の情報処理装置１００は、量子アニーリングやシミュレーテッドアニーリングなどのアニーリング法によってＱＵＢＯ問題を解くＱＵＢＯソルバ装置３０を使用する。これにより、情報処理装置１００は、計算量の大きい組み合わせ最適化問題を高速に解くことができる。

また、情報処理装置１００は、ＱＵＢＯ問題に合わせて、ＱＵＢＯソルバ装置３０の探索方法を制御するパラメータの値を最適化する。これにより、ＱＵＢＯソルバ装置３０が算出する解ベクトルの精度が向上する。また、情報処理装置１００は、ベイズ最適化によってソルバパラメータの最適値を探索する。これにより、ソルバパラメータの値に対応するコスト関数値を算出する試行回数が削減される。

また、情報処理装置１００は、訓練済みの機械学習モデルを用いて、ソルバパラメータの値に応じたコスト関数値を予測する。これにより、ＱＵＢＯソルバ装置３０を繰り返し呼び出す場合と比べて、ソルバパラメータの値を最適化するパラメータ探索が高速化される。また、ＧＰＵ１０４を用いて機械学習モデルによる予測を実行することで、パラメータ探索の実行時間が短縮する。また、情報処理装置１００は、機械学習モデルとしてグラフニューラルネットワークを使用する。これにより、ＱＵＢＯ行列上での変数の並び方の影響を受けずに適切な特徴量が抽出され、コスト関数値の予測精度が向上する。

また、情報処理装置１００は、係数の分布傾向が異なるコスト行列と制約行列とを分離し、コスト行列と制約行列それぞれからグラフデータを生成する。そして、情報処理装置１００は、コスト行列に関するグラフデータと制約行列に関するグラフデータとを、機械学習モデルに入力する。これにより、コスト関数値の予測精度が向上する。また、情報処理装置１００は、機械学習モデルが０以上１以下の数値を予測するようにコスト関数値を正規化する。これにより、情報処理装置１００は、機械学習モデルを効率的に訓練することができると共に、機械学習モデルの予測精度が向上する。

１０情報処理装置
１１記憶部
１２処理部
１３解ベクトル
１４係数行列
１５特徴データ
１６パラメータデータ
１７機械学習モデル
１８予測値
２０ソルバ装置
２１パラメータ

Claims

離散値をとる複数の変数を含む解ベクトルと前記複数の変数に対応する行および列をもつ係数行列とから算出される評価値に基づいて、前記解ベクトルの最適値を探索する組み合わせ最適化処理に対して、前記係数行列から特徴データを生成し、
アニーリング法によって前記組み合わせ最適化処理を行うソルバ装置の探索方法を制御するパラメータの複数の候補値のうち、１つの候補値を示すパラメータデータを生成し、
前記特徴データと前記パラメータデータとを、訓練済みの機械学習モデルに入力することで、前記１つの候補値に対応する前記評価値の予測を示す予測値を算出し、
前記パラメータデータの生成と前記予測値の算出とを繰り返すことで、前記ソルバ装置の前記パラメータに設定するパラメータ値を決定する、
処理をコンピュータに実行させる計算プログラム。
前記特徴データは、前記複数の変数に対応する複数のノードを含むグラフデータと、前記複数のノードに対応付けられる複数の特徴ベクトルとを含み、
前記機械学習モデルは、前記グラフデータが示す前記複数のノードの接続関係に基づいて、前記複数の特徴ベクトルの間で畳み込み演算を行う、
請求項１記載の計算プログラム。
前記係数行列は、前記複数の変数がとる前記離散値の制約を示す制約行列と、前記制約以外の前記複数の変数の間の関係を示すコスト行列とを含み、
前記特徴データは、前記コスト行列から生成される第１のグラフデータと、前記制約行列から生成される第２のグラフデータとを含む、
請求項２記載の計算プログラム。
前記パラメータ値の決定では、試行済みの１以上の候補値と算出された１以上の予測値とから、次に試行する候補値を選択するベイズ最適化処理を行う、
請求項１記載の計算プログラム。
複数の係数行列と複数のパラメータ値と複数の評価値とを対応付けた訓練データを用いて、前記機械学習モデルを訓練する処理を前記コンピュータに更に実行させる、
請求項１記載の計算プログラム。
離散値をとる複数の変数を含む解ベクトルと前記複数の変数に対応する行および列をもつ係数行列とから算出される評価値に基づいて、前記解ベクトルの最適値を探索する組み合わせ最適化処理に対して、前記係数行列から特徴データを生成し、
アニーリング法によって前記組み合わせ最適化処理を行うソルバ装置の探索方法を制御するパラメータの複数の候補値のうち、１つの候補値を示すパラメータデータを生成し、
前記特徴データと前記パラメータデータとを、訓練済みの機械学習モデルに入力することで、前記１つの候補値に対応する前記評価値の予測を示す予測値を算出し、
前記パラメータデータの生成と前記予測値の算出とを繰り返すことで、前記ソルバ装置の前記パラメータに設定するパラメータ値を決定する、
処理をコンピュータが実行する計算方法。
離散値をとる複数の変数に対応する行および列をもつ係数行列と、訓練済みの機械学習モデルとを記憶する記憶部と、
前記複数の変数を含む解ベクトルと前記係数行列とから算出される評価値に基づいて、前記解ベクトルの最適値を探索する組み合わせ最適化処理に対して、前記係数行列から特徴データを生成し、アニーリング法によって前記組み合わせ最適化処理を行うソルバ装置の探索方法を制御するパラメータの複数の候補値のうち、１つの候補値を示すパラメータデータを生成し、前記特徴データと前記パラメータデータとを前記機械学習モデルに入力することで、前記１つの候補値に対応する前記評価値の予測を示す予測値を算出し、前記パラメータデータの生成と前記予測値の算出とを繰り返すことで、前記ソルバ装置の前記パラメータに設定するパラメータ値を決定する処理部と、
を有する情報処理装置。