JP2023122981A

JP2023122981A - プログラム、データ処理装置及びデータ処理方法

Info

Publication number: JP2023122981A
Application number: JP2022026770A
Authority: JP
Inventors: 康弘渡部; Yasuhiro Watabe; 泰孝田村; Yasutaka Tamura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2023-09-05
Also published as: EP4235518A1; US20230267165A1; CN116644808A

Abstract

【課題】組合せ最適化問題の求解性能を向上させる。
【解決手段】複数の状態変数を含むエネルギー関数で表される組合せ最適化問題の解の探索を行うデータ処理装置１０の処理部１２は、複数の状態変数から選択される複数の第１状態変数について、複数の第１状態変数の各々の値の変化を受け入れるか否かの判定を並列に行い、値の変化を受け入れると判定された何れかの状態変数の値を変化させる処理を、選択される複数の第１状態変数を変更しつつ行うことで、解の探索を行う探索処理を行い、探索処理の探索状況または他の組合せ最適化問題の探索記録を示す探索情報に基づいて、選択される複数の第１状態変数の数を特定し、探索処理を繰り返す。
【選択図】図１

Description

本発明は、プログラム、データ処理装置及びデータ処理方法に関する。

組合せ最適化問題の求解にデータ処理装置が用いられることがある。データ処理装置は、組合せ最適化問題を、磁性体のスピンの振る舞いを表すモデルであるイジングモデルのエネルギー関数に変換し、エネルギー関数に含まれる状態変数の値の組合せのうち、エネルギー関数の値を最小化する組合せを探索する。エネルギー関数の値を最小化する状態変数の値の組合せは、状態変数の値の組により表される基底状態または最適解に相当する。なお、以下、エネルギー関数の値をエネルギーという場合もある。

実用的な時間で組合せ最適化問題の近似解を得る手法には、マルコフ連鎖モンテカルロ（ＭＣＭＣ：Markov-Chain Monte Carlo）法に基づく、シミュレーテッドアニーリング（ＳＡ：Simulated Annealing）法やレプリカ交換法などがある。

組合せ最適化問題の求解（解の探索）を効率的に行うため、解の探索処理の並列度を上げることが考えられる。たとえば、値を更新する状態変数を決定する１回の試行（１モンテカルロステップの処理）において、更新に伴うエネルギーの変化量に基づいて各状態変数の更新を許容するか否かの判定を、複数の状態変数について並列に行うデータ処理装置が提案されている。

しかし、複数の状態変数についてエネルギーの変化量の計算や判定処理を並列に行って、多数の状態変数の更新が許容されても、ＭＣＭＣ法によるイジング型のエネルギー関数の最小化の原理により、各試行において更新される状態変数の数は１つである。このため、問題規模が大きくなると、無駄な計算が増え演算量が増加する可能性がある。

演算量の無駄を軽減するため、組合せ最適化問題を複数の部分問題に分割して、各部分問題についての上記試行を並列に行う手法（以下部分並列試行という）が提案されている。

特開２０２０－４６９９７号公報特開２０２１－３３３４１号公報特開２０２１－１３１６９５号公報

部分並列試行では、試行を並列に行う状態変数の数（以下並列試行ビット数という場合もある）によっては、十分な求解性能を発揮できない可能性がある。たとえば、問題によっては、並列試行ビット数を少なくした場合、更新が許容される状態変数が少なすぎて、エネルギーを最小化するうえで適切な状態変数が更新対象として選ばれづらくなり、適切な状態遷移が生じにくくなることがある。

１つの側面では、本発明は、組合せ最適化問題の求解性能を向上可能なプログラム、データ処理装置及びデータ処理方法を提供することを目的とする。

１つの実施態様では、複数の状態変数を含むエネルギー関数で表される組合せ最適化問題の解の探索を行う処理をコンピュータに実行させるプログラムであって、前記コンピュータに、前記複数の状態変数から選択される複数の第１状態変数について、前記複数の第１状態変数の各々の値の変化を受け入れるか否かの判定を並列に行い、前記値の変化を受け入れると判定された何れかの状態変数の前記値を変化させる処理を、選択される前記複数の第１状態変数を変更しつつ行うことで、前記解の探索を行う探索処理を行い、前記探索処理の探索状況または他の組合せ最適化問題の探索記録を示す探索情報に基づいて、選択される前記複数の第１状態変数の数を特定し、前記探索処理を繰り返す、処理を実行させるプログラムが提供される。

また、１つの実施態様では、データ処理装置が提供される。
また、１つの実施態様では、データ処理方法が提供される。

１つの側面では、本発明は、組合せ最適化問題の求解性能を向上できる。

第１の実施の形態のデータ処理装置を説明する図である。第２の実施の形態のデータ処理装置のハードウェア例を示す図である。データ処理装置の機能例を示す図である。モジュール処理部の一例を示す図である。モジュール処理部における局所場更新の機能例を示す図である。決定されたグループ構成に応じたレプリカの処理の第１の例を示す図である。決定されたグループ構成に応じたレプリカの処理の第２の例を示す図である。パイプライン処理の例を示す図である。重み係数の読み出しの例を示す図である。データ処理装置の処理手順の一例を示すフローチャートである。探索情報の集計及び記録の手順の一例を示すフローチャートである。並列試行ビット数Ｐの決定処理の手順の第１の例を示すフローチャートである。並列試行ビット数Ｐの決定処理の手順の第２の例を示すフローチャートである。並列試行ビット数Ｐの決定処理の手順の第３の例を示すフローチャートである。４つのグループによる並列処理の手順の一例を示すフローチャートである。

以下、発明を実施するための形態を、図面を参照しつつ説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態のデータ処理装置を説明する図である。
データ処理装置１０は、組合せ最適化問題に対する解を、ＭＣＭＣ法を用いて探索し、探索した解を出力する。たとえば、データ処理装置１０は、ＭＣＭＣ法を基にしたＳＡ法、レプリカ交換法などを解の探索に用いる。データ処理装置１０は、記憶部１１及び処理部１２を有する。

記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性記憶装置でもよいし、フラッシュメモリなどの不揮発性記憶装置でもよい。記憶部１１は、レジスタなどの電子回路を含んでもよい。処理部１２は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などの電子回路でもよい。処理部１２はプログラムを実行するプロセッサでもよい。「プロセッサ」は、複数のプロセッサの集合（マルチプロセッサ）を含み得る。

組合せ最適化問題は、イジング型のエネルギー関数により定式化され、たとえば、エネルギー関数の値を最小化する問題に置き換えられる。エネルギー関数は、目的関数や評価関数などと呼ばれることもある。エネルギー関数は、複数の状態変数を含む。状態変数は、０または１の値を取るバイナリ変数である。状態変数はビットと表記されてもよい。組合せ最適化問題の解は、複数の状態変数の値（以下状態ベクトルと呼ぶこともある）により表される。エネルギー関数の値を最小化する解は、イジングモデルの基底状態を表し、組合せ最適化問題の最適解に対応する。エネルギー関数の値は、エネルギーと表記される。

イジング型のエネルギー関数は、式（１）で表される。

状態ベクトルｘは、複数の状態変数を要素とし、イジングモデルの状態を表す。式（１）は、ＱＵＢＯ（Quadratic Unconstrained Binary Optimization）形式で定式化されたエネルギー関数である。なお、エネルギーを最大化する問題の場合には、エネルギー関数の符号を逆にすればよい。

式（１）の右辺第１項は、全状態変数から選択可能な２つの状態変数の全組合せについて、漏れと重複なく、２つの状態変数の値と重み係数との積を積算したものである。添え字ｉ，ｊは状態変数のインデックスである。ｘ_ｉは、ｉ番目の状態変数である。ｘ_ｊは、ｊ番目の状態変数である。Ｗ_ｉｊは、ｉ番目の状態変数とｊ番目の状態変数との間の重み、または、結合の強さを示す重み係数である。Ｗ_ｉｊ＝Ｗ_ｊｉであり、Ｗ_ｉｉ＝０である。

式（１）の右辺第２項は、全状態変数の各々のバイアスと状態変数の値との積の総和を求めたものである。ｂ_ｉは、ｉ番目の状態変数に対するバイアスを示している。エネルギー関数に含まれる重み係数やバイアスなどを含む問題情報は、記憶部１１に記憶される。

状態変数ｘ_ｉの値が変化して１－ｘ_ｉとなると、状態変数ｘ_ｉの増加量は、δｘ_ｉ＝（１－ｘ_ｉ）－ｘ_ｉ＝１－２ｘ_ｉと表せる。したがって、エネルギー関数Ｅ（ｘ）に対して、状態変数ｘ_ｉの変化に伴うエネルギーの変化量ΔＥ_ｉは、式（２）で表される。

ｈ_ｉは局所場と呼ばれ、式（３）で表される。局所場は、ローカルフィールド（ＬＦ：Local Field）と呼ばれてもよい。

状態変数ｘ_ｊが変化したときの局所場ｈ_ｉの変化量δｈ_ｉ ^（ｊ）は、式（４）で表される。

記憶部１１は、複数の状態変数それぞれに対応する局所場ｈ_ｉを保持する。処理部１２は、状態変数ｘ_ｊの値が変化したときに変化量δｈ_ｉ ^（ｊ）をｈ_ｉに加算することで、ビット反転後の状態に対応するｈ_ｉを得る。

処理部１２は、解の探索において、エネルギーの変化量がΔＥ_ｉとなる状態遷移、すなわち、状態変数ｘ_ｉの値の変化を受け入れるか否かを決定するためにメトロポリス法やギブス法を用いる。具体的には、処理部１２は、ある状態から当該状態よりもエネルギーの低い他の状態への遷移を探索する近傍探索において、エネルギーが下がる状態だけでなく、エネルギーが上がる状態への遷移を確率的に受け入れる。たとえば、ΔＥを生じさせる状態変数の値の変化を受け入れる確率Ａは、式（５）で表される。

βは温度を表すパラメータであるＴ（Ｔ＞０）の逆数（β＝１／Ｔ）であり、逆温度と呼ばれる。ｍｉｎ演算子は、引数のうちの最小値を取ることを示す。式（５）の右辺上側はメトロポリス法に相当する。式（５）の右辺下側はギブス法に相当する。処理部１２は、あるインデックスｉに関して０＜ｕ＜１である一様乱数ｕとＡとを比較し、ｕ＜Ａであれば状態変数ｘ_ｉの値の変化を受入れ、状態変数ｘ_ｉの値を変化させる。処理部１２は、ｕ＜Ａでなければ状態変数ｘ_ｉの値の変化を受け入れず、状態変数ｘ_ｉの値を変化させない。式（５）によれば、ΔＥが大きい値であるほど、Ａは小さくなる。また、βが小さい、すなわち、Ｔが大きいほど、ΔＥが大きい状態遷移も許容されやすくなる。たとえば、メトロポリス法が用いられる場合、処理部１２は、式（５）を変形した式（６）を用いて遷移判定を行ってもよい。

すなわち、処理部１２は、一様乱数ｕ（０＜ｕ≦１）に対して、ΔＥが式（６）を満たす場合に、該当の状態変数の値の変化を受け入れる。処理部１２は、一様乱数ｕに対して、ΔＥが式（６）を満たさない場合に、該当の状態変数の値の変化を受け入れない。

第１の実施の形態のデータ処理装置１０において、処理部１２は、並列試行ビット数分の部分並列試行により、値を変化させる状態変数（以下更新対象の状態変数という）を決定する。さらに処理部１２は、並列試行ビット数を変更する機能を有する。

図１には、処理部１２が行う処理の一部の流れが例示されている。
（Ｓ１）処理部１２は、たとえば、まず並列試行ビット数Ｐ１による探索処理を行う。
エネルギー関数に含まれる状態変数の数をＮとすると、ステップＳ１の処理では、処理部１２は、状態変数の値の変化を受け入れるか否かの判定（ΔＥの計算処理も含む）を、ｘ_１～ｘ_Ｎから選択されるＰ１個の状態変数について並列に行う。また、処理部１２は、Ｐ１個の状態変数についての上記判定によって、値の変化を受け入れると判定された状態変数（以下更新候補の状態変数という）のうち、何れか１つである更新対象の状態変数の値を変化させる。更新候補の状態変数が複数ある場合には、ランダムにまたは所定のルールにしたがって１つの状態変数が更新対象の状態変数として選択される。

なお、更新候補の状態変数の数が０となる場合が多いと状態遷移が生じず、計算時間の無駄となるため、処理部１２は、各部分並列試行においてＰ１個の状態変数のうち常に１つの状態変数の値を変化させるようにしてもよい。以下この方法を、リジェクションフリー手法という。

リジェクションフリー手法が用いられる場合、処理部１２は、Ｐ１個の状態変数に属する各状態変数ｘ_ｉについて一様乱数ｕ［ｉ］を生成し、ｍａｘ（０，ΔＥ_ｉ）＋Ｔｌｏｇ（－ｌｏｇ（ｕ［ｉ］））を最小にするｘ_ｉを更新対象として選択すればよい。なお、ｍａｘ演算子は、引数のうちの最大値を取ることを示す。処理部１２は、たとえば、更新候補の状態変数の数が０の場合、リジェクションフリー手法によって、更新対象の状態変数を１つ選択してもよい。

処理部１２は、上記のような処理を、選択されるＰ１個の状態変数を変更しつつ行うことで、解の探索を行う。図１の例では、ｘ_１～ｘ_Ｎは、それぞれがＰ１個の状態変数を含む領域（図１では並列試行領域と表記されている）Ａ１～Ａｎに分けられている。たとえば、領域Ａ１から領域Ａｎまで順番に探索が行われる。なお、各領域は同じ状態変数を含んでいてもよい。また、領域Ａｎまで探索が行われた後は、再度領域Ａ１から探索が行われるようにしてもよい。

（Ｓ２）たとえば、上記の探索処理が所定期間行われた場合、処理部１２は、ステップＳ１の探索処理の探索状況を示す探索情報に基づいて、部分並列試行において選択される状態変数の数（並列試行ビット数）をＰ１からＰ２に変更する。

探索状況を示す探索情報は、たとえば、所定期間の探索処理において得られる更新候補の状態変数の数の、累計値であってもよいし、実際に値が変化した状態変数の数の、累計値であってもよい。また、探索情報は、所定期間の探索処理において、ｘ_１～ｘ_Ｎの組により表される状態ベクトルの移動量（ハミング距離で表される）とエネルギーの最小値の更新の有無（または更新回数）などであってもよい。なお、処理部１２は、過去に行われた他の組合せ最適化問題の探索処理の探索における並列試行ビット数に関する記録である探索情報に基づいて適切な並列試行ビット数を特定して探索を行ってもよい。

上記の探索情報は、ステップＳ１の探索処理の際に、記憶部１１に記憶される。
ステップＳ２の処理において、処理部１２は、たとえば、所定期間の探索処理において得られた更新候補の状態変数の数の、累計値から、各部分並列試行における更新候補の状態変数の数の平均値を計算する。そして、処理部１２は、たとえば、その平均値が第１の閾値より小さければ、Ｐ１をＰ１より大きいＰ２に変更する。更新候補の状態変数が少ない場合、エネルギーを最小化する上で適切な状態変数が、更新対象として選ばれづらくなり、求解性能が悪化している可能性がある。そのため、適切な状態遷移を促し、求解性能を向上させるために、上記のように並列試行ビット数を大きくする。処理部１２は、上記平均値が第２の閾値（＞第１の閾値）より大きければ、Ｐ１をＰ１より小さいＰ２に変更する。更新候補の状態変数が多すぎても、選択される更新対象の状態変数は１つであるため、無駄な計算が増え、演算量が大きくなるためである。

その他の探索情報を用いた場合の並列試行ビット数の調整方法の例については、後述する（図１３、図１４参照）。
（Ｓ３）並列試行ビット数の変更後、処理部１２は、並列試行ビット数Ｐ２による探索処理を行う。ステップＳ３の処理は、上記ステップＳ１の処理と同様に行われる。図１の例では、ｘ_１～ｘ_Ｎにおいて、Ｐ２個の状態変数を含む領域Ｂ１～Ｂｍが、ｍ（＜ｎ）個ある例が示されている。たとえば、領域Ｂ１から領域Ｂｍまで順番に探索が行われる。なお、各領域は同じ状態変数を含んでいてもよい。また、領域Ｂｍまで探索が行われた後は、再度領域Ｂ１から探索が行われるようにしてもよい。

ステップＳ３の探索処理が所定期間行われた場合、処理部１２は、ステップＳ３の探索処理の探索状況を示す探索情報に基づいて、ステップＳ２の処理を行い、並列試行ビット数をさらに変更して、探索処理を繰り返してもよい。

なお、処理部１２は、各々が複数の状態変数を示す複数のレプリカを用いて、上記の探索処理を複数のレプリカについて並列に行ってもよい。なお、複数のレプリカを用いた探索処理の例については、第２の実施の形態において説明する。

処理部１２は、ステップＳ１，Ｓ３の処理において、ＳＡ法を行う場合、たとえば、部分並列試行が所定回数、繰り返されるたび、所定の温度パラメータ変更スケジュールにしたがって、温度を表すパラメータであるＴの値を小さくしていく。そして、処理部１２は、たとえば、部分並列試行が所定の回数繰り返された場合に得られた状態ベクトルを、組合せ最適化問題の計算結果として出力する（たとえば、図示しない表示装置に表示してもよい）。なお、処理部１２は、状態変数の値の変化が発生するたびに、式（１）で表されるエネルギー関数の値（エネルギー）を更新し、これまでの最小エネルギーとなった場合のエネルギーと状態とを記憶部１１に保持させておいてもよい。その場合、処理部１２は、たとえば、部分並列試行が所定の回数繰り返された後に記憶されている最小エネルギーに対応する状態を、計算結果として出力してもよい。

処理部１２がレプリカ交換法を行う場合、処理部１２は、それぞれ異なるＴの値が設定された複数のレプリカのそれぞれにおいて、上記のステップＳ１～Ｓ３の処理を行う。なお、具体的な例については後述するが、各レプリカに同じ並列試行ビット数が設定されてもよいし、複数のレプリカにそれぞれ異なる並列試行ビット数が設定されてもよい。処理部１２は、部分並列試行が所定回数繰り返されるごとに、レプリカ交換を行う。たとえば、処理部１２は、たとえば、隣り合うＴの値をもつレプリカを２つ選択して、選択された２つのレプリカの間で、レプリカ間のエネルギー差やＴの値の差に基づいた所定の交換確率で、Ｔの値または状態を交換する。処理部１２は、たとえば、各レプリカにおいて状態変数の値の変化が発生するたびに、エネルギー関数の値（エネルギー）を更新し、これまでの最小エネルギーとなった場合のエネルギーと状態とを記憶部１１に記憶する。そして、処理部１２は、たとえば、各レプリカにおいて上記の部分並列試行が所定の回数繰り返された後に記憶されている最小エネルギーのうち、全レプリカにおいて最小エネルギーに対応する状態を、計算結果として出力する。

以上のような第１の実施の形態のデータ処理装置１０では、部分並列試行の並列試行ビット数（値の変化を受け入れるか否かを並列に判定する状態変数の数）を、探索情報に基づいて変更する。これにより、問題の特徴が反映される探索状況に応じた並列試行ビット数の設定が可能になり、１つの状態変数の値を変化させるための演算量が適正化され、大規模問題に対する求解性能を向上できる。

また、演算量の適正化以外にも、上記のように並列試行ビット数を変更することで、ある状態変数の値が変化した場合に、次に値の変化が受け入れられる状態変数となる（更新候補となる）までの期間を調整できる。これにより、その状態変数の値が変化することで、状態が局所解から脱出したときに、再度その状態変数の値が変化して再び状態が局所解に拘束されてしまう、というような状況を避けることができる。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態のデータ処理装置のハードウェア例を示す図である。

データ処理装置２０は、組合せ最適化問題に対する解を、ＭＣＭＣ法を用いて探索し、探索した解を出力するコンピュータである。データ処理装置２０は、ＣＰＵ２１、ＲＡＭ２２、ＨＤＤ（Hard Disk Drive）２３、ＧＰＵ２４、入力インタフェース２５、媒体リーダ２６、ＮＩＣ（Network Interface Card）２７及びアクセラレータカード２８を有する。

ＣＰＵ２１は、プログラムの命令を実行するプロセッサである。ＣＰＵ２１は、ＨＤＤ２３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ２２にロードし、プログラムを実行する。なお、ＣＰＵ２１は複数のプロセッサコアを含んでもよい。また、データ処理装置２０は複数のプロセッサを有してもよい。以下で説明する処理は複数のプロセッサまたはプロセッサコアを用いて並列に実行されてもよい。また、複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

ＲＡＭ２２は、ＣＰＵ２１が実行するプログラムやＣＰＵ２１が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。なお、データ処理装置２０は、ＲＡＭ以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。

ＨＤＤ２３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、及び、データを記憶する不揮発性の記憶装置である。なお、データ処理装置２０は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。

ＧＰＵ２４は、ＣＰＵ２１からの命令に従って、データ処理装置２０に接続されたディスプレイ１０１に画像を出力する。ディスプレイ１０１としては、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、プラズマディスプレイ、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイなど、任意の種類のディスプレイを用いることができる。

入力インタフェース２５は、データ処理装置２０に接続された入力デバイス１０２から入力信号を取得し、ＣＰＵ２１に出力する。入力デバイス１０２としては、マウス、タッチパネル、タッチパッド、トラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、データ処理装置２０に、複数の種類の入力デバイスが接続されていてもよい。

媒体リーダ２６は、記録媒体１０３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１０３として、たとえば、磁気ディスク、光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）が含まれる。

媒体リーダ２６は、たとえば、記録媒体１０３から読み取ったプログラムやデータを、ＲＡＭ２２やＨＤＤ２３などの他の記録媒体にコピーする。読み取られたプログラムは、たとえば、ＣＰＵ２１によって実行される。なお、記録媒体１０３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体１０３やＨＤＤ２３を、コンピュータ読み取り可能な記録媒体と言うことがある。

ＮＩＣ２７は、ネットワーク１０４に接続され、ネットワーク１０４を介して他のコンピュータと通信を行うインタフェースである。ＮＩＣ２７は、たとえば、スイッチやルータなどの通信装置とケーブルで接続される。ＮＩＣ２７は、無線通信インタフェースでもよい。

アクセラレータカード２８は、式（１）のイジング型のエネルギー関数で表される問題の解を、ＭＣＭＣ法を用いて探索するハードウェアアクセラレータである。アクセラレータカード２８は、一定温度のＭＣＭＣ法または複数温度間でイジングモデルの状態を交換するレプリカ交換法を行うことで、該当温度におけるボルツマン分布に従う状態をサンプリングするサンプラーとして用いることができる。アクセラレータカード２８は、組合せ最適化問題の求解のためには、レプリカ交換法やＴの値を徐々に下げるＳＡ法などのアニーリングの処理を実行する。

ＳＡ法は、各Ｔの値におけるボルツマン分布に従う状態をサンプリングし、サンプリングに用いるＴを高温から低温に下げる、すなわち、逆温度βを増やすことで、最適解を効率的に発見する方法である。低温側、すなわち、βの大きい場合でもある程度状態が変化することで、Ｔの値を早く小さくしても良い解を発見できる可能性が高くなる。たとえば、ＳＡ法を用いる場合、アクセラレータカード２８は、一定のＴの値での状態遷移の試行を一定回数繰り返した後にＴの値を小さくする、という動作を繰り返す。

レプリカ交換法は、複数のＴの値を用いて独立してＭＣＭＣ法を実行し、各Ｔの値で得られた状態に対して、適宜、Ｔの値（または状態）を交換する手法である。低温でのＭＣＭＣによって状態空間の狭い範囲を探索し、高温でのＭＣＭＣによって状態空間の広い範囲を探索することで、効率的に良い解を発見することができる。たとえば、レプリカ交換法を用いる場合、アクセラレータカード２８は、複数のＴの値の各々での状態遷移の試行を並列して行い、一定回数の試行を行うごとに、各Ｔの値で得られた状態に対して、所定の交換確率でＴの値を交換する、という動作を繰り返す。

アクセラレータカード２８は、ＦＰＧＡ２８ａを有する。ＦＰＧＡ２８ａは、アクセラレータカード２８における探索機能を実現する。当該探索機能は、ＧＰＵやＡＳＩＣなどの他の種類の電子回路により実現されてもよい。ＦＰＧＡ２８ａは、メモリ２８ｂを有する。メモリ２８ｂは、ＦＰＧＡ２８ａでの探索に用いられる問題情報などのデータやＦＰＧＡ２８ａにより探索された解、探索状況を示す探索情報などを保持する。ＦＰＧＡ２８ａは、メモリ２８ｂを含む複数のメモリを有してもよい。

ＦＰＧＡ２８ａは、第１の実施の形態の処理部１２の一例である。メモリ２８ｂは、第１の実施の形態の記憶部１１の一例である。なお、アクセラレータカード２８は、ＦＰＧＡ２８ａの外部にＲＡＭを有してもよく、ＦＰＧＡ２８ａの処理に応じて、メモリ２８ｂに格納されたデータを当該ＲＡＭに一時的に退避してもよい。

アクセラレータカード２８のようにイジング形式の問題の解を探索するハードウェアアクセラレータは、イジングマシンやボルツマンマシンなどと呼ばれることがある。
アクセラレータカード２８は、複数のレプリカを用いた解の探索を並列に実行する。レプリカは、エネルギー関数に含まれる複数の状態変数を示す。以下の説明では、状態変数はビットと表記される。エネルギー関数に含まれる各ビットは、整数のインデックスに対応付けられ、インデックスにより識別される。

図３は、データ処理装置の機能例を示す図である。
データ処理装置２０は、全体制御部３０、Ｍ個（Ｍは２以上の整数）のモジュール（回路部と呼ぶこともできる）３１ａ１，３１ａ２，…，３１ａＭ、探索情報集約部３２、セレクタ３３を有する。全体制御部３０、モジュール３１ａ１～３１ａＭ、探索情報集約部３２及びセレクタ３３は、ＦＰＧＡ２８ａの電子回路やメモリ２８ｂを用いて実現される。

全体制御部３０は、モジュール３１ａ１～３１ａＭ、探索情報集約部３２、セレクタ３３を制御する。また、全体制御部３０は、探索情報集約部３２によって集計された探索情報を受け取り、並列試行ビット数Ｐを決定する。そして、全体制御部３０は、決定したＰに基づいて、後述するモジュール３１ａ１～３１ａＭのグループ構成を決定し、決定したグループ構成を示すグループ構成情報をセレクタ３３に供給する。

さらに、全体制御部３０は、セレクタ３３から供給される、各グループにおけるフリップビットインデックスに基づいて、記憶部に保持された各レプリカの状態ベクトルを更新する。フリップビットインデックスは、更新対象のビット（以下フリップビットという）のインデックスである。

また、全体制御部３０は、各レプリカの現在の状態ベクトルに対応するエネルギーを保持するエネルギー保持部に保持されている当該エネルギーに、当該インデックスに対応するΔＥを加算することで、各レプリカのエネルギーを更新してもよい。なお、図３では、各レプリカに対応する現在の状態ベクトルを保持する記憶部及び各レプリカの現在の状態ベクトルに対応するエネルギーを保持するエネルギー保持部は省略されている。当該記憶部やエネルギー保持部は、たとえばＦＰＧＡ２８ａ内のメモリ２８ｂの記憶領域により実現されてもよいし、レジスタにより実現されてもよい。

また、全体制御部３０は、モジュール３１ａ１～３１ａＭに対して制御情報、グループ構成情報、フリップビットの情報（以下フリップビット情報という）を供給する。フリップビット情報は、たとえば、フリップビットインデックスとフリップビットの反転方向（０から１に反転したか、１から０に反転したかを示す情報）とを含む。

モジュール３１ａ１～３１ａＭは、モジュール制御部３１ｂ１，３１ｂ２，…，３１ｂＭと、モジュール処理部３１ｃ１，３１ｃ２，…，３１ｃＭを有する。
モジュール制御部３１ｂ１～３１ｂＭは、全体制御部３０から制御情報、グループ構成情報、フリップビット情報を受け取り、モジュール３１ａ１～３１ａＭ内のパイプライン制御や、各レプリカの局所場の更新処理などを制御する。

モジュール３１ａ１～３１ａＭは、並列試行ビット数Ｐに基づいて適宜組み合わされてｎ個（ｎは２以上の整数）のグループにグループ化される。それぞれ１または複数のモジュールを含むｎ個のグループは、単位処理期間ごとに、複数のレプリカのうちのｎ個分ずつ、並列試行ビット数Ｐによる部分並列試行を行う。また、モジュール処理部３１ｃ１～３１ｃＭは、探索状況を示す探索情報を探索情報集約部３２に送る。モジュール処理部３１ｃ１～３１ｃＭの例については後述する。

探索情報集約部３２は、探索情報を集計し、集計した探索情報を全体制御部３０に送る。
セレクタ３３は、全体制御部３０から受け取ったグループ構成情報に基づいて、セレクタ構成を変える。そして、セレクタ３３は、更新候補のビット（以下フリップ候補ビットという）のインデックスが各グループについて複数ある場合、各グループあたり１つを並列に選択する。そして、セレクタ３３は、選択したインデックスを、フリップビットインデックスとして出力し、全体制御部３０に供給する。

以下、モジュール数Ｍ＝８の場合について説明するが、この数に限定されるわけではない。
図４は、モジュール処理部の一例を示す図である。なお、図４では、図３に示した全体制御部３０、モジュール制御部３１ｂ１～３１ｂＭ、探索情報集約部３２について図示が省略されている。

図４の例ではデータ処理装置２０は、モジュール処理部３１ｃ１～３１ｃ８を有している。
モジュール処理部３１ｃ１は、メモリ部４０ａ、ｈ計算部４０ｂ１～４０ｂＫ、ΔＥ計算部４０ｃ１～４０ｃＫ、セレクタ４０ｄ、探索情報取得部４０ｅを有する。その他のモジュール処理部３１ｃ２～３１ｃ８も同様の構成となっている。すなわち、モジュール処理部３１ｃ２は、メモリ部４１ａ、ｈ計算部４１ｂ１～４１ｂＫ、ΔＥ計算部４１ｃ１～４１ｃＫ、セレクタ４１ｄ、探索情報取得部４１ｅを有する。モジュール処理部３１ｃ３は、メモリ部４２ａ、ｈ計算部４２ｂ１～４２ｂＫ、ΔＥ計算部４２ｃ１～４２ｃＫ、セレクタ４２ｄ、探索情報取得部４２ｅを有する。モジュール処理部３１ｃ４は、メモリ部４３ａ、ｈ計算部４３ｂ１～４３ｂＫ、ΔＥ計算部４３ｃ１～４３ｃＫ、セレクタ４３ｄ、探索情報取得部４３ｅを有する。モジュール処理部３１ｃ５は、メモリ部４４ａ、ｈ計算部４４ｂ１～４４ｂＫ、ΔＥ計算部４４ｃ１～４４ｃＫ、セレクタ４４ｄ、探索情報取得部４４ｅを有する。モジュール処理部３１ｃ８は、メモリ部４７ａ、ｈ計算部４７ｂ１～４７ｂＫ、ΔＥ計算部４７ｃ１～４７ｃＫ、セレクタ４７ｄ、探索情報取得部４７ｅを有する。Ｋは、モジュール処理部３１ｃ１～３１ｃ８のそれぞれが扱うビット数である。

たとえば、メモリ部４０ａ～４７ａは、ＦＰＧＡ２８ａにおける、メモリ２８ｂを含む複数のメモリにより実現される。ｈ計算部４０ｂ１～４７ｂＫ、ΔＥ計算部４０ｃ１～４７ｃＫ、セレクタ４０ｄ～４７ｄ、探索情報取得部４０ｅ～４７ｅは、ＦＰＧＡ２８ａの電子回路により実現される。

図４では、ｈ計算部４０ｂ１～４７ｂＫに対し、ｎ番目のビットに対応することがわかりやすいように「ｈｎ」計算部のように添え字ｎを付して名称を表記している。同様に図４では、ΔＥ計算部４４ｃ１～４４ｃＫに対し、ｎ番目のビットに対応することが分かりやすいように「ΔＥｎ」計算部のように添え字ｎを付して名称を表記している。

たとえば、ｈ計算部４０ｂ１及びΔＥ計算部４０ｃ１が、Ｎ個のビットのうちの１番目のビットに関する演算を行う。また、ｈ計算部４０ｂＫ及びΔＥ計算部４０ｃＫがｉ番目のビットに関する演算を行う。

前述のように、モジュール３１ａ１～３１ａＭは、並列試行ビット数Ｐに基づいて適宜組み合わされてグループ化され、各グループにおいてあるレプリカについての部分並列試行を行う。

図４の例では、モジュール３１ａ１がグループＡに分類され、モジュール３１ａ２がグループＢに分類され、モジュール３１ａ３，３１ａ４がグループＣに分類され、モジュール３１ａ５～３１ａ８がグループＤに分類された場合が示されている。この場合、グループＡ，Ｂにてそれぞれ並列試行ビット数Ｐ＝Ｋの部分並列試行が行われ、グループＣにて並列試行ビット数Ｐ＝Ｋ×２の部分並列試行が行われ、グループＤにて並列試行ビット数Ｐ＝Ｋ×４の部分並列試行が行われる。

データ処理装置２０は、複数のレプリカに対する部分並列試行を、ｎ個のグループによるｎ個の処理（パイプライン）により並列に行うことで、ＦＰＧＡ２８ａの演算リソースを効率的に利用可能にする。たとえば、図４の例の場合、データ処理装置２０は、グループＡ～Ｄによる４個のパイプラインにより複数のレプリカを並列に処理する。本例では、レプリカの数を１６個とする。１６個のレプリカは、レプリカＲ０，Ｒ１，…，Ｒ１５と表記される。

ここで、メモリ部４０ａ～４７ａに格納される情報について説明する。メモリ部４０ａ～４７ａのそれぞれは、自グループのビットと他ビットとのペア毎の重み係数Ｗ＝｛Ｗ_γ，δ｝を記憶する。状態ベクトルのビット数がＮのとき、重み係数の総数はＮ^２となる。Ｗ_γ，δ＝Ｗ_δ，γである。Ｗ_γ，γ＝０である。各レプリカの処理は、同じ問題についての処理であるため、レプリカ数が増えても格納される重み係数の総数は変わらない。

図４の例では、メモリ部４０ａは、重み係数Ｗ_１，１～Ｗ_１，Ｎ，…，Ｗ_ｉ，１～Ｗ_ｉ，Ｎを記憶している。たとえば、重み係数Ｗ_１，１～Ｗ_１，Ｎは、Ｎ個のビットのうち１番目のビットに対応する演算に用いられる。メモリ部４０ａが記憶する重み係数の総数は、ｉ×Ｎ個である。なお、モジュール処理部３１ｃ１～３１ｃ８のそれぞれが扱うビット数がＫである場合、ｉ＝Ｋである。

メモリ部４１ａは、重み係数Ｗ_{ｉ＋１，１}～Ｗ_{ｉ＋１，Ｎ}，…，Ｗ_ｊ，１～Ｗ_ｊ，Ｎを記憶する。メモリ部４２ａは、重み係数Ｗ_{ｊ＋１，１}～Ｗ_{ｊ＋１，Ｎ}，…，Ｗ_ｋ，１～Ｗ_ｋ，Ｎを記憶する。メモリ部４３ａは、重み係数Ｗ_{ｋ＋１，１}～Ｗ_{ｋ＋１，Ｎ}，…，Ｗ_ｌ，１～Ｗ_ｌ，Ｎを記憶する。メモリ部４４ａは、重み係数Ｗ_{ｌ＋１，１}～Ｗ_{ｌ＋１，Ｎ}，…，Ｗ_ｍ，１～Ｗ_ｍ，Ｎを記憶する。メモリ部４７ａは、重み係数Ｗ_{ｏ＋１，１}～Ｗ_{ｏ＋１，Ｎ}，…，Ｗ_Ｎ，１～Ｗ_Ｎ，Ｎを記憶する。

メモリ部４０ａ～４７ａには、たとえば、モジュール制御部３１ｂ１～３１ｂＭから値が変化したビットのインデックスが供給される。そして、そのインデックスに対応する重み係数がメモリ部４０ａ～４７ａから読み出され、ｈ計算部４０ｂ１～４７ｂＫに供給される。

図４のようにグループ数が４つの場合、最大で同時に４個のインデックスがメモリ部４０ａ～４７ａに供給される。これにより、ｈ計算部４０ｂ１～４７ｂＫのそれぞれに対して最大で同時に４個の重み係数が供給される。当該４個の重み係数は、４個のレプリカに対応する。

以下では、主に、１番目のビットに対応するｈ計算部４０ｂ１、ΔＥ計算部４０ｃ１を例示して説明する。他のｈ計算部、ΔＥ計算部についても同様の機能である。
ｈ計算部４０ｂ１は、メモリ部４０ａから読み出された重み係数を用いて、式（３），（４）に基づき、並列に処理される４つのレプリカそれぞれに対して局所場ｈ_１を計算する。たとえば、ｈ計算部４０ｂ１は、該当のレプリカに対して前回計算された局所場ｈ_１を保持するレジスタを有し、該当のレプリカのδｈ_１を、当該ｈ_１に加算することで、当該レジスタに格納される該当のレプリカのｈ_１を更新する。なお、各レプリカに関して反転対象のインデックスで示されるビットの反転方向を示す信号は、モジュール制御部３１ｂ１からｈ計算部４０ｂ１に供給される。ｈ_１の初期値は、問題に応じたｂ_１に応じて、式（３）により予め計算され、ｈ計算部４０ｂ１のレジスタに予め設定される。

ΔＥ計算部４０ｃ１は、ｈ計算部４０ｂ１に保持される、次の処理対象である１つのレプリカの局所場ｈ_１を用いて、式（２）に基づき、当該レプリカにおける自ビットの反転に応じたエネルギーの変化量であるΔＥ_１を計算する。ΔＥ計算部４０ｃ１は、たとえば、該当のレプリカの自ビットの現在の値から、自ビットの反転方向を判別し得る。たとえば、自ビットの現在の値が０なら０から１が反転方向となり、自ビットの現在の値が１なら１から０が反転方向となる。ΔＥ計算部４０ｃ１は、計算したΔＥ_１をセレクタ４０ｄに供給する。

セレクタ４０ｄは、ΔＥ計算部４０ｃ１～４０ｃＫから同時に供給されるΔＥごとに式（６）の判定を行い、該当ビットの反転可否を決定する。たとえば、セレクタ４０ｄは、ΔＥ計算部３３ａ１計算したエネルギー変化ΔＥ_１に対して、式（６）に基づき、インデックス＝１のビットの反転を許容するか否かを判定する。具体的には、セレクタ４０ｄは、－ΔＥ_１とＴに応じた熱ノイズとの比較に応じて、該当のレプリカに関して該当ビットの反転可否を判定する。熱ノイズは、式（６）における一様乱数ｕの自然対数値とＴとの積に相当する。

さらに、セレクタ４０ｄは、式（６）に基づいてフリップ候補ビットの中から１つを乱数に基づいてランダムに選択し、選択したビットに対応するインデックスをセレクタ３３に供給する。なお、反転可と判定されるビットがない場合、セレクタ４０ｄは、インデックスを出力しなくてもよいが、前述のリジェクションフリー手法が用いられる場合は、常に１つのビットのインデックスが出力される。

セレクタ４１ｄ～４７ｄも自モジュールが処理するビットに対して、セレクタ４０ｄと同様に機能する。
探索情報取得部４０ｅは、モジュール３１ａ１内における探索情報を取得する。探索情報取得部４０ｅは、たとえば、セレクタ４０ｄより出力されるインデックスの数（フリップ候補ビットの数に相当する）を探索情報として取得する。探索情報取得部４０ｅは、各レプリカにおけるフリップビット数や、エネルギーの変化量などの情報を探索情報として取得してもよい。

探索情報取得部４１ｅ～４７ｅも、探索情報取得部４０ｅと同様の機能を有する。
前述のようにモジュール３１ａ１がグループＡ、モジュール３１ａ２がグループＢ、モジュール３１ａ３，３１ａ４がグループＣ、モジュール３１ａ５～３１ａ８がグループＤに分類されている場合、セレクタ３３は以下のように機能する。

グループＡは、１つのモジュール３１ａ１からなるため、セレクタ３３は、モジュール３１ａ１のモジュール処理部３１ｃ１が出力するインデックスを出力する機能（“１－１Ｓｅｌｅｃｔ”と図示されている）を含む。グループＢは、１つのモジュール３１ａ２からなるため、セレクタ３３は、モジュール３１ａ２のモジュール処理部３１ｃ２が出力するインデックスを出力する機能を含む。グループＣは、２つのモジュール３１ａ３，３１ａ４からなる。そのため、セレクタ３３は、モジュール３１ａ３，３１ａ４のモジュール処理部３１ｃ３，３１ｃ４の何れかが出力するインデックスを選択して出力する機能（“２－１Ｓｅｌｅｃｔ”と図示されている）を含む。グループＤは、４つのモジュール３１ａ５～３１ａ８からなる。そのため、セレクタ３３は、モジュール３１ａ５～３１ａ８のモジュール処理部３１ｃ５～３１ｃ８の何れかが出力するインデックスを選択して出力する機能（“４－１Ｓｅｌｅｃｔ”と図示されている）を含む。

セレクタ３３は、複数のインデックスのうち１つを選択する際に、乱数に基づいてランダムに選択する。また、セレクタ３３は、たとえば、セレクタ４０ｄ～４７ｄから供給される選択重み情報に基づいて、何れかのインデックスを優先的に選択するようにしてもよい。選択重み情報として、たとえば、フリップ候補ビット数を用いることができる。この場合、フリップ候補ビット数が多いモジュール処理部から出力されたインデックスが優先的に選択される。また、セレクタ４０ｄ～４７ｄがリジェクションフリー手法を用いる場合、セレクタ４０ｄ～４７ｄが選択したビットに対応したｍａｘ（０，ΔＥ_ｉ）＋Ｔｌｏｇ（－ｌｏｇ（ｕ［ｉ］））の値を、選択重み情報として用いることもできる。その場合、ｍａｘ（０，ΔＥ_ｉ）＋Ｔｌｏｇ（－ｌｏｇ（ｕ［ｉ］））の値が小さくなるモジュール処理部から出力されたインデックスが優先的に選択される。

このようなセレクタ３３は、たとえば、４つの８入力１出力のイネーブル付ゲート回路を用いて実現できる。“１－１Ｓｅｌｅｃｔ”を実現するゲート回路は、８入力のうち、１入力がイネーブル信号（たとえば、全体制御部３０から供給されるグループ構成情報に含まれる）により有効とされる。“２－１Ｓｅｌｅｃｔ”を実現するゲート回路は、８入力のうち、２入力がイネーブル信号により有効とされる。“４－１Ｓｅｌｅｃｔ”を実現するゲート回路は、８入力のうち、４入力がイネーブル信号により有効とされる。そして、上記の選択処理が行われる。

図５は、モジュール処理部における局所場更新の機能例を示す図である。図５では、モジュール３１ａ１のモジュール処理部３１ｃ１における局所場更新の機能例が示されている。他のモジュール処理部３１ｃ２～３１ｃＭにおける局所場更新の機能も、モジュール処理部３１ｃ１における局所場更新の機能と同様である。

メモリ部４０ａは、モジュール数Ｍ＝８に対応した、８つのメモリ４０ｐ１，４０ｐ２，…，４０ｐ８を有する。メモリ４０ｐ１は、重み係数Ｗ_１，１～Ｗ_１，ｉ，Ｗ_２，１～Ｗ_２，ｉ，…，Ｗ_ｉ，１～Ｗ_ｉ，ｉを記憶する。メモリ４０ｐ２は、Ｗ_{１，ｉ＋１}～Ｗ_１，ｊ，Ｗ_{２，ｉ＋１}～Ｗ_２，ｊ，…，Ｗ_{ｉ，ｉ＋１}～Ｗ_ｉ，ｊを記憶する。メモリ４０ｐ８は、Ｗ_{１，ｋ＋１}～Ｗ_１，Ｎ，Ｗ_{２，ｋ＋１}～Ｗ_２，Ｎ，…，Ｗ_{ｉ，ｋ＋１}～Ｗ_ｉ，Ｎを記憶する。

ｈ計算部４０ｂ１～４０ｂＫのそれぞれは、最大４つの重み係数を用いて、最大で４つのレプリカの自ビットに対応する局所場を、式（３），（４）に基づいて並列に更新する。たとえば、ｈ計算部４０ｂ１は、ｈ保持部ｒ１、セレクタｓ１０，ｓ１１，ｓ１２，ｓ１３及び加算器ｃ１，ｃ２，ｃ３，ｃ４を有する。他のｈ計算部も、ｈ計算部４０ｂ１と同様の機能を有する。たとえば、ｈ計算部４０ｂＫは、ｈ保持部ｒｉ、セレクタｓｉ０，ｓｉ１，ｓｉ２，ｓｉ３及び加算器ｃ５，ｃ６，ｃ７，ｃ８を有する。以下、ｈ計算部４０ｂ１について説明する。

ｈ保持部ｒ１は、１６個のレプリカそれぞれに対応する自ビットの局所場を保持する。ｈ保持部ｒ１は、フリップフロップで構成されてもよいし、１Ｒｅａｄ当たり１Ｗｏｒｄを読み出す４つのＲＡＭで構成されてもよい。ｈ計算部４０ｂ１における自ビットは、インデックス＝１のビットである。

セレクタｓ１０は、メモリ４０ｐ１～４０ｐ８から読み出される８つの重み係数のうちの４つを選択して、選択した４つの重み係数のそれぞれを、加算器ｃ１，ｃ２，ｃ３，ｃ４の何れかに供給する。セレクタｓ１０は、たとえば、４つの８入力１出力のイネーブル付ゲート回路を用いて実現できる。このようなゲート回路では、グループ構成情報に基づいてモジュール制御部３１ｂ１から供給されるイネーブル信号によって、８入力の何れか１つが有効となり、有効となった入力の重み係数が出力される。

セレクタｓ１１は、ｈ保持部ｒ１から、各グループで処理される更新対象のレプリカの局所場を読み出し、加算器ｃ１，ｃ２，ｃ３，ｃ４に供給する。セレクタｓ１１がｈ保持部ｒ１から同時に読み出す局所場の最大数は４である。

加算器ｃ１，ｃ２，ｃ３，ｃ４は、セレクタｓ１１から供給される４つのグループで処理中のレプリカに関する局所場に、セレクタｓ１０が出力する重み係数を加算することで、当該局所場を更新し、セレクタｓ１２に供給する。重み係数の符号は、前述のように、たとえば、モジュール制御部３１ｂ１から供給されるビットの反転方向を示す信号によって決定可能である。

セレクタｓ１２は、加算器ｃ１～ｃ４により更新された該当のレプリカの局所場を、ｈ保持部ｒ１に格納する。
セレクタｓ１３は、モジュール３１ａ１が属するグループＡにおける次の処理対象のレプリカにおける自ビットの局所場をｈ保持部ｒ１から読み出し、ΔＥ計算部４０ｃ１に供給する。

このようにｈ計算部４０ｂ１は、セレクタｓ１０，ｓ１１，ｓ１２及び加算器ｃ１，ｃ２，ｃ３，ｃ４により、最大で４つのレプリカに関して、インデックス＝１に対応する局所場を同時に更新することができる。

データ処理装置２０は、上記の構成により、１６個のレプリカに対して最大４つのパイプラインを並列に実行する。
次に、全体制御部３０によって決定されたグループ構成に応じたレプリカの処理例を説明する。なお、以下の例では、１つのパイプラインの段数、すなわち、ステージの数は４であるとする。

第１ステージは、ΔＥ計算である。ΔＥ計算は、各グループにおいて、当該グループに属する各ビットに対するΔＥを並列に計算する処理である。
第２ステージは、Ｆｌｉｐ判定である。Ｆｌｉｐ判定は、並列に計算された各ビットのΔＥに対して、反転対象のビットを１つ選択する処理である。

第３ステージは、ＷＲｅａｄである。ＷＲｅａｄは、メモリ部４０ａ～４７ａから重み係数を読み出す処理である。
第４ステージは、ｈ更新である。ｈ更新は、読み出された重み係数に基づいて、該当のレプリカに係る局所場を更新する処理である。ｈ更新のステージと並行して該当のレプリカにおける反転対象のビットの反転が行われる。よって、ｈ更新のステージはビット更新のステージであるともいえる。

なお、パイプラインのステージの数は４に限られるものではない。
また、以下では、パイプラインの１ステージ分の処理を行う期間を１ステップ期間という。

図６は、決定されたグループ構成に応じたレプリカの処理の第１の例を示す図である。図６において、Ｍ０～Ｍ７は、モジュール３１ａ１～３１ａ８を表している。以降の図においても、モジュール３１ａ１～３１ａ８はＭ０～Ｍ７と表記されている。

図６の例では、まず、モジュール３１ａ１～３１ａ８が２つずつ組み合わされている。すなわち、モジュール３１ａ１～３１ａ８によるグループ数は４つである。この場合、１ステップ期間あたり、レプリカＲ０～Ｒ１５のうちの４つにおいて、並列試行ビット数Ｐ＝Ｋ×２による部分並列試行が並列に実行される。

データ処理装置２０は、あるグループで処理しているレプリカのｈ更新後に、次のグループで同レプリカの処理が行われるように、各ステージにおいて４ステップ期間分、あるいは４ステップ期間以上ずれたタイミングで、当該レプリカの処理を開始する。これにより、各レプリカ内では前のビット更新が反映された局所場を使用してΔＥ計算が行われるので、ＭＣＭＣ法の逐次処理の原則が守られる。

図６の例では、４ステップ期間分ずれたタイミングで、あるグループで処理しているレプリカが、次のグループで処理されている。
次に、図６の例では、あるタイミングでモジュール３１ａ１～３１ａ８が４つずつ組み合わされる構成に変化している。すなわち、モジュール３１ａ１～３１ａ８によるグループ数が４つから２つに変化している。この場合、１ステップ期間あたり、レプリカＲ０～Ｒ１５のうちの２つにおいて、並列試行ビット数Ｐ＝Ｋ×４による部分並列試行が並列に実行される。また、並列に処理されるレプリカ数が２つになるため、データ処理装置２０は、たとえば、あるグループで処理しているレプリカのｈ更新が終わった後に、次のグループで同レプリカの処理が行われるまでのステップ期間を変える。図６の例では、グループ数が４のときに上記のステップ期間が４ステップ期間とされていたのが、グループ数が２のときには、上記のステップ期間が８ステップ期間に変更されている。

図７は、決定されたグループ構成に応じたレプリカの処理の第２の例を示す図である。
図７の例では、モジュール３１ａ１～３１ａ８（Ｍ０～Ｍ７）がそれぞれ１、１、２、４個のモジュールが属する４つのグループに分けられている。図７の例では、各レプリカの部分並列試行が、４種類の何れかの並列試行ビット数Ｐで行われる。レプリカＲ０～Ｒ７は、１つのモジュールを用いて処理されるので、並列試行ビット数ＰはＫである。レプリカＲ８～Ｒ１１は、２つのモジュールを用いて処理されるので、並列試行ビット数ＰはＫ×２である。レプリカＲ１２～Ｒ１５は、４つのモジュールを用いて処理されるので、並列試行ビット数ＰはＫ×４である。

このような並列試行ビット数Ｐの違いにより、Ｎ個のビット全体について試行が行われる周期がレプリカごとに変わる。最少のモジュールを用いて処理されるレプリカ（本例ではレプリカＲ０～Ｒ７）において、ビット全体についての１回の試行が行われることで、全レプリカにおいて、Ｎ個のビット全体についての１回の試行が行われることになる。

図７の例では、レプリカＲ０～Ｒ７は、１ステップ期間で１つのモジュールを用いて処理される。レプリカＲ０～Ｒ７において、Ｎ個のビット全体が８つのモジュールで分割して処理される場合、ビット全体についての１回の試行が行われるステップ期間は、４（パイプライン段数）×８（モジュール数）＝３２ステップ期間である。

この場合、全体制御部３０は、３２ステップ期間で各レプリカがＮ個のビット全体について試行を少なくとも１回終えるように、図７に示すように、各レプリカの処理が割り当てられるモジュールや、各モジュールのグループ構成を制御する。

図８は、パイプライン処理の例を示す図である。
図８の例では、データ処理装置２０は、あるグループで処理しているレプリカのｈ更新後に、次のグループで同レプリカの処理が行われるように、各ステージにおいて４ステップ期間分ずれたタイミングで、当該レプリカの処理を開始している。たとえば、モジュール３１ａ８（Ｍ７）のグループにおけるレプリカＲ０のｈ更新後に、モジュール３１ａ４（Ｍ３）のグループでレプリカＲ０の処理が行われるように、各ステージにおいて４ステップ期間分ずれたタイミングでレプリカＲ０の処理が開始される。

これにより、各レプリカ内では前のビット更新が反映された局所場を使用してΔＥ計算が行われるので、ＭＣＭＣ法の逐次処理の原則が守られる。
ここで、局所場の更新は、該当のレプリカの全てのビットに反映する必要がある。このため、重み係数の読み出しは４つのレプリカの全てのビットに対して同時に行われる。図５で例示したように、データ処理装置２０は、各グループに対応する重み係数を保持するメモリを、たとえばメモリ４０ｐ１～４０ｐ８のように分ける。よって、複数のレプリカに対応するアクセスが同じメモリに重なることはない。たとえば、図８の星印のステップ期間では、次のように重み係数の読み出しが行われる。

図９は、重み係数の読み出しの例を示す図である。
モジュール３１ａ１～３１ａ８（Ｍ０～Ｍ７）のメモリ部４０ａ～４７ａのそれぞれは、８つのメモリに分けられている。８つのメモリのそれぞれには、自モジュールに割り当てられているＫ個のビットと、モジュール３１ａ１～３１ａ８の何れかに割り当てられているＫ個のビット間の重み係数が保持されている。

たとえば、モジュール３１ａ１のメモリ部４０ａには、Ｗ０（Ｍ０），Ｗ０（Ｍ１），Ｗ０（Ｍ２），Ｗ０（Ｍ３），Ｗ０（Ｍ４），Ｗ０（Ｍ５），Ｗ０（Ｍ６），Ｗ０（Ｍ７）が８つのメモリ（図５のメモリ４０ｐ１～４０ｐ８）に分けられて保持されている。たとえば、Ｗ０（Ｍ０）は、モジュール３１ａ１に割り当てられているＫ個のビット間の重み係数である。Ｗ０（Ｍ７）は、モジュール３１ａ１に割り当てられているＫ個のビットとモジュール３１ａ８に割り当てられているＫ個のビット間の重み係数である。

たとえば、モジュール３１ａ８のメモリ部４７ａには、Ｗ７（Ｍ０），Ｗ７（Ｍ１），Ｗ７（Ｍ２），Ｗ７（Ｍ３），Ｗ７（Ｍ４），Ｗ７（Ｍ５），Ｗ７（Ｍ６），Ｗ７（Ｍ７）が８つのメモリに分けられて保持されている。たとえば、Ｗ７（Ｍ０）は、モジュール３１ａ８に割り当てられているＫ個のビットとモジュール３１ａ１に割り当てられているＫ個のビット間の重み係数である。Ｗ７（Ｍ７）は、モジュール３１ａ８に割り当てられているＫ個のビット間の重み係数である。

図４に示したようなグループ構成（図９ではグループＡ～ＤがＧＡ～ＧＤと表記されている）の場合、Ｗ０（Ｍ０）～Ｗ７（Ｍ０）が、グループＡに割り当てられたビットの反転時に、各モジュールのｈ更新のために用いられる重み係数である。また、Ｗ０（Ｍ１）～Ｗ７（Ｍ１）が、グループＢに割り当てられたビットの反転時に、各モジュールのｈ更新のために用いられる重み係数である。さらに、Ｗ０（Ｍ２）～Ｗ７（Ｍ２），Ｗ０（Ｍ３）～Ｗ７（Ｍ３）が、グループＣに割り当てられたビットの反転時に、各モジュールのｈ更新のために用いられる重み係数である。また、Ｗ０（Ｍ４）～Ｗ７（Ｍ４），Ｗ０（Ｍ５）～Ｗ７（Ｍ５），Ｗ０（Ｍ６）～Ｗ７（Ｍ６），Ｗ０（Ｍ７）～Ｗ７（Ｍ７）が、グループＤに割り当てられたビットの反転時に、各モジュールのｈ更新のために用いられる重み係数である。

図８の星印のステップ期間では、グループＡに属するモジュール３１ａ１（Ｍ０）が処理するレプリカＲ４のビットの反転時に、Ｗ０（Ｍ０）～Ｗ７（Ｍ０）を保持する各メモリから重み係数が読み出される。また、グループＢに属するモジュール３１ａ２（Ｍ１）が処理するレプリカＲ０のビットの反転時に、Ｗ０（Ｍ１）～Ｗ７（Ｍ１）を保持する各メモリから重み係数が読み出される。

さらに、グループＣに属するモジュール３１ａ３（Ｍ２），３１ａ４（Ｍ３）が処理するレプリカＲ８のビットの反転時に、Ｗ０（Ｍ２）～Ｗ７（Ｍ２）またはＷ０（Ｍ３）～Ｗ７（Ｍ３）を保持する各メモリから重み係数が読み出される。反転したビットがモジュール３１ａ４に割り当てられたビットである場合、図９のように、Ｗ０（Ｍ３）～Ｗ７（Ｍ３）を保持する各メモリから重み係数が読み出される。

また、グループＤに属するモジュール３１ａ５（Ｍ４）～３１ａ８（Ｍ７）が処理するレプリカＲ１２のビットの反転時に、モジュール３１ａ５（Ｍ４）～３１ａ８（Ｍ７）の何れかに関する重み係数を保持している各メモリから重み係数が読み出される。すなわち、Ｗ０（Ｍ４）～Ｗ７（Ｍ４）、Ｗ０（Ｍ５）～Ｗ７（Ｍ５）、Ｗ０（Ｍ６）～Ｗ７（Ｍ６）、またはＷ０（Ｍ７）～Ｗ７（Ｍ７）の何れかを保持する各メモリから重み係数が読み出される。反転したビットがモジュール３１ａ７に割り当てられたビットである場合、図９のように、Ｗ０（Ｍ６）～Ｗ７（Ｍ６）を保持する各メモリから重み係数が読み出される。

このように、４つのレプリカについての処理は、異なるモジュールに割り当てられたビットに対する処理であるため、図９のようにモジュール単位でメモリを分けておけば、４つのレプリカでのビットの反転時のメモリアクセスが、同じメモリ（同じ読み出しポート）に重なることがない。これによって、ｈ更新の際のメモリアクセスがボトルネックとなって計算時間が長くなることを抑制できる。

なお、データ処理装置２０は、ｈ更新の際に、重み係数の値が０であるか否かを判定し、値が０である重み係数に対してはメモリからの読み出しを行わず、値が０でない重み係数だけを読み出すようにしてもよい。これにより、メモリから重み係数を読み出す回数を削減できる。なお、この場合、全重み係数のうち値が０である重み係数の割合によって、読み出しにかかるサイクル数が可変となるが、データ処理装置２０は、サイクル数が所定の閾値より長いときは、パイプラインをストールするように制御すればよい。

次に、データ処理装置２０の処理手順を説明する。まず、レプリカ１つ分についての処理手順を説明する。
図１０は、データ処理装置の処理手順の一例を示すフローチャートである。

（Ｓ２０）ＦＰＧＡ２８ａの全体制御部３０は、初期設定を行う。たとえば、初期設定には、並列試行ビット数Ｐの初期値の設定や、探索情報の集計用の変数の初期化などが含まれる。以下の例では、探索情報の集計用の変数として、ｉｔｒｎｕｍ、Ｃｓｕｍ、Ｆｓｕｍ、Ｄｓｕｍ、Ｅｍｉｎ、Ｅｍｉｎｕｐｄａｔｅが用いられる。

ｉｔｒｎｕｍは、イタレーション回数を表す変数である。Ｃｓｕｍは、フリップ候補ビット数の累計値を表す変数である。Ｆｓｕｍは、フリップビット数の累計値を表す変数である。Ｅｍｉｎは、最小エネルギーを表す変数である。Ｄｓｕｍは、ハミング距離で表される状態ベクトルの移動量（移動距離）の累計値を表す変数である。

ステップＳ２０の処理では、ｉｔｒｎｕｍ＝０、Ｃｓｕｍ＝０、Ｆｓｕｍ＝０、Ｅｍｉｎｕｐｄａｔｅ＝０に初期化される。Ｅｍｉｎは、たとえば、データ処理装置２０が扱うことができる最大値に初期化される。

なお、ステップＳ２０の処理では、たとえば、ＣＰＵ２１の制御のもとＦＰＧＡ２８ａに供給される問題情報（エネルギー関数に含まれる重み係数やバイアスなど）を、全体制御部３０が、モジュール３１ａ１～３１ａＭに設定してもよい。

（Ｓ２１）全体制御部３０は、並列試行ビット数Ｐの変更タイミングであるか否かを判定する。たとえば、所定期間（所定のイタレーション回数）ごとに、並列試行ビット数Ｐの変更タイミングであると判定される。全体制御部３０は、変更タイミングであると判定した場合には、ステップＳ２２の処理に進み、変更タイミングではないと判定した場合、ステップＳ２３の処理が行われる。

（Ｓ２２）全体制御部３０は、並列試行ビット数Ｐを決定する処理を行う。ステップＳ２２の処理の例については後述する。
（Ｓ２３）全体制御部３０は、モジュール３１ａ１～３１ａＭに対して制御情報、グループ構成情報、フリップビット情報を供給し、モジュール３１ａ１～３１ａＭに部分並列試行ループを実行させる。また、全体制御部３０は、決定したＰに基づいて、後述するモジュール３１ａ１～３１ａＭのグループ構成を決定し、決定したグループ構成を示すグループ構成情報をセレクタ３３に供給する。

（Ｓ２４）モジュール３１ａ１～３１ａＭのうちの何れか１つまたは複数の組合せにより、並列試行ビット数Ｐでの部分並列試行が行われる。ステップＳ２４の処理では、当該レプリカのＰ個のビットについて、並列にＤＥ計算及びＦｌｉｐ判定が行われる。

（Ｓ２５）セレクタ３３は、フリップビットを選択する。ステップＳ２５の処理では、セレクタ３３は、Ｆｌｉｐ判定の結果得られたフリップ候補ビットのインデックスの何れかを選択することでフリップビットを選択する。選択したフリップビットのインデックス（フリップビットインデックス）は、全体制御部３０に供給される。

（Ｓ２６）全体制御部３０は、記憶部に保持された各レプリカの状態ベクトルのうち、セレクタ３３から供給されるフリップビットインデックスに対応するビットを更新する。また、全体制御部３０は、フリップビット情報を、モジュール３１ａ１～３１ａＭに供給する。モジュール３１ａ１～３１ａＭは、フリップビット情報に基づいて、ｈ更新を行う。

（Ｓ２７）探索情報集約部３２は、探索情報の集計及び記録を行う。ステップＳ２７の処理の例については後述する。
（Ｓ２８）モジュール３１ａ１～３１ａＭは、レプリカにおける全ビット（Ｎビット）の試行を終えるまで、全体制御部３０の制御に基づいて、部分並列試行を行う領域をずらして、ステップＳ２４からステップＳ２７の処理を繰り返す。レプリカにおける全ビット（Ｎビット）の試行が終わると、全体制御部３０は、ステップＳ２９の処理に進む。

（Ｓ２９）全体制御部３０は、探索終了であるか否かを判定する。全体制御部３０は、所定の探索終了条件が満たされた場合、探索終了であると判定する。たとえば、全体制御部３０は、イタレーション回数が所定回数に達した場合、探索終了であると判定する。探索終了と判定された場合、ＦＰＧＡ２８ａは処理を終了する。探索終了でないと判定された場合、ステップＳ２１からの処理が繰り返される。

なお、ＦＰＧＡ２８ａは、ＳＡ法を行う場合、たとえば、部分並列試行が所定回数、繰り返されるたび、所定の温度パラメータ変更スケジュールにしたがって、Ｔの値を小さくしていく。ＦＰＧＡ２８ａは、レプリカ交換法を行う場合、複数のレプリカのそれぞれに異なるＴの値を設定し、部分並列試行が所定回数繰り返されるごとに、レプリカ交換を行う。たとえば、ＦＰＧＡ２８ａは、隣り合うＴの値をもつレプリカを２つ選択して、レプリカ間のエネルギー差やＴの値の差に基づいた所定の交換確率で、Ｔの値または状態を交換する。

ＦＰＧＡ２８ａは、処理を終了すると、最終的に得られた各レプリカに対応する状態ベクトルを解としてＣＰＵ２１に出力する。ＦＰＧＡ２８ａは、各レプリカに対応するエネルギーを状態ベクトルとともにＣＰＵ２１に出力してもよい。ＦＰＧＡ２８ａは、探索で得られた解のうち、最もエネルギーの低い解を最終的な解として、ＣＰＵ２１に出力してもよい。ＣＰＵ２１は、ＧＰＵ２４を制御して、ディスプレイ１０１に、解を表示させてもよい。

次に、探索情報集約部３２による、探索情報の集計及び記録の手順の例を説明する。
図１１は、探索情報の集計及び記録の手順の一例を示すフローチャートである。なお、探索情報集約部３２は、並列試行ビット数Ｐの決定処理に用いる探索情報だけを集計すればよいが、図１１では、複数種類の探索情報を集計する例が示されている。

（Ｓ４０）探索情報集約部３２は、ｉｔｒｎｕｍをカウントアップ（＋１）する。
（Ｓ４１）探索情報集約部３２は、探索情報を取得する。本例では、探索情報集約部３２は、フリップ候補ビット数Ｃ、フリップの有無Ｆ（有りの場合はＦ＝１、無しの場合はＦ＝０）、現在の状態ベクトルＳｔａｔｅｃｕｒ、現在のエネルギーＥｃｕｒを、探索情報として取得する。フリップ候補ビット数Ｃは、モジュール３１ａ１～３１ａＭから取得でき、フリップの有無Ｆは、セレクタ３３がフリップインデックスを出力するか否かによって取得できる。現在の状態ベクトルＳｔａｔｅｃｕｒや現在のエネルギーＥｃｕｒが、メモリ２８ｂに記憶されている場合、探索情報集約部３２は、メモリ２８ｂからＳｔａｔｅｃｕｒ、Ｅｃｕｒを取得する。

（Ｓ４２）探索情報集約部３２は、Ｅｃｕｒ＜Ｅｍｉｎであるか否かを判定する。探索情報集約部３２は、Ｅｃｕｒ＜Ｅｍｉｎであると判定した場合、ステップＳ４３の処理を行い、Ｅｃｕｒ＜Ｅｍｉｎではないと判定した場合、ステップＳ４４の処理を行う。

（Ｓ４３）探索情報集約部３２は、ＥｍｉｎをＥｃｕｒで更新するとともに、Ｅｍｉｎｕｐｄａｔｅをカウントアップ（＋１）する。
（Ｓ４４）探索情報集約部３２は、移動量取得タイミングであるか否かを判定する。探索情報集約部３２は、たとえば、ｉｔｒｎｕｍが、前回の移動量取得タイミングから所定回数増えた場合に、移動量取得タイミングであると判定する。探索情報集約部３２は移動量取得タイミングであると判定した場合、ステップＳ４５の処理を行い、移動量取得タイミングではないと判定した場合、ステップＳ４７の処理を行う。

（Ｓ４５）探索情報集約部３２は、基準状態ベクトルと現在の状態ベクトルＳｔａｔｅｃｕｒとの間の移動量（ハミング距離）Ｄを計算する。
（Ｓ４６）探索情報集約部３２は、基準状態ベクトルを更新する。基準状態ベクトルは、たとえば、Ｓｔａｔｅｃｕｒに更新される。

（Ｓ４７）探索情報集約部３２は、探索情報を集計する。具体的には、探索情報集約部３２は、ＣｓｕｍにＣを加え、ＦｓｕｍにＦを加え、ＤｓｕｍにＤを加えることで、Ｃｓｕｍ、Ｆｓｕｍ、Ｄｓｕｍを更新する。

これにより、探索情報集約部３２は、探索情報の集計及び記録の１回の処理を終える。
上記のような探索情報の集計及び記録は、レプリカごとに行われてもよいし、全レプリカについてまとめて行われてもよい。

次に、全体制御部３０による並列試行ビット数Ｐの決定処理の手順の例を説明する。
図１２は、並列試行ビット数Ｐの決定処理の手順の第１の例を示すフローチャートである。

（Ｓ５０）全体制御部３０は、フリップ候補ビット数の平均値Ｃａｖｅを算出する。全体制御部３０は、探索情報集約部３２から供給されるＣｓｕｍを、ｉｔｒｎｕｍ（イタレーション回数）で割ることで、Ｃａｖｅを算出する。

（Ｓ５１）全体制御部３０は、Ｃａｖｅ＞Ｃｔｈｕ、かつＰ＞Ｐｔｈｌであるか否かを判定する。Ｃｔｈｕは、Ｃａｖｅの第１の閾値である。Ｐｔｈｌは、並列試行ビット数Ｐの下限値（たとえば、Ｋ（１モジュールで扱うビット数））である。全体制御部３０は、Ｃａｖｅ＞Ｃｔｈｕ、かつＰ＞Ｐｔｈｌであると判定した場合、ステップＳ５３の処理を行い、Ｃａｖｅ＞Ｃｔｈｕではない、またはＰ＞Ｐｔｈｌではないと判定した場合、ステップＳ５２の処理を行う。

（Ｓ５２）全体制御部３０は、Ｃａｖｅ＜Ｃｔｈｌ、かつＰ＜Ｐｔｈｕであるか否かを判定する。Ｃｔｈｌは、Ｃａｖｅの第２の閾値であり、Ｃｔｈｌ＜Ｃｔｈｕである。Ｐｔｈｕは、並列試行ビット数Ｐの上限値（たとえば、Ｋ×Ｍ（モジュール数））である。全体制御部３０は、Ｃａｖｅ＜Ｃｔｈｌ、かつＰ＜Ｐｔｈｕであると判定した場合、ステップＳ５４の処理を行い、Ｃａｖｅ＜Ｃｔｈｌではない、またはＰ＜Ｐｔｈｕではないと判定した場合、ステップＳ５５の処理を行う。

（Ｓ５３）全体制御部３０は、並列試行ビット数Ｐを少なくするために、Ｐ＝Ｐ－Ｐｄｅｃとする。ＰｄｅｃはＫの整数倍の値であり、予め決められている。
Ｃａｖｅが多すぎる場合、無駄な計算が増え、演算量が大きくなるため、演算量を抑えるため、全体制御部３０は、並列試行ビット数Ｐを少なくしている。

（Ｓ５４）全体制御部３０は、並列試行ビット数Ｐを多くするために、Ｐ＝Ｐ＋Ｐｉｎｃとする。ＰｉｎｃはＫの整数倍の値であり、予め決められている。ＰｉｎｃはＰｄｅｃと同じ値であってもよい。

Ｃａｖｅが少なすぎる場合、エネルギーを最小化する上で適切なフリップ候補ビットが選ばれづらくなり、求解性能が悪化している可能性がある。そのため、適切な状態遷移を促し、求解性能を向上させるために、上記のように並列試行ビット数Ｐを大きくする。

（Ｓ５５）全体制御部３０は、決定した並列試行ビット数Ｐをモジュール３１ａ１～３１ａＭに設定する。
（Ｓ５６）全体制御部３０は、探索情報の集計用の変数を初期化し、並列試行ビット数Ｐの決定処理を終える。ステップＳ５６の処理では、ｉｔｒｎｕｍ＝０、Ｃｓｕｍ＝０、Ｆｓｕｍ＝０、Ｄｓｕｍ＝０、Ｅｍｉｎｕｐｄａｔｅ＝０に初期化される。

図１３は、並列試行ビット数Ｐの決定処理の手順の第２の例を示すフローチャートである。
（Ｓ６０）全体制御部３０は、所定期間におけるフリップビットの発生率を示すフリップ率Ｆｒａｔｅを算出する。全体制御部３０は、探索情報集約部３２から供給されるＦｓｕｍを、ｉｔｒｎｕｍ（イタレーション回数）で割ることで、Ｆｒａｔｅを算出する。

（Ｓ６１）全体制御部３０は、Ｆｒａｔｅ＞Ｆｔｈｕ、かつＰ＞Ｐｔｈｌであるか否かを判定する。Ｆｔｈｕは、Ｆｒａｔｅの第１の閾値である。全体制御部３０は、Ｆｒａｔｅ＞Ｆｔｈｕ、かつＰ＞Ｐｔｈｌであると判定した場合、ステップＳ６３の処理を行い、Ｆｒａｔｅ＞Ｆｔｈｕではない、またはＰ＞Ｐｔｈｌではないと判定した場合、ステップＳ６２の処理を行う。

（Ｓ６２）全体制御部３０は、Ｆｒａｔｅ＜Ｆｔｈｌ、かつＰ＜Ｐｔｈｕであるか否かを判定する。Ｆｔｈｌは、Ｆｒａｔｅの第２の閾値であり、Ｆｔｈｌ＜Ｆｔｈｕである。全体制御部３０は、Ｆｒａｔｅ＜Ｆｔｈｌ、かつＰ＜Ｐｔｈｕであると判定した場合、ステップＳ６４の処理を行い、Ｆｒａｔｅ＜Ｆｔｈｌではない、またはＰ＜Ｐｔｈｕではないと判定した場合、ステップＳ６５の処理を行う。

（Ｓ６３）全体制御部３０は、並列試行ビット数Ｐを少なくするために、Ｐ＝Ｐ－Ｐｄｅｃとする。Ｆｒａｔｅが大きすぎる場合、状態遷移が起こりすぎ、計算の収束性が悪化するため、求解性能が悪化している可能性がある。このため、全体制御部３０は、Ｆｒａｔｅの大きさを抑えるため、並列試行ビット数Ｐを少なくしている。

（Ｓ６４）全体制御部３０は、並列試行ビット数Ｐを多くするために、Ｐ＝Ｐ＋Ｐｉｎｃとする。Ｆｒａｔｅが小さすぎる場合、状態遷移があまり生じていないことから、求解性能が悪化している可能性がある。そのため、状態遷移を促し、求解性能を向上させるために、上記のように並列試行ビット数Ｐを大きくする。

ステップＳ６５，Ｓ６６の処理は、図１２に示したステップＳ５５，Ｓ５６の処理と同じであるため説明を省略する。
図１４は、並列試行ビット数Ｐの決定処理の手順の第３の例を示すフローチャートである。

（Ｓ７０）全体制御部３０は、移動量Ｄの平均値Ｄａｖｅを算出する。全体制御部３０は、探索情報集約部３２から供給されるＤｓｕｍを、ｉｔｒｎｕｍ（イタレーション回数）で割ることで、Ｄａｖｅを算出する。

（Ｓ７１）全体制御部３０は、Ｄａｖｅ＞Ｄｔｈｕで、Ｅｍｉｎの更新がなく、かつＰ＞Ｐｔｈｌであるか否かを判定する。Ｄｔｈｕは、Ｄａｖｅの第１の閾値である。全体制御部３０は、Ｄａｖｅ＞Ｄｔｈｕで、Ｅｍｉｎの更新がなく、かつＰ＞Ｐｔｈｌであると判定した場合、ステップＳ７３の処理を行う。全体制御部３０は、Ｄａｖｅ＞Ｄｔｈｕではない、またはＥｍｉｎの更新がある、またはＰ＞Ｐｔｈｌではないと判定した場合、ステップＳ７２の処理を行う。

なお、Ｅｍｉｎの更新の有無については、Ｅｍｉｎｕｐｄａｔｅが１以上の値であるか否かにより判定可能である。
（Ｓ７２）全体制御部３０は、Ｄａｖｅ＜Ｄｔｈｌ、Ｅｍｉｎの更新がなく、かつＰ＜Ｐｔｈｕであるか否かを判定する。Ｄｔｈｌは、Ｆｒａｔｅの第２の閾値であり、Ｄｔｈｌ＜Ｄｔｈｕである。全体制御部３０は、Ｄａｖｅ＜Ｄｔｈｌ、Ｅｍｉｎの更新がなく、かつＰ＜Ｐｔｈｕであると判定した場合、ステップＳ７４の処理を行う。全体制御部３０は、Ｄａｖｅ＜Ｄｔｈｌではない、またはＥｍｉｎの更新がある、またはＰ＜Ｐｔｈｕではないと判定した場合、ステップＳ７５の処理を行う。

（Ｓ７３）全体制御部３０は、並列試行ビット数Ｐを少なくするために、Ｐ＝Ｐ－Ｐｄｅｃとする。Ｄａｖｅが大きいにも関わらずＥｍｉｎの更新がされていない場合、無駄な計算が多く発生し、求解性能が悪化している可能性がある。このため、全体制御部３０は、無駄な計算の発生を抑えるため、並列試行ビット数Ｐを少なくしている。

（Ｓ７４）全体制御部３０は、並列試行ビット数Ｐを多くするために、Ｐ＝Ｐ＋Ｐｉｎｃとする。Ｄａｖｅが小さすぎ、かつＥｍｉｎの更新がされていない場合、探索範囲が狭すぎるため、求解性能が悪化している可能性がある。そのため、探索範囲を広げ、求解性能を向上させるために、上記のように並列試行ビット数Ｐを大きくする。

ステップＳ７５，Ｓ７６の処理は、図１２に示したステップＳ５５，Ｓ５６の処理と同じであるため説明を省略する。
上記のような、並列試行ビット数Ｐの決定処理は、各レプリカについての探索情報の集計に基づいて行われてもよいし、全レプリカについての探索情報の集計に基づいて、行われてもよい。

また、上記のような３種類の決定処理は、互いに組み合わせることもできる。たとえば、３種類の決定処理によって決定された並列試行ビット数Ｐが、モジュール３１ａ１～３１ａＭに設定される。

なお、全体制御部３０は、決定した並列試行ビット数Ｐの値に基づいて、各レプリカにおいてＰが同じ値になるように（図６参照）、または各レプリカにおいてＰを一定の比率にするように（図７参照）調整を行ってもよい。これにより、パイプライン処理の効率がよくなる。

次に、データ処理装置２０の処理手順を、４つのグループによる並列処理が行われる場合を例にして、より具体的に説明する。
図１５は、４つのグループによる並列処理の手順の一例を示すフローチャートである。図１５は、図１０に示した手順のステップＳ２３～Ｓ２８の処理を、複数レプリカについてより具体的に例示したものを含む。並列試行ビット数Ｐの決定処理や、探索情報の集計や記録の処理などについては図示が省略されている。

（Ｓ８０）全体制御部３０は、初期設定を行う。たとえば、初期設定には、並列試行ビット数Ｐの初期値の設定や、前述の探索情報の集計用の変数の初期化が含まれる。さらに、複数レプリカが用いられる場合、レプリカ数、グループ数（図１５の例では４）、グループ間のレプリカ間隔が設定される。レプリカ間隔は、パイプラインのステージ数あるいは当該ステージ数以上の値が設定される（前述の図８の例では４）。

さらに、ステップＳ８０の処理では、最初にモジュール３１ａ１～３１ａＭのそれぞれが割り当てられるグループと、各グループが処理するレプリカが設定される。たとえば、前述の図７に示した例では、モジュール３１ａ１～３１ａ４（Ｍ０～Ｍ３）が１つのグループに割り当てられ、そのグループにレプリカＲ１２が割り当てられている。また、モジュール３１ａ５，３１ａ６（Ｍ４，Ｍ５）が１つのグループに割り当てられ、そのグループにレプリカＲ８が割り当てられている。さらに、モジュール３１ａ７（Ｍ６）が１つのグループに割り当てられ、そのグループにレプリカＲ４が割り当てられ、モジュール３１ａ８（Ｍ７）が１つのグループに割り当てられ、そのグループにレプリカＲ０が割り当てられている。

全体制御部３０は、高温の（設定されている温度を表すパラメータであるＴの値が大きい）レプリカほど、並列試行ビット数Ｐの初期値が小さくなるように、少ないモジュール数のグループに割り当てられるようにしてもよい。

以下４つのグループをＧ０～Ｇ３と表記する。
（Ｓ８１）モジュール３１ａ１～３１ａＭは、各レプリカにおいてビット全体についての１回の試行が行われるまで、ループ処理を行う。

（Ｓ８２）全体制御部３０は、レプリカループの１周ごとに、レプリカに対するモジュールまたはグループの割当を設定する。
前述の図７に示した例では、１ステップ期間がレプリカループの１周に対応する。レプリカループの１周ごとに、各モジュールに割り当てられるレプリカが変わっている。そして、レプリカループの４周ごとに、同じレプリカが割り当てられるモジュールが変わっている。たとえば、１周目では、レプリカＲ１２は、モジュール３１ａ１～３１ａ４（Ｍ０～Ｍ３）に割り当てられ、レプリカＲ８は、モジュール３１ａ５，３１ａ６（Ｍ４，Ｍ５）に割り当てられている。また１周目では、レプリカＲ４が、モジュール３１ａ７（Ｍ６）に割り当てられ、レプリカＲ０が、モジュール３１ａ８（Ｍ７）に割り当てられている。４周後では、レプリカＲ１２は、モジュール３１ａ５～３１ａ８（Ｍ４～Ｍ７）に割り当てられ、レプリカＲ８は、モジュール３１ａ１，３１ａ２（Ｍ０，Ｍ１）に割り当てられている。また４周後では、レプリカＲ４が、モジュール３１ａ３（Ｍ２）に割り当てられ、レプリカＲ０が、モジュール３１ａ４（Ｍ３）に割り当てられている。

（Ｓ８３ａ，Ｓ８３ｂ，Ｓ８３ｃ，Ｓ８３ｄ）グループＧ０～Ｇ３のそれぞれに割り当てられたレプリカに関するＤＥ計算が、グループＧ０～Ｇ３によって並列に実行される。ＤＥ計算は、モジュール数Ｍ＝８の場合、図４に示したΔＥ計算部４１ｃ１～４７ｃＫによって行われる。

（Ｓ８４ａ，Ｓ８４ｂ，Ｓ８４ｃ，Ｓ８４ｄ）グループＧ０～Ｇ３のそれぞれに割り当てられたレプリカに関するＦｌｉｐ判定が、グループＧ０～Ｇ３によって並列に実行される。Ｆｌｉｐ判定は、モジュール数Ｍ＝８の場合、図４に示したセレクタ４０ｄ～４７ｄによって行われる。

（Ｓ８５ａ，Ｓ８５ｂ，Ｓ８５ｃ，Ｓ８５ｄ）グループＧ０～Ｇ３は、各グループが処理しているレプリカにおいて、フリップが発生したか否かを並列に判定する。モジュール３１ａ１～３１ａＭのモジュール制御部３１ｂ１～３１ｂＭは、全体制御部３０から供給されるフリップビット情報に基づいて、上記の判定を行う。

ステップＳ８５ａの処理で、フリップが発生したと判定された場合、ステップＳ８６ａの処理が行われる。ステップＳ８５ｂの処理で、フリップが発生したと判定された場合、ステップＳ８６ｂの処理が行われる。ステップＳ８５ｃの処理で、フリップが発生したと判定された場合、ステップＳ８６ｃの処理が行われる。ステップＳ８５ｄの処理で、フリップが発生したと判定された場合、ステップＳ８６ｄの処理が行われる。ステップＳ８５ａ～８５ｄの処理で、フリップが発生なかったと判定された場合、ステップＳ８８の処理が行われる。

（Ｓ８６ａ，Ｓ８６ｂ，Ｓ８６ｃ，Ｓ８６ｄ）グループＧ０～Ｇ３において、モジュール３１ａ１～３１ａＭのそれぞれは、フリップビットに関する全重み係数をメモリから読み出す。グループＧ０～Ｇ３の全グループにおいて、フリップビットが発生した場合、全グループのフリップビットに関する重み係数が、モジュール３１ａ１～３１ａＭのそれぞれにおいて読み出される（図９参照）。

（Ｓ８７ａ，Ｓ８７ｂ，Ｓ８７ｃ，Ｓ８７ｄ）グループＧ０～Ｇ３のそれぞれは、読み出した重み係数を用いて、図５に示したような機能により、ｈ更新を行う。グループＧ０～Ｇ３の全グループにおいてフリップビットが発生した場合、グループＧ０～Ｇ３で処理中のレプリカのそれぞれについて、全グループに関するビットに対応した局所場が更新される。

（Ｓ８８）各レプリカにおいてビット全体についての１回の試行が行われるまで、ステップＳ８２，Ｓ８３ａ～Ｓ８７ａ，Ｓ８３ｂ～Ｓ８７ｂ，Ｓ８３ｃ～Ｓ８７ｃ，Ｓ８３ｄ～Ｓ８７ｄの処理が繰り返される。各レプリカにおいてビット全体についての１回の試行が行われると、ループ処理を抜けて、ステップＳ８９の処理が行われる。

（Ｓ８９）全体制御部３０は、探索終了であるか否かを判定する。全体制御部３０は、所定の探索終了条件が満たされた場合、探索終了であると判定する。たとえば、全体制御部３０は、イタレーション回数が所定回数に達した場合、探索終了であると判定する。探索終了と判定された場合、ＦＰＧＡ２８ａは処理を終了する。探索終了でないと判定された場合、ステップＳ８１からの処理が繰り返される。

なお、図１０～図１５に示した処理の順序は一例であって、適宜処理の順序を入れ替えてもよい。たとえば、ステップＳ４２，Ｓ４３の処理の前に、ステップＳ４４，Ｓ４５の処理を行ってもよい。

以上のような第２の実施の形態のデータ処理装置２０によれば、部分並列試行の並列試行ビット数Ｐを、探索状況を示す探索情報に基づいて変更する。これにより、問題の特徴が反映される探索状況に応じた並列試行ビット数Ｐの設定が可能になり、１ビットを変化させるための演算量が適正化され、大規模問題に対する求解性能を向上できる。

また、演算量の適正化以外にも、上記のように並列試行ビット数Ｐを変更することで、あるビットが反転した場合に、次にそのビットが更新候補となるまでの期間を調整できる。これにより、そのビットが反転することで、状態が局所解から脱出したときに、再度そのビットが反転して再び状態が局所解に拘束されてしまう、というような状況を避けることができる。

さらに、第２の実施の形態のデータ処理装置２０は、それぞれ１または複数のモジュールを含むｎ個のグループが、単位処理期間（１ステップ期間）ごとに、複数のレプリカのうちのｎ個分ずつに対して、並列部分試行を並列に行う。各部分並列試行を行うグループ間では、１つのグループで、あるレプリカに対する並列試行ビット数Ｐに係る更新処理（ｈ更新や状態ベクトルの更新）が完了するまで、他のグループでは、そのレプリカに対する部分並列試行の処理を開始しないように制御される。データ処理装置２０は、当該レプリカに対する更新処理が完了するまで別のグループが他のレプリカの処理をするようにパイプラインの処理タイミングをずらす。これにより、並列試行ビット数Ｐが可変の場合でも、ＭＣＭＣ法の逐次処理の原則を守りながら、演算リソースを有効に活用でき、比較的大規模な問題に対する求解性能を向上させることができる。

なお、第２の実施の形態では、一例として、グループ数を４つとしたが、グループ数は４以外の複数の数でもよい。また、レプリカ数は１６以外の数であってもよい。また、各モジュールが扱うビット数をＫとしたが、各モジュールにおいてＫは異なる値であってもよい。

また、データ処理装置２０における各レプリカに対する処理は、上記の例のようにＦＰＧＡ２８ａにより実行されてもよいし、ＣＰＵ２１やＧＰＵ２４などの他の演算器により実行されてもよい。ＦＰＧＡ２８ａやＣＰＵ２１などの演算器は、データ処理装置２０における処理部の一例である。また、複数のレプリカを保持する記憶部は、前述のようにメモリ２８ｂやレジスタにより実現されてもよいし、ＲＡＭ２２により実現されてもよい。更に、アクセラレータカード２８も「データ処理装置」の一例であるといえる。

なお、第１の実施の形態の情報処理は、処理部１２にプログラムを実行させることで実現されてもよい。また、第２の実施の形態の情報処理は、ＣＰＵ２１にプログラムを実行させることで実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体１０３に記録できる。

たとえば、プログラムを記録した記録媒体１０３を配布することで、プログラムを流通させることができる。また、プログラムを他のコンピュータに格納しておき、ネットワーク経由でプログラムを配布してもよい。コンピュータは、たとえば、記録媒体１０３に記録されたプログラムまたは他のコンピュータから受信したプログラムを、ＲＡＭ２２やＨＤＤ２３などの記憶装置に格納し（インストールし）、当該記憶装置からプログラムを読み込んで実行してもよい。

以上、実施の形態に基づき、本発明のプログラム、データ処理装置及びデータ処理方法の一観点について説明してきたが、これらは一例にすぎず、上記の記載に限定されるものではない。

１０データ処理装置
１１記憶部
１２処理部

Claims

複数の状態変数を含むエネルギー関数で表される組合せ最適化問題の解の探索を行う処理をコンピュータに実行させるプログラムであって、
前記コンピュータに、
前記複数の状態変数から選択される複数の第１状態変数について、前記複数の第１状態変数の各々の値の変化を受け入れるか否かの判定を並列に行い、前記値の変化を受け入れると判定された何れかの状態変数の前記値を変化させる処理を、選択される前記複数の第１状態変数を変更しつつ行うことで、前記解の探索を行う探索処理を行い、
前記探索処理の探索状況または他の組合せ最適化問題の探索記録を示す探索情報に基づいて、選択される前記複数の第１状態変数の数を特定し、前記探索処理を繰り返す、
処理を実行させるプログラム。
前記探索情報は、前記複数の第１状態変数のうち、前記値の変化を受け入れると判定された第２状態変数の数の、第１の期間における第１の累計値を含む、請求項１に記載のプログラム。
前記第１の累計値に基づいて、前記第２状態変数の数の、前記第１の期間における第１の平均値を計算し、
前記第１の平均値が、第１の閾値よりも大きい場合、前記複数の第１状態変数の数を減少させ、
前記第１の平均値が、前記第１の閾値よりも小さい第２の閾値よりも小さい場合、前記複数の第１状態変数の数を増加させる、
処理を前記コンピュータに実行させる請求項２に記載のプログラム。
前記探索情報は、前記複数の第１状態変数のうち、前記値が変化した第３状態変数の数の、第２の期間における第２の累計値を含む、請求項１乃至３の何れか一項に記載のプログラム。
前記第２の累計値に基づいて、前記第２の期間における、前記第３状態変数の発生率を計算し、
前記発生率が、第３の閾値よりも大きい場合、前記複数の第１状態変数の数を減少させ、
前記発生率が、前記第３の閾値よりも小さい第４の閾値よりも小さい場合、前記複数の第１状態変数の数を増加させる、
処理を前記コンピュータに実行させる請求項４に記載のプログラム。
前記探索情報は、前記複数の状態変数による状態ベクトルの、第３の期間における、ハミング距離で表される移動量を含む、請求項１乃至５の何れか一項に記載にプログラム。
前記移動量に基づいて、前記第３の期間における、前記移動量の第２の平均値を計算し、
前記第２の平均値が、第５の閾値よりも大きく、かつ、前記第３の期間の前記探索処理において、前記エネルギー関数の最小値が更新されない場合、前記複数の第１状態変数の数を減少させ、
前記第２の平均値が、前記第５の閾値よりも小さい第６の閾値よりも小さく、かつ、前記最小値が更新されない場合、前記複数の第１状態変数の数を増加させる、
処理を前記コンピュータに実行させる請求項６に記載のプログラム。
複数の状態変数を含むエネルギー関数で表される組合せ最適化問題の解の探索を行うデータ処理装置であって、
前記複数の状態変数から選択される複数の第１状態変数について、前記複数の第１状態変数の各々の値の変化を受け入れるか否かの判定を並列に行い、前記値の変化を受け入れると判定された何れかの状態変数の前記値を変化させる処理を、選択される前記複数の第１状態変数を変更しつつ行うことで、前記解の探索を行う探索処理を行い、前記探索処理の探索状況または他の組合せ最適化問題の探索記録を示す探索情報に基づいて、選択される前記複数の第１状態変数の数を特定し、前記探索処理を繰り返す処理部と、
前記探索情報を記憶する記憶部と、
を有するデータ処理装置。
前記処理部は、それぞれ１または複数のモジュールを含むｎ個（ｎは２以上の整数）のグループに、それぞれがグループ化されるＭ個（Ｍは２以上の整数）のモジュールと、セレクタとを有し、
前記ｎ個のグループは、単位処理期間ごとに、それぞれが前記複数の状態変数を示す複数のレプリカのうちのｎ個分ずつ、前記複数の第１状態変数についての前記判定を並列に行い、
前記セレクタは、前記判定によって前記値の変化を受け入れると判定された何れかの状態変数を、前記ｎ個のグループのそれぞれについて並列に選択し、
前記処理部は、前記ｎ個のグループのうちの第１グループにおいて、前記複数のレプリカの１つである第１レプリカのうち、前記セレクタにより選択された状態変数の値を変化させる更新処理が終わるまで、前記ｎ個のグループのうちの前記第１グループ以外のグループにより、前記第１レプリカの処理が開始されないように制御する、
請求項８に記載のデータ処理装置。
複数の状態変数を含むエネルギー関数で表される組合せ最適化問題の解の探索を行うデータ処理方法であって、データ処理装置が、
前記複数の状態変数から選択される複数の第１状態変数について、前記複数の第１状態変数の各々の値の変化を受け入れるか否かの判定を並列に行い、前記値の変化を受け入れると判定された何れかの状態変数の前記値を変化させる処理を、選択される前記複数の第１状態変数を変更しつつ行うことで、前記解の探索を行う探索処理を行い、
前記探索処理の探索状況または他の組合せ最適化問題の探索記録を示す探索情報に基づいて、選択される前記複数の第１状態変数の数を特定し、前記探索処理を繰り返す、
データ処理方法。