JP2021039658A

JP2021039658A - Ａｃ並列化回路、ａｃ並列化方法及び並列情報処理装置

Info

Publication number: JP2021039658A
Application number: JP2019161972A
Authority: JP
Inventors: 学尚秋間; Hisanao Akima
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2021-03-11
Also published as: EP3792762A1; US20210072988A1; US11144317B2; CN112445527A

Abstract

【課題】現在の周回実行の停止と未確定値の推測を高速に行うこと。【解決手段】ＡＮＤ回路２０が、ＡＣイネーブルと比較器１９の出力の論理積を計算し、計算結果を停止ビットとしてノード＃(ｍ−１)へ出力する。また、推測回路２２が、完了シグナル＃(ｍ−１)を１に設定し、データ＃(ｍ−１)に推測値を設定する。そして、ＡＮＤ回路２０の出力に基づいて、マルチプレクサ１５が、キャッシュメモリ１４の完了シグナル＃(ｍ−１)及びデータ＃(ｍ−１)、又は、推測回路２２が生成した完了シグナル＃(ｍ−１)及び推測値＃(ｍ−１)を選択してコア１６に出力する。【選択図】図２

Description

本発明は、ＡＣ並列化回路、ＡＣ並列化方法及び並列情報処理装置に関する。

プログラムの並列化を妨げる要因の１つに、ループ繰越依存性（loop-carried dependency）がある。ループ繰越依存性とは、ループ実行において以前の周回（iteration）の結果に依存して新たな周回の計算が行われることである。ループ繰越依存性がある場合、任意の順番で周回実行を行うような並列化は行えない。

ただし、周回内には、ループ繰越依存性があるために逐次実行が必要な部分（シーケンシャルコード：sequential code）だけでなく、ループ繰越依存性がなく並列実行が可能な部分（パラレルコード：parallel code）もある。したがって、シーケンシャルコードの実行順序を守った上でのループ実行の並列化は可能である。

プログラムを、周回毎に例えばスレッドを割り当て、マルチスレッドで並列化する場合、ある周回を実行するスレッドと次の周回を実行するスレッドの間で、ループ繰越依存性のある変数の値を同期する必要がある。同期に要する時間がシーケンシャルコードの実行時間と同程度かそれ以上となる場合や、多数のスレッド間で同期を取る必要がある場合には、同期時間が全体のボトルネックとなる。

このため、同期時間を短縮するための技術として、リングキャッシュ・アーキテクチャがある。リングキャッシュ・アーキテクチャでは、コアがリング上に配置され、現在の周回の実行を担当するコアは、シーケンシャルコードの実行が完了すると、直ちに完了シグナルとデータ（実行結果）を次の周回の実行を担当するコアに送信する。完了シグナルとデータは必要になるまでコアに隣接したメモリにキャッシュされるため、必要になってから完了シグナルの確認とデータの要求を行う場合と比べて、同期時間を短縮することができる。

なお、ループの並列実行に関連する従来技術として、ループの終了条件の判定が処理しているデータに依存していて、どの繰り返しを実行した時に終了条件を満たすかが、あらかじめわからないループを並列に実行できる情報処理装置がある。この情報処理装置は、並列に実行中の命令処理装置で一番若い繰り返しを実行している命令処理装置に優先権を持たせる。そして、この情報処理装置は、メモリへのデータ転送や、ループ終了時に終了条件を検出した命令処理装置以外の命令処理装置での処理の中断を、優先権を持っている命令処理装置に限定する。このようにすることで、この情報処理装置は、どの命令処理装置がループの終了条件を検出しても処理の追い越しが起こらず、逐次的に実行した場合と同じ動作を行なうことを保証して、ループの並列実行を行う。

特開平５−１２７９０４号公報

リングキャッシュ・アーキテクチャをさらに高速化するため、現在の周回におけるシーケンシャルコードの実行完了を待たずに次の周回の実行を開始するＡＣ（approximate computing）並列化が考えられる。ＡＣ並列化の導入には、シーケンシャルコードの実行時間を短縮する効果と、ループ繰越依存性のある変数の同期を省略する効果がある。

しかしながら、ＡＣ並列化の導入には、現在の周回実行の停止と、同期を省略したことで未確定となった変数の値の推測を速やかに行うことが課題となる。停止及び推測を行うか否かの判定や推測値の定義及び保存のためのオーバーヘッドが大きいと、ＡＣ並列化の効果を低減させてしまうか、あるいは、ＡＣ並列化を適用しない場合よりも遅くなってしまう可能性がある。

本発明は、１つの側面では、現在の周回実行の停止と未確定値の推測を高速に行うことを目的とする。

１つの態様では、ＡＣ並列化回路は、ループ繰越依存性のある計算において自装置が担当する周回の１つ前の周回の計算を行う装置に計算の停止を指示する停止信号を送信する送信回路を有する。また、前記ＡＣ並列化回路は、前記送信回路が前記停止信号を送信した場合に前記１つ前の周回の計算結果として演算回路に提供される推測値を生成する推測回路を有する。

１つの側面では、本発明は、現在の周回実行の停止と未確定値の推測を高速に行うことができる。

図１は、実施例に係る並列処理システムの構成を示す図である。図２は、ノードの構成を示す図である。図３は、並列処理システムの効果を説明するための図である。

以下に、本願の開示するＡＣ並列化回路、ＡＣ並列化方法及び並列情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。

まず、実施例に係る並列処理システムの構成について説明する。図１は、実施例に係る並列処理システムの構成を示す図である。図１に示すように、実施例に係る並列処理システム１は、ノード＃０〜ノード＃ｎ（ｎは正の整数）で表される（ｎ＋１）台のノード１０と検査装置３０とを有する。ノード＃０〜ノード＃ｎはリング状に接続される。すなわち、並列処理システム１は、リングキャッシュ・アーキテクチャの並列処理システムである。並列処理システム１では、ループ繰越依存性のあるプログラムの周回毎にスレッドが割り当てられ、プログラムがマルチスレッドで並列実行される。

ノード１０は、スレッドを実行する情報処理装置である。例えば、ノード＃０は周回が１のスレッド＃０を実行し、・・・、ノード＃(ｍ−１)は周回がｍのスレッド＃(ｍ−１)を実行し、ノード＃ｍは周回が（ｍ＋１）のスレッド＃ｍを実行する。また、ノード＃(ｍ＋１)は周回が（ｍ＋２）のスレッド＃(ｍ＋１)を実行し、・・・、ノード＃ｎは周回が（ｎ＋１）のスレッド＃ｎを実行する。

各ノード１０は、スレッドの処理が完了すると、完了シグナルに１を設定し、データに計算結果を設定して、完了シグナルとデータを次のノード１０に送信する。例えば、ノード＃(ｍ−１)は、スレッド＃(ｍ−１)の処理が完了すると、完了シグナルに１を設定し、データに計算結果を設定して、完了シグナルとデータをノード＃ｍに送信する。ノード＃ｍは、スレッド＃ｍの処理が完了すると、完了シグナルに１を設定し、データに計算結果を設定して、完了シグナルとデータをノード＃(ｍ＋１)に送信する。ノード＃ｎは、スレッド＃ｎの処理が完了すると、完了シグナルに１を設定し、データに計算結果を設定して、完了シグナルとデータをノード＃０に送信する。

また、各ノード１０は、２つ前のノード１０がスレッドの処理を完了して１つ前のノード１０がスレッドの処理を開始すると、クロックのカウントを開始する。そして、カウント数が所定の閾値になると、停止（ｋｉｌｌ）ビットを１に設定し、１つ前のノード１０に停止ビットを送信して、スレッドを停止させる。すなわち、並列処理システム１は、ＡＣ並列化を行う。

例えば、ノード＃ｍは、カウント数が所定の閾値になると、停止ビットを１に設定し、ノード＃(ｍ−１)に停止ビットを送信する。ノード＃(ｍ＋１)は、カウント数が所定の閾値になると、停止ビットを１に設定し、ノード＃ｍに停止ビットを送信する。ノード＃０は、カウント数が所定の閾値になると、停止ビットを１に設定し、ノード＃ｎに停止ビットを送信する。

このように、ノード１０は、２つ前のノード１０がスレッドの処理を完了して１つ前のノード１０がスレッドの処理を開始すると、クロックのカウントを開始する。そして、ノード１０は、カウント数が所定の閾値になると、停止ビットを１に設定し、１つ前のノード１０に停止ビットを送信する。

したがって、ノード１０は、１ビットの情報を１つ前のノード１０に送信するだけで、１つ前のノード１０のスレッドの停止を高速に行うことができる。なお、ＬＳＩ配置配線問題、リソグラフィパターン作成問題、配送計画問題などある程度の誤差が許容される最適化問題では、ＡＣ並列化により、処理速度を向上することができる。

検査装置３０は、各ノード１０と接続され、スレッドの処理を完了したときの待ちカウント数を各ノード１０から取得し、待ちカウント数を表示する。ここで、待ちカウント数は、１つ前のノード１０がスレッドの処理を開始した時点から自ノード１０がスレッドの処理を完了したときまでのクロック数である。

また、検査装置３０は、並列処理システム１がＡＣ並列化を行ったときと行わなかったときの待ちカウント数を比較して表示することで、ＡＣ並列化の有効性の検証を支援する。

次に、ノード１０の構成について説明する。図２は、ノード１０の構成を示す図である。なお、図２は、ノード＃ｍの構成を示すが、他のノード１０も同様の構成を有する。図２に示すように、ノード１０は、Ｒｘ１１と、マルチプレクサ１２と、Ｔｘ１３と、キャッシュメモリ１４と、マルチプレクサ１５と、コア１６と、待ち数レジスタ１７と、待ちカウンタ１８と、比較器１９と、ＡＮＤ回路２０とを有する。また、ノード１０は、停止シグナル生成回路２１と、推測回路２２と、ラッチ２３とを有する。

Ｒｘ１１は、ノード＃(ｍ−１)から完了シグナル及びデータを受信し、受信した完了シグナル及びデータをマルチプレクサ１２に出力する。Ｒｘ１１は、完了シグナル＃ｍ及びデータ＃ｍ以外の完了シグナル及びデータを受信する。ここで、完了シグナル＃ｍ及びデータ＃ｍは、ノード＃ｍが生成する完了シグナル及びデータである。

マルチプレクサ１２は、パスに基づいて、Ｒｘ１１からの完了シグナル及びデータ、又は、コア１６からの完了シグナル＃ｍ及びデータ＃ｍを選択して、Ｔｘ１３及びキャッシュメモリ１４に出力する。ここで、パスは、Ｒｘ１１からの完了シグナル及びデータ、又は、コア１６からの完了シグナル＃ｍ及びデータ＃ｍの選択に用いられる制御信号である。パスが１の場合には、Ｒｘ１１からの完了シグナル及びデータが選択され、パスが０の場合には、コア１６からの完了シグナル＃ｍ及びデータ＃ｍが選択される。

Ｔｘ１３は、マルチプレクサ１２が出力した完了シグナル及びデータをノード＃(ｍ＋１)へ送信する。

キャッシュメモリ１４は、マルチプレクサ１２が出力した完了シグナル及びデータを記憶する。すなわち、キャッシュメモリ１４は、完了シグナル＃０〜完了シグナル＃ｎと、データ＃０〜データ＃ｎを記憶する。

マルチプレクサ１５は、ＡＮＤ回路２０の出力に基づいて、キャッシュメモリ１４が記憶する完了シグナル＃(ｍ−１)及びデータ＃(ｍ−１)、又は、推測回路２２が生成した完了シグナル＃(ｍ−１)及び推測値＃(ｍ−１)を選択してコア１６に出力する。

コア１６は、キャッシュメモリ１４が記憶する完了シグナル＃(ｍ−１)が１であることを検出すると、データ＃(ｍ−１)を用いてスレッド＃ｍを実行する。そして、コア１６は、スレッド＃ｍの実行を完了すると、完了シグナル＃ｍに１を設定し、データ＃ｍに実行結果を設定して、完了シグナル＃ｍ及びデータ＃ｍをマルチプレクサ１２へ出力するとともに、完了シグナル＃ｍをラッチ２３に出力する。

また、コア１６は、ＡＣ並列化を行う場合、ＡＣイネーブルを１に設定してＡＮＤ回路２０へ出力する。また、コア１６は、待ち数レジスタ１７に待ち数を設定する。ここで、待ち数は、ＡＣ並列化において、ノード＃(ｍ−１)の処理開始からノード＃ｍの処理開始までのクロック数である。また、コア１６は、停止シグナル生成回路２１が停止シグナルを出力すると、スレッド＃ｍの実行を停止する。

待ち数レジスタ１７は、待ち数を記憶する。待ちカウンタ１８は、完了シグナル＃(ｍ−２)が１に設定されてキャッシュメモリ１４に記憶されると、クロックのカウントを開始する。比較器１９は、待ちカウンタ１８のカウント数と待ち数レジスタ１７が記憶する待ち数を比較し、待ちカウンタ１８のカウント数が待ち数になるとＡＮＤ回路２０に１を出力する。

ＡＮＤ回路２０は、比較器１９の出力とＡＣイネーブルの論理積をとり、結果をノード＃(ｍ−１)へ停止ビットとして出力するとともに、マルチプレクサ１５へ制御入力として出力する。ＡＮＤ回路２０の出力が１の場合には、ノード＃(ｍ−１)の処理開始から所定の時間が経過し、ＡＣ並列化を行う場合であるので、ノード＃(ｍ−１)はスレッド＃(ｍ−１)を停止し、マルチプレクサ１５は推測回路２２の出力を選択する。

停止シグナル生成回路２１は、ノード＃(ｍ＋１)から停止ビットを受信し、停止ビットが１であることを検出すると、停止シグナルを生成してコア１６に出力する。コア１６は、停止シグナルを検出すると、スレッド＃ｍを停止する。

推測回路２２は、完了シグナル＃(ｍ−１)を１に設定し、データ＃(ｍ−１)に推測値を設定する。推測回路２２は、推測値として、例えば０や前回の値を用いる。あるいは、推測回路２２は、推測値として、過去の値の最大値、最小値、中間値、移動平均値などを用いてもよい。過去の値は、キャッシュメモリ１４に記憶される。このように、推測回路２２が、データ＃(ｍ−１)に推測値を設定するので、並列処理システム１は、データ＃(ｍ−１)の推測を高速に行うことができる。

ラッチ２３は、完了シグナル＃ｍをイネーブル信号として待ちカウンタ１８の値を保持する。ラッチ２３に保持された待ちカウント数は、検査装置３０により読み出される。

次に、並列処理システム１の効果について説明する。図３は、並列処理システム１の効果を説明するための図である。図３（ａ）は、従来の実行時間の例を示し、図３（ｂ）は、実施例の実行時間の例を示す。

図３（ａ）に示すように、従来は、スレッド＃０は、パラレルコードとシーケンシャルコードを実行後、完了シグナルとデータをスレッド＃１に送信し、パラレルコードを実行して処理を終了する。また、スレッド＃１は、パラレルコードを実施後、ストールし、スレッド＃０から完了シグナルとデータを受信すると、シーケンシャルコードを実行し、完了シグナルとデータをスレッド＃２に送信し、パラレルコードを実行して処理を終了する。また、スレッド＃２は、パラレルコードを実施後、ストールし、スレッド＃１から完了シグナルとデータを受信すると、シーケンシャルコードを実行し、完了シグナルとデータをスレッド＃３に送信し、パラレルコードを実行して処理を終了する。

一方、図３（ｂ）に示すように、実施例では、スレッド＃０は、パラレルコードとシーケンシャルコードを実行後、完了シグナルとデータをスレッド＃１に送信し、パラレルコードを実行して処理を終了する。また、スレッド＃１は、パラレルコードを実施後、ストールし、スレッド＃０から完了シグナルとデータを受信すると、シーケンシャルコードを実行する。完了シグナルの受信から所定の時間が経過すると、スレッド＃１は、スレッド＃２により停止される。また、スレッド＃２は、パラレルコードを実施後、ストールし、スレッド＃１が完了シグナルを受信して所定の時間が経過すると、スレッド＃１に停止信号を送信するとともに、推測値を用いてシーケンシャルコードを実行する。そして、スレッド＃２は、完了シグナルとデータをスレッド＃３に送信し、パラレルコードを実行して処理を終了する。

図３（ａ）と比較すると、図３（ｂ）では、スレッド＃１のシーケンシャルコード実行時間が短縮され、スレッド＃１とスレッド＃２の間のデータの同期に必要な完了シグナル及びデータの送信時間と受信時間が省略される。したがって、並列処理システム１は、実行時間を短縮することができる。

上述してきたように、実施例では、ノード＃ｍの待ちカウンタ１８が、完了シグナル＃(ｍ−２)が１に設定されてキャッシュメモリ１４に記憶されると、クロックのカウントを開始する。そして、比較器１９が、待ちカウンタ１８のカウント数と待ち数レジスタ１７が記憶する待ち数を比較し、待ちカウンタ１８のカウント数が待ち数になるとＡＮＤ回路２０に１を出力する。ＡＮＤ回路２０は、ＡＣイネーブルと比較器１９の出力の論理積を計算し、計算結果を停止ビットとしてノード＃(ｍ−１)へ出力する。

また、推測回路２２が、完了シグナル＃(ｍ−１)を１に設定し、データ＃(ｍ−１)に推測値を設定する。そして、ＡＮＤ回路２０の出力に基づいて、マルチプレクサ１５が、キャッシュメモリ１４の完了シグナル＃(ｍ−１)及びデータ＃(ｍ−１)、又は、推測回路２２が生成した完了シグナル＃(ｍ−１)及び推測値＃(ｍ−１)を選択してコア１６に出力する。

したがって、ノード＃ｍは、ノード＃(ｍ−１)で動作するスレッド＃(ｍ−１)を停止するか否かの判定と、停止すると判定した場合の停止指示を高速に行うとともに、ノード＃(ｍ−１)の計算結果の推測を高速に行うことができる。

また、実施例では、ノード＃ｍの停止シグナル生成回路２１が、ノード＃(ｍ＋１)から停止ビットを受信し、停止ビットが１の場合に、スレッド＃ｍの停止信号を生成し、コア１６に出力する。したがって、ノード＃ｍは、ノード＃(ｍ＋１)の指示に基づいて、スレッド＃ｍを速やかに停止することができる。

また、実施例では、ノード＃ｍのラッチ２３が、完了シグナル＃ｍをイネーブル信号として待ちカウンタ１８の値を保持するので、ノード＃ｍは、ＡＣ並列化の有効性の検証に有用なデータを提供することができる。

また、実施例では、スレッドを実行する場合について説明したが、ノード１０は、他の処理単位を実行してもよい。また、実施例では、コア１６がスレッドの処理を実行する場合について説明したが、他の演算装置がスレッドの処理を実行してもよい。

１並列処理システム
１０ノード
１１Ｒｘ
１２マルチプレクサ
１３Ｔｘ
１４キャッシュメモリ
１５マルチプレクサ
１６コア
１７待ち数レジスタ
１８待ちカウンタ
１９比較器
２０ＡＮＤ回路
２１停止シグナル生成回路
２２推測回路
２３ラッチ
３０検査装置

Claims

ループ繰越依存性のある計算において自装置が担当する周回の１つ前の周回の計算を行う装置に計算の停止を指示する停止信号を送信する送信回路と、
前記送信回路が前記停止信号を送信した場合に前記１つ前の周回の計算結果として演算回路に提供される推測値を生成する推測回路と
を有することを特徴とするＡＣ並列化回路。
前記送信回路は、
前記１つ前の周回の計算の開始時にカウントを開始するカウンタ回路と、
前記カウンタ回路のカウント数と所定の閾値を比較し、該カウント数が該所定の閾値になると前記停止信号を送信する比較回路と
を有することを特徴とする請求項１に記載のＡＣ並列化回路。
前記演算回路は、前記比較回路が送信する停止信号に基づいて、前記推測回路が提供する推測値を用いて自装置が担当する周回の計算を行うことを特徴とする請求項２に記載のＡＣ並列化回路。
自装置が担当する周回の１つ後の周回の計算を行う装置から停止信号を受信すると前記演算回路に計算の停止を指示する指示回路をさらに有することを特徴とする請求項３に記載のＡＣ並列化回路。
自装置が担当する周回の計算を前記演算回路が完了した時の前記カウント数を記憶する記憶回路をさらに有することを特徴とする請求項３に記載のＡＣ並列化回路。
ループ繰越依存性のある計算において自装置が担当する周回の１つ前の周回の計算を行う装置に計算の停止を指示する停止信号を送信し、
前記１つ前の周回の計算結果の推測値として生成された推測値を前記停止信号を送信した場合に演算回路に提供する
ことを特徴とするＡＣ並列化方法。
ループ繰越依存性のある計算において担当する周回の計算を行う演算部と、
前記計算において前記担当する周回の１つ前の周回の計算を行う装置に計算の停止を指示する停止信号を送信する送信部と、
前記送信部が前記停止信号を送信した場合に前記１つ前の周回の計算結果として前記演算部に提供される推測値を生成する推測部と
を有することを特徴とする並列情報処理装置。