JP2022143544A

JP2022143544A - 演算処理装置

Info

Publication number: JP2022143544A
Application number: JP2021044100A
Authority: JP
Inventors: 正裕五島; Masahiro Goshima; 毅葛; Ge Yi
Original assignee: Fujitsu Ltd; Research Organization of Information and Systems
Current assignee: Fujitsu Ltd; Research Organization of Information and Systems
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-10-03
Also published as: US20220300289A1; CN115113935A

Abstract

【課題】あるセクションでバンク衝突やキャッシュミスなどの処理を継続できない事象が発生した場合でも、パイプラインストールや要素演算のキャンセルを回避し処理速度の低下を抑える。
【解決手段】命令の要素演算を毎サイクル高々１つ処理する１以上のレーンと、１以上のレーンに要素演算を発行する要素演算発行ユニット１００と、を備え、全体は複数のエントリを持つバッファ１０１，１０３，１０４によって複数のセクションへと分離され、要素演算の処理を継続できなくなった１以上のセクションは処理を停止する一方、他のセクションは、下流のセクションへと進む要素演算を直後のバッファに格納して、処理を継続する。
【選択図】図６

Description

本発明は、演算処理装置に関する。

スーパーコンピュータなどを用いる高性能計算分野において、より現実のアプリケーションに近い性能を測るベンチマークとして、High-Performance CG（ＨＰＣＧ）が注目されている。ＨＰＣＧは、Conjugate Gradient（ＣＧ；共役勾配）法のベンチマークである。

ＨＰＣＧの計算は、マルチグリッド前処理付き共役勾配法（ＭＧＣＧ）による連立一次方程式の求解で、疎行列Aの行と密ベクトルxとの内積が計算の8割程度を占める。ＨＰＣＧは27点ステンシルに基づくため、疎行列Aの1行の非ゼロ要素数は27と非常に少ない。そのため疎行列Aは、通常Compressed Sparse Row（ＣＳＲ）形式で格納される。

この内積における密ベクトルxに対するロードは、疎行列Aの行の26～27の非ゼロ要素に対応する要素を拾い集めることになり、３要素ずつ飛び飛びのアクセスとなる。このような、アドレスのリストを介した間接・不連続のロード／ストアを、ギャザー／スキャッタという。

Ryota Shioya, Kazuo Horio, Masahiro Goshima, Shuichi Sakai 著、"Register Cache System Not for Latency Reduction Purpose"、Proceedings of the 43rd Annual IEEE/ACM International Symposium on Microarchitecture (MICRO43)、Pages 301-312、2010年12月 Junji Yamada, Ushio Jimbo, Ryota Shioya, Masahiro Goshima, Shuichi Sakai著、"Skewed Multistaged Multibanked Register File for Area and Energy Efficiency"、IEICE Transactions on Information and Systems、Vol. E100.D、Issue 4、Pages 822-837、2017年4月 Junji Yamada, Ushio Jimbo, Ryota Shioya, Masahiro Goshima, Shuichi Sakai 著、"Bank-Aware Instruction Scheduler for a Multibanked Register File"、IPSJ Journal of Information Processing、Vol. 24、Pages 696-705、2018年9月

しかしながら、従来のプロセッサコアはギャザー／スキャッタ処理の効率が悪いため、ギャザー／スキャッタ処理の発生により、処理速度が低下してしまうおそれがある。

１つの側面では、バンク衝突やキャッシュミスなどの処理を継続できない事象が発生した場合でも、パイプラインストールや命令のキャンセルを回避し処理速度の低下を抑えることを目的とする。

１つの側面では、演算処理装置は、命令の要素演算を毎サイクル高々１つ処理する１以上のレーンと、１以上のレーンに要素演算を発行する要素演算発行ユニットと、を備え、全体は複数のエントリを持つバッファによって複数のセクションへと分離され、要素演算の処理を継続できなくなった１以上のセクションは処理を停止する一方、他のセクションは、下流のセクションのそれぞれへと進む要素演算を直後のバッファに格納することによって、処理を継続する。

１つの側面では、あるセクションでバンク衝突やキャッシュミスなどの処理を継続できない事象が発生した場合でも、パイプラインストールや要素演算のキャンセルを回避し処理速度の低下を抑えることができる。

ＳＩＭＤの連続ロード及びギャザーを説明する図である。ＳＩＭＤのマルチバンク化された一次データキャッシュにおけるギャザーを説明する図である。バンク衝突の確率を例示するグラフである。コアの基本的な構造を模式的に示すブロック図である。図６におけるOut-of-Stepバックエンドパイプラインと比較するためのIn-Stepバックエンドパイプラインを模式的に示すブロック図である。実施形態におけるOut-of-Stepバックエンドパイプラインを模式的に示すブロック図である。図６に示したOut-of-Stepバックエンドパイプラインの効果を説明するためのブロック図である。図６に示したOut-of-Stepバックエンドパイプラインの効果を説明するためのダイヤグラムである。図６に示したOut-of-Stepバックエンドパイプラインにおける分散Content-Addressable Memory（ＣＡＭ）を用いたバイパス制御を説明するための図である。図６に示したOut-of-Stepバックエンドパイプラインにおける依存行列式バイパス制御及びバイパス位置を説明するためのブロック図である。依存行列生成回路を模式的に示すブロック図である。ＨＰＣＧの内積部の性能見積を説明するためのグラフである。

〔Ａ〕関連例
近年の高性能プロセッサコアの高いピーク性能は、Single Instruction/Multiple Data stream（ＳＩＭＤ）ユニットによって実現されることがある。ＳＩＭＤでは、v要素を１本のレジスタにパックし、１命令でv個の演算を同時に実行する。これにより、制御ユニットはそのままでも、ピーク性能をv倍にすることができる。例えば、512b SIMDでは、64b（倍精度浮動小数点数）×8として使用した場合、演算性能は８倍となる。

ＳＩＭＤのロード／ストアでは、対象要素がメモリ上で連続する場合には、連続するv要素を一度にアクセスできる。このような連続ロード／ストア性能はv倍となり、演算と同じＳＩＭＤ効果を発揮することができる。

一方、ＳＩＭＤのロード／ストアの対象要素がメモリ上で不連続の場合には、ＳＩＭＤの効果を発揮することができない。アドレスのリストを介した間接・不連続のロード／ストアを、ギャザー／スキャッタという。ギャザー／スキャッタでは、連続するv要素にアクセスしてもそのv要素すべてが使用できることは稀であり、ギャザー／スキャッタの性能はv倍よりもはるかに低い。

図１は、ＳＩＭＤの連続ロード及びギャザーを説明する図である。

符号Ａ１１～Ａ１４に示す連続ロード処理では、符号Ａ１１に示すように、一次データキャッシュ上で連続したアドレスに格納された４要素を読み出す。そこで、符号Ａ１２に示すように、１つのアクセス単位[1] によって４要素を含むブロックが読み出される。そして、符号Ａ１３に示すように４要素のＳＩＭＤ幅であるレジスタファイルに４要素が書き込まれ、符号Ａ１４に示すようにレジスタファイルに書き込まれた４要素が実行ユニットによって使用される。

符号Ａ２１～Ａ２４に示すギャザー処理では、符号Ａ２１に示すように、一次データキャッシュ上で不連続のアドレスに格納された要素を読み出す。この場合、4要素を一度に読み出すことはできず、符号Ａ２２に示すように、アクセス単位[1]～[4] によって４要素を含む４ブロックを読み出す必要がある。そして、符号Ａ２３に示すようにシフタを介してレジスタファイルに４要素が書き込まれ、符号Ａ２４に示すようにレジスタファイルに書き込まれた４要素が実行ユニットによって使用される。

任意のアドレスのｖ要素にアクセスできるマルチポートメモリは、面積及びエネルギーがv²に比例して増大してしまう。そのため、ギャザー／スキャッタ性能も演算性能と同じくv倍にするためには、疑似マルチポート化としてのマルチバンク化を行うことが想定される。

図２は、ＳＩＭＤのマルチバンク化された一次データキャッシュにおけるギャザーを説明する図である。

符号Ａ３１～Ａ３４に示すギャザー処理では、符号Ａ３１に示すように、一次データキャッシュが＃０～＃３の４バンクに分割されている。アドレスが不連続であっても、各バンク＃０～＃３のそれぞれから最大４要素を同時に読み出すことができる。符号Ａ３２に示すように、１つのアクセス単位[1] によって一度に４要素を読み出すことができる。そして、符号Ａ３３に示すように、シフタではなくスイッチを介して、レジスタファイルに4要素が書き込まれる。その後、符号Ａ３４に示すようにレジスタファイルに書き込まれた4要素が実行ユニットによって使用される。

しかし、符号Ａ４１においては、２要素がバンク＃２に格納されており、バンク衝突（別言すれば、バンク競合）が発生している。この２要素を同時に読み出すことはできず、処理速度が低下するおそれがある。

図３は、バンク衝突の確率を例示するグラフである。

バンク衝突の確率は、アクセスされるバンクがランダムである場合、次の数式（１）によって表される。なお、bはバンク数であり、vは要素数である。

図３に示すグラフにおいて、横軸はバンク数を表し、縦軸は確率を表す。破線はv=8の場合の、実線はv=16の場合のバンク衝突の確率を表す。

例えば、要素数v=16に対して、２倍の数のバンク数32を用意した場合には、P(32,16)=99.0%の確率でバンク衝突が発生する。衝突確率を十分に低くするためには、数百～数千のバンクが必要であり、非現実的である。

〔Ｂ〕実施形態
以下、図面を参照して一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。

〔Ｂ－１〕前提条件
図４は、コアの基本的な構造を模式的に示すブロック図である。

符号Ｂ１～Ｂ３に示すフロントエンドパイプラインは、例えば２つのレーン＃Ａ，＃Ｂを有し、命令をフェッチして、micro-Operation（μＯＰ；マイクロオップ）を要素演算発行ユニットに供給する。具体的には、符号Ｂ１に示す命令キャッシュから命令フェッチを行い、符号Ｂ２に示すリネームロジックでリネーム（別言すれば、命令解析）を行い、μＯＰを生成する。そして、符号Ｂ３において、生成されたμＯＰを要素演算発行ユニットに格納する。

命令は、Instruction Set Architecture（ＩＳＡ；命令セットアーキテクチャ）で定義され、主記憶装置上のバイナリコード中から命令キャッシュ上までキャッシュされ、マシンではフェッチの対象となる。

μＯＰは、x86やSVEなどにある複雑な命令を、複数の簡単な処理に分解した単位である。μＯＰは、コア内でフェッチされた命令から変換され、スケジューリングの対象となる。ＳＩＭＤ命令からは、ＳＩＭＤ μＯＰが生成される。なお、μＯＰを用いないコアでは、１命令に対してそれと等価なμＯＰが１つ生成されると解してよい。

符号Ｂ４に示す要素演算発行ユニットは、μＯＰをスケジュールし、適切なタイミングで要素演算をバックエンドパイプラインに投入する。バックエンドパイプラインに投入することを発行と言う。

符号Ｂ５～Ｂ９に示すバックエンドパイプラインは、例えば３つのレーン＃１～＃３を有し、発行された要素演算を処理する。具体的には、符号Ｂ５に示す各レーン＃１～＃３で要素演算の発行を行い、符号Ｂ６に示す各レーンでレジスタファイルの読み出しを行い、符号Ｂ７に示す各レーン＃１～＃３の実行ユニットで要素演算の実行を行い、符号Ｂ８に示すレーン＃３の実行ユニットで要素演算の実行を行い、符号Ｂ９に示す各レーン＃１～＃３でレジスタファイルへの書き戻しを行う。

要素演算は、バックエンドパイプラインのレーンの処理の単位である。ＳＩＭＤの場合には、１つのμＯＰがレーンの幅の要素演算を複数持つ。ＳＩＭＤではないスカラの場合には、１つのμＯＰがそれと等価な要素演算を１つ持つと解してよい。バックエンドパイプラインの１つのレーンに対して、毎サイクル高々１つの要素演算が発行され、１つのレーンは命令の要素演算を毎サイクル高々１つパイプライン処理する。また、１つの要素演算が再びＳＩＭＤ型であってもよく、例えば64bレーンの場合には16b×4などのＳＩＭＤ型要素演算を処理してよい。

〔Ｂ－２〕Out-of-Stepバックエンドパイプライン
図５は、図６におけるOut-of-Stepバックエンドパイプライン１と比較するためのIn-Stepバックエンドパイプライン２を模式的に示すブロック図である。

In-Stepバックエンドパイプライン２では、符号Ｃ８に示されるように、論理的には全レーンにまたがるパイプラインレジスタによって連続する複数のステージに分割されている。そのため、In-Stepバックエンドパイプライン２は、全体がv個の要素演算を並列に処理する１本のパイプラインであり、バックエンドパイプライン全体が進むか止まるかのいずれかとなる。その結果、要素演算の空間・時間的位置関係は、発行される際に決められたまま変更されることがない。

１以上のレーンの一部又は全部は、ＳＩＭＤ命令の演算に対応してよい。図５に示す例では、レーン＃１，＃２がスカラ構成であり、レーン＃３，＃４がＳＩＭＤ構成である。符号Ｃ１に示すように、要素演算発行ユニットから、レーン＃１，＃２に対してそれぞれ異なるμＯＰから生成された要素演算が発行されると共に、レーン＃３，＃４に対しては１つのμＯＰから生成された２つの要素演算が発行される。

符号Ｃ２，Ｃ３に示すように、レーン＃１～＃４でレジスタ読み出しが２ステージにわたって行われる。

符号Ｃ４に示すように、レーン＃１，＃２ではそれぞれ異なる実行ユニットで要素演算が実行されると共に、レーン＃３，＃４ではＳＩＭＤ実行ユニットで要素演算が実行される。符号Ｃ５に示すように、レーン＃２で演算が行われると共に、レーン＃３，＃４ではＳＩＭＤ実行ユニットで要素演算が実行される。

そして、符号Ｃ６，Ｃ７に示すように、レーン＃１～＃４でレジスタ書き戻しが２ステージにわたって行われる。

バックエンドパイプラインでは、キャッシュミスやバンク衝突等、要素演算の処理を継続できない事象が発生することがある。キャッシュミスやバンク衝突等への対処が終わるまで、該当の要素演算は次段の処理に進むことができない。

In-Stepバックエンドパイプライン２では、キャッシュミスやバンク衝突等、要素演算の処理を継続できない事象が発生した場合でも、既に発行された要素演算間の空間・時間的位置関係を変更しない。

要素演算の処理を継続できない事象の発生時にパイプライン全体を停止させることをパイプラインストールという。パイプラインストールでは、ストールの前後で、要素演算間の位置関係はそのままに保たれる。

一方、該当の要素演算とそれに依存する要素演算、もしくは、該当の要素演算と後続のすべての要素演算とをキャンセルし、再発行、すなわち、発行からやり直す方法もある。この場合、キャンセルされなかった要素演算の位置関係はそのままに保たれる一方、キャンセル・再発行された要素演算間の位置関係はゼロから再構築されることになる。この場合も、既に発行された要素演算間の位置関係が変更されるのではない。

パイプラインストール及び要素演算のキャンセルのいずれの場合でも、キャッシュミスやバンク衝突等が１つでも発生すれば、多くの要素演算に影響が及ぶ。コアの規模が大きいほど、影響は相対的に大きくなる。

図６は、実施形態におけるOut-of-Stepバックエンドパイプライン１を模式的に示すブロック図である。

Out-of-Stepは、In-Stepの否定・補集合となる。Out-of-Stepバックエンドパイプライン１（別言すれば、演算処理装置）において、要素演算は、発行された際の空間・時間的位置関係を守らない。

１以上のレーンの一部又は全部は、ＳＩＭＤ命令の演算に対応してよい。図６に示す例では、図５に示したIn-Stepバックエンドパイプライン２と同様に、レーン＃１，＃２がスカラ構成であり、レーン＃３，＃４がＳＩＭＤ構成である。符号Ｄ１に示すように、要素演算発行ユニット１００から、レーン＃１，＃２に対してそれぞれ異なるμＯＰから生成された要素演算が発行されると共に、レーン＃３，＃４に対しては１つのμＯＰから生成された２つの要素演算が発行される。発行された要素演算は、それぞれバッファ１０１に格納される。

符号Ｄ２，Ｄ３に示すように、レーン＃１～＃４でレジスタ読み出しが２ステージにわたって行われる。レジスタ読み出し結果は、実行ユニットの直前のバッファ１０３に格納される。

符号Ｄ４に示すように、レーン＃１，＃２ではそれぞれ異なるスカラ実行ユニットで要素演算が実行されると共に、レーン＃３，＃４ではＳＩＭＤ実行ユニットで要素演算が実行される。符号Ｄ５に示すように、レーン＃２ではスカラ実行ユニットで要素演算が実行されると共に、レーン＃３，＃４ではＳＩＭＤ実行ユニットで要素演算が実行される。要素演算の実行結果は、レジスタ書き戻しの直前のバッファ１０４に格納される。

そして、符号Ｄ６，Ｄ７に示すように、レーン＃１～＃４でレジスタ書き戻しが２ステージにわたって行われる。

Out-of-Stepバックエンドパイプライン１において、要素演算発行ユニット１００は、In-Stepバックエンドパイプライン２と同じでよく、要素演算の処理を継続できなくなる事象が発生しないと仮定した場合に、レジスタファイル又はバイパスによってデータの受け渡しが可能なタイミングで、依存関係にある要素演算を発行してよい。一方、Out-of-Stepバックエンドパイプライン１の各レーンは、要素演算発行ユニット１００によって発行された際の要素演算の位置関係を任意に変更して正しく処理する。

図６のOut-of-Stepバックエンドパイプライン１におけるステージ境界としてのバッファ１０１，１０３，１０４は、単一エントリのパイプラインレジスタではなく、複数エントリからなるバッファである。

全体は、バッファ１０１，１０３，１０４によって、複数のセクションへと分離される。

あるセクションにキャッシュミスやバンク衝突等により処理を継続できない要素演算がある場合には、該当のセクションは処理を停止する。これを、セクションストールと呼ぶ。一方、バッファを隔てた上流のセクションは処理を継続することができる。上流のセクションの処理を終えて、ストールするセクションへと進む要素演算があれば、それを間のバッファに格納すればよい。図５に示したIn-Stepバックエンドパイプライン２では、このバッファが単一エントリのパイプラインレジスタ（符号Ｃ８参照）であるため、仮に上流が停止しなければ、要素演算の書き潰しが起こる。すなわち、Out-of-Stepバックエンドパイプライン１では、各セクションが独立にストールすることができる。Out-of-Stepバックエンドパイプライン１におけるパイプラインレジスタ１０２は、In-Stepバックエンドパイプライン２の符号Ｃ８におけるパイプラインレジスタとは異なり、全レーンにまたがるのではなく、セクションごとに独立に動作する。

セクションへの分離は、レーン境界に縛られない。例えば、バッファ１０１の読み出しとバッファ１０３の書き込みは、２つあるソースオペランドごとにできるため、レジスタ読み出しのセクションはレーンごとに２つになり、２つのソースオペランド読み出しが同時に行われないことを許す。一方、バッファ１０４の読み出しはレーン＃３とレーン＃４とで同時に行われ、レーン＃３とレーン＃４とのレジスタ書き戻しのセクションはレーン＃３とレーン＃４とにまたがっている。

Out-of-Stepバックエンドパイプライン１におけるバッファ１０１，１０３，１０４は、First In-First Out（ＦＩＦＯ）バッファであってよく、その場合、レーン内では要素演算の追い越しは起こらない。

すなわち、Out-of-Stepバックエンドパイプライン１は、命令の要素演算を毎サイクル高々１つの処理する１以上のレーンと、１以上のレーンに要素演算を発行する要素演算発行ユニット１００とを備える。全体はバッファ１０１，１０３，１０４によって、複数のセクションへと分離される。要素演算の処理を継続できなくなった１以上のセクションは処理を停止する一方、他のセクションは、下流のセクションのそれぞれへと進む要素演算を直後のバッファへと格納して、要素演算の処理を継続する。

レジスタファイルと一次データキャッシュとのいずれか又は両方がマルチバンク構成であり、マルチバンク構成内におけるバンク衝突が要素演算の処理を継続できなくなる要因の１つとされてよい。

Out-of-Stepバックエンドパイプライン１においては、要素演算発行ユニット１００によるスケジューリングの結果を遅延させるだけであるため、ハードウェアコストを極小に抑えることができる。

図７は、図６に示したOut-of-Stepバックエンドパイプライン１の効果を説明するためのブロック図である。

符号Ｅ１に示すように６つのバンク＃１～＃６を有するマルチバンク構成の一次データキャッシュを持つOut-of-Stepバックエンドパイプライン１において、アクセスするバンクをランダムに決定する例を、図７を用いて説明する。

各レーン＃１～＃３のそれぞれに対して、符号Ｅ２に示すようにａ１～ａ３の要素演算が発行された後、符号Ｅ３に示すようにｂ１～ｂ３の要素演算が発行された後、符号Ｅ４に示すようにｃ１～ｃ３の要素演算が発行されている。

図８は、図６に示したOut-of-Stepバックエンドパイプライン１の効果を説明するためのダイヤグラムである。各時刻において、発行された要素演算が＃１～＃６のどのバンクにいるかを示している。

符号Ｆ１１～Ｆ１５に示すように、In-Stepバックエンドパイプライン２においては、５回のバンク衝突が発生して、全ての要素演算の完了までに１４サイクルが消費されている。衝突確率はP(6,3)=0.44あり、性能低下が44%となる。

一方、符号Ｆ２１～Ｆ２５に示すように、Out-of-Stepバックエンドパイプライン１においては、In-Stepバックエンドパイプライン２と同じく５回のバンク衝突が発生しているものの、全ての要素演算の完了まで１０サイクルしか消費しておらず、性能低下はほぼ0となる。衝突確率はIn-Stepバックエンドパイプライン２と同じくP(6,3)=0.44であるが、バンク衝突が発生しても同じサイクルで次の要素演算を処理しているためである。

〔Ｂ－３〕バイパス制御
Out-of-Stepバックエンドパイプライン１では、セクションストールによる遅れのために位置関係が変わってしまった要素演算間で実行結果を正しくバイパスする。

要素演算を実行する実行ユニットよりも上流に位置するバッファおよびパイプラインレジスタのエントリの全部又は一部は、ソースオペランドをバイパスから受信する機能を有してよい。

実行ユニットの直前のバッファ１０３は、遅れてバイパスされた実行結果をソースオペランドとして待ち合わせる二次的な要素演算発行ユニットとして機能する。バッファ１０３がＦＩＦＯであれば、先頭にある要素演算のソースオペランドが揃っていれば、実行ユニットにおいて実行すればよい。

図９は、図６に示したOut-of-Stepバックエンドパイプライン１における分散ＣＡＭを用いたバイパス制御を説明するための図である。

図９に示すバックエンドパイプラインにおいては、符号Ｊ１に示すバイパス元の実行ユニットが、符号Ｊ２に示すバイパスラインを介して、符号Ｊ３に示すバイパス先の実行ユニットに接続されている。バイパス先の回路では、バイパス制御回路１０５が、マルチプレクサ（ｍｕｘ）１０６を制御することにより、バイパス制御を行う。符号Ｊ１に示すバイパス元の回路は、実行結果に、それを一意に識別するデスティネーションタグtagDを付して、バイパスラインＪ２に送出する。バイパス制御回路１０５が、流されてきたtagDとソースタグtagLと比較し、一致すれば、マルチプレクサ１０６がtagDに対応する実行結果を取り込む。符号１０５と１０６とは、タグをキーとするＣＡＭ（Content-Addressable Memory）を構成している。

バイパス制御は、バイパスを介して送受信を行う２つの要素演算のそれぞれがバッファもしくはパイプラインレジスタのどのエントリにあるかを、セクションストールに応じて追跡することによって行ってもよい。

そしてセクションストールに応じた追跡は、２つの要素演算間のバイパスを介した送受信の必要性の関係を行列の形で表現した依存行列を用いて行ってよい。

図１０は、図６に示したOut-of-Stepバックエンドパイプライン１の依存行列を用いたバイパス制御を説明するためのブロック図である。

符号Ｋ１に１レーンからなるOut-of-Stepバックエンドパイプライン１のブロック図を示す。符号Ｋ１に示すように、レーンを流れる要素演算は、オプコードop-code、ソースオペランドsrc 1及びsrc 2、デスティネーションオペランドdstの各フィールドを有する。符号Ｋ１に示すブロック図では、レジスタ読み出し、実行、レジスタ書き戻しのそれぞれが１ステージであり、各々３エントリのバッファによって、各ステージがそれぞれセクションへと分離されている。なお、符号Ｋ１１は、バイパス可能な期間を１サイクル延長するために実行結果を１サイクルの間とっておくためのパイプラインレジスタを示す。

符号Ｋ２では、符号Ｋ１に示したdstとsrc 1との依存行列を示している。その他に、dstとsrc 2との依存行列がある。

符号Ｋ２では、横軸（生産者）の上部には、符号Ｋ１のブロック図のdstに係わる部分が抜き出され、左に９０°回転して描かれている。縦軸（消費者）の右側には、同じく符号Ｋ１のブロック図のsrc 1に係わる部分が抜き出されて描かれている。

２つの軸の左下が依存行列である。縦軸（消費者）／横軸（生産者）は、消費者／生産者の要素演算の当該レーン内のバッファ及びパイプラインレジスタのエントリを示す。上流から数えてp番目のエントリに格納されている要素演算と、同じく上流から数えてc番目のエントリに格納される要素演算とが、前者のdstと後者のsrc 1とを介して依存関係にあり、バイパスを通して実行結果を送受信する必要がある場合、依存行列のc行p列の要素が“１”にセットされる。

あるソースオペランドに対して、それと依存関係にあるデスティネーションオペランドは高々１つなので、ある行においてセットされる要素も高々１つ、すなわち、ワンホットとなる。依存行列は、タグ比較器のアレイである依存行列生成回路によって生成されてよい。

図１１は、依存行列生成回路を模式的に示すブロック図である。

バイパスが必要であることを表す“１”は、図１１に示すような依存行列生成回路によって生成され、依存行列においてレジスタ読み出し前のバッファにあたる行のいずれかのマスに現れる。

依存行列は、セクションストールの状況に合わせて、行／列方向同時に、二次元的にシフトされる。その結果、依存関係を表す“１”は、そこにとどまるか、右か右下か下に移動する。

生産者が実行ステージを通過するサイクル以降で、バイパスが行われる。その際、各行はバイパスからのマルチプレクサのワンホットの選択入力そのものとなる。

In-Stepバックエンドパイプライン２では、生産者と消費者との位置関係が変わらないため、バイパスを行うタイミングの制約が厳しい。

一方、Out-of-Stepバックエンドパイプライン１では、バイパスのために生産者と消費者との位置関係を変えることができる。生産者から実行結果を受け取っていない消費者は、実行ユニットの直前のバッファ１０３で待っているので、そこにバイパスできればよい。

また、使用頻度が低いバイパスは省かれてもよい。あるエントリへの第１のバイパスを省略しても、より下流のエントリにおいて第１のバイパス以外のバイパスからソースオペランドを受信できると保証される場合に、第１のバイパスが省略されてよい。

図１０に示した符号Ｋ２の依存行列のマスごとに、バイパスのありなしを設定することができる。依存行列においてバイパスありのマスに“１”があるサイクルにおいてバイパスが行われる。

必要なバイパスを必ず受けられるようにするためには、依存行列においてすべての“１”が必ず一つ以上のバイパスありのマスを通過するように、バイパスありのマスを配置すればよい。

そしてそのためには、符号Ｋ２１の右端の列のマスをバイパスありに設定すれば十分である。

ただし符号Ｋ２１の右端の列においてバイパスを受けるということは、依存関係にある２要素演算が必ず２サイクル以上空けて実行されることを意味する。したがって性能上は、符号Ｋ２において“ａ”と“ｂ”もしくは“ｃ”で示したマスにもバイパスがあった方がよい。“ａ”は依存する２要素演算が連続する２サイクルにback-to-backに実行される場合の位置となる。“ｂ”と“ｃ”とは１サイクル空けて実行される場合の位置である。位置としては“ｃ”の方が柔軟だが、“ｂ”の方が低コストとなる。

図１１に示すような依存行列生成回路がソースオペランドをバイパスから受け取る必要があると判定した場合には、レジスタへのアクセスは必要ない。したがって、レジスタファイルもマルチバンク化する場合は、依存行列生成回路の判定に従ってレジスタファイルへの無駄なアクセスを省略してよい。

〔Ｃ〕効果
図１２は、ＨＰＣＧの内積部の性能見積を説明するためのグラフである。

図１２に示すグラフにおいて、横軸はＳＩＭＤ幅vを示し、縦軸は性能向上比を示す。なお、バンク数は、アクセス数の２倍の4vとする。符号Ｍ１に示す一点鎖線は従来のスーパーコンピュータにおけるＨＰＣＧの内積部の性能見積を示し、符号Ｍ２に示す破線は従来のスーパーコンピュータにマルチバンク一次データキャッシュを採用した場合のＨＰＣＧの内積部の性能見積を示す。また、符号Ｍ３に示す実線は、従来のスーパーコンピュータにマルチバンク一次データキャッシュに加えてOut-of-Stepバックエンドパイプライン１を採用した場合のＨＰＣＧの内積部の性能見積を示す。

符号Ｍ１に示す場合では、ギャザー性能は一定のため、ＳＩＭＤ幅vに対して性能向上比は殆ど向上しない。また、符号Ｍ２に示す場合では、符号Ｍ１に示した場合と比較して２倍程度の性能向上比を得られるが、大きいＳＩＭＤ幅vに対してはバンク衝突により性能向上比が向上しない。

一方、符号Ｍ３に示す場合では、大きいＳＩＭＤ幅vに対しても、線形に性能向上比を向上させることができる。

上述した実施形態の一例におけるOut-of-Stepバックエンドパイプライン１によれば、例えば、以下の作用効果を奏することができる。

Out-of-Stepバックエンドパイプライン１（別言すれば、演算処理装置）は、命令の要素演算を毎サイクル高々１つ処理する１以上のレーンと、１以上のレーンのそれぞれに毎サイクル高々１つの要素演算を発行する要素演算発行ユニット１００と、を備える。全体は、バッファによって複数のセクションへと分離される。要素演算の処理を継続できなくなった１以上のセクションは処理を停止する一方、他のセクションは下流のセクションのそれぞれへと進む要素演算を直後のバッファに格納しつつ動作を継続する。

これにより、あるセクションでバンク衝突やキャッシュミスが発生した場合でも、ストールや要素演算のキャンセルを回避し処理速度の低下を抑えることができる。

〔Ｄ〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

１：Out-of-Stepバックエンドパイプライン
１００：要素演算発行ユニット
１０１：バッファ（レジスタ読み出しの直前）
１０２：パイプラインレジスタ
１０３：バッファ（実行ユニットの直前、二次の要素演算発行ユニット）
１０４：バッファ（レジスタ書き戻しの直前）
１０５：バイパス制御回路
１０６：マルチプレクサ
２：In-Stepバックエンドパイプライン

Claims

命令の要素演算を毎サイクル高々１つ処理する１以上のレーンと、
前記１以上のレーンに要素演算を発行する要素演算発行ユニットと、
を備え、
全体は複数のエントリを持つバッファによって複数のセクションへと分離され、
要素演算の処理を継続できなくなった１以上のセクションは処理を停止する一方、
他のセクションは、下流のセクションのそれぞれへと進む要素演算を直後のバッファに格納して、処理を継続する、
演算処理装置。
前記要素演算発行ユニットは、前記１以上のセクションの停止が発生しないと仮定した場合に、レジスタファイル又はバイパスによってデータの受け渡しが可能なタイミングで依存関係にある要素演算を発行する、
請求項１に記載の演算処理装置。
前記バッファは、First In-First Out（ＦＩＦＯ）方式であり、前記１以上のレーンのそれぞれの中での要素演算の追い越しをさせない、
請求項１又は２に記載の演算処理装置。
要素演算を実行する実行ユニットよりも上流に位置するバッファもしくはパイプラインレジスタのエントリの全部又は一部は、ソースオペランドをバイパスから受信する機能を有し、
要素演算を実行する実行ユニットの直前に位置するバッファは、実行に必要なソースオペランドが揃うまで要素演算を留めおく、
請求項１～３のいずれか１項に記載の演算処理装置。
バイパスの送信側は実行結果を一意に識別するタグを実行結果に付してバイパスに送出し、バイパスの受信側はタグの一致比較によって実行結果を受け取ることにより、前記セクションの停止によって位置関係が変化した要素演算の間でもバイパスを行うバイパス制御回路を更に備える、
請求項１～４のいずれか１項に記載の演算処理装置。
バイパスを介して送受信を行う２つの要素演算のそれぞれが前記バッファもしくはパイプラインレジスタのどのエントリにあるかを、前記１以上のセクションの停止に応じて追跡することによって、位置関係が変化した要素演算の間でもバイパスを行うバイパス制御回路を更に備える、
請求項１～４のいずれか１項に記載の演算処理装置。
前記バイパス制御回路の追跡は、
前記１以上のレーンのソースオペランドとデスティネーションオペランドとの対のそれぞれに対して、送信側及び受信側の要素演算が前記バッファもしくは前記パイプラインレジスタのどのエントリにあるかを行及び列とし、
上流から数えてp番目のエントリに格納されている第１の要素演算と、同じく上流から数えてc番目のエントリに格納される第２の要素演算とが、前記第１の要素演算の前記デスティネーションオペランドと前記第２の要素演算のソースオペランドとを介して依存関係にあり、バイパスを通して実行結果を送受信する場合、c行p列の要素がセットされる行列を用い、
要素演算の発行の際に該当する要素をセットし、
前記１以上のセクションの停止に応じて行方向及び列方向にそれぞれ更新することによって行う、
請求項６に記載の演算処理装置。
あるエントリへの第１のバイパスを省略しても、下流のエントリにおいて前記第１のバイパス以外のバイパスからソースオペランドを受信できると保証される場合に、前記第１のバイパスが省略される、
請求項１～７のいずれか１項に記載の演算処理装置。
レジスタファイルと一次データキャッシュとのいずれか又は両方がマルチバンク構成であり、前記マルチバンク構成内におけるバンク衝突を前記セクションの停止の要因の１つとする、
請求項１～８のいずれか１項に記載の演算処理装置。
前記１以上のレーンの一部又は全部は、Single Instruction/Multiple Data stream（ＳＩＭＤ）命令の要素演算に対応する、
請求項１～９のいずれか１項に記載の演算処理装置。