JP7157457B2 - データ処理装置 - Google Patents

データ処理装置 Download PDF

Info

Publication number
JP7157457B2
JP7157457B2 JP2019517698A JP2019517698A JP7157457B2 JP 7157457 B2 JP7157457 B2 JP 7157457B2 JP 2019517698 A JP2019517698 A JP 2019517698A JP 2019517698 A JP2019517698 A JP 2019517698A JP 7157457 B2 JP7157457 B2 JP 7157457B2
Authority
JP
Japan
Prior art keywords
unit
address
inter
register
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019517698A
Other languages
English (en)
Other versions
JPWO2018207883A1 (ja
Inventor
康彦 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nara Institute of Science and Technology NUC
Original Assignee
Nara Institute of Science and Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nara Institute of Science and Technology NUC filed Critical Nara Institute of Science and Technology NUC
Publication of JPWO2018207883A1 publication Critical patent/JPWO2018207883A1/ja
Application granted granted Critical
Publication of JP7157457B2 publication Critical patent/JP7157457B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)
  • Multi Processors (AREA)

Description

本発明は、コンピュータシステムに用いられるデータ処理装置に関する。
複数の演算器を二次元ネットワークにより相互接続した構成を備えたシストリックアレイ型アクセラレータが従来技術として知られている(特許文献1)。
特許文献1に開示された従来のアクセラレータでは、その配線量の多さがFPGA(Field Programmable Gate Array)やLSI(Large Scale Integrated Circuit)に実装する際の問題となりやすい。FPGAやLSIの回路規模が大きくなればなるほど、配線の信号遅延が増大することになるからである。
また、特許文献1のアクセラレータでは、各演算器には自演算器の結果を自身の入力にバイパスさせる自己ループが備えられている。各演算器が自演算器の結果を自演算器で使用するためである。
演算器の自己ループ構造が必要となるアキュムレート演算に対応するためには、演算器をパイプライン化して演算器の性能を向上させる手法を適用することはできない。非パイプライン処理は演算器の使用効率を低下させる要因となる。
例えば、特許文献1のアクセラレータでは、演算器は複数のブロックから構成されており、その回路構成からすればパイプライン処理は可能であるといえる。しかし、演算結果を次の実行サイクルの入力とする演算を実行する場合、各ブロック間でデータの受け渡しが必要となるので、パイプライン処理を行うことはできない。それゆえ、演算回路の使用率は数分の1程度になり、その使用効率は低下することになる。
国際公開第2016/163421号(2016年10月13日公開)
本発明の一態様は、シストリックアレイ型アクセラレータにおいて、配線量の削減及び演算器の使用効率の向上を同時に達成可能なデータ処理装置を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係るデータ処理装置は、複数の演算器及び複数のレジスタを備え、アキュムレート演算可能な自己ループ構造を持つ、複数のユニットが相互接続されるデータ処理装置であって、各ユニットは、各ユニットの前段のユニット側に配置されたユニット間レジスタ部を含み、前記各ユニットは、前記ユニット間レジスタ部からデータを読み出し、当該データを用いて演算を行った後、各実行サイクルにおいて後段のユニットに含まれるユニット間レジスタ部のうちの各実行サイクルに対応するレジスタを更新する演算をパイプライン実行することにより、自己ループ命令を含む命令から構成される命令列を実行する。
上記構成によれば、配線量の削減及び演算器の使用効率の向上が図られる。
前記各ユニットは、前記ユニット間レジスタ部からアドレス情報を読み出し、当該アドレス情報を用いてアドレスを生成した後、各実行サイクルにおいて後段のユニットに含まれるユニット間レジスタ部を更新するメモリ読み出しをパイプライン実行することにより、自己ループアドレス生成を含むメモリ参照命令から構成される命令列を実行することが好ましい。
前記各ユニットは、メモリブロック、及び前記生成されたアドレスを書き換えるアドレス書き換え部を含み、前記各ユニットは、前記メモリブロックを分割する場合には、前記アドレス書き換え部によって書き換えられたアドレスを用いて前記メモリブロックへの書き込みを行い、前記メモリブロックを分割しない場合には、前記生成されたアドレスを用いて前記メモリブロックへの書き込みを行うことが好ましい。
前記ユニット間レジスタ部は、第1レジスタ群及び第2レジスタ群を含み、前記各ユニットは、前記第1レジスタ群及び第2レジスタ群を、それぞれ、書き込みレジスタ群又は読み出しレジスタ群として、排他的に使用することが好ましい。
前記各ユニットは、前記ユニット間レジスタ部から読み出されたアドレス情報を用いてアドレスを生成するアドレス生成器を含み、各実行サイクルに対応する演算及びアドレス生成の組に関連付けられるメモリ空間であって、実行サイクル間で互いに独立したメモリ空間又は実行サイクル間で共有されるメモリ空間を対象として、前記メモリブロックを参照することが好ましい。
前記各ユニットは、1つの前記演算器と、1組の前記アドレス生成器及び前記アドレス書き換え部と、1つの前記メモリブロックとを用いて、各実行サイクルに対応する、実行サイクル数分の前記演算器と、実行サイクル数組の前記アドレス生成器及び前記アドレス書き換え部と、実行サイクル数分のメモリブロックとを有するハードウェア構成の機能と等価な機能を提供することが好ましい。
本発明の一態様によれば、シストリックアレイ型アクセラレータにおいて、配線量の削減及び演算器の使用効率の向上を同時に達成することができる。
本発明の実施形態に係るデータ処理装置のハードウェア構成を示す模式図である。 上記データ処理装置が実行するデータ処理(レジスタ更新)の処理手順を示すタイミングチャートである。 上記データ処理装置に含まれるユニット間レジスタ部の配置構成を説明するための説明図である。(a)は、上記ユニット間レジスタ部を示し、(b)は、(a)のユニット間レジスタ部に含まれる第1ユニット間レジスタ要素P101~P134及び第2ユニット間レジスタ要素Q101~Q134のそれぞれに対応する識別符号を示す。 上記データ処理装置に含まれるアドレス書き換え部の動作を説明するための説明図である。(a)は、アドレス書き換え部が実行する第1モード処理を説明するための説明図、(b)は、アドレス書き換え部が実行する第2モード処理を説明するための説明図である。 上記データ処理装置が実行するデータ処理(メモリ参照)の処理手順を示すタイミングチャートである。
以下、本発明の実施の形態について、詳細に説明する。
(データ処理装置1の構成)
図1は、本発明の実施形態に係るデータ処理装置1のハードウェア構成を示す模式図である。データ処理装置1は、複数の演算器を二次元ネットワークにより相互接続した構成を備えたシストリックアレイ型アクセラレータを構成する。
図1に示すように、データ処理装置1は、ユニット間レジスタ部11と、演算バス及びスイッチ群12と、アドレス設定部13と、データ保持部14と、演算器15と、アドレス生成器16と、アドレス書き換え部17と、メモリブロック18と、マルチプレクサ19と、を含む、複数の基本ユニット10(ユニット)が相互に接続された構成を備える。
複数の基本ユニット10は1列に並べられる。また、複数の基本ユニット10の列には折り返しがあっても構わない。さらに、複数の基本ユニット10はリング状に並べられても良い。互いに隣接する各基本ユニット10間においては、前段の基本ユニット10から後段の基本ユニット10へデータが転送される。
ユニット間レジスタ部11は、前段の基本ユニットから転送されるデータを格納する。ユニット間レジスタ部11は、所謂ダブルバッファリングを用いる。ユニット間レジスタ部11は、第1ユニット間レジスタ要素P101~P134から構成された第1レジスタ群11a及び第2ユニット間レジスタ要素Q101~Q134から構成された第2レジスタ群11bを含む。なお、ユニット間レジスタ部21は、基本ユニット10に隣接する後段の基本ユニット(図示省略)に含まれるものである。ユニット間レジスタ部21の機能はユニット間レジスタ部11の機能と同一である。
演算バス及びスイッチ群12は、ユニット間レジスタ部11から読み出されるデータを演算器15に供給する。演算器15は、演算バス及びスイッチ群12から供給されるデータを用いて演算する。
また、演算バス及びスイッチ群12は、ユニット間レジスタ部11から読み出されるデータをアドレス生成器16に供給する。アドレス生成器16は、アドレス設定部13から読み出されるアドレス情報及び演算バス及びスイッチ群12から供給されるデータを用いてアドレス生成する。アドレス生成器16は、自己ループアドレス生成を含むメモリ参照命令を生成可能である。
アドレス設定部13には、命令バッファ(図示省略)から読み出されるプログラムに予め記載されたアドレス情報が設定される。アドレス設定部13は、アドレス生成器16の入力数に合わせて、4つのアドレス設定要素を含む。なお、命令バッファは、例えば、コンフィギュレーションメモリであり、公知のCGRA(Coarse-Grained Reconfigurable Architecture)を構成し、コンフィギュレーションデータを格納する。
データ保持部14は、演算器15及びアドレス生成器16の各々に入力されるデータ及び各々から出力されるデータ、並びに、各々の内部のデータを一時的に保持するバッファである。データ保持部14は、第1保持部14a、第2保持部14b、第3保持部14c及び第4保持部14dを含む。第1保持部14aは、演算器15及びアドレス生成器16の各々に入力されるデータを保持し、第4保持部14dは、演算器15及びアドレス生成器16の各々から出力されるデータを保持する。また、第2保持部14b及び第3保持部14cは、演算器15及びアドレス生成器16の各々の内部のデータを保持する。
演算器15は、第1演算ブロック15a、第2演算ブロック15b及び第3演算ブロック15cを含む。演算器15は、自己ループ構造を備えており、第3演算ブロック15cの出力を第1演算ブロック15aの入力とする。演算器15は、自己ループ命令を含む命令から構成される命令列を実行可能である。
アドレス生成器16は、Write専用のストアユニット16a及びRead専用のロードユニット16bを含む。アドレス生成器16は、Read及びWriteを同時に行う。アドレス生成器16は、メモリブロック18からの読み出し及びメモリブロック18への書き込みを行うためのアドレス情報を生成する。
アドレス書き換え部17は、アドレス生成器16が生成するアドレスを書き換える。
メモリブロック18には、アドレス書き換え部17によって書き換えられたアドレスに基づき、演算器15の演算結果が書き込まれる。
マルチプレクサ19は、メモリブロック18から読み出されたデータを集約する。マルチプレクサ19は、集約したデータをユニット間レジスタ部21に供給する。
ここで、データ処理装置1において注目すべきことは、複数の基本ユニット10が1列に並べられた、一本の基本ユニットの列(以下、「基本ユニット列」と称する。)を用いて、あたかも、複数の基本ユニット列(ここでは4列)があるかのごとく、複数の演算を行うことが可能となる回路構成を実現した点にある。すなわち、データ処理装置1は、論理的には4列、物理的には1列である回路構成を実現する。このような回路構成を実現することによって、配線量の削減及び演算器の使用効率の向上が図られる。
従来のシストリックアレイ型アクセラレータでは、上述の基本ユニット列に相当する基本ユニット列を4列配置しており、物理的に4列である回路構成を備えていた。そのため、配線量が多く、また、演算器の使用効率が低いという課題があった。
これに対し、データ処理装置1では、図1に示した基本ユニット10は1列のみであり、それにより、従来と比較して、配線量を削減し、且つ、演算器の使用効率を高くする。
以下、上述の注目すべき点について、さらに説明を続ける。
上述のとおり、データ処理装置1では、基本ユニット列を用いて、4列分の機能をパイプライン処理することによって、論理的には4列、物理的には1列である回路構成を実現する。このため、データ処理装置1は、以下の特徴的な回路構成を備える。
図1に示したように、まず、ユニット間レジスタ部11に含まれる第1レジスタ群11a及び第2レジスタ群11bは、それぞれ、4組のレジスタ要素群から構成される。すなわち、第1レジスタ群11aは、第1ユニット間レジスタ要素P101~P104からなる組、第1ユニット間レジスタ要素P111~P114からなる組、第1ユニット間レジスタ要素P121~P124からなる組、及び、第1ユニット間レジスタ要素P131~P134からなる組から構成される。各組は、それぞれ、パイプライン処理される4列の各列に対応するものである。
第2レジスタ群11bは、第2ユニット間レジスタ要素Q101~Q104からなる組、第2ユニット間レジスタ要素Q111~Q114からなる組、第2ユニット間レジスタ要素Q121~Q124からなる組、及び、第2ユニット間レジスタ要素Q131~Q134からなる組から構成される。各組は、それぞれ、パイプライン処理される4列の各列に対応するものである。
次に、アドレス設定部13に含まれる4個のアドレス設定要素EA1BR、EA1OR、EA0BR及びEA0ORは、それぞれ、4個の領域から構成される。すなわち、EA1BRは、EA1BR[0]、EA1BR[1]、EA1BR[2]及びEA1BR[3]から構成される。各領域は、それぞれ、パイプライン処理される4列の各列に対応するものである。
EA1ORは、EA1OR[0]、EA1OR[1]、EA1OR[2]及びEA1OR[3]から構成される。各領域は、それぞれ、パイプライン処理される4列の各列に対応するものである。
EA0BRは、EA0BR[0]、EA0BR[1]、EA0BR[2]及びEA0BR[3]から構成される。各領域は、それぞれ、パイプライン処理される4列の各列に対応するものである。
EA0ORは、EA0OR[0]、EA0OR[1]、EA0OR[2]及びEA0OR[3]から構成される。各領域は、それぞれ、パイプライン処理される4列の各列に対応するものである。
上述のとおり、(1)第1レジスタ群11a及び第2レジスタ群11bが、それぞれ、4組のレジスタ要素群から構成される点、並びに、(2)アドレス設定要素EA1BR、EA1OR、EA0BR及びEA0ORが、それぞれ、4個の領域から構成される点は、いずれも、4列の機能をパイプライン処理するためのものである。
次に、データ保持部14は、後述のとおり、STAGE1~4の各処理後におけるデータが保持されるように、上述の第1保持部14a、第2保持部14b、第3保持部14c及び第4保持部14dを含む。
最後に、データ処理装置1では、4列の機能をパイプライン処理するために、アドレス書き換え部17を備える。アドレス書き換え部17の動作については後述する。
(データ処理装置1の動作)
図1を参照しながら、図2を用いて、データ処理装置1の動作を説明する。図2は、データ処理装置1が実行するデータ処理(レジスタ更新)の処理手順を示すタイミングチャートである。図2は、主として、演算器15の演算の処理手順を示すものである。
ここで、データ処理装置1の動作の説明に入る前に、図3を用いて、図1に用いられた各種符号等について説明しておく。図3は、ユニット間レジスタ部11の配置構成を説明するための説明図である。図3の(a)は、ユニット間レジスタ部11を示し、(b)は、(a)のユニット間レジスタ部11に含まれる第1ユニット間レジスタ要素P101~P134及び第2ユニット間レジスタ要素Q101~Q134のそれぞれに対応する識別符号を示す。
図3の(a)において、第1ユニット間レジスタ要素P101~P134から構成された第1レジスタ群11aに着目する。例えば、第1ユニット間レジスタ要素P101には、図3の(b)のBR[y-1][0][0]が対応する。左から順に説明すると、左の[y-1]は基本ユニット10の段数を示し、中央の[0]はパイプライン処理される4列のいずれに対応するかを示し、右の[0]は各列における第1ユニット間レジスタ要素の位置を示す。
ここで注目すべきは、特に、上記の中央の符号がパイプライン処理される4列のいずれに対応するかを示している点である。データ処理装置1では、1実行サイクル毎に1列分の演算を行うが、各列と、各列の演算結果を格納するレジスタ群とは、上記の中央の符号を用いて、対応付けられている。つまり、データ処理装置1では、第1ユニット間レジスタ要素P101~P104→第1ユニット間レジスタ要素P111~P114→第1ユニット間レジスタ要素P121~P124→第1ユニット間レジスタ要素P131~P134→第1ユニット間レジスタ要素P101~P104→・・・の順番で、ユニット間レジスタ部11にデータがシーケンシャルに格納される。
なお、ユニット間レジスタ部11がダブルバッファリングを用いる理由は、ユニット間レジスタ部11に格納された4列分の演算結果をランダムに読み出す必要があるからである。このため、ユニット間レジスタ部11では、第1レジスタ群11a及び第2レジスタ群11bが、交互に4実行サイクル毎で、一方が上述の書き込み(格納)に用いられ、他方が後述の読み出しに用いられる。
他の第1ユニット間レジスタ要素、及び第2ユニット間レジスタ要素Q101~Q134から構成された第2レジスタ群11bにおいても、上記と同様である。
また、データ処理装置1を構成する他の構成に付された識別符号についても同様の考え方に従うものである。
図2に示すように、データ処理装置1では、STAGE1~STAGE4からなるパイプライン処理が行われる。STAGE5-1~STAGE5-8の各処理は、STAGE1~STAGE4からなるパイプライン処理が行われる間に行われる。
具体的には、STAGE1が終了する時刻t1において、第1演算ブロック15aの入力数と等しい3個分のデータ(ここでは、R133、R103及びR112)が読み出され、第1保持部14aに保持される。
STAGE2が終了する時刻t2において、第1演算ブロック15aの演算が終了し、その演算結果(ここでは、EX0)が、第2保持部14bに保持される。
STAGE3が終了する時刻t3において、第2演算ブロック15bの演算が終了し、その演算結果(ここでは、EX0)が、第3保持部14cに保持される。
STAGE4が終了する時刻t4において、第3演算ブロック15cの演算が終了し、その演算結果(ここでは、EX0)が、第4保持部14dに保持される。
ここで、時刻t2においては次のSTAGE1が終了し、ユニット間レジスタ部11の第1レジスタ群11aのうちの3個の第1ユニット間レジスタ要素から3個分のデータ(ここでは、R104、R133及びR111)が読み出され、第1保持部14aに保持される。
また、時刻t3においては次のSTAGE1が終了し、ユニット間レジスタ部11の第1レジスタ群11aのうちの3個の第1ユニット間レジスタ要素から3個分のデータ(ここでは、R122、R121及びR102)が読み出され、第1保持部14aに保持される。
さらに、時刻t4においては次のSTAGE1が終了し、ユニット間レジスタ部11の第1レジスタ群11aのうちの3個の第1ユニット間レジスタ要素から3個分のデータ(ここでは、R103、R113及びR133)が読み出され、第1保持部14aに保持される。
このようにして、演算器15の演算がパイプライン処理される。
なお、STGAE2~STGAE4についても、図2に示すとおり、上述のSTAGE1を同様、順次、処理される。
また、図2の例では、時刻t4において、第1レジスタ群11aからの、パイプライン処理される4列分の読み出しが終了する。そして、今度は、第2レジスタ群11bからの読み出しが始まり、時刻t5において、第2レジスタ群11bからの、パイプライン処理される4列分の最初の1列分の読み出しが終了する。
ここで、STAGE5-1~STAGE5-8は、上述のSTAGE1~STGAE4のパイプライン処理が行われている間に処理される。
具体的には、STAGE5-1~STAGE5-4において、ユニット間レジスタ部11の第1レジスタ群11aから読み出されたデータに基づく演算器15の演算結果が、ユニット間レジスタ部21の第1ユニット間レジスタ要素に格納される。続いて、STAGE5-5~STAGE5-8において、ユニット間レジスタ部11の第2レジスタ群11bから読み出されたデータに基づく演算器15の演算結果が、ユニット間レジスタ部21の第2ユニット間レジスタ要素に格納される。
次に、図1を参照しながら、図4及び図5を用いて、データ処理装置1の他の動作を説明する。図4は、アドレス書き換え部17の動作を説明するための説明図である。図4の(a)は、アドレス書き換え部17が実行する第1モード処理を説明するための説明図、図4の(b)は、アドレス書き換え部17が実行する第2モード処理を説明するための説明図である。図5は、データ処理装置1が実行するデータ処理(メモリ参照)の処理手順を示すタイミングチャートである。図5は、主として、アドレス生成器16のアドレス生成の処理手順を示すものである。
まず、図4を用いて、アドレス書き換え部17の動作について説明しておく。データ処理装置1は、1列分のメモリブロック(図1に示したメモリブロック18)を4列分のメモリブロックとして用いる。
ここで、メモリブロック18が4分割される場合、図4の(a)に示すように、ストアユニット16a及びロードユニット16bの出力20bitの上位2bitが列番号に応じて0/01/10/11のいずれかに上書きされ、アドレス書き換えが実行される(第1モード処理)。メモリブロック18の分割された各メモリ空間は、それぞれが、各列番号に対応し、互いに独立したメモリ空間である。各メモリ空間は、それぞれが対応する列番号に基づき参照される。
一方、メモリブロック18が分割されない場合、ストアユニット16a及びロードユニット16bの出力20bitはそのままであり、アドレス書き換えは実行されない(第2モード処理)。メモリブロック18の全メモリ空間は、すべての列番号に対応し、すべての列番号に基づき参照される。
このようにして、メモリブロック18は、各実行サイクルに対応する演算及びアドレス生成の組に関連付けられるメモリ空間であって、実行サイクル間で互いに独立したメモリ空間又は実行サイクル間で共有されるメモリ空間を対象として、参照されることになる。
図5に戻り、データ処理装置1の他の動作を説明する。
図5に示すように、STAGE1が終了する時刻t1において、アドレス設定部13の4個のアドレス設定要素EA1BR、EA1OR、EA0BR及びEA0ORから、それぞれが対応する、ストアユニット16aの各入力(ここでは、EA1Bのみ)及びロードユニット16bの各入力(EA0B及びEA0O)に供給されるアドレス情報が読み出され、第1保持部14aに保持される。なお、ストアユニット16aの入力EA1Oには、アドレス設定部13のアドレス設定要素EA1ORに代えて、ユニット間レジスタ部11から読み出されたデータが供給される。もちろん、ストアユニット16aの入力EA1Oにも、アドレス設定要素EA1ORから読み出されたアドレス情報が入力されても良い。
STAGE2が終了する時刻t2において、第1保持部14aに保持されたアドレスが、第2保持部14bに保持される。
STAGE3が終了する時刻t3において、第2保持部14bに保持されたアドレスが、第3保持部14cに保持される。
STAGE4が終了する時刻t4において、第3保持部14cに保持されたアドレスが、第4保持部14dに保持される。
ここで、時刻t2においては次のSTAGE1が終了し、アドレス設定要素EA1BR、EA1OR、EA0BR及びEA0ORから、それぞれが対応する、ストアユニット16aの各入力及びロードユニット16bの各入力に供給されるアドレス情報が読み出され、第1保持部14aに保持される。
また、時刻t3においては次のSTAGE1が終了し、アドレス設定要素EA1BR、EA1OR、EA0BR及びEA0ORから、それぞれが対応する、ストアユニット16aの各入力及びロードユニット16bの各入力に供給されるアドレス情報が読み出され、第1保持部14aに保持される。
さらに、時刻t4においては次のSTAGE1が終了し、アドレス設定要素EA1BR、EA1OR、EA0BR及びEA0ORから、それぞれが対応する、ストアユニット16aの各入力及びロードユニット16bの各入力に供給されるアドレス情報が読み出され、第1保持部14aに保持される。
このようにして、アドレス生成器16のアドレス生成がパイプライン処理される。
なお、STGAE2~STGAE4についても、図5に示すとおり、上述のSTAGE1を同様、順次、処理される。
また、図5の例では、時刻t4において、第1レジスタ群11aからの、パイプライン処理される4列分の読み出しに用いるアドレス情報の読み出しが終了する。そして、今度は、時刻t5において、第2レジスタ群11bからの、パイプライン処理される4列分の最初の1列分の読み出しに用いるアドレス情報の読み出しが終了する。
以上説明したように、従来のシストリックアレイ型アクセラレータでは4個の基本ユニットの各々に属する4個の演算器に対して4組の入力値を同時に供給するのに対して、データ処理装置1では4組の入力を、時間をずらして、パイプライン的に1つの演算器に供給する。
このため、データ処理装置1では、4組の入力データに対する演算結果がパイプライン的に出力されることに対応し、ユニット間レジスタ部11の第1レジスタ群11a又は第2レジスタ群11bの各4組のレジスタ要素群に順に格納される。
また、次行の演算に必要なデータは、第1レジスタ群11a又は第2レジスタ群11bの一方の全てから4実行サイクルを使用して読み出されるため、この読出しと上述の格納とが互いに干渉しないよう、4実行サイクル毎に、第1レジスタ群11a及び第2レジスタ群11bを交互に切替えて使用する。これは、データ処理装置1では、1実行サイクル毎に1列分の演算を行うので、その結果、4実行サイクル毎に4列分の演算が終了することになるからである。なお、上述のとおり、交互に第1レジスタ群11a及び第2レジスタ群11bに格納される4列分の演算結果は、ランダムに読み出されることになる。
本実施形態によれば、基本ユニット10は、各実行サイクルに対応する演算及びアドレス生成の組に関連付けられるメモリ空間であって、実行サイクル間で互いに独立したメモリ空間又は実行サイクル間で共有されるメモリ空間を対象として、メモリブロックを参照することができる。
このため、基本ユニット10は、1つの演算器15と、1組のアドレス生成器16及びアドレス書き換え部17と、1つのメモリブロック18とを用いて、各実行サイクルに対応する、実行サイクル数分の演算器と、実行サイクル数組のアドレス生成器及びアドレス書き換え部と、実行サイクル数分のメモリブロックとを有するハードウェア構成の機能と等価な機能を提供することが可能となる。
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。本明細書において引用した特許、特許出願および文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。
1 データ処理装置
10 基本ユニット(ユニット)
11、21 ユニット間レジスタ部
11a 第1レジスタ群
11b 第2レジスタ群
12 演算バス及びスイッチ群
13 アドレス設定部
14 データ保持部
14a 第1保持部
14b 第2保持部
14c 第3保持部
14d 第4保持部
15 演算器
15a 第1演算ブロック
15b 第2演算ブロック
15c 第3演算ブロック
16 アドレス生成器
16a ストアユニット
16b ロードユニット
17 アドレス書き換え部
18 メモリブロック
19 マルチプレクサ

Claims (6)

  1. 複数の演算器及び複数のレジスタを備え、アキュムレート演算可能な自己ループ構造を持つデータ処理装置であって、複数のユニットが相互接続されるデータ処理装置であって、
    各ユニットは、各ユニットの前段のユニット側に配置されたユニット間レジスタ部を含み、
    前記各ユニットは、4列分の機能をパイプライン処理することによって、論理的には4列であり、物理的には1列である回路構成を実現するものであり、
    前記各ユニットは、前記ユニット間レジスタ部からデータを読み出し、当該データを用いて演算を行った後、各機能におけるレジスタ更新において後段のユニットに含まれるユニット間レジスタ部のうちの各機能に対応するレジスタを更新する演算をパイプライン実行することにより、自己ループ命令を含む命令から構成される命令列を実行することを特徴とするデータ処理装置。
  2. 前記各ユニットは、前記ユニット間レジスタ部からアドレス情報を読み出し、当該アドレス情報を用いてアドレスを生成した後、各機能におけるメモリ参照において後段のユニットに含まれるユニット間レジスタ部を更新するためのメモリ読み出しをパイプライン実行することにより、自己ループアドレス生成を含むメモリ参照命令から構成される命令列を実行することを特徴とする請求項1に記載のデータ処理装置。
  3. 前記各ユニットは、メモリブロック、及び前記生成されたアドレスを書き換えるアドレス書き換え部を含み、
    前記各ユニットは、
    前記メモリブロックを分割する場合には、前記アドレス書き換え部によって書き換えられたアドレスを用いて前記メモリブロックへの書き込みを行い、
    前記メモリブロックを分割しない場合には、前記生成されたアドレスを用いて前記メモリブロックへの書き込みを行うことを特徴とする請求項2に記載のデータ処理装置。
  4. 前記ユニット間レジスタ部は、第1レジスタ群及び第2レジスタ群を含み、
    前記各ユニットは、前記第1レジスタ群及び第2レジスタ群を、それぞれ、書き込みレジスタ群又は読み出しレジスタ群として、排他的に使用することを特徴とする請求項1~3のいずれか1項に記載のデータ処理装置。
  5. 前記各ユニットは、前記ユニット間レジスタ部から読み出されたアドレス情報を用いてアドレスを生成するアドレス生成器を含み、
    機能に対応する演算及びアドレス生成の組に関連付けられるメモリ空間であって、機能間で互いに独立したメモリ空間又は機能間で共有されるメモリ空間を対象として、前記メモリブロックを参照することを特徴とする請求項3に記載のデータ処理装置。
  6. 前記各ユニットは、1つの前記演算器と、1組の前記アドレス生成器及び前記アドレス書き換え部と、1つの前記メモリブロックとを用いて、各機能に対応する、機能数分の前記演算器と、機能数組の前記アドレス生成器及び前記アドレス書き換え部と、機能数分のメモリブロックとを有するハードウェア構成と等価な構成を提供することを特徴とする請求項5に記載のデータ処理装置。
JP2019517698A 2017-05-12 2018-05-10 データ処理装置 Active JP7157457B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017096061 2017-05-12
JP2017096061 2017-05-12
PCT/JP2018/018169 WO2018207883A1 (ja) 2017-05-12 2018-05-10 データ処理装置

Publications (2)

Publication Number Publication Date
JPWO2018207883A1 JPWO2018207883A1 (ja) 2020-03-12
JP7157457B2 true JP7157457B2 (ja) 2022-10-20

Family

ID=64105398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019517698A Active JP7157457B2 (ja) 2017-05-12 2018-05-10 データ処理装置

Country Status (2)

Country Link
JP (1) JP7157457B2 (ja)
WO (1) WO2018207883A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164659A (ja) 2013-02-27 2014-09-08 Renesas Electronics Corp プロセッサ
WO2016163421A1 (ja) 2015-04-08 2016-10-13 国立大学法人奈良先端科学技術大学院大学 データ処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164659A (ja) 2013-02-27 2014-09-08 Renesas Electronics Corp プロセッサ
WO2016163421A1 (ja) 2015-04-08 2016-10-13 国立大学法人奈良先端科学技術大学院大学 データ処理装置

Also Published As

Publication number Publication date
WO2018207883A1 (ja) 2018-11-15
JPWO2018207883A1 (ja) 2020-03-12

Similar Documents

Publication Publication Date Title
JP6960479B2 (ja) 再構成可能並列処理
JP2009529188A (ja) 改良された置換可能なアドレス・プロセッサ及び方法
US10679319B2 (en) Task execution in a SIMD processing unit with parallel groups of processing lanes
JP2008513903A (ja) シャッフル演算のためのマイクロプロセッサデバイス及び方法
US11705207B2 (en) Processor in non-volatile storage memory
JP5294304B2 (ja) 再構成可能電子回路装置
JP6551751B2 (ja) マルチプロセッサ装置
JP5549442B2 (ja) Fft演算装置
JP7157457B2 (ja) データ処理装置
JP7186212B2 (ja) データ処理装置におけるベクトル・インタリーブ
TW202403544A (zh) 向量擷取及合併指令
JPS6123276A (ja) デ−タ処理装置
JP7136343B2 (ja) データ処理システム、方法、およびプログラム
JP2009507292A (ja) 分離したシリアルモジュールを備えるプロセッサアレイ
CN109816093B (zh) 一种单路式卷积实现方法
JP2002269067A (ja) 行列演算装置
JP5659772B2 (ja) 演算処理装置
JP2008102599A (ja) プロセッサ
JP7506086B2 (ja) データ処理
JP6353359B2 (ja) データ処理装置、データ処理システム、データ構造、記録媒体、記憶装置およびデータ処理方法
JP2003216411A5 (ja)
KR20230078131A (ko) 반복 배열 ntt를 이용한 동형 암호 연산 장치 및 방법
WO2020084694A1 (ja) 演算処理装置及び演算処理装置の制御方法
JP2011103025A (ja) データ入出力装置およびそれを用いたデータ処理装置
JP2004334306A (ja) 演算処理回路及び演算処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220930

R150 Certificate of patent or registration of utility model

Ref document number: 7157457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150