JP2003280921A - 並列性抽出装置 - Google Patents

並列性抽出装置

Info

Publication number
JP2003280921A
JP2003280921A JP2002082303A JP2002082303A JP2003280921A JP 2003280921 A JP2003280921 A JP 2003280921A JP 2002082303 A JP2002082303 A JP 2002082303A JP 2002082303 A JP2002082303 A JP 2002082303A JP 2003280921 A JP2003280921 A JP 2003280921A
Authority
JP
Japan
Prior art keywords
loop
personal computer
sequence
original program
extraction device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002082303A
Other languages
English (en)
Inventor
Satoshi Hosoi
聡 細井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002082303A priority Critical patent/JP2003280921A/ja
Publication of JP2003280921A publication Critical patent/JP2003280921A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

(57)【要約】 【課題】並列接続したコンピュータにオリジナルプログ
ラムを並列処理し易いように、オリジナルプログラムを
分割処理する並列性抽出装置を提供すること。 【解決手段】このため、本発明では、プロセッサCPU
とメモリmを備えたパーソナル・コンピュータPCを複
数台ネットワークNより並列接続するとともに、この複
数台のデータ処理手段に、プログラムを送出するマスタ
として機能するマスタ用パーソナル・コンピュータPC
10を接続したパーソナル・コンピュータ・クラスタ1
00において、前記マスタ用パーソナル・コンピュータ
PC10に、オリジナル・プログラムの配列名及び配列
を解析してその同一性を判断する配列解析手段30を有
するコンパイラ20を具備し、同じ配列名にライトする
実行文およびそれらと同じ配列をリードする実行文を1
つのグループとすることにより、オリジナル・プログラ
ムのループを独立な複数のループに分割する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はパーソナル・コンピ
ュータの如きコンピュータを汎用のネットワークで並列
接続して処理を行う処理装置に係り、特にオリジナルプ
ログラムを、並列接続したコンピュータに並列処理し易
いように分割する並列性抽出装置に関するものである。
【0002】
【従来の技術】例えば天気予報の計算など、科学技術計
算では非常に多くの計算を行うので、並列処理を行うこ
とが古くから行われてきた。科学技術計算のプログラム
では、ループが実行時間の大半を占めるので、このルー
プを複数のプロセッサに分割して並列実行することがよ
く行われる。並列化による性能向上を得るためには、デ
ータをセットして起動するスタートアップのオーバヘッ
ドがあるため、この負担を小さくするため、できるだけ
大きな粒度に分割することが重要とされてきた。
【0003】ところが現在このような状況が変わりつつ
ある。それはCPUの性能が格段に向上して、1CPU
で昔の並列計算機数台のCPU分の性能を凌駕するよう
になってきたため、例えば数千台規模のパーソナル・コ
ンピュータ(以下パソコンという)をクラスタ接続し
た、PCクラスタが新しいタイプの安価な並列計算機と
して注目されつつある。
【0004】従来のPCクラスタを図4により簡単に説
明する。図4において、PC0、PC1、PC2・・・
PC3はパソコンであり、それぞれプロセッサCPU
0、CPU1、CPU2・・・CPU3と、メモリ
0 、m1 、m2 ・・・m3 を具備している。プロセッ
サCPU1〜CPU3はその入出力部分がネットワーク
Nにより並列接続され、マスタとなるPC0とこれまた
ネットワークNを介して接続されている。パソコンPC
0は、いわゆるマスターとして機能するものであり、P
C1〜PC3が動作するためのプログラムやデータをP
C1〜PC3に出力したり、PC1〜PC3の演算結果
をユーザに出力するものである。そしてこのマスターの
PC0と並列接続されたPC1〜PC3でPCクラスタ
10が構成される。パソコンの代わりにプロセッサボー
ドを使用してもよい。
【0005】このような状況において、従来型の単純な
ループ分割方式では、並列に実行はできるが、各CPU
の性能(以下スカラ性能という)を充分に引き出すこと
が必ずしもできないようになってきた。すなわち並列計
算機の性能を必ずしも充分に引き出していないのが現状
である。その原因は、従来型のループ分割方式が、各C
PUのスカラ性能を有効に利用することを必ずしも考慮
していないからである。
【0006】例えば図5に示すプログラムを従来方式で
実行する場合について説明する。図5のプログラムは、
図6に示す、テーブルU、V、P、テーブルUOLD、
VOLD、POLD、テーブルUNEW、VNEW、P
NEWの9個のテーブルを使用する。
【0007】実行文(1)の右辺は、テーブルUNEW
のエレメント(I,J)からテーブルUのエレメント
(I,J)を2倍(小数点は浮動小数点を示す)したも
のにテーブルUOLDのエレメント(I,J)を加算
し、これに定数(ALPHA)を乗じたものに、テーブ
ルUのエレメント(I,J)を加算することを示し、左
辺は右辺で実行したデータをテーブルUOLDのエレメ
ント(I,J)に書き込むことを示している。実行文
(2)、(3)も(1)と同様である。実行文(4)は
テーブルUNEWのエレメント(I,J)のデータを読
み出し、これをテーブルUのエレメント(I,J)に書
き込むことを示している。実行文(5)、(6)も
(4)と同様である。
【0008】そしてDOI=1、Mは(1)〜(6)を
I=1〜Mまで繰り返すことを示し、DOJ=1、Nは
J=1〜Nまでこれを繰り返すことを示している。
【0009】従来は、図5に示す如きプログラムのJル
ープを図7に示す如く、各プロセッサに分割している。
すなわちDOJ文のmyLB、myUBを該当プロセッ
サが処理をするJの範囲(上限、下限の範囲)を記入し
て分割している。例えば7台のPCで処理するときは1
〜Nを7分割すればよい。
【0010】
【発明が解決しようとする課題】ところで図7に示すプ
ログラムにより明らかなように、従来の並列分割方式で
は各プロセッサが実行するループ本体は全く同じであ
る。従来は常に粒度を大きくすることが良いとされてい
たので、このように外側のループで分割していた。
【0011】このため、従来の分割方式では、ループ本
体の複雑度はオリジナル・プログラムの逐次ループと何
等変わらない。これは後述するように本来独立に実行で
きる処理をミックスして実行しようとしているためであ
る。
【0012】また従来の並列実行では、コンパイラとの
連携を充分に考慮していない。そのため両者がうまく統
合できていない。
【0013】したがって本発明の目的は、このような欠
点を改善した並列性抽出装置を提供することである。
【0014】
【課題を解決するための手段】本発明の原理を図1に示
す。PC1、PC2・・・PC3はパソコン、CPU
1、CPU2・・・CPU3はプロセッサ、m 1 、m2
・・・m3 はメモリ、PC10はマスタとして動作する
パソコンで、配列解析手段30を有するコンパイラ20
を備えているプロセッサCPU10と、メモリm10を具
備している。
【0015】本発明の前記目的は下記(1)〜(5)に
より達成することができる。
【0016】(1)プロセッサCPUとメモリmを備え
たパーソナル・コンピュータPCを複数台ネットワーク
より並列接続するとともに、この複数台のデータ処理手
段に、プログラムを送出するマスタとして機能するマス
タ用パーソナル・コンピュータPC10を接続したパー
ソナル・コンピュータ・クラスタにおいて、前記マスタ
用パーソナル・コンピュータPC10に、オリジナル・
プログラムの配列名及び配列を解析してその同一性を判
断する配列解析手段30を有するコンパイラ20を具備
し、同じ配列名にライトする実行文およびそれらと同じ
配列をリードする実行文を1つのグループとすることに
より、オリジナル・プログラムのループを独立な複数の
ループに分割することを特徴とする並列性抽出装置。
【0017】(2)前記配列解析手段30は、前記オリ
ジナル・プログラムのループ中でリードしかされない配
列を参照している実行文を1つのグループとすることに
より、ループを独立な複数のループに分割することを特
徴とする前記(1)記載の並列性抽出装置。
【0018】(3)前記配列解析手段30は、同じキャ
ッシュブロックにライトする実行文を解読して、これを
1つのグループとすることにより、ループを独立な複数
のループに分割することを特徴とする前記(1)記載の
並列性抽出装置。
【0019】(4)前記配列解析手段30は、同じキャ
ッシュブロックにリードする実行文を解読して、これを
1つのグループとすることにより、ループを独立な複数
のループに分割することを特徴とする前記(1)又は前
記(3)記載の並列性抽出装置。
【0020】(5)前記配列解析手段30は、前記
(1)または前記(2)又は前記(3)又は前記(4)
により得られたループの最外ループを分割することによ
り、分割しないときよりも多くのパーソナル・コンピュ
ータで並列実行処理を行うことを特徴とする前記(1)
又は前記(2)又は前記(3)又は前記(4)記載の並
列性抽出装置。
【0021】そしてこれにより下記(1)〜(5)の作
用効果を奏する。
【0022】(1)本発明によれば従来のものに比較し
て各プロセッサが実行する粒度は小さくなるが、ループ
本体は単純になるので、高速に処理を行うことができ
る。本発明によれば、各CPUのスカラ性能を引き出す
ためのコンパイラの最適化がより効果的に効くようにな
るからである。またデータを保持するフローテングレジ
スタが少なくなるとともに、ループ内で参照する配列
(要素)の種類が少なくなるので、そのアドレスを保持
する整数レジスタが少なくて済むことになる。
【0023】(2)ループの中でリードしかされない配
列を参照している実行文を1つのグループとすることに
より1つのプロセッサで実行文と読み出し文を実行する
ことができるので、少ないプロセッサでデータ処理を行
うことが可能となる。
【0024】(3)同じキャッシュブロックにライトす
る実行文を1つのグループとすることにより、フォルス
シェアリングの発生を回避しながら、ループを全く独立
した複数のループに分割することができる。キャッシュ
ブロックにライトするとき、フォルスシェアリングの発
生がないので、メモリアクセス回数が大きく減少し、デ
ータ処理速度を向上することができる。
【0025】(4)同じキャッシュブロックにリードす
る実行文を1つのグループとすることにより、フォルス
シェアリングの発生(同一キャッシュブロック内の別々
の要素に異なるプロセッサから同時にアクセスするこ
と)またはトルーシェアリングの発生(同一キャッシュ
ブロック内の同一要素に異なるプロセッサから同時にア
クセスすること)を回避しながら、ループを全く独立な
複数のループに分割できる。したがってキャッシュブロ
ックにリードするとき、フォルスシェアリングの発生ま
たはトルーシェアリングの発生がないので、メモリアク
セス回数が大きく減少し、データ処理速度を向上するこ
とができる。
【0026】(5)ループの最外ループを更に分割する
ことにより、多くのプロセッサで並列処理可能になるの
で、更にデータ処理速度を向上することができる。
【0027】
【発明の実施の形態】本発明の実施の形態を図1に基づ
き説明する。図中PC1、PC2・・・PC3、PC1
0はパソコンで、PC10はマスタとして動作するもの
であり、これらはインターネットの如きネットワークで
接続され、パソコンクラスタ100を構成している。P
C1〜PC3にはプロセッサCPU1〜CPU3とメモ
リm1 〜メモリm3 が具備され、PC10にもプロセッ
サCPU10とメモリm10が具備されている。
【0028】CPU10には配列解析手段30を有する
コンパイラ20が用意されている。配列解析手段30
は、オリジナルプログラムを解読して、ループの情報に
もとづきループ回数を認識したり、配列名を認識した
り、各配列名の実行文を構成する配列を認識して、同じ
配列のものが複数のグループに分けられないようにグル
ープ化したり、ループ中でリードしかされない配列を参
照している実行文を1つのグループとしたり、キャッシ
ュの同じキャッシュブロックにライトあるいはリードす
る実行文を1つのグループとしたり、ループの最外ルー
プを分割したりするものである。
【0029】本発明の動作を説明する。
【0030】いまマスタとして動作するCPU10に、
図1(B)に示すオリジナルプログラムが入力される
と、コンパイラ20、配列解析手段30はこれを解読す
る。そして実行文(1)については、配列名UOLDに
ライトする実行文の配列つまり要素がU、UNEW、U
OLDであること、また実行文(4)についてはその配
列名Uが配列UNEWをリードするものであること等を
解読し、これらを1つのグループにすることができるこ
とを判断し、図1(C)のグループC−1に示す如く、
全く独立に実行できるループにする。
【0031】同様にして、図1(B)の実行文(2)及
び(5)を図1(C)のグループC−2に、図1(B)
の実行文(3)及び(6)を図1(C)のグループC−
3にそれぞれ示す如く、全く独立に実行できるループに
する。
【0032】これによりプロセッサCPU1がC−1
を、プロセッサCPU2がC−2を、プロセッサCPU
3がC−3を実行することが可能となる。
【0033】この場合、図7に示す従来の場合に比べ
て、各プロセッサが実行する粒度は小さくなるが、ルー
プ本体は単純になるので、図1(C)の如くグループ化
する方が高速に処理することができる。このようにプロ
グラムが単純化されることにより、CPUのスカラ性能
を引き出すためのコンパイラの最適化がより効果的に効
くようになる状況が生まれるからである。
【0034】しかも図7に示す従来の場合に比較して、
データを保持するフローテングレジスタが少なくて済む
ことになるが、データもグループC−1の場合には配列
U、UOLD、UNEWの3種類の配列の種類だけでよ
く、ループ内で参照するものが少なくなるので、そのア
ドレスを保持する整数レジスタが少なくて済むことにな
る。これに比べ図7に示す従来の場合は、ループ内で参
照する配列の種類がU、V、P、UOLD、VOLD、
POLD、UNEW、VNEW、PNEWの9種類もあ
るので、本発明よりもはるかに多くのレジスタを必要と
する。
【0035】またループの中味を構成するプログラムが
単純なので、データ処理を高速に実行できるループアン
ローリングが可能となり、アンローリグ回数を増すこと
ができる。ループの中味のプログラムが単純化されるの
で、最内ループに加えて外側のループをアンローリング
することができる。アンローリングを行うか否かはコン
パイラが判断する。
【0036】しかもレジスタ数に余裕が出てくるので、
繰り返し使用するようなデータ、つまりイタレーション
(iteration)間にまたがって存在する値をレ
ジスタに保持することができ、毎回ロードする必要がな
く、データ処理効率を向上することができる。
【0037】また、実行文が単純になれば、前記アンロ
ーリングが可能となるのみならず、ソフトウェアパイプ
ライン(software pipelining)の
効果を上げることができる。ソフトウェアパイプライン
を行うとき、読み出し、演算・・・ストアといった各テ
スージを、I=1、2、3・・・間毎に1サイクルづら
して実行すればよい。これを可能にするには当然命令を
保持するレジスタが必要であり、単純の方がパイプライ
ンの効果が得やすくなる。
【0038】さらにプリフェッチを効果的に行うことが
できる。ところでループアンローリングの回数がある程
度以上とならないと、効果的にプリフェッチ命令を発行
できないが、実行文が単純になるためアンローリングの
回数を増すことができ、効果的にプリフェッチ命令の発
行が可能となる。しかもオリジナルループに比較して、
参照すべき配列の種類が少なくなるので(参照すべき配
列の種類は、図1(B)のオリジナルループでは9種類
であるのに対し、同(C)に示す各グループでは3種
類)、プリフェッチの対象となる配列も少なくなり、よ
り効果的にプリフェッチ命令を発行できる。
【0039】これに対し従来方式ではループ本体の複雑
度は、オリジナルの逐次ループと何等変わらない。した
がって、前記本発明におけるメリットを受けられる可能
性はそれだけ小さくなる。これは本来独立に実行できる
処理をわざわざミックスして実行していることにもとづ
く。
【0040】従来の方式では、プログラムを並行実行す
るためにプロセッサ毎に分けただけであり、プロセッサ
の機能を充分に生かしてはいない。これに対し本発明で
は、コンパイラにより独立して処理できるところをグル
ープ化して、プロセッサのスカラ性能を積極的に利用し
ようとするものでありスカラ最適化との相性を良くした
ものを提供できる。
【0041】本発明の実施の形態を更に説明する。図1
(C)に示すプログラムを非常に多くのプロセッサで並
列実行するためには、各ループの最外ループをN個に分
割すればよい。
【0042】図2は、図1(C)のグループC−1を2
分割した場合のコードであり、図2(A)と(B)とは
それぞれ異なるプロセッサで実行する。同様に図1
(C)のグループC−2、C−3も2分割してそれぞれ
異なるプロセッサで実行する。このようにN個に分割す
ることにより更にデータ処理を高速化することができ
る。
【0043】本発明の他の形態を図3に示す。図3にお
いて、実行文(10)は、配列UNEW(I,J)を配
列名U1というテーブルに書き込むことを示している。
【0044】前記図1の本発明では、実行文(10)と
(11)は依存性がないので、それぞれ別のプロセッサ
で実行することになる。
【0045】しかし、実行文(10)ではUNEW
(I,J)を読み出しており、これをレジスタに保持し
ておけば、実行文(11)ではこれを使用すればよく、
別に同じデータをもう一回読み出す必要はなく効率的で
あるので、本発明ではこのようなものを1つのグループ
にまとめたものである。
【0046】
【発明の効果】本発明により下記(1)〜(5)の効果
を奏することができる。
【0047】(1)本発明によれば従来のものに比較し
て各プロセッサが実行する粒度は小さくなるが、ループ
本体は単純になるので、高速に処理を行うことができ
る。本発明によれば、各CPUのスカラ性能を引き出す
ためのコンパイラの最適化がより効果的に効くようにな
るからである。またデータを保持するフローテングレジ
スタが少なくなるとともに、ループ内で参照する配列
(要素)の種類が少なくなるので、そのアドレスを保持
する整数レジスタが少なくて済むことになる。
【0048】(2)ループの中でリードしかされない配
列を参照している実行文を1つのグループとすることに
より1つのプロセッサで実行文と読み出し文を実行する
ことができるので、少ないプロセッサでデータ処理を行
うことが可能となる。
【0049】(3)同じキャッシュブロックにライトす
る実行文を1つのグループとすることにより、フォルス
シェアリングの発生を回避しながら、ループを全く独立
した複数のループに分割することができる。キャッシュ
ブロックにライトするとき、フォルスシェアリングの発
生がないので、メモリアクセス回数が大きく減少し、デ
ータ処理速度を向上することができる。
【0050】(4)同じキャッシュブロックにリードす
る実行文を1つのグループとすることにより、フォルス
シェアリングの発生(同一キャッシュブロック内の別々
の要素に異なるプロセッサから同時にアクセスするこ
と)またはトルーシェアリングの発生(同一キャッシュ
ブロック内の同一要素に異なるプロセッサから同時にア
クセスすること)を回避しながら、ループを全く独立な
複数のループに分割できる。したがってキャッシュブロ
ックにリードするとき、フォルスシェアリングの発生ま
たはトルーシェアリングの発生がないので、メモリアク
セス回数が大きく減少し、データ処理速度を向上するこ
とができる。
【0051】(5)ループの最外ループを更に分割する
ことにより、多くのプロセッサで並列処理可能になるの
で、更にデータ処理速度を向上することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である。
【図2】本発明の第2の実施の形態説明図である。
【図3】本発明の第3の実施の形態説明図である。
【図4】クラスタ接続状態説明図である。
【図5】オリジナルプログラムである。
【図6】データ格納用のテーブル説明図である。
【図7】従来例動作説明図である。
【符号の説明】
CPU0、CPU1、CPU2、CPU3、CPU10
プロセッサ m0 1 、m2 、m3 、m10 メモリ 10、100 PCクラスタ 20 コンパイラ 30 配列解析手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】プロセッサとメモリを備えたパーソナル・
    コンピュータを複数台ネットワークより並列接続すると
    ともに、この複数台のデータ処理手段に、プログラムを
    送出するマスタとして機能するマスタ用パーソナル・コ
    ンピュータを接続したパーソナル・コンピュータ・クラ
    スタにおいて、 前記マスタ用パーソナル・コンピュータに、オリジナル
    ・プログラムの配列名及び配列を解析してその同一性を
    判断する配列解析手段を有するコンパイラを具備し、同
    じ配列名にライトする実行文およびそれらと同じ配列を
    リードする実行文を1つのグループとすることにより、
    オリジナル・プログラムのループを独立な複数のループ
    に分割することを特徴とする並列性抽出装置。
  2. 【請求項2】前記配列解析手段は、前記オリジナル・プ
    ログラムのループ中でリードしかされない配列を参照し
    ている実行文を1つのグループとすることにより、ルー
    プを独立な複数のループに分割することを特徴とする請
    求項1記載の並列性抽出装置。
  3. 【請求項3】前記配列解析手段は、同じキャッシュブロ
    ックにライトする実行文を解読して、これを1つのグル
    ープとすることにより、ループを独立な複数のループに
    分割することを特徴とする請求項1記載の並列性抽出装
    置。
  4. 【請求項4】前記配列解析手段は、同じキャッシュブロ
    ックにリードする実行文を解読して、これを1つのグル
    ープとすることにより、ループを独立な複数のループに
    分割することを特徴とする請求項1又は請求項3記載の
    並列性抽出装置。
  5. 【請求項5】前記配列解析手段は、前記請求項1または
    請求項2又は請求項3又は請求項4により得られたルー
    プの最外ループを分割することにより、分割しないとき
    よりも多くのパーソナル・コンピュータで並列実行処理
    を行うことを特徴とする請求項1又は請求項2又は請求
    項3又は請求項4記載の並列性抽出装置。
JP2002082303A 2002-03-25 2002-03-25 並列性抽出装置 Withdrawn JP2003280921A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002082303A JP2003280921A (ja) 2002-03-25 2002-03-25 並列性抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002082303A JP2003280921A (ja) 2002-03-25 2002-03-25 並列性抽出装置

Publications (1)

Publication Number Publication Date
JP2003280921A true JP2003280921A (ja) 2003-10-03

Family

ID=29230544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002082303A Withdrawn JP2003280921A (ja) 2002-03-25 2002-03-25 並列性抽出装置

Country Status (1)

Country Link
JP (1) JP2003280921A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268070A (ja) * 2005-03-22 2006-10-05 Hitachi Ltd 並列化コンパイル処理方法及び並列化されたオブジェクトコードを実行する並列計算機
CN100357930C (zh) * 2005-05-11 2007-12-26 上海理工大学 网格环境下的大规模数据并行型计算主系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268070A (ja) * 2005-03-22 2006-10-05 Hitachi Ltd 並列化コンパイル処理方法及び並列化されたオブジェクトコードを実行する並列計算機
CN100357930C (zh) * 2005-05-11 2007-12-26 上海理工大学 网格环境下的大规模数据并行型计算主系统

Similar Documents

Publication Publication Date Title
Kapasi et al. The Imagine stream processor
JP6159825B2 (ja) ハードウェアポインタを使用したsimdコア内での分岐ブランチに対するソリューション
Rauber et al. Parallel programming
US9032185B2 (en) Active memory command engine and method
EP2710467B1 (en) Automatic kernel migration for heterogeneous cores
US6408382B1 (en) Methods and apparatus for abbreviated instruction sets adaptable to configurable processor architecture
US8549258B2 (en) Configurable processing apparatus and system thereof
US7904702B2 (en) Compound instructions in a multi-threaded processor
US20140129802A1 (en) Methods, apparatus, and instructions for processing vector data
US20060026578A1 (en) Programmable processor architecture hirarchical compilation
WO2012155010A1 (en) Automatic load balancing for heterogeneous cores
WO2021249054A1 (zh) 一种数据处理方法及装置、存储介质
US20160147516A1 (en) Execution of complex recursive algorithms
Duarte et al. SCRATCH: An end-to-end application-aware soft-GPGPU architecture and trimming tool
US20040059894A1 (en) Process for running programs on processors and corresponding processor system
JP2005085276A (ja) ハードウェア比較による好機をねらったcpu機能試験
CN112540793A (zh) 支持多访存模式的可重构处理单元阵列及控制方法、装置
JP2004334429A (ja) 論理回路及びその論理回路上で実行するプログラム
Heath Microprocessor architectures and systems: RISC, CISC and DSP
JP2003280921A (ja) 並列性抽出装置
Soliman Mat-core: A matrix core extension for general-purpose processors
Aleem et al. A comparative study of heterogeneous processor simulators
McMahon et al. Advanced Microprocessor Architectures
Mistry et al. Computer Organization
JP2785820B2 (ja) 並列処理装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050607