JP2643110B2 - A fast method for solving simultaneous linear equations using an auxiliary storage device - Google Patents

A fast method for solving simultaneous linear equations using an auxiliary storage device

Info

Publication number
JP2643110B2
JP2643110B2 JP3157487A JP15748791A JP2643110B2 JP 2643110 B2 JP2643110 B2 JP 2643110B2 JP 3157487 A JP3157487 A JP 3157487A JP 15748791 A JP15748791 A JP 15748791A JP 2643110 B2 JP2643110 B2 JP 2643110B2
Authority
JP
Japan
Prior art keywords
storage device
page
auxiliary storage
data
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3157487A
Other languages
Japanese (ja)
Other versions
JPH04355878A (en
Inventor
日▲じゅん▼ 車
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP3157487A priority Critical patent/JP2643110B2/en
Publication of JPH04355878A publication Critical patent/JPH04355878A/en
Application granted granted Critical
Publication of JP2643110B2 publication Critical patent/JP2643110B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明はスーパーコンピュータお
よび半導体高速記憶装置である拡張記憶装置の出現によ
って、主記憶装置に入りきらないほど大規模な密行列を
係数とする連立1次方程式を超高速に計算することがで
きるようになってきた、数値計算の分野における大規模
連立1次方程式の高速な計算方式に関する。
BACKGROUND OF THE INVENTION With the advent of a supercomputer and an extended storage device which is a semiconductor high-speed storage device, the present invention has been developed to realize simultaneous high-speed simultaneous linear equations having a dense matrix that is too large to fit in a main storage device. The present invention relates to a high-speed calculation method for a large-scale simultaneous linear equation in the field of numerical calculation, which has been able to calculate in a short time.

【0002】[0002]

【従来の技術】拡張記憶装置を用いた連立1次方程式の
計算方式として、津田らによる計算方式(Tsuda,
T.,Okabe,Y.:Use of Semico
nductor Extended Storage
as Extended Main Storage
for Large−Scale Supercomp
uting,Proceedings of the
Second International Conf
erence on Supercomputing,
May 1987,Santa Clara (Sup
ercomputing’87),Vol.1,pp.
176−183,International Sup
ercomputing Inst itute.)が
ある。この方法は、拡張記憶と主記憶の間でデータをや
り取りしながら内積形式ガウス法を用いて係数行列をL
U分解し、連立1次方程式の解を求めるものである。以
下に、この計算方式について説明する。図6に示すよう
な連立1次方程式1を考え、係数aij(i=1,2,
…,n,j=1,2,…,n)とbi(i=1,2,
…,n)とを与えて解xi(i=1,2,…,n)を図
7に示した計算機で計算することを考える。この計算機
は、中央処理装置2と中央処理装置2が直接アクセスす
る主記憶装置3と、主記憶装置3とデータのやり取りが
可能である補助記憶装置4、特に補助記憶装置4として
半導体で構成された高速補助記憶装置である拡張記憶装
置12を有する。連立1次方程式1の係数を図8に示す
様な形式で、拡張記憶装置12に格納した状態から始め
て、拡張記憶装置12と主記憶装置3との間でデータの
やり取りを行いながら最終的に図9に示すような変換が
行われたデータを拡張記憶装置12上に得ることが本計
算方式の主要部分をなすLU分解ステップである。ただ
し、図9におけるlij、uijはそれぞれ、n次正方
下三角行列Lとn次正方上三角行列Uの対応する要素を
与え、行列Lと行列Uとの行列積は、連立1次方程式1
の係数を成分とする係数行列11を与える。なお、n次
正方下三角行列Lの対角要素はすべて1であるとしてい
る。上記のように連立1次方程式1の係数行列11が2
つの三角行列L,Uの積に分解されれば、連立1次方程
式1の解は前進及び後退代入によって簡単に計算でき
る。図9の変換は、図10に示す計算方式によって得ら
れる。aijの初期値を前記の係数行列11の要素とし
て図5の計算方式に沿って計算すると、最終的にaij
には図9に示すLU分解後の行列15の要素が得られ
る。この計算方式は内積形式ガウス法(または、添え字
の計算順序からjki形式−GAXPYガウス法)と呼
ばれる。なお、簡単のため、図10には後ほど述べるア
ンローリングによる高速化手法を適用していない計算手
順が示されている。また、計算方式の記述には、計算機
言語PASCALで用いられる表記法を一部用いてい
る。
2. Description of the Related Art As a method of calculating simultaneous linear equations using an extended storage device, a calculation method by Tsuda et al. (Tsuda,
T. Okabe, Y .; : Use of Semico
nductor Extended Storage
as Extended Main Storage
for Large-Scale Supercomp
uting, Proceedings of the
Second International Conf
erence on Supercomputing,
May 1987, Santa Clara (Sup
ercomputing '87), Vol. 1, pp.
176-183, International Sup
ercomputing Institute. ). In this method, while exchanging data between an extended storage and a main storage, a coefficient matrix is transformed into L
The U-decomposition is performed to obtain a solution of the simultaneous linear equation. Hereinafter, this calculation method will be described. Considering a system of linear equations 1 as shown in FIG. 6, the coefficients aij (i = 1, 2, 2,
.., N, j = 1, 2,..., N) and bi (i = 1, 2,
, N) and the solution xi (i = 1, 2,..., N) is calculated by the computer shown in FIG. This computer is composed of a central processing unit 2, a main storage device 3 directly accessed by the central processing unit 2, an auxiliary storage device 4 capable of exchanging data with the main storage device 3, and particularly a semiconductor as the auxiliary storage device 4. It has an extended storage device 12 which is a high-speed auxiliary storage device. Starting from a state in which the coefficients of the simultaneous linear equation 1 are stored in the extended storage device 12 in a format as shown in FIG. 8, finally, while exchanging data between the extended storage device 12 and the main storage device 3, Obtaining the converted data as shown in FIG. 9 on the extended storage device 12 is the LU decomposition step which is a main part of the present calculation method. Here, lij and uij in FIG. 9 give the corresponding elements of the n-th square lower triangular matrix L and the n-th square upper triangular matrix U, respectively, and the matrix product of the matrix L and the matrix U is expressed by the simultaneous linear equation 1
Is given as a coefficient matrix 11 having the coefficients of It is assumed that all diagonal elements of the n-th square lower triangular matrix L are 1. As described above, the coefficient matrix 11 of the simultaneous linear equation 1 is 2
If it is decomposed into the product of two triangular matrices L and U, the solution of the simultaneous linear equation 1 can be easily calculated by forward and backward substitution. 9 is obtained by the calculation method shown in FIG. When the initial value of aij is calculated as an element of the coefficient matrix 11 according to the calculation method of FIG.
Obtains the elements of the matrix 15 after LU decomposition shown in FIG. This calculation method is called the inner product form Gauss method (or jki form-GAXPY Gauss method from the calculation order of subscripts). Note that, for simplicity, FIG. 10 shows a calculation procedure to which a speeding-up method by unrolling described later is not applied. The description of the calculation method partially uses the notation used in the computer language PASCAL.

【0003】内積形式ガウス法の第k列の計算における
データの参照関係を図11に示す。内積形式ガウス法の
特徴は、第k列の最終計算結果を得るときに、その左側
の第1、第2、…、第k−1列の下三角部分と第k列自
身のみが必要とされるということである。いま、図7に
示すように主記憶3上に2種類の記憶領域として、参照
データ用記憶領域5と更新データ用記憶領域6を考え
る。ここでは、参照データ用記憶領域5の上に補助記憶
装置4から読み込まれたデータは処理において参照され
るだけで、変化を受けず、従って、次の読み込みによっ
て消去される。一方、更新データ用領域6に読み込まれ
たデータは、処理によって値が変化し、処理結果は、次
の読み込みが行われる前に対応付られた補助記憶装置4
上に戻されるものとする。後ほど述べる実施例において
は、参照データ用記憶領域5と更新データ用記憶領域6
の使い方を変更する。また、主記憶装置3と補助記憶装
置4とのデータ転送を効率的に行うために、補助記憶装
置4(今の場合は拡張記憶装置12)上に格納する連立
1次方程式1の係数行列11を図8のように一定列ごと
にページ分割し、それぞれ第1ページ7、第2ページ
8、第3ページ9、…、第Nページ10と呼び、ページ
単位でデータ転送を行うものとする。図8でmは1ペー
ジが含む列数を表す。ただし、最後のページである第N
ページ10は係数行列11の次元によって決まるm以下
1以上の列を含む。図7の更新データ用記憶領域6に係
数行列11の第1ページ7、第2ページ8、…、第Nペ
ージ10と読み込んで各ページのデータに図9に示した
変換を行うためには、前述の内積形式ガウス法の特徴に
よって、図12の計算方式を用いればよい。
FIG. 11 shows a reference relation of data in the calculation of the k-th column in the inner product form Gaussian method. The feature of the inner product form Gauss method is that when obtaining the final calculation result of the k-th column, only the lower triangular part on the left side of the first, second, ..., k-1 columns and the k-th column itself are required. That is. Now, as shown in FIG. 7, a reference data storage area 5 and an update data storage area 6 are considered as two types of storage areas on the main storage 3. Here, the data read from the auxiliary storage device 4 onto the reference data storage area 5 is only referred to in the processing, is not changed, and is therefore deleted by the next reading. On the other hand, the value of the data read into the update data area 6 is changed by the processing, and the processing result is stored in the auxiliary storage device 4 associated before the next reading is performed.
Shall be returned to the top. In an embodiment to be described later, the reference data storage area 5 and the update data storage area 6
Change the usage of. To efficiently transfer data between the main storage device 3 and the auxiliary storage device 4, the coefficient matrix 11 of the simultaneous linear equation 1 stored in the auxiliary storage device 4 (in this case, the extended storage device 12) is stored. Are page-divided into fixed columns as shown in FIG. 8, and are referred to as a first page 7, a second page 8, a third page 9,..., An N-th page 10, respectively, and data transfer is performed in page units. In FIG. 8, m represents the number of columns included in one page. However, the last page, Nth
The page 10 includes m or less and 1 or more columns determined by the dimension of the coefficient matrix 11. To read the first page 7, the second page 8,..., The N-th page 10 of the coefficient matrix 11 into the update data storage area 6 in FIG. 7, and perform the conversion shown in FIG. The calculation method shown in FIG. 12 may be used depending on the characteristics of the inner product form Gauss method described above.

【0004】上述のような内積ガウス法を基にした計算
方式は、図8に示したようなページ分割方式を用いた場
合には入出力回数を少なくできるので良いとされてい
る。
A calculation method based on the inner product Gauss method as described above is said to be good when the page division method as shown in FIG. 8 is used because the number of times of input / output can be reduced.

【0005】[0005]

【発明が解決しようとする課題】一方、スーパーコンピ
ュータにおいては、計算の高速化のためにアンローリン
グという手法が用いられる。アンローリングとは、たと
えば、図4の計算方式(a)を計算方式(b)に変換す
ることによって、aiで表されている記憶領域に対する
データ格納回数を2nからnに減らし、高速化を図る手
法である。図4の例は2段アンローリングの例である。
On the other hand, in a supercomputer, a technique called unrolling is used to speed up the calculation. Unrolling refers to, for example, converting the calculation method (a) in FIG. 4 to the calculation method (b), thereby reducing the number of times of data storage in the storage area represented by ai from 2n to n, and increasing the speed. Method. FIG. 4 shows an example of two-stage unrolling.

【0006】この様なアンローリング手法を適用した場
合、内積形式ガウス法は、計算速度の点で、必ずしも最
適な手法ではない。このことはロバートら(Rober
t,Y.and Sguazzero,P.:The
LU decomposition algorith
m and its efficientFORTRA
N implementation on IBM 3
090 Vector Mutiprocessor,
IBM Tech.Rep.,ICE−0006,Ma
rch 1987)によって実験的に明らかにされてい
る。発明者もスーパーコンピュータSX−2A上で同様
な実験を行い、アンローリング手法を用いる場合に内積
形式ガウス法が、後述の外積形式ガウス法よりも計算速
度の点で大きく劣ることを確認している。例えば、10
00元の連立1次方程式を主記憶装置上で解く場合に内
積形式ガウス法ではアンローリングを行っても500〜
600MFLOPS(1MFLOPSは1秒間に100
万回の浮動小数点演算を行う速度)程度の計算速度であ
るが、外積形式ガウス法では、900MFLOPSを越
える計算速度が得られる。これは、アンローリングによ
って、外積形式ガウス法の方が内積形式ガウス法よりも
データ格納回数を減らせることに起因している。従っ
て、内積形式ガウス法を拡張して主記憶装置と拡張記憶
装置との間のデータ入れ替えを行いながら連立1次方程
式の解を計算する計算方式は計算速度に関して必ずしも
最適な計算方式ではないという課題を有している。一
方、拡張記憶装置は高速ではあるがその大容量化は低速
なディスク装置よりも困難であり、利用可能な記憶容量
は制限される。したがって、利用可能な拡張記憶の容量
を越えるほど大規模な係数行列を持つ連立1次方程式を
解こうとする場合には、拡張記憶装置よりも低速なほか
の補助記憶装置(例えば、高速ディスク装置)を利用す
る必要がある。この場合、主記憶装置と補助記憶装置と
のデータ転送の可能な限り多くの部分を拡張記憶装置と
主記憶装置との間で行い、残りを他の補助記憶装置と主
記憶装置とで行うようにするという工夫が必要である。
しかし、従来の計算方式は、上記の問題を考慮にいれて
いない。さらに、従来の計算方式は、たとえば、大規模
行列による行列積演算のような他の演算との組み合わせ
を想定していなかったため、汎用性に欠けるという課題
を有していた。本発明は上記の課題を解決するためにな
されたもので、その目的は、アンローリングによる外積
形式ガウス法によって記憶装置の効率利用を計る補助記
憶装置を利用した連立1次方程式の解の高速計算方式を
提供することである。
When such an unrolling method is applied, the inner product form Gaussian method is not always the optimal method in terms of calculation speed. This is what Robert et al.
t, Y. and Sguazzero, P.M. : The
LU decomposition algorithm
m and it's effective FORTRA
N implementation on IBM 3
090 Vector Multiprocessor,
IBM Tech. Rep. , ICE-0006, Ma
rch 1987). The inventor has also conducted a similar experiment on the supercomputer SX-2A, and has confirmed that the inner product form Gaussian method is significantly inferior to the outer product form Gaussian method in terms of calculation speed when the unrolling method is used. . For example, 10
When solving the system of linear equations of 00 element on the main memory, the inner product form Gaussian method is 500-
600 MFLOPS (1 MFLOPS is 100 per second
Although the calculation speed is of the order of the number of times of performing floating point operations for 10,000 times), the cross product Gaussian method can achieve a calculation speed exceeding 900 MFLOPS. This is because the outer product form Gaussian method can reduce the number of times of data storage by the unrolling compared to the inner product form Gaussian method. Therefore, a problem that the calculation method for calculating the solution of the simultaneous linear equations while exchanging the data between the main storage device and the expansion storage device by extending the inner product form Gauss method is not necessarily the optimum calculation method with respect to the calculation speed. have. On the other hand, although the expansion storage device is high-speed, it is more difficult to increase its capacity than a low-speed disk device, and the available storage capacity is limited. Therefore, when trying to solve a system of linear equations having a coefficient matrix large enough to exceed the available expanded storage capacity, another auxiliary storage device (for example, a high-speed disk device) that is slower than the expanded storage device ) Must be used. In this case, as much of the data transfer between the main storage device and the auxiliary storage device as possible is performed between the extended storage device and the main storage device, and the rest is performed between the other auxiliary storage device and the main storage device. It is necessary to devise something.
However, the conventional calculation method does not take the above problem into consideration. Furthermore, the conventional calculation method has a problem that it lacks versatility because it does not assume a combination with another operation such as a matrix multiplication operation using a large-scale matrix. SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a high-speed calculation of a solution of a system of linear equations using an auxiliary storage device that measures storage efficiency by a Gaussian cross product method using unrolling. Is to provide a scheme.

【0007】[0007]

【課題を解決するための手段】本発明の補助記憶装置を
利用した連立1次方程式の解の高速計算方式は、中央処
理装置と中央処理装置が直接アクセスする主記憶装置
と、主記憶装置とデータのやり取りが可能である補助記
憶装置、特に補助記憶装置として半導体で構成された高
速補助記憶装置である拡張記憶装置を有する計算機にお
いて、補助記憶装置上に連立1次方程式の係数に対応す
る係数行列の数値データを与えて、まず、前記係数行列
を2つの三角行列の積に分解し、連立1次方程式の解を
計算する計算方式であって、前記連立1次方程式の係数
行列を2つの三角行列の積に分解するに当たって、前記
係数行列を一定数の列を含むように分割し、分割された
単位をページと呼び、順番に第1ページ、第2ページ、
…としてページを処理単位とする。ただし、最後のペー
ジは他のページと同じ大きさではなく係数行列の大きさ
に応じて余った要素を含むようにとる。
SUMMARY OF THE INVENTION According to the present invention, a high-speed system for solving simultaneous linear equations using an auxiliary storage device includes a central processing unit, a main storage device directly accessed by the central processing unit, a main storage device and a data storage device. In a computer having an auxiliary storage device capable of exchanging data, in particular, a computer having an extended storage device, which is a high-speed auxiliary storage device constituted by a semiconductor as the auxiliary storage device, a coefficient matrix corresponding to a coefficient of a simultaneous linear equation on the auxiliary storage device Is given first, the coefficient matrix is decomposed into a product of two triangular matrices, and a solution of the simultaneous linear equation is calculated. In decomposing into a product of matrices, the coefficient matrix is divided so as to include a fixed number of columns, and the divided units are called pages, and the first page, the second page,
The page is set as a processing unit as. However, the last page is not the same size as the other pages, but includes extra elements according to the size of the coefficient matrix.

【0008】前記係数行列の1つ以上のページを補助記
憶装置から主記憶装置へ読み込み、主記憶装置上の読み
込まれたデータに対して処理を行い、結果を補助記憶装
置の対応するページへと戻す。
[0008] One or more pages of the coefficient matrix are read from the auxiliary storage device to the main storage device, the read data on the main storage device is processed, and the result is converted to a corresponding page of the auxiliary storage device. return.

【0009】主記憶装置上の記憶領域を参照データ用記
憶領域と更新データ用記憶領域の2つに分け、参照デー
タ用記憶領域に補助記憶装置から読み込んだデータにつ
いてはそれ自身のデータのみで更新処理を行い、処理を
通じて次に述べる更新データ用領域に読み込まれたデー
タの更新のために参照される。従って、関連するデータ
の更新がすべて終わった後で補助記憶装置の対応するペ
ージに戻す。一方、更新データ用記憶領域に読み込んだ
データについては、前記参照データ用記憶領域に読み込
まれたデータを参照して値を更新し、補助記憶装置の対
応するページへと戻す。
The storage area on the main storage device is divided into two, a reference data storage area and an update data storage area, and the data read from the auxiliary storage device into the reference data storage area is updated only with its own data. The process is performed, and is referred to for updating data read into the update data area described below through the process. Therefore, the page is returned to the corresponding page in the auxiliary storage device after all the related data has been updated. On the other hand, the data read into the update data storage area is updated with reference to the data read into the reference data storage area, and is returned to the corresponding page of the auxiliary storage device.

【0010】前記係数行列がNページからなるとし、順
番に第1ページ,第2ページ,…,第Nページと呼ぶと
き、補助記憶装置と、主記憶装置とのデータのやり取り
の順序を第1ページを補助記憶装置から参照データ用記
憶領域へ読み込み、処理する。第2ページ、第3ペー
ジ、…、第Nページの順に補助記憶装置から更新データ
用記憶領域へ読み込み、処理し、補助記憶装置の対応す
るページへと戻す。
When the coefficient matrix is composed of N pages and is called a first page, a second page,..., An Nth page in order, the order of data exchange between the auxiliary storage device and the main storage device is the first. The page is read from the auxiliary storage device into the storage area for reference data and processed. The second page, the third page,..., And the Nth page are read from the auxiliary storage device to the storage area for update data, processed, and returned to the corresponding page of the auxiliary storage device.

【0011】第1ページを参照データ用記憶領域から補
助記憶装置の対応するページへと戻す。
The first page is returned from the reference data storage area to the corresponding page of the auxiliary storage device.

【0012】第2ページを補助記憶装置から参照データ
用記憶領域へ読み込み、処理する。第3ページ、第4ペ
ージ、…、第Nページの順に補助記憶装置から更新デー
タ用記憶領域へ読み込み、処理し補助記憶装置の対応す
るページへと戻す。
The second page is read from the auxiliary storage device into the reference data storage area and processed. The third page, the fourth page,..., And the Nth page are read in order from the auxiliary storage device to the update data storage area, processed, and returned to the corresponding page of the auxiliary storage device.

【0013】第2ページを参照データ用記憶領域から補
助記憶装置の対応するページへと戻す。
The second page is returned from the storage area for reference data to the corresponding page in the auxiliary storage device.

【0014】 … 第N−1ページを補助記憶装置から参照データ用記憶領
域へ読み込み、処理する。
Reads the N-1 page from the auxiliary storage device into the reference data storage area and processes it.

【0015】第Nページを補助記憶装置から更新データ
用領域へ読み込み、処理し、補助記憶装置の対応するペ
ージへと戻す。
The Nth page is read from the auxiliary storage device into the update data area, processed, and returned to the corresponding page in the auxiliary storage device.

【0016】第N−1ページを参照データ用記憶領域か
ら補助記憶装置の対応するページへと戻す、順とする、
計算方式であり、また、補助記憶装置が拡張記憶装置を
含む場合に、前記係数行列の第Nページから逆順に拡張
記憶装置に入り切るだけのページを拡張記憶装置上に保
持しながら処理を進める計算方式であり、処理途中で、
以降の処理で参照・更新される部分に対応する小行列の
みを取り出し、これを新たに1つの行列と見なして前記
(1)及び(2)でのべた処理をおこない、最後に前記
小行列部分を元に戻すことによって前記係数行列を2つ
の三角行列の積として表し、前記連立1次方程式の解を
計算する計算方式であり、補助記憶装置上のデータを直
編成ファイルとして扱い、そのレコード長を前記係数行
列の1列が含む要素が丁度入る大きさに設定した計算方
式である。
The N-1th page is returned from the reference data storage area to the corresponding page of the auxiliary storage device, in order.
This is a calculation method, and when the auxiliary storage device includes an extended storage device, the process proceeds while holding, on the extended storage device, only enough pages to fit in the extended storage device in reverse order from the Nth page of the coefficient matrix. This is a calculation method.
Only the small matrix corresponding to the part to be referred to and updated in the subsequent processing is extracted, and this is regarded as a new matrix, and the above-described processing in (1) and (2) is performed. Is a calculation method for expressing the coefficient matrix as a product of two triangular matrices and calculating the solution of the simultaneous linear equations, treating the data on the auxiliary storage device as a direct organization file, and Is set to such a size that an element included in one column of the coefficient matrix just fits.

【0017】[0017]

【作用】本発明の補助記憶装置を利用した連立1次方程
式の解の高速計算方式は、外積形式ガウス法により参照
データ用記憶領域と更新データ用記憶領域を使い分け主
記憶装置と拡張補助記憶装置間のデータのやりとりを行
って記憶域を拡張使用するので、高速計算が可能とな
る。
According to the present invention, a high-speed calculation method for solving a system of linear equations using an auxiliary storage device is divided into a reference data storage region and an update data storage region by a cross product Gaussian method. Since the storage area is extended and used by exchanging data between them, high-speed calculation is possible.

【0018】[0018]

【実施例】本計算方式の第1の実施例について説明を行
う。本計算方式は前記ロバートら(Robert,Y.
and Sguazzero,P.:The LU d
ecomposition algorithm an
d its efficient FORTRAN i
mplementation on IBM 3090
Vector Mutiprocessor,IBM
Tech.Rep.,ICE−0006,March
1987)によって提案された外積形式ガウス法を大
規模行列用に改良し、図7に示したような補助記憶装置
4をもつ計算機で計算できるようにしたものである。ま
ず、外積形式ガウス法について説明する。図6に示すよ
うな連立1次方程式1を考え、係数aij(i=1,
2,…,n,j=1,2,…,n)とbi(i=1,
2,…,n)とを与えて解xi(i=1,2,…,n)
を計算することを考える。連立1次方程式1の係数を図
8に示す様な形式で、拡張記憶装置12に格納した状態
から始めて、拡張記憶装置12と主記憶装置3との間で
データのやり取りを行いながら最終的に図9に示すよう
な変換が行われたデータを拡張記憶装置12上に得るこ
とが本計算方式の主要部分をなすLU分解ステップであ
る。ただし、図9におけるlij、uijはそれぞれ、
n次正方下三角行列Lとn次正方上三角行列Uの対応す
る要素を与え、行列Lと行列Uとの行列積は、連立1次
方程式1の係数を成分とする係数行列11を与える。な
お、n次正方下三角行列Lの対角要素はすべて1である
としている。上記のように連立1次方程式1の係数行列
11が2つの三角行列L,Uの積に分解されれば、連立
1次方程式1の解は前進及び後退代入によって簡単に計
算できる。図9の変換は、図2に示す計算方式によって
得られる。aijの初期値を前記の係数行列11の要素
として図2の計算方式に沿って計算すると、最終的にa
ijには図9に示すLU分解後の行列15の要素が得ら
れる。この計算方式は外積形式ガウス法(または、その
添え字の計算順序からkji形式−SAXPYガウス
法)と呼ばれる。また、簡単のため、アンローリングに
よる高速化手法を適用していない計算手順が示されてい
る。外積形式ガウス法の第kステップの計算におけるデ
ータの参照関係を図3に示す。外積形式ガウス法の特徴
は、図3に示すよう第kステップの計算においては、n
−k+1次の右下小正方行列部分のみが必要とされ、更
新は、n−k次右下小正方行列部分16内でのみ行われ
るということである。一般にさきに述べたアンローリン
グ手法を用いた場合にもステップが進むにつれて、処理
対象となる部分が、縮小し、右下小正方行列で表せると
いう性質は変化しない。従って、連立1次方程式1の係
数行列11を図8のようにページ分割し、図7のように
拡張記憶装置12上において、拡張記憶装置12と主記
憶装置3とでデータの入れ替えを行いながら図9に示し
た変換を行うには、図1に示す計算方式を実行すればよ
い。ここで、主記憶装置上の2つの記憶領域である参照
データ用記憶領域5と更新データ用記憶領域6を以下の
ように使い分ける。参照データ用記憶領域5に補助記憶
装置4から読み込んだデータについてはそれ自身のデー
タのみで更新処理を行い、処理を通じて更新データ用領
域6に読み込まれたデータの更新のために参照される。
従って、関連するデータの更新がすべて終わった後で補
助記憶装置4の対応するページに戻す。一方、更新デー
タ用記憶領域6に読み込んだデータについては、前記参
照データ用記憶領域5に読み込まれたデータを参照して
値を更新し、補助記憶装置4の対応するページへと戻
す。図1に示した計算手順を何機種かある演算パイプラ
イン方式ベクトル計算機の中から拡張記憶を有するスー
パーコンピュータSX−2A上で実現し、5000元の
連立1次方程式の解の計算を1GFLOPS(1秒間に
10億回の浮動小数点演算を行う速度)を越える計算速
度で計算することが出来た。この計算に用いた主記憶装
置上の記憶容量は約25Mbyteで、この値は、この
連立1次方程式の解を主記憶装置3のみを用いて計算す
るときに必要となる主記憶容量の約1/8であった。ま
た、SX−2Aの理論ピーク性能は、1.3GFLOP
Sであり、理論性能に非常に近い高速性能を実現でき
た。上に述べた実施例は、補助記憶装置4として拡張記
憶装置12のみを用いた場合に相当するものである。
EXAMPLE A first example of the present calculation method will be described. This calculation method is described in Robert et al.
and Sguazzero, P.M. : The LU d
ecological algorithm an
d its effective FORTRAN i
implementation on IBM 3090
Vector Multiprocessor, IBM
Tech. Rep. ICE-0006, March
1987) is improved for a large-scale matrix by using the outer product form Gaussian method, which can be calculated by a computer having an auxiliary storage device 4 as shown in FIG. First, the outer product Gaussian method will be described. Considering the simultaneous linear equation 1 as shown in FIG. 6, the coefficient aij (i = 1,
2, ..., n, j = 1,2, ..., n) and bi (i = 1,
2, ..., n) to give a solution xi (i = 1,2, ..., n)
Consider calculating Starting from a state in which the coefficients of the simultaneous linear equation 1 are stored in the extended storage device 12 in a format as shown in FIG. 8, finally, while exchanging data between the extended storage device 12 and the main storage device 3, Obtaining the converted data as shown in FIG. 9 on the extended storage device 12 is the LU decomposition step which is a main part of the present calculation method. However, lij and uij in FIG.
Corresponding elements of an nth-order square lower triangular matrix L and an nth-order upper square triangular matrix U are given, and a matrix product of the matrix L and the matrix U gives a coefficient matrix 11 having coefficients of the simultaneous linear equation 1 as components. It is assumed that all diagonal elements of the n-th square lower triangular matrix L are 1. If the coefficient matrix 11 of the simultaneous linear equation 1 is decomposed into the product of the two triangular matrices L and U as described above, the solution of the simultaneous linear equation 1 can be easily calculated by forward and backward substitution. 9 is obtained by the calculation method shown in FIG. When the initial value of aij is calculated as an element of the coefficient matrix 11 according to the calculation method of FIG.
For ij, the elements of the matrix 15 after LU decomposition shown in FIG. 9 are obtained. This calculation method is called the outer product form Gauss method (or kji form-SXPY Gauss method from the calculation order of the subscript). In addition, for simplicity, a calculation procedure to which the high-speed technique by unrolling is not applied is shown. FIG. 3 shows a reference relation of data in the calculation of the k-th step of the outer product form Gaussian method. The feature of the Gaussian cross product method is that, in the calculation of the k-th step, as shown in FIG.
This means that only the -k + 1 order lower right small square matrix part is needed, and the update is performed only in the nk order lower right square matrix part 16. In general, even when the unrolling method described above is used, the property that the portion to be processed is reduced and can be represented by a lower right small square matrix does not change as the step proceeds. Therefore, the coefficient matrix 11 of the simultaneous linear equation 1 is divided into pages as shown in FIG. 8, and data is exchanged between the extended storage device 12 and the main storage device 3 on the extended storage device 12 as shown in FIG. To perform the conversion shown in FIG. 9, the calculation method shown in FIG. 1 may be executed. Here, the reference data storage area 5 and the update data storage area 6, which are two storage areas on the main storage device, are selectively used as follows. The data read from the auxiliary storage device 4 into the reference data storage area 5 is updated only with its own data, and is referred to for updating the data read into the update data area 6 through the processing.
Therefore, the page is returned to the corresponding page in the auxiliary storage device 4 after all the related data has been updated. On the other hand, for the data read into the update data storage area 6, the value is updated with reference to the data read into the reference data storage area 5, and the data is returned to the corresponding page of the auxiliary storage device 4. The calculation procedure shown in FIG. 1 is realized on a supercomputer SX-2A having an extended storage from among several types of operation pipeline system vector computers, and the calculation of the solution of the 5000-element simultaneous linear equation is performed by 1GFLOPS (1 (The speed of performing one billion floating-point operations per second). The storage capacity on the main storage device used for this calculation is about 25 Mbytes, and this value is about 1 of the main storage capacity required when calculating the solution of this simultaneous linear equation using only the main storage device 3. / 8. The theoretical peak performance of SX-2A is 1.3 GFLOP
S, and a high-speed performance very close to the theoretical performance was realized. The embodiment described above corresponds to a case where only the extended storage device 12 is used as the auxiliary storage device 4.

【0019】第2の実施例として、係数行列11が大き
すぎて、拡張記憶装置12に入りきらない場合について
のべる。この場合には、補助記憶装置4として、より低
速な、ディスク装置を考えなければいけないが、拡張記
憶12とディスク装置とのデータ転送速度の差が著しい
ため、多くのデータ転送が、拡張記憶装置12側で行わ
れるように、補助記憶装置4を使い分ければよい。さき
に述べた、外積形式ガウス消去法の特徴から、データ転
送回数は連立一次方程式1の係数行列11をページ分割
したとき第1ページから最終ページ(第Nページとす
る)へ移るにつれて多くなる。したがって、第Nページ
から逆順に拡張記憶装置に入るだけのページを拡張記憶
12上に保持し、残りの部分をディスク上に保持するよ
うに処理を行えば、高速処理が実現できる。この計算方
式は、実施例1で述べた手順において、拡張記憶装置1
2と主記憶装置3とのやり取りを一部ディスク装置と主
記憶装置3とのやり取りに変更するように書き換えるこ
とによって、容易に実現できる。たとえば、初期状態と
して連立1次方程式1の係数行列11の第1ページから
p−1ページまでをディスク装置上に与え、pページか
らNページまでを拡張記憶装置上に与えた場合に、初期
状態と同じページ配置で図9に示した変換の結果を得る
ためには、図1の計算方式を図5のように書き換えれば
よい。なお、初期状態として連立1次方程式1の係数行
列11がすべてディスク装置上にある場合や最終結果を
すべてディスク装置上におくようにする場合に対応する
ように上述の計算方式を変更するのは容易である。
As a second embodiment, a case where the coefficient matrix 11 is too large to fit in the extended storage device 12 will be described. In this case, a slower disk device must be considered as the auxiliary storage device 4. However, since the difference in data transfer speed between the extended storage 12 and the disk device is remarkable, many data transfers are performed in the extended storage device. What is necessary is just to use the auxiliary storage device 4 properly, as performed on the 12 side. Due to the feature of the Gaussian elimination method described above, the number of data transfers increases as the coefficient matrix 11 of the simultaneous linear equation 1 is divided into pages, from the first page to the last page (the Nth page). Therefore, high-speed processing can be realized by performing processing such that pages that only enter the extended storage device in the reverse order from the Nth page are stored in the extended storage 12 and the remaining portion is retained on the disk. This calculation method is based on the procedure described in the first embodiment.
2 can be easily realized by rewriting the exchange between the disk drive and the main storage device 3 so as to partially change the exchange between the disk device and the main storage device 3. For example, when the first page to the p-1 page of the coefficient matrix 11 of the simultaneous linear equation 1 are provided on the disk device and the p pages to the N page are provided on the extended storage device as the initial state, the initial state In order to obtain the result of the conversion shown in FIG. 9 with the same page arrangement as in FIG. 9, the calculation method in FIG. 1 may be rewritten as shown in FIG. It is to be noted that the above-described calculation method is changed so as to correspond to a case where the coefficient matrix 11 of the simultaneous linear equation 1 is entirely on the disk device as an initial state or a case where all the final results are to be stored on the disk device. Easy.

【0020】第3の実施例として、全計算時間に対し
て、補助記憶装置4と主記憶装置3とのデータ転送時間
の占める割合が大きい場合を考える。この場合には、補
助記憶装置4と主記憶装置3とのデータ転送量を減らす
ことが重要となる。さきに、外積形式ガウス消去法では
参照・更新される部分は、処理が進むにつれて縮小する
右下小正方行列部であり、ページ内の他の部分は、以後
の処理には不要となると述べた。従って、今後の処理に
必要な右下部分行列のみを取り出し、これを、一つの行
列と見なして、第1や第2の実施例に述べた方法を適用
すれば、データ転送量を減らすことができる。この方法
は、例えば、補助記憶装置4として、拡張記憶装置12
を持たないような計算機構成の場合にデータ転送量を減
らす有効な方法である。
As a third embodiment, consider the case where the ratio of the data transfer time between the auxiliary storage device 4 and the main storage device 3 to the total calculation time is large. In this case, it is important to reduce the data transfer amount between the auxiliary storage device 4 and the main storage device 3. Earlier, in the outer product form Gaussian elimination method, the part to be referred and updated is the lower right small square matrix part that shrinks as the processing progresses, and the other parts in the page are unnecessary for subsequent processing . Therefore, if only the lower right sub-matrix necessary for the future processing is extracted, this is regarded as one matrix, and the method described in the first or second embodiment is applied, the data transfer amount can be reduced. it can. This method uses, for example, the extended storage device 12 as the auxiliary storage device 4.
This is an effective method to reduce the amount of data transfer in a computer configuration that does not have the above.

【0021】最後に、第4の実施例として、補助記憶装
置4上のデータの格納形式として、上記の実施例では、
直編成ファイルを用いることを前提としている。直編成
ファイルにおいては、レコードと呼ばれる単位を記憶領
域の単位として用い、任意のレコードに対して、読み書
きを行うことが出来る。従来、このレコードの大きさと
して、連立1次方程式1の係数行列11をページ分割し
たときの1ページの大きさが採用されてきたが、こうす
ると、他の計算と、連立1次方程式の求解を結合して計
算する場合に問題が生じる。例えば、2つの大規模行列
の積を計算し、計算された積を係数行列とする連立1次
方程式を解く場合を考えると、一般には、行列の積を計
算するときの最適なページの大きさと連立1次方程式の
解を計算するときの最適なページの大きさが異なる。し
かし、直編成ファイルにおいては、レコード長を一度決
定すると、後で変更することが出来ない。従って、レコ
ード長をページの大きさに設定することは好ましくな
い。ここでは、レコード長として、係数行列の1列の大
きさをとり、1ページ分のデータを読み書きする場合に
1ページに相当する複数のレコードを連続して読み書き
することによってこの問題を解決した。こうすることに
よって、他の処理と結合した場合にも各処理ごとに最適
なページの大きさを設定することができる。
Finally, as a fourth embodiment, as a storage format of data in the auxiliary storage device 4, in the above embodiment,
It is assumed that a direct organization file is used. In a direct-organization file, a unit called a record is used as a unit of a storage area, and reading and writing can be performed on an arbitrary record. Conventionally, as the size of this record, the size of one page when the coefficient matrix 11 of the simultaneous linear equation 1 is divided into pages has been adopted. However, other calculations and the solution of the simultaneous linear equation A problem arises when calculating by combining. For example, considering the case of calculating the product of two large-scale matrices and solving a system of linear equations using the calculated product as a coefficient matrix, in general, the optimal page size when calculating the product of the matrices and The optimum page size when calculating the solution of the system of linear equations differs. However, once a record length is determined in a direct organization file, it cannot be changed later. Therefore, it is not preferable to set the record length to the size of the page. Here, this problem was solved by taking the size of one column of the coefficient matrix as the record length, and reading and writing data for one page continuously by reading and writing a plurality of records corresponding to one page. This makes it possible to set an optimum page size for each process even when the process is combined with another process.

【0022】なお、本実施例では述べなかったが、連立
1次方程式を解く場合に普通行われる部分ピボティング
操作を行う場合にも同様な計算方式を採用できる。
Although not described in the present embodiment, a similar calculation method can be adopted when a partial pivoting operation which is usually performed when solving simultaneous linear equations is performed.

【0023】[0023]

【発明の効果】本計算方式によって、大規模連立1次方
程式を高速に、計算することができ、その結果、構造解
析、流体力学、電磁気学、原子力等の様々な工学分野は
もちろんのこと、数多くの応用分野における数値計算の
高速化に貢献できる。
According to the present calculation method, a large-scale simultaneous linear equation can be calculated at high speed. As a result, not only various engineering fields such as structural analysis, fluid dynamics, electromagnetics, and nuclear power, but also, It can contribute to speeding up numerical calculations in many application fields.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の補助記憶装置を利用した連立1次方程
式の解の高速計算方式の説明図である。
FIG. 1 is an explanatory diagram of a high-speed calculation method for solving simultaneous linear equations using an auxiliary storage device of the present invention.

【図2】本発明の外積形式ガウス法における各要素の計
算方式を示す図である。
FIG. 2 is a diagram showing a calculation method of each element in the outer product form Gaussian method of the present invention.

【図3】本発明の外積形式ガウス法におけるkステップ
目のデータ参照関係を示す図である。
FIG. 3 is a diagram illustrating a k-th data reference relationship in the outer product form Gaussian method of the present invention.

【図4】アンローリング手法の説明図である。FIG. 4 is an explanatory diagram of an unrolling method.

【図5】本発明の第2の実施例の説明図である。FIG. 5 is an explanatory diagram of a second embodiment of the present invention.

【図6】解を求めるべき連立1次方程式を表わした図で
ある。
FIG. 6 is a diagram showing simultaneous linear equations for which a solution is to be obtained.

【図7】計算機構成を示した図である。FIG. 7 is a diagram showing a computer configuration.

【図8】連立1次方程式のページ分割説明図である。FIG. 8 is an explanatory diagram of page division of simultaneous linear equations.

【図9】連立1次方程式の系数行列の各要素とLU分解
された行列の要素との対応関係を示した図である。
FIG. 9 is a diagram showing a correspondence relationship between each element of a modulus matrix of a system of linear equations and an element of an LU-decomposed matrix;

【図10】従来の内積形式ガウス法における各要素の計
算方式を示した図である。
FIG. 10 is a diagram showing a calculation method of each element in a conventional inner product form Gaussian method.

【図11】従来の内積形式ガウス法における第k列の計
算における各要素の計算方式を示した図である。
FIG. 11 is a diagram showing a calculation method of each element in calculation of a k-th column in a conventional inner product form Gaussian method.

【図12】従来の計算方式を説明した図である。FIG. 12 is a diagram illustrating a conventional calculation method.

【符号の説明】[Explanation of symbols]

1…連立1次方程式、2…中央処理装置、3…主記憶装
置、4…補助記憶装置、5…参照データ用記憶領域、6
…更新データ用記憶領域、7…ページ分割された係数行
列の第1ページ、8…同第2ページ、9…同第3ペー
ジ、10…同第Nページ(最終ページ)、11…連立1
次方程式の係数行列、12…拡張記憶装置、13…n次
正方上三角行列Uの要素、14…n次正方下三角行列L
の要素、15…LU分解後の各要素の配置、16…第k
ステップ目で更新される領域、17…第kステップ目で
参照される領域。
DESCRIPTION OF SYMBOLS 1 ... Simultaneous linear equation, 2 ... Central processing unit, 3 ... Main storage device, 4 ... Auxiliary storage device, 5 ... Storage area for reference data, 6
... storage area for update data, 7 ... first page of coefficient matrix divided into pages, 8 ... second page, 9 ... third page, 10 ... Nth page (last page), 11 ... simultaneous 1
Coefficient matrix of the following equation, 12... Expanded storage device, 13... Element of n-th square upper triangular matrix U, 14.
, 15... Arrangement of each element after LU decomposition, 16.
The area updated at the step number 17; the area referenced at the k-th step.

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 中央処理装置と中央処理装置が直接アク
セスする主記憶装置と、主記憶装置とデータのやり取り
が可能である補助記憶装置、特に補助記憶装置として半
導体で構成された高速補助記憶装置である拡張記憶装置
を有する計算機において、補助記憶装置上に連立1次方
程式の係数に対応する係数行列の数値データを与えて、
まず、前記係数行列を2つの三角行列の積に分解し、連
立1次方程式の解を計算する計算方式であって、前記連
立1次方程式の係数行列を2つの三角行列の積に分解す
るに当たって、前記係数行列を一定数の列を含むように
分割し、分割された単位をページと呼び、順番に第1ペ
ージ、第2ページ、…としてページを処理単位とする、
ただし、最後のページは他のページと同じ大きさではな
く係数行列の大きさに応じて余った要素を含むようにと
る。前記係数行列の1つ以上のページを該補助記憶装置
から主記憶装置へ読み込み、主記憶装置上の読み込まれ
たデータに対して処理を行い、結果を補助記憶装置の対
応するページへと戻す。前記主記憶装置上の記憶領域を
参照データ用記憶領域と更新データ用記憶領域の2つに
分け、参照データ用記憶領域に補助記憶装置から読み込
んだデータについてはそれ自身のデータのみで更新処理
を行い、処理を通じて次に述べる更新データ用領域に読
み込まれたデータの更新のために参照される、従って、
関連するデータの更新がすべて終わった後で該補助記憶
装置の対応するページに戻す、一方、更新データ用記憶
領域に読み込んだデータについては、前記参照データ用
記憶領域に読み込まれたデータを参照して値を更新し、
該補助記憶装置の対応するページへと戻す。前記係数行
列がNページからなるとし、順番に第1ページ,第2ペ
ージ,…,第Nページと呼ぶとき、該補助記憶装置と、
主記憶装置とのデータのやり取りの順序を第1ページを
補助記憶装置から参照データ用記憶領域へ読み込み、処
理する。第2ページ、第3ページ、…、第Nページの順
に補助記憶装置から更新データ用記憶領域へ読み込み、
処理し、該補助記憶装置の対応するページへと戻す。第
1ページを参照データ用記憶領域から該補助記憶装置の
対応するページへと戻す。第2ページを補助記憶装置か
ら参照データ用記憶領域へ読み込み、処理する。第3ペ
ージ、第4ページ、…、第Nページの順に該補助記憶装
置から更新データ用記憶領域へ読み込み、処理し補助記
憶装置の対応するページへと戻す。第2ページを参照デ
ータ用記憶領域から該補助記憶装置の対応するページへ
と戻す。 … 第N−1ページを該補助記憶装置から参照データ用記憶
領域へ読み込み、処理する。第Nページを補助記憶装置
から更新データ用領域へ読み込み、処理し、該補助記憶
装置の対応するページへと戻す。第N−1ページを参照
データ用記憶領域から該補助記憶装置の対応するページ
へと戻す。順とする一補助記憶装置を利用した連立1次
方程式の解の高速計算方式。
1. A central processing unit, a main storage device directly accessed by the central processing unit, and an auxiliary storage device capable of exchanging data with the main storage device, in particular, a high-speed auxiliary storage device composed of a semiconductor as the auxiliary storage device. In a computer having a certain extended storage device, numerical data of a coefficient matrix corresponding to a coefficient of a system of linear equations is given to an auxiliary storage device,
First, there is provided a calculation method for decomposing the coefficient matrix into a product of two triangular matrices and calculating a solution of a system of linear equations. In decomposing the coefficient matrix of the system of linear equations into a product of two triangular matrices, , The coefficient matrix is divided so as to include a fixed number of columns, the divided units are called pages, and the first page, the second page,...
However, the last page is not the same size as the other pages, but includes extra elements according to the size of the coefficient matrix. One or more pages of the coefficient matrix are read from the auxiliary storage device to the main storage device, the read data on the main storage device is processed, and the result is returned to the corresponding page of the auxiliary storage device. The storage area on the main storage device is divided into two, a reference data storage area and an update data storage area, and the data read from the auxiliary storage apparatus into the reference data storage area is subjected to update processing only with its own data. And is referred to for updating the data read into the update data area described below through the processing.
After all related data has been updated, the page is returned to the corresponding page in the auxiliary storage device. On the other hand, for the data read into the update data storage area, the data read into the reference data storage area is referred to. To update the value,
Return to the corresponding page in the auxiliary storage device. When the coefficient matrix is composed of N pages and is called a first page, a second page,...
The first page is read from the auxiliary storage device into the storage area for reference data, and the order of data exchange with the main storage device is processed. The second page, the third page,..., The Nth page are read in order from the auxiliary storage device to the update data storage area,
Process and return to the corresponding page in the auxiliary storage device. The first page is returned from the reference data storage area to the corresponding page of the auxiliary storage device. The second page is read from the auxiliary storage device to the storage area for reference data and processed. The third page, the fourth page,..., The Nth page are read in order from the auxiliary storage device to the storage area for update data, processed, and returned to the corresponding page of the auxiliary storage device. The second page is returned from the reference data storage area to the corresponding page of the auxiliary storage device. ... Read the N-1th page from the auxiliary storage device into the reference data storage area and process it. The Nth page is read from the auxiliary storage device into the update data area, processed, and returned to the corresponding page in the auxiliary storage device. The (N-1) th page is returned from the reference data storage area to the corresponding page of the auxiliary storage device. A high-speed calculation method for solving simultaneous linear equations using an auxiliary storage device.
【請求項2】 補助記憶装置が拡張記憶装置を含む場合
に、前記係数行列の第Nページから逆順に前記拡張記憶
装置に入り切るだけのページを拡張記憶装置上に保持し
ながら処理を進めることを特徴とする特許請求の範囲第
1項記載の補助記憶装置を利用した連立1次方程式の解
の高速計算方式。
2. When the auxiliary storage device includes an extended storage device, the process proceeds while holding, on the extended storage device, only enough pages to fit in the extended storage device in reverse order from the Nth page of the coefficient matrix. A high-speed calculation method for solving simultaneous linear equations using the auxiliary storage device according to claim 1.
【請求項3】 処理途中で、以降の処理で参照・更新さ
れる部分に対応する小行列のみを取り出し、これを新た
に1つの行列と見なして処理をおこない、最後に前記小
行列部分を元に戻すことによって前記係数行列を2つの
三角行列の積として表し、前記連立1次方程式の解を計
算することを特徴とする特許請求の範囲第1項および第
2項記載の補助記憶装置を利用した連立1次方程式の解
の高速計算方式。
3. During processing, only a small matrix corresponding to a part to be referred to / updated in the subsequent processing is extracted, and this is regarded as a new matrix, and the processing is performed. 3. The auxiliary storage device according to claim 1, wherein the coefficient matrix is represented as a product of two triangular matrices, and a solution of the simultaneous linear equation is calculated. High-speed calculation method for solving simultaneous linear equations.
【請求項4】 補助記憶装置上のデータを直編成ファイ
ルとして扱い、そのレコード長を前記係数行列の1列が
含む要素が丁度入る大きさに設定したことを特徴とする
特許請求の範囲第1項、第2項および第3項記載の補助
記憶装置を利用した連立1次方程式の解の高速計算方
式。
4. The data processing apparatus according to claim 1, wherein the data on the auxiliary storage device is treated as a direct organization file, and a record length thereof is set to a size just enough to include an element included in one column of the coefficient matrix. A high-speed calculation method for solving a system of linear equations using the auxiliary storage device according to the first, second, and third terms.
JP3157487A 1991-06-03 1991-06-03 A fast method for solving simultaneous linear equations using an auxiliary storage device Expired - Fee Related JP2643110B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3157487A JP2643110B2 (en) 1991-06-03 1991-06-03 A fast method for solving simultaneous linear equations using an auxiliary storage device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3157487A JP2643110B2 (en) 1991-06-03 1991-06-03 A fast method for solving simultaneous linear equations using an auxiliary storage device

Publications (2)

Publication Number Publication Date
JPH04355878A JPH04355878A (en) 1992-12-09
JP2643110B2 true JP2643110B2 (en) 1997-08-20

Family

ID=15650758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3157487A Expired - Fee Related JP2643110B2 (en) 1991-06-03 1991-06-03 A fast method for solving simultaneous linear equations using an auxiliary storage device

Country Status (1)

Country Link
JP (1) JP2643110B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020200244A1 (en) * 2019-04-04 2020-10-08 中科寒武纪科技股份有限公司 Data processing method and apparatus, and related product

Also Published As

Publication number Publication date
JPH04355878A (en) 1992-12-09

Similar Documents

Publication Publication Date Title
US10644877B2 (en) Configurable number theoretic transform (NTT) butterfly circuit for homomorphic encryption
Vempati et al. Enhancement to Givens rotations for power system state estimation
KR100373222B1 (en) Semiconductor integrated circuit
US6901422B1 (en) Matrix multiplication in a vector processing system
US5500828A (en) Apparatus, system and methods for distributed signal processing
US6105114A (en) Two-dimensional array transposition circuit reading two-dimensional array in an order different from that for writing
US6078938A (en) Method and system for solving linear systems
JPH0526229B2 (en)
US5831883A (en) Low energy consumption, high performance fast fourier transform
King et al. Implementation of an element-by-element solution algorithm for the finite element method on a coarse-grained parallel computer
Nayak et al. High throughput VLSI implementation of discrete orthogonal transforms using bit-level vector-matrix multiplier
JPH06502265A (en) Calculation circuit device for matrix operations in signal processing
Twogood et al. An extension of Eklundh's matrix transposition algorithm and its application in digital image processing
JP2643110B2 (en) A fast method for solving simultaneous linear equations using an auxiliary storage device
CN101561797A (en) Method and device for singular value and feature value composition of matrix on processing system
WO2021168644A1 (en) Data processing apparatus, electronic device, and data processing method
JPH05324700A (en) Matrix multiplication device
KR0139699B1 (en) Discrete cosine transform device
JPH09259115A (en) Very-large-scale integrated circuit for bit-serial matrix transposition
JP3333779B2 (en) Matrix arithmetic unit
Hoyer et al. An algorithm for the two dimensional FFT
US11494676B2 (en) Architecture for table-based mathematical operations for inference acceleration in machine learning
CN111522776B (en) Computing architecture
Panchanathan Universal architecture for matrix transposition
JP3962331B2 (en) Method, circuit arrangement and use thereof for performing a fast Fourier transform

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees