JP5610603B1 - VLSI circuit, parallel computing system and computer system - Google Patents

VLSI circuit, parallel computing system and computer system Download PDF

Info

Publication number
JP5610603B1
JP5610603B1 JP2013235925A JP2013235925A JP5610603B1 JP 5610603 B1 JP5610603 B1 JP 5610603B1 JP 2013235925 A JP2013235925 A JP 2013235925A JP 2013235925 A JP2013235925 A JP 2013235925A JP 5610603 B1 JP5610603 B1 JP 5610603B1
Authority
JP
Japan
Prior art keywords
parallel computing
computing system
additional
vlsi
hxnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013235925A
Other languages
Japanese (ja)
Other versions
JP2015095223A (en
Inventor
隆治 村上
隆治 村上
Original Assignee
株式会社仲池上工房
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社仲池上工房 filed Critical 株式会社仲池上工房
Priority to JP2013235925A priority Critical patent/JP5610603B1/en
Application granted granted Critical
Publication of JP5610603B1 publication Critical patent/JP5610603B1/en
Publication of JP2015095223A publication Critical patent/JP2015095223A/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】任意のPE間のデータ転送が可能であり、スケーラビリティを持った並列コンピューティングシステムを提供すること。また、かかる並列コンピューティングシステムを活用するコンピュータシステムを提供し、小型の携帯端末装置上でラジオシティの計算を可能とすること。【解決手段】HXNetをVLSIに実装し、追加BMによってVLSI間のデータ転送を可能とする。VLSI数を任意に選択できるスケーラビリティが実現され、小型の携帯端末装置上でラジオシティの計算が可能となる。【選択図】図2To provide a parallel computing system capable of transferring data between arbitrary PEs and having scalability. In addition, a computer system utilizing such a parallel computing system is provided, and radiosity can be calculated on a small portable terminal device. HXNet is mounted on a VLSI, and data transfer between VLSIs is enabled by an additional BM. Scalability in which the number of VLSIs can be arbitrarily selected is realized, and radiosity can be calculated on a small portable terminal device. [Selection] Figure 2

Description

本発明は、並列コンピューティングのためのVLSI回路、該VLSI回路を活用する並列コンピューティングシステム及び該並列コンピューティングシステムを活用するコンピュータシステムに関する。   The present invention relates to a VLSI circuit for parallel computing, a parallel computing system utilizing the VLSI circuit, and a computer system utilizing the parallel computing system.

計算を並列化して計算を高速化することを目的とする並列コンピューティングシステムは、数十年に及ぶ研究開発がなされてきた。
並列コンピューティングシステムにおいては、PEと呼ばれる計算エレメント(CPUに相当)が複数用いられて、各々のPEが独立に計算を行い、他のPEに計算結果のデータを転送する。ここで、データ転送には転送用のバスが必要となるため、多くのデータ転送を必要とする計算においてはハードウェアの構築が容易でなかった。
Parallel computing systems aimed at speeding up computation by parallelizing computation have been researched and developed for decades.
In a parallel computing system, a plurality of calculation elements called PEs (corresponding to CPUs) are used, each PE performs calculations independently, and transfers calculation result data to other PEs. Here, since a transfer bus is required for data transfer, it is not easy to construct hardware in calculations that require a large amount of data transfer.

例えば、物質の拡散を表す微分方程式の数値解を求める(ラプラシアン演算を行う)場合であれば各PEに空間の1座標における計算をさせ、近接する座標における計算をするPE(2次元であれば4つ、3次元であれば6つ)のみにデータ転送をすればよいので、バスの数を増やさない構成が可能であった。しかし、昨今携帯端末装置においても行われる画像処理におけるラジオシティ計算においては、各PEに1つの小平面における計算をさせると、全てのPE間でデータ転送が必要となる可能性がある。このため、従来の並列コンピューティングシステムでは、十分な高速演算が実現されなかった。   For example, in the case of obtaining a numerical solution of a differential equation representing the diffusion of a substance (performing Laplacian calculation), each PE is calculated at one coordinate in the space, and is calculated at a nearby coordinate (if it is two-dimensional) Since it is sufficient to transfer data only to four (three in the case of three dimensions), a configuration in which the number of buses is not increased was possible. However, in radiosity calculation in image processing performed in recent mobile terminal devices, if each PE performs calculations on one small plane, data transfer may be required between all PEs. For this reason, in a conventional parallel computing system, sufficient high-speed computation has not been realized.

PE間のデータ転送の問題を解決する方法として、例えば特許文献1には、データ転送を専門に実行する通信ネットワークを有する並列コンピューティングシステムが開示されている。しかし、かかる通信ネットワークの構築には多大なコストを要する。   As a method for solving the problem of data transfer between PEs, for example, Patent Document 1 discloses a parallel computing system having a communication network that specially executes data transfer. However, the construction of such a communication network requires a great deal of cost.

また、特許文献2には、2次元的に配列された各々のPEに対応するメモリを、3ポート以上のバスに対応させ、2つの次元を超えた第3のポートを介して幅広いデータ転送を実行する並列コンピューティングシステムが開示されている。しかし、第3のポートにかかるデータ転送の具体的な実現は、個々に設計しなければならない。   In Patent Document 2, a memory corresponding to each PE arranged two-dimensionally corresponds to a bus having three or more ports, and a wide range of data transfer can be performed via a third port exceeding two dimensions. A parallel computing system for performing is disclosed. However, the specific implementation of data transfer over the third port must be individually designed.

PEを2次元的に配列し任意のPE間のデータ転送を可能とした並列コンピューティングシステムとしては、HXNet(非特許文献1)によるものが知られていた。m個のPE(i,j)(1≦i≦m、1≦j≦m)として、PE(i,j)→PE(j,k)→PE(k,l)の順にデータ転送を行うことで、任意のPE間のデータ転送を可能としたものである。HXNetは、実装が保証された有用なものである。 As a parallel computing system in which PEs are arranged two-dimensionally and data transfer between arbitrary PEs is possible, one based on HXNet (Non-patent Document 1) has been known. m As 2 PE (i, j) (1 ≦ i ≦ m, 1 ≦ j ≦ m), data transfer is performed in the order of PE (i, j) → PE (j, k) → PE (k, l). By doing so, it is possible to transfer data between arbitrary PEs. HXNet is a useful one that is guaranteed to be implemented.

一方HXNetは、PEの数がm個に限定され、複数のHXNetを結合して大きなHXNetを構成することができない。小規模のものを後に大規模化するスケーラビリティがなかった。 On the other hand, in HXNet, the number of PEs is limited to m 2 , and a large HXNet cannot be configured by combining a plurality of HXNets. There was no scalability to scale up small things later.

特開平06−052125号公報Japanese Patent Laid-Open No. 06-052125 特開平06−075930号公報Japanese Patent Application Laid-Open No. 06-075930

超並列VLSIコンピュータ 廉田浩著 工業調査会Massively parallel VLSI computer by Hiroshi Renda Industrial Research Committee

本発明は、任意のPE間のデータ転送が可能であり、スケーラビリティを持った並列コンピューティングシステムを提供することを課題とする。
また、かかる並列コンピューティングシステムを活用するコンピュータシステムを提供し、小型の携帯端末装置上でラジオシティの計算を可能とすることを課題とする。
An object of the present invention is to provide a parallel computing system capable of transferring data between arbitrary PEs and having scalability.
It is another object of the present invention to provide a computer system that utilizes such a parallel computing system and to enable calculation of radiosity on a small portable terminal device.

小規模のHXNetをVLSI回路によって実現する。VLSI回路は、HXNetに使用するBM(BMは「バッファメモリ」を表す。)に加え、他のVLSI回路にデータを転送するための追加BMを備える。これにより、任意の数のVLSIを結合して並列コンピューティングシステムを構成することができ、任意のPE間でのデータ転送が可能となる。   A small-scale HXNet is realized by a VLSI circuit. The VLSI circuit includes an additional BM for transferring data to another VLSI circuit in addition to the BM used for HXNet (BM represents “buffer memory”). Thereby, an arbitrary number of VLSIs can be combined to constitute a parallel computing system, and data transfer between arbitrary PEs becomes possible.

本発明のVLSI回路は、
個のPE及びm個のBMを含むHXNetと、
(n−1)個の追加BMを実装したことを特徴とする。
The VLSI circuit of the present invention is
HXNet containing m 2 PEs and m 3 BMs;
It is characterized by mounting m 2 (n−1) additional BMs.

HXNetをVLSIに実装し、他のVLSIとのデータ転送のための追加BMを更に実装する。ここで、m及びnは2以上の整数である。   HXNet is mounted on the VLSI, and an additional BM for data transfer with other VLSI is further mounted. Here, m and n are integers of 2 or more.

本発明の並列コンピューティングシステムは、
個のPE及びm 個のBMを含むHXNetとm (n−1)個の追加BMを実装したVLSI回路をn個含み、
前記m及びnは2以上の整数であり、
各VLSI回路において、 前記追加BMは、前記HXNet中の 個のPEの各々から書込可能な(n−1)個の追加BMをm組備え、
前記追加BMのm 組は順序付けされ、i組目の追加BMに書込可能なPEをi番目のPE(iは1以上m 以下の整数)と表すものとし、
前記(n−1)個の追加BM(1組の追加BM)は順序付けされ、
j番目の順序のVLSI回路のi組目の追加BMの組のk番目の順序の追加BMがk番目の順序(k<jの場合)又は(k+1)番目の順序(k≧jの場合)のVLSI回路のi番目のPEによって読取可能であることを特徴とする。
The parallel computing system of the present invention includes:
Including n VLSI circuits mounted with HXNet including m 2 PEs and m 3 BMs and m 2 (n−1) additional BMs ,
M and n are integers of 2 or more;
In each VLSI circuit, the additional BM includes m 2 sets of (n−1) additional BMs writable from each of the m 2 PEs in the HXNet,
The m 2 sets of the additional BM are ordered, and a PE that can be written to the i-th additional BM is represented as an i-th PE (i is an integer of 1 to m 2 ),
The (n-1) additional BMs (a set of additional BMs) are ordered,
The kth order additional BM of the i-th set BM of the jth order VLSI circuit is the kth order (when k <j) or the (k + 1) th order (when k ≧ j). It can be read by the i-th PE of the VLSI circuit.

各々の追加BMからのデータ転送先のバスを確定し、VLSI間のバスを少なくする。   Data transfer destination buses from each additional BM are determined, and buses between VLSIs are reduced.

本発明の並列コンピューティングシステムは、
k番目の順序のVLSI回路のi番目のPEをPE(k,i)と表すとき、PE(k,i)からPE(k,i)へのデータ転送が、
(1)k=kであればk番目のVLSI回路内のHXNetによって実行され、
(2)k≠kかつi=iであればPE(k,i)が所定の追加BMにデータを書き込み、該データをPE(k,i)が読取ることによって実行され、
(3)k≠kかつi≠iであればPE(k,i)が所定の追加BMにデータを書き込み、該データをPE(k,i)が読取り、k番目のVLSI回路内のHXNetによりPE(k,i)に転送されることによって実行される
ことを特徴とする。
The parallel computing system of the present invention includes:
When the i-th PE of the k-th order VLSI circuit is represented as PE (k, i), the data transfer from PE (k 1 , i 1 ) to PE (k 2 , i 2 )
(1) If k 1 = k 2 , k is executed by the HXNet in the first VLSI circuit,
(2) If k 1 ≠ k 2 and i 1 = i 2 , PE (k 1 , i 1 ) writes data to a predetermined additional BM, and PE (k 2 , i 1 ) reads the data. Executed,
(3) If k 1 ≠ k 2 and i 1 ≠ i 2 , PE (k 1 , i 1 ) writes data to a predetermined additional BM, and the data is read by PE (k 2 , i 1 ), k the HXNet in second VLSI circuit, characterized in that it is executed by being transferred to the PE (k 2, i 2) .

具体的なデータ転送手順を与える。   A specific data transfer procedure is given.

本発明のコンピュータシステムは、
本体CPUと、上記の並列コンピューティングシステムと、前記本体CPUと前記並列コンピューティングシステムとのインタフェース回路とを備えることを特徴とする。
The computer system of the present invention
A main body CPU, the parallel computing system described above, and an interface circuit between the main body CPU and the parallel computing system are provided.

VLSIによる並列コンピューティングシステムを、本体CPUから見て1つのデバイスとして取り扱うことを可能とする。   A parallel computing system based on VLSI can be handled as one device when viewed from the main body CPU.

本発明のコンピュータシステムは、
前記並列コンピューティングシステムを用いてラジオシティの計算を行うことを特徴とする。
The computer system of the present invention
Radiosity is calculated using the parallel computing system.

ラジオシティの計算においては、PE間のデータ転送が多い。本発明のコンピュータシステムが有効に活用される。   In the calculation of radiosity, there are many data transfers between PEs. The computer system of the present invention is effectively used.

本発明のコンピュータシステムは、
携帯端末装置上で動作し、
ゲームのアプリケーションのおける画像表示にラジオシティの計算を行うことを特徴とする。
The computer system of the present invention
Runs on a mobile terminal device,
Radiosity is calculated for image display in game applications.

スケーラビリティを持った並列コンピューティングシステムであり、携帯端末装置での活用、特にゲームにおける活用が考えられる。   It is a parallel computing system with scalability and can be used in mobile terminal devices, especially in games.

本発明によれば、任意のPE間のデータ転送が可能でありスケーラビリティを持った並列コンピューティングシステム、及びかかる並列コンピューティングシステムを活用するコンピュータシステムが提供される。   According to the present invention, there are provided a parallel computing system capable of transferring data between arbitrary PEs and having scalability, and a computer system utilizing such a parallel computing system.

図1は、VLSI回路を示す図である。FIG. 1 is a diagram showing a VLSI circuit. 図2は、複数のVLSI回路による並列コンピューティングシステムを示す図である。FIG. 2 is a diagram illustrating a parallel computing system using a plurality of VLSI circuits. 図3は、コンピュータの構成を示す図である。FIG. 3 is a diagram illustrating the configuration of the computer. 図4は、ラジオシティの計算手順を示す図である。FIG. 4 is a diagram showing a radiosity calculation procedure.

以下、本発明の実施例を、m=2、n=3の例で説明する。m、nが他の値であっても同様に動作する。   In the following, examples of the present invention will be described with an example of m = 2 and n = 3. The same operation is performed even if m and n are other values.

図1は、VLSI回路を示す図である。VLSI回路1には、HXNet2及び8つの追加BM(ABM)4が実装されている。HXNet2は、4つ(=2)のPE3と8つ(=2)のBMを有している。VLSI回路1は、この他に8つのABMを含む。8つのABMは、4つのPE(i)のそれぞれから読み書き可能な2つずつのABM(i,j)である(i=1,...4、j=1,2)。 FIG. 1 is a diagram showing a VLSI circuit. The VLSI circuit 1 is mounted with HXNet 2 and eight additional BMs (ABMs) 4. HXNet2 has 4 (= 2 2 ) PE3 and 8 (= 2 3 ) BMs. In addition to this, the VLSI circuit 1 includes eight ABMs. The eight ABMs are two ABMs (i, j) that can be read and written from each of the four PEs (i) (i = 1,..., J = 1, 2).

8つのABMは、j毎に(読み書きされるPR毎(i毎)でなく各PMに係る順序毎(j毎)に)、グループ化されてバスを有している。むろん、各々のABM毎に別々のバスを有するのであるが、グループ毎に略同一方向へのバス(VLSI回路外への経路)を有している。   The eight ABMs have a bus grouped for each j (for each order (for each j) related to each PM, not for each PR (for each i) to be read and written). Of course, each ABM has a separate bus, but each group has a bus (path to the outside of the VLSI circuit) in substantially the same direction.

1つのVLSI回路は、4PEからなるHXNetを構成しており、それ自体が並列コンピューティングシステムとして動作する。本実施例では4PEとしたが、9PE、16PE、25PE、その他任意の数のPE(ただし、mを2以上の整数としてm個のPEとする)であってよい。 One VLSI circuit constitutes an HXNet composed of 4PE, and operates as a parallel computing system. Although the 4PE in this embodiment, 9PE, 16PE, 25PE, any other number of PE (However, m a and m 2 pieces of PE as an integer of 2 or more) may be.

図2は、複数のVLSI回路による並列コンピューティングシステムを示す図である。本実施例では3つのVLSI回路1による12PE(4PE×3)の並列コンピューティングシステムを示すが、4以上のVLSI回路1による並列コンピューティングシステムも同様に構築可能である。   FIG. 2 is a diagram illustrating a parallel computing system using a plurality of VLSI circuits. In this embodiment, a 12PE (4PE × 3) parallel computing system using three VLSI circuits 1 is shown, but a parallel computing system using four or more VLSI circuits 1 can be similarly constructed.

3つのVLSI回路1a、1b及び1cがあり、VLSI回路1aと1bとを結ぶバス5ab、VLSI回路1bと1cとを結ぶバス5bc及びVLSI回路1cと1aとを結ぶバス5caが備えられている。   There are three VLSI circuits 1a, 1b, and 1c. A bus 5ab that connects the VLSI circuits 1a and 1b, a bus 5bc that connects the VLSI circuits 1b and 1c, and a bus 5ca that connects the VLSI circuits 1c and 1a are provided.

バス5ab、5bc及び5caは、それぞれ4つのABMに係る4本のバスをまとめて示している。1本1本のバスは、以下のように接続されている。例えば、バス5abのうち、VLSI回路1aのABM(1,2)からのバスは、VLSI回路1bのABM(1,1)及び/又はPE1に接続される。一方のVLSI回路のABM(i,j)から他方のVLSI回路のABM(i,j)又はPEiを接続するにあたって、i=iの関係を保つ。このようにして、同じ番号のPE若しくはそれに係るABMを接続している。 The buses 5ab, 5bc, and 5ca collectively represent four buses related to four ABMs. Each bus is connected as follows. For example, of the bus 5ab, the bus from the ABM (1,2) of the VLSI circuit 1a is connected to the ABM (1,1) and / or PE1 of the VLSI circuit 1b. When connecting the ABM (i 1 , j 1 ) of one VLSI circuit to the ABM (i 2 , j 2 ) or PEi 2 of the other VLSI circuit, the relationship of i 1 = i 2 is maintained. In this way, PEs having the same number or ABMs related thereto are connected.

ここで、バスで接続されたABM間でデータを複写する(ABM間でミラーリングする)か、接続先のABMを書き換えずにPEにデータを転送するかは、いずれでもよい。PEにデータを転送することが目的であり、ABMを介するか否かは本質でない。   Here, data may be copied between ABMs connected by a bus (mirroring between ABMs) or data may be transferred to the PE without rewriting the connected ABM. The purpose is to transfer the data to the PE, and it is not essential whether it is via the ABM.

ここで、i=iの関係を保つことが重要である。HXNetにおいては、PEの数がm個であり、共に1〜mの値をとるi及びjによってPEが番号付けされているため、PE(i,j)からPE(j、k)に転送する際に、jの値にかかわらずPE(j、k)が存在する。しかし、本発明においては、VLSI回路の数nがmよりも小さい場合には、i番目のVLSIのj番目のPEに対して、「j番目のVLSI」が存在しない可能性がある。PE(i,j)からPE(j、k)への転送が保証されない。このため、iを各々のVLSIにおけるPEの順序として、転送先のPEが存在することを保証するものである。 Here, it is important to maintain the relationship of i 1 = i 2 . In HXNet, the number of PEs is m 2 , and PEs are numbered by i and j that take values of 1 to m, so transfer from PE (i, j) to PE (j, k). In this case, PE (j, k) exists regardless of the value of j. However, in the present invention, when the number n of VLSI circuits is smaller than m, there is a possibility that the “j-th VLSI” does not exist for the j-th PE of the i-th VLSI. Transfer from PE (i, j) to PE (j, k) is not guaranteed. For this reason, i is assumed to be the order of PEs in each VLSI, and it is guaranteed that the transfer destination PE exists.

以上により、m(n−1)個の追加BMを実装したVLSI回路1を、最大n個まで、スケーラビリティを持って任意の数を接続することができ、任意のPE間のデータ転送を実現することができる。以下、任意のPE間のデータ転送を説明する。k番目の順序のVLSI回路のi番目のPEをPE(k,i)と表すとき、PE(k,i)からPE(k,i)へのデータ転送は、以下の手順で行われる。 As described above, an arbitrary number of VLSI circuits 1 mounted with m 2 (n−1) additional BMs can be connected up to a maximum of n, and data transfer between arbitrary PEs is realized. can do. Hereinafter, data transfer between arbitrary PEs will be described. When the i-th PE of the k-th order VLSI circuit is represented as PE (k, i), data transfer from PE (k 1 , i 1 ) to PE (k 2 , i 2 ) is performed according to the following procedure. Done.

=kであればk番目のVLSI回路内のHXNetによって実行される。すなわち、同一のVLSI内におけるHXNetによるデータ転送である。 If k 1 = k 2 , it is executed by the HXNet in the k 1st VLSI circuit. That is, data transfer by HXNet in the same VLSI.

≠kかつi=iであればPE(k,i)が所定の追加BMにデータを書き込み、該データをPE(k,i)が読取ることによって実行される。すなわち、VLSI内の順序が同一のPE間は、ABM及びバスを介したデータ転送が可能である。 If k 1 ≠ k 2 and i 1 = i 2 , PE (k 1 , i 1 ) writes data to a predetermined additional BM, and the data is read by PE (k 2 , i 1 ). . That is, data transfer via ABM and bus is possible between PEs in the same order in the VLSI.

≠kかつi≠iであればPE(k,i)が所定の追加BMにデータを書き込み、該データをPE(k,i)が読取り、k番目のVLSI回路内のHXNetによりPE(k,i)に転送されることによって実行される。すなわち、ABM及びバスを介したデータ転送を行った後に、転送先のVLSI内のHXNetによるデータ転送を行う。 If k 1 ≠ k 2 and i 1 ≠ i 2 , PE (k 1 , i 1 ) writes data to a predetermined additional BM, and the data is read by PE (k 2 , i 1 ), and the k 2nd This is executed by being transferred to PE (k 2 , i 2 ) by HXNet in the VLSI circuit. That is, after performing data transfer via the ABM and the bus, data transfer is performed by HXNet in the transfer destination VLSI.

以上、VLSI回路及びその接続を説明した。次いで、並列コンピューティングシステムを実現するためのインタフェース回路について説明する。ただし、インタフェース回路は非特許文献1に開示されたものと同様であってよく、特段の説明をせずとも本発明の属する技術分野における通常の知識によって開発可能である。   The VLSI circuit and its connection have been described above. Next, an interface circuit for realizing a parallel computing system will be described. However, the interface circuit may be the same as that disclosed in Non-Patent Document 1, and can be developed by ordinary knowledge in the technical field to which the present invention belongs without special description.

図3は、コンピュータの構成を示す図である。コンピュータにはメインCPU6及び並列コンピューティング用のVLSI回路1が備えられ、これらはインタフェース回路7によって結ばれている。ここで、VLSI回路1は、1つのVLSIであっても、上述のように複数のVLSIを結合したものであってもよい。   FIG. 3 is a diagram illustrating the configuration of the computer. The computer includes a main CPU 6 and a VLSI circuit 1 for parallel computing, which are connected by an interface circuit 7. Here, the VLSI circuit 1 may be a single VLSI or a combination of a plurality of VLSIs as described above.

インタフェース回路7は、データストレージと同様に、メインCPU6にとっては1つの入出力デバイスとして取り扱うことができる。何らかのデータを与え、何らかのデータを受け取るものだからである。   The interface circuit 7 can be handled as one input / output device for the main CPU 6 as in the case of data storage. This is because some data is given and some data is received.

インタフェース回路7は、メインCPU6からデータ(プログラムの指示を含む)を受け取り、VLSI回路1に並列コンピューティングを行わせ、その計算結果をメインCPU6に返す。このためには、データをストアするIF−メモリと、VLSI回路1の動作を制御するIF−CPUとを備えている。メインCPU6から受け取るプログラムの指示に従って、VLSI回路1の各々のPEにデータを与え、計算を指示する。   The interface circuit 7 receives data (including program instructions) from the main CPU 6, causes the VLSI circuit 1 to perform parallel computing, and returns the calculation result to the main CPU 6. For this purpose, an IF-memory for storing data and an IF-CPU for controlling the operation of the VLSI circuit 1 are provided. In accordance with the instructions of the program received from the main CPU 6, data is given to each PE of the VLSI circuit 1 to instruct calculation.

以上、並列コンピューティングを行うことのできるコンピュータを説明した。次いで、かかるコンピュータによって実行させるラジオシティの計算について説明する。   The computer that can perform parallel computing has been described above. Next, calculation of radiosity executed by the computer will be described.

ラジオシティの計算は、画像を求める計算であり、従来のレイトレーシング(光路追跡)と異なり、個々の光線を追跡せずに物体の表面を表す小平面における反射を他の小平面との関係で計算することが特徴である。   The calculation of radiosity is a calculation to obtain an image. Unlike conventional ray tracing, the reflection on the small plane that represents the surface of the object without tracking individual rays is related to other small planes. It is characteristic to calculate.

x番目の小平面の反射率をR、x番目の小平面とy番目の小平面との角関係(x番目の小平面で反射された光がy番目の小平面に到達する割合)をFxy、x番目の小平面から放射される光エネルギーをB、初期の放射光エネルギーをEとするとき、以下の式が成立する。なお、R及びFxyが色相によって相違するとして色相ごとに計算してもよい。
ここで、Rは物体表面の材質によって定まる定数であり、Eは初期の放射光(光源)によって定まる定数である。Fxy及びBを計算することがラジオシティの計算の中心となる。
The reflectance of the xth facet is R x , and the angular relationship between the xth facet and the yth facet (the rate at which the light reflected by the xth facet reaches the yth facet). When F xy , the light energy radiated from the xth small plane is B x , and the initial radiated light energy is E x , the following equation is established. Note that R x and F xy may be calculated for each hue on the assumption that they differ depending on the hue.
Here, R x is a constant determined by the material of the object surface, and E x is a constant determined by the initial radiation light (light source). The calculation of F xy and B x is central to the calculation of radiosity.

図4は、ラジオシティの計算手順を示す図である。先にFxyを求め、その後にBを求める。ここで、Fxyを求めるステップ8a及びB求めるステップ8bに、並列化計算が有効である。 FIG. 4 is a diagram showing a radiosity calculation procedure. First, F xy is obtained, and then B x is obtained. Here, the parallel calculation is effective in the step 8a for obtaining F xy and the step 8b for obtaining B x .

xyは、x番目の小平面とy番目の小平面との角関係によるので、x番目の小平面とy番目の小平面に関する情報のみに基づいて計算できる。すなわち、小平面の数をpとするときp(p−1)/2個のFxyの値を計算するが、それぞれを独立に並列計算できる。mn個のPEを備えた並列コンピューティングシステムによれば、計算時間が(1/mn)になることが期待される。 Since F xy depends on the angular relationship between the xth facet and the yth facet , F xy can be calculated based only on information about the xth facet and the yth facet. That is, when the number of small planes is p, p (p−1) / 2 F xy values are calculated, but they can be independently calculated in parallel. According to the parallel computing system including m 2 n PEs, the calculation time is expected to be (1 / m 2 n).

の計算は、上記数1に基づいて(右辺の計算結果を左辺に代入して)逐次計算する方法と、上記数1を線形連立方程式として逆行列計算によって解く方法とがある。 The calculation of B x includes a method of sequentially calculating based on the above equation 1 (substituting the calculation result of the right side into the left side) and a method of solving the above equation 1 by linear matrix equations by inverse matrix calculation.

逐次計算の場合には、各々のxに対するBを他のxに対するものとは独立に計算できる。並列化計算が有効である。 In the case of sequential computation, B x for each x can be computed independently of those for the other x. Parallel calculation is effective.

逆行列計算の場合には、非特許文献1に記載された方法によって、並列化計算を有効に活用できる。ここで、Fxyの値は多くが非ゼロであり、逆行列計算の対象となる行列が密であるため、並列化計算の効果が大きい。 In the case of inverse matrix calculation, parallelized calculation can be effectively utilized by the method described in Non-Patent Document 1. Here, most of the values of F xy are non-zero, and the matrix to be subjected to inverse matrix calculation is dense, so that the effect of parallel calculation is great.

以上のとおり、m個のPEを持つHXNetのVLSI回路1を任意の数だけ用いることのできる、スケーラビリティを持った並列コンピューティングシステムが実現された。また、この並列コンピューティングシステムを活用したコンピュータシステム及びそのコンピュータシステムにおいて実行されるラジオシティの計算を示した。携帯端末等における並列コンピューティングシステムの活用を実現したものである。 As described above, a scalable parallel computing system that can use an arbitrary number of HXNet VLSI circuits 1 having m 2 PEs has been realized. In addition, a computer system utilizing this parallel computing system and calculation of radiosity executed in the computer system are shown. This realizes the use of a parallel computing system in portable terminals and the like.

本発明の並列コンピューティングシステムは、スケーラビリティを有するので、小型の携帯端末装置に用いることも(この場合にはmの小さなVLSI回路を用いる。)、大型の計算機に用いることも(この場合にはm、nの大きなVLSI回路を用いる。)、ゲーム機その他の機器に用いることもできるものである。   Since the parallel computing system of the present invention has scalability, it can be used for a small portable terminal device (in this case, a VLSI circuit having a small m) or a large computer (in this case). VLSI circuits with large m and n are used.), and can also be used for game machines and other devices.

任意のPE間のデータ転送が可能でありスケーラビリティを持った並列コンピューティングシステム、及びかかる並列コンピューティングシステムを活用するコンピュータシステムである。多くの携帯端末製造業者、コンピュータメーカによる利用が期待される。   A parallel computing system capable of transferring data between arbitrary PEs and having scalability, and a computer system utilizing such a parallel computing system. Expected to be used by many mobile terminal manufacturers and computer manufacturers.

また、ラジオシティの計算を携帯端末等においても実現するものであり、多くのソフトウェア開発業者による利用も期待される。   In addition, the calculation of radiosity is also realized in portable terminals and the like, and it is expected to be used by many software developers.

1…VLSI回路
2…HXNet
3…PE
4…追加BM
5…バス
6…メインCPU
7…インタフェース回路
8…並列化ステップ
1 ... VLSI circuit 2 ... HXNet
3 ... PE
4 ... Additional BM
5 ... Bus 6 ... Main CPU
7 ... Interface circuit 8 ... Parallelization step

Claims (6)

個のPE及びm個のBMを含むHXNetと、
(n−1)個の追加BMを実装し、
前記m及びnは2以上の整数であることを特徴とする、VLSI回路。
HXNet containing m 2 PEs and m 3 BMs;
implement m 2 (n−1) additional BMs,
The VLSI circuit, wherein m and n are integers of 2 or more .
個のPE及びm 個のBMを含むHXNetとm (n−1)個の追加BMを実装したVLSI回路をn個含み、
前記m及びnは2以上の整数であり、
各VLSI回路において、前記追加BMは、前記HXNet中の 個のPEの各々から書込可能な(n−1)個の追加BMをm組備え、
前記追加BMのm 組は順序付けされ、i組目の追加BMに書込可能なPEをi番目のPE(iは1以上m 以下の整数)と表すものとし、
前記(n−1)個の追加BM(1組の追加BM)は順序付けされ、
j番目の順序のVLSI回路のi組目の追加BMの組のk番目の順序の追加BMがk番目の順序(k<jの場合)又は(k+1)番目の順序(k≧jの場合)のVLSI回路のi番目のPEによって読取可能であることを特徴とする、並列コンピューティングシステム。
Including n VLSI circuits mounted with HXNet including m 2 PEs and m 3 BMs and m 2 (n−1) additional BMs ,
M and n are integers of 2 or more;
In each VLSI circuit, the additional BM includes m 2 sets of (n−1) additional BMs writable from each of the m 2 PEs in the HXNet,
The m 2 sets of the additional BM are ordered, and a PE that can be written to the i-th additional BM is represented as an i-th PE (i is an integer of 1 to m 2 ),
The (n-1) additional BMs (a set of additional BMs) are ordered,
The kth order additional BM of the i-th set BM of the jth order VLSI circuit is the kth order (when k <j) or the (k + 1) th order (when k ≧ j). The parallel computing system is readable by the i-th PE of the VLSI circuit.
k番目の順序のVLSI回路のi番目のPEをPE(k,i)と表すとき、PE(k,i)からPE(k,i)へのデータ転送が、
(1)k=kであればk番目のVLSI回路内のHXNetによって実行され、
(2)k≠kかつi=iであればPE(k,i)が所定の追加BMにデータを書き込み、該データをPE(k,i)が読取ることによって実行され、
(3)k≠kかつi≠iであればPE(k,i)が所定の追加BMにデータを書き込み、該データをPE(k,i)が読取り、k番目のVLSI回路内のHXNetによりPE(k,i)に転送されることによって実行されることを特徴とする、請求項2に記載の並列コンピューティングシステム。
When the i-th PE of the k-th order VLSI circuit is represented as PE (k, i), the data transfer from PE (k 1 , i 1 ) to PE (k 2 , i 2 )
(1) If k 1 = k 2 , k is executed by the HXNet in the first VLSI circuit,
(2) If k 1 ≠ k 2 and i 1 = i 2 , PE (k 1 , i 1 ) writes data to a predetermined additional BM, and PE (k 2 , i 1 ) reads the data. Executed,
(3) If k 1 ≠ k 2 and i 1 ≠ i 2 , PE (k 1 , i 1 ) writes data to a predetermined additional BM, and the data is read by PE (k 2 , i 1 ), k 3. The parallel computing system according to claim 2, wherein the parallel computing system is executed by being transferred to PE (k 2 , i 2 ) by HXNet in the second VLSI circuit.
本体CPUと、請求項3に記載の並列コンピューティングシステムと、前記本体CPUと前記並列コンピューティングシステムとのインタフェース回路とを備えることを特徴とする、コンピュータシステム。   A computer system comprising: a main body CPU; a parallel computing system according to claim 3; and an interface circuit between the main body CPU and the parallel computing system. 前記並列コンピューティングシステムを用いてラジオシティの計算を行うことを特徴とする、請求項4に記載のコンピュータシステム。   The computer system according to claim 4, wherein radiosity is calculated using the parallel computing system. 携帯端末装置上で動作し、
ゲームのアプリケーションおける画像表示にラジオシティの計算を行うことを特徴とする、請求項5に記載のコンピュータシステム。
Runs on a mobile terminal device,
And performing the radiosity calculations image display definitive the game application, the computer system according to claim 5.
JP2013235925A 2013-11-14 2013-11-14 VLSI circuit, parallel computing system and computer system Expired - Fee Related JP5610603B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013235925A JP5610603B1 (en) 2013-11-14 2013-11-14 VLSI circuit, parallel computing system and computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013235925A JP5610603B1 (en) 2013-11-14 2013-11-14 VLSI circuit, parallel computing system and computer system

Publications (2)

Publication Number Publication Date
JP5610603B1 true JP5610603B1 (en) 2014-10-22
JP2015095223A JP2015095223A (en) 2015-05-18

Family

ID=52574627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013235925A Expired - Fee Related JP5610603B1 (en) 2013-11-14 2013-11-14 VLSI circuit, parallel computing system and computer system

Country Status (1)

Country Link
JP (1) JP5610603B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7424836B2 (en) 2020-01-08 2024-01-30 日野自動車株式会社 Vehicle cooling structure

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6014026806; T.NOGI: '"Promising Data Parallel Environment- ADEPS, ADETRAN & ADENA"' Proceedings., First Aizu International Symposium on Parallel Algorithms/Architecture Synthesis, 1995 , 19950317, pages:45-53, IEEE *
JPN7014001943; H.KADOTA et al.: '"Parallel Computer ADENART - Its Architecture and Application -"' ICS '91 Proceedings of the 5th international conference on Supercomputing , 1991, pages:1-8, ACM *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7424836B2 (en) 2020-01-08 2024-01-30 日野自動車株式会社 Vehicle cooling structure

Also Published As

Publication number Publication date
JP2015095223A (en) 2015-05-18

Similar Documents

Publication Publication Date Title
US10762620B2 (en) Deep-learning method for separating reflection and transmission images visible at a semi-reflective surface in a computer image of a real-world scene
CN110766778B (en) Method and system for performing parallel path spatial filtering using hashing
CN110392902A (en) Use the operation of sparse volume data
CN111143174A (en) Optimal operating point estimator for hardware operating under shared power/thermal constraints
US11463272B2 (en) Scalable in-network computation for massively-parallel shared-memory processors
US11470394B2 (en) Scalable light-weight protocols for wire-speed packet ordering
CN111210498A (en) Reducing the level of detail of a polygon mesh to reduce the complexity of rendered geometry
US8169439B2 (en) Scalar precision float implementation on the “W” lane of vector unit
CN111667542B (en) Decompression technique for processing compressed data suitable for artificial neural network
US11275662B2 (en) Fault injection architecture for resilient GPU computing
US11556450B2 (en) Hybrid data-model parallelism for efficient deep learning
CN114118354A (en) Efficient SOFTMAX computation
CN112288619A (en) Techniques for preloading textures when rendering graphics
CN110807827A (en) System generation of stable barycentric coordinates and direct plane equation access
EP3678037A1 (en) Neural network generator
CN110675480A (en) Method and device for acquiring sampling position of texture operation
CN100573578C (en) Method, controller and system that the instruction of handling image is handled
JP5610603B1 (en) VLSI circuit, parallel computing system and computer system
CN112041894A (en) Improving realism of scenes involving water surface during rendering
CN113822975A (en) Techniques for efficient sampling of images
US20090106525A1 (en) Design structure for scalar precision float implementation on the &#34;w&#34; lane of vector unit
CN113808183B (en) Composite estimation product integration using warping
Nandapalan et al. Implementation of 3D FFTs across multiple GPUs in shared memory environments
JP7387017B2 (en) Address generation method and unit, deep learning processor, chip, electronic equipment and computer program
CN116108952A (en) Parallel processing for combinatorial optimization

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140830

R150 Certificate of patent or registration of utility model

Ref document number: 5610603

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees