JP4942095B2 - マルチコア・プロセッサにより演算を行う技術 - Google Patents
マルチコア・プロセッサにより演算を行う技術 Download PDFInfo
- Publication number
- JP4942095B2 JP4942095B2 JP2007014943A JP2007014943A JP4942095B2 JP 4942095 B2 JP4942095 B2 JP 4942095B2 JP 2007014943 A JP2007014943 A JP 2007014943A JP 2007014943 A JP2007014943 A JP 2007014943A JP 4942095 B2 JP4942095 B2 JP 4942095B2
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- elements
- read
- vector
- storage area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005516 engineering process Methods 0.000 title description 2
- 239000011159 matrix material Substances 0.000 claims description 313
- 230000015654 memory Effects 0.000 claims description 192
- 239000013598 vector Substances 0.000 claims description 126
- 238000003860 storage Methods 0.000 claims description 113
- 238000004364 calculation method Methods 0.000 claims description 105
- 238000012545 processing Methods 0.000 claims description 100
- 238000000034 method Methods 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 35
- 230000010365 information processing Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 238000002939 conjugate gradient method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Complex Calculations (AREA)
Description
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
第2から第Nのプロセッシング・エレメントであるプロセッシング・エレメント410−2〜Nについても、プロセッシング・エレメント410−1と同様、第2から第Nプロセッサ420−2〜N、第2から第Nの局所メモリ430−2〜Nおよび第2から第NのDMAコントローラ440−2〜Nをそれぞれ有し、プロセッサ420−1、局所メモリ430−1およびDMAコントローラ440−1と略同一であるから説明を省略する。
これに対し、本実施形態に係る演算システム10によれば、アクセス位置の予測が困難なベクトルを予め分割して、その一部ずつを複数の局所メモリ430に記憶しておく。そして、逐次的にアクセスされる行列についてはシステムメモリ20からストリーム的に読み出すことで、局所メモリ430の必要容量を削減しつつも演算処理を効率化できる。以下、具体的に説明してゆく。
図6は、本実施形態の変形例に係るマルチコア・プロセッサ40の機能構成を示す。マルチコア・プロセッサ40は、図4の構成に加えて、さらに、プロセッサ450の制御によって動作する分類部458と、プロセッサ420−1の制御によって動作する出力部428−1とを有する。分類部458は、システムメモリ20に記憶された配置行列26を走査して、行列22の各行を、第1から第3分類に分類する。第1分類は、第1部分ベクトルおよび第2部分ベクトルの何れに含まれる要素との間でも乗算するべき非ゼロ要素を含む行を示す。第2分類は、第1分類以外の行のうち、第1部分ベクトルに含まれる要素との間で乗算するべき非ゼロ要素を含む行を示す。第3分類は、第1分類以外の行のうち、第2部分ベクトルに含まれる要素との間で乗算するべき非ゼロ要素を含む行を示す。そして、分類部458は、分類毎に行が連続するように行の配列順序をシステムメモリ20において並べ替える。
20 システムメモリ
22 行列
24 要素行列
26 配置行列
28 ベクトル
30 演算プログラム
40 マルチコア・プロセッサ
45 オンチップ・バス
400 制御用エレメント
410 プロセッシング・エレメント
420 プロセッサ
422 第1読出部
424 第1演算部
425 第2読出部
426 第2演算部
428 出力部
430 局所メモリ
432 第1記憶領域
434 第2記憶領域
436 第3記憶領域
438 ベクトル記憶領域
440 DMAコントローラ
450 プロセッサ
455 初期化処理部
458 分類部
460 キャッシュメモリ
1100 情報処理装置
Claims (8)
- システムメモリと、プロセッサおよび局所メモリを有するプロセッシング・エレメントを複数有するマルチコア・プロセッサとを備え、入力した行列およびベクトルの積を算出するシステムであって、
前記システムメモリは、入力した前記行列の非ゼロ要素を配列した要素行列、および、入力した前記行列の非ゼロ要素の位置を示す配置行列を記憶しており、
第1の前記プロセッシング・エレメントに含まれる第1の局所メモリは、入力した前記ベクトルの一部である第1部分ベクトルを記憶しており、
第2の前記プロセッシング・エレメントに含まれる第2の局所メモリは、入力した前記ベクトルの他の一部である第2部分ベクトルを記憶しており、
前記システムメモリに記憶された前記要素行列および前記配置行列のそれぞれから、行列要素の一部ずつを順次読み出して、既に読み出した行列要素に代えて前記第1の局所メモリに格納する第1読出部と、
前記第1読出部により行列要素の一部が読み出される毎に、前記第1部分ベクトルのうち、前記配置行列から読み出された各行列要素が示す非ゼロ要素の位置に対応する要素を、前記要素行列から読み出された各非ゼロ要素に乗じる演算を、前記第1のプロセッシング・エレメントに含まれる第1プロセッサの動作により行う第1演算部と、
前記第1演算部により演算が行われる毎に、前記第1の局所メモリから前記要素行列および前記配置行列の一部の行列要素を読み出して、既に読み出した行列要素に代えて前記第2の局所メモリに格納する第2読出部と、
前記第2読出部により行列要素の一部が読み出される毎に、前記第2部分ベクトルのうち、前記配置行列から読み出された各行列要素が示す非ゼロ要素の位置に対応する要素を、前記要素行列から読み出された各非ゼロ要素に乗じる演算を、前記第2のプロセッシング・エレメントに含まれる第2プロセッサの動作により行う第2演算部と、
前記第2プロセッサの動作により、前記第1演算部および前記第2演算部による演算結果に基づいて、入力した前記行列および前記ベクトルの積を示すベクトルの各要素を生成して前記システムメモリに格納する出力部と
を備えるシステム。 - 前記第1の局所メモリおよび前記第2の局所メモリのそれぞれは、読み出した行列要素を記憶するための第1記憶領域と、演算に用いている行列要素を記憶するための第2記憶領域と、既に演算に用いられた行列要素を記憶するための第3記憶領域とを有し、
前記第1読出部は、行列要素の一部ずつを前記システムメモリから順次読み出して、既に前記第1記憶領域に記憶された行列要素に代えて前記第1記憶領域に記憶し、
前記第1演算部は、前記第1記憶領域から行列要素を読み出して前記第2記憶領域に格納して、前記第1読出部が次の演算のために行列要素の他の一部を前記第1記憶領域に読み出す処理と並列に、前記第2記憶領域に格納した行列要素を用いて演算を行い、演算の完了を条件に、前記第2記憶領域から行列要素を読み出して第3記憶領域に格納し、
前記第2読出部は、前記第1演算部による次の演算処理と並列に、前記第1の局所メモリの前記第3記憶領域から一部の行列要素を読み出して、既に前記第2の局所メモリの前記第1記憶領域に記憶された行列要素に代えて当該第1記憶領域に格納し、
前記第2演算部は、前記第2の局所メモリの前記第1記憶領域から行列要素を読み出して前記第2記憶領域に格納して、前記第2読出部が次の演算のために行列要素を読み出す処理と並列に、当該第2記憶領域に格納した行列要素を用いて演算を行う
請求項1に記載のシステム。 - 前記第1演算部は、前記第1部分ベクトルの要素と前記要素行列の各非ゼロ要素との積の合計値をさらに算出し、算出した当該合計値をさらに前記第3記憶領域に格納し、
前記第2読出部は、前記第1の局所メモリの前記第3記憶領域からさらに当該合計値を読み出して、既に前記第2の局所メモリの前記第1記憶領域に記憶された合計値に代えて当該第1記憶領域に格納し、
前記第2演算部は、前記第2の局所メモリの前記第1記憶領域に記憶された当該合計値を読み出して前記第2の記憶領域に格納し、前記第2の部分ベクトルの要素と前記要素行列の各非ゼロ要素との積の合計値をさらに算出し、算出した当該合計値を、当該第2記憶領域に格納した合計値に加算して、前記第2の局所メモリの前記第3記憶領域に格納し、
前記出力部は、前記第2の局所メモリの前記第3記憶領域から合計値を読み出して、入力した前記行列および前記ベクトルの積を示すベクトルの各要素として前記システムメモリに格納する
請求項2に記載のシステム。 - 前記第2演算部は、前記第1演算部による前記第1の部分ベクトルの要素と前記要素行列の一部の要素とを乗じる演算と並行に、前記第2の部分ベクトルの要素と前記要素行列の他の一部の要素とを乗じる演算を行う
請求項1に記載のシステム。 - 当該システムは、入力した前記行列に入力した前記ベクトルを右から乗じた積を算出するシステムであり、
前記要素行列は、入力した前記行列のそれぞれの行について、当該行に含まれる非ゼロ要素のそれぞれを要素とする行ベクトルを生成して配列したものであり、
前記配置行列は、入力した前記行列のそれぞれの行について、当該行におけるそれぞれの非ゼロ要素の位置を示す値を要素とする行ベクトルを生成して配列したものであり、
前記システムメモリに記憶された前記配置行列を走査して、入力した前記行列の各行を、前記第1部分ベクトルおよび前記第2部分ベクトルの何れに含まれる要素との間で乗算するべき非ゼロ要素を含む第1分類、前記第1部分ベクトルに含まれる要素との間で乗算するべき非ゼロ要素を含む第2分類、および、前記第2部分ベクトルに含まれる要素との間で乗算するべき非ゼロ要素を含む第3分類に分類する分類部と、
前記第1読出部は、前記システムメモリに記憶された前記要素行列および前記配置行列のうち前記第1分類又は前記第2分類の行に対応する行の中から、予め定められた行数の行ごとに順次行列要素を読み出し、
前記第2読出部は、前記第1の局所メモリから前記要素行列および前記配置行列のうち前記第1分類の行に対応する行の行列要素を読み出し、さらに、前記システムメモリに記憶された前記要素行列および前記配置行列のうち前記第3分類の行に対応する行の行列要素を読み出し、
前記出力部は、前記第1分類の行について前記第1および第2演算部により演算された演算結果、前記第2分類の行について前記第1演算部により演算された演算結果、および、前記第3分類の行について前記第2演算部により演算された演算結果に基づいて、積を示すベクトルの各要素を生成して前記システムメモリに格納する
請求項1に記載のシステム。 - 各々の前記プロセッシング・エレメントは、
前記プロセッサと、
前記プロセッサに接続され、前記システムメモリと比較して当該プロセッサから高速にアクセスされる前記局所メモリと、
マルチコア・プロセッサの外部に接続される前記システムメモリと前記局所メモリとの間、および、当該局所メモリと他のプロセッシング・エレメントに含まれる他の局所メモリとの間で命令コード又はデータを転送するDMAコントローラと
を有し、
前記第1読出部は、前記第1のプロセッシング・エレメントに含まれる第1の前記DMAコントローラに指示して、前記システムメモリから行列要素を読み出して前記第1の局所メモリに格納し、
前記第1演算部は、プログラムの制御を受けた前記第1プロセッサの動作により、前記第1の局所メモリに記憶された行列要素を用いて演算を行い、
前記第2読出部は、前記第1のDMAコントローラ、および、前記第2のプロセッサ・エレメントに含まれる第2の前記DMAコントローラに指示して、前記第1の局所メモリから行列要素を読み出して前記第2の局所メモリに格納し、
前記第2演算部は、プログラムの制御を受けた前記第2プロセッサの動作により、前記第2の局所メモリに記憶された行列要素を用いて演算を行う
請求項1に記載のシステム。 - システムメモリと、プロセッサおよび局所メモリを有するプロセッシング・エレメントを複数有するマルチコア・プロセッサとを備えたシステムによって、入力した行列およびベクトルの積を算出する方法であって、
前記システムメモリは、入力した前記行列の非ゼロ要素を配列した要素行列、および、入力した前記行列の非ゼロ要素の位置を示す配置行列を記憶しており、
第1の前記プロセッシング・エレメントに含まれる第1の局所メモリは、入力した前記ベクトルの一部である第1部分ベクトルを記憶しており、
第2の前記プロセッシング・エレメントに含まれる第2の局所メモリは、入力した前記ベクトルの他の一部である第2部分ベクトルを記憶しており、
前記システムメモリに記憶された前記要素行列および前記配置行列のそれぞれから、行列要素の一部ずつを順次読み出して、既に読み出した行列要素に代えて前記第1の局所メモリに格納する第1読出段階と、
前記第1読出段階において行列要素の一部が読み出される毎に、前記第1部分ベクトルのうち、前記配置行列から読み出された各行列要素が示す非ゼロ要素の位置に対応する要素を、前記要素行列から読み出された各非ゼロ要素に乗じる演算を、前記第1のプロセッシング・エレメントに含まれる第1プロセッサの動作により行う第1演算段階と、
前記第1演算段階において演算が行われる毎に、前記第1の局所メモリから前記要素行列および前記配置行列の一部の行列要素を読み出して、既に読み出した行列要素に代えて前記第2の局所メモリに格納する第2読出段階と、
前記第2読出段階において行列要素の一部が読み出される毎に、前記第2部分ベクトルのうち、前記配置行列から読み出された各行列要素が示す非ゼロ要素の位置に対応する要素を、前記要素行列から読み出された各非ゼロ要素に乗じる演算を、前記第2のプロセッシング・エレメントに含まれる第2プロセッサの動作により行う第2演算段階と、
前記第2プロセッサの動作により、前記第1演算段階および前記第2演算段階における演算結果に基づいて、入力した前記行列および前記ベクトルの積を示すベクトルの各要素を生成して前記システムメモリに格納する出力段階と
を備える方法。 - システムメモリと、プロセッサおよび局所メモリを有するプロセッシング・エレメントを複数有するマルチコア・プロセッサとを備え、入力した行列およびベクトルの積を算出するシステムとして、情報処理装置を機能させるプログラムであって、
前記システムメモリは、入力した前記行列の非ゼロ要素を配列した要素行列、および、入力した前記行列の非ゼロ要素の位置を示す配置行列を記憶しており、
第1の前記プロセッシング・エレメントに含まれる第1の局所メモリは、入力した前記ベクトルの一部である第1部分ベクトルを記憶しており、
第2の前記プロセッシング・エレメントに含まれる第2の局所メモリは、入力した前記ベクトルの他の一部である第2部分ベクトルを記憶しており、
前記情報処理装置を、
前記システムメモリに記憶された前記要素行列および前記配置行列のそれぞれから、行列要素の一部ずつを順次読み出して、既に読み出した行列要素に代えて前記第1の局所メモリに格納する第1読出部と、
前記第1読出部により行列要素の一部が読み出される毎に、前記第1部分ベクトルのうち、前記配置行列から読み出された各行列要素が示す非ゼロ要素の位置に対応する要素を、前記要素行列から読み出された各非ゼロ要素に乗じる演算を、前記第1のプロセッシング・エレメントに含まれる第1プロセッサの動作により行う第1演算部と、
前記第1演算部により演算が行われる毎に、前記第1の局所メモリから前記要素行列および前記配置行列の一部の行列要素を読み出して、既に読み出した行列要素に代えて前記第2の局所メモリに格納する第2読出部と、
前記第2読出部により行列要素の一部が読み出される毎に、前記第2部分ベクトルのうち、前記配置行列から読み出された各行列要素が示す非ゼロ要素の位置に対応する要素を、前記要素行列から読み出された各非ゼロ要素に乗じる演算を、前記第2のプロセッシング・エレメントに含まれる第2プロセッサの動作により行う第2演算部と、
前記第2プロセッサの動作により、前記第1演算部および前記第2演算部による演算結果に基づいて、入力した前記行列および前記ベクトルの積を示すベクトルの各要素を生成して前記システムメモリに格納する出力部と
して機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007014943A JP4942095B2 (ja) | 2007-01-25 | 2007-01-25 | マルチコア・プロセッサにより演算を行う技術 |
US11/945,328 US8200735B2 (en) | 2007-01-25 | 2007-11-27 | Multi-core processor for performing matrix operations |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007014943A JP4942095B2 (ja) | 2007-01-25 | 2007-01-25 | マルチコア・プロセッサにより演算を行う技術 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008181386A JP2008181386A (ja) | 2008-08-07 |
JP4942095B2 true JP4942095B2 (ja) | 2012-05-30 |
Family
ID=39669162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007014943A Expired - Fee Related JP4942095B2 (ja) | 2007-01-25 | 2007-01-25 | マルチコア・プロセッサにより演算を行う技術 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8200735B2 (ja) |
JP (1) | JP4942095B2 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008105494A1 (ja) * | 2007-02-28 | 2008-09-04 | Nec Corporation | Dma転送装置及び方法 |
US8102884B2 (en) * | 2008-10-15 | 2012-01-24 | International Business Machines Corporation | Direct inter-thread communication buffer that supports software controlled arbitrary vector operand selection in a densely threaded network on a chip |
JP2010108204A (ja) * | 2008-10-30 | 2010-05-13 | Hitachi Ltd | マルチチッププロセッサ |
JP2010122850A (ja) * | 2008-11-19 | 2010-06-03 | Muroran Institute Of Technology | 行列方程式計算装置および行列方程式計算方法 |
US8577949B2 (en) * | 2009-07-07 | 2013-11-05 | L-3 Communications Integrated Systems, L.P. | System for conjugate gradient linear iterative solvers |
CN102446159B (zh) * | 2010-10-12 | 2013-09-18 | 无锡江南计算技术研究所 | 多核处理器的数据管理方法及装置 |
CN102541814B (zh) * | 2010-12-27 | 2015-10-14 | 北京国睿中数科技股份有限公司 | 用于数据通信处理器的矩阵计算装置和方法 |
US20130227243A1 (en) * | 2012-02-23 | 2013-08-29 | Freescale Semiconductor, Inc | Inter-partition communication in multi-core processor |
JP2014002484A (ja) * | 2012-06-15 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | ベクトル演算装置及び方法及びプログラム |
JP6083300B2 (ja) * | 2013-03-29 | 2017-02-22 | 富士通株式会社 | プログラム、並列演算方法および情報処理装置 |
US11249759B2 (en) * | 2013-07-15 | 2022-02-15 | Texas Instruments Incorporated | Two-dimensional zero padding in a stream of matrix elements |
US11256508B2 (en) * | 2013-07-15 | 2022-02-22 | Texas Instruments Incorporated | Inserting null vectors into a stream of vectors |
US11231929B2 (en) * | 2013-07-15 | 2022-01-25 | Texas Instruments Incorporated | One-dimensional zero padding in a stream of matrix elements |
JP2015176245A (ja) | 2014-03-13 | 2015-10-05 | 株式会社東芝 | 情報処理装置及びデータ構造 |
JP2016057763A (ja) | 2014-09-08 | 2016-04-21 | 株式会社東芝 | キャッシュ装置、及びプロセッサ |
US9684602B2 (en) | 2015-03-11 | 2017-06-20 | Kabushiki Kaisha Toshiba | Memory access control device, cache memory and semiconductor device |
US10310826B2 (en) | 2015-11-19 | 2019-06-04 | Intel Corporation | Technologies for automatic reordering of sparse matrices |
JP6534492B2 (ja) * | 2016-03-24 | 2019-06-26 | 富士フイルム株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
JP6786948B2 (ja) | 2016-08-12 | 2020-11-18 | 富士通株式会社 | 演算処理装置及び演算処理装置の制御方法 |
DE102018110607A1 (de) | 2017-05-08 | 2018-11-08 | Nvidia Corporation | Verallgemeinerte Beschleunigung von Matrix-Multiplikations-und-Akkumulations-Operationen |
US10338919B2 (en) | 2017-05-08 | 2019-07-02 | Nvidia Corporation | Generalized acceleration of matrix multiply accumulate operations |
EP3651031A1 (en) * | 2017-08-31 | 2020-05-13 | Cambricon Technologies Corporation Limited | Chip device and related products |
JP6869360B2 (ja) | 2017-09-15 | 2021-05-12 | 富士フイルムビジネスイノベーション株式会社 | 画像処理装置、画像処理方法、及び画像処理プログラム |
US11379556B2 (en) * | 2019-05-21 | 2022-07-05 | Arm Limited | Apparatus and method for matrix operations |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5136538A (en) * | 1987-09-04 | 1992-08-04 | At&T Bell Laboratories | Preconditioned conjugate gradient system |
US5267185A (en) * | 1989-04-14 | 1993-11-30 | Sharp Kabushiki Kaisha | Apparatus for calculating matrices |
US5206822A (en) * | 1991-11-15 | 1993-04-27 | Regents Of The University Of California | Method and apparatus for optimized processing of sparse matrices |
US5905666A (en) * | 1995-01-03 | 1999-05-18 | International Business Machines Corporation | Processing system and method for performing sparse matrix multiplication by reordering vector blocks |
JP3391262B2 (ja) * | 1998-05-11 | 2003-03-31 | 日本電気株式会社 | 記号計算システム及び方法、並びに並列回路シミュレーションシステム |
US6243734B1 (en) * | 1998-10-30 | 2001-06-05 | Intel Corporation | Computer product and method for sparse matrices |
JP2006085619A (ja) * | 2004-09-17 | 2006-03-30 | Fujitsu Ltd | 帯係数行列を持つ連立1次方程式の解法プログラム |
-
2007
- 2007-01-25 JP JP2007014943A patent/JP4942095B2/ja not_active Expired - Fee Related
- 2007-11-27 US US11/945,328 patent/US8200735B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080183792A1 (en) | 2008-07-31 |
JP2008181386A (ja) | 2008-08-07 |
US8200735B2 (en) | 2012-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4942095B2 (ja) | マルチコア・プロセッサにより演算を行う技術 | |
KR102659997B1 (ko) | 저전력 컨볼루션 신경망 추론 애플리케이션을 위한 메모리 대역폭 감소 기술 | |
Ji et al. | ReCom: An efficient resistive accelerator for compressed deep neural networks | |
Zhang et al. | BoostGCN: A framework for optimizing GCN inference on FPGA | |
US20190220731A1 (en) | Indirectly accessing sample data to perform multi-convolution operations in a parallel processing system | |
US8400458B2 (en) | Method and system for blocking data on a GPU | |
US11900253B2 (en) | Tiling format for convolutional neural networks | |
US11640444B2 (en) | Device and method for accelerating matrix multiply operations | |
WO2022007265A1 (zh) | 一种膨胀卷积加速计算方法及装置 | |
KR20220038579A (ko) | 데이터 처리 | |
CN109522127B (zh) | 一种基于gpu的流体机械仿真程序异构加速方法 | |
JP2023519565A (ja) | 機械学習ジョブ中の改善されたメモリ圧縮転送のためのスパース性に基づく特徴の再順序付け | |
CN113469354A (zh) | 受存储器限制的神经网络训练 | |
Nakano | Optimal parallel algorithms for computing the sum, the prefix-sums, and the summed area table on the memory machine models | |
CN100377118C (zh) | 基于sram的嵌入式文件系统的实现方法 | |
CN116401502A (zh) | 一种基于NUMA系统特性优化Winograd卷积的方法及装置 | |
Kim et al. | Reducing tail latency of DNN-based recommender systems using in-storage processing | |
JP2023519564A (ja) | 機械学習ジョブ中にメモリ圧縮転送を改善するための類似性に基づく特徴の並べ替え | |
US20230004385A1 (en) | Accelerated processing device and method of sharing data for machine learning | |
Feng et al. | Accelerating Smith-Waterman alignment of species-based protein sequences on GPU | |
US12124531B2 (en) | Device and method for accelerating matrix multiply operations | |
Kim et al. | Towards scalable analytics with inference-enabled solid-state drives | |
CN111652346A (zh) | 一种基于分层优化范式的大规模图深度学习计算框架 | |
US20230244608A1 (en) | Computer-readable recording medium having stored therein cross validation program, method for cross validation, and information processing apparatus | |
US12033275B2 (en) | System and methods for efficient execution of a collaborative task in a shader system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20120208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120224 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |