JP7194824B2 - 不可逆スパースロードsimd命令ファミリ - Google Patents
不可逆スパースロードsimd命令ファミリ Download PDFInfo
- Publication number
- JP7194824B2 JP7194824B2 JP2021521289A JP2021521289A JP7194824B2 JP 7194824 B2 JP7194824 B2 JP 7194824B2 JP 2021521289 A JP2021521289 A JP 2021521289A JP 2021521289 A JP2021521289 A JP 2021521289A JP 7194824 B2 JP7194824 B2 JP 7194824B2
- Authority
- JP
- Japan
- Prior art keywords
- input vector
- vector operands
- threshold
- zero
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002427 irreversible effect Effects 0.000 title claims description 27
- 239000013598 vector Substances 0.000 claims description 105
- 238000013528 artificial neural network Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 41
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 230000004913 activation Effects 0.000 description 7
- 238000001994 activation Methods 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/3001—Arithmetic instructions
- G06F9/30014—Arithmetic instructions with variable precision
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30036—Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30145—Instruction analysis, e.g. decoding, instruction word fields
- G06F9/3016—Decoding the operand specifier, e.g. specifier format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30181—Instruction operation extension or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3887—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3888—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple threads [SIMT] in parallel
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Neurology (AREA)
- Advance Control (AREA)
- Executing Machine-Instructions (AREA)
- Complex Calculations (AREA)
Description
新たな技術分野は、機械学習モデルの1つのタイプであるニューラルネットワークによる機械学習である。ニューラルネットワークは、手書き数字クラス分類及び顔検出等のタスクにおいて優れたパフォーマンスを実証している。また、ニューラルネットワークは、他のより困難な視覚クラス分類タスクにおいて良好に実行する可能性を示している。ニューラルネットワークの他のアプリケーションは、音声認識、言語モデリング、感情分析、テキスト予測等を含む。
Claims (17)
- 複数の処理要素と、
制御ロジックと、を備えるシステムであって、
前記制御ロジックは、
1つ以上の入力ベクトルオペランドに含まれる非ゼロ値の数を決定することと、
前記1つ以上の入力ベクトルオペランド内の非ゼロ値の数が第1閾値以上であると決定したことに応じて、前記1つ以上の入力ベクトルオペランドをベクトルレジスタファイルに提供し、前記1つ以上の入力ベクトルオペランドを前記複数の処理要素によって処理させることと、
前記非ゼロ値の数が前記第1閾値未満であると決定したことに応じて、前記1つ以上の入力ベクトルオペランドを前記ベクトルレジスタファイルに提供することなく前記入力ベクトルオペランドのアドレスへのポインタをインクリメントし、前記複数の処理要素による前記1つ以上の入力ベクトルオペランドの処理をスキップさせることと、
を行うように構成されており、
前記システムは、1つ以上の第1入力ベクトルオペランドを処理し、1つ以上の第2入力ベクトルオペランドの処理をスキップすることによって、所定のアプリケーションを実行するように構成されている、
システム。 - 前記所定のアプリケーションは、第1データセットのクラス分類を生成するニューラルネットワーク実装であり、前記システムは、ニューラルネットワークの1つ以上の層に対する前記1つ以上の第2入力ベクトルオペランドに関連する処理をスキップすることによって、前記ニューラルネットワークを実装する場合の消費電力及び実行時間のうち少なくとも1つを低減するように構成されている、
請求項1のシステム。 - 非ゼロ値は、ゼロに等しくない任意の値、又は、絶対値が少なくとも閾値だけゼロよりも大きい値である、
請求項1のシステム。 - 前記第1閾値及び前記閾値は、プログラム可能である、
請求項3のシステム。 - 前記入力ベクトルオペランドは、行列乗算演算に用いられる、
請求項1のシステム。 - 前記制御ロジックは、所定の入力ベクトルオペランド内の非ゼロ値の数が前記第1閾値未満であると決定したことに応じて、前記所定の入力ベクトルオペランドを処理する命令のプログラムカウンタオフセットをスキップキューに記憶するように構成されている、
請求項1のシステム。 - 複数の処理要素に結合された制御ロジックが、1つ以上の入力ベクトルオペランドに含まれる非ゼロ値の数を決定することと、
前記1つ以上の入力ベクトルオペランド内の非ゼロ値の数が第1閾値以上であると決定したことに応じて、前記1つ以上の入力ベクトルオペランドをベクトルレジスタファイルに提供し、前記1つ以上の入力ベクトルオペランドを前記複数の処理要素によって処理させることと、
前記非ゼロ値の数が前記第1閾値未満であると決定したことに応じて、前記1つ以上の入力ベクトルオペランドを前記ベクトルレジスタファイルに提供することなく前記入力ベクトルオペランドのアドレスへのポインタをストライド値だけインクリメントし、前記複数の処理要素による前記1つ以上の入力ベクトルオペランドの処理をスキップさせることと、
1つ以上の第1入力ベクトルオペランドを処理し、1つ以上の第2入力ベクトルオペランドの処理をスキップすることによって、所定のアプリケーションを実行することと、を含む、
方法。 - 前記所定のアプリケーションは、第1データセットのクラス分類を生成するニューラルネットワーク実装であり、前記方法は、ニューラルネットワークの1つ以上の層に対する前記1つ以上の第2入力ベクトルオペランドに関連する処理をスキップすることによって、前記ニューラルネットワークを実装する場合の消費電力及び実行時間のうち少なくとも1つを低減することを含む、
請求項7の方法。 - 非ゼロ値は、ゼロに等しくない任意の値、又は、絶対値が少なくとも閾値だけゼロよりも大きい値である、
請求項7の方法。 - 前記第1閾値及び前記閾値は、プログラム可能である、
請求項9の方法。 - 前記入力ベクトルオペランドは、行列乗算演算に用いられる、
請求項7の方法。 - 所定の入力ベクトルオペランド内の非ゼロ値の数が前記第1閾値未満であると決定したことに応じて、前記所定の入力ベクトルオペランドを処理する命令のプログラムカウンタオフセットをスキップキューに記憶することを含む、
請求項7の方法。 - 複数の処理要素と、
スケジューラと、
不可逆スパースロードユニットと、を備える装置であって、
前記不可逆スパースロードユニットは、
1つ以上の入力ベクトルオペランドに含まれる非ゼロ値の数を決定することと、
前記1つ以上の入力ベクトルオペランド内の非ゼロ値の数が第1閾値以上であると決定したことに応じて、前記1つ以上の入力ベクトルオペランドをベクトルレジスタファイルに提供し、前記1つ以上の入力ベクトルオペランドを前記複数の処理要素によって処理させることと、
前記非ゼロ値の数が前記第1閾値未満であると決定したことに応じて、前記1つ以上の入力ベクトルオペランドを前記ベクトルレジスタファイルに提供することなく前記入力ベクトルオペランドのアドレスへのポインタをストライド値だけインクリメントし、前記複数の処理要素による前記1つ以上の入力ベクトルオペランドの処理をスキップさせることと、
を行うように構成されており、
前記装置は、1つ以上の第1入力ベクトルオペランドを処理し、1つ以上の第2入力ベクトルオペランドの処理をスキップすることによって、所定のアプリケーションを実行するように構成されている、
装置。 - 前記所定のアプリケーションは、第1データセットのクラス分類を生成するニューラルネットワーク実装であり、前記装置は、ニューラルネットワークの1つ以上の層に対する前記1つ以上の第2入力ベクトルオペランドに関連する処理をスキップすることによって、前記ニューラルネットワークを実装する場合の消費電力及び実行時間のうち少なくとも1つを低減するように構成されている、
請求項13の装置。 - 非ゼロ値は、ゼロに等しくない任意の値、又は、絶対値が少なくとも閾値だけゼロよりも大きい値である、
請求項13の装置。 - 前記第1閾値及び前記閾値は、プログラム可能である、
請求項15の装置。 - 前記入力ベクトルオペランドは、行列乗算演算に用いられる、
請求項13の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/194,981 | 2018-11-19 | ||
US16/194,981 US11663001B2 (en) | 2018-11-19 | 2018-11-19 | Family of lossy sparse load SIMD instructions |
PCT/US2019/039264 WO2020106321A1 (en) | 2018-11-19 | 2019-06-26 | Family of lossy sparse load simd instructions |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022505316A JP2022505316A (ja) | 2022-01-14 |
JP7194824B2 true JP7194824B2 (ja) | 2022-12-22 |
Family
ID=67297336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021521289A Active JP7194824B2 (ja) | 2018-11-19 | 2019-06-26 | 不可逆スパースロードsimd命令ファミリ |
Country Status (6)
Country | Link |
---|---|
US (1) | US11663001B2 (ja) |
EP (1) | EP3884379A1 (ja) |
JP (1) | JP7194824B2 (ja) |
KR (1) | KR102598174B1 (ja) |
CN (1) | CN113168324A (ja) |
WO (1) | WO2020106321A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10503507B2 (en) * | 2017-08-31 | 2019-12-10 | Nvidia Corporation | Inline data inspection for workload simplification |
JP7189000B2 (ja) * | 2018-12-12 | 2022-12-13 | 日立Astemo株式会社 | 情報処理装置、車載制御装置、車両制御システム |
US20230053294A1 (en) * | 2021-08-13 | 2023-02-16 | Taiwan Semiconductor Manufacturing Co., Ltd. | Bitwise product-sum accumulations with skip logic |
US20240004656A1 (en) * | 2022-06-29 | 2024-01-04 | Advanced Micro Devices, Inc. | Accelerating predicated instruction execution in vector processors |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180300605A1 (en) | 2017-04-17 | 2018-10-18 | Microsoft Technology Licensing, Llc | Reducing power consumption in a neural network processor by skipping processing operations |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240522A (ja) * | 1997-02-26 | 1998-09-11 | Matsushita Electric Works Ltd | 演算装置 |
US7159099B2 (en) * | 2002-06-28 | 2007-01-02 | Motorola, Inc. | Streaming vector processor with reconfigurable interconnection switch |
US10528864B2 (en) * | 2016-08-11 | 2020-01-07 | Nvidia Corporation | Sparse convolutional neural network accelerator |
US10832135B2 (en) * | 2017-02-10 | 2020-11-10 | Samsung Electronics Co., Ltd. | Automatic thresholds for neural network pruning and retraining |
US10482156B2 (en) * | 2017-12-29 | 2019-11-19 | Facebook, Inc. | Sparsity-aware hardware accelerators |
US11636327B2 (en) * | 2017-12-29 | 2023-04-25 | Intel Corporation | Machine learning sparse computation mechanism for arbitrary neural networks, arithmetic compute microarchitecture, and sparsity for training mechanism |
US10572568B2 (en) * | 2018-03-28 | 2020-02-25 | Intel Corporation | Accelerator for sparse-dense matrix multiplication |
US10817260B1 (en) * | 2018-06-13 | 2020-10-27 | Amazon Technologies, Inc. | Reducing dynamic power consumption in arrays |
-
2018
- 2018-11-19 US US16/194,981 patent/US11663001B2/en active Active
-
2019
- 2019-06-26 EP EP19740188.8A patent/EP3884379A1/en active Pending
- 2019-06-26 JP JP2021521289A patent/JP7194824B2/ja active Active
- 2019-06-26 WO PCT/US2019/039264 patent/WO2020106321A1/en unknown
- 2019-06-26 CN CN201980072070.9A patent/CN113168324A/zh active Pending
- 2019-06-26 KR KR1020217018458A patent/KR102598174B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180300605A1 (en) | 2017-04-17 | 2018-10-18 | Microsoft Technology Licensing, Llc | Reducing power consumption in a neural network processor by skipping processing operations |
Also Published As
Publication number | Publication date |
---|---|
JP2022505316A (ja) | 2022-01-14 |
US11663001B2 (en) | 2023-05-30 |
EP3884379A1 (en) | 2021-09-29 |
WO2020106321A1 (en) | 2020-05-28 |
KR20210090260A (ko) | 2021-07-19 |
CN113168324A (zh) | 2021-07-23 |
KR102598174B1 (ko) | 2023-11-06 |
US20200159529A1 (en) | 2020-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7194824B2 (ja) | 不可逆スパースロードsimd命令ファミリ | |
US11948073B2 (en) | Machine learning inference engine scalability | |
US11763156B2 (en) | Neural network compression based on bank-balanced sparsity | |
Huynh et al. | Deepsense: A gpu-based deep convolutional neural network framework on commodity mobile devices | |
KR102598173B1 (ko) | 최적화된 딥 네트워크 처리를 위한 그래프 매칭 | |
US11157213B2 (en) | Parallel memory access and computation in memory devices | |
US20200302285A1 (en) | Auto generation and tuning tool for convolution kernels | |
US20200134432A1 (en) | Low Latency Long Short-Term Memory Inference with Sequence Interleaving | |
KR102586988B1 (ko) | 다중-커널 웨이브프론트 스케줄러 | |
US11669473B2 (en) | Allreduce enhanced direct memory access functionality | |
US20200089550A1 (en) | Broadcast command and response | |
US11436486B2 (en) | Neural network internal data fast access memory buffer | |
GB2579702A (en) | Accelerated access to computations results generated from data stored in memory devices | |
US20220092410A1 (en) | Architected library interface for kernel fusion | |
JP7427001B2 (ja) | 行列数学命令セットのタイリングアルゴリズム | |
Silva et al. | Cuda-based parallelization of power iteration clustering for large datasets | |
Santoso et al. | Understanding of gpu architectural vulnerability for deep learning workloads | |
CN110969259B (zh) | 具有数据关联自适应舍入的处理核心 | |
US20210173796A1 (en) | Memory request priority assignment techniques for parallel processors | |
US20220197878A1 (en) | Compressed Read and Write Operations via Deduplication | |
US20210256380A1 (en) | Method and device for reducing a size of a neural network model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7194824 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |