JP6834097B1 - 推論のニューラルネットワークアクセラレータのハードウェア固有分割 - Google Patents
推論のニューラルネットワークアクセラレータのハードウェア固有分割 Download PDFInfo
- Publication number
- JP6834097B1 JP6834097B1 JP2020086356A JP2020086356A JP6834097B1 JP 6834097 B1 JP6834097 B1 JP 6834097B1 JP 2020086356 A JP2020086356 A JP 2020086356A JP 2020086356 A JP2020086356 A JP 2020086356A JP 6834097 B1 JP6834097 B1 JP 6834097B1
- Authority
- JP
- Japan
- Prior art keywords
- hardware chip
- memory
- layer
- inference
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 79
- 238000000638 solvent extraction Methods 0.000 title claims description 3
- 230000004913 activation Effects 0.000 claims abstract description 139
- 230000015654 memory Effects 0.000 claims description 215
- 239000010410 layer Substances 0.000 claims description 135
- 238000005265 energy consumption Methods 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 26
- 238000004088 simulation Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000013500 data storage Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims 1
- 230000001360 synchronised effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 6
- 239000000872 buffer Substances 0.000 description 23
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 8
- 241001442055 Vipera berus Species 0.000 description 4
- 238000007792 addition Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/0207—Addressing or allocation; Relocation with multidimensional access, e.g. row/column, matrix
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Debugging And Monitoring (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
Description
Claims (20)
- コンピュータに操作を実行させるためのコンピュータによって実行可能な命令を含むコンピュータプログラムであって、
計算グラフ及びハードウェアチップの構成を取得することであって、
ニューラルネットワークの前記計算グラフは複数の層を有し、各層は複数のノード及び複数のエッジを有し、各ノードは数学的操作の表示を含み、
前記ハードウェアチップは前記数学的操作を実行するための少なくとも一つのモジュールとオンチップメモリとを含み、前記ハードウェアチップは、活性化データを格納する外部メモリと接続しつつ、層の対応する部分の前記活性化データに前記数学的操作を、層ごとに順次、実行することにより各層の部分で前記ニューラルネットワークの推論を実行することが可能である、
前記取得することと、
複数の層の推論を複数のグループに分割することであって、各グループは、各グループの層の対応する部分の前記数学的操作を、層ごとに順次、実行することにより前記ニューラルネットワークの推論を実行するための、前記ハードウェアチップによる少なくとも持続時間又はエネルギー消費の推定に基づく数の順次的な層を含む、前記分割することと、
前記ハードウェアチップが前記複数のグループの前記ニューラルネットワークの推論を、グループごとに順次、実行するための命令を生成することと
を備えるコンピュータプログラム。 - 前記推論を分割することは、
複数のグループ分割候補の各々に対して前記ハードウェアチップの少なくとも持続時間又はエネルギー消費の前記推定を決定するべく前記ハードウェアチップによる前記ニューラルネットワークの推論の実行をシミュレートすることと、
前記複数の層のうち同じ層の各グループ分割候補の少なくとも持続時間又はエネルギー消費の前記推定を比較することと
をさらに含み
各グループ分割候補は前記複数の層の一意な分割を特定する請求項1に記載のコンピュータプログラム。 - 前記複数のグループ分割候補の各々は、前記複数の層の均等な分割を特定する請求項2に記載のコンピュータプログラム。
- 前記推論を分割することは、
前記複数のグループ分割候補は、第1のグループ分割候補として単一層を特定し、第2のグループ分割候補として層の前のグループを特定し、かつ、第3のグループ分割候補として層の前記前のグループとともに前記単一層を特定することをさらに含み、
前記比較することは、(i)前記第3のグループ分割候補の前記数学的操作を実行する少なくとも持続時間又はエネルギー消費の推定と、(ii)前記第1のグループ分割候補及び前記第2のグループ分割候補の前記数学的操作を実行する総持続時間及び総エネルギー消費の推定と、を比較することを含む
請求項2に記載のコンピュータプログラム。 - 前記シミュレートすることは、
前記ハードウェアチップが各グループの層の対応する部分の前記数学的操作を、層ごとに順次、実行するための命令を生成することと、
各クロックサイクルの操作を特定しつつ前記ハードウェアチップのシミュレーション上で前記命令を実行することと
を含み、
前記ハードウェアチップのエネルギー消費の前記推定は、各操作に関連付けられた個別のエネルギー消費の和に基づき、持続時間の前記推定は、クロックサイクルの数に基づいている請求項2から4のいずれか1項に記載のコンピュータプログラム。 - 複数の次元仕様候補の各々に対して前記ハードウェアチップの少なくとも持続時間又はエネルギー消費の前記推定を決定するべく、前記ハードウェアチップによる前記ニューラルネットワークの推論の実行をシミュレートすることと、
各次元仕様候補の少なくとも持続時間又はエネルギー消費の前記推定を比較することとによって、各層の前記部分の次元を決定することをさらに備え、
各次元仕様候補は前記オンチップメモリの容量及び前記ハードウェアチップの並列度に基づいている請求項1から5のいずれか1項に記載のコンピュータプログラム。 - 前記ニューラルネットワークは畳み込みニューラルネットワークであり、各層の前記部分はタイルであり、
前記ハードウェアチップの前記少なくとも一つのモジュールは少なくとも一つの畳み込みモジュールを含む
請求項1から6のいずれか1項に記載のコンピュータプログラム。 - 前記少なくとも一つの畳み込みモジュールは、少なくとも一つの専用のDW(depth−wise)畳み込みモジュール及び少なくとも一つのPW(point−wise)畳み込みモジュールを含む請求項7に記載のコンピュータプログラム。
- 前記少なくとも一つのモジュールは、活性化操作を実行するための少なくとも一つのモジュールと、前記活性化データを前記外部メモリから前記オンチップメモリ上に読み込むための少なくとも一つのモジュールと、活性化データを前記オンチップメモリから前記外部メモリへ格納するための少なくとも一つのモジュールと、前記畳み込みニューラルネットワークの重み付けを前記外部メモリから前記オンチップメモリへ読み込むための少なくとも一つのモジュールとをさらに含む請求項7又は8に記載のコンピュータプログラム。
- 前記ハードウェアチップに対する命令を生成することは、前記ハードウェアチップが、
前記外部メモリから各グループの最初の層の対応する部分の活性化データを取得し、
各グループの最後の層の対応する部分の前記数学的操作から得られた活性化データを外部メモリに記録する
ための命令を生成することをさらに含む請求項1から9のいずれか1項に記載のコンピュータプログラム。 - 前記ハードウェアチップに対して命令を生成することは、
複数のキューのうちのキューに各操作を割り当てること、及び
各キューの操作の実行を順序付けること
をさらに含む請求項1から10のいずれか1項に記載のコンピュータプログラム。 - 前記ハードウェアチップに対して命令を生成することは、
前記ニューラルネットワークの推論の実行のためのデータに前記オンチップメモリの位置を割り振ること、及び、
前記ニューラルネットワークの推論を実行するために前記外部メモリへデータの退避をスケジューリングすること
をさらに含む請求項1から11のいずれか1項に記載のコンピュータプログラム。 - 前記命令を生成することは、前記ハードウェアチップの前記少なくとも一つのモジュールがデータを前記外部メモリから前記割り振られた位置への読み込みを実行するための命令を生成することを含む請求項12に記載のコンピュータプログラム。
- 前記ハードウェアチップに対して命令を生成することは、従属性のある操作の相互の順序を保持するために注釈を付した同期フラグをさらに含む請求項1から13のいずれか1項に記載のコンピュータプログラム。
- 前記ハードウェアチップに対する命令を生成することは、命令を2進表現に変換することをさらに含む 請求項1から14のいずれか1項に記載のコンピュータプログラム。
- 前記ハードウェアチップは、複数のコア、前記数学的操作を実行するための前記少なくとも一つのモジュール及び前記複数のコア間に分配された前記オンチップメモリをさらに含み、
各コアは、コア間通信のため構成された少なくとも一つの送信機ブロック及び少なくとも一つの受信機ブロックを含み、
前記ハードウェアチップに対して命令を生成することは、前記コアに命令を分配することをさらに含む請求項1から15のいずれか1項に記載のコンピュータプログラム。 - 前記ハードウェアチップは、マルチチップ構成の前記ハードウェアチップの第2のインスタンスと通信するよう構成された少なくとも一つの送信機ブロック及び少なくとも一つの受信機ブロックをさらに含む請求項1から16のいずれか1項に記載のコンピュータプログラム。
- コンピュータ実装される方法であって、
計算グラフ及びハードウェアチップの構成を取得することであって、
ニューラルネットワークの前記計算グラフは複数の層を有し、各層は複数のノードと複数のエッジとを有し、各ノードは数学的操作の表示を含み、
前記ハードウェアチップは前記数学的操作を実行するための少なくとも一つのモジュールとオンチップメモリとを含み、前記ハードウェアチップは活性化データを格納する外部メモリと接続しつつ、層の対応する部分の前記活性化データに前記数学的操作を、層ごとに順次、実行することにより各層の部分で前記ニューラルネットワークの推論を実行することが可能である、
前記取得することと、
前記複数の層の推論を複数のグループに分割することであって、各グループは、各グループの層の対応する部分の前記数学的操作を、層ごとに順次、実行することにより前記ニューラルネットワークの推論を実行するための、前記ハードウェアチップによる少なくとも持続時間又はエネルギー消費の推定に基づく数の順次的な層を含む、前記分割することと、
前記ハードウェアチップが前記複数のグループの前記ニューラルネットワークの推論を、グループごとに順次、実行するための命令を生成することと
を備える方法。 - 計算グラフ及びハードウェアチップの構成を取得するよう構成された取得部であって、
ニューラルネットワークの前記計算グラフは複数の層を有し、各層は複数のノードと複数のエッジとを有し、各ノードは数学的操作の表示を含み、
前記ハードウェアチップは前記数学的操作を実行するための少なくとも一つのモジュールとオンチップメモリとを含み、前記ハードウェアチップは活性化データを格納する外部メモリと接続しつつ、層の対応する部分の前記活性化データに前記数学的操作を、層ごとに順次、実行することにより各層の部分で前記ニューラルネットワークの推論を実行することが可能である、
前記取得部と、
複数の層の推論を複数のグループに分割するよう構成された分割部であって、各グループは、各グループの層の対応する部分の前記数学的操作を、層ごとに順次、実行することにより前記ニューラルネットワークの推論を実行するための、前記ハードウェアチップによる少なくとも持続時間又はエネルギー消費の推定に基づく数の順次的な層を含む、分割部と、
前記ハードウェアチップが前記複数のグループの前記ニューラルネットワークの推論を、グループごとに順次、実行するための命令を生成するよう構成された生成部と
を備える装置。 - 活性化データメモリと、
活性化データを外部メモリから前記活性化データメモリ上へ読み込むよう構成されたデータ読み込みモジュールと、
前記活性化データメモリからの活性化データを前記外部メモリ上に格納するよう構成されたデータ格納モジュールと、
重み付けメモリと、
重み値を外部メモリから前記重み付けメモリに読み込むよう構成された重み付け読み込みモジュールと、
蓄積メモリと、
前記活性化データメモリに格納された前記活性化データ及び前記重み付けメモリに格納された前記重み値に数学的操作を実行し、前記数学的操作から得られた値を前記蓄積メモリに格納するよう構成された複数の畳み込みモジュールと、
前記蓄積メモリに格納された前記値に活性化操作を実行し、得られた活性化データを前記活性化データメモリに格納するよう構成された複数の活性化モジュールと、
畳み込みニューラルネットワークの推論を実行すべく、前記外部メモリから、前記データ読み込みモジュール、前記データ格納モジュール、前記重み付け読み込みモジュール、前記複数の畳み込みモジュール及び前記複数の活性化モジュールへ命令を与えかつ同期させるよう構成された命令モジュールと
を備える装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020086356A JP6834097B1 (ja) | 2020-05-15 | 2020-05-15 | 推論のニューラルネットワークアクセラレータのハードウェア固有分割 |
US17/186,003 US11176449B1 (en) | 2020-05-15 | 2021-02-26 | Neural network accelerator hardware-specific division of inference into groups of layers |
US17/492,681 US20220027716A1 (en) | 2020-05-15 | 2021-10-04 | Neural network accelerator |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020086356A JP6834097B1 (ja) | 2020-05-15 | 2020-05-15 | 推論のニューラルネットワークアクセラレータのハードウェア固有分割 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6834097B1 true JP6834097B1 (ja) | 2021-02-24 |
JP2021179937A JP2021179937A (ja) | 2021-11-18 |
Family
ID=74665138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020086356A Active JP6834097B1 (ja) | 2020-05-15 | 2020-05-15 | 推論のニューラルネットワークアクセラレータのハードウェア固有分割 |
Country Status (2)
Country | Link |
---|---|
US (2) | US11176449B1 (ja) |
JP (1) | JP6834097B1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926733A (zh) * | 2021-03-10 | 2021-06-08 | 之江实验室 | 一种语音关键词检测专用芯片 |
CN115706703A (zh) * | 2021-08-13 | 2023-02-17 | 中移系统集成有限公司 | 边缘ai加速处理方法和装置、电子设备及可读存储介质 |
EP4310731A4 (en) * | 2021-07-27 | 2024-09-11 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE AND CONTROL METHOD FOR ELECTRONIC DEVICE |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220032861A (ko) * | 2020-09-08 | 2022-03-15 | 삼성전자주식회사 | 하드웨어에서의 성능을 고려한 뉴럴 아키텍처 서치 방법 빛 장치 |
KR20220046963A (ko) * | 2020-10-08 | 2022-04-15 | 삼성전자주식회사 | 뉴럴 네트워크 연산 방법 및 장치 |
CN114819084B (zh) * | 2022-04-26 | 2024-03-01 | 北京百度网讯科技有限公司 | 模型推理方法、装置、设备及存储介质 |
CN118690699A (zh) * | 2024-08-23 | 2024-09-24 | 北京开源芯片研究院 | 电路设计的测试方法、装置、设备及存储介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7818273B2 (en) * | 2007-09-18 | 2010-10-19 | International Business Machines Corporation | System and method for cortical simulation |
US9747546B2 (en) | 2015-05-21 | 2017-08-29 | Google Inc. | Neural network processor |
US10387770B2 (en) * | 2015-06-10 | 2019-08-20 | Samsung Electronics Co., Ltd. | Spiking neural network with reduced memory access and reduced in-network bandwidth consumption |
CN115061810A (zh) | 2015-10-28 | 2022-09-16 | 谷歌有限责任公司 | 处理计算图 |
JP2017102790A (ja) | 2015-12-03 | 2017-06-08 | 富士通株式会社 | 情報処理装置、演算処理装置および情報処理装置の制御方法 |
US10733350B1 (en) * | 2015-12-30 | 2020-08-04 | Sharat C Prasad | On-chip and system-area multi-processor interconnection networks in advanced processes for maximizing performance minimizing cost and energy |
US10083347B2 (en) * | 2016-07-29 | 2018-09-25 | NTech lab LLC | Face identification using artificial neural network |
US11157814B2 (en) * | 2016-11-15 | 2021-10-26 | Google Llc | Efficient convolutional neural networks and techniques to reduce associated computational costs |
CN106557332A (zh) * | 2016-11-30 | 2017-04-05 | 上海寒武纪信息科技有限公司 | 一种指令生成过程的复用方法及装置 |
US10019668B1 (en) | 2017-05-19 | 2018-07-10 | Google Llc | Scheduling neural network processing |
WO2019040866A2 (en) * | 2017-08-25 | 2019-02-28 | The Board Of Trustees Of The University Of Illinois | APPARATUS AND METHOD FOR COLLECTING AGRICULTURAL DATA AND AGRICULTURAL OPERATIONS |
US20190340490A1 (en) * | 2018-05-04 | 2019-11-07 | Apple Inc. | Systems and methods for assigning tasks in a neural network processor |
US11093225B2 (en) * | 2018-06-28 | 2021-08-17 | Xilinx, Inc. | High parallelism computing system and instruction scheduling method thereof |
US10846201B1 (en) * | 2018-09-21 | 2020-11-24 | Amazon Technologies, Inc. | Performance debug for networks |
US11526759B2 (en) * | 2018-11-05 | 2022-12-13 | International Business Machines Corporation | Large model support in deep learning |
CN110889497B (zh) * | 2018-12-29 | 2021-04-23 | 中科寒武纪科技股份有限公司 | 一种人工智能处理器的学习任务编译方法及相关产品 |
US11488011B2 (en) * | 2019-03-13 | 2022-11-01 | United States Of America As Represented By The Secretary Of The Navy | Scalable extensible neural network system and methods |
US11526736B2 (en) * | 2019-08-15 | 2022-12-13 | Intel Corporation | Methods, systems, articles of manufacture and apparatus to map workloads |
CN112465129B (zh) * | 2019-09-09 | 2024-01-09 | 上海登临科技有限公司 | 片内异构人工智能处理器 |
US11562205B2 (en) * | 2019-09-19 | 2023-01-24 | Qualcomm Incorporated | Parallel processing of a convolutional layer of a neural network with compute-in-memory array |
CN111583940A (zh) * | 2020-04-20 | 2020-08-25 | 东南大学 | 极低功耗关键词唤醒神经网络电路 |
-
2020
- 2020-05-15 JP JP2020086356A patent/JP6834097B1/ja active Active
-
2021
- 2021-02-26 US US17/186,003 patent/US11176449B1/en active Active
- 2021-10-04 US US17/492,681 patent/US20220027716A1/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926733A (zh) * | 2021-03-10 | 2021-06-08 | 之江实验室 | 一种语音关键词检测专用芯片 |
CN112926733B (zh) * | 2021-03-10 | 2022-09-16 | 之江实验室 | 一种语音关键词检测专用芯片 |
EP4310731A4 (en) * | 2021-07-27 | 2024-09-11 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE AND CONTROL METHOD FOR ELECTRONIC DEVICE |
CN115706703A (zh) * | 2021-08-13 | 2023-02-17 | 中移系统集成有限公司 | 边缘ai加速处理方法和装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220027716A1 (en) | 2022-01-27 |
US20210357732A1 (en) | 2021-11-18 |
US11176449B1 (en) | 2021-11-16 |
JP2021179937A (ja) | 2021-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6834097B1 (ja) | 推論のニューラルネットワークアクセラレータのハードウェア固有分割 | |
KR102562715B1 (ko) | 다수의 프로세서들 및 뉴럴 네트워크 가속기를 갖는 뉴럴 네트워크 프로세싱 시스템 | |
Fowers et al. | A configurable cloud-scale DNN processor for real-time AI | |
JP7029554B2 (ja) | 深層学習モデルをトレーニングするための方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム | |
CN110619595B (zh) | 一种基于多fpga加速器互联的图计算优化方法 | |
Singh et al. | Accelerating throughput-aware runtime mapping for heterogeneous MPSoCs | |
US20190138373A1 (en) | Multithreaded data flow processing within a reconfigurable fabric | |
US20190057060A1 (en) | Reconfigurable fabric data routing | |
Singh et al. | Resource and throughput aware execution trace analysis for efficient run-time mapping on MPSoCs | |
Isshiki et al. | Bit-serial pipeline synthesis for multi-FPGA systems with C++ design capture | |
US11227030B2 (en) | Matrix multiplication engine using pipelining | |
Biookaghazadeh et al. | Toward multi-fpga acceleration of the neural networks | |
US11880426B2 (en) | Integer matrix multiplication engine using pipelining | |
US11934308B2 (en) | Processor cluster address generation | |
US20200167309A1 (en) | Reconfigurable fabric configuration using spatial and temporal routing | |
Wang et al. | Towards memory-efficient allocation of CNNs on processing-in-memory architecture | |
Gurumani et al. | High-level synthesis of multiple dependent CUDA kernels on FPGA | |
Sun et al. | Cognn: efficient scheduling for concurrent gnn training on gpus | |
WO2020112992A1 (en) | Reconfigurable fabric configuration using spatial and temporal routing | |
Heo et al. | Neupims: Npu-pim heterogeneous acceleration for batched llm inferencing | |
Chen et al. | Exploiting on-chip heterogeneity of versal architecture for GNN inference acceleration | |
Lin et al. | HitGNN: High-throughput GNN training framework on CPU+ Multi-FPGA heterogeneous platform | |
CN118014022A (zh) | 面向深度学习的fpga通用异构加速方法及设备 | |
Tumeo et al. | Prototyping pipelined applications on a heterogeneous fpga multiprocessor virtual platform | |
CN118036776A (zh) | 一种模型训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200618 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200618 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201015 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6834097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |