JP7325158B2 - ニューラル・ネットワーク・コアにおける動的精度のためのデータ表現 - Google Patents
ニューラル・ネットワーク・コアにおける動的精度のためのデータ表現 Download PDFInfo
- Publication number
- JP7325158B2 JP7325158B2 JP2021513308A JP2021513308A JP7325158B2 JP 7325158 B2 JP7325158 B2 JP 7325158B2 JP 2021513308 A JP2021513308 A JP 2021513308A JP 2021513308 A JP2021513308 A JP 2021513308A JP 7325158 B2 JP7325158 B2 JP 7325158B2
- Authority
- JP
- Japan
- Prior art keywords
- processor
- neural network
- input data
- input
- data tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Complex Calculations (AREA)
Description
●8-R最下位ビットを除去することによって、各8ビット値をRビット値にキャストすることができる(例えば、8ビット全ての精度を必要としない場合)。
●各8ビット値を、8/R Rビット値にキャストすることができる(例えば、R=2の場合、8/2=4 2ビット値が使用される)。
●各8ビット値を、8/R Rビット値より小さい値にキャストすることができる(例えば、R=2の場合、2 2ビット値を使用し、4の最下位ビットを削除することができる)。
●T>Cの場合、各C-要素ベクトルを、T-Cゼロ・エントリを有するT-要素ベクトルに直接マッピングし、その結果、W×H T-要素ベクトルを得ることができる。
●T>Cの場合、最大T/Cのピクセルを各T-要素ベクトルにパックすることができる。例えば、C=3及びT=24の場合、例えば、8ピクセルを幅4及び高さ2のストライドを有する4×2のパッチにパックし、その結果、W/4×H/2T-要素ベクトルを得ることができる。
●T>Cの場合、次の層における計算のために最適化するように、最大T/Cピクセルを各T-要素ベクトルにパックすることができる。例えば、C=3及びT=24で、次の層が8×8の畳み込みを実装している場合、8ピクセルを4のストライドを有する8×1のパッチなどにパックし、その結果、W/4×H T-要素ベクトルを得ることができる。ここで、次の層は、結果として得られる入力にわたって1×8の畳み込みの実施のみを必要とし、ハードウェア利用率を最適化する。
●T<Cの場合、各C-要素ベクトルをC/T T-要素ベクトルにアンパックし、その結果、W×H×C/T T-要素ベクトルを得ることができる。例えば、C=4及びT=2の場合、各4-要素ベクトルを2 2-要素ベクトルにアンパックして、W×H×2 2-要素ベクトルを得ることができる。
である。パックされた画像テンソル405、406は、256×128×32であるので、(4×4アレイ402内の)各コアは、テンソルの32×16×32部分(テンソルレット)を受け取る。
である。
の前の部分和の精度によって設定される。
Claims (17)
- 複数のニューラル・コアを含むニューラル・ネットワーク・プロセッサで入力データ・テンソルを受け取ることであって、前記入力データ・テンソルは、入力ビット精度の特徴次元を有し、前記ニューラル・ネットワーク・プロセッサは、1又は複数のプロセッサ・ビット精度の1又は複数のプロセッサ特徴次元用に構成される、受け取ることと、
前記入力データ・テンソルを前記入力ビット精度から前記プロセッサ・ビット精度の1つに変換することと、
前記入力データ・テンソルを、各々が前記プロセッサ特徴次元の1つに一致する複数のブロックに分割することと、
前記複数のブロックの各々を前記複数のニューラル・コアの1つに提供することと、
前記複数のニューラル・コアによって、1つ又は複数のニューラル・ネットワーク層の出力を計算することと
を含む、方法。 - 前記入力データ・テンソルは、画像を含む、請求項1に記載の方法。
- 前記入力データ・テンソルを変換することは、最下位ビットを除去することを含む、請求項1又は請求項2に記載の方法。
- 前記ニューラル・ネットワーク・プロセッサは、所定数の特徴用に構成され、前記入力データ・テンソルを変換することは、入力特徴を、各々が前記所定数の特徴を下回る又は前記所定数の特徴と等しい複数の特徴セットに分割することを含む、請求項1から請求項3までのいずれか1項に記載の方法。
- 前記入力データ・テンソルを分割することは、前記プロセッサ特徴次元の1つと一致するように、前記特徴次元の1つにおいて前記複数のブロックをゼロ・パディングすることを含む、請求項1から請求項4までのいずれか1項に記載の方法。
- 前記入力データ・テンソルを分割することは、前記入力データ・テンソルをパックすることを含む、請求項1から請求項5までのいずれか1項に記載の方法。
- 前記入力データ・テンソルをパックすることは、
入力特徴を再編成して、未使用のプロセッサ特徴次元に入力特徴の非特徴次元からのデータをロードすることを含む、請求項6に記載の方法。 - 前記ニューラル・ネットワーク・プロセッサは、
複数の固定精度の部分和を計算し、
前記複数の固定精度の部分和を結合して完全和にする
ように構成される、請求項1から請求項7までのいずれか1項に記載の方法。 - 前記複数の固定精度の部分和は、中間結果である、請求項8に記載の方法。
- 前記中間結果は、入力のサブセットの加重和である、請求項9に記載の方法。
- 前記ニューラル・ネットワーク・プロセッサは、前記複数の固定精度の部分和から部分和を繰り返し計算するように構成される、請求項8に記載の方法。
- 複数のニューラル・コアを含むニューラル・ネットワーク・プロセッサであって、前記ニューラル・ネットワーク・プロセッサは、活性値ごとの1つ又は複数のプロセッサ・ビット精度を有し、プロセッサ特徴次元を有するデータを受け入れるように構成される、ニューラル・ネットワーク・プロセッサと、
前記ニューラル・ネットワーク・プロセッサに結合され、
1つ又は複数の特徴においてチャネルごとの入力ビット精度を有する入力データ・テンソルを受け取り、
前記入力データ・テンソルを前記入力ビット精度から前記プロセッサ・ビット精度に変換し、
前記入力データ・テンソルを、各々が前記プロセッサ特徴次元の1つに一致する複数のブロックに分割し、
前記複数のブロックの各々を前記複数のニューラル・コアの1つに提供する
ように適合された変換回路と
を含み、
前記ニューラル・ネットワーク・プロセッサは、前記複数のニューラル・コアによって、1つ又は複数のニューラル・ネットワーク層の出力を計算するように適合される、
システム。 - 前記入力データ・テンソルを変換することは、各チャネルを、前記プロセッサ・ビット精度を下回る又は前記プロセッサ・ビット精度と等しい複数の値に分割することを含む、請求項12に記載のシステム。
- 複数のニューラル・コアを含むニューラル・ネットワーク・プロセッサであって、1つ又は複数のプロセッサ・ビット精度の1つ又は複数のプロセッサ特徴次元用に構成される、ニューラル・ネットワーク・プロセッサと、
前記ニューラル・ネットワーク・プロセッサに結合され、
入力ビット精度の特徴次元を有する入力データ・テンソルを受け取り、
前記入力データ・テンソルを前記入力ビット精度から前記プロセッサ・ビット精度の1つに変換し、
前記入力データ・テンソルを、各々が前記プロセッサ特徴次元の1つに一致する複数のブロックに分割し、
前記複数のブロックの各々を前記複数のニューラル・コアの1つに提供する
ように適合された変換回路と
を含み、
前記複数のニューラル・コアは、1つ又は複数のニューラル・ネットワーク層の出力を計算するように適合される、システム。 - 入力データ・テンソルを受け取ることであって、前記入力データ・テンソルは、1つ又は複数の特徴においてチャネルごとの入力ビット精度を有する、受け取ることと、
前記入力データ・テンソルを前記入力ビット精度からニューラル・ネットワーク・プロセッサのプロセッサ・ビット精度に変換することであって、前記ニューラル・ネットワーク・プロセッサは、プロセッサ特徴次元を有するデータを受け入れるように構成される、変換することと、
前記入力データ・テンソルを、各々が前記プロセッサ特徴次元の1つに一致する複数のブロックに分割することと、
前記複数のブロックの各々を前記ニューラル・ネットワーク・プロセッサの複数のニューラル・コアの1つに提供することと
を含み、
前記ニューラル・ネットワーク・プロセッサは、前記複数のニューラル・コアによって、1つ又は複数のニューラル・ネットワーク層の出力を計算するように適合される、方法。 - 請求項1から請求項11までのいずれか1項又は請求項15に記載の方法をコンピュータに実行させるコンピュータ・プログラム。
- 請求項16に記載のコンピュータ・プログラムが格納されたコンピュータ可読ストレージ媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/157,852 | 2018-10-11 | ||
US16/157,852 US20200117981A1 (en) | 2018-10-11 | 2018-10-11 | Data representation for dynamic precision in neural network cores |
PCT/IB2019/058120 WO2020074989A1 (en) | 2018-10-11 | 2019-09-25 | Data representation for dynamic precision in neural network cores |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022502733A JP2022502733A (ja) | 2022-01-11 |
JP7325158B2 true JP7325158B2 (ja) | 2023-08-14 |
Family
ID=70161324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021513308A Active JP7325158B2 (ja) | 2018-10-11 | 2019-09-25 | ニューラル・ネットワーク・コアにおける動的精度のためのデータ表現 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20200117981A1 (ja) |
JP (1) | JP7325158B2 (ja) |
CN (1) | CN112673383A (ja) |
DE (1) | DE112019003529T5 (ja) |
GB (1) | GB2590888B (ja) |
WO (1) | WO2020074989A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291240B (zh) * | 2018-12-06 | 2023-12-08 | 华为技术有限公司 | 处理数据的方法和数据处理装置 |
US11714992B1 (en) * | 2018-12-13 | 2023-08-01 | Amazon Technologies, Inc. | Neural network processing based on subgraph recognition |
US11748599B2 (en) * | 2019-02-21 | 2023-09-05 | Texas Instruments Incorporated | Super-tiling in neural network processing to enable analytics at lower memory speed |
US11562205B2 (en) * | 2019-09-19 | 2023-01-24 | Qualcomm Incorporated | Parallel processing of a convolutional layer of a neural network with compute-in-memory array |
US11494875B2 (en) * | 2020-03-25 | 2022-11-08 | Nintendo Co., Ltd. | Systems and methods for machine learned image conversion |
US11379951B2 (en) | 2020-03-25 | 2022-07-05 | Nintendo Co., Ltd. | Systems and methods for machine learned image conversion |
KR20220062892A (ko) * | 2020-11-09 | 2022-05-17 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN113240077B (zh) * | 2021-04-27 | 2022-04-05 | 瀚博半导体(上海)有限公司 | 一种张量处理方法和系统 |
US11782706B1 (en) | 2021-06-29 | 2023-10-10 | Amazon Technologies, Inc. | Reconfigurable neural network processing based on subgraph recognition |
CN117480508A (zh) * | 2021-11-25 | 2024-01-30 | 英特尔公司 | 用于加速处理引擎的计算的装置、方法、设备及介质 |
US20230409888A1 (en) * | 2022-06-16 | 2023-12-21 | International Business Machines Corporation | Network comprising a plurality of oscillators |
WO2023249762A1 (en) * | 2022-06-21 | 2023-12-28 | Ceremorphic, Inc. | Max-pool prediction for efficient convolutional nuerual network for resource-constrained devices |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180197084A1 (en) | 2017-01-11 | 2018-07-12 | Electronics And Telecommunications Research Institute | Convolutional neural network system having binary parameter and operation method thereof |
JP2018142049A (ja) | 2017-02-27 | 2018-09-13 | 株式会社日立製作所 | 情報処理装置、画像認識装置、および、畳込みニューラルネットワークのパラメータ設定方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0484358A (ja) * | 1990-07-27 | 1992-03-17 | Nippon Telegr & Teleph Corp <Ntt> | ニユーラルネットの並列計算処理方法 |
JPH0683796A (ja) * | 1992-08-31 | 1994-03-25 | Ricoh Co Ltd | 信号処理装置 |
JPH06309293A (ja) * | 1993-04-26 | 1994-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 多層構造型ニューラルネットワークの構成方法 |
JP2861893B2 (ja) * | 1995-10-31 | 1999-02-24 | 日本電気株式会社 | 形状変換装置及びこの装置における形状変換方法 |
US8868477B2 (en) * | 2012-03-29 | 2014-10-21 | International Business Machines Coproration | Multi-compartment neurons with neural cores |
US9159020B2 (en) * | 2012-09-14 | 2015-10-13 | International Business Machines Corporation | Multiplexing physical neurons to optimize power and area |
US10990872B2 (en) * | 2016-03-31 | 2021-04-27 | International Business Machines Corporation | Energy-efficient time-multiplexed neurosynaptic core for implementing neural networks spanning power- and area-efficiency |
CN106127297B (zh) * | 2016-06-02 | 2019-07-12 | 中国科学院自动化研究所 | 基于张量分解的深度卷积神经网络的加速与压缩方法 |
CN107526709A (zh) * | 2016-06-15 | 2017-12-29 | 辉达公司 | 使用低精度格式的张量处理 |
CN108345939B (zh) * | 2017-01-25 | 2022-05-24 | 微软技术许可有限责任公司 | 基于定点运算的神经网络 |
US10387298B2 (en) * | 2017-04-04 | 2019-08-20 | Hailo Technologies Ltd | Artificial neural network incorporating emphasis and focus techniques |
US10795836B2 (en) * | 2017-04-17 | 2020-10-06 | Microsoft Technology Licensing, Llc | Data processing performance enhancement for neural networks using a virtualized data iterator |
CN117933314A (zh) * | 2017-04-21 | 2024-04-26 | 上海寒武纪信息科技有限公司 | 处理装置、处理方法、芯片及电子装置 |
US10726514B2 (en) * | 2017-04-28 | 2020-07-28 | Intel Corporation | Compute optimizations for low precision machine learning operations |
CN107480770B (zh) * | 2017-07-27 | 2020-07-28 | 中国科学院自动化研究所 | 可调节量化位宽的神经网络量化与压缩的方法及装置 |
CN107633010B (zh) * | 2017-08-14 | 2020-06-19 | 中南大学 | 一种复杂造型grc板块图像的识别方法和系统 |
CN107704335B (zh) * | 2017-09-28 | 2019-08-20 | 华南理工大学 | 一种基于fpga的crc并行运算ip核 |
CN107944556B (zh) * | 2017-12-12 | 2020-09-08 | 电子科技大学 | 基于块项张量分解的深度神经网络压缩方法 |
US11163861B2 (en) * | 2017-12-29 | 2021-11-02 | Texas Instruments Incorporated | Machine learning model with watermarked weights |
US10621489B2 (en) * | 2018-03-30 | 2020-04-14 | International Business Machines Corporation | Massively parallel neural inference computing elements |
US20200065676A1 (en) * | 2018-08-22 | 2020-02-27 | National Tsing Hua University | Neural network method, system, and computer program product with inference-time bitwidth flexibility |
-
2018
- 2018-10-11 US US16/157,852 patent/US20200117981A1/en active Pending
-
2019
- 2019-09-25 CN CN201980059120.XA patent/CN112673383A/zh active Pending
- 2019-09-25 DE DE112019003529.0T patent/DE112019003529T5/de active Pending
- 2019-09-25 WO PCT/IB2019/058120 patent/WO2020074989A1/en active Application Filing
- 2019-09-25 JP JP2021513308A patent/JP7325158B2/ja active Active
- 2019-09-25 GB GB2106472.0A patent/GB2590888B/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180197084A1 (en) | 2017-01-11 | 2018-07-12 | Electronics And Telecommunications Research Institute | Convolutional neural network system having binary parameter and operation method thereof |
JP2018142049A (ja) | 2017-02-27 | 2018-09-13 | 株式会社日立製作所 | 情報処理装置、画像認識装置、および、畳込みニューラルネットワークのパラメータ設定方法 |
Also Published As
Publication number | Publication date |
---|---|
GB2590888B (en) | 2021-10-27 |
JP2022502733A (ja) | 2022-01-11 |
US20200117981A1 (en) | 2020-04-16 |
DE112019003529T5 (de) | 2021-04-15 |
GB2590888A (en) | 2021-07-07 |
CN112673383A (zh) | 2021-04-16 |
WO2020074989A1 (en) | 2020-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7325158B2 (ja) | ニューラル・ネットワーク・コアにおける動的精度のためのデータ表現 | |
JP7372009B2 (ja) | 並列分散テンソル計算用のニューラル・ハードウェア・アクセラレータ | |
JP7349835B2 (ja) | ニューラルネットワークにおいてパラメータを処理する方法及び装置 | |
JP6857286B2 (ja) | ニューラルネットワークアレイの性能の改善 | |
EP3373210B1 (en) | Transposing neural network matrices in hardware | |
US11295208B2 (en) | Robust gradient weight compression schemes for deep learning applications | |
US10108538B1 (en) | Accessing prologue and epilogue data | |
KR102562320B1 (ko) | 비트 연산 기반의 뉴럴 네트워크 처리 방법 및 장치 | |
WO2019220975A1 (ja) | ニューラルネットワーク回路装置、ニューラルネットワーク処理方法およびニューラルネットワークの実行プログラム | |
EP3915056A1 (en) | Neural network activation compression with non-uniform mantissas | |
JP2022552180A (ja) | 大規模並列ニューラル推論エンジン用のマルチモード低精度内積計算回路 | |
WO2020257531A1 (en) | Mixed-signal acceleration of deep neural networks | |
CN115238863A (zh) | 一种卷积神经网络卷积层的硬件加速方法、系统及应用 | |
JP7426980B2 (ja) | 分散型ニューラル・ネットワークのコアのネットワークにおける階層的並列処理 | |
KR101169367B1 (ko) | 고속 홀로그램 생성 장치 및 방법 | |
AU2020395435B2 (en) | Flexible precision neural inference processing units | |
JP7556653B2 (ja) | 柔軟な精度のニューラル推論処理ユニット | |
JP7506276B2 (ja) | 半導体ハードウェアにおいてニューラルネットワークを処理するための実装および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210413 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220222 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230711 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20230711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7325158 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |