JP6946572B2 - 加速された量子化積和演算 - Google Patents
加速された量子化積和演算 Download PDFInfo
- Publication number
- JP6946572B2 JP6946572B2 JP2020551488A JP2020551488A JP6946572B2 JP 6946572 B2 JP6946572 B2 JP 6946572B2 JP 2020551488 A JP2020551488 A JP 2020551488A JP 2020551488 A JP2020551488 A JP 2020551488A JP 6946572 B2 JP6946572 B2 JP 6946572B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- value
- integer
- precision
- floating point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
- G06F17/153—Multidimensional correlation or convolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/06—Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
- G06F7/14—Merging, i.e. combining at least two sets of record carriers each arranged in the same ordered sequence to produce a single set having the same ordered sequence
- G06F7/16—Combined merging and sorting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/50—Adding; Subtracting
- G06F7/505—Adding; Subtracting in bit-parallel fashion, i.e. having a different digit-handling circuit for each denomination
- G06F7/509—Adding; Subtracting in bit-parallel fashion, i.e. having a different digit-handling circuit for each denomination for multiple operands, e.g. digital integrators
- G06F7/5095—Adding; Subtracting in bit-parallel fashion, i.e. having a different digit-handling circuit for each denomination for multiple operands, e.g. digital integrators word-serial, i.e. with an accumulator-register
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/544—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
- G06F7/5443—Sum of products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2207/00—Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F2207/38—Indexing scheme relating to groups G06F7/38 - G06F7/575
- G06F2207/48—Indexing scheme relating to groups G06F7/48 - G06F7/575
- G06F2207/4802—Special implementations
- G06F2207/4818—Threshold devices
- G06F2207/4824—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Description
Y=f(w1×X1+w2×X2+w0)(1)
式中、関数fは、多くの場合活性化関数と呼ばれる非線形関数であり得る。ノードがK個の入力を有する場合、ノードからの出力は次式で計算され得る。
よって、各ニューラルネットワーク層上の計算は、入力行列と重み行列との乗算および行列乗算の積に適用される活性化関数として説明され得る。次いで、中間層上のノードからの出力が、出力層130などの次の層上のノードに供給され得る。
σ(x)=1/(1+exp(−x))(3)
別の例示的な活性化関数がTanh関数であり、Tanh関数は実数値の入力を取り、その入力を[−1,1]の範囲内の値に変換する。
tanh(x)=2σ(2x)−1(4)
第3の例示的な活性化関数が正規化線形ユニット(ReLU)関数である。ReLU関数は実数値の入力を取り、その入力を0より上で閾値処理する(すなわち、負の値を0で置換する)。
f(x)=max(0,x)(5)
別の例示的な活性化関数がLeaky ReLU関数であり、これは次式として定義され得る。
Leaky−ReLU(x)=max(0,x)+αmin(0,x)(6)
式中、αは、事前に決定されたパラメータまたは学習できるパラメータであり得る。
式中、
は、活性化関数の導関数であり、
は重みwに比例し得る。出力ノードにおける誤差が計算され、勾配を計算するためにネットワークを介して逆伝搬され得る。勾配降下法などの最適化法が、ネットワークにおける重みを調整して出力層での誤差を低減するために使用され得る。順方向伝搬は出力層で大規模行列をベクトルで乗算するまで各層で大規模行列を連続して乗算することを伴い得るので、逆伝搬は順方向伝搬よりも計算上安くつく可能性がある。逆伝搬ではまず、行列を第1のベクトルで乗算して第2のベクトルを取得し、別の行列を第2のベクトルで乗算して第3のベクトルを取得し、以下同様に行い得る。言い換えると、逆伝搬は、行列・行列乗算の代わりにより効率のよい行列・ベクトル乗算を使用する。
隠れ層280の出力Yは次式によって決定され得る。
全結合層でM個の入力を各々含むK個のサンプルのバッチが受け取られる場合、入力は、それらK個のサンプルについてのK×M行列で表され得る。隠れ層280の出力Yは、K×N個の要素を含み、2D行列乗算によって決定され得る。
による、フィルタ310内の重みと領域322内の対応する画素との間の乗算結果の和、すなわち、フィルタ310を表す行列と領域322の画素値を表す行列との間のドット積であり得る。
全誤差=1/2Σ(目標確率−出力確率)2 (10)
式中、目標確率は、画像内のオブジェクトの実際のクラスに対応する「1」と、他のクラスに対応する「0」とを含み得る。次いで、上記の逆伝搬法などの技法を使用して、ネットワークにおいて訓練されるべきパラメータおよび重みに関する誤差の勾配が計算され、勾配降下法を使用してネットワークにおいて訓練されるべきパラメータおよび重みが出力誤差を最小化するように更新され得る。重みは、それらの全誤差への寄与に従って微調整または調整され得る。同じ訓練サンプルが入力として再度使用される場合、出力確率が目標確率により近づく可能性もあり、これは、ネットワークがこの特定の画像の分類を学習したことを指示する。上記のように、フィルタの数、フィルタサイズ、ネットワークのアーキテクチャなどといった畳み込みニューラルネットワークのいくつかのパラメータは、事前に選択され、訓練プロセスの間不変のままであり得る。上記の訓練プロセスは、訓練データセット内のすべての訓練サンプルについて繰り返され得る。
を生成し得る。
X=SX・Xq+バイアス (11)
および
X=SX・Xq−バイアス (12)
式中、Xqは、量子化された整数値であり、Xは、FP32の実数値であり、SXは、スケーリングに使用される正のFP32の数(すなわち、スケーリング係数)である。多くの場合、FP32の実数値0を、最適化された実施態様のために量子化された整数値で厳密に表せることが望ましい。例えば、上記のように、畳み込み層またはプーリング層では、ゼロパディングを実施することが有用であり得る。多くの場合、行列(特徴マップなど)は、多くの実数値0を含み得る疎行列であり得る。そのような層の量子化された実施態様が実行可能であるためには、実数値0が、ゼロ点整数と呼ばれる量子化された数で厳密に表せる(すなわち、実数値0についての量子化誤差がない)ことが望ましい。加えて、CNNにおける一般的な最適化は、0であることが既知である特定のパディング計算をスキップすることである。これが可能であり得るのは、0を厳密に表せる場合のみである。実数値0を量子化された整数によって正確に表せない、すなわち、ゼロ点整数が実数値0に厳密に対応しない場合、実数値0は通常ランダムに分配されず、よって量子化誤差がゼロ平均値を有しない場合があるので、結果に不正確さが導入される可能性があり、結果にバイアスを導入し得る。
または
例えば、Xの範囲が[−0.5,3.5]である場合、SXは1/64であってもよく、Xqzは32であってもよく、これにより、X=−0.5の場合にはXq=32+(64・(−0.5))=0、X=0の場合にはXq=32+64・0=32=Xqz、X=3.499の場合にはXq=32+64・3.499=255になり得る。式(12)または式(13)によって定義される変換は、浮動小数点入力の範囲が実数値0に対して対称であること(すなわち、−最大値と最大値とによる範囲)を前提としないので、非対称であることに留意されたい。(符号付き整数の代わりに)8ビットの符号なし整数(UINT8)を使用して、式(12)または式(13)によって定義される変換を使用するFP32の入力を表すこともできることにも留意されたい。
式(14)に示される行列Xおよび行列Wは2×2行列であるが、行列Xおよび行列Wのサイズは変動し得ることに留意されたい。例えば、行列Xは任意のM×N行列であり、行列Wは任意のN×K行列であり得る。上記のような浮動小数点実数値Xから量子化された整数値Xqへの変換では、実数値の浮動小数点数の行列の乗算は、量子化された重み行列と、量子化された特徴マップ行列と、2つのゼロ点整数(特徴マップの)Xqzおよび(重み行列の)Wqzと、2つの浮動小数点スケーリング係数(特徴マップの)SXおよび(重み行列の)SWとを使用した量子化された入力値の行列の乗算によって計算され得る。
式(15)で示されるように、たとえ量子化プロセスが、UINT8計算がFP32計算よりずっと高速であるために、重みおよび特徴マップのデータサイズを縮小し、より効率的な計算を実現することができても、式(15)によって示される実施態様は、二次展開による4つの積和を含み、これは複雑であり、よって計算が高くつく可能性がある。例えば、図6に示されるようなPE配列を使用してこれら4つの積和を行うには、データがPE配列を4回通過する必要があり、通過ごとに1つの積和が計算され得る。よって、式(15)で示される実施態様は求められるほど効率的ではない可能性がある。
よって、式(16)による行列乗算は3ステップで行われ得る。第1のステップでは、量子化された入力(重みや特徴マップなど)が、量子化された入力からゼロ点整数XqzまたはWqzを減算して差分値を生成することによってシフトされ得る。
Xadj=(Xq (ik)−Xqz) (17)
および
Yadj=(Wq (kj)−Wqz) (18)
式中、XadjおよびYadjは、入力が8ビットの符号なし整数に量子化される場合には9ビットの符号付き整数であり得る。このようにして、整数値XqzまたはWqzに量子化される実数値0は、Xqz−Xqz=0およびWqz−Wqz=0であるので、9ビットの符号付き整数形式の整数値0になり得る。上記のように、特徴マップは、多くの実数値0を含むか、または多くのパディングされた0を含み得る疎行列である可能性があり、0との乗算は0になるので、これにより後続の乗算がさらに簡略化され得る。
上記のように、XqおよびWqが8ビットの符号なし整数である場合、XadjおよびYadjは、9ビットの符号付き整数であり得る。よって、乗算は9ビットの符号付き整数に対して行われ、各乗算の積は、例えば、18ビットの整数で表され得る。積の和Zは、例えば、32ビットの整数で表され得る。
P(ij)=SXSW・Z (20)
よって、式(15)を使用した実施態様と比較して、行列乗算のために、4つの積和ではなく、ただ1つの積和が計算され、よってPE配列により1回のパスで行われ得る。
開示の技術のいくつかの実施形態を以下の各項により説明する。
1.人工ニューラルネットワークの畳み込み層への浮動小数点入力を受け取ることと、
浮動小数点入力をnビットの整数入力に線形に量子化することであって、
nが8の倍数であり、
浮動小数点入力の最小値が整数ゼロとして量子化され、
浮動小数点入力の最大値が2n−1として量子化され、
浮動小数点入力のゼロ値が量子化誤差なしで浮動小数点入力のゼロ値を表す整数として量子化される、ことと、
整数入力をメモリに格納することと、
畳み込み層が、メモリから整数入力を読み取ることと、
減算エンジンが、浮動小数点入力のゼロ値が整数値ゼロによって表されるように、整数入力から浮動小数点入力のゼロ値を表す整数を減算することによって差分値を作成することと、
畳み込み層が、積和を生成するために差分値に対して1組の(n+1)ビットの整数の積和演算を行うことと、
人工ニューラルネットワークの活性化層、プーリング層、または出力バッファが、積和を浮動小数点スケーリング係数でスケーリングすることによって浮動小数点出力を生成することと
を含む、コンピュータ実装方法。
2.nが8である、第1項に記載のコンピュータ実装方法。
3.浮動小数点入力の最小値と最大値とが浮動小数点入力のゼロ値に対して対称ではない、前項のいずれか一項に記載のコンピュータ実装方法。
4.畳み込み演算のための低精度入力を格納するように構成された記憶装置であって、低精度入力が非対称量子化を使用して高精度入力から生成される、記憶装置と、
記憶装置から低精度入力を受け取り、低精度入力から高精度ゼロ値を表す低精度値を減算することにより、差分値を作成するように構成された減算エンジンの配列と、
差分値を使用して積和を生成するように構成された処理要素(PE)配列であって、PE配列が複数行の処理要素を含み、各行の処理要素が対応する減算エンジンから差分値を受け取るように構成された、PE配列と、
積和をスケーリング係数によってスケーリングして高精度出力を生成するように構成された処理エンジンと
を含む装置。
5.低精度入力がnビット形式で記憶装置に格納され、
nが8の倍数である、
第4項に記載の装置。
6.高精度入力が32ビットの浮動小数点入力を含み、
低精度入力が8ビットの符号なし整数を含み、
差分値が9ビットの符号付き整数を含む、
第5項に記載の装置。
7.非対称量子化において、
高精度入力の最小値が低精度入力におけるゼロ値として量子化され、
高精度入力の最大値が低精度入力における最大値として量子化され、
高精度入力のゼロ値が、量子化誤差なしで高精度ゼロ値を表す低精度値として量子化される、
第4項〜第6項のいずれか一項に記載の装置。
8.高精度入力が、人工ニューラルネットワークの層の重みおよび入力データ要素を含み、
重みおよび入力データ要素が独立して量子化される、
第4項〜第7項のいずれか一項に記載の装置。
9.減算エンジンの配列が、重みと入力データ要素の両方に対応する低精度入力から減算するように構成される、第8項に記載の装置。
10.装置が、フィールド・プログラマブル・ゲート・アレイ(FPGA)、システム・オン・チップ(SoC)、特定用途向け集積回路(ASIC)、プログラマブル・アレイ・ロジック(PAL)、または複合プログラマブル・ロジック・デバイス(CPLD)を含む、第4項〜第9項のいずれか一項に記載の装置。
11.処理要素配列が、積和を生成するために差分値を使用して1組の乗算および加算を行うように構成される、第4項〜第10項のいずれか一項に記載の装置。
12.処理エンジンが、人工ニューラルネットワークの活性化エンジン、プーリングエンジン、または出力バッファを含む、第4項〜第11項のいずれか一項に記載の装置。
13.記憶装置から、畳み込み演算のための低精度入力を受け取ることであって、低精度入力が非対称量子化を使用して高精度入力から生成される、ことと、
減算エンジンが、差分値を作成するために低精度入力から高精度ゼロ値を表す低精度値を減算することと、
処理エンジンが、積和を生成するために差分値に対して積和演算を行うことと、
後処理エンジンが、積和をスケーリング係数でスケーリングすることによって高精度出力を生成することと
を含む、コンピュータ実装方法。
14.高精度入力が32ビットの浮動小数点入力を含み、
低精度入力が8ビットの符号なし整数を含み、
差分値が9ビットの符号付き整数を含む、
第13項に記載のコンピュータ実装方法。
15.非対称量子化において、
高精度入力の最小値が低精度入力におけるゼロ値として量子化され、
高精度入力の最大値が低精度入力における最大値として量子化され、
高精度入力のゼロ値が、量子化誤差なしで高精度ゼロ値を表す低精度値として量子化される、
第13項または第14項に記載のコンピュータ実装方法。
16.高精度入力の最小値と最大値とが高精度入力のゼロ値に対して対称ではない、第15項に記載のコンピュータ実装方法。
17.高精度入力が、人工ニューラルネットワークの層の重みまたは入力データ要素を含む、第13項〜第16項のいずれか一項に記載のコンピュータ実装方法。
18.処理エンジンが、高精度の積和演算ではなく低精度の積和演算を行うように構成される、第13項〜第17項のいずれか一項に記載のコンピュータ実装方法。
19.積和演算が処理要素配列によって行われる、第13項〜第18項のいずれか一項に記載のコンピュータ実装方法。
20.積和をスケーリング係数でスケーリングすることが、積和を、人工ニューラルネットワークの活性化エンジン、プーリングエンジン、または出力バッファを使用してスケーリングすることを含む、第13項〜第19項のいずれか一項に記載のコンピュータ実装方法。
Claims (23)
- 人工ニューラルネットワークの畳み込み層への浮動小数点入力を受け取ることと、
前記浮動小数点入力をnビットの整数入力に線形に量子化することであって、
nが8の倍数であり、
前記浮動小数点入力の最小値が整数ゼロとして量子化され、
前記浮動小数点入力の最大値が2n−1として量子化され、
前記浮動小数点入力のゼロ値が量子化誤差なしで前記浮動小数点入力の前記ゼロ値を表す整数として量子化される、ことと、
前記整数入力をメモリに格納することと、
前記畳み込み層によって、前記メモリから前記整数入力を読み取ることと、
減算エンジンによって、前記浮動小数点入力の前記ゼロ値が整数値ゼロによって表されるように、前記整数入力から前記浮動小数点入力の前記ゼロ値を表す整数を減算することによって差分値を作成することと、
前記畳み込み層によって、積和を生成するために前記差分値に対して1組の(n+1)ビットの整数の積和演算を行うことと、
前記人工ニューラルネットワークの活性化層、プーリング層、または出力バッファによって、前記積和を浮動小数点スケーリング係数でスケーリングすることによって浮動小数点出力を生成することと
を含む、コンピュータ実装方法。 - nが8である、請求項1に記載のコンピュータ実装方法。
- 前記浮動小数点入力の前記最小値と前記最大値とが前記浮動小数点入力の前記ゼロ値に対して対称ではない、請求項1に記載のコンピュータ実装方法。
- 前記浮動小数点出力が、前記浮動小数点入力の畳み込み結果を表す、請求項1に記載のコンピュータ実装方法。
- 前記浮動小数点スケーリング係数が第1の浮動小数点スケーリング係数であり、
前記第1の浮動小数点スケーリング係数は、第2の浮動小数点スケーリング係数の乗算の積を含み、各第2の浮動小数点スケーリング係数は、それぞれの前記nビットの整数入力への前記浮動小数点入力の1つの量子化に関連する、請求項1に記載のコンピュータ実装方法。 - 畳み込み演算のための低精度入力を格納するように構成された記憶装置であって、前記低精度入力が非対称量子化を使用して高精度入力から生成される、記憶装置と、
前記記憶装置から前記低精度入力を受け取り、前記低精度入力から高精度ゼロ値を表す低精度値を減算することにより、差分値を作成するように構成された減算エンジンのアレイと、
前記差分値を使用して積和を生成するように構成された処理要素(PE)アレイであって、前記PEアレイが複数行の処理要素を含み、各行の処理要素が対応する減算エンジンから差分値を受け取るように構成された、PEアレイと、
高精度出力を生成するために、前記積和をスケーリング係数によってスケーリングするように構成された処理エンジンと
を含む装置。 - 前記低精度入力がnビット形式で記憶装置に格納され、
nが8の倍数である、
請求項6に記載の装置。 - 前記高精度入力が32ビットの浮動小数点入力を含み、
前記低精度入力が8ビットの符号なし整数を含み、
前記差分値が9ビットの符号付き整数を含む、
請求項7に記載の装置。 - 前記非対称量子化において、
前記高精度入力の最小値が前記低精度入力におけるゼロ値として量子化され、
前記高精度入力の最大値が前記低精度入力における最大値として量子化され、
前記高精度入力のゼロ値が、量子化誤差なしで前記高精度ゼロ値を表す前記低精度値として量子化される、
請求項6に記載の装置。 - 前記高精度入力が、人工ニューラルネットワークの層の重みおよび入力データ要素を含み、
前記重みおよび前記入力データ要素が独立して量子化される、
請求項6に記載の装置。 - 前記減算エンジンのアレイが、前記重みと前記入力データ要素の両方に対応する低精度入力から減算するように構成される、請求項10に記載の装置。
- 前記装置が、フィールド・プログラマブル・ゲート・アレイ(FPGA)、システム・オン・チップ(SoC)、特定用途向け集積回路(ASIC)、プログラマブル・アレイ・ロジック(PAL)、または複合プログラマブル・ロジック・デバイス(CPLD)を含む、請求項6に記載の装置。
- 前記処理要素アレイが、積和を生成するために前記差分値を使用して1組の乗算および加算を行うように構成される、請求項6に記載の装置。
- 前記処理エンジンが、人工ニューラルネットワークの活性化エンジン、プーリングエンジン、または出力バッファを含む、請求項6に記載の装置。
- 前記積和が、前記PEアレイにより1回のパスで生成される、請求項6に記載の装置。
- 記憶装置から、畳み込み演算のための低精度入力を受け取ることであって、前記低精度入力が非対称量子化を使用して高精度入力から生成される、ことと、
減算エンジンによって、差分値を作成するために前記低精度入力から高精度ゼロ値を表す低精度値を減算することと、
処理エンジンによって、積和を生成するために前記差分値に対して積和演算を行うことと、
後処理エンジンによって、前記積和をスケーリング係数でスケーリングすることによって高精度出力を生成することと
を含む、コンピュータ実装方法。 - 前記高精度入力が32ビットの浮動小数点入力を含み、
前記低精度入力が8ビットの符号なし整数を含み、
前記差分値が9ビットの符号付き整数を含む、
請求項16に記載のコンピュータ実装方法。 - 非対称量子化において、
前記高精度入力の最小値が前記低精度入力におけるゼロ値として量子化され、
前記高精度入力の最大値が前記低精度入力における最大値として量子化され、
前記高精度入力のゼロ値が、量子化誤差なしで高精度ゼロ値を表す低精度値として量子化される、
請求項16に記載のコンピュータ実装方法。 - 前記高精度入力の前記最小値と前記最大値とが前記高精度入力の前記ゼロ値に対して対称ではない、請求項18に記載のコンピュータ実装方法。
- 前記高精度入力が、人工ニューラルネットワークの層の重みまたは入力データ要素を含む、請求項16に記載のコンピュータ実装方法。
- 前記処理エンジンが、高精度の積和演算ではなく低精度の積和演算を行うように構成される、請求項16に記載のコンピュータ実装方法。
- 前記積和演算が処理要素アレイによって行われる、請求項16に記載のコンピュータ実装方法。
- 前記積和を前記スケーリング係数でスケーリングすることが、前記積和を、人工ニューラルネットワークの活性化エンジン、プーリングエンジン、または出力バッファを使用してスケーリングすることを含む、請求項16に記載のコンピュータ実装方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/934,681 | 2018-03-23 | ||
US15/934,681 US10678508B2 (en) | 2018-03-23 | 2018-03-23 | Accelerated quantized multiply-and-add operations |
PCT/US2019/023133 WO2019183202A1 (en) | 2018-03-23 | 2019-03-20 | Accelerated quantized multiply-and-add operations |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021510888A JP2021510888A (ja) | 2021-04-30 |
JP6946572B2 true JP6946572B2 (ja) | 2021-10-06 |
Family
ID=66001373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020551488A Active JP6946572B2 (ja) | 2018-03-23 | 2019-03-20 | 加速された量子化積和演算 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10678508B2 (ja) |
EP (1) | EP3738082B1 (ja) |
JP (1) | JP6946572B2 (ja) |
CN (1) | CN111937010B (ja) |
WO (1) | WO2019183202A1 (ja) |
Families Citing this family (106)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017211735A (ja) * | 2016-05-24 | 2017-11-30 | ソニー株式会社 | 演算処理装置、及び、演算処理方法 |
US10963775B2 (en) * | 2016-09-23 | 2021-03-30 | Samsung Electronics Co., Ltd. | Neural network device and method of operating neural network device |
US10474458B2 (en) | 2017-04-28 | 2019-11-12 | Intel Corporation | Instructions and logic to perform floating-point and integer operations for machine learning |
WO2019001418A1 (zh) * | 2017-06-26 | 2019-01-03 | 上海寒武纪信息科技有限公司 | 数据共享系统及其数据共享方法 |
CN110413551B (zh) * | 2018-04-28 | 2021-12-10 | 上海寒武纪信息科技有限公司 | 信息处理装置、方法及设备 |
CN110210610B (zh) * | 2018-03-27 | 2023-06-20 | 腾讯科技(深圳)有限公司 | 卷积计算加速器、卷积计算方法及卷积计算设备 |
US12093696B1 (en) | 2018-04-20 | 2024-09-17 | Perceive Corporation | Bus for transporting output values of a neural network layer to cores specified by configuration data |
US11586910B1 (en) | 2018-04-20 | 2023-02-21 | Perceive Corporation | Write cache for neural network inference circuit |
US11403530B1 (en) | 2018-04-20 | 2022-08-02 | Perceive Corporation | Using quinary weights with neural network inference circuit designed for ternary weights |
US10740434B1 (en) | 2018-04-20 | 2020-08-11 | Perceive Corporation | Reduced dot product computation circuit |
US11783167B1 (en) | 2018-04-20 | 2023-10-10 | Perceive Corporation | Data transfer for non-dot product computations on neural network inference circuit |
US11468145B1 (en) | 2018-04-20 | 2022-10-11 | Perceive Corporation | Storage of input values within core of neural network inference circuit |
US11568227B1 (en) | 2018-04-20 | 2023-01-31 | Perceive Corporation | Neural network inference circuit read controller with multiple operational modes |
US10769526B2 (en) * | 2018-04-24 | 2020-09-08 | Intel Corporation | Machine learning accelerator architecture |
KR20190125141A (ko) * | 2018-04-27 | 2019-11-06 | 삼성전자주식회사 | 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치 |
US11948074B2 (en) * | 2018-05-14 | 2024-04-02 | Samsung Electronics Co., Ltd. | Method and apparatus with neural network parameter quantization |
EP3794828A1 (en) * | 2018-05-16 | 2021-03-24 | Isize Limited | Encoding and decoding image data |
US11562208B2 (en) * | 2018-05-17 | 2023-01-24 | Qualcomm Incorporated | Continuous relaxation of quantization for discretized deep neural networks |
KR102516366B1 (ko) * | 2018-05-30 | 2023-03-31 | 삼성전자주식회사 | 특징 데이터 획득 방법 및 장치 |
US11615300B1 (en) * | 2018-06-13 | 2023-03-28 | Xilinx, Inc. | System and method for implementing neural networks in integrated circuits |
US10671891B2 (en) * | 2018-07-19 | 2020-06-02 | International Business Machines Corporation | Reducing computational costs of deep reinforcement learning by gated convolutional neural network |
JP6970058B2 (ja) * | 2018-07-19 | 2021-11-24 | 株式会社東芝 | 演算装置 |
US11537856B2 (en) * | 2018-08-08 | 2022-12-27 | Applied Brain Research Inc. | Digital circuits for evaluating neural engineering framework style neural networks |
EP3844620A1 (en) * | 2018-08-29 | 2021-07-07 | Qualcomm Incorporated | Method, apparatus, and system for an architecture for machine learning acceleration |
KR20200028168A (ko) * | 2018-09-06 | 2020-03-16 | 삼성전자주식회사 | 컨볼루셔널 뉴럴 네트워크를 이용하는 컴퓨팅 장치 및 그 동작 방법 |
US10853067B2 (en) | 2018-09-27 | 2020-12-01 | Intel Corporation | Computer processor for higher precision computations using a mixed-precision decomposition of operations |
US10726516B2 (en) * | 2018-10-11 | 2020-07-28 | Futurewei Technologies, Inc. | Arithmetic logic unit (ALU)-centric operations in graphics processing units (GPUs) |
CN111126558B (zh) * | 2018-10-31 | 2024-04-02 | 嘉楠明芯(北京)科技有限公司 | 一种卷积神经网络计算加速方法及装置、设备、介质 |
US11475352B2 (en) * | 2018-11-07 | 2022-10-18 | Alibaba Group Holding Limited | Quantizing machine learning models with balanced resolution via damped encoding |
KR20200061164A (ko) * | 2018-11-23 | 2020-06-02 | 삼성전자주식회사 | 뉴럴 네트워크 연산 수행을 위한 뉴럴 네트워크 장치, 뉴럴 네트워크 장치의 동작 방법 및 뉴럴 네트워크 장치를 포함하는 애플리케이션 프로세서 |
US11995533B1 (en) | 2018-12-05 | 2024-05-28 | Perceive Corporation | Executing replicated neural network layers on inference circuit |
US11893470B2 (en) * | 2018-12-06 | 2024-02-06 | MIPS Tech, LLC | Neural network processing using specialized data representation |
US11586883B2 (en) * | 2018-12-14 | 2023-02-21 | Microsoft Technology Licensing, Llc | Residual quantization for neural networks |
US11347297B1 (en) | 2019-01-23 | 2022-05-31 | Perceive Corporation | Neural network inference circuit employing dynamic memory sleep |
US11061738B2 (en) * | 2019-02-28 | 2021-07-13 | Movidius Limited | Methods and apparatus to store and access multi dimensional data |
WO2020190809A1 (en) | 2019-03-15 | 2020-09-24 | Intel Corporation | Architecture for block sparse operations on a systolic array |
US11934342B2 (en) | 2019-03-15 | 2024-03-19 | Intel Corporation | Assistance for hardware prefetch in cache access |
WO2020190801A1 (en) * | 2019-03-15 | 2020-09-24 | Intel Corporation | Graphics processor operation scheduling for deterministic latency |
US20220114108A1 (en) | 2019-03-15 | 2022-04-14 | Intel Corporation | Systems and methods for cache optimization |
US11663454B2 (en) * | 2019-03-29 | 2023-05-30 | Aspiring Sky Co. Limited | Digital integrated circuit with embedded memory for neural network inferring |
US11797345B2 (en) * | 2019-04-30 | 2023-10-24 | Prakash C R J Naidu | Hardware accelerator for efficient convolution processing |
US20200356836A1 (en) * | 2019-05-07 | 2020-11-12 | Apple Inc. | Fast deep learning fully-connected column-major implementation |
US11625585B1 (en) | 2019-05-21 | 2023-04-11 | Perceive Corporation | Compiler for optimizing filter sparsity for neural network implementation configuration |
CN111988609B (zh) * | 2019-05-22 | 2024-07-16 | 富士通株式会社 | 图像编码装置、概率模型生成装置和图像解码装置 |
JP2021005211A (ja) * | 2019-06-26 | 2021-01-14 | キオクシア株式会社 | 情報処理方法及び情報処理装置 |
US11379555B2 (en) * | 2019-06-28 | 2022-07-05 | Amazon Technologies, Inc. | Dilated convolution using systolic array |
US12008467B2 (en) * | 2019-07-01 | 2024-06-11 | Baidu Usa Llc | Asymmetric quantization for compression and for acceleration of inference for neural networks |
KR20210014902A (ko) * | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | 프로세서 및 그 제어 방법 |
US11501145B1 (en) * | 2019-09-17 | 2022-11-15 | Amazon Technologies, Inc. | Memory operation for systolic array |
DE102020123155A1 (de) * | 2019-09-24 | 2021-03-25 | Samsung Electronics Co., Ltd. | Quantisierungsverfahren eines künstlichen neuronalen Netzwerks und Operationsverfahren unter Verwendung eines künstlichen neuronalen Netzwerks |
US11842169B1 (en) | 2019-09-25 | 2023-12-12 | Amazon Technologies, Inc. | Systolic multiply delayed accumulate processor architecture |
US11681902B2 (en) | 2019-09-27 | 2023-06-20 | Amazon Technologies, Inc. | Transposed convolution using systolic array |
CN110766155A (zh) * | 2019-09-27 | 2020-02-07 | 东南大学 | 一种基于混合精度存储的深度神经网络加速器 |
US11651209B1 (en) * | 2019-10-02 | 2023-05-16 | Google Llc | Accelerated embedding layer computations |
TWI774067B (zh) * | 2019-10-18 | 2022-08-11 | 旺宏電子股份有限公司 | 記憶體裝置及其記憶體內計算方法 |
US11861761B2 (en) | 2019-11-15 | 2024-01-02 | Intel Corporation | Graphics processing unit processing and caching improvements |
US11663746B2 (en) | 2019-11-15 | 2023-05-30 | Intel Corporation | Systolic arithmetic on sparse data |
US11816446B2 (en) * | 2019-11-27 | 2023-11-14 | Amazon Technologies, Inc. | Systolic array component combining multiple integer and floating-point data types |
US11467806B2 (en) | 2019-11-27 | 2022-10-11 | Amazon Technologies, Inc. | Systolic array including fused multiply accumulate with efficient prenormalization and extended dynamic range |
KR20210076687A (ko) * | 2019-12-16 | 2021-06-24 | 삼성전자주식회사 | 뉴럴 프로세싱 장치 및 뉴럴 프로세싱 장치에서 뉴럴 네트워크를 처리하는 방법 |
CN111046964B (zh) * | 2019-12-18 | 2021-01-26 | 电子科技大学 | 一种基于卷积神经网络的人和车辆红外热图像识别方法 |
CN113159267B (zh) * | 2020-01-07 | 2024-08-27 | Tcl科技集团股份有限公司 | 一种图像数据处理方法、装置及终端设备 |
US11847451B2 (en) * | 2020-01-07 | 2023-12-19 | SK Hynix Inc. | Processing-in-memory (PIM) device for implementing a quantization scheme |
US11960856B1 (en) * | 2020-01-15 | 2024-04-16 | Flex Logix Technologies, Inc. | Multiplier-accumulator processing pipeline using filter weights having gaussian floating point data format |
CN111260036B (zh) | 2020-01-19 | 2023-01-10 | 苏州浪潮智能科技有限公司 | 一种神经网络加速方法和装置 |
CN111291876B (zh) * | 2020-01-21 | 2023-03-28 | 星宸科技股份有限公司 | 运算装置、运算方法和运算芯片 |
CN111339490B (zh) * | 2020-02-18 | 2024-04-19 | 三星(中国)半导体有限公司 | 矩阵乘法计算方法和装置 |
US11436011B2 (en) * | 2020-02-18 | 2022-09-06 | Samsung Electronics Co., Ltd. | Processing method and processing device with matrix multiplication computation |
US11275562B2 (en) | 2020-02-19 | 2022-03-15 | Micron Technology, Inc. | Bit string accumulation |
US11823054B2 (en) | 2020-02-20 | 2023-11-21 | International Business Machines Corporation | Learned step size quantization |
CN111340769A (zh) * | 2020-02-22 | 2020-06-26 | 苏州杰锐思智能科技股份有限公司 | 一种卷积神经网络系统及表面裂纹检测方法 |
JP7469912B2 (ja) | 2020-03-03 | 2024-04-17 | キヤノン株式会社 | 情報処理装置、推論装置、それらの制御方法、プログラム、記憶媒体 |
US11449758B2 (en) * | 2020-03-11 | 2022-09-20 | Qualcomm Incorproated | Quantization and inferencing for low-bitwidth neural networks |
CN111461302B (zh) * | 2020-03-30 | 2024-04-19 | 嘉楠明芯(北京)科技有限公司 | 一种基于卷积神经网络的数据处理方法、设备及存储介质 |
US11551148B2 (en) * | 2020-04-29 | 2023-01-10 | Marvell Asia Pte Ltd | System and method for INT9 quantization |
US11204977B2 (en) * | 2020-05-05 | 2021-12-21 | Intel Corporation | Scalable sparse matrix multiply acceleration using systolic arrays with feedback inputs |
DE102020131666A1 (de) * | 2020-05-05 | 2021-11-11 | Intel Corporation | Skalierbare Multiplikationsbeschleunigung dünnbesetzter Matrizen unter Verwendung systolischer Arrays mit Rückkopplungseingaben |
US11308027B1 (en) | 2020-06-29 | 2022-04-19 | Amazon Technologies, Inc. | Multiple accumulate busses in a systolic array |
US20220004182A1 (en) * | 2020-07-02 | 2022-01-06 | Nec Laboratories America, Inc. | Approach to determining a remaining useful life of a system |
CN113919477A (zh) * | 2020-07-08 | 2022-01-11 | 嘉楠明芯(北京)科技有限公司 | 一种卷积神经网络的加速方法及装置 |
US11915126B2 (en) * | 2020-09-04 | 2024-02-27 | Recogni Inc. | Low power hardware architecture for a convolutional neural network |
US11532147B2 (en) * | 2020-09-25 | 2022-12-20 | Microsoft Technology Licensing, Llc | Diagnostic tool for deep learning similarity models |
US20220101354A1 (en) * | 2020-09-28 | 2022-03-31 | Sensormatic Electronics, LLC | Shopper influencer system and method |
CN111932437B (zh) * | 2020-10-10 | 2021-03-05 | 深圳云天励飞技术股份有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN115605843A (zh) * | 2020-11-19 | 2023-01-13 | 谷歌有限责任公司(Us) | 具有输出后处理的脉动阵列单元 |
CN112884146B (zh) * | 2021-02-25 | 2024-02-13 | 香港理工大学深圳研究院 | 一种训练基于数据量化与硬件加速的模型的方法及系统 |
CN112862079B (zh) * | 2021-03-10 | 2023-04-28 | 中山大学 | 一种流水式卷积计算架构设计方法及残差网络加速系统 |
JP7420100B2 (ja) * | 2021-03-15 | 2024-01-23 | オムロン株式会社 | 処理装置、処理方法、およびプログラム |
CN113128116B (zh) * | 2021-04-20 | 2023-09-26 | 上海科技大学 | 可用于轻量级神经网络的纯整型量化方法 |
CN113570033B (zh) * | 2021-06-18 | 2023-04-07 | 北京百度网讯科技有限公司 | 神经网络处理单元、神经网络的处理方法及其装置 |
US11880682B2 (en) | 2021-06-30 | 2024-01-23 | Amazon Technologies, Inc. | Systolic array with efficient input reduction and extended array performance |
CN113486200A (zh) * | 2021-07-12 | 2021-10-08 | 北京大学深圳研究生院 | 一种稀疏神经网络的数据处理方法、处理器和系统 |
CN113554163B (zh) * | 2021-07-27 | 2024-03-29 | 深圳思谋信息科技有限公司 | 卷积神经网络加速器 |
WO2023004762A1 (zh) * | 2021-07-30 | 2023-02-02 | 华为技术有限公司 | 计算机系统和数据处理方法 |
US12061668B2 (en) * | 2021-09-03 | 2024-08-13 | Adobe Inc. | Equivariant models for generating vector representations of temporally-varying content |
US20230133360A1 (en) * | 2021-10-28 | 2023-05-04 | Taiwan Semiconductor Manufacturing Company, Ltd. | Compute-In-Memory-Based Floating-Point Processor |
CN118401945A (zh) * | 2021-12-24 | 2024-07-26 | 索尼半导体解决方案公司 | 推断装置、推断方法及推断程序 |
CN116384443A (zh) * | 2021-12-31 | 2023-07-04 | 想象技术有限公司 | 具有可配置池化处理单元的神经网络加速器 |
GB2614327A (en) * | 2021-12-31 | 2023-07-05 | Imagination Tech Ltd | Configurable pooling process unit for neural network accelerator |
CN114492778B (zh) * | 2022-02-16 | 2024-09-06 | 安谋科技(中国)有限公司 | 神经网络模型的运行方法、可读介质和电子设备 |
US20230401433A1 (en) * | 2022-06-09 | 2023-12-14 | Recogni Inc. | Low power hardware architecture for handling accumulation overflows in a convolution operation |
US20230059976A1 (en) * | 2022-10-18 | 2023-02-23 | Intel Corporation | Deep neural network (dnn) accelerator facilitating quantized inference |
KR102689249B1 (ko) * | 2023-08-07 | 2024-07-30 | 한국과학기술원 | 확산 모델의 경량화를 위한 양자화 기법과 보정 기법을 구현하기 위한 장치의 동작 방법 및 장치 |
CN117407793B (zh) * | 2023-11-03 | 2024-05-28 | 上海无问芯穹智能科技有限公司 | 一种用于大语言模型的并行化策略优化方法、系统、设备及介质 |
CN117217318B (zh) * | 2023-11-07 | 2024-01-26 | 瀚博半导体(上海)有限公司 | 基于Transformer网络模型的文本生成方法和装置 |
CN117634577B (zh) * | 2024-01-25 | 2024-06-07 | 深圳市九天睿芯科技有限公司 | 向量处理器、神经网络加速器、芯片及电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9613001B2 (en) * | 2013-12-20 | 2017-04-04 | Intel Corporation | Processing device for performing convolution operations |
US9805303B2 (en) | 2015-05-21 | 2017-10-31 | Google Inc. | Rotating data for neural network computations |
US11029949B2 (en) * | 2015-10-08 | 2021-06-08 | Shanghai Zhaoxin Semiconductor Co., Ltd. | Neural network unit |
US10380481B2 (en) * | 2015-10-08 | 2019-08-13 | Via Alliance Semiconductor Co., Ltd. | Neural network unit that performs concurrent LSTM cell calculations |
US10353861B2 (en) * | 2015-10-08 | 2019-07-16 | Via Alliance Semiconductor Co., Ltd. | Mechanism for communication between architectural program running on processor and non-architectural program running on execution unit of the processor regarding shared resource |
GB201607713D0 (en) * | 2016-05-03 | 2016-06-15 | Imagination Tech Ltd | Convolutional neural network |
US10176425B2 (en) * | 2016-07-14 | 2019-01-08 | University Of Dayton | Analog neuromorphic circuits for dot-product operation implementing resistive memories |
US10726514B2 (en) * | 2017-04-28 | 2020-07-28 | Intel Corporation | Compute optimizations for low precision machine learning operations |
CN107291419B (zh) * | 2017-05-05 | 2020-07-31 | 中国科学院计算技术研究所 | 用于神经网络处理器的浮点乘法器及浮点数乘法 |
CN107480770B (zh) | 2017-07-27 | 2020-07-28 | 中国科学院自动化研究所 | 可调节量化位宽的神经网络量化与压缩的方法及装置 |
JP6293963B1 (ja) * | 2017-08-31 | 2018-03-14 | Tdk株式会社 | ニューロモルフィック素子を含むアレイの制御装置、離散化ステップサイズの演算方法およびプログラム |
-
2018
- 2018-03-23 US US15/934,681 patent/US10678508B2/en active Active
-
2019
- 2019-03-20 EP EP19715337.2A patent/EP3738082B1/en active Active
- 2019-03-20 JP JP2020551488A patent/JP6946572B2/ja active Active
- 2019-03-20 CN CN201980021173.2A patent/CN111937010B/zh active Active
- 2019-03-20 WO PCT/US2019/023133 patent/WO2019183202A1/en unknown
-
2020
- 2020-06-02 US US16/891,010 patent/US10983754B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2021510888A (ja) | 2021-04-30 |
US20200293284A1 (en) | 2020-09-17 |
EP3738082A1 (en) | 2020-11-18 |
CN111937010B (zh) | 2021-09-21 |
US10678508B2 (en) | 2020-06-09 |
US20190294413A1 (en) | 2019-09-26 |
EP3738082B1 (en) | 2023-01-11 |
WO2019183202A1 (en) | 2019-09-26 |
US10983754B2 (en) | 2021-04-20 |
CN111937010A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6946572B2 (ja) | 加速された量子化積和演算 | |
US11868895B2 (en) | Dynamic processing element array expansion | |
WO2022083536A1 (zh) | 一种神经网络构建方法以及装置 | |
WO2022042713A1 (zh) | 一种用于计算设备的深度学习训练方法和装置 | |
CN110050267B (zh) | 用于数据管理的系统和方法 | |
KR102545128B1 (ko) | 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템 | |
CN112308200B (zh) | 神经网络的搜索方法及装置 | |
CN107506828B (zh) | 用于稀疏连接的人工神经网络计算装置和方法 | |
JP2021508895A (ja) | ニューラルネットワークアレイの性能の改善 | |
CN112215332B (zh) | 神经网络结构的搜索方法、图像处理方法和装置 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
WO2021042857A1 (zh) | 图像分割模型的处理方法和处理装置 | |
US20240135174A1 (en) | Data processing method, and neural network model training method and apparatus | |
WO2022012668A1 (zh) | 一种训练集处理方法和装置 | |
WO2022179588A1 (zh) | 一种数据编码方法以及相关设备 | |
WO2022100490A1 (en) | Methods and systems for deblurring blurry images | |
CN111738403A (zh) | 一种神经网络的优化方法及相关设备 | |
CN115081588A (zh) | 一种神经网络参数量化方法和装置 | |
CN114821096A (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
CN112532251A (zh) | 一种数据处理的方法及设备 | |
CN116095183A (zh) | 一种数据压缩方法以及相关设备 | |
US11868878B1 (en) | Executing sublayers of a fully-connected layer | |
US11263517B1 (en) | Flexible weight expansion | |
US11551090B2 (en) | System and method for compressing images for remote processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201019 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201019 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201019 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210409 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210819 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210915 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6946572 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |