JP7166704B2

JP7166704B2 - ニューラルネットワークにおける量子化パラメータの確定方法および関連製品

Info

Publication number: JP7166704B2
Application number: JP2020219685A
Authority: JP
Inventors: シャオリリォウ; ユィチョン; シシャンジャン; チャンリォウ
Original assignee: 寒武紀（西安）集成電路有限公司
Priority date: 2019-06-12
Filing date: 2020-12-28
Publication date: 2022-11-08
Anticipated expiration: 2039-09-19
Also published as: CN112085186A; CN112085186B; CN111652368B; CN112085183A; US20210286688A1; KR102656332B1; CN112085189A; CN112085191B; CN112400176A; KR20210011461A; EP3770823A1; CN112085184B; CN111652367A; EP3998554A4; KR20210011462A; CN112085185A; CN112085193A; US11675676B2; EP3770823A4; JP2021530769A

Description

本開示の実施形態は、ニューラルネットワークにおける量子化パラメータの確定方法お
よび関連製品に関する。

ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ、ＮＮ）は、生物学のニュー
ラルネットワークの構造と機能を模倣する数学モデルまたは計算モデルである。サンプル
データでのトレーニングを通じて、ニューラルネットワークはネットワークの重みと閾値
を継続的に修正して、誤差関数を負の勾配方向に沿って低下させ、期待される出力に近似
させる。これは広く使用されている識別および分類モデルであり、主に関数近似、モデル
の識別および分類、データ圧縮、および時系列予測に使用される。

実際の応用では、ニューラルネットワークにおけるデータは通常３２ビットであり、既
存のニューラルネットワークにおけるデータはより多くのビットを占有することで、精度
は保証されるが、より多くのストレージスペースと高い処理帯域幅が必要になるため、コ
ストが増加される。

上記の技術の問題を解決するために、本開示は、データビット幅の調整方法および関連
製品を提供する。

上記の目的を達成するために、本開示は、データビット幅の調整方法を提供し、前記方
法は、
量子化すべきデータが量子化処理された後の量子化後のデータのビット幅を示す、前記
量子化すべきデータに対して前記量子化処理を実行するためのデータビット幅を取得する
ことと、

前記データビット幅に基づいて１組の量子化すべきデータに対して量子化処理を実行し
て、前記１組の量子化すべきデータを、前記データビット幅を持つ１組の量子化後のデー
タに変換することと、
前記１組の量子化すべきデータを前記１組の量子化後のデータと比較し、前記データビ
ット幅に関連する量子化誤差を確定することと、
確定された前記量子化誤差に基づいて前記データビット幅を調整することとを含む、こ
とを特徴とする。

上記の目的を達成するために、本開示は、データビット幅の調整装置を提供し、前記装
置はメモリおよびプロセッサを含み、前記メモリに、プロセッサで実行できるコンピュー
タプログラムが記憶され、前記プロセッサはコンピュータプログラムを実行すると、上記
の方法のステップが実施される。

上記の目的を達成するために、本開示は、コンピュータプログラムが記憶されるコンピ
ュータ可読記憶媒体を提供し、前記コンピュータプログラムは、プロセッサによって実行
されると、上記の方法のステップが実施される。

上記の目的を達成するために、本開示は、データビット幅の調整装置を提供し、前記装
置は、

量子化すべきデータが量子化処理された後の量子化後のデータのビット幅を示す、前記
量子化すべきデータに対して前記量子化処理を実行するためのデータビット幅を取得する
ように構成される取得ユニットと、
前記データビット幅に基づいて１組の量子化すべきデータに対して量子化処理を実行し
て、前記１組の量子化すべきデータを前記データビット幅を持つ１組の量子化後のデータ
に変換するように構成される量子化ユニットと、
前記１組の量子化すべきデータを前記１組の量子化後のデータと比較し、前記データビ
ット幅に関連する量子化誤差を確定するように構成される確定ユニットと、
確定された前記量子化誤差に基づいて前記データビット幅を調整するように構成される
調整ユニットとを含む。

ニューラルネットワーク演算過程では、量子化するときに本開示の技術案を使用してデ
ータビット幅を確定する。このデータビット幅は、人工知能プロセッサがニューラルネッ
トワーク演算過程におけるデータを量子化し、高精度のデータを低精度の固定小数点数に
変換するためのものであり、これにより、ニューラルネットワーク演算過程に係るデータ
ストレージが占めるスペースサイズを減少できる。例えば、ｆｌｏａｔ３２をｆｉｘ８に
変換すると、モデルパラメータを４分の１に減少することができる。データストレージス
ペースが小さくなるため、ニューラルネットワークの配置に使用されるスペースが小さく
なり、人工知能プロセッサのチップにおけるオンチップメモリがより多くのデータを記憶
できるようになり、人工知能プロセッサのチップによるデータのアクセスが減少され、コ
ンピューティングパフォーマンスが向上する。

本開示の実施形態の技術案をより明確に説明するために、以下に、実施形態の図面を簡
単に説明する。明らかに、以下の説明における図面は、本開示のいくつかの実施形態のみ
に関連し、本開示を限定するものではない。
ニューラルネットワーク構造の概略図である。本開示によって提供されるニューラルネットワークの量子化パラメータの確定方法のフローチャートである。対称的な固定小数点数での表示の概略図である。オフセットが導入された固定小数点数での表示の概略図である。トレーニング過程におけるニューラルネットワークの重みデータの変動幅の第１グラフである。トレーニング過程におけるニューラルネットワークの重みデータの変動幅の第２グラフである。目標反復間隔を確定する方法の第１フローチャートである。目標反復間隔を確定する方法の第２フローチャートである。目標反復間隔の確定方法の第３フローチャートである。本開示の一実施形態におけるデータビット幅の調整方法８００Ｂを示すフローチャートである。本開示の別の一実施形態におけるデータビット幅の調整方法を示すフローチャートである。本開示のまた別の一実施形態におけるデータビット幅の調整方法を示すフローチャートである。本開示のさらに別の一実施形態におけるデータビット幅の調整方法を示すフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法を示すフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法を示すフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法を示すフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法を示すフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法を示すフローチャートである。本開示の一実施形態の量子化パラメータの調整方法を示すフローチャートである。本開示の一実施形態の演算過程における量子化すべきデータの変動傾向図である。本開示の一実施形態のパラメータ調整方法における目標反復間隔の確定方法を示すフローチャートである。本開示の一実施形態における小数点位置の変動幅の確定方法を示すフローチャートである。本開示の一実施形態における第２平均値の確定方法を示すフローチャートである。本開示の別の一実施形態における第２平均値の確定方法を示すフローチャートである。本開示の別の一実施形態による量子化パラメータの調整方法を示すフローチャートである。本開示の一実施形態による量子化パラメータの調整方法における量子化パラメータの調整のフローチャートである。本開示の別の一実施形態のパラメータ調整方法における目標反復間隔の確定方法を示すフローチャートである。本開示の別の一実施形態のパラメータ調整方法における目標反復間隔の確定方法を示すフローチャートである。本開示のまた別の一実施形態による量子化パラメータの調整方法を示すフローチャートである。本開示のさらに別の一実施形態による量子化パラメータの調整方法を示すフローチャートである。本開示によって提供されるニューラルネットワークの量子化パラメータの確定装置のハードウェア構成のブロック図である。本開示によって提供されるニューラルネットワークの量子化パラメータ確定装置の人工知能プロセッサのチップにおける応用の概略図である。本開示によって提供されるニューラルネットワークの量子化パラメータの確定装置の機能ブロック図である。本開示の実施形態によるＰＣＢボードの構造ブロック図である。ニューラルネットワークの量子化の問題を解決するために、図２－１から図２－３１を含む次の技術案（２０１９１０５０５２３９．７）を提供した。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワーク量子化方法において、量子化パラメータがオフセットを含まない場合の、量子化前後のデータ対応概略図である。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワーク量子化方法において、量子化パラメータがオフセットを含む場合の、量子化前後のデータ対応概略図である。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化方法のフローチャートである。本開示の実施形態によるニューラルネットワークの量子化装置の概略図である。本開示の実施形態によるニューラルネットワークの量子化装置の概略図である。本開示の実施形態によるニューラルネットワークの量子化装置の概略図である。本開示の実施形態によるニューラルネットワークの量子化装置の概略図である。本開示の実施形態によるニューラルネットワークの量子化装置の概略図である。本開示の実施形態によるＰＣＢボードのブロック図である。量子化パラメータ調整の問題を解決するために、図３－１から図３－２５を含む以下の技術案（２０１９１０５２８５３７．８）を提供した。本開示の一実施形態による、量子化パラメータの調整方法の応用環境の概略図である。本開示の一実施形態による、量子化すべきデータと量子化後のデータとの間の対応関係の概略図である。本開示の実施形態による量子化すべきデータの変換の概略図である。本開示の一実施形態による、量子化パラメータの調整方法のフローチャートである。本開示の一実施形態の演算過程における量子化すべきデータの変動傾向図である。本開示の一実施形態のパラメータ調整法における目標反復間隔の確定方法のフローチャートである。本開示の一実施形態における小数点位置の変動幅の確定方法のフローチャートである。本開示の一実施形態における第２平均値の確定方法のフローチャートである。本開示の一実施形態におけるデータビット幅の調整方法のフローチャートである。本開示の別の一実施形態におけるデータビット幅の調整方法のフローチャートである。本開示のまた別の一実施形態におけるデータビット幅の調整方法のフローチャートである。本開示のさらに別の一実施形態におけるデータビット幅の調整方法のフローチャートである。本開示の別の一実施形態における第２平均値の確定方法のフローチャートである。本開示の別の一実施形態による、量子化パラメータの調整方法のフローチャートである。本開示の一実施形態による、量子化パラメータの調整方法における量子化パラメータの調整のフローチャートである。本開示の別の一実施形態による、パラメータ調整方法における目標反復間隔の確定方法のフローチャートである。本開示のまた別の一実施形態による、パラメータ調整方法における目標反復間隔の確定方法のフローチャートである。本開示のまた別の一実施形態による、量子化パラメータの調整方法のフローチャートである。本開示のさらに別の一実施形態による、量子化パラメータの調整方法のフローチャートである。本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック図を示す。本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック図である。本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック図である。本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック図である。本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック図である。本開示の実施形態によるＰＣＢボードの構造ブロック図である。

以下、本開示の実施形態における技術案は、本開示の実施形態における図面を参照して
明確かつ完全に説明される。明らかに、記載された実施形態は、本開示の実施形態の一部
であるが、すべての実施形態ではない。本開示の実施形態に基づいて、創造的な作業なし
に当業者によって得られる他のすべての実施形態は、本開示の保護範囲に含まれる。

本開示のアイテムや明細書および図面における「第１」、「第２」、「第３」および「
第４」等の用語は、特定の順序を説明するのではなく、異なる対象を区別するためのもの
であることを理解されたい。本開示の明細書およびアイテムで使用される「含む」および
「含む」という用語は、記載された特徴、全体、ステップ、操作、要素および／またはコ
ンポーネントの存在を示すが、１つまたは複数の他の特徴、全体、ステップ、操作、要素
、コンポーネント、および／またはそれらのコンビネーションの存在または追加を除外し
ない。

本開示の明細書で使用される用語は、特定の実施形態を説明することのみを目的として
おり、本開示を限定することを意図するものではないことも理解されたい。本開示の明細
書およびアイテムで使用されているように、文脈が他の状況を明確に示さない限り、単数
形「一」、「一つ」および「この」は複数形を含むことを意図している。本開示の明細書
およびアイテムで使用される「および／または」という用語は、関連してリストされた１
つまたは複数の項目の任意の組み合わせおよびすべての可能な組み合わせを指し、これら
の組み合わせを含むことをさらに理解されたい。

本明細書およびアイテムで使用されているように、「もし」という用語は、文脈に応じ
て、「…時」または「…すると」または「…確定したことに応じて」または「…検出した
ことに応じて」と解釈することができる。同様に、「確定すれば」または「［説明される
条件またはイベント］を検出すれば」という短句は、文脈に基づいて「確定したら」、「
確定することに応じて」、「［説明される条件またはイベント］を検出したら」、または
「［説明される条件またはイベント］を検出したことに応じて」を意味すると解釈されて
もよい。

固定小数点数：共有指数（ｅｘｐｏｎｅｎｔ）、符号ビット（ｓｉｇｎ）、および仮数
（ｍａｎｔｉｓｓａ）の３つの部分で構成される。ここでは、共有指数とは、指数が量子
化する必要のある実数の集合内で共有されることを意味する。符号ビットは、固定小数点
数が正または負であることを示す。仮数は、固定小数点数の有効桁数、つまり精度を決め
る。８ビットの固定小数点数のタイプを例にとると、その数値計算方法は次のとおりであ
る：
ｖａｌｕｅ＝（－１）^ｓｉｇｎＸ（ｍａｎｔｉｓｓａ）Ｘ２^{（ｅｃｐｏｎｅｎｔ－１}
^２７）

２進数の小数：任意の１０進数を式Σｊ＊１０^ｉで表すことができる。たとえば、１０
進数の１２．３４は式１で表されると、１２．３４＝１＊１０^１＋２＊１０^０＋３＊１０
^－１＋４＊１０^－２となる。小数点の左側は１０の正の冪乗としてカウントされ、小数点
の右側は１０の負の冪乗としてカウントされる。同様に、２進数の小数もこのように表す
ことができ、小数点の左側は２の正の冪乗であり、小数点の右側は２の負の冪乗としてカ
ウントされる。１０進数の小数５．７５は、２進数の小数の１０１．１１で表すことがで
き、この２進数の小数は、５．７５＝１＊２^２＋０＊２^１＋１＊２^０＋１＊２^－１＋１＊
２^－２と表す。

オーバーフロー：固定小数点演算ユニットでは、数値表現には特定の範囲がある。演算
過程において、数値のサイズが固定小数点数で表すことができる範囲を超える場合、「オ
ーバーフロー」と呼ばれる。

ＫＬダイバージェンス（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ）
：相対エントロピー（ｒｅｌａｔｉｖｅｅｎｔｒｏｐｙ）、情報ダイバージェンス（ｉ
ｎｆｏｒｍａｔｉｏｎｄｉｖｅｒｇｅｎｃｅ）、情報利得（ｉｎｆｏｒｍａｔｉｏｎ
ｇａｉｎ）とも呼ばれる。ＫＬダイバージェンスは、２つの確率分布ＰとＱの間の差の非
対称性の測度である。ＫＬダイバージェンスは、Ｑベースのコーディングを使用してＰか
らのサンプルをエンコードするために平均して必要な追加ビット数の測度である。通常、
Ｐはデータの真の分布を表し、Ｑはデータの理論分布、モデル分布、またはＰの近似分布
を表す。

データビット幅：データを表すためのビット数。

量子化：従来３２ビットまたは６４ビットで表していた高精度の数値を、メモリスペー
スを節約する固定小数点数に変換する過程であり、高精度の数値を固定小数点数に変換す
る過程は、精度のある程度の低下を引き起こす。

以下は、図面を参照して、本開示の実施形態によって提供される、ニューラルネットワ
ークの量子化パラメータの確定方法および関連製品の具体的な実施形態を詳細に説明する
。

ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ、ＮＮ）は、生物学のニュー
ラルネットワークの構造と機能を模倣する数学モデルである。ニューラルネットワークは
、多数のニューロンによって接続され計算を行う。したがって、ニューラルネットワーク
は、相互に接続された多数のノード（または「ニューロン」と呼ばれる）で構成される計
算モデルである。各ノードは、活性化関数（ａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ）
と呼ばれる特定の出力関数を表す。２つごとのニューロン間の接続は、この接続を通過す
る信号の重み付き値を表し、重みと呼ばれ、これはニューラルネットワークの記憶に相当
する。ニューラルネットワークの出力は、ニューロン間の接続方法、重み、活性化関数に
よって異なる。ニューラルネットワークにおいて、ニューロンはニューラルネットワーク
の基本単位である。特定の数の入力とオフセットを取得し、信号（値）が到着すると、重
みと乗算される。接続とは、ニューロンを別の層または同じ層内の別のニューロンに接続
することであり、接続にはそれに関連付けられた重みが伴う。さらに、オフセットはニュ
ーロンへの追加入力であり、常に１であり、独自の接続重みを持つ。これにより、すべて
の入力がヌル（すべて０）の場合でも、ニューロンを活性化することができる。

応用では、非線形関数がニューラルネットワーク内のニューロンに応用されない場合、
ニューラルネットワークは単なる線形関数であり、すると、単一のニューロンよりも強力
ではない。ニューラルネットワークの出力結果が０から１の間にする場合、たとえば猫と
犬の識別の場合、０に近い出力は猫と見なされ、１に近い出力は犬と見なされる。この目
標を達成するために、ｓｉｇｍｏｉｄ活性化関数などの活性化関数がニューラルネットワ
ークに導入される。この活性化関数に関しては、その戻り値が０から１の間の数値である
ことを知っておくだけでよい。したがって、活性化関数はニューラルネットワークに非線
形性を導入するためであり、ニューラルネットワークの演算結果をより狭い範囲に絞る。
実際、活性化関数がどのように表現されるかは重要ではない。重要なことは、いくつかの
重みによって一つの非線形関数をパラメータ化することであり、これらの重みを変更する
ことでこの非線形関数を変更することができる。

図１に示すように、これはニューラルネットワーク構造の概略図である。図１に示すニ
ューラルネットワークには、入力層、隠れ層、出力層の３つの層があり、図１に示す隠れ
層には５つの層がある。ここで、ニューラルネットワークの一番左端の層は入力層と呼ば
れ、入力層のニューロンは入力ニューロンと呼ばれる。入力層はニューラルネットワーク
の第１層であり、必要な入力信号（値）を受け入れて次の層に伝送する。通常、入力層は
入力信号（値）に対して操作を行わなく、関連する重みとオフセットもない。図１に示す
ニューラルネットワークには、４つの入力信号ｘ１、ｘ２、ｘ３、ｘ４がある。

隠れ層には、入力データにさまざまな変換を応用するためのニューロン（ノード）が含
まれている。図１に示すニューラルネットワークには、５つの隠れ層がある。第１隠れ層
には４つのニューロン（ノード）があり、第２層には５つのニューロンがあり、第３層に
は６つのニューロンがあり、第４層には４つのニューロンがあり、第５層には３つのニュ
ーロンがある。最後に、隠れ層はニューロンの演算値を出力層に伝送する。図１に示すニ
ューラルネットワークは、５つの隠れ層における各ニューロンを完全に接続する。つまり
、各隠れ層の各ニューロンは、次の層の各ニューロンに接続される。すべてのニューラル
ネットワークの隠れ層が完全に接続されているわけではないことに注意されたい。

図１において、ニューラルネットワークの一番右端の層は出力層と呼ばれ、出力層のニ
ューロンは出力ニューロンと呼ばれる。出力層は、最後の隠れ層からの出力を受け取る。
図１に示すニューラルネットワークでは、出力層には３つのニューロンと３つの出力信号
ｙ１、ｙ２、およびｙ３がある。

実際の応用では、初期のニューラルネットワークをトレーニングするために、事前に多
数のサンプルデータ（入力と出力を含む）が提供され、トレーニングが完了した後、トレ
ーニングされたニューラルネットワークが取得される。このニューラルネットワークは、
将来の実際の環境での入力に対して正しい出力を提供できる。

ニューラルネットワークのトレーニングについて検討する前に、損失関数を定義する必
要がある。損失関数は、特定のタスクを実行する際のニューラルネットワークを評価する
パフォーマンス関数である。いくつかの実施形態では、損失関数は、以下のように得るこ
とができる：特定のニューラルネットワークをトレーニングする過程において、各サンプ
ルデータをニューラルネットワークに沿って伝送し、出力値を得る。次にこの出力値と期
待値との減算を行い、その差が二乗される。このように計算された損失関数は、予測値と
真の値の間の差別である。ニューラルネットワークをトレーニングする目的は、この差別
または損失関数の値を減少することである。いくつかの実施形態では、損失関数は次のよ
うに表すことができる：

ニューラルネットワークのトレーニングの開始時に、重みをランダムに初期化する必要
がある。明らかに、初期化されたニューラルネットワークは良い結果を提供しない。トレ
ーニング過程では、悪いニューラルネットワークから始めたとすると、トレーニングを通
じて、高精度のネットワークを取得できる。

ニューラルネットワークのトレーニング過程は２つの段階に分かれている。第１段階は
、入力層から隠れ層、最後に出力層への信号の順方向処理である。第２段階は、出力層か
ら隠れ層、最後に入力層への逆方向伝播勾配であり、勾配によって、ニューラルネットワ
ークの各層の重みとオフセットが順番に調整される。

順方向処理の過程において、入力値はニューラルネットワークの入力層に入力され、い
わゆる予測値の出力はニューラルネットワークの出力層から取得される。入力値がニュー
ラルネットワークの入力層に提供されるとき、何の操作もしない。隠れ層では、第２隠れ
層が第１隠れ層から予測中間結果値を取得し、計算操作および活性化操作を実行してから
、取得した中間予測結果値を次の隠れ層に伝送する。後続の層で同じ操作を実行し、最後
にニューラルネットワークの出力層で出力値を取得する。

順方向処理後、予測値と呼ばれる出力値が得られる。誤差を計算するために、予測値が
実際の出力値と比較され、対応する誤差値が取得される。逆方向伝播は微分学のチェーン
ルールを使用する。チェーンルールでは、最初にニューラルネットワークの最後の層に対
応する重みの誤差値の導関数が計算される。これらの導関数を勾配と呼び、次にこれらの
勾配を使用して、ニューラルネットワークの最後から第２層の勾配を計算する。ニューラ
ルネットワークの各重みに対応する勾配が得られるまで、この過程を繰り返す。最後に、
ニューラルネットワークの各重みから対応する勾配を差し引き、重みが１回更新され、誤
差値を減少させる目的を達成する。

ニューラルネットワークの場合、微調整とは、トレーニングされたニューラルネットワ
ークをロードすることである。微調整過程は、トレーニング過程と同じ、２つの段階に分
かれている。第１段階は信号の順方向処理で、第２段階は逆方向の伝搬勾配であり、トレ
ーニングされたニューラルネットワークの重みが更新される。トレーニングと微調整の違
いは、トレーニングは初期化されたニューラルネットワークをランダムに処理し、ニュー
ラルネットワークを最初からトレーニングすることであるが、微調整はそうではないこと
である。

ニューラルネットワークのトレーニングまたは微調整の過程では、ニューラルネットワ
ークに対して信号の順方向処理および対応する誤差の逆方向伝播過程を実行するたびに、
ニューラルネットワークの重みが勾配を使用して１回更新される。これは１回の反復（ｉ
ｔｅｒａｔｉｏｎ）と呼ばれる。精度が期待に応えるニューラルネットワークを取得する
には、トレーニング過程に非常に大きなサンプルデータセットが必要である。この場合、
サンプルデータセットを一度コンピュータに入力することはできない。したがって、この
問題を解決するには、サンプルデータセットを複数のブロックに分割し、各ブロックをコ
ンピュータに伝送する必要がある。データセットの各ブロックが順方向処理された後、そ
れに応じてニューラルネットワークの重みが一回更新される。一つの完全なサンプルデー
タセットがニューラルネットワークによって順方向処理を１回実行され、かつ対応する重
みの更新を１回返す場合、この過程は周期（ｅｐｏｃｈ）と呼ばれる。実際には、完全な
データセットをニューラルネットワークで１回伝送するだけでは不十分であり、完全なデ
ータセットを同じニューラルネットワークで複数回伝送する必要がある。つまり、最終的
に期待される精度でニューラルネットワークを取得するには、複数の周期が必要である。

ニューラルネットワークのトレーニングまたは微調整の過程では、一般に、高速である
ほど優れており、精度が高いほど優れていることが望まれる。ニューラルネットワークに
おけるデータは浮動小数点数などの高精度のデータフォーマットで表現されるため、トレ
ーニングや微調整の過程において、関連するデータはすべて高精度のデータフォーマット
であり、続いてトレーニングされたニューラルネットワークが量子化される。量子化され
る対象がニューラルネットワーク全体の重みで、かつ量子化された重みがすべて８ビット
の固定小数点数であるとすると、ニューラルネットワークには接続が数百万もあることが
多いため、ほとんどすべてのスペースがニューロンの接続の重みに占められている。それ
に、これらの重みはすべて異なる浮動小数点数である。各層の重みは、（－３．０、３．
０）などの特定の区間の正規分布になる傾向がある。ニューラルネットワークの各層の重
みに対応する最大値と最小値が保存され、各浮動小数点値は８ビットの固定小数点数で表
される。ここで、最大値と最小値の範囲内の区間で２５６の量子化間隔に線形に分割され
、各量子化間隔は８ビットの固定小数点数で表される。例えば、区間（－３．０、３．０
）では、バイト０は－３．０を表し、バイト２５５は３．０を表す。このように類推する
と、バイト１２８は０を表す。

高精度のデータフォーマットで表されるデータの場合、浮動小数点数を例にとると、コ
ンピュータアーキテクチャによれば、浮動小数点数の演算表現規則、固定小数点数の演算
表現規則に基づき、同じ長さの固定小数点演算と浮動小数点演算については、浮動小数点
演算の計算モードはより複雑であり、浮動小数点演算ユニットを形成するには、より多く
のロジック装置が必要である。このように、体積に関しては、浮動小数点演算ユニットの
体積は固定小数点演算ユニットの体積よりも大きくなる。さらに、浮動小数点演算ユニッ
トは、処理にはより多くのリソースを消費する必要があるため、固定小数点演算と浮動小
数点演算の間の電力消費ギャップは通常、オーダー的である。つまり、浮動小数点演算器
が占めるチップ面積と消費電力は、固定小数点演算器の何倍にもなる。

ただし、浮動小数点演算はかけがえ的なものである。まず、固定小数点演算は直感的で
あるが、固定の小数点位置が固定桁数の整数部と小数部を確定するため、非常に大きい数
や非常に小さい数を同時に表現することができず、オーバーフローが発生する可能性があ
る。

さらに、具体的に、トレーニングまたは微調整に人工知能プロセッサのチップを使用す
る場合、主に監視付き学習を含むニューラルネットワークでは、浮動小数点演算のみがト
レーニング時の僅かなインクリメントを記録およびキャプチャ可能であるため、浮動小数
点演算器が通常好まれる。そのため、如何にして人工知能プロセッサのチップ面積や消費
電力を増加することなく、チップのトレーニングするための計算能力を大幅に向上させる
ことは、早急に解決する必要のある問題である。

当業者であれば、低ビット幅で表される固定小数点数を使用してトレーニングを行う場
合、実際のフィードバックによれば、逆伝播勾配を処理するためには、８ビットよりも大
きい固定小数点数を使用する必要があるため、低ビット幅で表される定点数を使用してト
レーニングを実行する過程は非常に複雑である。浮動小数点演算ユニットを固定小数点演
算ユニットに置き換えて、固定小数点演算の高速性を実現し、人工知能プロセッサのチッ
プのピーク計算能力を向上させるとともに演算に必要な浮動小数点演算の精度を満たす方
法は、この明細書で解決される技術的な問題である。

上記の技術の問題の説明によると、ニューラルネットワークの特徴の１つは、入力ノイ
ズに対する耐性が高いことである。画像内のオブジェクトを識別することを検討する場合
、ニューラルネットワークは主なノイズを無視して重要な類似点に焦点を合わせることが
できる。この機能は、ニューラルネットワークが低精度の計算をノイズ源として、記憶情
報が少ない数値形式でも正確な予測結果を生成できることを意味する。低精度のトレーニ
ングや微調整を行うには、データのオーバーフローを改善できるだけでなく、目標区間範
囲内の０に近いデータをより適切に表現できるユニバーサルなデータ表現を見つける必要
がある。したがって、このデータ表現は、トレーニングまたは微調整過程とともに調整で
きる適応性が必要である。

上記の説明に基づいて、図２に示されるように、本開示によって提供されるニューラル
ネットワークの量子化パラメータの確定方法のフローチャートである。図２に示す技術案
によって確定された量子化パラメータは、量子化すべきデータへのデータ表現に利用され
、量子化された固定小数点数を確認する。量子化された固定小数点数は、ニューラルネッ
トワークのトレーニング、微調整、または推理に使用される。この方法には次のステップ
が含まれる。

ステップ２０１）：量子化すべきデータを統計し、各種の量子化すべきデータの統計結
果を確定する。ここで、前記量子化すべきデータには、前記ニューラルネットワークのニ
ューロン、重み、勾配、およびオフセットのうち少なくとも１つが含まれる。

上記のように、ニューラルネットワークのトレーニングまたは微調整の過程では、ニュ
ーラルネットワークの各層には、それぞれニューロン、重み、勾配、オフセットの４種類
のデータが含まれる。推理過程では、ニューラルネットワークの各層に、ニューロン、重
み、オフセットの３種類のデータが含まれる。これらのデータは高精度のデータフォーマ
ットで表現されている。本明細書では、例として、高精度のデータとして浮動小数点数を
使用している。例としての浮動小数点数は、網羅的なリストではなく、例の一部のリスト
にすぎないことは明らかである。当業者は、技術案の本質を理解していれば、本開示の技
術案に基づいて他の変形や置換が可能である。たとえば、高精度のデータは、範囲が広く
、最小精度が低く、データビット幅が大きい固定小数点数にすることができる。本技術案
を使用して、データビット幅が小さい固定小数点数に変換できる。ただ、その実現された
機能および達成された技術効果が本開示と類似している限り、本開示の保護範囲に含まれ
るべきである。

ニューラルネットワークの構造の種類に関係なく、ニューラルネットワークのトレーニ
ングまたは微調整の過程において、量子化すべきデータには、ニューラルネットワークの
ニューロン、重み、勾配、およびオフセットのうち少なくとも１つが含まれる。推理過程
では、量子化すべきデータには、ニューラルネットワークのニューロン、重み、およびオ
フセットのうち少なくとも１つ含まれている。たとえば、量子化すべきデータが重みであ
るとすると、量子化すべきデータは、ニューラルネットワーク内の特定の層のすべての重
み、またはニューラルネットワーク内の特定の層の重みの一部にすることができる。この
層が畳み込み層の場合、量子化すべきデータは、この畳み込み層におけるチャンネル単位
でのすべての重みまたは重みの一部であってもよく、このチャネルはこの畳み込み層のチ
ャネルのすべてまたは一部である。畳み込み層のみがチャネルの概念を持ち、畳み込み層
では、重みサブ層のみがチャネルの方法で量子化されることを強調する必要がある。

以下では、量子化すべきデータがニューラルネットワーク内の目標層のニューロンと重
みの二つのデータであることを例として取り上げ、技術案について詳しく説明する。この
ステップでは、目標層の各層のニューロンと重みを個別に統計して、各種の量子化すべき
データの最大値と最小値を取得する。また、各種の量子化すべきデータの絶対値の最大値
も取得できる。ここで、ニューラルネットワークにおける量子化する必要のある層として
の目標層は、１つの層または複数の層にすることができる。１つの層を単位として、各種
の量子化すべきデータの絶対値の最大値は、各種の量子化すべきデータの最大値と最小値
によって確認できる。また、まず各種の量子化すべきデータの絶対値を計算し、絶対値の
計算結果をトラバースして、各種の量子化すべきデータの絶対値の最大値を取得すること
もできる。

実際の応用では、各種の量子化すべきデータの絶対値の最大値が、各種の量子化すべき
データの最大値と最小値によって取得される理由は、量子化のとき、通常の状況では、目
標層の各層の量子化すべきデータに対応する最大値と最小値が保存され、量子化すべきデ
ータの絶対値を計算するために多くのリソースを消費する必要はない。絶対値の最大値は
、保存された量子化すべきデータに対応する最大値と最小値に基づいて直接取得できる。

ステップ２０２）：各種の量子化すべきデータの統計結果とデータビット幅を使用して
、対応する量子化パラメータを確定する。ここで、前記量子化パラメータは、人工知能プ
ロセッサがニューラルネットワーク演算過程におけるデータを対応して量子化するための
ものである。

このステップでは、量子化パラメータを次の６つのケースに分けることができる。第１
ケース：量子化パラメータは小数点位置パラメータｓである。この場合、次の式（１）を
使用して、量子化すべきデータを量子化し、量子化データＩ_Ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／２^ｓ）（１）

ここでは、ｓは小数点位置パラメータ、Ｉ_Ｘはデータｘの量子化後のｎビットのバイナ
リ表現の値、Ｆ_Ｘはデータｘの量子化前の浮動小数点値、ｒｏｕｎｄは四捨五入の丸め演
算である。このｒｏｕｎｄの丸め演算に限定されるものではなく、他の丸め演算方法も使
用できることに注意されたい。たとえば、切り上げ、切り下げ、ゼロへの丸めなどの丸め
演算で式（１）のｒｏｕｎｄ丸め演算を置き換えてもよい。このとき、ｎビットの固定小
数点数で浮動小数点数を表せる最大値Ａは２ ^ｓ（２ ^ｎ－１－１）であり、ｎビットの固定
小数点数で量子化すべきデータの数値フィールドにおいて表せる最大値は２^ｓ（２^ｎ－１
－１）であり、ｎビットの固定小数点数で量子化すべきデータの数値フィールドにおいて
表せる最小値は－２^ｓ（２^ｎ－１－１）である。式（１）からわかるように、第１ケース
に対応する量子化パラメータを使用して、量子化すべきデータを量子化すると、量子化間
隔は２^ｓであり、量子化間隔はＣで表される。

Ｚは量子化すべきデータの数値フィールド内のすべての浮動小数点数の絶対値の最大値
であるとすると、ＡはＺを含める必要があり、かつＺはＡ／２より大きい必要があるため
、次の式（２）の制約がある。
２^ｓ（２^ｎ－１－１）＞＝Ｚ＞２^ｓ－１（２^ｎ－１－１）式（２）

ｌｎ（Ｚ／（２^ｎ－１－１））－１＞ｓ＞＝ｌｎ（Ｚ／（２^ｎ－１－１））であり、ｓ
＝ｃｅｉｌ（ｌｎ（Ｚ／（２^ｎ－１－１）））およびＡ＝（２＾ｃｅｉｌ（ｌｎ（Ｚ／（
２^ｎ－１－１））））（２^ｎ－１－１）が得られる。

第２ケース：量子化パラメータが第１スケーリング係数ｆ_１である。この場合、次の式
（４）を使用して、量子化すべきデータを量子化し、量子化データＩ_ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／ｆ_１）式（４）

ここでは、ｆ_１は第１スケーリング係数、Ｉ_ｘはデータｘの量子化後のｎビットのバイ
ナリ表現の値、Ｆ_ｘはデータｘの量子化前の浮動小数点値、ｒｏｕｎｄは四捨五入の丸め
によって実行される丸め演算である。このｒｏｕｎｄの丸め演算に限定されるものではな
く、他の丸め演算方法も使用できることに注意されたい。たとえば、切り上げ、切り下げ
、ゼロへの丸めなどの丸め演算で式（４）のｒｏｕｎｄ丸め演算を置き換えてもよい。式
（４）からわかるように、第２ケースに対応する量子化パラメータを使用して量子化すべ
きデータを量子化するとき、量子化間隔はｆ_１であり、量子化間隔はＣで表される。

第１スケーリング係数ｆ_１には、次のような状況がある。小数点位置パラメータｓが固
定の既知の値であり、変更されなくなった場合、２^ｓ＝ＴとしかつＴを固定値とすると、
ｎビットの固定小数点数で表せる浮動小数点数の最大値Ａは、（２^ｎ－１－１）ｘＴであ
る。この場合、最大値Ａはデータビット幅ｎに依存する。このとき、量子化すべきデータ
の数値フィールドにあるすべての数値の絶対値の最大値をＺとすると、ｆ _１＝Ｚ／（２ ^ｎ
^－１－１）であり、この場合、Ｚ＝（２ ^ｎ－１－１）ｘｆ _１である。ｎビットの固定小数
点数で表せる量子化すべきデータの数値フィールドの最大値が（２ ^ｎ－１－１）ｘｆ _１で
あり、ｎビットの固定小数点数で表せる量子化すべきデータの数値フィールドの最小値が
－（２ ^ｎ－１－１）ｘｆ _１である。エンジニアリング応用では、２ ^ｓｘｆ _２を全体として
第１スケーリング係数とした別のケースがある。この場合、独立した小数点位置パラメー
タｓは存在しないと見なすことができる。ここでは、ｆ _２は第２スケーリング係数である
。Ｚを量子化すべきデータの数値フィールドにあるすべての数値の絶対値の最大値とする
と、ｆ _１＝Ｚ／（２ ^ｎ－１－１）であり、このとき、Ｚ＝（２ ^ｎ－１－１）ｘｆ _１である
。ｎビットの固定小数点数で表せる量子化すべきデータの数値フィールドの最大値が（２
^ｎ－１－１）ｘｆ _１であり、ｎビットの固定小数点数で表せる量子化すべきデータの数値
フィールドの最小値が－（２ ^ｎ－１－１）×ｆ _１である。

第３ケース：量子化パラメータは、小数点位置パラメータｓと第２スケーリング係数ｆ
_２である。この場合、次の式（６）を使用して、量子化すべきデータを量子化し、量子化
データＩ_ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／（２^ｓｘｆ_２））式（６）

ここでは、ｓは小数点位置パラメータ、ｆ_２は第２スケーリング係数で、ｆ_２＝Ｚ／（
２^ｓ（２^ｎ－１－１））であり、Ｉ_ｘはデータｘの量子化後のｎビットのバイナリ表現の
値、Ｆ_Ｘはデータｘ量子化前の浮動小数点値、ｒｏｕｎｄは四捨五入の丸め演算である。
このｒｏｕｎｄの丸め演算に限定されるものではなく、他の丸め演算方法も使用できるこ
とに注意されたい。たとえば、切り上げ、切り下げ、ゼロへの丸めなどの丸め演算で式（
６）のｒｏｕｎｄ丸め演算を置き換えてもよい。量子化すべきデータの数値フィールドで
、ｎビットの固定小数点数で表せる最大値Ａは２^ｓ（２^ｎ－１－１）である。式（６）か
らわかるように、第３ケースに対応する量子化パラメータを使用して量子化すべきデータ
を量子化するとき、量子化間隔は２^ｓｘｆ_２であり、量子化間隔はＣで表される。

量子化すべきデータの数値フィールドにおけるすべての数値の絶対値の最大値をＺとす
る。このとき、式（２）によって、次の式が得られる。
１＞＝Ｚ／（２^ｓ（２^ｎ－１－１））＞１／２、即ち１＞＝Ｚ／Ａ＞１／２、１＞＝ｆ
_２＞１／２

ｆ_２＝Ｚ／（２^ｓ（２^ｎ－１－１））＝Ｚ／Ａの場合、式（２）によれば、Ｚは損失な
く正確に表現できる。ｆ_２＝１の場合、式（６）および式（１）は、ｓ＝ｃｅｉｌ（ｌｎ
（Ｚ／（２^ｎ－１－１）））である。ｎビットの固定小数点数で表せる、量子化すべきデ
ータの数値フィールドの最大値が（２^ｎ－１－１）ｘ２^ｓｘｆ_２であり、ｎビットの固定
小数点数で表せる、量子化すべきデータの数値フィールドの最小値が－（２^ｎ－１－１）
ｘ２^ｓｘｆ_２である。

図３に示すように、対称固定小数点数の表現の概略図である。図３に示す量子化すべき
データの数値フィールドは、「０」を対称中心として分布されている。Ｚは、量子化すべ
きデータの数値フィールド内のすべての浮動小数点数の絶対値の最大値である。図３は、
Ａはｎビットの固定小数点数で表すことができる浮動小数点数の最大値である。浮動小数
点数Ａから固定小数点数２^ｎ－１－１への変換はである。オーバーフローを回避するには
、ＡはＺを含める必要がある。実際には、ニューラルネットワーク演算過程での浮動小数
点データは一定の間隔で正規分布する傾向があるが、対称中心が「０」の分布を必ずしも
満たすとは限らない。このとき、固定小数点数で表すとオーバーフローが発生しやすくな
る。この状況を改善するために、図４に示すように、オフセットが量子化パラメータに導
入される。図４では、量子化すべきデータの数値フィールドは、「０」を中心として対称
的に分布していない。Ｚ_ｍｉｎは、量子化すべきデータの数値フィールドのすべての浮動
小数点数の最小値であり、Ｚ_ｍａｘは量子化すべきデータの数値フィールドのすべての浮
動小数点数の最大値である。ＰはＺ_ｍｉｎ～Ｚ_ｍａｘの間の中心点であり、全体として量
子化すべきデータの数値フィールドをシフトして、変換後に量子化すべきデータの数値フ
ィールドが「０」を対称中心として分散されるようにし、変換後に量子化すべきデータの
数値フィールドは絶対値の最大値はＺである。図４からわかるように、オフセットは点「
０」から点「Ｐ」までの水平距離であり、この距離はオフセットＯと呼ばれている。ここ
では、０＝（Ｚ_ｍａｘ＋Ｚ_ｍｉｎ）／２で、Ｚ＝（Ｚ_ｍａｘ－Ｚ_ｍｉｎ）／２である。

上記のオフセットＯの説明に基づいて、第４ケースの量子化パラメータのケースが表さ
れる。第４ケース：量子化パラメータには、小数点位置パラメータとオフセットが含まれ
る。この場合、次の式（８）を使用して、量子化すべきデータを量子化し、量子化データ
Ｉ_ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（（Ｆ_ｘ－Ｏ）／２^ｓ）式（８）

ここでは、ｓは小数点位置パラメータ、Ｏはオフセット、０＝（Ｚ_ｍａｘ＋Ｚ_ｍｉｎ）
／２で、Ｉ _ｘはデータｘの量子化後のｎビットのバイナリ表現の値、Ｆ_Ｘはデータｘ量子
化前の浮動小数点値、ｒｏｕｎｄは四捨五入の丸め演算である。このｒｏｕｎｄの丸め演
算に限定されるものではなく、他の丸め演算方法も使用できることに注意されたい。たと
えば、切り上げ、切り下げ、ゼロへの丸めなどの丸め演算で式（８）のｒｏｕｎｄ丸め演
算を置き換えてもよい。このとき、ｎビットの固定小数点数で浮動小数点数を表せる最大
値Ａは２^ｓ（２^ｎ－１－１）であり、すると、ｎビットの固定小数点数で量子化すべきデ
ータの数値フィールドにおいて表せる最大値は２ ^ｓ（２ ^ｎ－１－１）＋Ｏであり、ｎビッ
トの固定小数点数で量子化すべきデータの数値フィールドにおいて表せる最小値は－２^ｓ
（２^ｎ－１－１）＋Ｏである。式（８）から分かるように、第４ケースに対応する量子化
パラメータを使用して量子化すべきデータを量子化すると、量子化間隔は２^ｓであり、量
子化間隔はＣで表される。

上記のオフセットＯの説明によって、第５の量子化パラメータのケースが表れる。第５
ケース：量子化パラメータには、第１スケーリング係数ｆ_１とオフセットＯが含まれる。
この場合、次の式（１０）を使用して、量子化すべきデータを量子化し、量子化データＩ
_ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（（Ｆ_ｘ－Ｏ）／ｆ_１）式（１０）

ここで、ｆ_１は第１スケーリング係数、Ｏはオフセット、Ｉ_ｘはデータｘの量子化後の
ｎビットのバイナリ表現の値、Ｆ_ｘはデータ量子化前の浮動小数点値であり、ｒｏｕｎｄ
は四捨五入の丸め演算である。このｒｏｕｎｄの丸め演算に限定されるものではなく、他
の丸め演算方法も使用できることに注意されたい。たとえば、切り上げ、切り下げ、ゼロ
への丸めなどの丸め演算で式（１０）のｒｏｕｎｄ丸め演算を置き換えてもよい。このと
き、小数点位置パラメータｓが既知の固定値であり、変化しなくなり、２^ｓ＝Ｔとすると
、Ｔを固定値とするという状況がある。次に、ｎビットの固定小数点数で表せる浮動小数
点数の最大値Ａは（２^ｎ－１－１）ｘＴである。この場合、最大値Ａはデータビット幅ｎ
に依存する。このとき、量子化すべきデータの数値フィールドの全ての数値の絶対値の最
大値をＺとして設定すると、ｆ_１＝Ｚ／（２^ｎ－１－１）となり、Ｚ＝（２^ｎ－１－１）
ｘｆ_１となる。ｎビットの固定小数点数で表せる量子化すべきデータの数値フィールドの
最大値が（２^ｎ－１－１）ｘｆ_１であり、ｎビットの固定小数点数で表せる量子化すべき
データの数値フィールドの最小値が－（２^ｎ－１－１）ｘｆ_１である。エンジニアリング
応用では、２^ｓｘｆ_２は全体として第１スケーリング係数として別のケースがある。この
場合、独立した小数点位置パラメータは存在しないと見なすことができる。ｆ_２は第２ス
ケーリング係数である。量子化すべきデータの数値フィールドにあるすべての数値の絶対
値の最大値をＺとすると、ｆ_１＝Ｚ／（２^ｎ－１－１）であり、このとき、Ｚ＝（２^ｎ－
^１－１）ｘｆ_１とする。ｎビットの固定小数点数で表せる量子化すべきデータの数値フィ
ールドの最大値が（２^ｎ－１－１）ｘｆ_１＋Ｏであるが、ｎビットの固定小数点数で表せ
る量子化すべきデータの数値フィールドの最小値が－（２^ｎ－１－１）ｘｆ_１＋Ｏである
。

式（１０）からわかるように、第５ケースに対応する量子化パラメータを使用して量子
化すべきデータを量子化すると、量子化間隔はｆ_１であり、量子化間隔はＣである。

上記のオフセットＯの説明に基づいて、第６の量子化パラメータのケースが表される。
第６ケース：量子化パラメータには、小数点位置パラメータ、第２スケーリング係数ｆ_２
、およびオフセットＯが含まれる。この場合、次の式（１２）を使用して、量子化すべき
データを量子化し、量子化データＩ_ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（（Ｆ_ｘ－Ｏ）／（２^ｓｘｆ_２））式（１２）

ここでは、ｓは小数点位置パラメータで、オフセットＯ、ｆ_２は第２スケーリング係数
で、ｆ_２＝Ｚ／（２^ｓ（２^ｎ－１－１））かつＺ＝（Ｚ_ｍａｘ－Ｚ_ｍｉｎ）／２であり、
Ｉ_ｘはデータｘの量子化後のｎビットのバイナリ表現の値、Ｆ_ｘはデータｘの量子化前の
浮動小数点値であり、ｒｏｕｎｄは四捨五入の丸め演算である。このｒｏｕｎｄの丸め演
算に限定されるものではなく、他の丸め演算方法も使用できることに注意されたい。たと
えば、切り上げ、切り下げ、ゼロへの丸めなどの丸め演算で式（１２）のｒｏｕｎｄ丸め
演算を置き換えてもよい。ｎビットの固定小数点数で表せる量子化すべきデータの数値フ
ィールドでの最大値Ａは２^ｓ（２^ｎ－１－１）である。式（１２）からわかるように、第
６ケースに対応する量子化パラメータを使用して量子化すべきデータを量子化すると、量
子化間隔は２^ｓｘｆ_２であり、量子化間隔はＣで表される。

ｆ_２＝Ｚ／（２^ｓ（２^ｎ－１－１））＝Ｚ／Ａの場合、式（２）によれば、Ｚは損失な
く正確に表現できる。ｆ_２＝１の場合、ｓ＝ｃｅｉｌ（ｌｎ（（Ｚ _ｍａｘ－Ｚ _ｍｉｎ／２
（２ ^ｎ－１－１）））である。ｎビットの固定小数点数で表せる量子化すべきデータの数
値フィールドの最大値が（２^ｎ－１－１）ｘ２^ｓｘｆ_２＋Ｏであるが、ｎビットの固定小
数点数で表せる量子化すべきデータの数値フィールドの最小値が－（２^ｎ－１－１）ｘ２
^ｓｘｆ_２＋Ｏである。

６つの量子化パラメータの確定過程に関する上記の詳細な説明は、実施形態の一例にす
ぎない。量子化パラメータのタイプは、異なる実施形態における上記の説明とは異なる場
合がある。式（１）～式（１３）からわかるように、小数点位置パラメータとスケーリン
グ係数はすべてデータビット幅に関連している。データビット幅が異なると、小数点位置
パラメータとスケーリング係数が異なるため、量子化の精度に影響する。トレーニングま
たは微調整の過程において、特定の反復（ｉｔｅｒａｔｉｏｎｓ）の回数範囲内で、同じ
データ幅の量子化を使用しても、ニューラルネットワーク演算の全体的な精度にはほとん
ど影響しない。特定の回数の反復を超えて、同じデータビット幅の量子化の使用はトレー
ニングまたは微調整の精度需要を満たすことができない。これには、トレーニングまたは
微調整過程とともにデータビット幅ｎを調整する必要がある。簡単にすると、データビッ
ト幅ｎを手動で設定できる。異なる反復の回数範囲で、予め設定された対応するデータビ
ット幅ｎを呼び出す。ただし、上記のように、低ビット幅で表される固定小数点数を使用
してトレーニングを実行する過程は非常に複雑である。データビット幅を事前に設定する
ような人為的な調整方法は、基本的に実際の応用の需要を満たしていない。

本技術案では、データビット幅ｎは量子化誤差ｄｉｆｆ _ｂｉｔによって調整される。よ
り詳細には、量子化誤差ｄｉｆｆ _ｂｉｔを閾値と比較し、比較結果を取得する。ここで、
閾値は第１閾値と第２閾値を含み、第１閾値が第２閾値よりも大きい。比較結果には３つ
のケースがある。第１ケースは、量子化誤差ｄｉｆｆ _ｂｉｔが第１閾値以上のことである
。この場合、データビット幅を増加する。第２ケースは、量子化誤差ｄｉｆｆ _ｂｉｔが第
２閾値以下のことである。この場合、データビット幅を減少する。第３ケースは、量子化
誤差ｄｉｆｆ _ｂｉｔが第１閾値と第２閾値の間にあることである。この場合、データビッ
ト幅は変更されない。実際の応用では、第１閾値と第２閾値は、経験値であってもよいし
、可変ハイパーパラメータであってもよい。従来のハイパーパラメータ最適化方法は、第
１閾値と第２閾値に適しており、ハイパーパラメータ最適化案はここでは繰り返されない
。

データビット幅は、固定ビットのステップ長さによって調整できること、または量子化
誤差と誤差閾値の差によって調整できることを強調する必要がある。データビット幅は、
可変な調整ステップ長さによって、データビット幅を調整し、最終的にニューラルネット
ワークの演算過程の実際のニーズに応じて、データビット幅をより長くまたはより短く調
整できる。たとえば、現在の畳み込み層のデータビット幅ｎは１６であり、データビット
幅ｎは量子化誤差ｄｉｆｆ _ｂｉｔに応じて１２に調整される。つまり、実際の応用では、
データビット幅ｎを１６ではなく１２にするたけで、ニューラルネットワークの演算過程
の精度需要を満たすため、精度の許容範囲内で固定小数点の演算速度を大幅に向上させる
ことができる。これにより、人工知能プロセッサのチップのリソース使用率が向上する。

量子化誤差ｄｉｆｆ_ｂｉｔの場合、量子化誤差は、量子化後のデータおよび量子化前の
対応するデータによって確定される。実際の応用では、３つの量子化誤差確定方法があり
、それらはすべて本技術案に応用できる。第１方式：量子化間隔、量子化後のデータの数
、および量子化前の対応するデータによって、式（１４）によって量子化誤差を確定する
。
ｄｉｆｆ_ｂｉｔ＝ｌｎ（Ｃ＊２^－１＊ｍ／Σ_ｉ｜Ｆ_ｉ｜）
式（１４）

ここで、Ｃは量子化における対応する量子化間隔、ｍは量子化後に取得された量子化す
べきデータの数、Ｆ_ｉは量子化すべきデータに対応する浮動小数点値、ｉは量子化すべき
データセット内のデータの添え字である。

第２方式：量子化後のデータと対応する逆量子化データによって、式（１５）によって
量子化誤差ｄｉｆｆ_ｂｉｔを確定する。

量子化誤差ｄｉｆｆ_ｂｉｔを取得するための上記の方法は単なる例であり、網羅的なリ
ストではないことを強調すべきである。当業者は、本開示の技術案の本質から逸脱するこ
となく、本開示の技術案に基づいて、他の変形または置換を生成する可能性があり、量子
化後のデータおよび量子化前の対応するデータに基づいて量子化誤差を確定することをサ
ポートする変形式であれば、それによる機能および技術の効果が本開示のものと類似して
いる限り、すべて本開示の保護範囲に属するものである。

データビット幅については、図５ａは、トレーニング過程におけるニューラルネットワ
ークの重みデータの変動幅の第１グラフである。図５ｂは、トレーニング過程におけるニ
ューラルネットワークの重みデータの変動幅の第２グラフである。図５ａおよび５ｂでは
、横軸は反復回数を表し、縦軸は対数を取った後の重みの最大値を表す。図５ａに示され
る重みデータ変動幅曲線は、ニューラルネットワークの任意の畳み込み層の同じ周期（ｅ
ｐｏｃｈ）における異なる反復に対応する重みデータの変動状況を示している。図５ｂで
は、ｃｏｎｖ０層は重みデータ変動幅曲線Ａに対応し、ｃｏｎｖ１層は重みデータ変動幅
曲線Ｂに対応し、ｃｏｎｖ２層は重みデータ変動幅曲線Ｃに対応し、ｃｏｎｖ３層は重み
データ変動幅曲線Ｄに対応し、ｃｏｎｖ４は重みデータ変動幅曲線ｅに対応する。図５ａ
と図５ｂからわかるように、同じ周期（ｅｐｏｃｈ）で、トレーニングの初期段階では、
各反復での重み変動幅が比較的大きい。トレーニングの中期および後期では、各反復での
重みの変動幅はそれほど大きくならない。この場合、トレーニングの中期および後期では
、各反復の前後で重みデータがほとんど変化しないため、各反復に対応する層の重みデー
タは、特定の反復間隔内で類似性があり、ニューラルネットワークトレーニング過程では
、各層に係るデータ量子化のとき、前の反復のときに対応する層の量子化で使用されたデ
ータビット幅を使用できる。ただし、トレーニングの初期段階では、各反復の前後で重み
データが比較的大きく変化するため、量子化に必要な浮動小数点演算の精度を満たすため
に、トレーニング初期段階の各反復において、前の反復のときに対応する層の量子化時に
使用したデータビット幅を使用して、現在反復の対応する層の重みデータを量子化するか
、現在の層のプリセットデータビット幅ｎに基づいて現在の層の重みデータを量子化して
、量子化された固定小数点数を取得する。量子化された重みデータと量子化前の対応する
重みデータによって量子化誤差ｄｉｆｆ_ｂｉｔを確定する。量子化誤差ｄｉｆｆ_ｂｉｔと
閾値の比較結果によって、前の反復のとき、対応する層の量子化に使用されたデータビッ
ト幅ｎ、または現在の層のプリセットのデータビット幅ｎを調整し、調整後データビット
幅が現在反復の対応する層の重みデータの量子化に応用される。さらに、トレーニングま
たは微調整の過程では、ニューラルネットワークの各層間の重みデータは互いに独立して
おり、類似性はない。重みデータには類似性がないため、各層間のニューロンデータも互
いに独立しており、類似性はない。したがって、ニューラルネットワークのトレーニング
または微調整過程では、ニューラルネットワークの各反復における各層のデータビット幅
は、対応するニューラルネットワーク層にのみ応用できる。

以上は、重みデータの例を挙げたが、ニューラルネットワークのトレーニングや微調整
過程において、ニューロンデータと勾配データにそれぞれ対応するデータビット幅も同じ
であり、ここでは繰り返さない。

ニューラルネットワーク推理の過程では、ニューラルネットワークの各層間の重みデー
タは互いに独立しており、類似性はない。重みデータには類似性がないため、各層間のニ
ューロンデータも互いに独立しており、類似性はない。したがって、ニューラルネットワ
ークの推理過程では、ニューラルネットワークの各層のデータビット幅が対応する層に応
用される。実際の応用では、推理過程で毎回入力されるニューロンデータは同様ではない
か、類似していない可能性があり、しかも、ニューラルネットワークの各層間の重みデー
タは互いに独立しているため、ニューラルネットワークの各隠れ層の入力ニューロンデー
タは類似していない。量子化のとき、上位層の入力ニューロンデータで使用されるデータ
ビット幅は、現在の層の入力ニューロンデータには適していない。これに基づいて、量子
化に必要な浮動小数点演算の精度を満たすために、推理のとき、前の層の入力ニューロン
データの量子化で使用されたデータビット幅を使用して現在の層の入力ニューロンデータ
を量子化するか、または現在の層のプリセットデータのビット幅ｎによって現在の層の入
力ニューロンデータを量子化して、量子化された固定小数点数を取得する。量子化前の入
力ニューロンデータとそれに対応する量子化された入力ニューロンデータによって量子化
誤差ｄｉｆｆ_ｂｉｔを確定し、量子化誤差ｄｉｆｆ_ｂｉｔと閾値の比較結果によって、前
の層の入力ニューロンデータを量子化するときに使用されたデータビット幅はｎまたは現
在の層のプリセットデータビット幅ｎを調整し、調整後データビット幅を現在の層の入力
ニューロンデータの量子化に応用する。重みデータに対応するデータビット幅も同じであ
り、ここでは繰り返さない。

量子化パラメータについては、図５ａからからわかるように、同じ周期（ｅｐｏｃｈ）
内において、トレーニング初期段階で、各反復の重みが比較的大きく変化する。トレーニ
ングの中期および後期では、各反復の前後の重みデータの変動幅が大きくないため、各反
復の対応する層の重みデータは特定の反復間隔内で類似性があり、このように量子化する
とき、現在反復の各層のデータは、前の反復の対応する層の対応するデータの量子化パラ
メータを流用することができ、トレーニングの中期および後期の段階で、反復するたびに
改めて量子化パラメータを確認する必要がなく、ただトレーニングの初期段階の各反復の
各層のみで量子化パラメータを確認するだけでよい。これにより、依然としてニューラル
ネットワーク演算に必要な浮動小数点操作の精度を満たし、量子化の効率を大幅に向上さ
せる。更に、トレーニングまたは微調整の過程では、ニューラルネットワークの各層間の
重みデータは互いに独立しており、類似性はない。重みデータには類似性がないため、各
層間のニューロンデータも互いに独立しており、類似性はない。したがって、ニューラル
ネットワークのトレーニングまたは微調整過程では、ニューラルネットワークの各反復に
おける各層の量子化パラメータが、対応する層の対応する量子化すべきデータに応用され
る。

以上は、重みデータの例を挙げたが、ニューラルネットワークのトレーニングまたは微
調整過程では、ニューロンデータと勾配データにそれぞれ対応する量子化パラメータも同
じであり、ここでは繰り返さない。

ニューラルネットワーク推理の過程では、ニューラルネットワークの各層間の重みデー
タは互いに独立しており、類似性はない。重みデータには類似性がないため、各層間のニ
ューロンデータも互いに独立しており、類似性はない。したがって、ニューラルネットワ
ーク推理過程では、ニューラルネットワークの各層の量子化パラメータが、対応する層の
量子化すべきデータに応用される。たとえば、ニューラルネットワークの現在の層は畳み
込み層である。畳み込み層の量子化すべきデータに基づいて、現在の畳み込み層の量子化
すべきデータの量子化パラメータは、図２に示す技術案によって取得される。この量子化
パラメータは、現在の畳み込み層にのみ適用でき、このニューラルネットワークの他の層
に応用することはできず、他の層が畳み込み層であっても応用しない。

以上に述べるように、データビット幅と量子化パラメータの流用戦略は、データ間の類
似性に基づいて確定される。データ間に類似性がある場合、データビット幅と量子化パラ
メータを流用できる。データ間に類似性がない場合、データビット幅または量子化パラメ
ータを調整する必要がある。データ間の類似性の測定は、通常、ＫＬダイバージェンスに
よって測定されるが、次の式（１７）によっても測定できる。
Ａｂｓｍａｘ（Ａ）≒ａｂｓｍａｘ（Ｂ）かつｍｅａｎ（Ａ）≒ｍｅａｎ（Ｂ）式（１
７）

いくつかの実施形態では、データＡおよびデータＢが式（１７）を満たす場合、データ
ＡおよびデータＢは類似していると確定される。

上記量子化誤差を確認する方法、データビット幅を調整する方法、データビット幅、お
よび量子化パラメータの流用戦略は、ほんの一例でであり、網羅的なものではないことに
注意されたい。例えば、上記量子化誤差を確認する方法、データビット幅を調整する方法
、データビット幅および量子化パラメータの流用戦略はすべて、ニューラルネットワーク
の微調整過程に適している。また、データ間の類似性の測定に関しては、上記のＫＬダイ
バージェンスと式（１７）の類似性測定方法は単なる例であり、網羅的なものではない。
例えば、ヒストグラムマッチング法、マトリックス分解法、特徴点に基づく画像類似度計
算法、近接測定標準法などがある。当業者が本開示の技術案の本質を理解している状況下
では、本開示の技術案に基づいて他の変形または変形を生じ得るが、達成された機能およ
び技術の効果が本開示のものと類似している限り、すべてが本開示の保護範囲に含まれる
べきである。

以上に述べるように、トレーニングの中期および後期段階では、各反復の前後の重みデ
ータはあまり変化しないため、各反復の対応する層の重みデータは、特定の反復間隔内で
類似している。本技術案がトレーニングや微調整においてよりよい応用性を高め、人工知
能プロセッサチップのリソースの合理的な応用を達成するために、反復間隔を確定するた
めの戦略が必要であり、これによって、この反復間隔範囲では、各反復の対応する層のデ
ータビット幅ｎは変化せず、この反復間隔を超えると、データビット幅ｎが変化するため
、データビット幅ｎを反復ごとに調整するかどうかを確定する必要はない。同様に、量子
化パラメータは同じであり、人工知能プロセッサのチップのピーク計算能力を向上させる
と同時に、量子化に必要な浮動小数点演算の精度を満たす。

図６に示すように、これは目標反復間隔を確定する方法のフローチャートの１つである
。図６に示す技術案では、目標反復間隔は少なくとも１つの重み更新反復を含み、同じデ
ータビット幅が同じ目標反復間隔内の量子化過程で使用される。前記目標反復間隔の確定
ステップは、以下を含む：

ステップ６０１）：予測時点で、重み反復過程に量子化すべきデータの対応する小数点
位置パラメータの変動傾向値を確定する。ここで、前記予測時点は、前記データビット幅
を調整する必要があるか否かを判断するための時点であり、前記予測時点は、重み更新反
復が完了した時点に対応する。

このステップでは、式（１８）によって、小数点位置パラメータの変動傾向値は、現在
の予測時点に対応する重み反復過程における小数点位置パラメータのスライディング平均
値、および前の予測時点に対応する値重み反復過程の小数点位置パラメータのスライディ
ング平均値に基づいて確定されるか、現在の予測時点に対応する重み反復過程における小
数点位置パラメータと、前の予測時点に対応する重み反復過程における小数点位置パラメ
ータのスライディング平均値によって確定される。式１８は次のとおりである。
ｄｉｆｆ_{ｕｐｄａｔｅ１}＝｜Ｍ^（ｔ）－Ｍ^{（ｔ－１）}｜＝α｜ｓ^（ｔ）－Ｍ^（ｔ－
^１）｜式（１８）

式１８では、Ｍはトレーニングの反復とともに増加する小数点位置パラメータｓのスラ
イディング平均値である。ここでは、Ｍ^（ｔ）は式（１９）によって得られる、ｔ番目の
予測時点に対応する小数点位置パラメータｓがトレーニングの反復とともに増加するスラ
イディング平均値である。ｓ^（ｔ）はｔ番目の予測時点に対応する小数点位置パラメータ
ｓである。Ｍ ^{（ｔ－１）}はｔ－１番目の予測時点に対応する小数点位置パラメータｓのス
ライディング平均値である。αはハイパーパラメータであり、ｄｉｆｆ _{ｕｐｄａｔｅ１} 値
は小数点位置パラメータｓの変化傾向を測る。小数点位置パラメータｓの変化も現在量子
化すべきデータにおけるデータ最大値Ｚ_ｍａｘの変化状況に反映される。ｄｉｆｆ _ｕｐｄ
_ａｔｅ１が大きければ大きいほど、数値範囲の変化がひどく、間隔がより短い更新頻度が
必要であり、即ち目標反復間隔がより小さい。

Ｍ^（ｔ）←αｘｓ^{（ｔ－１）}＋（１－α）Ｍ^{（ｔ－１）} 式（１９）

ステップ６０２）：前記小数点位置パラメータの変化傾向値によって対応する前記目標
反復間隔を確定する。

本技術案では、式（２０）によって目標反復間隔を確定する。目標反復間隔にとって、
同一目標反復間隔内の量子化過程において、同じ前記データビット幅を使用し、異なる目
標反復間隔内の量子化過程において使用されるデータビット幅は同じであっても、異なっ
てもよい。
Ｉ＝β／ｄｉｆｆ_{ｕｐｄａｔｅ１}－γ 式（２０）

式（２０）で、Ｉは目標反復間隔である。ｄｉｆｆ_{ｕｐｄａｔｅ１}は小数点位置パラメ
ータの変化傾向値である。β、γは経験値であり、可変なハイパーパラメータであっても
よい。従来のハイパーパラメータの最適化方法はいずれもβ、γに適し、ここでは、ハイ
パーパラメータの最適化案を再び述べない。

本技術案において、予測時点には第１予測時点が含まれ、第１予測時点は目標反復間隔
によって確定される。具体的には、トレーニングまたは微調整過程のｔ番目の予測時点で
、現在反復の対応する層の重みデータが、前の反復の対応する層の量子化で使用されるデ
ータビット幅を使用して量子化され、量子化された固定小数点数が取得される。量子化前
の重みデータとそれに対応する量子化前の重みデータに基づいて量子化誤差ｄｉｆｆ_ｂｉ
_ｔを確定する。量子化誤差ｄｉｆｆ_ｂｉｔはそれぞれ第１閾値および第２閾値と比較され
、その比較結果によって、前の反復で対応する層の量子化に使用されたデータビット幅を
調整するかどうかを確定する。ｔ番目の第１予測時点は１００回目の反復に対応し、９９
回目の反復で使用されるデータビット幅はｎ_１であるとする。１００回目の反復で、デー
タビット幅ｎ_１から量子化誤差ｄｉｆｆ_ｂｉｔを確認し、量子化誤差ｄｉｆｆ_ｂｉｔを第
１閾値、第２閾値と比較し、比較結果を得る。比較結果からデータビット幅ｎ_１を変更す
る必要がないことを確認すると式（２０）を用いて、目標反復間隔が８回の反復であるこ
とを確認し、１００回目の反復が現在の目標反復間隔内の開始反復として使用される場合
、１００回目の反復～１０７回目の反復が現在の目標反復間隔として使用される。１００
回目の反復が前の目標反復間隔の最終反復である場合、１０１回目の反復～１０８回目の
反復が現在の目標反復間隔として使用される。現在の目標反復間隔で量子化する場合、各
反復は、前の目標反復間隔で使用されたデータビット幅ｎ_１を流用する。この場合、異な
る目標反復間隔間の量子化で使用されるデータビット幅は同じにすることができる。１０
０回目の反復から１０７回目の反復が現在の目標反復間隔として使用される場合、次の目
標反復間隔内の１０８回目の反復は、ｔ＋１目の第１予測時点と見なされる。１０１番目
から１０８番目の反復が現在の目標反復間隔として使用される場合、現在の目標反復間隔
内の１０８番目の反復は、ｔ＋１番目の第１予測時点と見なされる。ｔ＋１番目の第１予
測時点において、データビット幅ｎ_１によって量子化誤差ｄｉｆｆ_ｂｉｔを確認し、量子
化誤差ｄｉｆｆ_ｂｉｔを第１閾値および第２閾値と比較して比較結果を得る。比較結果か
ら、データビット幅ｎ_１をｎ_２に変更する必要があると判断し、式（２０）を使用して、
目標反復間隔が５５回の反復であることを確認する。１０８回目の反復～１６３回目の反
復、または１０９回目の反復～１６３回目の反復が目標反復間隔として使用される場合、
この目標反復間隔内で量子化するときに反復ごとにデータビット幅ｎ_２を使用する。この
場合、異なる目標反復間隔の間において量子化で使用されるデータビット幅は異なっても
よい。

本技術案では、第１予測時点が目標反復間隔内の開始反復であるか最終反復であるかに
かかわらず、式（１８）により小数点位置パラメータの変化の傾向値を求めることに適す
る。現在時刻の第１予測時点が現在の目標反復間隔の開始反復である場合、式（１８）に
おいて、Ｍ^（ｔ）は現在の目標反復間隔の開始反復の対応時間点に対応する小数点位置パ
ラメータｓの、トレーニング反復に伴って増加するスライディング平均値であり、ｓ^（ｔ
^）は現在の目標反復間隔の開始反復の対応時間点に対応する小数点位置パラメータｓであ
り、Ｍ^{（ｔ－１）}は前の目標反復間隔の開始反復の対応時点に対応する小数点位置パラメ
ータｓの、トレーニング反復に伴って増加するスライディング平均値である。現在時刻の
第１予測時点が現在の目標反復間隔の最終反復である場合、式（１８）において、Ｍ^（ｔ
^）は現在の目標反復間隔の最終反復の対応時間点に対応する小数点位置パラメータｓの、
トレーニング反復に伴って増加するスライディング平均値であり、ｓ^（ｔ）は現在の目標
反復間隔の最終反復の対応時間点に対応する小数点位置パラメータｓであり、Ｍ^（ｔ－１
^）は前の目標反復間隔の最終反復の対応時点に対応する小数点位置パラメータｓの、トレ
ーニング反復に伴って増加するスライディング平均値である。

本技術案では、予測時点は、第１予測時点を含むうえに、第２予測時点をさらに含んで
もよい。第２予測時点は、データ変動幅曲線に基づいて確定されるものである。ビッグデ
ータのニューラルネットワークのトレーニング過程におけるデータの変動幅の状況に基づ
いて、図５ａに示すデータ変動幅曲線を得る。

重みデータを例にとると、図５ａに示すデータ変動幅曲線から分かるように、トレーニ
ング開始からＴ回目の反復までの反復間隔周期では、重みが更新されるたびにデータ変動
幅が非常に大きい。現在予測時点では、量子化するとき、現在反復は、まず前回の反復の
データビット幅ｎ_１を用いて量子化し、得られた量子化結果と、対応する量子化前のデー
タとで対応する量子化誤差を確定し、量子化誤差はそれぞれ第１閾値、第２閾値と比較し
て、比較結果に基づいてデータビット幅ｎ_１を調整し、データビット幅ｎ_２を得る。ビッ
ト幅ｎ_２を用いて、現在回の反復に関連する量子化すべき重みデータを量子化する。次に
式（２０）に基づいて、目標反復間隔を確定して、第１予測時点を確定し、第１予測時点
で、さらにデータのビット幅を調整するかどうかおよび調整方法を判定し、式（２０）に
基づいて次の目標反復間隔を確定することで、次の第１予測時点を得る。トレーニング開
始からＴ回目の反復までの反復間隔の周期内に、毎回の反復前後の重みデータの変化幅が
非常に大きいため、毎回の反復の対応する層の重みデータ間に類似性を有せず、精度問題
を満たすために、量子化する時、現在回の反復の各層のデータは前回の反復の対応層に対
応する量子化パラメーターを引き続き使用することができず、前のＴ回の反復でデータビ
ット幅を反復ごとに調整することができる。このとき、量子化前のＴ回の反復では毎回の
反復に用いられるデータビット幅がいずれも異なり、目標反復間隔は１回の反復である。
人工知能プロセッサーチップの資源を最適化に利用するために、前のＴ回の反復の目標反
復間隔は図５ａに示すデータ変動幅曲線図によって掲示された規則に従って事前に設定す
ることができる。つまり、データ変動幅曲線によって、前のＴ回の反復の目標反復間隔は
直接、事前に設定され、式（２０）によって前のＴ回の反復の反復ごとに対応する重みで
反復の更新を完了した時の時点を第２予測時点として確認する必要がない。これによって
、人工知能プロセッサーチップの資源をもっと合理的にいかす。図５ａに示したデータ変
動幅曲線は、Ｔ回目の反復からは変動幅が大きくない。トレーニングの後半で反復ごとに
量子化パラメータを再確認する必要がなく、第Ｔ回目の反復または第Ｔ＋１回目の反復で
は、現在反復に対応する量子化前のデータおよび量子化後のデータを用いて量子化誤差を
確定し、量子化誤差に基づいて、データのビット幅を調整する必要があるかどうか、およ
びその調整方法を確定し、また、式（２０）に基づいて、目標反復間隔を確定する必要が
ある。目標反復間隔が５５回の反復であることを確認した場合に、Ｔ回目の反復またはＴ
＋１回目の反復の後、５５回反復おきに対応する時点を第１予測時点として、データビッ
ト幅を調整するかどうかおよびその調整方法を判断する必要があり、式（２０）に基づい
て次の目標反復間隔を確定することにより、同じ周期（ｅｐｏｃｈ）内ですべての反復の
演算が完了するまで、次の第１予測時点を確定する。その上で、各周期（ｅｐｏｃｈ）の
後に、データビット幅または量子化パラメータを適応的に調整して、最終的に量子化した
データを用いて期待どおりの精度のニューラルネットワークを得る。

特に、図５ａに示す重みデータ変動幅曲線図から、Ｔは１３０と確定される（この値は
図５ａには対応していないが、説明の便宜上、Ｔが１３０をとり、仮定値に限定されない
。）とすると、トレーニング中の第１３０回目の反復を第２予測時点とし、現在の第１予
測時点をトレーニング中の第１００回目の反復とし、第１００回目の反復において、式（
２０）によって目標反復間隔を３５回の反復と確定する。この目標反復間隔内で、１３０
回目の反復までトレーニングし、第２予測時点に到達し、このとき、１３０回目の反復に
対応する時点で、データビット幅を調整する必要があるかどうかおよび調整方法を確定し
、さらに式（２０）に基づいて目標反復間隔を確定する必要がある。この場合に確定され
る目標反復間隔は４２回の反復である。第１３０回の反復から第１７２回の反復までを目
標反復間隔とし、目標反復間隔が３５回の反復のときに確定される第１予測時点に対応す
る第１３５反復は、目標反復間隔が４２回反復内であり、第１３５回の反復では、式（２
０）によって、データビット幅を調整する必要があるかどうか、および調整方法を判断す
ることができる。また、１３５回目の反復で評価や予測を事前に行わずに、そのまま１７
２回目の反復になってこそデータのビット幅を調整する必要があるかどうかおよびどのよ
うに調整するかについての評価や予測を実行してもよい。つまり、１３５回目の反復で評
価や予測を実行するかどうかは、いずれも本技術案に適する。

以上に述べたように、データ変動幅曲線に基づいて、第２予測時点を事前に設定し、ト
レーニングまたは微調整の初期において、人工知能プロセッサチップの資源を消費して目
標反復間隔を確定する必要がなく、プリセットされた第２予測時点で直接に量子化誤差に
よってデータビット幅を調整し、そして調整されたデータビット幅を利用して現在回の反
復に関わる量子化すべきデータを量子化する。トレーニングまたは微調整の後半で、式（
２０）によって目標反復間隔を取得することで、対応する第１予測時点を確定し、各第１
予測時点で、データビット幅を調整するかどうか、および調整方法を確定する。このよう
にニューラルネットワーク演算に必要な浮動小数点演算の精度を満たすと同時に人工知能
プロセッサチップの資源を合理的に利用することで、量子化時の効率を大幅に向上させる
。

実際には、より正確なデータビット幅の目標反復間隔を得るために、小数点位置パラメ
ータの変化傾向値ｄｉｆｆ _{ｕｐｄａｔｅ１}だけでなく、小数点位置パラメータの変化傾向
値ｄｉｆｆ _{ｕｐｄａｔｅ１}とデータビット幅の変化傾向値ｄｉｆｆ _{ｕｐｄａｔｅ２} を同時
に考慮を入れることができる。図７に示すように、目標反復間隔を確定する方法の第２フ
ローチャートである。前記目標反復間隔の確定ステップは、以下を含む：

ステップ７０１）：予測時点において、重み反復過程における前記量子化すべきデータ
に対応する小数点位置パラメータの変化傾向値、データビット幅の変化傾向値を確定する
。ここで、前記予測時点は、前記データビット幅を調整する必要があるか否かを判断する
ための時点であり、前記予測時点は、重み更新反復が完了した時点に対応する。

なお、図６に示す小数点位置パラメータの変化傾向値に基づいてデータビット幅の目標
反復間隔を確定する技術案についての内容は、図７に示す技術案に適し、ここではこれ以
上述べない。
本ステップでは、式（２１）に基づいて、対応する前記量子化誤差を利用して、前記デ
ータビット幅の変化傾向値を確定する。
ｄｉｆｆ_{ｕｐｄａｔｅ２}＝δ＊ｄｉｆｆ^２ _ｂｉｔ
式（２１）

式（２１）において、δはハイパーパラメータであり、ｄｉｆｆ_ｂｉｔは量子化誤差で
ある；ｄｉｆｆ_{ｕｐｄａｔｅ２}はデータビット幅の変化傾向値である。ｄｉｆｆ_ｕｐｄａ
_ｔｅ２は量子化時に用いられるデータビット幅ｎの変化傾向を測るために、ｄｉｆｆ_ｕｐ
_{ｄａｔｅ２} は大きければ大きいほど、固定小数点のビット幅を更新する必要がある可能性
が高く、より短い間隔の更新頻度が必要である。

なお、図７に係る小数点位置パラメータの変化傾向値は、やはり式（１８）に基づいて
求めることができ、式（１８）におけるＭ^（ｔ）は式（１９）によって求められる。ｄｉ
ｆｆ_{ｕｐｄａｔｅ１}小数点位置パラメータｓの変化傾向を測り、小数点位置パラメータｓ
の変化も現在量子化すべきデータにおけるデータ最大値Ｚ _ｍａｘの変化状況に反映される
。ｄｉｆｆ _{ｕｐｄａｔｅ１}が大きければ大きいほど、数値範囲の変化がひどく、間隔がよ
り短い更新頻度が必要であり、即ち目標反復間隔がより小さい。

ステップ７０２）：前記小数点位置パラメータの変化傾向値と前記データビット幅の変
化傾向値によって対応する前記目標反復間隔を確定する。

本技術案では、式（２２）によって目標反復間隔を確定する。目標反復間隔にとって、
同一目標反復間隔内の量子化過程において、同じ前記データビット幅を使用し、異なる目
標反復間隔内の量子化過程において使用されるデータビット幅は同じであっても、異なっ
てもよい。

Ｉ＝β／ｍａｘ（ｄｉｆｆ_{ｕｐｄａｔｅ１}，ｄｉｆｆ_{ｕｐｄａｔｅ２}）－γ
式（２２）

式（２２）において、Ｉは目標反復間隔である。β、γはハイパーパラメータである。
ｄｉｆｆ_{ｕｐｄａｔｅ１}は小数点位置パラメータの変化傾向値である。ｄｉｆｆ_ｕｐｄａ
_ｔｅ２はデータビット幅の変化傾向値である。β、γは経験値であり、可変なハイパーパ
ラメータであってもよい。従来のハイパーパラメータの最適化方法はいずれもβ、γに適
し、ここでは、ハイパーパラメータの最適化案を再び述べない。

本技術案では、ｄｉｆｆ_{ｕｐｄａｔｅ１} は小数点位置パラメータｓの変化状況を測るた
めのものであるが、データビット幅ｎの変化による小数点位置パラメータｓの変化は無視
すべきである。これは、すでにｄｉｆｆ_{ｕｐｄａｔｅ２} でデータビット幅ｎの変化を反映
した。ｄｉｆｆ_{ｕｐｄａｔｅ１}では無視という動作をしないと、式（２２）によって確定
される目標反復間隔Ｉは正確ではなくなり、第１予測時点が多すぎてしまい、トレーニン
グまたは微調整の過程において、データビット幅ｎが更新されているかどうか、どのよう
に更新されているかといった動作が頻繁に行われるため、人工知能プロセッサチップの資
源が適切に利用されていない。

上記の説明に基づいて、ｄｉｆｆ_{ｕｐｄａｔｅ１}はＭ^（ｔ）によって確定される。ｔ－
１番目の予測時点に対応するデータビット幅がｎ_１であり、対応する小数点位置パラメー
タがｓ_１であり、小数点位置パラメータがトレーニング反復に伴ってして増加するスライ
ディング平均値がｍ_１であると仮定する。データビット幅ｎ_１を利用して量子化すべきデ
ータを量子化し、量子化後の定点数を取得する。量子化前のデータと対応する量子化後の
データに基づき、量子化誤差ｄｉｆｆ_ｂｉｔを確定し、量子化誤差ｄｉｆｆ_ｂｉｔと閾値
の比較結果によって、データビット幅ｎ_１をｎ_２に調整し、データビット幅を｜ｎ_１－ｎ
_２｜ビット調整し、ｔ番目の予測時点の量子化時に使用されるデータビット幅はｎ_２であ
る。データビット幅の変化による小数点位置パラメータの変化を無視するために、Ｍ^（ｔ
^）を確定するとき、以下の二つの最適化方式のうち１つを選択すればよい。第１方式：デ
ータビット幅は｜ｎ_１－ｎ_２｜ビット増加すれば、ｓ^{（ｔ－１）} の値はｓ_１－｜ｎ_１－ｎ
_２｜を取り、Ｍ^{（ｔ－１）} の値はｍ_１－｜ｎ_１－ｎ_２｜を取り、ｓ^{（ｔ－１）}、Ｍ^（ｔ－
^１）を式（１９）に代入し、Ｍ^（ｔ）を得て、ｔ番目の予測時点に対応する小数点位置パ
ラメータがトレーニング反復に伴って増加するスライディング平均値である。データビッ
ト幅は｜ｎ_１－ｎ_２｜ビット減少すれば、ｓ^{（ｔ－１）} の値はｓ_１＋｜ｎ_１－ｎ_２｜を取
り、Ｍ^{（ｔ－１）} の値はｍ_１＋｜ｎ_１－ｎ_２｜を取り、ｓ ^{（ｔ－１）} 、Ｍ ^{（ｔ－１）} を式
（１９）に代入し、Ｍ ^（ｔ）を得て、ｔ番目の予測時点に対応する小数点位置パラメータ
がトレーニング反復に伴って増加するスライディング平均値である。第２方式：データビ
ット幅は｜ｎ_１－ｎ_２｜ビット増加するか、｜ｎ _１－ｎ _２｜ビット減少するかにもかかわ
らず、ｓ^{（ｔ－１）} の値はｓ _１を取り、Ｍ^{（ｔ－１）} の値はｍ_１を取り、ｓ^{（ｔ－１）}、
Ｍ^{（ｔ－１）}を式（１９）に代入し、Ｍ^（ｔ）を得る。データビット幅は｜ｎ_１－ｎ_２｜
ビット増加すると、Ｍ ^（ｔ）から｜ｎ _１－ｎ _２｜を減少し、データビット幅は｜ｎ_１－ｎ
_２｜ビット減少する時、Ｍ ^（ｔ）に｜ｎ _１－ｎ _２｜を増加し、結果をｔ番目の予測時点に
対応する小数点位置パラメータがトレーニング反復に伴って増加するスライディング平均
値とする。この二つの方式は等価であり、いずれもデータビット幅の変化による小数点位
置パラメータの変化を無視でき、より精確な目標反復間隔を取得することができ、これに
よって、人工知能プロセッサチップの資源利用率を高める。

実際の応用では、データビット幅ｎと小数点位置パラメータｓが量子化の精度に対する
影響が非常に大きく、量子化パラメータにおける第２スケジューリング係数ｆ_２およびオ
フセットＯが量子化の精度に対する影響が大きくない。第１スケジューリング係数ｆ_１に
ついては、前文にもすでに言及されていたが、第２ケースに該当する場合、２^ｓｘｆ_２を
全体的に第１スケジューリング係数ｆ_１として、小数点位置パラメータｓが量子化の精度
に対する影響が非常に大きいため、この状況での第１スケジューリング係数ｆ_１の量子化
への影響は非常に大きい。そのため、本技術案では、データビット幅ｎが変化するかにも
かかわらず、小数点位置パラメータｓが可変な状況で、小数点位置パラメータｓの目標反
復間隔の確定も非常に有意義なことであり、図６に示す技術案の思想は、小数点位置パラ
メータｓの目標反復間隔の確定に応用することができる。従って、小数点位置パラメータ
ｓの目標反復間隔を確定する方法は図８Ａに示す。

ステップ８０１）：予測時点において、重み反復過程に係る量子化すべきデータに対応
する小数点位置パラメータの変化傾向値を確定する。ここで、前記予測時点は、前記量子
化パラメータを調整する必要があるか否かを判断するための時点であり、前記予測時点は
、重み更新反復が完了した時点に対応する。

ステップ８０２）：前記小数点位置パラメータの変化傾向値によって対応する前記目標
反復間隔を確定する。

なお、図６に示す小数点位置パラメータの変化傾向値に基づいて量子化パラメータの目
標反復間隔を確定する技術案についての内容は、図８Ａに示す技術案に適し、ここではこ
れ以上述べない。図８Ａに示す技術案に対して、量子化パラメータは好ましくは小数点位
置パラメータである。

なお、上述したデータビット幅を確定する目標反復間隔および量子化パラメータを確定
する目標反復間隔は、全て、網羅的なものではなく、単に列挙された一部の状況に過ぎず
、当業者が本開示の技術案の精神を理解するうえで、本開示の技術案に基づいて、他の変
形または変換を生じる可能性がある。例えば、データビット幅を確定する目標反復間隔内
で量子化パラメータの目標反復間隔を確定することは図６、図７、および図８Ａに示す技
術案にも応用される。ただ、その実現された機能および達成された技術効果が本開示と類
似している限り、本開示の保護範囲に含まれるべきである。

本技術案を利用して量子化パラメータを確定し、量子化誤差に基づいてデータビット幅
または量子化パラメータを調整し、データビット幅または量子化パラメータが調整される
か否かの目標反復間隔を確定し、ニューラルネットワークの演算中にデータビット幅また
は量子化パラメータを適切な時点で調整し、これによって、適切な反復時間において適切
な量子化パラメータを使用するようにし、人工知能プロセッサチップによるニューラルネ
ットワーク演算の実行は定点計算の速度を達成することを実現して、人工知能プロセッサ
チップのピーク演算力を向上させると同時に演算に必要な浮動小数点演算の精度を満たす
。

なお、上述した各方法の実施形態については、簡単に記述するために一連の動作の組み
合わせとして記載しているが、当業者であれば周知するように、本開示は、本開示にした
がって一部のステップが他の順で用いられたり、または同時に実施されたりすることがで
きるから、以上に記載の動作の順で制限されるものではない。次に、当業者であれば分か
るように、本明細書に記載された実施形態は全てオプション実施形態に該当し、係る動作
およびモジュールは必ずしも本開示に必須ではない。

ここでの量子化パラメータは、予め設定された量子化パラメータ（オフライン量子化パ
ラメータ）であってもよいし、量子化すべきデータに対する処理によって得られた量子化
パラメータ（オンライン量子化パラメータ）であってもよいことが理解される。ニューラ
ルネットワークの推理、トレーニング、微調整過程において、目標データをオフラインで
量子化したり、オンラインで量子化したりすることができる。ここで、オフライン量子化
は、量子化パラメータを用いて量子化すべきデータをオフライン処理することであっても
よい。オンライン量子化は量子化パラメータを用いて量子化すべきデータをオンライン処
理することであってもよい。例えば、ニューラルネットワークが人工知能チップ上で動作
し、量子化データと量子化パラメータを人工知能チップ以外の演算装置に送信してオフラ
イン量子化を行うか、人工知能チップ以外の演算装置を用いて予め得られた量子化すべき
データと量子化パラメータをオフライン量子化することができる。人工知能チップがニュ
ーラルネットワークを実行する過程において、人工知能チップは量子化すべきデータに対
して量子化パラメータを用いてオンライン量子化を行うことができる。ニューラルネット
ワークに複数の量子化すべき層が含まれている場合、各量子化すべき層はそれぞれオンラ
イン量子化とオフライン量子化を行うことができる。本開示では、各量子化すべき層に対
する量子化過程は、オンラインまたはオフラインであることに限定されない。

本開示の一実施形態によれば、データビット幅を調整するための方法が提供される。以
下、図８Ｂから図８Ｖを参照しながら説明する。図８Ｂは、本開示の一実施形態における
データビット幅の調整方法８００Ｂを示すフローチャートである。この方法には、以下の
ステップが含まれる。

Ｓ１１４では、前記現在検証反復の量子化すべきデータと前記現在検証反復の量子化デ
ータとに基づいて量子化誤差を確定する。ここで、前記現在検証反復の量子化データは、
前記現在の検証反復の量子化すべきデータを量子化することによって得られる。

任意選択可能に、前記プロセッサは、量子化すべきデータを初期データビット幅で量子
化して、前記量子化データを得ることができる。この現在の検証反復の初期データビット
幅は、ハイパーパラメータであってもよく、この現在の検証反復の初期データビット幅は
、この現在の検証反復の１つ前の検証反復の量子化すべきデータに基づいて確定されても
よい。

具体的には、プロセッサは、現在の検証反復の量子化すべきデータと現在の検証反復の
量子化すべきデータとに基づいて、中間表現データを確定することができる。任意選択可
能に、前記中間表現データは、前記量子化すべきデータの表現フォーマットと一致する。
例えば、プロセッサは上述した量子化すべきデータを逆量子化して、量子化すべきデータ
の表現フォーマットと一致する中間表現データを得ることができ、ここで、逆量子化とは
量子化の逆過程を指す。例えば、この量子化すべきデータは式２を用いて得ることができ
、プロセッサはさらに式２４によって量子化すべきデータを逆量子化して、対応する中間
表現データを得て、量子化すべきデータと中間表現データに基づいて量子化誤差を確定す
ることができる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／２^ｓ）式（２３）
Ｆ_ｘ１＝ｒｏｕｎｄ（Ｆ_ｘ／２^ｓ）ｘ２^ｓ式（２４）

更に、プロセッサは、量子化すべきデータとそれに対応する中間表現データに基づいて
量子化誤差を算出することができる。現在検証反復の量子化すべきデータがＦ_ｘ＝［Ｚ_１
，Ｚ_２．．．，Ｚ_ｍ］であり、この量子化すべきデータに対応する中間表現データがＦ_ｘ
_１＝［Ｚ_１ ^（ｎ），Ｚ_２ ^（ｎ）．．．，Ｚ_ｍ ^（ｎ）］であるとする。プロセッサは量子化
すべきデータＦ_ｘおよびそれに対応する中間表現データＦ_ｘ１に基づいて誤差項を確定し
、この誤差項に基づいて量子化誤差を確定することができる。

任意選択可能に、プロセッサは、中間表現データＦ_ｘ１における各要素の和、および量
子化すべきデータＦ_ｘにおける各要素の和に基づいて上記の誤差項を確定することができ
、この誤差項は中間表現データＦ_ｘ１における各要素の和と量子化すべきデータＦ_ｘにお
ける各要素の和の差値であってもよい。そのあと、プロセッサはこの誤差項に基づいて量
子化誤差を確定することができる。具体的な量子化誤差は下式によって確定することがで
きる：
ｄｉｆｆ_ｂｉｔ＝ｌｎ（（Σ_ｉ｜Ｚ_ｉ ^（ｎ）｜－Σ_ｉ｜Ｚ_ｉ｜）／Σ_ｉ｜Ｚ_ｉ｜＋１）
式（２５）

ここでは、Ｚ _ｉは量子化すべきデータにおける要素であり、Ｚ_ｉ ^（ｎ）は中間表現デー
タＦ_ｘ１の要素である。

任意選択可能に、プロセッサはそれぞれ量子化すべきデータにおける各要素と中間表現
データＦ_ｘ１における対応する要素の差値を計算して、ｍ個の差値を得て、このｍ個差値
の和を誤差項とする。そのあと、プロセッサはこの誤差項に基づいて量子化誤差を確定す
ることができる。具体的な量子化誤差は下式によって確定することができる：
ｄｉｆｆ_ｂｉｔ＝ｌｎ（Σ_ｉ｜Ｚ_ｉ ^（ｎ）－Ｚ_ｉ｜／Σ_ｉ｜Ｚ_ｉ｜＋１）式（２
６）

任意選択可能に、上記量子化すべきデータにおける各要素は中間表現データＦ_ｘ１にお
ける対応する要素との差値は２ ^ｓ－１にほぼ等しくてもよく、従って、上記量子化誤差は
さらに下式によって確定されてもよい。
ｄｉｆｆ_ｂｉｔ＝ｌｎ（２^ｓ－１＊ｍ／Σ_ｉ｜Ｚ_ｉ｜）式（２７
）

ここでは、ｍは目標データに対応する中間表現データＦ_ｘ１の数量であり、ｓは小数点
位置であり、ｚ_ｉは量子化すべきデータにおける要素である。

任意選択可能に、前記中間表現データは、前記量子化すべきデータのデータ表現フォー
マットと一致し、前記中間表現データと量子化すべきデータとに基づいて量子化誤差を確
定してもよい。例えば、量子化すべきデータは次のように表すことができる。Ｆ_ｘ≒Ｉ_ｘ
ｘ２^ｓ、すると、中間表現データＩ_ｘ１≒Ｆ_ｘ／２^ｓを確定することができ、この中間表
現データＩ_ｘ１は上記の量子化すべきデータと同じデータ表現フォーマットを有すること
ができる。このとき、プロセッサは中間表現データＩ_ｘ１と上記式（２３）によって算出
されたＩ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／２^ｓ）によって量子化誤差を確定することができる。具
体的な量子化誤差確定方式は、上記の式（２５）～式（２７）を参照することができる。

Ｓ１１５では、前記量子化誤差に基づき、前記現在検証反復に対応する目標データビッ
ト幅を確定する。

具体的には、プロセッサはこの量子化誤差に基づき、現在検証反復に対応するデータビ
ット幅を適応的に調整して、この現在検証反復が調整された後の目標データビット幅を確
定することができる。この量子化誤差がプリセット条件を満たす場合、現在の検証反復に
対応するデータビット幅を維持することができ、つまり、この現在の検証反復の目標デー
タビット幅が初期データビット幅に等しくてもよい。量子化誤差がプリセット条件を満た
さない場合、プロセッサは、現在の検証反復に対応する量子化すべきデータのビット幅を
調整して、現在の検証反復に対応する目標データビット幅を得ることができる。プロセッ
サがこの目標データビット幅を用いて現在検証反復の量子化すべきデータを量子化する時
、量子化誤差は上記のプリセット条件を満たす。任意選択可能に上記のプリセット条件は
ユーザが設定したプリセット閾値であってもよい。

任意選択可能に、図８Ｃは、本開示の他の実施形態におけるデータビット幅の調整方法
８００Ｃのフローチャートである。図８Ｃに示すように、上述操作Ｓ１１５は以下のステ
ップを含むことができる。
Ｓ１１５０では、プロセッサは、上述した量子化誤差が第１プリセット閾値以上である
か否かを判断することができる。

前記量子化誤差が第１プリセット閾値以上の場合、操作Ｓ１１５１を実行し、前記現在
の検証反復に対応するデータビット幅を大きくして、現在の検証反復の目標データビット
幅を得ることができる。量子化誤差が第１プリセット閾値より小さい場合、現在の検証反
復のデータビット幅を維持することができる。

さらに任意選択可能に、プロセッサは、１回の調整で上記の目標データビット幅を得る
ことができる。たとえば、現在の検証反復の初期データビット幅がｎ１の場合、プロセッ
サは１回の調整で目標データビット幅ｎ２＝ｎ１＋ｔを確定することができ、ここでは、
ｔはデータビット幅の調整値である。ここで、この目標データビット幅ｎ２を用いて、現
在の検証反復の量子化すべきデータを量子化する場合、得られた量子化誤差は、前記第１
プリセット閾値より小さくてもよい。

さらに任意選択可能に、プロセッサは、量子化誤差が第１プリセット閾値より小さくな
るまで何度も調整して目標データビット幅を得ることができ、この量子化誤差が第１プリ
セット閾値より小さい場合のデータビット幅を目標データビット幅とすることができる。
具体的には、前記量子化誤差が第１プリセット閾値以上の場合、第１プリセットビット幅
のステップ長さに基づいて第１中間データビット幅を確定する。その後、プロセッサは、
この第１中間データビット幅に基づいて、現在の検証反復の量子化すべきデータを量子化
し、量子化データを得て、前記量子化誤差が前記第１プリセット閾値より小さくなるまで
、前記現在の検証反復における量子化すべきデータと前記現在の検証反復における量子化
データとに基づいて量子化誤差を確定することができる。プロセッサは、この量子化誤差
が第１プリセット閾値より小さい時に対応するデータビット幅をこの目標データビット幅
とすることができる。

例えば、現在検証反復の初期データビット幅がｎ１であり、プロセッサはこの初期デー
タビット幅ｎ１を用いて現在検証反復の量子化すべきデータＡを量子化し、量子化データ
Ｂ１を得て、この量子化すべきデータＡと量子化データＢ１に基づいて量子化誤差Ｃ１を
算出する。量子化誤差Ｃ１が第１プリセット閾値以上である場合、プロセッサは、第１中
間データビット幅ｎ２＝ｎ１＋ｔ１を確定し、ここで、ｔ１は、第１プリセットビット幅
ステップ長さである。そのあと、プロセッサはこの第１中間データビット幅ｎ２に基づい
て現在検証反復の量子化すべきデータを量子化して、現在検証反復の量子化データＢ２を
得て、この量子化すべきデータＡと量子化データＢ２に基づいて量子化誤差Ｃ２を算出す
る。この量子化誤差Ｃ２が第１プリセット閾値以上の場合、プロセッサは第１中間データ
ビット幅ｎ２＝ｎ１＋ｔ１＋ｔ１を確定し、そのあと、この新しい第１中間データビット
幅に基づいて現在検証反復の量子化すべきデータＡを量子化し、量子化誤差が第１プリセ
ット閾値より小さくなるまで、対応する量子化誤差を計算する。量子化誤差Ｃ１が第１プ
リセット閾値より小さい場合、この初期データビット幅ｎ１を維持することができる。

更に、上記の第１プリセットビット幅のステップ長さは一定値であってもよく、例えば
、量子化誤差が第１プリセット閾値より大きくなるたびに、プロセッサは現在検証反復に
対応するデータビット幅を同じビット幅の値を大きくすることができる。任意選択可能に
、上記の第１プリセットビット幅のステップ長さは可変値であってもよく、例えば、プロ
セッサは量子化誤差と第１プリセット閾値の差値を計算することができ、この量子化誤差
と第１プリセット閾値の差値が小さければ小さいほど、第１プリセットビット幅のステッ
プ長さの値が小さい。

任意選択可能に、図８Ｄは本開示の他の実施形態におけるデータビット幅の調整方法８
００Ｄのフローチャートである。図８Ｄに示すように、上記操作装置Ｓ１１５は以下のス
テップをさらに含むことができる。

Ｓ１１５２では、プロセッサは上記の量子化誤差が第２プリセット閾値以下であるかど
うかを判定することができる。

前記量子化誤差が第２プリセット閾値以下である場合、操作Ｓ１１５３を実行して、前
記現在検証反復に対応するデータビット幅を小さくして、現在検証反復の目標データビッ
ト幅を得ることができる。量子化誤差が第２プリセット閾値より大きい時、現在検証反復
のデータビット幅をそのまま維持することができる。

さらに任意選択可能に、プロセッサは、１回の調整で上記の目標データビット幅を得る
ことができる。たとえば、現在の検証反復の初期データビット幅がｎ１の場合、プロセッ
サは１回の調整で目標データビット幅ｎ２＝ｎ１－ｔを確定することができ、ここでは、
ｔはデータビット幅の調整値である。ここで、この目標データビット幅ｎ２を用いて、現
在の検証反復の量子化すべきデータを量子化する場合、得られた量子化誤差は、前記第２
プリセット閾値より大きくてもよい。

さらに任意選択可能に、プロセッサは、量子化誤差が第２プリセット閾値より大きくな
るまで何度も調整して目標データビット幅を得ることができ、この量子化誤差が第２プリ
セット閾値より大きい場合のデータビット幅を目標データビット幅とすることができる。
具体的には、前記量子化誤差が第１プリセット閾値以下の場合、第２プリセットビット幅
のステップ長さに基づいて第２中間データビット幅を確定する。その後、プロセッサはこ
の第２中間データビット幅に基づいて、現在の検証反復の量子化すべきデータを量子化し
、量子化データを得て、前記量子化誤差が前記第２プリセット閾値より大きくなるまで前
記現在の検証反復における量子化すべきデータと前記現在の検証反復における量子化デー
タとに基づいて量子化誤差を確定することができる。プロセッサは、この量子化誤差が第
２プリセット閾値よりも大きい時に対応するデータビット幅をこの目標データビット幅と
することができる。

例えば、現在検証反復の初期データビット幅がｎ１であり、プロセッサはこの初期デー
タビット幅ｎ１を用いて現在検証反復の量子化すべきデータＡを量子化し、量子化データ
Ｂ１を得て、この量子化すべきデータＡと量子化データＢ１に基づいて量子化誤差Ｃ１を
算出する。量子化誤差Ｃ１が第２プリセット閾値以下である場合、プロセッサは、第２中
間データビット幅ｎ２＝ｎ１－ｔ２を確定し、ここで、ｔ２は、第２プリセットビット幅
ステップ長さである。そのあと、プロセッサはこの第２中間データビット幅ｎ２に基づい
て現在検証反復の量子化すべきデータを量子化して、現在検証反復の量子化データＢ２を
得て、この量子化すべきデータＡと量子化データＢ２に基づいて量子化誤差Ｃ２を算出す
る。この量子化誤差Ｃ２が第２プリセット閾値以下の場合、プロセッサは第２中間データ
ビット幅ｎ２＝ｎ１－ｔ２－ｔ２を確定し、そのあと、この新しい第２中間データビット
幅に基づいて現在検証反復の量子化すべきデータＡを量子化し、量子化誤差が第２プリセ
ット閾値より大きくなるまで、対応する量子化誤差を計算する。量子化誤差Ｃ１が第２プ
リセット閾値より大きければ、この初期データビット幅ｎ１をそのまま維持することがで
きる。

更に、上記の第２プリセットビット幅のステップ長さは一定値であってもよく、例えば
、量子化誤差が第２プリセット閾値より小さくなるたびに、プロセッサは、現在検証反復
に対応するデータビット幅を同じビット幅の値を小さくすることができる。任意選択可能
に、上記の第２プリセットビット幅のステップ長さは可変値であってもよく、例えば、プ
ロセッサは量子化誤差と第２プリセット閾値の差値を計算することができ、この量子化誤
差と第２プリセット閾値の差値が小さければ小さいほど、第２プリセットビット幅のステ
ップ長さの値が小さい。

任意選択可能に、図８Ｅは本開示の他の実施形態におけるデータビット幅の調整方法８
００Ｅのフローチャートである。図８Ｅに示すように、プロセッサは、量子化誤差が第１
プリセット閾値より小さく、且つ量子化誤差が第２プリセット閾値より大きいと確定した
場合、現在検証反復のデータビット幅をそのまま維持することができ、ここでは、第１プ
リセット閾値は第２プリセット閾値より大きい。つまり、現在の検証反復の目標データビ
ット幅が初期データビット幅に等しくてもよい。ここでは、図８Ｅでは、本開示の一実施
形態に係るデータビット幅の確定方式のみを例示するものであり、図８Ｅにおける各操作
の順序は適応的に調整することができるが、ここでは具体的に限定しない。

図８Ｆは、本開示の実施形態によるニューラルネットワーク量子化方法８００Ｆのフロ
ーチャートである。図８Ｆに示すように、前記ニューラルネットワーク量子化方法は以下
のステップを含む。

ステップＳ１０では、前記量子化すべき層における各量子化すべきデータに対応する量
子化パラメータを確定し、前記量子化すべきデータは、ニューロン、重み、オフセット、
および勾配のうち少なくとも１つを含む。

ステップＳ２０では、量子化すべきデータを対応する量子化パラメータに基づいて量子
化し、量子化データを得ることで、前記ニューラルネットワークは前記量子化データに基
づいて演算を実行する。

ステップＳ３０、目標データと前記目標データに対応する量子化データに基づいて、前
記目標データの量子化誤差を確定し、前記目標データはいずれか一つの量子化すべきデー
タである。

目標データに対応する量子化データと目標データとの間の誤差に基づき、目標データの
量子化誤差を確定することができる。設定された誤差計算方法、例えば標準偏差計算法、
二乗平均平方根誤差計算法などを使用して、目標データの量子化誤差を計算することがで
きる。

量子化パラメータに基づいて目標データに対応する量子化データを逆量子化した後に逆
量子化データを得て、逆量子化データと目標データとの間の誤差に基づいて、目標データ
の量子化誤差を得ることができる。

量子化間隔の計算に関連する方法によって、例えば式（３５）によって目標データと目
標データに対応する逆量子化データとの間の誤差ｄｉｆｆ_ｂｉｔを算出してもよい。
ｄｉｆｆ_ｂｉｔ＝ｌｎ（Ａ＊２^－１＊ｐ／Σ_ｉ｜Ｆ_ｘ｜）式（３５
）

ここでは、ｐは目標データにおける各要素の数量であり、ｓは目標データの小数点位置
である。Ａの値は、量子化パラメータによって確定されることができ、量子化パラメータ
に小数点位置ｓが含まれる場合、Ａ＝２^ｓである。量子化パラメータに小数点位置ｓとス
ケジューリング係数ｆが含まれる場合、Ａ＝２^ｓｘｆである。

二つのデータの平均値の間の差を計算する方法によって、例えば式（３６）によって目
標データと目標データに対応する逆量子化データとの間の誤差ｄｉｆｆ_ｂｉｔを算出して
もよい。

二つのデータの差の間の平均値を計算する方法によって、例えば式（３７）によって目
標データと目標データに対応する逆量子化データの間の誤差ｄｉｆｆ_ｂｉｔを算出しても
よい。

ステップＳ４０では、前記量子化誤差と誤差閾値に基づいて、前記目標データに対応す
るデータビット幅を調整して、前記目標データに対応する調整ビット幅を得る。

経験値に基づいて誤差閾値を確定してもよい。誤差閾値は量子化誤差への期待値を示す
ために用いられてもよい。量子化誤差が誤差閾値より大きいか小さい場合、目標データに
対応するデータビット幅を調整して、目標データに対応する調整ビット幅を得ることがで
きる。データビット幅をより長いビット幅またはより短いビット幅に調整することで、量
子化の精度を向上させるか低減することができる。

許容できる最大誤差に基づいて誤差閾値を確定することができる。量子化誤差が誤差閾
値より大きい場合、量子化の精度が期待に応えられないことを意味し、データビット幅を
より長いビット幅に調整する必要がある。高い高い方の量子化精度によって、小さい誤差
閾値を確定することもでき、量子化誤差が誤差閾値よりも小さい場合、量子化精度が高い
ことを示し、ニューラルネットワークの動作効率に影響を与える。データビット幅をより
短いビット幅に適切に調整することができる。これによって、量子化精度を適切に低下さ
せ、ニューラルネットワークの動作効率を向上させる。

データビット幅を固定ビットのステップ長さに応じて調整してもよい。データビット幅
を、量子化誤差と誤差閾値の差によって、可変調整ステップ長さに応じて調整できる。こ
の開示はこれを制限するものではない。

ステップＳ５０では、前記目標データに対応するデータビット幅を前記調整ビット幅に
更新し、前記目標データおよび前記調整ビット幅によって計算して対応する調整量子化パ
ラメータが得られ、これによってニューラルネットワークは調整量子化パラメータによっ
て量子化される。

調整ビット幅を確定した後、目標データに対応するデータビット幅を調整ビット幅に更
新することができる。例えば、更新前の目標データのデータビット幅が８ビットで、調整
後のビット幅が１２ビットである場合、更新後の目標データに対応するデータビット幅は
１２ビットである。調整ビット幅と目標データによって目標データに対応する調整量子化
パラメータを算出できる。目標データに対応する調整量子化パラメータによって目標デー
タを改めて量子化することができる。これによって、量子化精度がより高いかより低い量
子化データが得られ、量子化すべき層は、量子化精度と処理効率との間のバランスがとれ
る。

ニューラルネットワークの推理、トレーニング、微調整の過程では、各層間での量子化
すべきデータには一定の相関関係があると見なすことができる。例えば、各層の量子化す
べきデータ間の平均値の差が設定された平均閾値よりも小さく、各層の量子化すべきデー
タの最大値の差も設定された差の閾値よりも小さい場合、量子化すべき層の後続の１つ以
上の層の量子化すべきデータを量子化するために、量子化すべきの層の調整量子化パラメ
ータを後続の１つ以上の層の調整量子化パラメータとして使用されてもよい。ニューラル
ネットワークのトレーニングおよび微調整過程では、量子化すべき層の現在反復で得られ
た調整量子化パラメータを使用して、後続の反復で量子化すべき層を量子化してもよい。
１つの可能な実施形態では、前記方法はさらに、以下を含む。

前記量子化すべき層の後の１層または複数層に前記量子化すべき層の量子化パラメータ
を使用する。

ニューラルネットワークは、調整量子化パラメータによって量子化を実行することは、
量子化すべき層でのみ調整量子化パラメータを使用して量子化すべきデータを再量子化し
、量子化すべき層の演算に再取得された量子化後のデータを使用することを含んでもよい
。また、量子化すべき層で、調整量子化パラメータを用いて量子化すべきデータを量子化
するかわりに、量子化すべき層の後続の１層または複数層で調整量子化パラメータを用い
て量子化すること、および／または後続の反復で量子化すべき層で調整量子化パラメータ
を使用して量子化することもできる。また、量子化すべき層で調整量子化パラメータを使
用して、量子化を再実行することもでき、再取得された量子化データを、量子化すべき層
の演算に使用され、量子化すべき層の後続の１つまたは複数層で調整量子化パラメータを
使用して量子化すること、および／または後続の反復で量子化すべき層で調整量子化パラ
メータを使用して量子化することもできる。この開示はこれを制限するものではない。

本実施形態では、目標データと目標データに対応する量子化データに基づいて、目標デ
ータの量子化誤差を確定し、目標データはいずれか一つの量子化すべきデータである。前
記量子化誤差と誤差閾値に基づいて、目標データに対応するデータビット幅を調整して、
前記目標データに対応する調整ビット幅を得る。目標データに対応するデータビット幅を
調整ビット幅に更新し、目標データおよび調整ビット幅によって計算して対応する調整量
子化パラメータが得られ、これによってニューラルネットワークは調整量子化パラメータ
によって量子化される。目標データと量子化データの間の誤差によってデータビット幅を
調整し、調整後データビット幅に基づいて調整量子化パラメータを算出する。異なる誤差
閾値を設定することにより、異なる調整量子化パラメータを取得して、量子化精度の向上
や動作効率の向上などの、異なる量子化需要を実現できる。目標データおよび目標データ
の量子化データによって算出された調整量子化パラメータも、目標データ自体のデータ特
性とより一致し、目標データ自体のニーズにより一致する量子化結果を達成し、量化精度
と処理効率との間でよりよいバランスがとれる。

図８Ｇは、本開示の一実施形態によるニューラルネットワーク量子化方法８００Ｇのフ
ローチャートを示す。図８Ｇに示すように、前記ニューラルネットワーク量子化方法にお
けるステップＳ４０は以下のステップを含む。

ステップＳ４１において、前記量子化誤差が前記第１誤差閾値よりも大きい場合、目標
データに対応するデータビット幅を増加して、前記目標データに対応する調整ビット幅を
得る。

許容可能な最大量子化誤差によって第１誤差閾値を確定することができる。量子化誤差
を第１誤差閾値と比較できる。量子化誤差が第１誤差閾値よりも大きい場合、量子化誤差
はすでに許容できないと見なすことができる。量子化精度を向上させるために、目標デー
タに対応するデータビット幅を増加することにより、目標データの量子化精度を向上させ
ることができる。

目標データに対応するデータビット幅を固定される調整ステップ長さで増加することで
調整ビット幅を取得することができる。固定される調整ステップ長さサイズはＮビットに
することができ、Ｎは正の整数である。データビット幅を調整するたびに、Ｎビットだけ
増加することができる。各増加後のデータビット幅＝元のデータビット幅＋Ｎビットであ
る。

目標データに対応するデータビット幅を可変調整ステップ長さで増加することで、調整
ビット幅を得ることができる。例えば、量子化誤差と誤差閾値の差が第１閾値より大きい
場合、データビット幅は調整ステップ長さＭ１で調整でき、量子化誤差と誤差閾値の差が
第１閾値より小さい場合、調整ステップ長さＭ２でデータビット幅を調整でき、ここでは
、第１閾値は第２閾値よりも大きく、Ｍ１はＭ２よりも大きい。需要に応じて可変調整ス
テップ長さを確定できる。この開示は、データビット幅の調整ステップ長さ、および調整
ステップ長さが可変であるかどうかを制限しない。

調整ビット幅で、目標データを計算して、調整された量子化パラメータを取得できる。
調整された量子化パラメータを使用して目標データを再量子化することによって得られた
量子化データは、調整前に量子化パラメータを使用して得られた量子化データよりも高い
量子化精度を持っている。

図８Ｈは、本開示の一実施形態による、ニューラルネットワークの量子化方法８００Ｈ
のフローチャートを示す。図８Ｈに示されるように、前記ニューラルネットワークの量子
化方法はさらに以下を含む。

ステップＳ４２、前記調整ビット幅と前記目標データによって、前記目標データの調整
後量子化誤差を計算する。

ステップＳ４３、調整ビット幅と前記目標データによって計算された調整後の量子誤差
が前記第１誤差閾値以下になるまで、前記調整後量子化誤差と第１誤差閾値によって前記
調整ビット幅を増加し続ける。

量子化誤差に応じて目標データに対応するデータビット幅を増加する場合、ビット幅を
１回調整して調整ビット幅を取得し、調整ビット幅に応じて調整後の量子化パラメータを
算出し、調整後の量子化パラメータに応じて目標データを量子化して調整後の量子化デー
タを取得する。次に、調整後の量子化データと目標データによって、前記目標データの調
整後量子化誤差を計算する。調整後量子化誤差は、第１誤差閾値よりも大きい場合がある
。つまり、一回調整後のデータのビット幅によって調整の目的を満たさない場合がある。
調整後量子化誤差が依然として第１誤差閾値よりも大きい場合、調整後データビット幅を
調整し続けることができる。つまり、最終的に得られた調整ビット幅と目標データによっ
て得られた調整後量子化誤差が第１誤差閾値よりも小さくなるまで、目標データに対応す
るデータビット幅を複数回増加することができる。

複数回増加する調整ステップ長さは、固定される調整ステップ長さまたは可変な調整ス
テップ長さにすることができる。たとえば、最終データビット幅＝元のデータビット幅＋
Ａ＊Ｎビットである。ここで、Ｎは増加するごとの固定される調整ステップ長さであり、
Ａはデータビット幅の増加回数である。最終データビット幅＝元のデータビット幅＋Ｍ１
＋Ｍ２＋．．．＋Ｍｍであり、ここでＭ１、Ｍ２．．．Ｍｍは、増加するごとの可変調整
ステップ長さである。

この実施形態では、量子化誤差が第１誤差閾値よりも大きい場合、目標データに対応す
るデータビット幅を大きくして、目標データに対応する調整ビット幅を得る。第１誤差閾
値と調整ステップ長さを設定することでデータビット幅を増加することで、調整後データ
ビット幅は量子化需要を満たすことができる。１回の調整で調整需要を満たせない場合は
、データビット幅を複数回調整できる。第１誤差閾値と調整ステップ長さの設定により、
さまざまな量子化需要を満たすように、量子化需要に応じて量子化パラメータを柔軟に調
整でき、量子化精度を自体のデータ特性に応じて適応的に調整できる。

図８Ｉは、本開示の一実施形態によるニューラルネットワークの量子化方法８００Ｉの
フローチャートを示す。図８Ｉに示されるように、ニューラルネットワーク量子化方法の
ステップＳ４０は、以下を含む。

ステップＳ４４では、量子化誤差が第２誤差閾値よりも小さい場合、目標データに対応
するデータビット幅を減少し、第２誤差閾値が第１誤差閾値よりも小さい。

許容可能な量子化誤差と予想されるニューラルネットワークの動作効率によって第２誤
差閾値を確定できる。量子化誤差は、第２誤差閾値と比較できる。量子化誤差が第２誤差
閾値よりも小さい場合、量子化誤差は予想を超えていると見なすことができるが、動作効
率が低すぎて許容できない。量子化精度を低下させてニューラルネットワークの動作効率
を向上させ、目標データに対応するデータビット幅を小さくすることで目標データの量子
化精度を低下させることができる。

目標データに対応するデータビット幅を可変調整ステップ長さで減少することで、調整
ビット幅を得ることができる。固定の調整ステップ長さはＮビットであってもよく、Ｎは
正整数である。データビット幅を調整するたびに、Ｎビット減少することができる。増加
後のデータビット幅＝元データビット幅－Ｎビットである。

目標データに対応するデータビット幅を可変な調整ステップ長さで減少して、調整ビッ
ト幅を得ることができる。例えば、量子化誤差と誤差閾値の差が第１閾値より大きい場合
、調整ステップ長さＭ１でデータビット幅を調整でき、量子化誤差と誤差閾値の差が第１
閾値より小さい場合、調整ステップ長さＭ２でデータビット幅を調整でき、ここでは、第
１閾値は第２閾値よりも大きく、Ｍ１はＭ２よりも大きい。需要に応じて可変な調整ステ
ップ長さを確定できる。この開示は、データビット幅の調整ステップ長さ、および調整ス
テップ長さが可変であるかどうかを制限しない。

目標データを調整ビット幅で計算して、調整後の量子化パラメータを得て、調整後の量
子化パラメータを使用して目標データを再量子化することによって得られた量子化データ
は、調整前の量子化パラメータを使用して得られた量子化データよりも量子化精度が低い
。

図８Ｊは、本開示の実施形態による、ニューラルネットワーク量子化方法８００Ｊのフ
ローチャートである。図８Ｊに示されるように、前記ニューラルネットワークの量子化方
法はさらに以下を含む。

ステップＳ４５では、前記調整ビット幅と前記目標データによって前記目標データの調
整後量子化誤差を計算する。

ステップＳ４６では、調整ビット幅と前記目標データによって算出された調整後量子化
誤差が第２誤差閾値以上になるまで、前記調整後量子化誤差と前記第２誤差閾値によって
前記調整ビット幅を減少し続ける。

量子化誤差に応じて目標データに対応するデータビット幅を増加する場合、ビット幅を
１回調整して調整ビット幅を取得し、調整ビット幅に応じて調整後の量子化パラメータを
算出し、調整後の量子化パラメータに応じて目標データを量子化して調整後の量子化デー
タを取得する。次に、調整後の量子化データと目標データによって、前記目標データの調
整後量子化誤差を算出し、調整後量子化誤差は、やはり第２誤差閾値よりも大きいことが
ある。つまり、１回調整後のデータのビット幅によって調整の目的を満たさない場合があ
る。調整後量子化誤差が依然として第２誤差閾値よりも大きい場合、調整後データビット
幅を調整し続けることができる。つまり、最終的に得られた調整ビット幅と目標データに
よって得られた調整後量子化誤差は、第２誤差閾値よりも大きくなるまで、目標データに
対応するデータビット幅を複数回減少することができる。

複数回減少する調整ステップ長さは、固定される調整ステップ長さまたは可変な調整ス
テップ長さにすることができる。たとえば、最終データビット幅＝元のデータビット幅－
Ａ＊Ｎビットである。ここで、Ｎは増加するごとの固定される調整ステップ長さであり、
Ａはデータビット幅の増加回数である。最終データビット幅＝元のデータビット幅－Ｍ１
－Ｍ２－．．．－Ｍｍであり、ここでＭ１、Ｍ２．．．Ｍｍは、減少するごとの可変調整
ステップ長さである。

この実施形態では、量子化誤差が第２誤差閾値よりも大きい場合、目標データに対応す
るデータビット幅を小さくして、目標データに対応する調整ビット幅を得る。第２誤差閾
値を設定し、ステップ長さを調整することでデータビット幅を減少することで、調整後デ
ータビット幅は量子化需要を満たすことができる。１回の調整で調整需要を満たせない場
合は、データビット幅を複数回調整できる。第２誤差閾値と調整ステップ長さの設定によ
り、さまざまな量子化需要に応じて量子化パラメータを適合的に調整でき、異なる量子化
需要を満たし、量子化精度とニューラルネットワークの動作効率とのバランスがとれるよ
うにする。

１つの可能な実施形態では、前記方法はさらに以下を含む。

前記量子化誤差が第１誤差閾値より大きい場合、前記目標データに対応するデータビッ
ト幅を増加し、前記量子化誤差が第２誤差閾値より小さい場合、前記目標データに対応す
るデータビット幅を減少して、前記目標データに対応する調整ビット幅を得る。

同時に二つの誤差閾値を設定してもよく、ここでは、第１誤差閾値は量子化の精度が低
すぎると示すために用いられ、データビット幅のビット数を増加することができ、第２誤
差閾値は量子化の精度が高すぎると示すために用いられ、データビット幅のビット数を減
少することができる。第１誤差閾値が第２誤差閾値より大きいと、目標データの量子化誤
差を同時に二つの誤差閾値と比較することができ、量子化誤差が第１誤差閾値より大きい
場合、データビット幅のビット数を増加し、量子化誤差が第２誤差閾値より大きい場合、
データビット幅のビット数を減少する。量子化誤差が第１誤差閾値と第２誤差閾値の間に
ある場合は、データビット幅を一定に保つことができる。

本実施形態では、量子化誤差を第１誤差閾値と第２誤差閾値とを同時に比較することに
より、比較結果に応じてデータビット幅を増減することができ、第１誤差閾値と第２誤差
閾値とを利用してより柔軟にデータビット幅を調整することができる。データビット幅の
調整結果を、より量子化の需要に適合させるようにする。

なお、ニューラルネットワークのトレーニング（Ｔｒａｉｎｉｎｇ）とは、ニューラル
ネットワーク（そのニューラルネットワークの重みは乱数とすることができる）に対して
複数回の反復演算（ｉｔｅｒａｔｉｏｎ）を行って、ニューラルネットワークの重みがプ
リセット条件を満たすようにする過程である。ここでは、１回の反復演算には、一般的に
、１回の順方向演算、１回の逆方向演算、および１回の重み更新演算が含まれる。順方向
演算とは、ニューラルネットワークの入力データから順方向推理を行い、順方向演算の結
果を得る過程である。逆方向演算とは、順方向の演算結果と予め設定された参照値に基づ
いて損失値を確定し、その損失値に基づいて重み勾配値を確定したり、データ勾配値を入
力したりする過程である。重み更新演算とは、重み勾配値に基づいてニューラルネットワ
ークの重みを調整する過程である。具体的には、ニューラルネットワークのトレーニング
過程は以下のとおりである。プロセッサは、重みを乱数とするニューラルネットワークを
用いて入力データに対して順方向演算を行って、順方向演算結果を得ることができる。そ
の後、プロセッサは、この順方向演算結果と予め設定された参照値に基づいて損失値を確
定し、その損失値に基づいて重み勾配値および／または入力データ勾配値を確定する。最
後に、プロセッサは重み勾配値に基づいてニューラルネットワークの勾配値を更新し、新
たな重み値を取得し、１回の反復演算を完了することができる。プロセッサは、ニューラ
ルネットワークの順方向演算の結果が予め設定された条件を満たすまで、複数の反復演算
を循環して実行する。たとえば、ニューラルネットワークの順方向演算結果が予め設定さ
れた参照値に収束した場合、トレーニングを終了する。あるいは、ニューラルネットワー
クの順方向演算結果と予め設定された参考値により確定された損失値が予め設定された精
度以下である場合、トレーニングを終了する。

微調整とは、ニューラルネットワークの精度が予め設定された需要を満たすことができ
るように、ニューラルネットワーク（このニューラルネットワークの重みは乱数ではなく
収束状態にある）に複数回の反復演算を実行することである。この微調整過程は、上記の
トレーニング過程とほぼ一致しており、収束状態にあるニューラルネットワークを再トレ
ーニングする過程であると考えられる。推理（Ｉｎｆｅｒｅｎｃｅ）とは、重みが予め設
定された条件を満たすニューラルネットワークを用いて順方向演算を行って、認識や分類
などの機能を実現する過程であり、例えば、ニューラルネットワークを用いて画像認識な
どを実行する。

本開示の実施形態では、上述したニューラルネットワークのトレーニングや微調整の過
程において、ニューラルネットワーク演算の異なる段階で異なる量子化パラメータを用い
てニューラルネットワークの演算データを量子化し、量子化したデータに基づいて反復演
算を行うことで、ニューラルネットワークの演算過程におけるデータストレージスペース
を減少させ、データアクセス効率および演算効率を向上させることができる。図８Ｋに示
すように、本開示の一実施形態の量子化パラメータ調整方法８００Ｋのフローチャートで
あり、上記方法は以下を含むことができる：

Ｓ１００は、量子化すべきデータのデータ変動幅を取得する。

任意選択可能に、プロセッサは、この量子化すべきデータのデータ変動幅を直接読み取
ることができ、この量子化すべきデータのデータ変動幅はユーザが入力するものであって
もよい。

任意選択可能に、プロセッサは、現在反復の量子化すべきデータおよび履歴反復の量子
化すべきデータに基づいて、計算により、上記の量子化すべきデータのデータの変動幅を
得ることができ、ここでは、現在反復は現在実行されている反復演算であり、履歴反復は
現在反復の前に実行される反復演算である。たとえば、プロセッサは、現在反復の量子化
すべきデータにおける要素の最大値と要素の平均値、および各履歴反復の量子化すべきデ
ータ内の要素の最大値と要素の平均値を取得し、各反復の要素の最大値と要素の平均値に
基づいて、量子化すべきデータのデータ変動幅を確定することができる。現在反復の量子
化すべきデータにおける要素の最大値が予め設定された数の履歴反復の量子化すべきデー
タにおける要素の最大値に近く、かつ、現在反復の量子化すべきデータにおける要素の平
均値が、予め設定された数の履歴反復の量子化すべきデータにおける要素の平均値に近い
場合、上述した量子化すべきデータのデータ変動幅が小さいと判定できる。そうでなけれ
ば、量子化すべきデータのデータ変動幅が大きいと判定できる。また、この量子化すべき
データのデータ変動幅は、量子化すべきデータのスライディング平均値や分散などで表す
ことができるが、ここでは具体的には限定しない。

本開示の実施形態では、この量子化すべきデータのデータ変動幅は、量子化すべきデー
タの量子化パラメータを調整する必要があるか否かを判断するために利用することができ
る。例えば、量子化すべきデータのデータ変動幅が大きい場合、量子化の精度を保証する
ために、量子化パラメータをタイムリーに調整する必要があることを説明することができ
る。量子化すべきデータのデータ変動幅が小さい場合、現在の検証反復とその後の一定数
量の反復は履歴反復の量子化パラメータを引き続き使用することができ、それによって頻
繁に量子化パラメータを調整することを避け、量子化効率を高めることができる。

ここでは、各反復には少なくとも１つの量子化すべきデータが含まれ、この量子化すべ
きデータは浮動小数点で表される演算データであってもよいし、固定小数点で表される演
算データであってもよい。任意選択可能に、各反復の量子化すべきデータは、ニューロン
データ、重みデータまたは勾配データのうちの少なくとも１つであってもよい。また、勾
配データは、ニューロン勾配データおよび重み勾配データ等を含んでもよい。

Ｓ２００では、前記量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確
定することで、この目標反復間隔に基づいて、ニューラルネットワーク演算における量子
化パラメータを調整し、ここでは、前記目標反復間隔は、少なくとも１回の反復を含み、
前記ニューラルネットワークの量子化パラメータは、前記ニューラルネットワークの演算
における量子化すべきデータに対する量子化動作を実現するためのものである。ここで、
量子化パラメータはデータ幅を含むことができる。従って、ここでは、前記量子化すべき
データのデータ変動幅に基づいて、目標反復間隔を確定することで、この目標反復間隔に
基づいて、ニューラルネットワーク演算におけるデータ幅を調整することができ、前記目
標反復間隔は少なくとも１つの反復を含む。

任意選択可能に、この量子化パラメータは、上述した小数点位置および／またはスケー
リング係数を含むことができ、ここで、スケーリング係数は、第１スケーリング係数と第
２スケーリング係数を含むことができる。具体的な小数点位置の計算方法、スケーリング
係数の計算方法は上記の式を参照でき、ここでは説明しない。任意選択可能に、この量子
化パラメータは上述した式を参照することができるオフセットを含むことができる。更に
、プロセッサは、上記の他の式に従って小数点位置を確定し、スケーリング係数を確定す
ることもできる。本開示の実施形態では、プロセッサは、確定された目標反復間隔に基づ
いて、上記の小数点位置、スケーリング係数、またはオフセットの少なくとも１つを更新
して、このニューラルネットワーク演算における量子化パラメータを調整することができ
る。すなわち、このニューラルネットワーク演算における量子化パラメータは、ニューラ
ルネットワーク演算における量子化すべきデータのデータ変動幅に応じて更新することが
できる。これにより、量子化の精度を保証できる。

ニューラルネットワークのトレーニングや微調整における演算データの変化傾向を統計
し分析することで、量子化すべきデータのデータ変動曲線を得ることができることが理解
できる。図８Ｌに示すように、このデータの変動曲線８００Ｌからもわかるように、ニュ
ーラルネットワークのトレーニングまたは微調整の初期において、異なる反復の量子化す
べきデータのデータの変動は激しく、トレーニングまたは微調整の演算の進行に従って、
異なる反復の量子化すべきデータのデータ変動は徐々に緩やかになっている。そこで、ニ
ューラルネットのトレーニングや微調整の初期には、量子化パラメータを頻繁に調整する
ことができる。ニューラルネットワークのトレーニングまたは微調整の中期と後期におい
て、複数回の反復またはトレーニング周期おきに、量子化パラメーターを調整することが
できる。本開示の方法は、適切な反復間隔を確定することにより、量子化精度と量子化効
率のバランスをとるものである。

具体的には、プロセッサは、量子化すべきデータのデータ変動幅から、目標反復間隔を
確定し、この目標反復間隔に基づいてニューラルネットワークの演算における量子化パラ
メータを調整することができる。任意選択可能に、この目標反復間隔は、量子化すべきデ
ータのデータ変動幅が小さくなるに伴って増加することができる。すなわち、この量子化
すべきデータのデータ変動幅が大きければ大きいほど、この目標反復間隔が小さく、量子
化パラメータの調整が頻繁であることを示す。この量子化すべきデータのデータ変動幅が
小さければ小さいほど、この目標反復間隔が大きく、量子化パラメータの調整が頻繁でな
いことを示す。もちろん、他の実施形態では、上記の目標反復間隔はハイパーパラメータ
であってもよく、例えば、この目標反復間隔はユーザがカスタマイズして設定してもよい
。

任意選択可能に、上述の重みデータ、ニューロンデータおよび勾配データ等の各種の量
子化すべきデータがそれぞれ異なる反復間隔を有することができる。これに応じて、プロ
セッサは、各種の量子化すべきデータに対応するデータの変動幅をそれぞれ取得すること
ができ、これによって、それぞれの量子化すべきデータのデータ変動幅に応じて、対応す
る種類の量子化すべきデータに対応する目標反復間隔を確定する。すなわち、各種の量子
化すべきデータの量子化過程は非同期に行うことができる。本開示の実施形態によれば、
異なる種類の量子化すべきデータの間に差があるので、異なる量子化すべきデータのデー
タ変動幅を用いて、対応する目標反復間隔を確定することができる。そして、対応する目
標反復間隔に基づいて対応する量子化パラメータを確定し、それによって、量子化すべき
データの量子化の精度を保証でき、さらにニューラルネットワークの演算結果の正確性を
保証できる。

もちろん、他の実施形態では、異なる種類の量子化すべきデータに対して、同じ目標反
復間隔を確定して、この目標反復間隔に応じて量子化すべきデータに対応する量子化パラ
メータを調整することもできる。例えば、プロセッサは、各種の量子化すべきデータのデ
ータ変動幅をそれぞれ取得し、最大の量子化すべきデータのデータ変動幅に基づいて目標
反復間隔を確定し、この目標反復間隔に基づいて各種の量子化すべきデータの量子化パラ
メータを確定することができる。更に、異なる種類の量子化すべきデータはさらに同じ量
子化パラメータを用いることもできる。

さらに任意選択可能に、上記のニューラルネットワークは、少なくとも１つの演算層を
含むことができ、この量子化すべきデータは、各演算層に係るニューロンデータ、重みデ
ータ、または勾配データのうちの少なくとも１つであってもよい。このとき、プロセッサ
は現在の演算層に係る量子化すべきデータを取得し、上記の方法により現在の演算層にお
ける各種の量子化すべきデータのデータ変動幅および対応する目標反復間隔を確定するこ
とができる。

任意選択可能に、プロセッサは、各反復演算過程においていずれも、上述した量子化す
べきデータのデータ変動幅を一回確定し、対応する量子化すべきデータのデータ変動幅に
基づいて、一回の目標反復間隔を確定することができる。つまり、プロセッサは各反復ご
とに目標反復間隔を１回計算できる。具体的な目標反復間隔の計算方法については、以下
の説明を参照できる。更に、プロセッサは、プリセットされた条件に基づいて、各反復か
ら検証反復を選択し、各検証反復において量子化すべきデータのデータ変動幅を確定し、
検証反復に対応する目標反復間隔に基づいて量子化パラメータ等を更新し調整することが
できる。このとき、この反復が選択された検証反復でない場合、プロセッサは、この反復
に対応する目標反復の間隔を無視できる。

任意選択可能に、各目標反復間隔は、１つの検証反復に対応することができ、この検証
反復は、この目標反復間隔の開始反復であってもよいし、この目標反復間隔の終了反復で
あってもよい。プロセッサは、各目標反復間隔の検証反復においてニューラルネットワー
クの量子化パラメータを調整して、目標反復間隔に応じてニューラルネットワーク演算の
量子化パラメータを調整することができる。ここで、検証反復は、現在の量子化パラメー
タが、量子化すべきデータの需要を満たしているかどうかを調べるための時点であっても
よい。この調整前量子化パラメータは、調整後の量子化パラメータと同じであってもよい
し、調整後の量子化パラメータと異なっていてもよい。任意選択可能に、隣接する検証反
復間の間隔は、目標反復の間隔以上であってもよい。

たとえば、この目標反復間隔は、現在の検証反復から反復の数を計算してもよい。この
現在の検証反復は、この目標反復間隔の開始反復であってもよい。例えば、現在の検証反
復は１００回目の反復であり、プロセッサは、量子化すべきデータのデータ変動幅に基づ
いて、目標反復間隔の反復間隔を３と確定すると、プロセッサは、この目標反復間隔に、
１００回目の反復、１０１回目の反復、１０２回目の反復の３回の反復を含むことができ
る。プロセッサはこの１００回目の反復においてニューラルネットワーク演算における量
子化パラメータを調整することができる。ここでは、現在の検証反復は、プロセッサが現
在、量子化パラメータの更新調整を行っているときの対応する反復演算である。

任意選択可能に、目標反復間隔は、現在の検証反復の次の反復から反復数を計算しても
よく、この現在の検証反復は、現在の検証反復の一つ前の反復間隔の終了反復であっても
よい。例えば、現在の検証反復は１００回目の反復であり、プロセッサは、量子化すべき
データのデータ変動幅に基づいて、目標反復間隔の反復間隔を３と確定すると、プロセッ
サは、この目標反復間隔に、１０１回目の反復、１０２回目の反復、１０３回目の反復の
３回の反復を含むことができる。プロセッサは、この１００回目の反復と１０３回目の反
復において、ニューラルネットワーク演算における量子化パラメータを調整することがで
きる。本開示は、目標反復間隔の確定方式を具体的に限定しない。

一実施形態において、上述した小数点位置、スケーリング要素、およびオフセットの計
算式から分かるように、量子化パラメータは、量子化すべきデータに関連していることが
多い。したがって、上述した動作Ｓ１００では、量子化すべきデータのデータ変動幅は、
量子化パラメータの変動幅によって間接的に確定されてもよい。この量子化すべきデータ
のデータ変動幅は、量子化パラメータの変動幅によって表わされる。具体的に、図８Ｍは
本開示の一実施形態のパラメータ調整方法における目標反復間隔の確定方法８００Ｍを示
すフローチャートである。上記操作Ｓ１００は以下のステップをさらに含むことができる
。

Ｓ１１０では、小数点位置の変動幅を取得する。ここで、前記小数点位置の変動幅は、
前記量子化すべきデータのデータ変動幅を表すために用いることができ、前記小数点位置
の変動幅は、前記量子化すべきデータのデータ変動幅と正の相関がある。

任意選択可能に、小数点位置の変動幅は、量子化すべきデータのデータ変動幅を間接的
に反映することができる。この小数点位置の変動幅は、現在の検証反復の小数点位置と少
なくとも１回の履歴反復の小数点位置に基づいて確定するものであってもよい。ここで、
現在の検証反復の小数点位置および各回の履歴反復の小数点位置は、上述した式によって
確定することができる。

例えば、プロセッサは、現在の検証反復の小数点位置や履歴反復の小数点位置の分散な
どを計算し、その分散に基づいて小数点位置の変動幅を確定することもできる。また、プ
ロセッサは、現在の検証反復の小数点位置と履歴反復の小数点位置の平均値から、小数点
位置の変動幅を確定することができる。具体的に、図８Ｎに示すように、図８Ｎは本開示
の一実施形態における小数点位置の変動幅の確定方法８００Ｎを示すフローチャートであ
る。上記の動作Ｓ１１０は、以下を含むことができる。

Ｓ１１１では、現在の検証反復の１つ前の検証反復に対応する小数点位置と、前記前の
検証反復の前の履歴反復に対応する小数点位置とに基づいて、第１平均値を確定する。こ
こでは、前の検証反復は、前記量子化パラメータを前回調整したときの対応する反復であ
り、前の検証反復と前記現在の検証反復の間の間隔は少なくとも１つの反復の間隔である
。

任意選択可能に、少なくとも１回の履歴反復は、少なくとも１つの反復間隔に属するこ
とができ、各反復間隔は対応的に１つの検証反復があってもよく、隣接する２つの検証反
復には１つの反復間隔があってもよい。上記の動作Ｓ１１１における前の反復は、目標反
復間隔の一つ前の反復間隔に対応する検証反復であってもよい。

任意選択可能に、この第１平均値は次の式で計算される。
Ｍ１＝ａ１ｘｓ^ｔ－１＋ａ２ｘｓ^ｔ－２＋ａ３ｘｓ^ｔ－３＋．．．＋ａｍｘｓ^１
式（３８）

ここでは、ａ１～ａｍは各反復の小数点位置に対応する計算重みであり、ｓ^ｔ－１は前
の検証反復に対応する小数点位置であり、ｓ^ｔ－２、ｓ^ｔ－３．．．ｓ^１は、前の検証反
復の前の履歴反復に対応する小数点位置であり、Ｍ１は上記の第１平均値である。更に、
データの分布特性によれば、履歴反復とこの前の反復との距離が遠ければ遠いほど、この
前の反復に近い反復の小数点位置の分布および変動幅への影響が小さくなるので、上記計
算重みはａ１～ａｍの順に減少させることができる。

例えば、前の検証反復はニューラルネットワーク演算の１００回目の反復であり、履歴
反復は１回目の反復～９９回目の反復であり得る場合、プロセッサはこの１００回目の反
復の小数点位置（即ちｓ ^ｔ－１）を得ることができ、この１００回目の反復の前の履歴反
復の小数点位置、即ちｓ ^１を得ることができ、ニューラルネットワークの１回目の反復に
対応する小数点位置……であり得て、ｓ ^ｔ－３はニューラルネットワークの９８回目の反
復に対応する小数点位置であり得て、ｓ ^ｔ－２はニューラルネットワークの９９回目の反
復に対応する小数点位置であり得る。更に、プロセッサは上記の式で計算して第１平均値
を得ることができる。

更に、この第１平均値は、各反復間隔に対応する検証反復の小数点位置から算出するこ
とができる。たとえば、この第１平均値は次の式で計算できる。
Ｍ１＝ａ１ｘｓ^ｔ－１＋ａ２ｘｓ^ｔ－２＋ａ３ｘｓ^ｔ－３＋．．．＋ａｍｘｓ^１

ここでは、ａ１～ａｍは、各検証反復の小数点位置に対応する計算重みであり、ｓ^ｔ－
^１は前の検証反復に対応する小数点位置であり、ｓ^ｔ－２、ｓ^ｔ－３．．．ｓ^１は前の検
証反復の前のプリセット数量の反復間隔の検証反復に対応する小数点位置であり、Ｍ１は
上記の第１平均値である。

たとえば、前の検証反復はニューラルネットワーク演算の１００回目の反復であり、履
歴反復は１回目から９９回目までの反復であり、この９９回の反復は１１反復間隔に分割
して属することができる。たとえば、１回目の反復から９回目の反復は１番目の反復間隔
に属し、１０回目の反復から１８回目の反復は２番目の反復間隔に属し……、９０回目か
ら９９回目は１１反復間隔に属する。すると、プロセッサはこの１００回目の反復の小数
点位置（即ちｓ^ｔ－１）を得ることができ、かつこの１００回目の反復の前の反復間隔に
おける検証反復の小数点位置を得ることができ、即ちｓ^１はニューラルネットワークの１
番目の反復間隔の検証反復に対応する小数点位置であり得て（例えばｓ^１はニューラルネ
ットワークの１回目の反復に対応する小数点位置）、……、ｓ^ｔ－３はニューラルネット
ワークの１０番目の反復間隔の検証反復に対応する小数点位置であり得て（例えばｓ^ｔ－
^３はニューラルネットワークの８１回目の反復に対応する小数点位置であり得て）、ｓ^ｔ
^－２はニューラルネットワークの１１番目の反復間隔の検証反復に対応する小数点位置で
あり得る（例えば、ｓ^ｔ－２はニューラルネットワークの９０回目の反復に対応する小数
点位置であり得る）。更に、プロセッサは、上式の計算により第１平均Ｍ１を得ることが
できる。

本開示の実施形態では、説明の便宜上、この反復間隔に含まれる反復の数は同一である
ものとする。実際の使用では、この反復間隔に含まれる反復の数が異なってもよい。任意
選択可能に、この反復間隔に含まれる反復の数は反復の増加に従って増加し、即ち、ニュ
ーラルネットワークのトレーニングまたは微調整の実行に従って、反復間隔はますます大
きくなってもよい。

さらに、計算をさらに単純化し、データが占めるストレージスペースを削減するために
、上記の第１平均値Ｍ１は、以下の式によって計算できる。
Ｍ１＝αｘｓ^ｔ－１＋（１－α）ｘＭ０式（３９）

ここでは、αは前の検証反復に対応する小数点位置の計算重みであり、ｓ^ｔ－１は前の
検証反復に対応する小数点位置であり、Ｍ０はこの前の検証反復の前の検証反復に対応す
るスライディング平均値であり、このＭ０の具体的な計算方式は、上記のＭ１の計算方式
を参照でき、ここでは説明しない。

Ｓ１１２では、現在の検証反復に対応する小数点位置と、前記現在の検証反復の前の履
歴反復の小数点位置とに基づいて第２平均値を確定する。ここで、現在の検証反復に対応
する小数点位置は、現在の検証反復の目標データビット幅および量子化すべきデータに基
づいて確定することができる。

任意選択可能に、この第２平均値Ｍ２は次の式で計算できる。
Ｍ２＝ｂ１ｘｓ^ｔ＋ｂ２ｘｓ^ｔ－１＋ｂ３ｘｓ^ｔ－２＋．．．＋ｂｍｘｓ式（
４０）

ここでは、ｂ１～ｂｍは各反復の小数点位置に対応する計算重みであり、ｓ^ｔは現在検
証反復に対応する小数点位置であり、ｓ^ｔ－１、ｓ^ｔ－２．．．ｓ^１は現在検証反復の前
の履歴反復に対応する小数点位置であり、Ｍ２は上記の第２平均値である。更に、データ
の分布特性によれば、履歴反復とこの現在反復との距離が遠ければ遠いほど、この現在検
証反復に近い反復の小数点位置の分布および変動幅への影響が小さくなるので、上記計算
重みはｂ１～ｂｍの順に減少させることができる。

たとえば、現在の検証反復はニューラルネットワーク演算の１０１回目の反復であり、
この現在の検証反復の前の履歴反復は１回目の反復から１００回目の反復を指す。すると
、プロセッサはこの１０１回目の反復の小数点位置を得ることができ（即ちｓ ^ｔ）、かつ
この１０１回目の反復の前の履歴反復の小数点位置を得ることができ、即ちｓ^１は、ニュ
ーラルネットワークの第１回目の反復に対応する小数点位置であり得て……、ｓ^ｔ－２は
、ニューラルネットワークの９９回目の反復に対応する小数点位置であり得て、ｓ^ｔ－１
はニューラルネットワークの１００回目の反復に対応する小数点位置であり得る。更に、
プロセッサは、上式の計算により第２平均Ｍ２を得ることができる。

任意選択可能に、この第２平均値は、各反復間隔に対応する検証反復の小数点位置から
算出することができる。具体的に、図８０に示すように、本開示の一実施形態における第
２平均値の確定方法８０００を示すフローチャートである。以上の動作Ｓ１１２は、以下
の動作を含むことができる。
Ｓ１１２１では、予め設定された数の中間スリップ平均値を取得し、ここで、各前記中
間スライディング平均値は、前記現在の検証反復の前の前記予め設定された数の検証反復
に基づいて確定され、前記検証反復は前記ニューラルネットワーク量子化過程におけるパ
ラメータを調整する際に対応する反復である。

Ｓ１１２２では、前記現在の検証反復の小数点位置および前記予め設定された数の中間
スライディング平均値に基づいて前記第２平均値を確定する。

たとえば、第２平均値は、次の式で計算できる。
Ｍ２＝ｂ１ｘｓ^ｔ＋ｂ２ｘｓ^ｔ－１＋ｂ３ｘｓ^ｔ－２＋．．．＋ｂｍｘｓ^１

ここでは、ｂ１～ｂｍは各回目の反復の小数点位置に対応する計算重みであり、ｓ^ｔは
現在検証反復に対応する小数点位置であり、ｓ^ｔ－１、ｓ^ｔ－２．．．ｓ^１は現在検証反
復の前の検証反復に対応する小数点位置であり、Ｍ２は上記の第２平均値である。

たとえば、現在検証反復は１００回目の反復であり、履歴反復は１回目から９９回目ま
での反復であり、この９９回の反復は１１反復間隔に分割して属することができる。たと
えば、１回目の反復から９回目の反復は１番目の反復間隔に属し、１０回目の反復から１
８回目の反復は２番目の反復間隔に属し……、９０回目から９９回目は１１反復間隔に属
する。すると、プロセッサはこの１００回目の反復の小数点位置（即ちｓ^ｔ）を得ること
ができ、かつこの１００回目の反復の前の反復間隔における検証反復の小数点位置を得る
ことができ、即ちｓ^１はニューラルネットワークの１番目の反復間隔の検証反復に対応す
る小数点位置であり得て（例えばｓ^１はニューラルネットワークの１回目の反復に対応す
る小数点位置）、……、ｓ^ｔ－２はニューラルネットワークの１０番目の反復間隔の検証
反復に対応する小数点位置であり得て（例えばｓ^ｔ－２はニューラルネットワークの８１
回目の反復に対応する小数点位置であり得て）、ｓ^ｔ－１はニューラルネットワークの１
１番目の反復間隔の検証反復に対応する小数点位置であり得る（例えば、ｓ^ｔ－１はニュ
ーラルネットワークの９０回目の反復に対応する小数点位置であり得る）。更に、プロセ
ッサは、上式の計算により第２平均Ｍ２を得ることができる。

本開示の実施形態では、説明の便宜上、この反復間隔に含まれる反復の数は同一である
ものとする。実際の使用では、この反復間隔に含まれる反復の数が異なってもよい。任意
選択可能に、この反復間隔に含まれる反復の数は、反復の増加に従って増加し、即ち、ニ
ューラルネットワークのトレーニングまたは微調整の実行に従って、反復間隔はますます
大きくなってもよい。

更に、計算を簡単にし、データが占めるストレージスペースを削減するために、プロセ
ッサは、前記現在の検証反復に対応する小数点位置および第１平均値に基づいて、前記第
２平均値を確定することができ、すなわち、前記第２平均値は次の式を用いて計算するこ
とができる。
Ｍ２＝βｘｓ^ｔ＋（１－β）ｘＭ１式（４１）

ここでは、βは現在検証反復に対応する小数点位置の計算重みであり、Ｍ１は上記の第
１平均値である。

Ｓ１１３では、前記第１平均値および前記第２平均値に基づいて第１誤差を確定し、前
記第１誤差は、前記現在の検証反復および前記履歴反復の小数点位置の変動幅を表すため
に用いられる。

任意選択可能に、第１誤差は、第２平均値と上記の第１平均値との差の絶対値に等しく
することができる。具体的には、上記の第１誤差は、以下の式により算出することができ
る。
ｄｉｆｆ_{ｕｐｄａｔｅ１}＝｜Ｍ２－Ｍ１｜＝β｜ｓ^（ｔ）－Ｍ１｜式（４２
）

任意選択可能に、上述した現在の検証反復の小数点位置は、現在の検証反復の量子化す
べきデータと現在の検証反復に対応する目標データビット幅とに基づいて確定することが
でき、具体的な小数点位置の計算方法については、上記の式を参照することができる。こ
こで、上記現在の検証反復に対応する目標データビット幅は、ハイパーパラメータであっ
てもよい。さらに任意選択可能に、この現在の検証反復に対応する目標データビット幅は
ユーザがカスタマイズして入力することができる。任意選択可能に、ニューラルネットワ
ークのトレーニングまたは微調整における量子化すべきデータに対応するデータビット幅
は、一定であってもよい。すなわち、同一のニューラルネットワークの同じ種類の量子化
すべきデータは、同じデータビット幅を用いて量子化される。例えば、このニューラルネ
ットワークの各反復におけるニューロンデータは、いずれも８ビットのデータビット幅を
用いて量子化する。

任意選択可能に、ニューラルネットワークのトレーニングまたは微調整過程における量
子化すべきデータに対応するデータビット幅は可変とし、これにより、データビット幅が
量子化すべきデータの量子化需要を満たせることを保証する。つまり、プロセッサは、量
子化すべきデータに応じて、この量子化すべきデータに対応するデータビット幅を適応的
に調整し、この量子化すべきデータに対応する目標データビット幅を得ることができる。
具体的には、プロセッサは、まず、現在の検証反復に対応する目標データのビット幅を確
定することができ、その後、プロセッサは、この現在の検証反復に対応する目標データビ
ット幅およびこの現在の検証反復に対応する量子化すべきデータに基づいて、現在の検証
反復に対応する小数点位置を確定することができる。

本開示の実施形態では、現在の検証の反復によりデータビット幅が変化した場合には、
対応的に小数点位置の変化が生じる。しかし、このときの小数点位置の変化は、量子化す
べきデータのデータ変動によるものではなく、上述の式（４２）で確定される第１誤差で
算出された目標反復間隔が正確ではない可能性があるため、量子化の精度に影響を及ぼす
可能性がある。したがって、現在の検証反復のデータビット幅が変化した場合には、第１
誤差が小数点位置の変動幅を正確に反映することを保証し、さらに目標反復間隔の正確性
と確実性を保証するために上記の第２平均値を適宜調整してもよい。具体的には、図８Ｐ
に示すように、本開示の他の実施形態における第２平均値の確定方法８００Ｐを示すフロ
ーチャートである。上記の方法はさらに以下を含んでもよい。

Ｓ１１６では、前記目標データビット幅に基づいて、前記現在の検証反復のデータビッ
ト幅調整値を確定する。

具体的には、プロセッサは現在の検証反復の目標データビット幅と初期データビット幅
に基づいて、現在の検証反復のデータビット幅の調整値を確定することができる。ここで
、このデータビット幅の調整値＝目標データビット幅－初期データビット幅である。もち
ろん、プロセッサは現在の検証反復のデータビット幅の調整値を直接得ることができる。

Ｓ１１７では、上述した第２平均値を、現在の検証反復のデータビット幅調整値に基づ
いて更新する。

具体的には、データビット幅の調整値が予め設定されたパラメータより大きい場合（例
えば、予め設定されたパラメーターがゼロに等しくてもよい）、つまり、現在の検証反復
のデータビット幅が増加する場合、プロセッサはそれに応じて第２平均値を減少すること
ができる。データビット幅の調整値が予め設定されたパラメータより小さい場合（例えば
、この予め設定されたパラメータがゼロであってもよい）、つまり、現在の検証反復のデ
ータビット幅が減少する場合、プロセッサは、それに応じて第２平均値を増加させること
ができる。データビット幅調整値が予め設定されたパラメーターに等しい場合、即ちデー
タビット幅調整値が０に等しい場合、このとき、現在反復に対応する量子化すべきデータ
は変更されず、更新後の第２平均値は更新前の第２平均値に等しくなり、この更新前の第
２平均値は上記式（４１）の計算により求められる。任意選択可能に、データビット幅の
調整値が予め設定されたパラメータに等しい場合、すなわち、データビット幅の調整値が
０である場合、プロセッサは、第２平均値を更新しなくてもよい。つまり、プロセッサは
、上記の動作Ｓ１１７を行わなくてもよい。

例えば、更新前の第２平均値Ｍ２＝β×ｓ^ｔ＋（１－β）×Ｍ１；現在検証反復に対応
する目標データビット幅ｎ２＝初期データビット幅ｎ１＋Δｎの場合、ここでは、Δｎは
データビット幅調整値を表す。このとき、更新後の第２平均値Ｍ２＝β×（ｓ^ｔ－Δｎ）
＋（１－β）×（Ｍ１－Δｎ）である。現在検証反復に対応する目標データビット幅ｎ２
＝初期データビット幅ｎ１－Δｎの場合、ここでは、Δｎはデータビット幅調整値を表し
、このとき、更新後の第２平均値Ｍ２＝β×（ｓ^ｔ－Δｎ）＋（１－β）×（Ｍ１＋Δｎ
）であり、ここでは、ｓ^ｔとは、現在検証反復が目標データビット幅によって確定される
小数点位置を指す。

例えば、更新前の第２平均値Ｍ２＝β×ｓ^ｔ＋（１－β）×Ｍ１；現在検証反復に対応
する目標データビット幅ｎ２＝初期データビット幅ｎ１＋Δｎの場合、ここでは、Δｎは
データビット幅調整値を表す。このとき、更新後の第２平均値Ｍ２＝β×ｓ^ｔ＋（１－β
）×Ｍ１－Δｎである。例えば、現在検証反復に対応する目標データビット幅ｎ２＝初期
データビット幅ｎ１－Δｎの場合、ここでは、Δｎはデータビット幅調整値を表し、この
とき、更新後の第２平均値Ｍ２＝β×ｓ^ｔ＋（１－β）×Ｍ１＋Δｎであり、ここでは、
ｓ^ｔとは、現在検証反復が目標データビット幅によって確定される小数点位置を指す。

更に、上記の動作Ｓ２００は、以下を含んでもよい。

小数点位置の変動幅に基づいて、目標反復間隔を確定し、ここで、この目標反復間隔は
、上記の小数点位置の変動幅と負の相関がある。すなわち、上記の小数点位置の変動幅が
大きいほど、その目標反復間隔は小さくなる。上記の小数点位置の変動幅が小さいほど、
この目標反復間隔は大きくなる。

以上のように、上述した第１誤差は、小数点位置の変動幅を表してもよい。上記動作は
、以下を含んでもよい。

プロセッサは、前記第１誤差に基づいて、前記目標反復間隔を確定することができる。
ここでは、目標反復間隔は、前記第１誤差と負の相関がある。すなわち、第１誤差が大き
いほど、小数点位置の変化幅が大きく、さらに、量子化すべきデータのデータ変動幅が大
きいことを示し、このとき、目標反復間隔は小さくなる。

具体的には、プロセッサは下式によって目標反復間隔Ｉを算出できる：

ここでは、Ｉは目標反復間隔であり、ｄｉｆｆ_{ｕｐｄａｔｅ１}は上記の第１誤差であり
、δとγはハイパーパラメータであり得る。

なお、第１誤差は、小数点位置の変動幅を評価するために用いることができ、第１誤差
が大きいほど、小数点位置の変動幅が大きいことを示し、さらに、量子化すべきデータの
データ変動幅が大きいほど、目標反復間隔を小さく設定する必要があることを示す。すな
わち、第１誤差が大きいほど量子化パラメータの調整が頻繁に行われる。

本実施の形態では、小数点位置の変動幅（第１誤差）を計算して、小数点位置の変動幅
に基づいて目標反復間隔を確定する。量子化パラメータは、目標反復間隔に応じて確定さ
れるので、量子化パラメータに基づいて量子化して得られた量子化データは、目標データ
の小数点位置の変動傾向にさらに適合することができ、量子化の精度を保証するとともに
、ニューラルネットワークの動作効率を向上させる。

任意選択可能に、プロセッサは、現在の検証反復で目標反復間隔を確定した後、現在の
検証反復で、目標反復間隔に対応する量子化パラメータとデータビット幅等のパラメータ
を更に確定することで、目標反復間隔に応じて量子化パラメータを更新することができる
。ここで、量子化パラメータには、小数点位置および／またはスケーリング係数を含むこ
とができる。更に、この量子化パラメータは、オフセットをさらに含むことができる。こ
の量子化パラメータの具体的な計算方法については、上記の説明を参照してもよい。図８
Ｑに示すように、本開示の他の実施形態における量子化パラメータ調整方法８００Ｑを示
すフローチャートであり、上述した方法はさらに以下を含むことができる。

Ｓ３００では、プロセッサは、目標反復間隔に基づいて、ニューラルネットワーク演算
における量子化パラメータを調整する。

具体的には、プロセッサは目標反復間隔に基づいて検証反復を確定し、各検証反復で目
標反復間隔を更新してもよく、さらに各検証反復で量子化パラメータを更新してもよい。
たとえば、ニューラルネット演算におけるデータビット幅は一定に保ち、この場合、プロ
セッサは、各検証反復において、そのまま検証反復の量子化すべきデータに基づいて、小
数点位置などの量子化パラメータを調整することができる。このように、ニューラルネッ
トワーク演算におけるデータビット幅は可変であり、このとき、プロセッサは、各検証反
復において、データビット幅を更新し、更新されたデータビット幅とこの検証反復の量子
化すべきデータに基づき、小数点位置などの量子化パラメータを調整することができる。

本開示の実施形態では、プロセッサは、各検証反復において量子化パラメータを更新し
て、現在の量子化パラメータが量子化すべきデータの量子化ニーズを満たすことを保証す
る。ここでは、更新前の目標反復間隔は、更新後の目標反復間隔と同じであってもよいし
、異なってもよい。更新前のデータビット幅は、更新後のデータビット幅と同じであって
もよいし、異なっていてもよい。すなわち、異なる反復間隔のデータビット幅は、同一で
あっても異なっていてもよい。更新前の量子化パラメータと更新後の量子化パラメータは
同じであってもよいし、異なっていてもよい。すなわち、異なる反復間隔の量子化パラメ
ータは、同一であっても異なっていてもよい。

任意選択可能に、上述した動作Ｓ３００では、プロセッサは、検証反復において、目標
反復間隔における量子化パラメータを確定して、ニューラルネットワークの演算における
量子化パラメータを調整することができる。

一態様では、このニューラルネットワーク演算における各反復に対応するデータビット
幅は変化せず、即ち、このニューラルネットワーク演算における各反復に対応するデータ
ビット幅はすべて同じであり、このとき、プロセッサは目標反復間隔における小数点位置
などの量子化パラメータを確定することで、目標反復間隔に応じてニューラルネットワー
ク演算における量子化パラメータの調整を行うという目的を実現することができる。ここ
で、この目標反復間隔における反復に対応する量子化パラメータは、一致してもよい。す
なわち、目標反復間隔における各反復は同じ小数点位置を採用し、ただ各反復毎に小数点
位置などの量子化パラメータを更新し確定するだけである。これにより、反復ごとに量子
化パラメータを更新調整する必要がなくなり、量子化における計算量を減少し、量子化操
作の効率を向上させる。

任意選択可能に、上記のデータビット幅が変化しないことに対して、目標反復間隔にお
ける反復の対応する小数点位置は一致に保つことができる。具体的には、プロセッサは、
現在の検証反復の量子化すべきデータと、現在の検証反復に対応する目標データのビット
幅とに基づいて、現在の検証反復に対応する小数点位置を確定し、かつ現在の検証反復に
対応する小数点位置を、この目標検証反復に対応する小数点位置として使用し、この目標
反復間隔における反復はいずれも現在検証反復に対応する小数点位置を引き続き使用する
ことができる。任意選択可能に、この現在の検証反復に対応する目標データビット幅はハ
イパーパラメータであってもよい。たとえば、この現在の検証反復に対応する目標データ
ビット幅はユーザがカスタマイズして入力する。この現在の検証の反復に対応する小数点
位置は、上記の式によって計算することができる。

一態様では、このニューラルネットワーク演算における各反復に対応するデータビット
幅は変化することができ、即ち、異なる目標反復間隔に対応するデータビット幅は一致し
なくてもよいが、目標反復間隔における各反復のデータビット幅は不変である。ここで、
この目標反復間隔における反復に対応するデータのビット幅は、ハイパーパラメータであ
ってもよい。たとえば、この目標反復間隔における反復に対応するデータのビット幅は、
ユーザがカスタマイズして入力することができる。一態様では、この目標反復間隔におけ
る反復に対応するデータビット幅は、例えば、プロセッサ計算によって得られたものであ
ってもよい。例えば、プロセッサは、現在の検証反復の量子化すべきデータに基づいて、
現在の検証反復に対応する目標データビット幅を確定し、この現在の検証反復に対応する
目標データビット幅を目標反復間隔に対応するデータビット幅とする。

このとき、量子化過程における計算量を簡略化するために、この目標反復間隔における
対応する小数点位置などの量子化パラメータも一定に保つことができる。すなわち、目標
反復間隔における各反復は同じ小数点位置を採用し、ただ各反復毎に小数点位置などの量
子化パラメータおよびデータビット幅を更新し確定するだけである。これにより、反復ご
とに量子化パラメータを更新調整する必要がなくなり、量子化における計算量を減少し、
量子化操作の効率を向上させる。

任意選択可能に、上記の目標反復間隔に対応するデータビット幅が変化しないことに対
して、目標反復間隔における反復の対応する小数点位置は一致に保つことができる。具体
的には、プロセッサは、現在の検証反復の量子化すべきデータと、現在の検証反復に対応
する目標データのビット幅とに基づいて、現在の検証反復に対応する小数点位置を確定し
、かつ現在の検証反復に対応する小数点位置を、この目標検証反復に対応する小数点位置
として使用し、この目標反復間隔における反復はいずれも現在検証反復に対応する小数点
位置を引き続き使用することができる。任意選択可能に、この現在の検証反復に対応する
目標データビット幅は、ハイパーパラメータであってもよい。たとえば、この現在の検証
反復に対応する目標データビット幅はユーザがカスタマイズして入力する。この現在の検
証の反復に対応する小数点位置は、上記の式によって計算することができる。

任意選択可能に、目標反復間隔における反復に対応するスケーリング係数は一致しても
よい。プロセッサは現在の検証反復の量子化すべきデータに基づいて、現在の検証反復に
対応するスケーリング係数を確定し、この現在の検証反復に対応するスケーリング係数を
目標反復間隔における各回の反復のスケーリング係数とすることができる。ここでは、こ
の目標反復間隔における反復に対応するスケーリング係数が一致している。

任意選択可能に、目標反復間隔における反復に対応するオフセットは一致している。プ
ロセッサは、現在の検証反復の量子化すべきデータに基づいて、現在の検証反復に対応す
るオフセットを確定し、この現在の検証反復に対応するオフセットを目標反復間隔におけ
る各反復のオフセットとすることができる。更に、プロセッサは量子化すべきデータの全
ての要素における最小値と最大値を確定し、さらに小数点位置とスケジューリング係数等
の量子化パラメータを確定することができ、具体的に以上の説明を参照できる。この目標
反復間隔における反復に対応するオフセットは、一致してもよい。

たとえば、この目標反復間隔は、現在の検証反復から反復の数を計算することができ、
すなわち、目標反復間隔に対応する検証反復は、目標反復間隔の開始反復であってもよい
。たとえば、現在の検証反復は１００回目の反復であり、プロセッサは、量子化すべきデ
ータのデータの変動幅に基づいて、目標反復間隔の反復間隔を３に確定すると、プロセッ
サは、この目標反復間隔には１００回目、１０１回目、１０２回目の三回の反復が含まれ
ると判断できる。さらに、プロセッサは、１００回目の反復に対応する量子化すべきデー
タと目標データビット幅に基づいて、この１００回目の反復に対応する小数点位置などの
量子化パラメータを確定することができ、かつ、この１００回目の反復に対応する小数点
位置などの量子化パラメータを用いて、１００回目の反復、１０１回目の反復と１０２回
目の反復に対して量子化を行うことができる。このように、１０１回目の反復と１０２回
目の反復では、小数点位置などの量子化パラメータを計算する必要がなく、量子化におけ
る計算量を減少し、量子化操作の効率を向上させる。

任意選択可能に、目標反復間隔は、現在の検証反復の次の反復から反復の数を計算する
ことができ、すなわち、この目標反復間隔に対応する検証反復は、この目標反復間隔の終
了反復であってもよい。たとえば、現在の検証反復は１００回目の反復であり、プロセッ
サは、量子化すべきデータのデータの変動幅に基づいて、目標反復間隔の反復間隔を３に
確定する。この場合、プロセッサは、この目標反復間隔には１０１回目、１０２回目、１
０３回目の三回の反復が含まれると判断できる。さらに、プロセッサは、１００回目の反
復に対応する量子化すべきデータと目標データビット幅に基づいて、この１００回目の反
復に対応する小数点位置などの量子化パラメータを確定することができ、かつ、この１０
０回目の反復に対応する小数点位置などの量子化パラメータを用いて、１０１回目の反復
、１０２回目の反復と１０３回目の反復に対して量子化を行うことができる。このように
、１０２回目の反復と１０３回目の反復では、小数点位置などの量子化パラメータを計算
する必要がなく、量子化における計算量を減少し、量子化操作の効率を向上させる。

本開示の実施形態では、同じ目標反復間隔における各回の反復に対応するデータビット
幅および量子化パラメータは、いずれも一致しており、すなわち、同じ目標反復間隔にお
ける各回の反復に対応するデータビット幅、小数点位置、スケーリング係数およびオフセ
ットは、いずれも一定に保ち、これによって、ニューラルネットワークのトレーニングま
たは微調整の過程において、量子化すべきデータの量子化パラメータを頻繁に調整するこ
とを避け、量子化過程における計算量を減少し、量子化効率を高めることができる。しか
も、トレーニングまたは微調整の異なる段階でデータの変動幅に応じて量子化パラメータ
を動的に調整することで、量子化の精度を保証することができる。

他の態様では、このニューラルネットワーク演算における各反復に対応するデータビッ
ト幅は変化することができるが、目標反復間隔における各反復のデータビット幅は不変で
ある。このとき、目標反復間隔における反復に対応する小数点位置などの量子化パラメー
タが一致しなくてもよい。プロセッサはまた現在の検証反復に対応する目標データビット
幅に基づいて、目標反復間隔に対応するデータビット幅を確定することができ、ここでは
、目標反復間隔における反復に対応するデータビット幅は一致する。その後、プロセッサ
はこの目標反復間隔に対応するデータのビット幅と小数点位置の反復間隔に応じて、ニュ
ーラルネットワークの演算における小数点位置などの量子化パラメータを調整することが
できる。任意選択可能に、図８Ｒに示すように、本開示の実施形態における量子化パラメ
ータ調整方法８００Ｒを示すフローチャートであり、上述した方法Ｓ３００はさらに以下
を含むことができる。

Ｓ３１０では、現在の検証反復の量子化すべきデータに基づいて、目標反復間隔に対応
するデータビット幅を確定する。ここでは、この目標反復間隔における反復に対応するデ
ータビット幅が一致している。すなわち、ニューラルネットワークの演算におけるデータ
ビット幅は、１つの目標反復間隔ごとに更新される。任意選択可能に、この目標反復間隔
に対応するデータビット幅は現在の検証反復の目標データビット幅であってもよい。この
現在の検証反復の目標データのビット幅は、上記の操作Ｓ１１４およびＳ１１５を参照す
ることができ、ここでは説明しない。

たとえば、この目標反復間隔は、現在の検証反復から反復の数を計算することができ、
すなわち、目標反復間隔に対応する検証反復は、目標反復間隔の開始反復であってもよい
。たとえば、現在の検証反復は１００回目の反復であり、プロセッサは、量子化すべきデ
ータのデータの変動幅に基づいて、目標反復間隔の反復間隔を６に確定すると、プロセッ
サは、この目標反復間隔には１００回目の反復から１０５回目の反復の６回の反復が含ま
れると判断できる。この場合、プロセッサは、１００回目の反復の目標データビット幅を
確定することができ、１０１回目の反復から１０５回目の反復までは、この１００回目の
反復の目標データビット幅を引き続き使用し、１０１回目の反復から１０５回目の反復ま
で、目標データビット幅を計算する必要がなく、これにより、計算量を減少し、量子化効
率および演算効率を向上させる。その後、１０６回目の反復を現在の検証反復とし、上記
の目標反復間隔の確定、およびデータビット幅の更新の操作を繰り返すことができる。

任意選択可能に、目標反復間隔は、現在の検証反復の次の反復から反復の数を計算する
ことができ、すなわち、この目標反復間隔に対応する検証反復は、この目標反復間隔の終
了反復であってもよい。たとえば、現在の検証反復は１００回目の反復であり、プロセッ
サは、量子化すべきデータのデータの変動幅に基づいて、目標反復間隔の反復間隔を６に
確定する。この場合、プロセッサは、この目標反復間隔には１０１回目の反復から１０６
回目の反復の６回の反復が含まれると判断できる。この場合、プロセッサは、１００回目
の反復の目標データビット幅を確定することができ、１０１回目の反復から１０６回目の
反復までは、この１００回目の反復の目標データビット幅を引き続き使用し、１０１回目
の反復から１０６回目の反復まで、目標データビット幅を計算する必要がなく、これによ
り、計算量を減少し、量子化効率および演算効率を向上させる。その後、１０６回目の反
復を現在の検証反復とし、上記の目標反復間隔の確定、およびデータビット幅の更新の操
作を繰り返すことができる。

Ｓ３２０では、プロセッサは、取得された小数点位置の反復間隔と前記目標反復間隔に
対応するデータビット幅に基づいて、前記目標反復間隔における反復に対応する小数点位
置を調整して、前記ニューラルネットワーク演算における小数点位置等の量子化パラメー
タを調整する。

ここで、小数点位置の反復間隔には、少なくとも１回の反復が含まれ、前記小数点位置
の反復間隔における反復の小数点位置は一致している。任意選択可能に、この小数点位置
の反復間隔は、ハイパーパラメータであってもよい。たとえば、この小数点位置反復間隔
は、ユーザがカスタマイズして入力することができる。

任意選択可能に、前記小数点位置の反復間隔は、前記目標反復間隔以下である。この小
数点位置の反復間隔が上記の目標反復間隔と同じである場合、プロセッサは現在の検証反
復でデータビット幅と小数点位置などの量子化パラメータを同期的に更新することができ
る。さらに任意選択可能に、目標反復間隔における反復に対応するスケーリング係数は一
致してもよい。更に、この目標反復間隔における反復に対応するオフセットは、一致して
もよい。このとき、この目標反復間隔における反復に対応するデータビット幅と小数点位
置などの量子化パラメータはいずれも同じであり、これにより、計算量を減少し、量子化
効率と演算効率を向上させることができる。具体的な実現過程は上述した実施形態と基本
的に一致しており、上述した説明を参照することができ、ここではこれ以上説明しない。

小数点位置の反復間隔が上記の目標反復間隔より小さい場合、プロセッサは、目標反復
間隔に対応する検証反復においてデータビット幅と小数点位置などの量子化パラメータを
更新し、その位置反復間隔で確定されたサブ検証反復において小数点位置などの量子化パ
ラメータを更新することができる。データビット幅が不変である場合、小数点位置などの
量子化パラメータは、量子化すべきデータに応じて微調整することができるので、量子化
の精度をさらに向上させるために、同じ目標反復間隔内で小数点位置等の量子化パラメー
タを調整してもよい。

具体的には、プロセッサは、現在の検証反復と小数点位置反復間隔とに基づいて、サブ
検証反復を確定することができ、このサブ検証反復は小数点位置を調整するために使用さ
れ、このサブ検証反復は目標反復間隔における反復であってもよい。更に、プロセッサは
、サブ検証反復の量子化すべきデータと目標反復間隔に対応するデータビット幅に基づい
て、目標反復間隔における反復に対応する小数点位置を調整することができ、ここでは、
小数点位置の確定方式は上記の式を参照してもよいが、ここではこれ以上述べない。

たとえば、現在の検証反復は１００回目であり、この目標反復間隔は６であり、この目
標反復間隔に含まれる反復は１００回目の反復から１０５回目の反復である。プロセッサ
が取得した小数点位置反復間隔はＩｓ１＝３であると、現在検証反復から三回の反復ごと
に小数点位置を調整する。具体的には、プロセッサは、１００回目の反復を上記のサブ検
証反復とし、この１００回目の反復に対応する小数点位置ｓ１を求め、１００回目の反復
、１０１回目の反復、１０２回目の反復において共通小数点位置ｓ１を共用して量子化を
行う。その後、プロセッサは、小数点位置の反復間隔に応じて、１０３回目の反復を上述
したサブ検証反復とすることができ、また、プロセッサは、１０３回目の反復に対応する
量子化すべきデータと目標反復間隔に対応するデータビット幅ｎから、第２小数点位置反
復間隔に対応する小数点位置ｓ２を確定することもできる。この場合、１０３回目の反復
から１０５回目の反復では、上記の小数点位置ｓ２を共用して量子化を行うことができる
。本開示の実施形態では、上記の更新前の小数点位置ｓ１と更新後の小数点位置ｓ２との
値は同じであってもよいし、異なっていてもよい。更に、プロセッサは、１０６回目の反
復で、改めて量子化すべきデータのデータ変動幅に応じて、次の目標反復間隔、およびこ
の次の目標反復間隔に対応するデータビット幅と小数点位置などの量子化パラメータを確
定することができる。

たとえば、現在の検証反復は１００回目であり、この目標反復間隔は６であり、この目
標反復間隔に含まれる反復は１０１回目の反復から１０６回目の反復である。プロセッサ
が取得した小数点位置反復間隔はＩｓ１＝３であると、現在検証反復から三回の反復ごと
に小数点位置を調整する。具体的には、プロセッサは、現在の検証反復の量子化すべきデ
ータと現在の検証反復に対応する目標データビット幅ｎ１とに基づいて、第１小数点位置
の反復間隔に対応する小数点位置をｓ１として確定することができる。この場合、１０１
回目の反復、１０２回目の反復と１０３回目の反復では上記の小数点位置ｓ１を共用して
量子化を行う。その後、プロセッサは、小数点位置の反復間隔Ｉ_Ｓ１に応じて、１０４回
目の反復を上述したサブ検証反復とすることができ、また、プロセッサは、１０４回目の
反復に対応する量子化すべきデータと目標反復間隔に対応するデータビット幅ｎ１から、
第２小数点位置反復間隔に対応する小数点位置ｓ２を確定することもできる。この場合、
１０４回目の反復から１０６回目の反復では、上記の小数点位置ｓ２を共用して量子化を
行うことができる。本開示の実施形態では、上記の更新前の小数点位置ｓ１と更新後の小
数点位置ｓ２との値は同じであってもよいし、異なっていてもよい。更に、プロセッサは
、１０６回目の反復で、改めて量子化すべきデータのデータ変動幅に応じて、次の目標反
復間隔、およびこの次の目標反復間隔に対応するデータビット幅と小数点位置などの量子
化パラメータを確定することができる。

任意選択可能に、この小数点位置の反復間隔は１に設定でき、つまり、各反復ごとに小
数点位置が１回更新される。任意選択可能に、この小数点位置の反復間隔は同じであって
もよいし、異なっていてもよい。たとえば、この目標反復間隔に含まれる少なくとも１つ
の小数点位置の反復間隔は順に増加することができる。ここでは単に本実施形態の実施形
態を例示し、本開示を限定するものではない。

任意選択可能に、この目標反復間隔の反復に対応するスケーリング係数も一致しなくて
もよい。さらに任意選択可能に、このスケーリング係数は、上述した小数点位置に同期し
て更新されてもよい。つまり、このスケーリング係数に対応する反復間隔は、上記の小数
点位置の反復間隔と同じであってもよい。つまり、プロセッサが小数点位置を更新確定す
るたびに、それに応じてスケーリング係数を更新確定する。

任意選択可能に、この目標反復間隔における反復に対応するオフセットは一致しなくて
もよい。更に、このオフセットは、上述した小数点位置に同期して更新されてもよい。つ
まり、このオフセットに対応する反復間隔は、上記の小数点位置の反復間隔と同じであっ
てもよい。つまり、プロセッサが小数点位置を更新確定するたびに、それに応じてオフセ
ットを更新確定する。もちろん、このオフセットは、上記の小数点位置またはデータビッ
ト幅に非同期的に更新することもできるが、ここでは特に制限されない。更に、プロセッ
サは量子化すべきデータの全ての要素における最小値と最大値を確定し、さらに小数点位
置とスケジューリング係数等の量子化パラメータを確定することができ、具体的に以上の
説明を参照できる。

別の実施形態では、プロセッサは、小数点位置の変動幅と量子化すべきデータのデータ
ビット幅の変化とに基づいて、総合的に、量子化すべきデータのデータ変動幅を確定し、
この量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確定することができ
る。ここでは、この目標反復間隔は、データビット幅を更新確定するために使用できる。
つまり、プロセッサは、各目標反復間隔の検証反復において、データビット幅を更新確定
することができる。小数点位置は、固定小数点データの精度を反映することができ、デー
タビット幅は、固定小数点データのデータ表示範囲を反映することができるので、小数点
位置の変動幅と、量子化すべきデータのデータビット幅の変化とを統合することによって
、量子化されたデータは精度とデータ表示範囲の満足の両立が可能である。任意選択可能
に、小数点位置の変化幅は上述した第１誤差を用いて表すことができ、ビット幅の変化は
上記の量子化誤差に基づいて確定することができる。具体的には、図８Ｓに示すように、
本開示の他の実施形態におけるパラメータ調整方法における目標反復間隔の確定方法８０
０Ｓを示すフローチャートであり、上記方法は、以下を含んでもよい。

Ｓ４００では、第１誤差を取得し、第１誤差は小数点位置の変動幅を表すことができ、
この小数点位置の変動幅は、量子化すべきデータのデータ変動幅を表すことができる。具
体的には、上記の第１誤差の算出方法については、上述の操作Ｓ１１０の説明を参照でき
、ここでは述べない。

Ｓ５００では、データビット幅の変化を表すために用いられる第２誤差を取得する。

任意選択可能に、上記の量子化誤差と正の相関を有する上記の第２誤差は量子化誤差に
基づいて確定することができる。具体的には、図８Ｔに示すように、本開示の他の実施形
態におけるパラメータ調整方法における目標反復間隔の確定方法８００Ｔを示すフローチ
ャートであり、上記操作Ｓ５００は、以下を含んでもよい。

Ｓ５１０では、前記現在検証反復における量子化すべきデータと前記現在検証反復にお
ける量子化データとに基づいて量子化誤差を確定する。ここでは、前記現在の検証反復の
量子化データは、初期データビット幅に基づいて、前記現在の検証反復の量子化データを
量子化することで得られる。ここでは、具体的な量子化誤差の算出方法については、上述
の操作Ｓ１１４の説明を参照でき、ここでは説明しない。

Ｓ５２０では、前記量子化誤差に基づいて前記第２誤差を確定し、前記第２誤差は前記
量子化誤差と正の相関を有する。

具体的には、第２誤差は次の式で計算される。
ｄｉｆｆ_{ｕｐｄａｔｅ２}＝θ＊ｄｉｆｆ _ｂｉｔ ^２式（
４４）

ここでは、ｄｉｆｆ_{ｕｐｄａｔｅ２}は上記の第２誤差を表し、ｄｉｆｆ_ｂｉｔは上記の
量子化誤差を表し、θはハイパーパラメータであってもよい。

図８Ｓに戻り、Ｓ６００では、第２誤差と第１誤差とに基づいて、目標反復間隔を確定
する。

具体的には、プロセッサは、第１誤差と第２誤差の計算に基づいて目標誤差を求め、目
標誤差に基づいて目標反復間隔を確定する。任意選択可能に、目標誤差は第１誤差と第２
誤差を加重平均して算出することができる。例えば、目標誤差＝Ｋ＊第１誤差＋（１－Ｋ
）＊第２誤差であり、ここでは、Ｋはハイパーパラメータである。その後、プロセッサは
この目標誤差に基づいて目標反復間隔を確定し、目標反復間隔はこの目標誤差と負の相関
を有する。つまり、目標の誤差が大きいほど、目標反復間隔は小さい。

任意選択可能に、この目標誤差は、第１誤差および第２誤差のうちの最も高い値に基づ
いて確定されてもよく、このとき、第１誤差または第２誤差の重みは０である。具体的に
は、図８Ｔに示すように、上記操作Ｓ６００は以下を含んでもよい：

Ｓ６１０で、前記第１誤差と前記第２誤差のうちの最大値を目標誤差とする。

具体的には、プロセッサは、第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}と第２誤差ｄｉｆｆ_ｕｐ
_{ｄａｔｅ２}の大きさを比較してもよく、第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}が第２誤差ｄｉ
ｆｆ_{ｕｐｄａｔｅ２}より大きい場合、この目標誤差は第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１} に
等しい。第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}が第２誤差より小さい場合、この目標誤差は第
２誤差ｄｉｆｆ_{ｕｐｄａｔｅ２} に等しい。第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}が第２誤差に
等しい場合、この目標誤差は第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}または第２誤差ｄｉｆｆ_ｕ
_{ｐｄａｔｅ２}であってもよい。即ち目標誤差ｄｉｆｆ_{ｕｐｄａｔｅ}は下式で確定すること
ができる。

ここでは、ｄｉｆｆ_{ｕｐｄａｔｅ}は目標誤差であり、ｄｉｆｆ_{ｕｐｄａｔｅ１}は第１誤
差であり、ｄｉｆｆ_{ｕｐｄａｔｅ２}は第２誤差である。

Ｓ６２０では、前記目標誤差に基づいて前記目標反復間隔を確定し、ここでは、前記目
標誤差は前記目標反復間隔と負の相関がある。具体的には、目標反復間隔は以下の方式で
確定することができる。

下式で目標反復間隔を算出することができる。

ここでは、Ｉは目標反復間隔であり、ｄｉｆｆ_{ｕｐｄａｔｅ}は上記の目標誤差であり、
δとγはハイパーパラメータであってもよい。

任意選択可能に、上述した実施形態では、ニューラルネットワーク演算におけるデータ
ビット幅が可変であり、第２誤差によりデータビット幅の変化傾向を評価することができ
る。この状況で、図８Ｔに示すように、プロセッサは、目標反復間隔を確定した後、操作
Ｓ６３０を実行し、目標反復間隔における反復に対応するデータビット幅を確定すること
ができ、ここでは、この目標反復間隔における反復に対応するデータビット幅は一致して
いる。具体的に、プロセッサは現在の検証反復の量子化すべきデータに基づいて、目標反
復間隔に対応するデータビット幅を確定する。すなわち、ニューラルネットワークの演算
におけるデータビット幅は、１つの目標反復間隔ごとに更新される。任意選択可能に、こ
の目標反復間隔に対応するデータビット幅は現在の検証反復の目標データビット幅であっ
てもよい。この現在の検証反復の目標データのビット幅は、上記の操作Ｓ１１４およびＳ
１１５を参照することができ、ここでは説明しない。

任意選択可能に、目標反復間隔は、現在の検証反復の次の反復から反復の数を計算する
ことができ、すなわち、この目標反復間隔に対応する検証反復は、この目標反復間隔の終
了反復であってもよい。たとえば、現在の検証反復は１００回目の反復であり、プロセッ
サは、量子化すべきデータのデータの変動幅に基づいて、目標反復間隔の反復間隔を６に
確定する。この場合、プロセッサは、この目標反復間隔には１０１回目の反復から１０６
回目の反復の６回の反復が含まれると判断できる。この場合、プロセッサは１００回目の
反復の目標データビット幅を確定することができ、１０１回目の反復から１０６回目の反
復までは、この１００回目の反復の目標データビット幅を引き続き使用し、１０１回目の
反復から１０６回目の反復まで、目標データビット幅を計算する必要がなく、これにより
、計算量を減少し、量子化効率および演算効率を向上させる。その後、１０６回目の反復
を現在の検証反復とし、上記の目標反復間隔の確定、およびデータビット幅の更新の操作
を繰り返すことができる。

さらに、プロセッサは、検証反復において、目標反復間隔における量子化パラメータを
確定して、目標反復間隔に基づいてニューラルネットワークの演算における量子化パラメ
ータを調整することができる。即ち、このニューラルネットワーク演算における小数点位
置等の量子化パラメータはデータビット幅と同期して更新することができる。

一態様では、この目標反復間隔における反復に対応する量子化パラメータは、一致して
もよい。具体的には、プロセッサは、現在の検証反復の量子化すべきデータと、現在の検
証反復に対応する目標データのビット幅とに基づいて、現在の検証反復に対応する小数点
位置を確定し、かつ現在の検証反復に対応する小数点位置を、この目標検証反復に対応す
る小数点位置として使用し、ここでは、この目標反復間隔における反復に対応する小数点
位置は一致している。すなわち、目標反復間隔における各反復はいずれも現在検証反復の
小数点位置などの量子化パラメータを引き続き使用する。これにより、反復ごとに量子化
パラメータを更新調整することを避けて、量子化における計算量を減少し、量子化操作の
効率を向上させる。

任意選択可能に、目標反復間隔における反復に対応するスケーリング係数は一致しても
よい。プロセッサは現在の検証反復の量子化すべきデータに基づいて、現在の検証反復に
対応するスケーリング係数を確定し、この現在の検証反復に対応するスケーリング係数を
、目標反復間隔における各回の反復のスケーリング係数とすることができる。ここでは、
この目標反復間隔における反復に対応するスケーリング係数が一致している。

任意選択可能に、目標反復間隔における反復に対応するオフセットは一致している。プ
ロセッサは、現在の検証反復の量子化すべきデータに基づいて、現在の検証反復に対応す
るオフセットを確定し、この現在の検証反復に対応するオフセットを目標反復間隔におけ
る各反復のオフセットとすることができる。更に、プロセッサは、量子化すべきデータの
全ての要素における最小値と最大値を確定し、さらに小数点位置とスケジューリング係数
等の量子化パラメータを確定することができ、具体的に以上の説明を参照できる。この目
標反復間隔における反復に対応するオフセットは一致している。

他の態様では、プロセッサは、小数点位置などの量子化パラメータに対応する小数点位
置反復間隔に基づいて目標反復間隔における量子化パラメータを確定して、ニューラルネ
ットワークの演算における量子化パラメータを調整することができる。即ち、このニュー
ラルネットワーク演算における小数点位置等の量子化パラメータはデータビット幅と非同
期的に更新してもよく、プロセッサは、目標反復間隔の検証反復においてデータビット幅
と小数点位置等の量子化パラメータを更新してもよく、プロセッサはさらに小数点位置反
復間隔によって単独で目標反復間隔における反復に対応する小数点位置を更新してもよい
。

具体的に、プロセッサはまた現在の検証反復に対応する目標データビット幅に基づいて
、目標反復間隔に対応するデータビット幅を確定することができ、ここでは、目標反復間
隔に対応するデータビット幅は一致する。その後、プロセッサはこの目標反復間隔に対応
するデータのビット幅と小数点位置の反復間隔に応じて、ニューラルネットワークの演算
における小数点位置などの量子化パラメータを調整することができる。すなわち、図８Ｔ
に示すように、目標反復間隔に対応するデータビット幅を確定した後、プロセッサは操作
Ｓ６４０を実行してもよい。取得された小数点位置の反復間隔と前記目標反復間隔に対応
するデータビット幅に基づいて、前記目標反復間隔における反復に対応する小数点位置を
調整して、前記ニューラルネットワーク演算における小数点位置を調整する。ここで、小
数点位置の反復間隔には少なくとも１回の反復が含まれ、前記小数点位置の反復間隔にお
ける反復の小数点位置は一致している。任意選択可能に、この小数点位置の反復間隔は、
ハイパーパラメータであってもよい。たとえば、この小数点位置反復間隔は、ユーザがカ
スタマイズして入力することができる。

他の任意の実施形態では、小数点位置、スケーリング係数、オフセットの３つの量子化
パラメータの間では非同期であってもよい。すなわち、小数点位置の反復間隔、スケーリ
ング係数の反復間隔、オフセットの反復間隔のうちの１つまたは３つ全部が異なる。ここ
では、小数点位置の反復間隔とスケーリング係数の反復間隔は、目標反復間隔以下である
。オフセットの反復間隔は、目標反復間隔より小さくてもよい。オフセットは、量子化す
べきデータの分布にのみ関係するため、任意の実施形態では、このオフセットは、目標反
復間隔と完全に非同期であってもよい。すなわち、オフセットの反復間隔は、目標反復間
隔よりも大きくてもよい。

１つの任意の実施形態では、上述した方法は、ニューラルネットワークのトレーニング
または微調整の過程で使用されてもよい。これにより、ニューラルネットワークの微調整
またはトレーニング過程に関与する演算データの量子化パラメータに対する調整を実現し
て、ニューラルネットワークの演算過程に関与する演算データの量子化の精度と効率を高
める。この演算データは、ニューロンデータ、重みデータ、または勾配データのうちの少
なくとも１つであってもよい。図８Ｌに示すように、量子化すべきデータのデータ変動曲
線から分かるように、トレーニングまたは微調整の初期段階では、各反復の量子化すべき
データ間の差が大きく、量子化すべきデータのデータ変動幅が激しい。このとき、目標反
復間隔の値を小さくすることで、目標反復間隔における量子化パラメータをタイムリーに
更新し、量子化の精度を保証することができる。トレーニングまたは微調整の中期段階に
おいて、量子化すべきデータのデータ変動幅は次第に緩やかになり、この場合、目標反復
間隔の値を大きくすることで、量子化パラメータの頻繁な更新を回避し、量子化効率およ
び演算効率を向上させることができる。トレーニングまたは微調整の後期段階で、この時
、ニューラルネットワークのトレーニングまたは微調整は安定になり（即ち、ニューラル
ネットワークの順方向演算結果が予め設定された参考値に近い時、このニューラルネット
ワークのトレーニングや微調整は安定になる）、この場合も目標反復間隔の値を大きくし
続けて、量子化効率や演算効率をさらに向上させることができる。上記のデータの変動傾
向に基づいて、ニューラルネットワークのトレーニングまたは微調整の異なる段階で異な
る方式を採用して目標反復間隔を確定することができ、これにより、量子化の精度を保証
した上で、量子化効率と演算効率を高めることができる。

具体的には、図８Ｕに示すように、本開示の別の実施形態の量子化パラメータ調整方法
８００Ｕのフローチャートである。ニューラルネットワークのトレーニングまたは微調整
に使用される場合に、この方法は、以下を含むことができる。
Ｓ７１０では、プロセッサは、現在反復が第１プリセット反復より大きいかどうかを確
定する。

ここでは、現在反復とは、プロセッサが現在実行している反復演算を指す。任意選択可
能に、この第１プリセット反復はハイパーパラメータであってもよく、この第１プリセッ
ト反復は量子化すべきデータのデータ変動曲線に基づいて確定されてもよく、この第１プ
リセット反復はユーザがカスタマイズして設定してもよい。任意選択可能に、この第１プ
リセット反復は１つのトレーニング周期（ｅｐｏｃｈ）に含まれる反復総数より小さくて
もよく、ここでは、１つのトレーニング周期とは、データセットにおけるすべての量子化
すべきデータが一回の順方向演算と一回の逆方向演算を完了することを指す。

前記現在反復が前記第１プリセット反復以下の場合、プロセッサは操作Ｓ７１１を実行
し、第１プリセット反復間隔を前記目標反復間隔とし、前記第１プリセット反復間隔に基
づいて量子化パラメータを調整することができる。

任意選択可能に、プロセッサは、ユーザが入力した第１プリセット反復を読み取り、こ
の第１プリセット反復と第１プリセット反復間隔との対応関係に基づいて、第１プリセッ
ト反復間隔を確定することができる。任意選択可能に、この第１プリセット反復間隔はハ
イパーパラメータであってもよく、この第１プリセット反復間隔はユーザがカスタマイズ
して設定するものであってもよい。このとき、プロセッサは直接、ユーザが入力した第１
プリセット反復と第１プリセット反復間隔を読み取り、この第１プリセット反復間隔に基
づいてニューラルネットワーク演算における量子化パラメータを更新することができる。
本開示の実施形態では、プロセッサは量子化すべきデータのデータ変動幅に基づいて、目
標反復間隔を確定することを必要としない。

例えば、ユーザが入力した第１プリセット反復が１００回目の反復で、第１プリセット
反復間隔が５であると、現在反復が１００回目の反復以下の場合、第１プリセット反復間
隔に基づいて量子化パラメータを更新することができる。即ち、プロセッサは、ニューラ
ルネットワークのトレーニングまたは微調整の１回目の反復から１００回目の反復におい
て、５回目の反復ごとに一回量子化パラメータを更新する。具体的には、プロセッサは、
１回目の反復に対応するデータビット幅ｎ１および小数点位置ｓ１などの量子化パラメー
タを確定し、このデータビット幅ｎ１および小数点位置ｓ１などの量子化パラメータを用
いて、１回目の反復から５回目の反復までの量子化すべきデータを量子化することができ
る。すなわち、１回目の反復から５回目の反復までは同じ量子化パラメータを用いること
ができる。その後、プロセッサは、６回目の反復に対応するデータビット幅ｎ２および小
数点位置ｓ２等の量子化パラメータを確定し、このデータビット幅ｎ２および小数点位置
ｓ２等の量子化パラメータを用いて、６回目の反復から１０回目の反復までの量子化すべ
きデータを量子化することができる。すなわち、６回目から１０回目までは同じ量子化パ
ラメータを用いることができる。同様に、プロセッサは、上記のように１００回目の反復
が完了するまで量子化することができる。ここで、各反復間隔におけるデータビット幅お
よび小数点位置などの量子化パラメータの確定方法については、上記の説明を参照でき、
ここでは説明しない。

例えば、ユーザが入力した第１プリセット反復が１００回目の反復、第１プリセット反
復間隔が１であると、現在反復が１００回目の反復以下の場合、第１プリセット反復間隔
に基づいて量子化パラメータを更新することができる。即ち、プロセッサは、ニューラル
ネットワークのトレーニングまたは微調整の１回目の反復から１００回目の反復において
、各反復ごとに量子化パラメータを更新する。具体的には、プロセッサは、１回目の反復
に対応するデータビット幅ｎ１および小数点位置ｓ１などの量子化パラメータを確定し、
このデータビット幅ｎ１および小数点位置ｓ１などの量子化パラメータを用いて、１回目
の反復の量子化すべきデータを量子化することができる。その後、プロセッサは、２回目
の反復に対応するデータビット幅ｎ２および小数点位置ｓ２等の量子化パラメータを確定
し、このデータビット幅ｎ２および小数点位置ｓ２等の量子化パラメータを用いて２回目
の反復の量子化すべきデータを量子化することができ、……。同様に、プロセッサは１０
０回目の反復のデータビット幅ｎ１００および小数点位置ｓ１００等の量子化パラメータ
を確定し、このデータビット幅ｎ１００と小数点位置ｓ１００等の量子化パラメータを用
いて１００回目の反復の量子化すべきデータを量子化することができる。ここで、各反復
間隔におけるデータビット幅および小数点位置などの量子化パラメータの確定方法につい
ては上記の説明を参照でき、ここでは説明しない。

上記では、データビット幅と量子化パラメータが同期して更新される方式でのみ説明し
たが、他の代替的な実施形態では、各目標反復間隔において、プロセッサはまた、小数点
位置の変動幅に基づいて小数点位置の反復間隔を確定し、この小数点位置の反復間隔に基
づいて小数点位置等の量子化パラメータを更新することができる。

任意選択可能に、現在反復が第１プリセット反復より大きい場合、ニューラルネットワ
ークのトレーニングまたは微調整が中期段階にあると示すことができ、このとき、履歴反
復の量子化すべきデータのデータ変動幅を得て、この量子化すべきデータのデータ変動幅
に基づいて目標反復間隔を確定し、この目標反復間隔は上記の第１プリセット反復間隔よ
り大きくてもよく、これによって、量子化パラメータの更新回数を減少し、量子化効率お
よび演算効率を向上させる。具体的には、前記現在反復が第１プリセット反復より大きい
場合、プロセッサは、操作Ｓ７１３を実行し、前記量子化すべきデータのデータ変動幅に
基づいて目標反復間隔を確定し、前記目標反復間隔に基づいて量子化パラメータを調整す
ることができる。

上記の例の場合、ユーザが入力した第１プリセット反復が１００回目の反復であり、第
１プリセット反復間隔が１であると、現在反復が１００回目の反復以下の場合、第１プリ
セット反復間隔に基づいて量子化パラメータを更新することができる。即ち、プロセッサ
は、ニューラルネットワークのトレーニングまたは微調整の１回目の反復から１００回目
の反復において、各反復ごとに量子化パラメータを更新し、具体的な実施形態は上記の説
明を参照できる。現在反復が１００回目の反復より大きい場合、プロセッサは現在反復の
量子化すべきデータとその前の履歴反復の量子化すべきデータに基づいて、量子化すべき
データのデータ変動幅を確定し、この量子化すべきデータのデータ変動幅に基づいて目標
反復間隔を確定することができる。具体的には、現在反復が１００回目の反復より大きい
場合、プロセッサは適応的に現在反復に対応するデータビット幅を調整し、現在反復に対
応する目標データビット幅を取得し、この現在反復に対応する目標データビット幅を目標
反復間隔のデータビット幅とすることができ、ここで、目標反復間隔における反復に対応
するデータのビット幅が一致している。同時に、プロセッサは現在反復に対応する目標デ
ータビット幅と量子化すべきデータに基づき、現在反復に対応する小数点位置を確定し、
かつ現在反復に対応する小数点位置に基づいて第１誤差を確定する。プロセッサはさらに
、現在反復に対応する量子化すべきデータに基づいて、量子化の誤差を確定し、量子化誤
差に基づいて第２誤差を確定することができる。その後、プロセッサは第１誤差と第２誤
差に基づいて目標反復間隔を確定し、この目標反復間隔は上記の第１プリセット反復間隔
より大きくてもよい。更に、プロセッサは目標反復間隔における小数点位置またはスケジ
ューリング係数等の量子化パラメータを確定でき、具体的な確定方式は上記の説明を参照
できる。

たとえば、現在反復は１００回目の反復であり、プロセッサは、量子化すべきデータの
データの変動幅に基づいて、目標反復間隔の反復間隔を３に確定すると、プロセッサは、
この目標反復間隔には１００回目、１０１回目、１０２回目の三回の反復が含まれると判
断できる。プロセッサはまた、１００回目の反復の量子化すべきデータに基づいて量子化
誤差を確定し、量子化誤差に基づいて第２誤差と１００回目の反復に対応する目標データ
ビット幅を確定し、この目標データビット幅を目標反復間隔に対応するデータビット幅と
することもできる。ここでは、１００回目の反復、１０１回目の反復と１０２回目の反復
に対応するデータビット幅は、いずれもこの１００回目の反復に対応する目標データビッ
ト幅である。プロセッサはまた、この１００回目の反復の量子化すべきデータとこの１０
０回目の反復に対応する目標データビット幅に基づいてこの１００回目の反復に対応する
小数点位置とスケジューリング係数等の量子化パラメータを確定することができる。その
後、この１００回目の反復に対応する量子化パラメータを用いて１００回目の反復、１０
１回目の反復と１０２回目の反復を量子化する。

更に、図８Ｖに示すように、本開示の他の実施形態における量子化パラメータ調整方法
８００Ｖを示すフローチャートであり、上述した方法はさらに以下を含むことができる。

現在反復が第１プリセット反復より大きい場合、プロセッサはさらに操作Ｓ７１２を実
行することができ、即ちプロセッサはさらに、現在反復が第２プリセット反復より大きい
かどうかを確定することができる。ここでは、前記第２プリセット反復は前記第１プリセ
ット反復より大きく、前記第２プリセット反復間隔は前記第１プリセット反復間隔より大
きい。任意選択可能に、上記第２プリセット反復はハイパーパラメータであってもよく、
第２プリセット反復は少なくとも１つのトレーニング周期の反復総数より大きくてもよい
。任意選択可能に、第２プリセット反復は量子化すべきデータのデータ変動曲線によって
確定できる。任意選択可能に、第２プリセット反復はユーザがカスタマイズして設定する
ものであってもよい。

前記現在反復が第２プリセット反復以上の場合、プロセッサは操作Ｓ７１４を実行し、
第２プリセット反復間隔を前記目標反復間隔とし、前記第２プリセット反復間隔に基づい
て前記ニューラルネットワーク量子化過程におけるパラメータを調整することができる。
現在反復が第１プリセット反復より大きく、かつ、現在反復が第２プリセット反復より小
さい場合、プロセッサは上述した操作Ｓ７１３を実行し、前記量子化すべきデータのデー
タ変化幅に基づいて目標反復間隔を確定し、前記目標反復間隔に基づいて量子化パラメー
タを調整することができる。

任意選択可能に、プロセッサは、ユーザが設定した第２プリセット反復を読み取り、第
２プリセット反復と第２プリセット反復間隔との対応関係によって、第２プリセット反復
間隔を確定し、この第２プリセット反復間隔は第１プリセット反復間隔より大きい。任意
選択可能に、前記ニューラルネットワークの収束程度がプリセット条件を満たす場合、前
記現在反復が第２プリセット反復以上であると確定する。例えば、現在反復の順方向演算
結果がプリセット参考値に近い場合、このニューラルネットワークの収束程度がプリセッ
ト条件を満たすと確定し、このとき、現在反復が第２プリセット反復以上であると確定で
きる。または、現在反復に対応する損失値がプリセット閾値以下である場合、このニュー
ラルネットワークの収束程度がプリセット条件を満たすことを確定することができる。

任意選択可能に、上記の第２プリセット反復間隔はハイパーパラメータであってもよく
、この第２プリセット反復間隔は少なくとも一つのトレーニング周期の反復総数以上であ
ってもよい。任意選択可能にこの第２プリセット反復間隔はユーザがカスタマイズして入
力するものであってもよい。プロセッサは直接、ユーザが入力した第２プリセット反復と
第２プリセット反復間隔を読み取り、この第２プリセット反復間隔に基づいてニューラル
ネットワーク演算における量子化パラメータを更新することができる。例えば、この第２
プリセット反復間隔は１つのトレーニング周期の反復総数に等しくてもよく、即ち各トレ
ーニング周期（ｅｐｏｃｈ）ごとに一回量子化パラメータを更新する。

さらに、前記方法は以下を含む。

前記現在反復が第２プリセット反復以上である場合、プロセッサはさらに、各検証反復
ごとに現在データビット幅が調整される必要があるかどうかを確定することができる。現
在データビット幅を調整する必要があれば、プロセッサは上記の操作Ｓ７１４から操作Ｓ
７１３に切り替えて、データビット幅を改めて確定して、データビット幅が量子化すべき
データの需要を満たすことができる。

具体的には、プロセッサは、上述した第２誤差に基づいて、データビット幅を調整する
必要があるかどうかを判断することができる。プロセッサはさらに上記操作Ｓ７１５を実
行し、第２誤差がプリセット誤差値より大きいかどうかを確定し、前記現在反復が第２プ
リセット反復以上でありかつ前記第２誤差がプリセット誤差値より大きい場合、操作Ｓ７
１３に切り替えて実行し、前記量子化すべきデータのデータ変動幅に基づいて反復間隔を
確定して、前記反復間隔に基づいて前記データビット幅を改めて確定する。現在反復が第
２プリセット反復以上であり、且つ第２誤差がプリセット誤差値以下である場合、引き続
き操作Ｓ７１４を実行し、第２プリセット反復間隔を前記目標反復間隔とし、前記第２プ
リセット反復間隔に基づいて前記ニューラルネットワーク量子化過程におけるパラメータ
を調整する。ここでは、予め設定された誤差値は、量子化誤差に対応する予め設定された
閾値に基づいて確定されてもよい。第２誤差が予め設定された誤差値より大きい場合、デ
ータビット幅をさらに調整する必要があることが示され、プロセッサは、前記反復間隔に
基づいてデータビット幅を改めて確定するために、前記量子化すべきデータのデータ変動
幅に基づいて反復間隔を確定することができる。

例えば、第２プリセット反復間隔は１つのトレーニング周期の反復総数である。現在反
復が第２プリセット反復以上の場合、プロセッサは第２プリセット反復間隔に応じて量子
化パラメータを更新することができ、即ち各トレーニング周期（ｅｐｏｃｈ）ごとに一回
量子化パラメータを更新する。このとき、各トレーニング周期の開始反復は１つ検証反復
として、各トレーニング周期の開始反復において、プロセッサはこの検証反復の量子化す
べきデータに基づいて量子化誤差を確定し、量子化誤差に基づいて第２誤差を確定し、下
式によって第２誤差がプリセット誤差値より大きいかどうかを確定する。

ここでは、ｄｉｆｆ_{ｕｐｄａｔｅ２}は第２誤差であり、ｄｉｆｆ_ｂｉｔは量子化誤差で
あり、θはハイパーパラメータであり、Ｔはプリセット誤差値である。任意選択可能に、
このプリセット誤差値は第１プリセット閾値をハイパーパラメータで除算するものであっ
てもよい。当然ながら、このプリセット誤差値はハイパーパラメータであってもよい。例
えば、このプリセット誤差値は下式で算出できる：Ｔ＝ｔｈ／１０、ここでは、ｔｈは第
１プリセット閾値であり、ハイパーパラメータの値は１０とする。

第２誤差ｄｉｆｆ_{ｕｐｄａｔｅ２}がプリセット誤差値Ｔより大きければ、データビット
幅がプリセット要求を満たせない可能性があると示し、このとき、第２プリセット反復間
隔を用いて量子化パラメータを更新することなく、プロセッサは量子化すべきデータのデ
ータ変動幅に基づいて目標反復間隔を確定して、データビット幅がプリセット要求を満た
すことを保証する。即ち、第２誤差ｄｉｆｆ_{ｕｐｄａｔｅ２}がプリセット誤差値Ｔより大
きい場合、プロセッサは上記の操作Ｓ７１４から上記の操作Ｓ７１３に切り替える。

もちろん、他の実施形態では、プロセッサは上述した量子化誤差に基づいて、データビ
ット幅を調整する必要があるか否かを判定することができる。例えば、第２プリセット反
復間隔は１つのトレーニング周期の反復総数である。現在反復が第２プリセット反復以上
の場合、プロセッサは第２プリセット反復間隔に応じて量子化パラメータを更新すること
ができ、即ち各トレーニング周期（ｅｐｏｃｈ）ごとに１回量子化パラメータを更新する
。ここでは、各トレーニング周期の開始反復は１つの検証反復とする。各トレーニング周
期の開始反復において、プロセッサはこの検証反復の量子化すべきデータに基づいて量子
化誤差を確定し、この量子化誤差が第１プリセット閾値以上の場合、データビット幅がプ
リセット要求を満たせない可能性があると示し、即ちプロセッサは上記の操作Ｓ７１４か
ら上記の操作Ｓ７１３に切り替える。

１つの任意の実施形態では、上記の小数点位置、スケジューリング係数とオフセット等
の量子化パラメータは表示装置によって表示することができる。このとき、ユーザは表示
装置によりニューラルネットワークの演算における量子化パラメータを知ることができ、
ユーザはプロセッサが確定した量子化パラメータを適応的に修正することもできる。同様
に、上記のデータビット幅と目標反復間隔なども表示装置により表示することができる。
この場合、ユーザは、表示装置によりニューラルネットワークの演算における目標反復間
隔とデータビット幅などのパラメータを知ることができ、また、ユーザは、プロセッサが
確定した目標反復間隔とデータビット幅などのパラメータを適応的に修正することもでき
る。

なお、上述したデータビット幅を確定する目標反復間隔および量子化パラメータを確定
する目標反復間隔は、全て、網羅的なものではなく、単に列挙された一部の状況に過ぎず
、当業者が本開示の技術案の精髄を理解するうえで、本開示の技術案に基づいて、他の変
形または変換を生じる可能性がある。例えば、データビット幅を確定する目標反復間隔内
で量子化パラメータの目標反復間隔を確定することは図６、図７、および図８Ａに示す技
術案にも応用される。ただし、その実現された機能および達成された技術効果が本開示と
類似している限り、本開示の保護範囲に含まれるべきである。

さらに説明しなければならないのは、図２、図６、図７、図８Ａ～図８Ｖのフローチャ
ートにおける各ステップは、矢印の指示に従って順次表示されているが、これらのステッ
プは必ずしも矢印の順に逐次実行されるわけではない。ここで明示的に指定されている場
合を除き、これらのステップの実行には厳密な順序制限はなく、これらのステップは、別
の順序で実行してもよい。また、図２、図６、図７、図８Ａから図８Ｖにおける少なくと
も一部のステップは、複数のサブステップまたは複数のサブ段階を含むことができ、これ
らのサブステップまたは段階は、必ずしも同じ時点で実行されるわけではなく、異なる時
点で実行されてもよく、これらのサブステップまたは段階の実行順序は、必ずしも順次実
行されるわけではなく、代わりに、他のステップまたは他のステップのサブステップまた
は段階の少なくとも一部と順番に、または交互に実行することができる。

図９に示すように、本開示が提供するニューラルネットワークの量子化パラメータ確定
装置のハードウェア構成のブロック図である。図９において、ニューラルネットワークの
量子化パラメータ確定装置１０は、プロセッサ１１０とメモリ１２０を含むことができる
。図９のニューラルネットワークの量子化パラメータ確定装置１０において、ただ本実施
形態に関する構成要素だけを示す。従って、当業者にとって、明らかなことに、ニューラ
ルネットワークの量子化パラメータ確定装置１０は、図１０中に示す構成要素と異なるよ
く見られる構成要素をさらに含んでもよい。例えば、固定小数点演算器である。

ニューラルネットワークの量子化パラメータ確定装置１０は、ニューラルネットワーク
を生成したり、トレーニングしたり、ニューラルネットワークをトレーニングまたは学習
したり、浮動小数点型ニューラルネットワークを固定小数点型ニューラルネットワークに
量子化したり、ニューラルネットワークを再トレーニングしたりする機能など、様々な処
理機能を有する計算装置に対応することができる。例えば、ニューラルネットワークの量
子化パラメータ確定装置１０は、パーソナルコンピュータ（ＰＣ）、サーバ機器、モバイ
ル機器等の様々な種類の機器として実現することができる。

プロセッサ１１０は、ニューラルネットワークの量子化パラメータ確定装置１０の全て
の機能を制御する。例えば、プロセッサ１１０は、ニューラルネットワークの量子化パラ
メータ確定装置１０上のメモリ１２０に記憶されたプログラムを実行することにより、ニ
ューラルネットワークの量子化パラメータ確定装置１０の全ての機能を制御する。プロセ
ッサ１１０は、ニューラルネットワークの量子化パラメータ確定装置１０が提供する中央
処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、アプリケーション処
理装置（ＡＰ）、人工知能処理装置チップ（ＩＰＵ）等によって実現することができる。
ただし、本開示はこれに限定されるものではない。

メモリ１２０は、ニューラルネットワークの量子化パラメータ確定装置１０において処
理される各種のデータを記憶するためのハードウェアである。例えば、メモリ１２０は、
ニューラルネットワークの量子化パラメータ確定装置１０において処理されたデータと処
理すべきデータとを記憶することができる。メモリ１２０は、プロセッサ１１０によって
処理されたまたは処理されるニューラルネットワークの演算中に関与する、トレーニング
されていない初期ニューラルネットワークのデータ、トレーニング中に生成されたニュー
ラルネットワークの中間データ、すべてのトレーニングを完了したニューラルネットワー
クのデータ、量子化されたニューラルネットワークのデータなどのデータセットを記憶し
てもよい。また、メモリ１２０は、ニューラルネットワークの量子化パラメータ確定装置
１０によって駆動されるアプリケーション、ドライバ等を記憶しておくことができる。例
えば、メモリ１２０は、プロセッサ１１０によって実行されるニューラルネットワークの
トレーニングアルゴリズム、量子化アルゴリズム等に関する様々なプログラムを記憶する
ことができる。メモリ１２０はＤＲＡＭであってもよいが、本開示はこれに限定されない
。メモリ１２０は、揮発性メモリまたは非揮発性メモリの少なくとも１つを含むことがで
きる。不揮発性メモリは、読み取り専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲ
ＯＭ）、電気的にプログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的に消去可能なプログラマ
ブルＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、相転移ＲＡＭ（ＰＲＡＭ）、磁性ＲＡ
Ｍ（ＭＲＡＭ）、抵抗ＲＡＭ（ＲＲＡＭ：登録商標）、強誘電ＲＡＭ（ＦＲＡＭ：登録商
標）等を含むことができる。揮発性メモリは、ダイナミックＲＡＭ（ＤＲＡＭ）、スタテ
ィックＲＡＭ（ＳＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、ＰＲＡＭ、ＭＲＡＭ、ＲＲＡ
Ｍ、強誘電ＲＡＭ（ＦｅＲＡＭ）などを含む。一実施形態において、メモリ１２０は、ハ
ードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、高密度フラッ
シュメモリ（ＣＦ）、セキュアデジタル（ＳＤ）カード、マイクロセキュリティデジタル
（Ｍｉｃｒｏ－ＳＤ）カード、ミニセキュアデジタル（Ｍｉｎｉ－ＳＤ）カード、極限デ
ジタル（ｘＤ）カード、キャッシュ（ｃａｃｈｅｓ）またはメモリスティックのうちの少
なくとも１つを含むことができる。

プロセッサ１１０は、与えられた初期ニューラルネットワークを反復的にトレーニング
（学習）することによって、トレーニングされたニューラルネットワークを生成すること
ができる。このような状態では、ニューラルネットワークの処理精度を保証する意味で、
初期ニューラルネットワークのパラメータは、高精度のデータ表現フォーマット（３２ビ
ット浮動小数点精度を持つデータ表現フォーマットなど）である。パラメータには、ニュ
ーラルネットワークから／へのさまざまなタイプの入出力データを含むことができ、例え
ば、ニューラルネットワークの入力／出力ニューロン、重み、オフセットなどである。固
定小数点演算と比較して、浮動小数点演算過程には、比較的大量の演算や比較的頻繁なメ
モリアクセスが必要である。具体的には、ニューラルネットワーク処理に必要な演算の大
部分が各種の畳み込み演算として知られている。そのため、スマートフォン、タブレット
、ウェアラブルデバイス、埋め込み式装置などのような比較的低い処理性能を持つモバイ
ルデバイスでは、ニューラルネットワークの高精度なデータ演算では、モバイルデバイス
のリソースを十分に活用しないようにする。その結果、ニューラルネットワーク演算を許
容精度損失の範囲内で駆動し、上記の設備での演算量を十分に減少するために、ニューラ
ルネットワークの演算過程にかかわる高精度なデータを量子化し、低精度な固定小数点に
変換することができる。

例えば、ニューラルネットワークを導入するモバイルデバイス、埋め込みデバイスなど
のデバイスの処理性能を考慮すると、ニューラルネットワークの量子化パラメータ確定装
置１０は、トレーニングされたニューラルネットワークのパラメータを特定のビット数を
有する固定小数点型の量子化に変換し、ニューラルネットワークの量子化パラメータ確定
装置１０は、ニューラルネットワークを配置した機器に対応する量子化パラメータを送信
することで、人工知能プロセッサーチップがトレーニング、微調整などの演算操作を実行
する時に固定小数点の演算操作にする。ニューラルネットワークを配置する装置は、ニュ
ーラルネットワークを用いて音声認識、画像認識等を行う自律的車両、ロボット、スマー
トフォン、タブレット装置、拡張現実（ＡＲ）装置、ユビキタスネットワーク（ＩｏＴ）
装置等であってもよいが、これに限定されるものではない。

プロセッサ１１０は、メモリ１２０からニューラルネットワークの演算過程におけるデ
ータを取得する。このデータは、ニューロン、重み、オフセット、および勾配の少なくと
も１つのデータを含み、図２に示す手法を用いて、対応する量子化パラメータを確定し、
ニューラルネットワークの演算過程における目標データを量子化パラメータを用いて量子
化する。量子化後のデータをニューラルネットワーク演算操作の実行に使用する。この演
算操作はトレーニング、微調整、推理を含むがこれらに限定されない。

プロセッサ１１０は、量子化誤差ｄｉｆｆ _ｂｉｔに基づいてデータビット幅ｎを調整し
、しかも、プロセッサ１１０は、図６、図７および図８に示す目標反復間隔の方法の手順
を実行して、データビット幅の目標反復間隔または量子化パラメータの目標反復間隔を確
定することができる。

以上のように、本明細書の実施形態で提供されるニューラルネットワークの量子化パラ
メータ確定装置では、そのメモリ１２０およびプロセッサ１１０が実現する具体的な機能
は、本明細書において前述した実施形態に照らして説明することができ、上述した実施形
態の技術的効果を達成することができ、ここでは説明しない。

本実施形態では、前記プロセッサ１１０は、任意の適切な方法で実現することができる
。例えば、プロセッサ１１０は、マイクロプロセッサやプロセッサ、およびこの（マイク
ロ）プロセッサによって実行可能なコンピュータ可読プログラムコード（例えば、ソフト
ウェアやファームウェア）を記憶するコンピュータ可読媒体、論理ゲート、スイッチ、専
用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉ
ｒｃｕｉｔ、ＡＳＩＣ）、プログラム可能な論理コントローラ、および埋め込み式マイク
ロコントローラの形態を用いてもよい。

図１０に示すように、本開示が提供するニューラルネットワークの量子化パラメータ確
定装置を人工知能プロセッサチップに応用する模式図である。図１０によって、以上に述
べたように、ＰＣ、サーバなどのニューラルネットワークの量子化パラメータ確定装置１
０では、プロセッサ１１０は量子化操作を実行し、ニューラルネットワークの演算過程に
関する浮動小数点データを固定小数点に量子化し、人工知能プロセッサチップ上の固定小
数点演算器は、量子化された固定小数点数を用いてトレーニング、微調整、または推理を
実行する。人工知能プロセッサチップは、ニューラルネットワークを駆動するための専用
ハードウェアである。人工知能プロセッサチップは相対的に低い電力または性能で実現さ
れるため、本技術方案を利用して低精度の固定小数点数を採用してニューラルネットワー
ク演算を実現し、高精度データと比べて、精度の低い固定小数点数を読み取る場合に必要
なメモリの帯域幅がより小さく、人工知能プロセッサチップのｃａｃｈｅｓをよりよく使
用して、アクセスボトルネックを避けることができる。また、人工知能プロセッサチップ
上でＳＩＭＤ命令を実行する場合、１クロックでより多くの計算を実現し、ニューラルネ
ットワークの演算操作をより高速に行うことができる。

更に、同じ長さの固定小数点演算と高精度データ演算に対し、特に固定小数点演算と浮
動小数点演算の比較から分かるように、浮動小数点演算の計算モードよりも複雑であり、
浮動小数点演算器を構成するためには、より多くの論理デバイスが必要である。このよう
に、体積的に言えば、浮動小数点演算器の体積は固定小数点演算器の体積より大きい。ま
た、浮動小数点演算器は、より多くの資源を消費して処理する必要があり、これにより、
固定小数点演算と浮動小数点演算との電力量の差が一般的に数量オーダーである。

以上のように、本技術案は、人工知能プロセッサチップ上の浮動小数点演算器を固定小
数点演算器に変換することにより、人工知能プロセッサチップの消費電力を低減させるこ
とができる。これは、モバイルデバイスに対しては特に重要である。つまり、本技術案は
、浮動小数点演算コードを効率良く実行できない大量の組み込みシステムへの扉を開き、
ユビキタスネットワークの世界で広く応用することを可能にする。

本技術案では、人工知能プロセッサーチップは例えば神経処理ユニット（ＮＰＵ）、テ
ンソル処理ユニット（ＴＰＵ）、神経エンジンなどに対応でき、これらはニューラルネッ
トワークを駆動するための専用チップであるが、本開示はこれに限らない。

本手法では、人工知能プロセッサチップは、ニューラルネットワークの量子化パラメー
タ確定装置１０とは別の装置で実現することができ、ニューラルネットワークの量子化パ
ラメータ確定装置１０は、人工知能プロセッサチップの機能モジュールの一部として実現
してもよい。ただし、本開示はこれに限定されるものではない。

本技術案では、汎用プロセッサ（たとえばＣＰＵ）のオペレーティングシステムが本技
術案に基づいて命令を生成し、生成された命令を人工知能プロセッサチップ（たとえばＧ
ＰＵ）に送信し、人工知能プロセッサチップにより命令操作を実行してニューラルネット
ワークの量子化パラメータの確定と量子化過程を実現する。もう１つの応用状況では、汎
用プロセッサは本技術案に基づいて対応する量子化パラメーターを直接確定し、汎用プロ
セッサは、量子化パラメータに基づいて対応する目標データを直接量子化し、人工知能プ
ロセッサチップは量子化されたデータを用いて固定小数点演算操作を行う。さらに、汎用
プロセッサ（例えばＣＰＵ）と人工知能プロセッサチップ（例えばＧＰＵ）はパイプライ
ン化操作を用いて、汎用プロセッサ（例えばＣＰＵ）の操作システムは当技術案に基づい
て指令を生成し、また、目標データをコピーすると同時に、人工知能プロセッサチップ（
たとえばＧＰＵ）がニューラルネットワークの演算操作を行うことで、ある時間の消費を
隠蔽することができる。ただし、本開示はこれに限定されるものではない。

本開示実施形態はまた、上述したニューラルネットワークの量子化パラメータ確定方法
を実行時に実現するコンピュータプログラムを記憶する可読記憶媒体を提供する。

以上のことから分かるように、ニューラルネットワークの演算過程において、量子化時
に本開示の技術案を利用して量子化パラメーターを確定し、この量子化パラメーターは人
工知能プロセッサがニューラルネットワークの演算過程におけるデータを量子化を行い、
高精度のデータを低精度の固定小数点数に変換し、ニューラルネットワークの演算過程に
関わるデータのすべてのストレージスペースの大きさを減少することができる。例えば、
ｆｌｏａｔ３２をｆｉｘ８に変換すると、モデルパラメータを４分の１に減少することが
できる。データ記憶容量が小さくなるため、ニューラルネットワークを配置する時に更に
小さいスペースを使うことができ、人工知能プロセッサのチップ上のオンチップメモリは
もっと多くのデータを記憶することができ、人工知能プロセッサのチップのアクセスデー
タを減少し、計算性能を高める。

当業者も分かるように、純粋なコンピュータ可読プログラムコードでクライアントとサ
ーバを実現するほか、方法やステップを論理的にプログラムすることで論理ゲート、スイ
ッチ、専用集積回路、プログラマブル論理コントローラ、組込みマイクロコントローラな
どの形でクライアントとサーバが同様の機能を実現することを十分に可能にする。このた
め、クライアントとサーバはハードウェア部品として認識され、また、その中に含まれる
各種の機能を実現するための装置もハードウェア部品内の構成と見なすことができる。あ
るいは、様々な機能を実現するための装置は、方法を実現するソフトウェアモジュールと
してもハードウェア部品内の構成としてもよい。

図１１に示すように、本開示が提供するニューラルネットワークの量子化パラメータ確
定装置の機能ブロック図である。前記装置は以下を含む。

統計ユニットａは、量子化すべきデータを統計して、量子化すべきデータ毎の統計結果
を確定する。ここでは、前記量子化すべきデータは前記ニューラルネットワークのニュー
ロン、重み、オフセット、および勾配の少なくとも１つのデータを含む。

量子化パラメータ確定ユニットｂは、各量子化すべきデータの統計結果およびデータビ
ット幅によって対応する量子化パラメータを確定するために用いられる。ここで、前記量
子化パラメータは、人工知能プロセッサがニューラルネットワークの演算過程におけるデ
ータに対して、対応する量子化を行うためのものである。

本実施形態では、任意選択可能に、前記ニューラルネットワークの量子化パラメータ確
定装置は、さらに以下を含む。

第１量子化ユニットは、対応する量子化パラメータを用いて前記量子化すべきデータを
量子化するために用いられる。

本実施形態では、任意選択可能に、前記ニューラルネットワークの量子化パラメータ確
定装置は、さらに、以下を含む。

第２量子化ユニットは、対応する量子化パラメータによって目標データを量子化するた
めに用いられる。ここでは、前記目標データの特徴と前記量子化すべきデータの特徴とは
類似性を有する。

本実施形態では、前記ニューラルネットワーク演算過程は、ニューラルネットワークト
レーニング、ニューラルネットワーク推理、ニューラルネットワーク微調整のうちの少な
くとも１つの演算を含む。

本実施形態では、前記統計ユニットで得られる統計結果は、量子化すべきデータ毎にお
ける最大値と最小値である。

本実施形態では、前記統計ユニットで得られる統計結果は、量子化すべきデータ毎の最
大値絶対値となる。

本実施形態では、前記統計ユニットは、量子化すべきデータごとにおける最大値と最小
値に基づいて前記絶対値の最大値を確定する。

本実施形態では、前記量子化パラメータ確定ユニットは、量子化すべきデータごとにお
ける最大値、最小値および前記データビット幅に基づいて量子化パラメータを確定する。

本実施形態では、前記量子化パラメータ確定ユニットは、量子化すべきデータごとにお
ける絶対値の最大値、前記データビット幅に基づいて量子化パラメータを確定する。

本実施形態では、前記量子化パラメータ確定ユニットが確定した前記量子化パラメータ
は、小数点位置パラメータまたは第１スケジューリング係数である。

本実施形態では、前記量子化パラメータ確定ユニットは、小数点位置パラメータと第２
スケジューリング係数に基づいて前記第１スケジューリング係数を確定する。ここで、第
１スケーリング係数を確定する際に使用される小数点位置パラメータは、既知の固定値で
あり、または、前記小数点位置パラメータと、対応する前記第２スケーリング係数とが乗
算された結果は、全体として第１スケーリング係数としてニューラルネットワーク演算に
おけるデータ量子化に応用される。

本実施形態では、前記量子化パラメータ確定ユニットが確定した前記量子化パラメータ
は、小数点位置パラメータと第２スケジューリング係数を含む。

本実施形態では、前記量子化パラメータ確定ユニットは、前記小数点位置パラメータ、
前記統計結果、前記データビット幅に基づいて前記第２スケジューリング係数を確定する
。

本実施形態では、前記量子化パラメータ確定ユニットが確定した前記量子化パラメータ
は、オフセットをさらに含む。

本実施形態では、前記量子化パラメータ確定ユニットは、量子化すべきデータごとの統
計結果に基づいて前記オフセットを確定する。

本実施形態では、前記量子化パラメータ確定ユニットが使用するデータビット幅は、プ
リセット値である。

本実施形態では、前記量子化パラメータ確定ユニットは、調整モジュールと量子化誤差
確定モジュールとを含む。

前記調整モジュールは、データビット幅を、対応する量子化誤差に応じて調整するため
に用いられる。

前記量子化誤差確定モジュールは、量子化後のデータと、対応する量子化前のデータと
に基づいて量子化誤差を確定するために用いられる。

本実施形態では、前記調整モジュールは、具体的に以下のように構成される。

前記量子化誤差と閾値を比較し、比較結果に基づいて、前記データビット幅を調整する
ために用いられる。ここでは、前記閾値は第１閾値と第２閾値の少なくとも１つを含む。

本実施形態では、前記調整モジュールは第１調整サブモジュールを含み、ここでは、前
記第１調整サブモジュールは、以下のためである。

前記量子化誤差が前記第１閾値以上の場合、前記データビット幅を増加するために用い
られる。

本実施形態では、前記調整モジュールは、第２調整サブモジュールを含み、ここでは、
前記第２調整サブモジュールは、以下のためである。

前記量子化誤差が第２閾値以下の場合、前記データビット幅を低減するために用いられ
る。

本実施形態では、前記調整モジュールは、第３調整サブモジュールを含み、ここでは、
前記第３調整サブモジュールは、以下のためである。

前記量子化誤差が前記第１閾値と前記第２閾値との間にある場合、前記データビット幅
は不変を保つために用いられる。

本実施形態では、前記量子化誤差確定モジュールは、以下を含む。

前記データビット幅に基づいて量子化間隔を確定するための量子化間隔確定サブモジュ
ールと、

前記量子化間隔、前記量子化後のデータの個数と対応する量子化前のデータに基づいて
量子化誤差を確定するための第１量子化誤差確定サブモジュールとを含む。

本実施形態では、前記量子化誤差確定モジュールは、逆量子化データ確定サブモジュー
ルと、第２量子化誤差確定サブモジュールとを含む。

前記逆量子化データ確定サブモジュールは、量子化後のデータを逆量子化して、逆量子
化データを得るために用いられる。ここで、前記逆量子化データのデータフォーマットは
、対応する量子化前のデータのデータフォーマットと同じである。

前記第２量子化誤差確定サブモジュールは、前記量子化後のデータと、対応する逆量子
化データに基づいて量子化誤差を確定するために用いられる。

本実施形態において、前記量子化誤差確定モジュールが使用する前記量子化前のデータ
は、前記量子化すべきデータである。

本実施形態において、前記量子化誤差確定モジュールが使用する前記量子化前のデータ
は、目標反復間隔内の重み更新反復過程に係る量子化すべきデータである。ここでは、前
記目標反復間隔は少なくとも１つの重み更新反復を含み、同じデータビット幅が同じ目標
反復間隔内の量子化過程で使用される。

本実施形態において、前記ニューラルネットワークの量子化パラメータ確定装置は、第
１目標反復間隔確定ユニットをさらに含む。ここでは、前記第１目標反復間隔確定ユニッ
トは、第１変化傾向値確定モジュールと第１目標反復間隔モジュールを含む。

前記第１変化傾向値確定モジュールは、予測時点において、重み更新反復過程に係る量
子化すべきデータの小数点位置パラメータの変化傾向値を確定するために用いられる。こ
こで、前記予測時点は、前記データビット幅を調整する必要があるか否かを判断するため
の時点であり、前記予測時点は、重み更新反復が完了した時点に対応する。

前記第１目標反復間隔モジュールは、前記小数点位置パラメータの変化傾向値によって
、対応する前記目標反復間隔を確定するために用いられる。

本実施形態において、前記第１目標反復間隔確定ユニットは、第２変化傾向値確定モジ
ュールと第２目標反復間隔モジュールを含む。

第２変化傾向値確定モジュールは、予測時点において、重み更新反復過程に係る量子化
すべきデータの小数点位置パラメータの変化傾向値、データビット幅の変化傾向値を確定
するために用いられる。ここで、前記予測時点は、前記データビット幅を調整する必要が
あるか否かを判断するための時点であり、前記予測時点は、重み更新反復が完了した時点
に対応する。

前記第２目標反復間隔モジュールは、前記小数点位置パラメータの変化傾向値と前記デ
ータビット幅の変化傾向値によって対応する前記目標反復間隔を確定するために用いられ
る。

本実施形態において、前記第１目標反復間隔確定ユニットは、第１予測時点確定ユニッ
トをさらに含む。

前記第１予測時点確定ユニットは、前記目標反復間隔に基づいて前記第１予測時点を確
定するために用いられる。

本実施形態において、前記第１目標反復間隔確定ユニットは、第２予測時点確定ユニッ
トをさらに含み、ここでは、前記第２予測時点確定ユニットは、データ変動幅曲線に基づ
いて第２予測時点を確定するために用いられる。ここでは、前記データ変動幅曲線は、重
み更新反復過程におけるデータ変動幅の状況を統計することで得られる。

本実施形態において、前記第１変化傾向値確定モジュールと前記第２変化傾向値確定モ
ジュールは、いずれも現在予測時点に対応する小数点位置パラメータのスライディング平
均値、前の予測時点に対応する小数点位置パラメータのスライディング平均値に基づいて
前記小数点位置パラメータの変化傾向値を確定する。

本実施形態において、前記第１変化傾向値確定モジュールと前記第２変化傾向値確定モ
ジュールは、いずれも現在予測時点に対応する小数点位置パラメータ、前の予測時点に対
応する小数点位置パラメータのスライディング平均値に基づいて前記小数点位置パラメー
タの変化傾向値を確定する。

本実施形態において、前記第１変化傾向値確定モジュールと前記第２変化傾向値確定モ
ジュールはいずれも以下を含む。

前の予測時点に対応する小数点位置パラメータと前記データビット幅の調整値に基づい
て前記現在予測時点に対応する小数点位置パラメータを確定するための現在予測時点に対
応する小数点位置パラメータ確定サブモジュールと、

前記データビット幅の調整値に基づいて前記一つ前の予測時点に対応する小数点位置パ
ラメータのスライディング平均値を調整して、調整結果を取得するための調整結果確定サ
ブモジュールと、

前記現在予測時点に対応する小数点位置パラメータ、前記調整結果に基づいて現在予測
時点に対応する小数点位置パラメータのスライディング平均値を確定するための第１スラ
イディング平均値確定サブモジュールを含む。

本実施形態において、前記第１変化傾向値確定モジュールと前記第２変化傾向値確定モ
ジュールは、いずれも以下を含む。

一つ前の予測時点に対応する小数点位置パラメータと一つ前の予測時点に対応する小数
点位置パラメータのスライディング平均値に基づいて現在予測時点に対応する小数点位置
パラメータのスライディング平均値の中間結果を確定するための中間結果確定サブモジュ
ールと、

現在予測時点に対応する小数点位置パラメータのスライディング平均値の中間結果と前
記データビット幅の調整値に基づいて前記現在予測時点に対応する小数点位置パラメータ
のスライディング平均値を確定するための第２スライディング平均値確定サブモジュール
とを含む。

本実施形態において、前記第２変化傾向値確定モジュールは、対応する前記量子化誤差
に基づいてデータビット幅の変化傾向値を確定する。

本実施形態において、前記第１目標反復間隔確定ユニットは、量子化誤差確定モジュー
ルとデータビット幅確定モジュールをさらに含む。

量子化誤差確定モジュールは対応する量子化誤差を確定するために用いられ、ここでは
、前記量子化誤差に対応する量子化前のデータは、前記予測時点に対応する重み更新反復
過程に係る量子化すべきデータである。

前記データビット幅確定モジュールは、対応する量子化誤差に基づいて、前記目標反復
間隔内量子化過程に用いられるデータビット幅を確定するために用いられる。

本実施形態において、前記データビット幅確定モジュールは、具体的に以下のように構
成される。

前記量子化誤差と閾値を比較し、比較結果に基づいて、前の目標反復間隔内の量子化過
程に用いられるデータビット幅を調整し、調整結果を現在目標反復間隔内の量子化過程に
用いられるデータビット幅とするために用いられる。

本実施形態において、前記量子化誤差確定モジュールが使用する前記量子化前のデータ
は目標反復間隔内の重み更新反復過程に係る量子化すべきデータである。ここでは、前記
目標反復間隔は、少なくとも１つの重み更新反復を含み、同じ前記量子化パラメータが同
じ目標反復間隔内の量子化過程で使用される。

本実施形態において、前記ニューラルネットワークの量子化パラメータ確定装置は、第
２目標反復間隔確定ユニットをさらに含む。ここでは、前記第２目標反復間隔確定ユニッ
トは第３変化傾向値確定モジュールと第３目標反復間隔モジュールを含む。

前記第３変化傾向値確定モジュールは、予測時点において、重み更新反復過程に係る量
子化すべきデータの小数点位置パラメータの変化傾向値を確定するために用いられる。こ
こで、前記予測時点は、前記量子化パラメータを調整する必要があるか否かを判断するた
めの時点であり、前記予測時点は、重み更新反復が完了した時点に対応する。

前記第３目標反復間隔モジュールは、前記小数点位置パラメータの変化傾向値によって
対応する前記目標反復間隔を確定するために用いられる。

本実施形態において、前記量子化パラメータ確定ユニットは、統計結果と前記データビ
ット幅に基づいて前記小数点位置パラメータを確定する。

一実施形態では、データビット幅の調整装置を提供が提供され、これは、以下を含むこ
とを特徴とする。

量子化すべきデータが量子化処理された後の量子化後のデータのビット幅を示す、前記
量子化すべきデータに対して前記量子化処理を実行するためのデータビット幅を取得する
ように構成される取得モジュールと、

前記データビット幅に基づいて１組の量子化すべきデータに対して量子化処理を実行し
て、前記１組の量子化すべきデータを前記データビット幅を持つ１組の量子化後のデータ
に変換するように構成される量子化モジュールと、

前記１組の量子化すべきデータを前記１組の量子化後のデータと比較し、前記データビ
ット幅に関連する量子化誤差を確定するように構成される確定モジュールと、

確定された前記量子化誤差に基づいて前記データビット幅を調整する調整モジュールと
を含む、ことを特徴とする。

本実施形態において、前記比較モジュールは以下を含む。

前記データビット幅に基づいて量子化間隔を確定するための間隔確定モジュールと、

前記量子化間隔、前記１組の量子化後データおよび前記１組の量子化すべきデータに基
づいて前記量子化誤差を確定するための誤差確定モジュールとを含む。

本実施形態では、前記誤差確定モジュールは以下を含む。

前記量子化間隔に基づいて、前記１組の量子化後データを逆量子化して、１組の逆量子
化データを得るために用いられ、前記１組の逆量子化データのデータフォーマットが前記
１組の量子化すべきデータのデータフォーマットと同じである量子化モジュールと、
前記１組の逆量子化データと前記１組の量子化すべきデータに基づいて、量子化誤差を
確定するための量子化誤差確定モジュールとを含む。

本実施形態において、前記調整モジュールは以下を含む。

前記量子化誤差を、第１閾値および第２閾値のうち少なくとも１つを含むプリセット閾
値と比較するように構成される比較モジュールと、

前記比較の結果によって前記データビット幅を調整するように構成されるビット幅調整
モジュールとを含む。

本実施形態において、前記ビット幅調整モジュールは以下を含む。

前記量子化誤差が第１閾値以上であると判断したことに応じて前記データビット幅を増
加するように構成される増加モジュールを含む。

本実施形態において、前記増加モジュールは以下を含む。

第１プリセットビット幅のステップ長さによって前記データビット幅を増加して、調整
後データビット幅を確定するように構成されるステップ長さ増加モジュールを含む。

本実施形態において、前記量子化モジュールはさらに、前記調整後データビット幅に基
づいて前記１組の量子化すべきデータに対して量子化処理を実行して、前記１組の量子化
すべきデータを、前記調整後データビット幅を持つ別の１組の量子化後のデータに変換す
るように構成される。

前記確定モジュールはさらに、前記１組の量子化すべきデータを前記別の１組の量子化
後のデータと比較し、前記調整後データビット幅に関連する別の量子化誤差を、前記別の
量子化誤差が前記第１プリセット閾値より小さくなるまで、確定するように構成される。

本実施形態において、前記装置が反復的に呼び出されるように構成される。

本実施形態において、前記調整モジュールは以下を含む。

前記量子化誤差が前記第２閾値以下であると判断したことに応じて、前記データビット
幅を減少するように構成される減少モジュールを含む。

本実施形態において、前記減少モジュールは以下を含む。

第２プリセットビット幅のステップ長さによって前記データビット幅を減少して、調整
後データビット幅を確定するように構成されるステップ長さ減少モジュールを含む。

本実施形態において、前記量子化モジュールはさらに、前記調整後データビット幅に基
づいて、前記１組の量子化すべきデータに対して量子化処理を実行して、前記１組の量子
化すべきデータを、前記調整後データビット幅を持つ別の１組の量子化後のデータに変換
するように構成される。

前記確定モジュールはさらに、前記１組の量子化すべきデータと前記別の１組の量子化
後のデータに基づいて、前記調整後データビット幅に関連する別の量子化誤差を、前記別
の量子化誤差が前記第２プリセット閾値より大きくなるまで、確定するように構成される
。

本実施形態において、前記調整モジュールは以下を含む。

前記量子化誤差が前記第１閾値と前記第２閾値との間にあると判断したことに応じて、
前記データビット幅を維持するように構成される維持モジュールを含む。

本実施形態において、それはさらに以下を含む。

前記１組の量子化すべきデータと前記調整後データビット幅に基づいて、前記１組の量
子化すべきデータに量子化処理を実行するための量子化パラメータを更新するように構成
される更新モジュールをさらに含む。

前記量子化モジュールはさらに、更新された前記量子化パラメータに基づいて、前記１
組の量子化すべきデータに量子化処理を実行するように構成される。

本実施形態において、幅モジュールは量子化すべきデータのデータ変動幅を取得するよ
うに構成される。

間隔モジュールは、前記量子化すべきデータのデータ変動幅によって、少なくとも１回
の反復を含む目標反復間隔を確定し、前記目標反復間隔によって前記データビット幅を調
整するように構成される。

本実施形態において、前記幅モジュールは以下を含む。

前記量子化すべきデータのデータ変動幅を表すための、前記量子化すべきデータのデー
タ変動幅と正の相関がある小数点位置の変動幅を取得するように構成される小数点位置モ
ジュールを含む。

本実施形態において、前記小数点位置モジュールは以下を含む。

現在検証反復の一つ前の検証反復に対応する小数点位置と、前記目標反復間隔の一つ前
の反復間隔に対応する検証反復である前記一つ前の検証反復前の履歴反復に対応する小数
点位置とによって第１平均値を確定するように構成される第１平均値モジュールと、

前記現在検証反復に対応する目標データビット幅と量子化すべきデータによって確定さ
れる、前記現在検証反復に対応する小数点位置と、前記現在検証反復前の履歴反復の小数
点位置とによって第２平均値を確定するように構成される第２平均値モジュールと、

前記小数点位置の変動幅を表すための第１誤差を、前記第１平均値および前記第２平均
値によって確定するように構成される第１誤差モジュールとを含む。

本実施形態において、前記間隔モジュールは以下を含む。

前記第１誤差によって、前記第１誤差と負の相関がある前記目標反復間隔を確定するよ
うに構成される第１間隔モジュールを含む。

本実施形態において、前記幅モジュールはさらに以下を含む。

前記データビット幅の変動傾向を取得するように構成される傾向モジュールと、

前記小数点位置の変動幅と前記データビット幅の変動傾向によって、前記量子化すべき
データのデータ変動幅を確定するように構成されるデータ変動幅モジュールとをさらに含
む。

本実施形態において、前記間隔モジュールはさらに以下を含む。

取得された、小数点位置の変動幅を表すための第１誤差およびデータビット幅の変動傾
向を表すための第２誤差によって前記目標反復間隔を確定するように構成される反復間隔
モジュールをさらに含む。

本実施形態において、前記反復間隔モジュールは以下を含む。

前記第１誤差と前記第２誤差のうちの最大値を目標誤差とするように構成される目標誤
差モジュールと、

前記目標反復間隔と負の相関がある前記目標誤差によって前記目標反復間隔を確定する
ように構成される目標反復間隔モジュールとを含む。

本実施形態において、前記第２誤差は、量子化誤差によって確定される。

前記量子化誤差は、前記現在検証反復における量子化すべきデータと前記現在検証反復
の量子化データによって確定され、前記第２誤差は前記量子化誤差と正の相関がある。

本実施形態において、前記装置は、ニューラルネットワークのトレーニングまたは微調
整のために用いられる。

前記現在反復が第１プリセット反復よりも大きい場合、前記量子化すべきデータのデー
タ変動幅によって目標反復間隔を確定し、前記目標反復間隔によって前記量子化パラメー
タを調整するように構成される第１反復モジュールをさらに含む。

本実施形態において、前記装置はさらに以下を含む。

前記現在反復が前記第１プリセット反復以下の場合、前記第１プリセット反復間隔を前
記目標反復間隔とし、前記第１プリセット反復間隔によって前記量子化パラメータを調整
するように構成される第２反復モジュールをさらに含む。

本実施形態において、前記装置はさらに以下を含む。

前記現在反復が第２プリセット反復以上の場合、第２プリセット反復間隔を前記目標反
復間隔とし、前記第２プリセット反復間隔によって前記量子化パラメータを調整するよう
に構成される第３反復モジュールをさらに含む。

ここでは、前記第２プリセット反復は前記第１プリセット反復より大きく、前記第２プ
リセット反復間隔は前記第１プリセット反復間隔より大きい。

本実施形態において、前記装置はさらに以下を含む。

前記ニューラルネットワークの収束度がプリセット条件を満たす場合、前記現在検証反
復が第２プリセット反復以上であると確定するように構成される収束モジュールをさらに
含む。

本実施形態において、前記装置はさらに以下を含む。

前記現在反復が第２プリセット反復以上であり、かつ第２誤差がプリセット誤差値より
大きい場合、前記量子化すべきデータのデータ変動幅によって反復間隔を確定し、前記反
復間隔によって前記データビット幅を再確定することをさらに含む。

一実施形態において、コンピュータ可読記憶媒体を提供し、コンピュータプログラムが
記憶され、前記プログラムが実行されると、以上のいずれか一項に記載の方法が実現され
る。

一実施形態において、人工知能チップを提供し、前記チップは、以上に記載のいずれか
一項に記載のデータを処理するための装置を含む。

一実施形態において、電子装置を提供し、前記電子装置は、以上に記載の人工知能チッ
プを含む。

一実施形態において、ＰＣＢボードを提供し、前記ＰＣＢボードはさらに、記憶デバイ
ス、インターフェースデバイス、制御デバイス、および以上に記載の人工知能チップを含
む。

ここでは、前記人工知能チップは、前記記憶デバイス、前記制御デバイス、および前記
インターフェイスデバイスに接続されている。

前記記憶デバイスは、データを記憶するためのものである。

前記インターフェイスデバイスは、前記人工知能チップと外部装置との間のデータ伝送
を実現するためのものであり
前記制御デバイスは、前記人工知能チップの状態を監視するためのものである。

一実施形態において、前記記憶デバイスは複数組の記憶ユニットを含み、各組の記憶ユ
ニットは、バスを介して前記人工知能チップに接続され、前記記憶ユニットはＤＤＲＳ
ＤＲＡＭである。

前記チップはＤＤＲコントローラを含み、各前記記憶ユニットのデータ伝送およびデー
タストレージを制御する。

前記インターフェイスデバイスは、標準のＰＣＩＥインターフェイスである。

一実施形態において、前記量子化すべき層における各種の量子化すべきデータに対応す
る量子化パラメータを確定することは、以下を含む。

各種の量子化すべきデータと対応するデータビット幅に基づいて対応する量子化パラメ
ータを算出することを含む。

一実施形態において、前記の、各種の量子化すべきデータと対応するデータビット幅に
基づいて対応する量子化パラメータを算出することは、以下が含まれる。

前記量子化パラメータにオフセットが含まれていない場合、目標データにおける絶対値
の最大値と前記目標データに対応するデータビット幅に基づいて、前記目標データの小数
点位置を得ることを含み、前記目標データは任意種類の量子化すべきデータである。

前記量子化パラメータにオフセットが含まれていない場合、目標データと前記目標デー
タに対応するデータビット幅に基づいて、前記目標データの量子化後データの最大値を得
て、前記目標データは任意種類の量子化すべきデータであることと、

目標データにおける絶対値の最大値と前記目標データの量子化後データの最大値に基づ
いて、前記目標データのスケーリング係数を得ることとを含む。

前記量子化パラメータにオフセットが含まれる場合、前記目標データにおける最大値と
前記目標データにおける最小値および前記目標データに対応するデータビット幅に基づい
て、前記目標データの小数点位置を得ることを含み、前記目標データは任意種類の量子化
すべきデータである。

前記量子化パラメータにオフセットが含まれる場合、目標データと前記目標データに対
応するデータビット幅に基づいて、前記目標データの量子化後データの最大値を得て、前
記目標データは任意種類の量子化すべきデータであることと、

前記目標データにおける最大値、前記目標データにおける最小値と前記目標データの量
子化後データの最大値に基づいて、前記目標データのスケーリング係数を得ることとを含
む。

目標データにおける最大値と最小値に基づいて、前記目標データのオフセットを得るこ
とを含み、前記目標データは任意種類の量子化すべきデータである。

一実施形態において、前記方法はさらに以下を含む。

目標データと前記目標データに対応する量子化データに基づいて、前記目標データの量
子化誤差を確定し、前記目標データは任意種類の量子化すべきデータであることと、

前記量子化誤差と誤差閾値に基づいて、前記目標データに対応するデータビット幅を調
整して、前記目標データに対応する調整ビット幅を得ることと、

前記目標データに対応するデータビット幅を前記調整ビット幅に更新し、前記目標デー
タおよび前記調整ビット幅によって対応する調整量子化パラメータを算出し、これによっ
てニューラルネットワークは調整量子化パラメータによって量子化を行うこととを含む。

一実施形態において、前記量子化誤差と誤差閾値に基づいて、前記目標データに対応す
るデータビット幅を調整して、前記目標データに対応する調整ビット幅を得ることは、以
下が含まれる。

前記量子化誤差が前記第１誤差閾値よりも大きい場合、目標データに対応するデータビ
ット幅を増加して、前記目標データに対応する調整ビット幅を得ることを含む。

一実施形態において、前記調整ビット幅と前記目標データによって、前記目標データの
調整後量子化誤差を計算する。

調整ビット幅と前記目標データによって計算された調整後の量子誤差が前記第１誤差閾
値以下になるまで、前記調整後量子化誤差と第１誤差閾値によって前記調整ビット幅を増
加し続ける。

一実施形態において、前記量子化誤差と誤差閾値に基づいて、前記目標データに対応す
るデータビット幅を調整することは、以下を含む。

前記量子化誤差が第２誤差閾値よりも小さい場合、前記目標データに対応するデータビ
ット幅を減少することを含み、前記第２誤差閾値が前記第１誤差閾値よりも小さい。

前記方法はさらに以下を含む。

前記調整ビット幅と前記目標データによって、前記目標データの調整後量子化誤差を計
算することと、

調整ビット幅と前記目標データによって算出された調整後の量子誤差が第２誤差閾値以
上になるまで、前記調整後量子化誤差と前記第２誤差閾値によって前記調整ビット幅を減
少し続けることとを含む。

一実施形態において、前記ニューラルネットワーク演算の微調整段階および／またはト
レーニング段階において、前記方法はさらに以下を含む。

現在反復および履歴反復における目標データのデータ変動幅を取得し、前記履歴反復は
前記現在反復の前の反復であることと、

前記目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を
確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの
量子化パラメータを更新し、前記目標反復間隔は少なくとも１回の反復を含み、前記目標
データは任意種類の量子化すべきデータであることとを含む。

前記方法はさらに以下を含む。

前記目標データの前記現在反復におけるデータビット幅に基づいて、前記目標データの
前記目標反復間隔内の反復に対応するデータビット幅を確定して、前記ニューラルネット
ワークが前記目標データの前記目標反復間隔内の反復に対応するデータビット幅に基づい
て、量子化パラメータを確定することを含む。

一実施形態において、前記量子化パラメータ確定サブモジュールは、以下を含む。

各種の量子化すべきデータと対応するデータビット幅に基づいて対応する量子化パラメ
ータを算出するように構成される第２量子化パラメータ確定サブモジュールを含む。

一実施形態において、前記第２量子化パラメータ確定サブモジュールは、以下を含む。

前記量子化パラメータにオフセットが含まれていない場合、目標データにおける絶対値
の最大値と前記目標データに対応するデータビット幅に基づいて、前記目標データの小数
点位置を得て、前記目標データは任意種類の量子化すべきデータであるように構成される
第１小数点位置計算ユニットを含む。

前記量子化パラメータにオフセットが含まれる場合、目標データと前記目標データに対
応するデータビット幅に基づいて、前記目標データの量子化後データの最大値を得て、前
記目標データは任意種類の量子化すべきデータであり、目標データにおける絶対値の最大
値と前記目標データ量子化後データの最大値に基づいて、前記目標データのスケーリング
係数を得るように構成される第１スケーリング係数計算ユニットを含む。

前記量子化パラメータにオフセットが含まれる場合、前記目標データにおける最大値と
前記目標データにおける最小値および前記目標データに対応するデータビット幅に基づい
て、前記目標データの小数点位置を得ることを含み、前記目標データは、任意種類の量子
化すべきデータであるように構成される第２小数点位置計算ユニットを含む。

前記量子化パラメータにオフセットが含まれる場合、目標データと前記目標データに対
応するデータビット幅に基づいて、前記目標データの量子化後データの最大値を得て、前
記目標データは任意種類の量子化すべきデータであり、前記目標データにおける最大値、
前記目標データにおける最小値と前記目標データの量子化後データの最大値に基づいて、
前記目標データのスケーリング係数を得るように構成される第２スケーリング係数計算ユ
ニットを含む。

目標データにおける最大値と最小値に基づいて、前記目標データのオフセットを得るこ
とを含み、前記目標データは任意種類の量子化すべきデータであるように構成されるオフ
セット計算ユニットを含む。

一実施形態において、前記装置はさらに以下を含む。

目標データと前記目標データに対応する量子化データに基づいて、前記目標データの量
子化誤差を確定し、前記目標データは、任意種類の量子化すべきデータであるように量子
化誤差確定モジュールと、

前記量子化誤差と誤差閾値に基づいて、前記目標データに対応するデータビット幅を調
整して、前記目標データに対応する調整ビット幅を得るように構成される調整ビット幅確
定モジュールと、

前記目標データに対応するデータビット幅を前記調整ビット幅に更新し、前記目標デー
タおよび前記調整ビット幅によって計算して対応する調整量子化パラメータが得られ、こ
れによってニューラルネットワークは、調整量子化パラメータによって量子化されるよう
に構成される調整量子化パラメータ確定モジュールとを含む。

一実施形態において、前記調整ビット幅確定モジュールは、以下を含む。

前記量子化誤差が前記第１誤差閾値よりも大きい場合、目標データに対応するデータビ
ット幅を増加して、前記目標データに対応する調整ビット幅を得るように構成される第１
調整ビット幅確定サブモジュールを含む。

一実施形態において、前記調整ビット幅確定モジュールは、さらに以下を含む。

調整ビット幅と前記目標データによって、前記目標データの調整後量子化誤差を計算す
るように構成される第１調整量子化誤差確定サブモジュールと、

調整ビット幅と前記目標データによって計算された調整後の量子誤差が前記第１誤差閾
値以下になるまで、前記調整後量子化誤差と第１誤差閾値によって前記調整ビット幅を増
加し続けるように構成される第１調整ビット幅サイクル確定サブモジュールとをさらに含
む。

前記量子化誤差が第２誤差閾値よりも小さい場合、前記目標データに対応するデータビ
ット幅を減少することを含み、前記第２誤差閾値が前記第１誤差閾値よりも小さいように
構成される第２調整ビット幅確定サブモジュールを含む。

前記調整ビット幅と前記目標データによって、前記目標データの調整後量子化誤差を計
算するように構成される第２調整量子化誤差確定サブモジュールと、

調整ビット幅と前記目標データによって算出された調整後の量子誤差が第２誤差閾値以
上になるまで、前記調整後量子化誤差と前記第２誤差閾値によって前記調整ビット幅を減
少し続けるように構成される第２調整ビット幅サイクル確定サブモジュールとをさらに含
む。
一実施形態において、前記ニューラルネットワーク演算の微調整段階および／またはト
レーニング段階において、前記装置はさらに以下を含む。

現在反復および履歴反復における目標データのデータ変動幅を取得し、前記履歴反復は
前記現在反復の前の反復であるように構成されるデータ変動幅確定モジュールと、

前記目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を
確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの
量子化パラメータを更新し、前記目標反復間隔は少なくとも１回の反復を含み、前記目標
データは任意種類の量子化すべきデータであるように構成される目標反復間隔確定モジュ
ールとをさらに含む。

一実施形態において、前記装置はさらに以下を含む。

前記目標データの前記現在反復におけるデータビット幅に基づいて、前記目標データの
前記目標反復間隔内の反復に対応するデータビット幅を確定して、前記ニューラルネット
ワークが前記目標データの前記目標反復間隔内の反復に対応するデータビット幅に基づい
て、量子化パラメータを確定するように構成される第１目標反復間隔応用モジュールを含
む。

一実施形態において、ニューラルネットワークの量子化パラメータ調整方法を提供し、
この方法は以下を含む。

量子化すべきデータのデータ変動幅を取得することと、

前記量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確定することで、
この目標反復間隔に基づいて、ニューラルネットワーク演算における量子化パラメータを
調整することとを含み、ここでは、前記目標反復間隔は、少なくとも１回の反復を含み、
前記ニューラルネットワークの量子化パラメータは、前記ニューラルネットワークの演算
における量子化すべきデータに対する量子化動作を実現するためのものであることを特徴
とする。

一実施形態において、前記量子化パラメータは、小数点位置を含み、前記小数点位置は
、前記量子化すべきデータに対応する量子化データにおける小数点の位置である。前記方
法は、以下をさらに含む。

現在検証反復に対応する目標データビット幅と、前記現在検証反復の量子化すべきデー
タに基づいて、前記目標反復間隔における反復に対応する小数点位置を確定して、前記ニ
ューラルネットワーク演算における小数点位置を調整することをさらに含む。

ここでは、前記目標反復間隔における反復に対応する小数点位置は一致している。

一実施形態において、前記量子化パラメータは小数点位置を含み、前記小数点位置は前
記量子化すべきデータに対応する量子化データにおける小数点の位置である。前記方法は
、

前記現在検証反復に対応する目標データビット幅に基づいて、目標反復間隔に対応する
データビット幅を確定し、ここでは、目標反復間隔における反復に対応するデータビット
幅は一致することと、

取得された小数点位置の反復間隔と前記目標反復間隔に対応するデータビット幅に基づ
いて、前記目標反復間隔における反復に対応する小数点位置を調整して、前記ニューラル
ネットワーク演算における小数点位置を調整することをさらに含み、

ここで、小数点位置の反復間隔には少なくとも１回の反復が含まれ、前記小数点位置の
反復間隔における反復の小数点位置は一致している。

一実施形態において、前記小数点位置の反復間隔は、前記目標反復間隔以下である。

一実施形態において、前記量子化パラメータはスケーリング係数をさらに含み、前記ス
ケーリング係数は前記小数点位置と同期して更新される。

一実施形態において、前記量子化パラメータはオフセットをさらに含み、前記オフセッ
トは前記小数点位置と同期して更新される。

一実施形態において、前記方法は、

前記現在検証反復の量子化すべきデータと前記現在検証反復の量子化データとに基づい
て量子化誤差を確定し、前記現在検証反復の量子化データは、前記現在検証反復の量子化
すべきデータを量子化することによって得られることと、

前記量子化誤差に基づき、前記現在検証反復に対応する目標データビット幅を確定する
こととをさらに含む。

前記量子化誤差に基づき、前記現在検証反復に対応する目標データビット幅を確定する
ことは、以下を含む。

前記量子化誤差が第１プリセット閾値以上の場合、前記現在検証反復に対応するデータ
ビット幅を大きくして、前記現在検証反復に対応する目標データビット幅を得るように構
成され、または、

前記量子化誤差が第２プリセット閾値以下である場合、前記現在検証反復に対応するデ
ータビット幅を小さくして、前記現在検証反復の目標データビット幅を得ることを含む。

一実施形態において、前記量子化誤差が第１プリセット閾値以上の場合、前記現在検証
反復に対応するデータビット幅を大きくして、前記現在検証反復に対応する目標データビ
ット幅を得ることは、

前記量子化誤差が第１プリセット閾値以上の場合、第１プリセットビット幅のステップ
長さに基づいて第１中間データビット幅を確定することと、

前記量子化誤差が前記第１プリセット閾値より小さくなるまで、前記現在検証反復にお
ける量子化すべきデータと前記現在検証反復の量子化データに基づいて量子化誤差を確定
することを戻して実行することとを含む。ここでは、前記現在検証反復の量子化データは
、前記第１中間データビット幅が前記現在検証反復の量子化すべきデータを量子化するこ
とで得られるものである。

一実施形態において、前記量子化誤差が第２プリセット閾値以下の場合、前記現在検証
反復に対応するデータビット幅を減少することは、

前記量子化誤差が第２プリセット閾値以下の場合、第２プリセットビット幅のステップ
長さに基づいて第２中間データビット幅を確定することと、

前記量子化誤差が前記第１プリセット閾値より大きくなるまで、前記現在検証反復にお
ける量子化すべきデータと前記現在検証反復の量子化データに基づいて量子化誤差を確定
することを戻して実行することとを含む。ここでは、前記現在検証反復の量子化データは
、前記第２中間データビット幅が前記現在検証反復の量子化すべきデータを量子化するこ
とで得られるものである。

一実施形態において、前記量子化すべきデータのデータ変動幅を取得することは、

小数点位置の変動幅を取得することを含み、ここで、前記小数点位置の変動幅は、前記
量子化すべきデータのデータ変動幅を表すために用いることができ、前記小数点位置の変
動幅は、前記量子化すべきデータのデータ変動幅と正の相関がある。

一実施形態において、前記小数点位置の変動幅を取得することは、

現在検証反復の一つ前の検証反復に対応する小数点位置と、前記目標反復間隔の一つ前
の反復間隔に対応する検証反復である前記一つ前の検証反復前の履歴反復に対応する小数
点位置とによって第１平均値を確定することと、

前記現在検証反復に対応する目標データビット幅と量子化すべきデータによって確定さ
れる、前記現在検証反復に対応する小数点位置と、前記現在検証反復前の履歴反復の小数
点位置とによって第２平均値を確定することと、前記小数点位置の変動幅を表すための第
１誤差を、前記第１平均値および前記第２平均値によって確定することとを含む。

一実施形態において、前記現在検証反復に対応する小数点位置と、前記現在検証反復の
前の履歴反復の小数点位置とに基づいて第２平均値を確定することは、

プリセット数の中間スライディング平均値を取得し、各前記中間スライディング平均値
は、前記現在検証反復の前の前記プリセット数の検証反復に基づいて確定されることと、

前記現在検証反復の小数点位置および前記プリセット数の中間スライディング平均値に
基づいて前記第２平均値を確定することとを含む。

前記現在検証反復に対応する小数点位置および前記第１平均値に基づいて、前記第２平
均値を確定することを含む。

前記方法はさらに、

前記第２平均値を、前記現在検証反復のデータビット幅調整値に基づいて更新すること
を含み、ここでは、前記現在検証反復のデータビット幅調整値は、前記現在検証反復の目
標データビット幅と初期データビット幅に基づいて確定される。

一実施形態において、前記の、取得された前記現在検証反復のデータビット幅調整値に
基づいて、前記第２平均値を更新することは、

前記現在検証反復のデータビット幅調整値がプリセットパラメータより大きい場合、前
記現在検証反復のデータビット幅調整値に基づいて前記第２平均値を減少することと、

前記現在検証反復のデータビット幅調整値がプリセットパラメータより小さい場合、前
記現在検証反復のデータビット幅調整値に基づいて前記第２平均値を増加するように構成
される。

一実施形態において、前記量子化すべきデータのデータ変動幅に基づいて、目標反復間
隔を確定することは、

前記第１誤差によって、前記第１誤差と負の相関がある前記目標反復間隔を確定するこ
とを含む。

一実施形態において、前記量子化すべきデータのデータ変動幅を取得することはさらに
、

データビット幅の変化傾向を取得することと、

前記小数点位置の変動幅と前記データビット幅の変動傾向によって、前記量子化すべき
データのデータ変動幅を確定することとを含む。

取得した、小数点位置の変動幅を表すための第１誤差およびデータビット幅の変化傾向
を表すための第２誤差によって前記目標反復間隔を確定することをさらに含む。

一実施形態において、取得された前記第２誤差と前記第１誤差に基づいて、前記目標反
復間隔を確定することは、

前記第１誤差と前記第２誤差のうちの最大値を目標誤差とすることと、

前記目標誤差に基づいて前記目標反復間隔を確定することとを含み、ここでは、前記目
標誤差は前記目標反復間隔と負の相関がある。

一実施形態において、前記第２誤差は、量子化誤差によって確定され、

ここでは、前記量子化誤差は、前記現在検証反復における量子化すべきデータと前記現
在検証反復の量子化データによって確定され、前記第２誤差は前記量子化誤差と正の相関
がある。

一実施形態において、前記方法はニューラルネットワークのトレーニングまたは微調整
に利用され、前記方法は、

前記現在反復が第１プリセット反復よりも大きい場合、前記量子化すべきデータのデー
タ変動幅によって目標反復間隔を確定し、前記目標反復間隔によって前記量子化パラメー
タを調整することをさらに含む。

一実施形態において、前記方法は、

前記現在反復が前記第１プリセット反復以下の場合、前記第１プリセット反復間隔を前
記目標反復間隔とし、前記第１プリセット反復間隔によって前記量子化パラメータを調整
することをさらに含む。

一実施形態において、前記方法は、

前記現在反復が第２プリセット反復以上の場合、第２プリセット反復間隔を前記目標反
復間隔とし、前記第２プリセット反復間隔によって前記量子化パラメータを調整すること
をさらに含む。

一実施形態において、前記方法は、

前記ニューラルネットワークの収束度がプリセット条件を満たす場合、前記現在反復が
第２プリセット反復以上であると確定することをさらに含む。

一実施形態において、前記方法は、

一実施形態において、前記量子化すべきデータは、ニューロンデータ、重みデータまた
は勾配データのうちの少なくとも１つである。

一実施形態において、ニューラルネットワークの量子化パラメータ調整装置を提供し、
前記装置はメモリおよびプロセッサを含み、前記メモリにコンピュータプログラムが記憶
され、前記プロセッサは前記コンピュータプログラムを実行すると、以上に記載のいずれ
か一項の方法のステップが実施される。

一実施形態において、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶
され、前記コンピュータプログラムが実行されると、以上に記載のいずれか一項に記載の
方法のステップが実現される。

一実施形態において、ニューラルネットワークの量子化パラメータ調整装置を提供し、
前記装置は、

量子化すべきデータのデータ変動幅を取得するように構成される取得モジュールと、

前記量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確定することで、
この目標反復間隔に基づいて、ニューラルネットワーク演算における量子化パラメータを
調整し、ここでは、前記目標反復間隔は、少なくとも１回の反復を含み、前記ニューラル
ネットワークの量子化パラメータは、前記ニューラルネットワークの演算における量子化
すべきデータに対する量子化動作を実現するためのものであるように構成される反復間隔
確定モジュールとを含む。

一実施形態において、前記量子化パラメータは小数点位置を含み、前記小数点位置は、
前記量子化すべきデータに対応する量子化データにおける小数点の位置である。前記装置
は、

現在検証反復に対応する目標データビット幅と前記現在検証反復の量子化すべきデータ
に基づいて、前記目標反復間隔における反復に対応する小数点位置を確定して、前記ニュ
ーラルネットワーク演算における小数点位置を調整するように構成される量子化パラメー
タ確定モジュールをさらに含む。

一実施形態において、前記量子化パラメータは小数点位置を含み、前記小数点位置は前
記量子化すべきデータに対応する量子化データにおける小数点の位置である。前記装置は
さらに、

前記現在検証反復に対応する目標データビット幅に基づいて、目標反復間隔に対応する
データビット幅を確定し、ここでは、目標反復間隔に対応するデータビット幅は一致する
ように構成されるデータビット幅確定モジュールと、

取得された小数点位置の反復間隔と前記目標反復間隔に対応するデータビット幅に基づ
いて、前記目標反復間隔における反復に対応する小数点位置を調整して、前記ニューラル
ネットワーク演算における小数点位置を調整するように構成される量子化パラメータ確定
モジュールとを含み、

一実施形態において、前記量子化パラメータは、スケーリング係数をさらに含み、前記
スケーリング係数は、前記小数点位置と同期して更新される。

一実施形態において、前記データビット幅確定モジュールは、

前記現在検証反復の量子化すべきデータと前記現在検証反復の量子化データとに基づい
て量子化誤差を確定し、前記現在検証反復の量子化データは、前記現在検証反復の量子化
すべきデータを量子化することによって得られるように構成される量子化誤差確定ユニッ
トと、

前記量子化誤差に基づき、前記現在検証反復に対応する目標データビット幅を確定する
ように構成されるデータビット幅確定ユニットとを含む。

一実施形態において、前記データビット幅確定ユニットは、前記量子化誤差に基づいて
前記現在検証反復に対応する目標データビット幅を確定するように構成され、具体的には
、

前記量子化誤差が第２プリセット閾値以下である場合、前記現在検証反復に対応するデ
ータビット幅を小さくして、前記現在検証反復の目標データビット幅を得るように構成さ
れる。

一実施形態において、前記データビット幅確定ユニットは、前記量子化誤差が第１プリ
セット閾値以上の場合、前記現在検証反復に対応するデータビット幅を大きくして、前記
現在検証反復に対応する目標データビット幅を得るように構成され、具体的には、

前記量子化誤差が第１プリセット閾値以上の場合、第１プリセットビット幅のステップ
長さに基づいて第１中間データビット幅を確定し、

前記量子化誤差が前記第１プリセット閾値より小さくなるまで、前記現在検証反復にお
ける量子化すべきデータと前記現在検証反復の量子化データに基づいて量子化誤差を確定
することを戻して実行するように構成される。ここでは、前記現在検証反復の量子化デー
タは、前記第１中間データビット幅が前記現在検証反復の量子化すべきデータを量子化す
ることで得られるものである。

一実施形態において、前記データビット幅確定ユニットは、前記量子化誤差が第２プリ
セット閾値以下であれば、前記現在検証反復に対応するデータビット幅を小さくて、前記
現在検証反復に対応する目標データビット幅を得るように構成され、具体的には、
前記量子化誤差が第２プリセット閾値以下の場合、第２プリセットビット幅のステップ
長さに基づいて第２中間データビット幅を確定することと、

一実施形態において、前記取得モジュールは、

小数点位置の変動幅を取得するように構成される第１取得モジュールを含み、ここで、
前記小数点位置の変動幅は、前記量子化すべきデータのデータ変動幅を表すために用いる
ことができ、前記小数点位置の変動幅は、前記量子化すべきデータのデータ変動幅と正の
相関がある。

一実施形態において、前記第１取得モジュールは、

現在検証反復の一つ前の検証反復に対応する小数点位置と、前記目標反復間隔の一つ前
の反復間隔に対応する検証反復である前記一つ前の検証反復前の履歴反復に対応する小数
点位置とによって第１平均値を確定するように構成される第１平均値ユニットと、

前記現在検証反復に対応する小数点位置と、前記現在検証反復の前の履歴反復の小数点
位置とに基づいて第２平均値を確定し、前記現在検証反復に対応する小数点位置と、前記
現在検証反復前の履歴反復の小数点位置とによって第２平均値を確定するように構成され
る第２平均値確定ユニットと、

一実施形態において、前記第２平均値確定ユニットは、具体的に、

プリセット数の中間スライディング平均値を取得し、各前記中間スライディング平均値
は、前記現在検証反復の前の前記プリセット数の検証反復に基づいて確定され、

前記現在検証反復の小数点位置および前記プリセット数の中間スライディング平均値に
基づいて前記第２平均値を確定するように構成される。

一実施形態において、前記第２平均値確定ユニットは具体的に、前記現在検証反復に対
応する小数点位置および前記第１平均値に基づいて前記第２平均値を確定するように構成
される。

一実施形態において、前記第２平均値確定ユニットは、取得された前記現在検証反復の
データビット幅調整値に基づいて、前記第２平均値を更新するように構成され、

ここでは、前記現在検証反復のデータビット幅調整値は、前記現在検証反復の目標デー
タビット幅と初期データビット幅に基づいて確定される。

一実施形態において、前記第２平均値確定ユニットは取得された前記現在検証反復のデ
ータビット幅調整値に基づいて、前記第２平均値を更新するように構成され、具体的に、

前記現在検証反復のデータビット幅調整値がプリセットパラメータより大きい場合、前
記現在検証反復のデータビット幅調整値に基づいて前記第２平均値を減少し、

一実施形態において、前記反復間隔確定モジュールは、前記第１誤差によって、前記第
１誤差と負の相関がある前記目標反復間隔を確定するように構成される。

一実施形態において、前記取得モジュールはさらに、

第２取得モジュールを含み、前記第２取得モジュールは、前記データビット幅の変動傾
向を取得し、前記小数点位置の変動幅と前記データビット幅の変動傾向によって、前記量
子化すべきデータのデータ変動幅を確定するように構成される。

一実施形態において、前記反復間隔モジュールはさらに、小数点位置の変動幅を表すた
めの第１誤差およびデータビット幅の変動傾向を表すための第２誤差によって前記目標反
復間隔を確定するように構成される。

一実施形態において、前記反復間隔確定モジュール、取得された第１誤差と第２誤差に
基づいて、前記目標反復間隔時を確定するように構成され、具体的には、

前記第１誤差と前記第２誤差のうちの最大値を目標誤差とし、

前記目標誤差に基づいて前記目標反復間隔を確定することとを含み、ここでは、前記目
標誤差は前記目標反復間隔と負の相関があるように構成される。

一実施形態において、前記装置はニューラルネットワークのトレーニングまたは微調整
を実現するために用いられ、前記反復間隔確定モジュールはさらに、

前記現在反復が第１プリセット反復よりも大きい場合、前記量子化すべきデータのデー
タ変動幅によって目標反復間隔を確定し、前記目標反復間隔によって前記量子化パラメー
タを調整するように構成される。

一実施形態において、前記反復間隔確定モジュールはさらに、前記現在反復が前記第１
プリセット反復以下の場合、前記第１プリセット反復間隔を前記目標反復間隔とし、前記
第１プリセット反復間隔によって前記量子化パラメータを調整するように構成される。

一実施形態において、前記反復間隔確定モジュールはさらに、

前記現在反復が第２プリセット反復以上の場合、第２プリセット反復間隔を前記目標反
復間隔とし、前記第２プリセット反復間隔によって前記量子化パラメータを調整するよう
に構成される。

ここでは、前記ニューラルネットワークの収束度がプリセット条件を満たす場合、前記
現在反復が第２プリセット反復以上であると確定し、

前記第２プリセット反復は前記第１プリセット反復より大きく、前記第２プリセット反
復間隔は前記第１プリセット反復間隔より大きい。

一実施形態において、前記反復間隔確定モジュールはさらに、前記現在反復が第２プリ
セット反復以上であり、かつ第２誤差がプリセット誤差値より大きい場合、前記量子化す
べきデータのデータ変動幅によって反復間隔を確定し、前記反復間隔によって前記データ
ビット幅を再確定するように構成される。

なお、上述した装置の実施形態は概略的なものに過ぎず、本開示の装置は他の方法で実
施することもできることを理解されたい。例えば、上述した実施形態に記載のユニット／
モジュールの分割は、単に論理的機能分割に過ぎず、実際に実現される場合には別の分割
方式が可能である。例えば、複数のユニット、モジュール、またはコンポーネントが組み
合わされてもよく、または別のシステムに統合されてもよく、またはいくつかの特徴が無
視されてもよく、または実行されなくてもよい。

前記分離手段として示されるユニットまたはモジュールは、物理的に分離されていても
よいし、物理的に分離されていなくてもよい。ユニットまたはモジュールとして示される
構成要素は、物理的ユニットであってもよく、物理的ユニットでなくてもよく、すなわち
、１つの装置内に配置されてもよく、または複数の装置に分散されてもよい。本開示の実
施形態の態様は、実際の必要性に応じて、その中のユニットの一部または全部を選択して
実施することができる。

また、特に断りがない限り、本開示の各実施形態における各機能ユニット／モジュール
は、１つのユニット／モジュールに一体化されていてもよいし、各ユニット／モジュール
が個別に物理的に存在していてもよく、２つ以上のユニット／モジュールが一体化されて
いてもよい。上記一体化されたユニット／モジュールは、ハードウェアの形態で実現する
ことができ、ソフトウェアプログラムモジュールの形態で実現することもできる。

また、特に断りがない限り、本開示の各実施形態における各機能ユニット／モジュール
は、１つのユニット／モジュールに一体化されていてもよいし、各ユニット／モジュール
が個別に物理的に存在していてもよく、２つ以上のユニット／モジュールが一体化されて
いてもよい。上記一体化されたユニット／モジュールはハードウェアの形態で実現するこ
とができ、ソフトウェアプログラムモジュールの形態で実現することもできる。

前記一体化されたユニット／モジュールがハードウェアの形態で実装される場合、この
ハードウェアは、デジタル回路、アナログ回路などであってもよい。ハードウェア構造の
物理的実装は、トランジスタ、メモリスタなどを含むが、これらに限定されない。特に明
記しない限り、前記人工知能プロセッサは、任意の適切なハードウェアプロセッサであっ
てもよい。例えば、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＤＳＰとＡＳＩＣなどである。特別な説
明がなければ、前記記憶ユニットは、任意の適切な磁気記憶媒体または磁気光学記憶媒体
であってもよいし、例えば、抵抗可変メモリＲＲＡＭ（ＲｅｓｉｓｔｉｖｅＲａｎｄｏ
ｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダイナミックランダムアクセスメモリＤＲＡＭ（Ｄ
ｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、スタティックランダムア
クセスメモリＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ）、
増強動的ランダムアクセスメモリＥＤＲＡＭ（ＥｎｈａｎｃｅｄＤｙｎａｍｉｃＲａ
ｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、高帯域メモリＨＢＭ（Ｈｉｇｈ－Ｂａｎｄｗ
ｉｄｔｈＭｅｍｏｒｙ）、ハイビッドメモリキューブＨＭＣ（ＨｙｂｒｉｄＭｅｍｏ
ｒｙＣｕｂｅ）などである。

上記の一体化されたユニット／モジュールは、ソフトウェアプログラムモジュールの形
態で実装され、別個の製品として販売または使用される場合、１つのコンピュータ可読メ
モリに記憶されてもよい。このような理解に基づいて、本開示の技術の解決手段は、本質
的に、または、従来技術に寄与する部分または該技術の解決手段の全てまたは一部は、ソ
フトウェア製品の形態で具現化されてよく、該コンピュータソフトウェア製品は、メモリ
に記憶されており、コンピュータ装置（パーソナルコンピュータ、サーバ、またはネット
ワーク装置等であってよい）に、本開示の各実施形態に記載の方法の全部または一部のス
テップを実行させるためのいくつかのコマンドを含む。上記のメモリは、Ｕディスク、読
み取り専用メモリ（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメ
モリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、リムーバブルハードディ
スク、磁気ディスクまたは光ディスクなどの、プログラムコードを記憶可能な様々な媒体
を含む。

本技術案では、本開示はさらに人工知能チップを開示し、それは、上記のニューラルネ
ットワークの量子化パラメータ確定装置を含む。

本技術案では、本開示はさらにＰＣＢボードを開示し、それは記憶デバイス、インター
フェースデバイス、制御デバイス、および以上に記載の人工知能チップを含み、ここでは
、前記人工知能チップは、前記記憶デバイス、前記制御デバイス、および前記インターフ
ェイスデバイスにそれぞれ接続され、前記記憶デバイスは、データを記憶するためのもの
であり、前記インターフェイスデバイスは、前記人工知能チップと外部装置との間のデー
タ伝送を実現するためのものであり、前記制御デバイスは、前記人工知能チップの状態を
監視するためのものである。

図１２は本開示の実施形態によるＰＣＢボードの構成を示すブロック図であり、図１２
を参照すると、前記ＰＣＢボードは、前記チップ３８９に加えて、他の構成部品を含んで
もよいが、この構成部品は、記憶デバイス３９０、インターフェースデバイス３９１と制
御デバイス３９２を含むが、これらに限定されない。

前記記憶デバイス３９０は前記人工知能チップとバスによって接続され、データの記憶
に利用される。前記記憶デバイスは複数組の記憶ユニット３９３を含んでもよい。各組の
前記記憶ユニットは前記人工知能チップとバスによって接続される。なお、各組の前記メ
モリユニットは、ＤＤＲＳＤＲＡＭ（英語：ＤｏｕｂｌｅＤａｔａＲａｔｅＳＤ
ＲＡＭ、ダブルレート同期ダイナミックランダムアクセスメモリ）であってもよいことが
理解されるであろう。

ＤＤＲはクロック周波数を上げることなくＳＤＲＡＭの速度を倍に上げることができる
。ＤＤＲは、クロックパルスの立ち上がりエッジおよび立ち下がりエッジでデータを読み
出すことを可能にする。ＤＤＲのスピードは、標準ＳＤＲＡＭの２倍である。一実施形態
では、前記記憶装置は、４組の前記記憶ユニットを含むことができる。前記メモリユニッ
トの各組は、複数のＤＤＲ４粒子（チップ）を含むことができる。一実施形態では、前記
人工知能チップは内部に４つの７２ビットＤＤＲ４コントローラを含むことができ、前記
７２ビットＤＤＲ４コントローラのうち６４ｂｉｔはデータを伝送するために用いられ、
８ｂｉｔはＥＣＣチェックに用いられる。前記メモリユニットにＤＤＲ４－３２００粒子
が使用される場合、データ伝送の理論帯域幅は２５６００ＭＢ／ｓに達することが理解さ
れるであろう。

一実施形態では、前記メモリユニットの各組は並列に設置された複数のダブルレート同
期ダイナミックランダムアクセスメモリを含む。ＤＤＲは、１クロックサイクル内で２回
データを送信することができる。前記チップにはＤＤＲを制御するコントローラが設けら
れ、前記メモリユニット毎のデータ伝送とデータ記憶の制御に用いられる。

前記インターフェースデバイスは前記人工知能チップに電気的に接続される。前記イン
ターフェースデバイスは、前記人工知能チップと外部装置（例えば、サーバまたはコンピ
ュータ）との間のデータ伝送を可能にするために使用される。例えば、一実施形態では、
前記インターフェースデバイスは標準ＰＣＩＥインターフェースであってもよい。例えば
、処理すべきデータは、標準ＰＣＩＥインターフェースを介してサーバによってチップに
伝送され、データ転送を可能にする。好ましくは、理論帯域幅は、ＰＣＩＥ３．０Ｘ１
６インターフェース伝送を使用する場合、１６０００ＭＢ／ｓに達することができる。別
の実施形態では、前記インターフェースデバイスは、他のインターフェースであってもよ
く、本開示は、上記の他のインターフェースの具体的な表現形態を限定するものではなく
、前記インターフェースユニットは、中継機能を実現することができる。さらに、前記人
工知能チップの計算結果は、以前として前記インターフェースデバイスによって外部装置
（例えば、サーバ）に伝送される。

前記制御デバイスは前記人工知能チップに電気的に接続される。前記制御デバイスは、
前記人工知能チップの状態を監視するためのものである。具体的には、前記人工知能チッ
プおよび前記制御デバイスは、ＳＰＩインターフェースを介して電気的に接続することが
できる。前記制御デバイスは、マイクロコントローラ（ＭｉｃｒｏＣｏｎｔｒｏｌｌｅ
ｒＵｎｉｔ）を含むことができる。例えば、前記人工知能チップは、複数の処理チップ
、複数の処理コア、または複数の処理回路を含むことができ、複数の負荷を駆動すること
ができる。したがって、前記人工知能チップは、多負荷および軽負荷などの異なる動作状
態にあってもよい。前記制御装置によって前記人工知能チップにおける複数の処理チップ
、複数の処理コアまたは複数の処理回路の動作状態の調節を実現することができる。

１つの可能な実施形態では、上記の人工知能チップを含む電子機器が開示される。電子
機器は、データ処理装置、ロボット、コンピュータ、プリンタ、スキャナ、タブレットコ
ンピュータ、スマート端末、携帯電話、ドライブレコーダ、ナビゲータ、センサ、カメラ
ランズ、サーバ、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、ヘッ
ドホン、モバイル記憶装置、ウェアラブルデバイス、乗り物、家電製品、および／または
医療デバイスを含む。

前記乗り物は飛行機、船および／または車両を含む。前記家電製品はテレビ、エアコン
、電子レンジ、冷蔵庫、炊飯器、加湿器、洗濯機、電灯、ガスレンジ、レンジフードを含
む。前記医療装置は、核磁気共鳴装置、Ｂモード超音波機器および／または心電計を含む
。

以下の項目によって前記内容をよりよく理解することができる。

Ａ１．データビット幅を調整するための方法であって、

量子化すべきデータが量子化処理された後の量子化後のデータのビット幅を示す、前記
量子化すべきデータに対して前記量子化処理を実行するためのデータビット幅を取得する
ことと、

前記データビット幅に基づいて１組の量子化すべきデータに対して量子化処理を実行し
て、前記１組の量子化すべきデータを、前記データビット幅を持つ１組の量子化後のデー
タに変換することと、

前記１組の量子化すべきデータを前記１組の量子化後のデータと比較し、前記データビ
ット幅に関連する量子化誤差を確定することと、

確定された前記量子化誤差に基づいて前記データビット幅を調整することとを含む、こ
とを特徴とするデータビット幅を調整するための方法。

Ａ２．前記１組の量子化すべきデータを前記１組の量子化後のデータと比較し、前記デ
ータビット幅に関連する量子化誤差を確定することは、

前記データビット幅に基づいて量子化間隔を確定することと、

前記量子化間隔、前記１組の量子化後データおよび前記１組の量子化すべきデータに基
づいて前記量子化誤差を確定することとを含むことを特徴とする項目Ａ１に記載の方法。

Ａ３．前記量子化間隔、前記１組の量子化後データおよび前記１組の量子化すべきデー
タに基づいて前記量子化誤差を確定することは、

前記量子化間隔に基づいて、前記１組の量子化後データを逆量子化して、１組の逆量子
化データを得て、前記１組の逆量子化データのデータフォーマットが前記１組の量子化す
べきデータのデータフォーマットと同じであることと、

前記１組の逆量子化データと前記１組の量子化すべきデータに基づいて、量子化誤差を
確定することとを含むことを特徴とする項目Ａ２に記載の方法。

Ａ４．確定された前記量子化誤差に基づいて前記データビット幅を調整することは、

前記量子化誤差を、第１閾値および第２閾値のうち少なくとも１つを含むプリセット閾
値と比較することと、

前記比較の結果によって前記データビット幅を調整することとを含むことを特徴とする
項目Ａ１～Ａ３のいずれか一項に記載の方法。

Ａ５．前記比較の結果によって前記データビット幅を調整することは、

前記量子化誤差が第１閾値以上であると判断したことに応じて前記データビット幅を増
加することを含むことを特徴とする項目Ａ４に記載の方法。

Ａ６．前記データビット幅を増加することは、
第１プリセットビット幅のステップ長さによって前記データビット幅を増加して、調整
後データビット幅を確定することを含むことを特徴とする項目Ａ５に記載の方法。

Ａ７．前記調整後データビット幅に基づいて１組の量子化すべきデータに対して量子化
処理を実行して、前記１組の量子化すべきデータを、前記調整後データビット幅を持つ別
の１組の量子化後のデータに変換することと、

前記１組の量子化すべきデータを前記別の１組の量子化後のデータと比較し、前記調整
後データビット幅に関連する別の量子化誤差を、前記別の量子化誤差が前記第１プリセッ
ト閾値以下になるまで、確定することをさらに含むことを特徴とする項目Ａ６に記載の方
法。

Ａ８．前記方法は反復的に実行されることを特徴とする項目Ａ７に記載の方法。

Ａ９．前記比較の結果によって前記データビット幅を調整することは、

前記量子化誤差が前記第２閾値以下であると判断したことに応じて、前記データビット
幅を減少することを含む、ことを特徴とする項目Ａ４に記載の方法。

Ａ１０．前記データビット幅を減少することは、
第２プリセットビット幅のステップ長さによって前記データビット幅を減少し、調整後
データビット幅を確定することを含む、ことを特徴とする項目Ａ９に記載の方法。

Ａ１１．前記調整後データビット幅に基づいて、前記１組の量子化すべきデータに対し
て量子化処理を実行し、前記１組の量子化すべきデータを、前記調整後データビット幅を
持つ別の１組の量子化後のデータに変換することと、

前記１組の量子化すべきデータと前記別の１組の量子化後のデータに基づいて、別の量
子化誤差が第２プリセット閾値より大きくなるまで、前記調整後データビット幅に関連す
る前記別の量子化誤差を確定することをさらに含む、ことを特徴とする項目Ａ１０に記載
の方法。

Ａ１２．前記方法は反復的に実行されることを特徴とする項目Ａ１１に記載の方法。

Ａ１３．前記比較の結果によって前記データビット幅を調整することは、

前記量子化誤差が前記第１閾値と第２閾値との間にあると判断したことに応じて、前記
データビット幅を維持することを含む、ことを特徴とする項目Ａ４に記載の方法。

Ａ１４．前記１組の量子化すべきデータと前記調整後データビット幅に基づいて、前記
１組の量子化すべきデータに対して量子化処理を実行するための量子化パラメータを更新
することと、

更新された前記量子化パラメータに基づいて、前記１組の量子化すべきデータに対して
量子化処理を実行することとをさらに含む、ことを特徴とする項目Ａ１～Ａ１３のいずれ
か一項に記載の方法。

Ａ１５．量子量子化すべきデータのデータ変動幅を取得することと、

前記量子化すべきデータのデータ変動幅によって、目標反復間隔を確定し、少なくとも
１回の反復を含む前記目標反復間隔によって前記データビット幅を調整することとをさら
に含む、ことを特徴とする項目Ａ１に記載の方法。

Ａ１６．量子化すべきデータのデータ変動幅を取得することは、

前記量子化すべきデータのデータ変動幅を表すためである、かつ前記量子化すべきデー
タのデータ変動幅と正の相関がある、小数点位置の変動幅を取得することとを含む、こと
を特徴とする項目Ａ１５に記載の方法。

Ａ１７．小数点位置の変動幅を取得することは、

現在検証反復の一つ前の検証反復に対応する小数点位置と、前記目標反復間隔の一つ前
う復間隔に対応する検証反復である前記一つ前の検証反復前の履歴反復に対応する小数点
位置とによって第１平均値を確定することと、

前記現在検証反復に対応する目標データビット幅と量子化すべきデータによって確定さ
れる、前記現在検証反復に対応する小数点位置と、前記現在検証反復前の履歴反復の小数
点位置とによって第２平均値を確定することと、

前記小数点位置の変動幅を表すための第１誤差を、前記第１平均値および前記第２平均
値によって確定することとを含む、ことを特徴とする項目Ａ１６に記載の方法。

Ａ１８．前記量子化すべきデータのデータ変動幅によって目標反復間隔を確定すること
は、

前記第１誤差によって、前記第１誤差と負の相関がある前記目標反復間隔を確定するこ
とを含む、ことを特徴とする項目Ａ１５に記載の方法。

Ａ１９．前記量子化すべきデータのデータ変動幅を取得することは、

前記データビット幅の変化傾向を取得することと、

前記小数点位置の変動幅と前記データビット幅の変化傾向によって、前記量子化すべき
データのデータ変動幅を確定することとををさらに含む、ことを特徴とする項目Ａ１５に
記載の方法。

Ａ２０．前記量子化すべきデータのデータ変動幅によって目標反復間隔を確定すること
は、

取得した、小数点位置の変動幅を表すための第１誤差およびデータビット幅の変化傾向
を表すための第２誤差によって前記目標反復間隔を確定することとをさらに含む、ことを
特徴とする項目Ａ１９に記載の方法。

Ａ２１．前記取得した前記第１誤差および前記第２誤差によって前記目標反復間隔を確
定することは、

前記目標反復間隔と負の相関がある前記目標誤差によって前記目標反復間隔を確定する
こととを含む、ことを特徴とする項目Ａ２０に記載の方法。

Ａ２２．前記第２誤差は、量子化誤差によって確定され、

前記量子化誤差は、前記現在検証反復における量子化すべきデータと前記現在検証反復
の量子化データによって確定され、前記第２誤差は前記量子化誤差と正の相関がある、こ
とを特徴とする項目Ａ２０または２１に記載の方法。

Ａ２３．前記方法は、ニューラルネットワークのトレーニングまたは微調整のために用
いられ、

前記現在反復が第１プリセット反復よりも大きい場合、前記量子化すべきデータのデー
タ変動幅によって目標反復間隔を確定し、前記目標反復間隔によって前記量子化パラメー
タを調整することをさらに含む、ことを特徴とする項目Ａ１５～２２のいずれか一項に記
載の方法。

Ａ２４．前記現在反復が前記第１プリセット反復以下の場合、前記第１プリセット反復
間隔を前記目標反復間隔とし、前記第１プリセット反復間隔によって前記量子化パラメー
タを調整することをさらに含む、ことを特徴とする項目Ａ２３に記載の方法。

Ａ２５．前記現在反復が第２プリセット反復以上の場合、第２プリセット反復間隔を前
記目標反復間隔とし、前記第２プリセット反復間隔によって前記量子化パラメータを調整
することをさらに含み、

前記第２プリセット反復は前記第１プリセット反復よりも大きく、前記第２プリセット
反復間隔は前記第１プリセット反復間隔よりも大きい、ことを特徴とする項目Ａ２３また
は２４に記載の方法。

Ａ２６．前記ニューラルネットワークの収束度がプリセット条件を満たす場合、前記現
在検証反復が第２プリセット反復以上であると確定することをさらに含む、ことを特徴と
する項目Ａ２５に記載の方法。

Ａ２７．前記現在反復が第２プリセット反復以上であり、かつ第２誤差がプリセット誤
差値より大きい場合、前記量子化すべきデータのデータ変動幅によって反復間隔を確定し
、前記反復間隔によって前記データビット幅を再確定することをさらに含む、ことを特徴
とする項目Ａ２５に記載の方法。

Ａ２８．データビット幅の調整装置であって、

量子化すべきデータが量子化処理された後の量子化後のデータのビット幅を示す、前記
量子化すべきデータに対して量子化処理を実行するためのデータビット幅を取得するよう
に構成される取得モジュールと、

確定された前記量子化誤差に基づいて前記データビット幅を調整する調整モジュールと
を含む、ことを特徴とするデータビット幅の調整装置。

Ａ２９．前記比較モジュールは、

前記データビット幅によって量子化間隔を確定するように構成される間隔確定モジュー
ルと、

前記量子化間隔、前記１組の量子化後のデータ、および前記１組の量子化すべきデータ
によって前記量子化誤差を確定するように構成される誤差確定モジュールとを含む、こと
を特徴とする項目Ａ２８に記載の装置。

Ａ３０．前記誤差確定モジュールは、

前記量子化間隔によって前記１組の量子化後のデータに対して逆量子化を実行し、デー
タフォーマットが前記１組の量子化すべきデータのデータフォーマットと同じである１組
の逆量子化データを取得するように構成される逆量子化モジュールと、
前記１組の逆量子化データおよび前記１組の量子化すべきデータによって量子化誤差を
確定するように構成される量子化誤差確定モジュールとを含む、ことを特徴とする項目Ａ
２９に記載の装置。

Ａ３１．前記調整モジュールは、

前記量子化誤差を第１閾値および第２閾値の少なくとも１つを含むプリセット閾値と比
較するように構成される比較モジュールと、

前記比較の結果によって前記データビット幅を調整するように構成されるビット幅調整
モジュールとを含む、ことを特徴とする項目Ａ２８～３０のいずれか一項に記載の装置。

Ａ３２．前記ビット幅調整モジュールは、

前記量子化誤差が第１閾値以上であると判断したことに応じて前記データビット幅を増
加するように構成される増加モジュールを含む、ことを特徴とする項目Ａ３１に記載の装
置。

Ａ３３．前記増加モジュールは、

第１プリセットビット幅のステップ長さによって前記データビット幅を増加し、調整後
データビット幅を確定するように構成されるステップ長さ増加モジュールを含む、ことを
特徴とする項目Ａ３２に記載の装置。

Ａ３４．前記量子化モジュールはさらに、前記調整後データビット幅に基づいて前記１
組の量子化すべきデータに対して量子化処理を実行し、前記１組の量子化すべきデータを
、前記調整後データビット幅を持つ別の１組の量子化後のデータに変換するように構成さ
れ、

前記確定モジュールはさらに、前記１組の量子化すべきデータを前記別の１組の量子化
すべきデータのと比較し、別の量子化誤差が前記第１プリセット閾値以下になるまで、前
記調整後データビット幅に関連する前記別の量子化誤差を確定するように構成される、こ
とを特徴とする項目Ａ３３に記載の装置。

Ａ３５．前記装置が反復的に呼び出されるように構成される、ことを特徴とする項目Ａ
３４に記載の装置。

Ａ３６．前記調整モジュールは、

前記量子化誤差が第２閾値以下であると判断したことに応じて、前記データビット幅を
減少するように構成される減少モジュールを含む、ことを特徴とする項目Ａ３１に記載の
装置。

Ａ３７．前記減少モジュールは、

第２プリセットビット幅のステップ長さによって前記データビット幅を減少し、調整後
データビット幅を確定するように構成されるステップ長さ減少モジュールを含む、ことを
特徴とする項目Ａ３６に記載の装置。

Ａ３８．前記量子化モジュールはさらに、前記調整後データビット幅に基づいて、前記
１組の量子化すべきデータに対して量子化処理を実行し、前記１組の量子化すべきデータ
を、前記調整後データビット幅を持つ別の１組の量子化後のデータに変換するように構成
され、

前記確定モジュールはさらに、前記１組の量子化すべきデータと前記別の１組の量子化
後のデータに基づいて、別の量子化誤差が前記第２プリセット閾値より大きくなるまで、
前記調整後データビット幅に関連する前記別の量子化誤差を確定するように構成される、
ことを特徴とする項目Ａ３７に記載の装置。

Ａ３９．前記装置が反復的に呼び出されるように構成される、ことを特徴とする項目Ａ
３８に記載の装置。

Ａ４０．前記調整モジュールは、

前記量子化誤差が前記第１閾値と前記第２閾値との間にあると判断したことに応じて、
前記データビット幅を維持するように構成される維持モジュールを含む、ことを特徴とす
る項目Ａ３１に記載の装置。

Ａ４１．前記１組の量子化すべきデータおよび前記調整後データビット幅に基づいて、
前記１組の量子化すべきデータに対して量子化処理を実行するための量子化パラメータを
更新するように構成される更新モジュールをさらに含み、

前記量子化モジュールはさらに、更新された前記量子化パラメータに基づいて前記１組
の量子化すべきデータに対して量子化処理を実行するように構成される、ことを特徴とす
る項目Ａ２８～４０のいずれか一項に記載の装置。

Ａ４２．量子化すべきデータのデータ変動幅を取得するように構成される幅モジュール
と、

前記量子化すべきデータのデータ変動幅によって、少なくとも１回の反復を含む目標反
復間隔を確定し、前記目標反復間隔によって前記データビット幅を調整するように構成さ
れる間隔モジュールとをさらに含む、ことを特徴とする項目Ａ２８に記載の装置。

Ａ４３．前記幅モジュールは、

前記量子化すべきデータのデータ変動幅を表すためである、かつ前記量子化すべきデー
タのデータ変動幅と正の相関がある小数点位置の変動幅を取得するように構成される小数
点位置モジュールを含む、ことを特徴とする項目Ａ４２に記載の装置。

Ａ４４．前記小数点位置モジュールは、

現在検証反復前の一つ前の検証反復に対応する小数点位置と、前記目標反復間隔前の一
つ前の反復間隔に対応する検証反復である前記一つ前の検証反復前の履歴反復に対応する
小数点位置とによって第１平均値を確定するように構成される第１平均値モジュールと、

前記小数点位置の変動幅を表すための第１誤差を、前記第１平均値および前記第２平均
値によって確定するように構成される第１誤差モジュールとを含む、ことを特徴とする項
目Ａ４３に記載の装置。

Ａ４５．前記間隔モジュールは、

前記第１誤差によって、前記第１誤差と負の相関がある前記目標反復間隔を確定するよ
うに構成される第１間隔モジュールを含む、ことを特徴とする項目Ａ４２に記載の装置。

Ａ４６．前記幅モジュールはさらに、

前記データビット幅の変化傾向を取得するように構成される傾向モジュールと、

前記小数点位置の変動幅と前記データビット幅の変化傾向によって、前記量子化すべき
データのデータ変動幅を確定するように構成されるデータ変動幅モジュールとを含む、こ
とを特徴とする項目Ａ４２に記載の装置。

Ａ４７．前記間隔モジュールは、

取得された、小数点位置の変動幅を表すための第１誤差およびデータビット幅の変動傾
向を表すための第２誤差によって前記目標反復間隔を確定するように構成される反復間隔
モジュールをさらに含む、ことを特徴とする項目Ａ４６に記載の装置。

Ａ４８．前記反復間隔モジュールは、

前記目標反復間隔と負の相関がある前記目標誤差によって前記目標反復間隔を確定する
ように構成される目標反復間隔モジュールとを含む、ことを特徴とする項目Ａ４７に記載
の装置。

Ａ４９．前記第２誤差は、量子化誤差によって確定され、

前記量子化誤差は、前記現在検証反復における量子化すべきデータと前記現在検証反復
の量子化データによって確定され、前記第２誤差は前記量子化誤差と正の相関がある、こ
とを特徴とする項目Ａ４７またはＡ４８に記載の装置。

Ａ５０．前記装置は、ニューラルネットワークのトレーニングまたは微調整のために用
いられ、

前記現在反復が第１プリセット反復よりも大きい場合、前記量子化すべきデータのデー
タ変動幅によって目標反復間隔を確定し、前記目標反復間隔によって前記量子化パラメー
タを調整するように構成される第１反復モジュールをさらに含む、ことを特徴とする項目
Ａ４２～Ａ４９のいずれか一項に記載の装置。

Ａ５１．前記現在反復が前記第１プリセット反復以下の場合、前記第１プリセット反復
間隔を前記目標反復間隔とし、前記第１プリセット反復間隔によって前記量子化パラメー
タを調整するように構成される第２反復モジュールをさらに含む、ことを特徴とする項目
Ａ５０に記載の装置。

Ａ５２．前記装置は、

前記現在反復が第２プリセット反復以上の場合、第２プリセット反復間隔を前記目標反
復間隔とし、前記第２プリセット反復間隔によって前記量子化パラメータを調整するよう
に構成される第３反復モジュールをさらに含み、

前記第２プリセット反復は前記第１プリセット反復よりも大きく、前記第２プリセット
反復間隔は前記第１プリセット反復間隔よりも大きい、ことを特徴とする項目Ａ５０また
は５１に記載の装置。

Ａ５３．前記ニューラルネットワークの収束度がプリセット条件を満たす場合、前記現
在検証反復が第２プリセット反復以上であると確定するように構成される収束モジュール
をさらに含む、ことを特徴とする項目Ａ５２に記載の装置。

Ａ５４．前記現在反復が第２プリセット反復以上であり、かつ第２誤差がプリセット誤
差値より大きい場合、前記量子化すべきデータのデータ変動幅によって反復間隔を確定し
、前記反復間隔によって前記データビット幅を再確定することをさらに含む、ことを特徴
とする項目Ａ５２に記載の装置。

Ａ５５．コンピュータ可読記憶媒体であって、コンピュータプログラムが記憶され、前
記プログラムが実行されると、Ａ１～２７のいずれか一項に記載の方法が実現される、こ
とを特徴とするコンピュータ可読記憶媒体。

Ａ５６．人工知能チップであって、Ａ２８～５４のいずれか一項に記載のデータを処理
するための装置を含む、ことを特徴とする人工知能チップ。

Ａ５７．電子装置であって、Ａ５６に記載の人工知能チップを含む、ことを特徴とする
電子装置。

Ａ５８．ＰＣＢボードであって、
記憶デバイス、インターフェースデバイス、制御デバイス、およびＡ５６に記載の人工
知能チップを含み、

前記人工知能チップは、前記記憶デバイス、前記制御デバイス、および前記インターフ
ェイスデバイスに接続され、

前記記憶デバイスは、データを記憶するためのものであり、

前記インターフェイスデバイスは、前記人工知能チップと外部装置との間のデータ伝送
を実現するためのものであり、

前記制御デバイスは、前記人工知能チップの状態を監視するためのものである、ことを
特徴とするＰＣＢボード。

Ａ５９．ＰＣＢボードであって、前記記憶デバイスは複数組の記憶ユニットを含み、各
組の記憶ユニットはバスを介して前記人工知能チップに接続され、前記記憶ユニットはＤ
ＤＲＳＤＲＡＭであり、

前記チップはＤＤＲコントローラを含み、各前記記憶ユニットのデータ伝送およびデー
タストレージを制御し、

前記インターフェイスデバイスは、標準のＰＣＩＥインターフェイスであることを特徴
とする項目Ａ５８に記載のＰＣＢボード。

ニューラルネットワークの量子化の問題を解決するために、次の技術案（２０１９１０
５０５２３９．７）を提供した。具体的には、ニューラルネットワークの量子化方法およ
び装置ならびに関連製品を提供する。

本開示は、人工知能技術分野に関し、特にニューラルネットワーク量子化方法および装
置および関連製品に関する。

人工知能技術の発展に伴い、その応用分野はますます広くなり、画像認識、音声認識、
自然言語処理などの分野においてよく応用されている。しかし、人工知能アルゴリズムの
複雑性が高まるにつれ、処理すべきデータ量やデータ次元がだんだん増大しており、どの
ように演算効率と演算結果の精度のバランスをとるかが人工知能分野では解決すべき問題
である。

これを考慮して、本開示は、ニューラルネットワークの量子化技術案を提供する。

本開示の一態様によれば、ニューラルネットワークの量子化方法を提供し、前記ニュー
ラルネットワークにおける任意の量子化すべき層に対して、前記方法は、

前記量子化すべき層における各量子化すべきデータに対応する量子化パラメータを確定
し、前記量子化すべきデータは、ニューロン、重み、オフセット、および勾配のうちの少
なくとも１つを含むことと、

量子化すべきデータを対応する量子化パラメータに基づいて量子化し、量子化データを
得ることで、前記ニューラルネットワークは前記量子化データに基づいて演算を実行する
こととを含む。

本開示の別の態様によれば、ニューラルネットワークの量子化方法を提供し、前記装置
は、前記ニューラルネットワークにおける任意の量子化すべき層を量子化するためのもの
であり、前記装置は、

前記量子化すべき層における各量子化すべきデータに対応する量子化パラメータを確定
するために用いられ、前記量子化すべきデータはニューロン、重み、オフセット、および
勾配のうち少なくとも１つを含む量子化パラメータ確定モジュールと、

量子化すべきデータを対応する量子化パラメータに基づいて量子化し、量子化データを
得ることで、前記ニューラルネットワークは前記量子化データに基づいて演算を実行する
ための量子化モジュールとを含む。

本開示の別の態様によれば、上記のニューラルネットワーク量子化装置を含む人工知能
チップを提供する。

本開示の別の態様によれば、上記の人工知能チップを含む電子機器を提供する。

本開示の別の態様によれば、ＰＣＢボードを提供し、前記ＰＣＢボードは、記憶デバイ
ス、インターフェースデバイス、制御デバイス、および以上に記載の人工知能チップを含
み、ここでは、前記人工知能チップは、前記記憶デバイス、前記制御デバイス、および前
記インターフェイスデバイスにそれぞれ接続され、前記記憶デバイスは、データを記憶す
るためのものであり、前記インターフェイスデバイスは、前記人工知能チップと外部装置
との間のデータ伝送を実現するためのものであり、前記制御デバイスは、前記人工知能チ
ップの状態を監視するためのものである。

本開示の実施形態において、前記ニューラルネットワークにおける任意の量子化すべき
層に対して、前記量子化すべき層における各量子化すべきデータに対応する量子化パラメ
ータを確定し、前記量子化すべきデータはニューロン、重み、オフセット、および勾配の
うち少なくとも１つを含む。量子化すべきデータを対応する量子化パラメータに基づいて
量子化し、量子化データを得ることで、前記ニューラルネットワークは前記量子化データ
に基づいて演算を実行する。各層の量子化すべきデータにさらに適する量子化パラメータ
を採用して各量子化すべき層に対して量子化を行い、各層の演算結果の精度を保証する前
提で、各層の演算効率を向上させることができる。ニューラルネットワーク全体の演算結
果の精度を保証することを前提として、ニューラルネットワーク全体の演算効率を向上さ
せることもできる。

図面を参照して、例示的な実施形態の以下の詳細な説明によって、本開示の他の特徴お
よび態様が明らかになるであろう。

本明細書に含まれ、本明細書の一部を構成する図面は、本明細書と共に、本開示の例示
的な実施形態、特徴、および態様を示し、本開示の原理を説明するために使用される。

図２－１は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。

図２－２は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。

図２－３は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。

図２－４は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。

図２－５は、本開示の一実施形態によるニューラルネットワーク量子化方法において、
量子化パラメータがオフセットを含まない場合の、量子化前後のデータ対応の概略図であ
る。

図２－６は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。

図２－７は、本開示の一実施形態によるニューラルネットワーク量子化方法において、
量子化パラメータがオフセットを含む場合の、量子化前後のデータ対応の概略図である。

図２－８は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。

図２－９は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。

図２－１０は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－１１は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－１２は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－１３は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－１４は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－１５は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－１６は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－１７は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－１８は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－１９は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－２０は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－２１は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－２２は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－２３は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－２４は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－２５は、本開示の一実施形態によるニューラルネットワークの量子化方法のフロ
ーチャートである。

図２－２６は、本開示の一実施形態によるニューラルネットワークの量子化装置の概略
図である。

図２－２７は、本開示の一実施形態によるニューラルネットワークの量子化装置の概略
図である。

図２－２８は、本開示の一実施形態によるニューラルネットワークの量子化装置の概略
図である。

図２－２９は、本開示の一実施形態によるニューラルネットワークの量子化装置の概略
図である。

図２－３０は、本開示の一実施形態によるニューラルネットワークの量子化装置の概略
図である。

図２－３１は、本開示の一実施形態によるＰＣＢボードのブロック図である。

ニューラルネットワークの量子化の問題を解決するために、図２－１から図２－３１を
含む次の技術案（２０１９１０５０５２３９．７）を提供した。以下、本開示の実施形態
における技術案は、本開示の実施形態における図面を参照して明確かつ完全に説明される
。明らかに、記載された実施形態は、本開示の実施形態の一部であるが、すべての実施形
態ではない。本開示の実施形態に基づいて、創造的な作業なしに当業者によって得られる
他のすべての実施形態は、本開示の保護範囲に含まれる。

本開示の特許請求の範囲や明細書および図面における「第１」、「第２」、「第３」お
よび「第４」等の用語は、特定の順序を説明するのではなく、異なる対象を区別するため
のものであることを理解されたい。本開示の明細書および特許請求の範囲で使用される「
含む」および「含む」という用語は、記載された特徴、全体、ステップ、操作、要素およ
び／またはコンポーネントの存在を示すが、１つまたは複数の他の特徴、全体、ステップ
、操作、要素、コンポーネント、および／またはそれらのコンビネーションの存在または
追加を除外しない。

本開示の明細書で使用される用語は、特定の実施形態を説明することのみを目のとして
おり、本開示を限定することを意図するものではないことも理解されたい。本願の明細書
および特許請求の範囲に使用されるように、文脈で明白に他の意味が示されない限り、単
数形の「一」、「１つ」および「該」は複数形を含むことを意味する。本開示の明細書お
よび特許請求の範囲で使用される「および／または」という用語は、関連してリストされ
た１つまたは複数の項目の任意の組み合わせおよびすべての可能な組み合わせを指し、こ
れらの組み合わせを含むことをさらに理解されたい。

本明細書で使用される「例示的」という用語は、「例、実施形態、または例示として使
用される」ことを意味する。「例示的なもの」として本明細書に記載されたいかなる実施
形態も、必ずしも他の実施形態よりも優れているまたはより優れていると解釈すべきでは
ない。

さらに、本開示をより詳細に説明するために、多数の特定の詳細が以下の具体的な実施
形態に示されている。当業者であれば、特定の詳細なしに、本開示を同様に実施すること
ができることを理解するであろう。いくつかの例では、本開示の趣旨を強調するために、
当業者に周知の方法、手段、要素、および回路については詳細に説明していない。

ニューラルネットワークにおける演算対象データは、通常、浮動小数点データフォーマ
ットまたは精度の高い固定小数点データフォーマットであり、ニューラルネットワークを
ロードするチップ内でニューラルネットワークを動作させる場合、浮動小数点データフォ
ーマットまたは精度の高い固定小数点データフォーマットの様々な演算対象データにより
、ニューラルネットワークの動作の演算量およびアクセスオーバーヘッドの両方を増大さ
せる。演算効率を向上させるために、ニューラルネットワークにおける演算対象データを
量子化することができ、量子化されたデータフォーマットは、通常、ビット幅が短く精度
が低い固定小数点データフォーマットである。より精度の低い量子化後データを用いてニ
ューラルネットワークの演算を実行することで、演算量とアクセス量を低減することがで
きる。量子化されたデータフォーマットは、ビット幅が短い固定小数点データフォーマッ
トであってもよい。浮動小数点データフォーマットの演算対象データを固定小数点データ
フォーマットの演算対象データに量子化してもよいし、精度の高い固定小点数フォーマッ
トの演算対象のデータを精度の低い固定小数点フォーマットの演算対象データに量子化し
てもよい。

量子化精度はすなわち量子化データと量子化前データとの間の誤差の大きさであると理
解されるであろう。量子化精度は、ニューラルネットワーク演算結果の精度に影響を与え
ることができる。量子化精度が高いほど、演算結果の精度が高くなるが、演算量が大きく
なり、アクセスオーバーヘッドも大きくなる。ビット幅が短い量子化後データに比べて、
ビット幅が長い量子化後データの量子化精度が高く、ニューラルネットワークを実行する
ための演算時の精度も高い。しかし、ニューラルネットワークの演算に用いた場合、ビッ
ト幅の長さの量子化後のデータの演算量が大きくなり、アクセスオーバーヘッドも大きく
なり、演算効率が低い。同様に、同じ量子化すべきデータに対して、異なる量子化パラメ
ータを用いて得られた量子化後のデータは異なる量子化精度を有し、異なる量子化結果が
生じ、演算効率と演算結果の精度にも異なる影響を与える。ニューラルネットワークを量
子化し、演算効率と演算結果の精度との間でバランスがとれるように、演算対象データの
データ特徴により適する量子化後のデータビット幅と量子化パラメータを用いることがで
きる。

ニューラルネットワークにおける演算すべきデータは、重み、ニューロン、オフセット
、勾配を含むことができ、ニューラルネットワークにおける演算すべきデータを量子化す
る従来の場合、通常、ニューラルネットワーク全体に対して同じ量子化パラメータが設定
される。例えば、ニューラルネットワークには４つの畳み込み層と２つの全接続層が含ま
れ、演算すべきデータがニューロン（通常は入力ニューロン）であり、量子化のための一
組の量子化パラメータＡをニューラルネットワークのために設定し、量子化パラメータＡ
を用いて４つの畳み込み層および２つの全接続層のニューロンを量子化することができる
。神経ネットワークにおける各層のニューロンが異なるため、各層で用いられるアルゴリ
ズムも異なり、同じ量子化パラメータを用いて各層を量子化し、量子化パラメータは各層
のニューロンの特徴に適応できないため、ニューラルネットワークの全体的な量子化精度
が低く、演算結果の精度が低い。また、ニューラルネットワークに一組の量子化パラメー
タを設定する場合、演算結果の精度を考慮して量子化精度を向上させ、一組のビット幅が
長い量子化後ビット幅を設定すると、ニューラルネットワークの演算効率を低下させる。
このため、従来のニューラルネットワークの量子化方法では、量子化精度の向上と演算効
率の向上との間で有効なバランスをとることができない。

図２－１は、本開示の実施形態によるニューラルネットワークの量子化方法のフローチ
ャートである。このニューラルネットワーク量子化方法は、汎用プロセッサ（例えば、中
央プロセッサＣＰＵ、グラフィックスプロセッサＧＰＵ）、および専用プロセッサ（例え
ば、人工知能プロセッサ、科学計算プロセッサ、またはデジタル信号プロセッサなど）に
応用することができ、本開示は、ニューラルネットワーク量子化方法が応用されるプロセ
ッサのタイプを限定するものではない。

図２－１に示すように、前記ニューラルネットワークにおける任意の量子化すべき層に
対し、前記ニューラルネットワーク量子化方法は以下のステップを含む。

ステップＳ１０では、前記量子化すべき層における各量子化すべきデータに対応する量
子化パラメータを確定し、前記量子化すべきデータはニューロン、重み、オフセット、お
よび勾配のうち少なくとも１つを含む。

ニューラルネットワークにおける量子化すべき層は、ニューラルネットワークにおける
任意の層であってもよい。ニューラルネットワークにおける層の一部または全てを、必要
に応じて量子化される層として確定することができる。量子化すべき複数の層がニューラ
ルネットワークに含まれる場合、量子化すべき各層は連続的であっても不連続的であって
もよい。量子化すべき層の種類は、ニューラルネットワークによっては異なっていてもよ
く、例えば、量子化すべき層は、畳み込み層、全接続層などであってもよく、本開示は、
量子化すべき層の数およびタイプを限定するものではない。

１つの可能な実施形態では、前記量子化すべきデータは、ニューロン、重み、オフセッ
ト、勾配のうちの少なくとも１つを含む。

量子化すべき層の演算を実行するために使用される演算データは、ニューロン、重み、
オフセット、および勾配を含むことができる。必要に応じて、量子化すべき層のニューロ
ン、重み、オフセット、勾配のうちの少なくとも１つは、量子化すべきデータとすること
ができる。量子化すべき層中に複数種類の量子化すべきデータがある場合、各量子化すべ
きデータに対して本開示の量子化方法を採用して量子化を行った後、各量子化すべきデー
タに対応する量子化データを取得し、さらに各種の量子化データと量子化を必要としない
演算データを利用して量子化すべき層の演算を実行する。更に、必要に応じて、量子化す
べき層内における各種の演算データの全てまたは一部のデータを、量子化すべきデータと
して確定してもよく、本開示はこれに限定されるものではない。

ニューラルネットワーク演算の推理段階は、トレーニングされたニューラルネットワー
クを、設定タスクの段階が完了するように前方演算する段階を含むことができる。ニュー
ラルネットワークの推理段階において、ニューロン、重み、オフセット、および勾配のう
ちの少なくとも１つは、量子化すべきデータとして、本開示の実施形態における方法に従
って量子化した後、量子化されたデータを利用して、量子化すべき層の演算を完了しても
よい。

ニューラルネットワーク演算の微調整段階は、トレーニングされたニューラルネットワ
ークをプリセット数の反復の順演算と逆演算を行い、パラメータの微調整を行って設定タ
スクの段階に適応する。ニューラルネットワーク演算の微調整段階において、ニューロン
、重み、オフセット、勾配のうちの少なくとも１つを、本開示の実施形態における方法に
従って量子化した後、量子化すべき層の順演算または逆演算を、量子化されたデータを使
用して完了することができる。

ニューラルネットワーク演算のトレーニング段階は、初期化されたニューラルネットワ
ークを反復トレーニングしてトレーニングされたニューラルネットワークを得る段階を含
み、トレーニングされたニューラルネットワークは、特定のタスクを実行することができ
る。ニューラルネットワークのトレーニング段階において、ニューロン、重み、オフセッ
ト、勾配のうちの少なくとも１つを、本開示の実施形態における方法に従って量子化した
後、量子化すべき層の順演算または逆演算を、量子化されたデータを使用して完了するこ
とができる。

量子化すべき層に対応する量子化パラメータは、１つの量子化パラメータであってもよ
いし、複数の量子化パラメータであってもよい。

量子化パラメータは、量子化すべきデータを量子化するための小数点位置などのパラメ
ータを含むことができる。小数点位置は、量子化されたデータにおける小数点の位置を確
定するために用いることができる。この量子化パラメータは、スケーリング係数、オフセ
ットなどをさらに含むことができる。ニューラルネットワークに複数の量子化すべき層が
含まれる場合、各量子化すべき層は、それぞれ対応する量子化パラメータを有することが
できる。

なお、量子化すべき層毎における異なる量子化すべきデータについて、異なる量子化パ
ラメータに対応することができる。例えば、量子化すべき層１におけるニューロンは、量
子化パラメータ１に対応することができ、量子化すべき層１における重みは、量子化パラ
メータ２に対応することができる。量子化すべき層における各種の量子化すべきデータに
対応する量子化パラメータを確定する方法は、予め設定された量子化パラメータを検索し
て直接量子化パラメータを確定する方法、対応関係を検索して量子化パラメータを確定す
る方法、または量子化すべきデータから量子化パラメータを算出する方法を含むことがで
きる。例えば、

ニューラルネットワークにおける量子化すべき層のために、量子化すべき層における各
種の量子化すべきデータに対応する量子化パラメータを設定してもよい。設定された量子
化パラメータを、設定されたメモリスペースに記憶してもよい。設定されたメモリスペー
スは、チップ上やチップ外のメモリスペースであってもよい。例えば、設定された量子化
パラメータを層標識で区別して設定されたメモリスペースに記憶してもよい。各量子化す
べき層は、量子化時に、設定されたメモリスペースにおいて対応する量子化パラメータを
抽出してから量子化を行うことができる。経験値に基づいて、各種の量子化すべきデータ
に対応する量子化パラメータを設定することができる。また、必要に応じて設定された各
種の量子化データに対応する量子化パラメータを更新するようにしてもよく、例えば、前
の層の量子化パラメータに応じて後の層の量子化パラメータを更新するようにしてもよい
。

各量子化すべき層における量子化すべきデータのデータ特徴または量子化すべき層の層
特徴に基づいて、データ特徴と量子化パラメータとの対応関係を検索すること、または層
特徴と量子化パラメータとの対応関係を検索することによって量子化パラメータを確定す
るようにしてもよい。例えば、量子化すべきデータのデータ分布が疎または密である場合
、それぞれ異なる量子化パラメータに対応させることができる。対応関係を検索すること
によって、量子化すべきデータのデータ分布に対応する量子化パラメータを確定すること
ができる。別の例として、量子化すべき層が畳み込み層または全接続層である場合、それ
ぞれ異なる量子化パラメータに対応することができ、量子化すべき層が畳み込み層である
場合、畳み込み層に対応する量子化パラメータを検索することができる。

また、各量子化すべき層における量子化すべきデータに基づいて、設定された量子化パ
ラメータ算出方法を用いて、各量子化すべき層に対応する量子化パラメータを算出するよ
うにしてもよい。例えば、量子化すべきデータの絶対値の最大値および予め設定されたデ
ータビット幅に基づいて、丸めアルゴリズムを用いて量子化パラメータ内の小数点位置を
算出することができる。

設定された量子化アルゴリズムを用いて、量子化パラメータに基づいて量子化すべきデ
ータを量子化し、量子化データを得ることができる。例えば、丸めアルゴリズムを量子化
アルゴリズムとして利用し、データビット幅と小数点位置に基づいて量子化すべきデータ
に丸め量子化を行って量子化データを得ることができる。ここでは、丸めアルゴリズムは
、切り上げ、切り捨て、ゼロへの丸めと四捨五入丸め等を含むことができる。本開示は、
量子化アルゴリズムの具体的な実施形態を限定するものではない。

ニューラルネットワーク内に複数の量子化すべき層がある場合、各量子化すべき層内の
各種の量子化すべきデータは、対応する量子化パラメータを用いてそれぞれ量子化するこ
とができる。各量子化すべきデータに対応する量子化パラメータは、各量子化すべきデー
タ自体の特徴により適合するので、各量子化すべき層の各種の量子化データの量子化精度
は、本層の演算要求により適合する。本層の演算結果の精度を保証する前提で、本層の演
算効率を向上させることができ、本層の演算効率と演算結果の精度のバランスをとること
ができる。ニューラルネットワーク全体に対して、各量子化すべき層の演算結果の精度と
演算効率のバランスを実現し、ニューラルネットワーク全体の演算結果の精度と演算効率
のバランスを実現する。

ニューラルネットワークの推理、トレーニング、微調整過程において、目標データをオ
フラインで量子化したり、オンラインで量子化したりすることができる。ここで、オフラ
イン量子化は、量子化パラメータを用いて量子化すべきデータをオフライン処理すること
であってもよい。オンライン量子化は量子化パラメータを用いて量子化すべきデータをオ
ンライン処理することであってもよい。例えば、ニューラルネットワークが人工知能チッ
プ上で動作し、量子化データと量子化パラメータを人工知能チップ以外の演算装置に送信
してオフライン量子化を行うか、人工知能チップ以外の演算装置を用いて予め得られた量
子化すべきデータと量子化パラメータをオフライン量子化することができる。人工知能チ
ップがニューラルネットワークを実行する過程において、人工知能チップは、量子化すべ
きデータに対して量子化パラメータを用いてオンライン量子化を行うことができる。ニュ
ーラルネットワークに複数の量子化すべき層が含まれている場合、各量子化すべき層は、
それぞれオンライン量子化とオフライン量子化を行うことができる。本開示では、各量子
化すべき層に対する量子化過程は、オンラインまたはオフラインであることに限定されな
い。

本実施形態において、前記ニューラルネットワークにおける任意の量子化すべき層に対
し、前記量子化すべき層における各量子化すべきデータに対応する量子化パラメータを確
定し、前記量子化すべきデータは、ニューロン、重み、オフセット、および勾配のうち少
なくとも１つを含み、量子化すべきデータを対応する量子化パラメータに基づいて量子化
し、量子化データを得ることで、前記ニューラルネットワークは前記量子化データに基づ
いて演算を実行する。各層の量子化すべきデータにさらに適する量子化パラメータを採用
して各量子化すべき層に対して量子化を行い、各層の演算結果の精度を保証する前提で、
各層の演算効率を向上させることができる。ニューラルネットワーク全体の演算結果の精
度を保証することを前提として、ニューラルネットワーク全体の演算効率を向上させるこ
ともできる。

一つの可能な実施形態では、前記量子化パラメータは、小数点位置、スケーリング係数
とオフセットのうちの少なくとも１つを含み、ここでは、前記小数点位置は、量子化後の
小数点の位置であり、前記スケーリング係数は、量子化後データの最大値と量子化すべき
データの絶対値の最大値との比であり、前記オフセットは量子化すべきデータの中間値で
ある。

一つの可能な実施形態では、量子化パラメータは小数点位置を含むことができる。次の
式（１）を使用して、量子化すべきデータを量子化し、量子化データＩｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／２^ｓ）式（１
）

ここでは、ｓは小数点位置であり、Ｉ_ｘは量子化データであり、Ｆ_ｘは量子化すべきデ
ータであり、ｒｏｕｎｄは四捨五入の丸め演算である。なお、他の丸め演算方法を用いて
もよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算を用いて、式（１）中の
四捨五入の丸め演算を代替することができる。なお、データビット幅が一定の場合、小数
点位置の量子化で得られた量子化データにおいて、小数点後のビットが多いほど、量子化
データの量子化精度が大きい。

一つの可能な実施形態では、量子化パラメータはスケーリング係数を含むことができる
。この場合、次の式（２）を使用して、量子化すべきデータを量子化し、量子化データＩ
_ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／ｆ）式（２
）

ここでは、ｆはスケーリング係数であり、Ｉ_ｘは量子化データであり、Ｆ_ｘは量子化す
べきデータであり、roundは四捨五入の丸め演算である。なお、他の丸め演算方法を用い
てもよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算を用いて、式（２）中
の四捨五入の丸め演算を代替することができる。なお、データビット幅が一定の場合、異
なるスケーリング係数を用いて、量子化後データの数値範囲を調整することができる。

一つの可能な実施形態では、量子化パラメータはオフセットを含むことができる。この
場合、次の式（３）を使用して、量子化すべきデータを量子化し、量子化データＩ_ｘを取
得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ－ｏ）式（３
）

ここでは、ｏはオフセットであり、Ｉ_ｘは量子化データであり、Ｆ_ｘは量子化すべきデ
ータであり、ｒｏｕｎｄは四捨五入の丸め演算である。なお、他の丸め演算方法を用いて
もよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算を用いて、式（３）中の
四捨五入の丸め演算を代替することができる。なお、データビット幅が一定の場合、異な
るオフセットを用いて、量子化後データの数値と量子化前データとのオフセットを調整す
ることができる。

一つの可能な実施形態では、量子化パラメータは小数点位置とスケーリング係数を含む
ことができる。この場合、次の式（４）を使用して、量子化すべきデータを量子化し、量
子化データＩ_ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／２^ｓｘｆ）式（４
）

ここでは、ｓは小数点位置であり、ｆはスケーリング係数であり、Ｉ_ｘは量子化データ
であり、Ｆ_ｘは量子化すべきデータであり、ｒｏｕｎｄは四捨五入の丸め演算である。な
お、他の丸め演算方法を用いてもよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸
め演算を用いて、式（４）中の四捨五入の丸め演算を代替することができる。

一つの可能な実施形態では、量子化パラメータは、小数点位置とオフセットを含むこと
ができる。この場合、次の式（５）を使用して、量子化すべきデータを量子化し、量子化
データＩ_ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（（Ｆ_ｘ－ｏ）／２^ｓ）式（５
）

ここでは、ｓは小数点位置であり、ｏはオフセットであり、Ｉ_ｘは量子化データであり
、Ｆ_ｘは量子化すべきデータであり、ｒｏｕｎｄは四捨五入の丸め演算である。なお、他
の丸め演算方法を用いてもよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算
を用いて、式（５）中の四捨五入の丸め演算を代替することができる。

一つの可能な実施形態では、量子化パラメータは、小数点位置、スケーリング係数とオ
フセットを含むことができる。この場合、次の式（６）を使用して、量子化すべきデータ
を量子化し、量子化データＩ_ｘを取得できる。
Ｉ_ｘ＝ｒｏｕｎｄ（（Ｆ_ｘ－ｏ）／２^ｓｘｆ）式（６
）

ここでは、ｓは小数点位置であり、ｆはスケーリング係数であり、ｏはオフセットであ
り、Ｉ_ｘは量子化データであり、Ｆ_ｘは量子化すべきデータであり、ｒｏｕｎｄは四捨五
入の丸め演算である。なお、他の丸め演算方法を用いてもよく、例えば切り上げ、切り捨
て、ゼロへの丸め等の丸め演算を用いて、式（６）中の四捨五入の丸め演算を代替するこ
とができる。

本実施形態では、量子化パラメータは、小数点位置、スケーリング係数とオフセットの
うちの少なくとも１つを含む。異なる量子化パラメータの組み合わせを用いて量子化すべ
きデータを量子化して、異なる精度の量子化結果を得ることができる。必要に応じて、量
子化パラメータを柔軟に組み合わせてから需要に合わせて使用することができる。

図２－２は、本開示の実施形態によるニューラルネットワークの量子化方法のフローチ
ャートである。図２－２に示されるように、ニューラルネットワーク量子化方法のステッ
プＳ１０は、以下を含む。

ステップＳ１１では、量子化すべきデータと量子化パラメータの対応関係を検索するこ
とによって、前記量子化すべき層における各種の量子化すべきデータに対応する量子化パ
ラメータを確定する。

一つの可能な実施形態では、各量子化すべき層における、各種の量子化すべきデータに
対応する量子化パラメータは、保存されたプリセット値であってもよい。ニューラルネッ
トワークのために、量子化すべきデータと量子化パラメータとの対応関係を確立してもよ
く、この対応関係は、各量子化すべき層の各種の量子化すべきデータと量子化パラメータ
との対応関係を含み、かつ対応関係を各層において共用アクセスが可能なストレージスペ
ースに保存してもよい。ニューラルネットワークに複数の量子化すべきデータと量子化パ
ラメータとの対応関係を確立してもよく、各量子化すべき層はそのうちの一つの対応関係
にそれぞれ対応する。各層の対応関係を本層において単独で使用されるストレージスペー
スに保存してもよく、各層の対応関係を、各層において共用アクセス可能なストレージス
ペースに保存してもよい。

量子化すべきデータと量子化パラメータの対応関係において、複数の量子化すべきデー
タと、それに対応する複数の量子化パラメータとの対応関係を含んでもよい。例えば、量
子化すべきデータと量子化パラメータの対応関係Ａにおいて、量子化すべき層１のニュー
ロンと重みの二つの量子化すべきデータを含んでもよく、ニューロンは小数点位置１、ス
ケーリング係数１とオフセット１の三つの量子化パラメータに対応し、重みは、小数点位
置２とオフセット２の二つの量子化パラメータに対応する。本開示は、量子化すべきデー
タと量子化パラメータの対応関係の具体的なフォーマットを限定しない。

本実施形態において、量子化すべきデータと量子化パラメータの対応関係を検索するこ
とによって、前記量子化すべき層における各種の量子化すべきデータに対応する量子化パ
ラメータを確定することができる。各量子化すべき層に対応する量子化パラメータを予め
設定し、対応関係によって記憶した後に、量子化すべき層が検索してから使用するために
提供する。本実施形態における量子化パラメータの取得方式は簡単で容易である。

図２－３は、本開示の実施形態によるニューラルネットワークの量子化方法のフローチ
ャートである。図２－３に示されるように、ニューラルネットワーク量子化方法のステッ
プＳ１０は、以下を含む。

ステップＳ１２では、各種の量子化すべきデータと対応するデータビット幅に基づいて
対応する量子化パラメータを算出する。

各量子化すべきデータに、対応するデータビット幅ｎを予め設定してもよい。データビ
ット幅ｎと各量子化すべきデータによって各量子化すべきデータに対応する量子化パラメ
ータを算出することができる。量子化すべきデータ自体によって算出された量子化パラメ
ータは、量子化すべきデータ自体の特徴により符合する。

ニューラルネットワークの推理、トレーニングと微調整過程において、量子化すべきデ
ータはニューロン、重み、オフセットのうちの少なくとも１つとするようにしてもよい。
トレーニングと微調整過程については、量子化すべきデータは勾配をさらに含んでもよい
。ニューラルネットワークの推理、トレーニングと微調整過程において、オンラインで取
得された各量子化すべきデータと、それに対応するデータビット幅に基づいて、各量子化
すべきデータに対応する量子化パラメータを計算する。

各種の量子化すべきデータと対応するデータビット幅に基づいて対応する量子化パラメ
ータを算出することを含む。オンラインの量子化すべきデータに基づいて算出した量子化
パラメータは、ニューラルネットワーク量子化すべき層における各種の量子化すべきデー
タ自体の量子化需求により符合することができる。

図２－４は、本開示の実施形態によるニューラルネットワークの量子化方法のフローチ
ャートである。図２－４に示されるように、ニューラルネットワーク量子化方法のステッ
プＳ１２は、以下を含む。

ステップＳ１２１では、前記量子化パラメータにオフセットが含まれていない場合、目
標データにおける絶対値の最大値と前記目標データに対応するデータビット幅に基づいて
、前記目標データの小数点位置を得ることを含み、前記目標データは任意種類の量子化す
べきデータである。

一つの可能な実施形態では、量子化パラメータは複数のパラメータを含んでもよく、量
子化パラメータにオフセットが含まれていない場合、量子化パラメータは、小数点位置と
スケーリング係数のうちの少なくとも１つを含んでもよい。量子化パラメータにオフセッ
トが含まれていない場合、任意種類の量子化すべきデータを目標データとするようにして
もよい。目標データは、ニューロン、重み、オフセットと勾配のうちのいずれか１つであ
ってもよい。

目標データは、複数の要素からなるデータを含んでもよい。目標データの各要素におい
て、最大値と最小値を確定し、最大値の絶対値と最小値の絶対値に基づいて目標データに
おける絶対値の最大値を得るようにしてもよい。目標データにおける各要素の絶対値を確
定し、各要素の絶対値に基づいて目標データにおける絶対値の最大値を得るようにしても
よい。

図２－５は、本開示の実施形態によるニューラルネットワーク量子化方法において、量
子化パラメータがオフセットを含まない場合の、量子化前後のデータ対応の概略図である
。図２－５に示すように、Ｚ_１は目標データにおける絶対値の最大値であり、目標データ
に対応するデータビット幅ｎは８であり、Ａはデータビット幅ｎで目標データを量子化し
た後に表せる最大値であり、Ａは２^ｓ（２^ｎ－１－１）であり、ＡにＺ_１が含まれ、且つ
Ｚ_１はＡ／２より大きくする必要があり、式（７）でそれについて制約するようにしても
よい：
２^ｓ（２^ｎ－１－１）＞＝Ｚ_１＞２^ｓ－１（２^ｎ－１－１）式（７）

目標データにおける絶対値の最大値とデータビット幅に基づいて、目標データの小数点
位置を算出するようにしてもよい。例えば、以下の式（８）によって算出した量子化パラ
メータにオフセットが含まれていない場合に、目標データの小数点位置ｓを計算できる：
ｓ＝ｃｅｉｌ（ｌｎ（Ｚ_１／（２^ｎ－１－１）））式
（８）

ここでは、ｃｅｉｌは切り上げであり、Ｚ_１は目標データにおける絶対値の最大値であ
り、ｓは小数点位置であり、ｎは目標データに対応するデータビット幅である。

本実施形態において、前記量子化パラメータにオフセットが含まれていない場合、目標
データにおける絶対値の最大値と前記目標データに対応するデータビット幅に基づいて、
前記目標データの小数点位置を得る。目標データに基づいて、それに対応する小数点位置
が算出され、目標データ自体の特徴により符合し、目標データの量子化精度をより高くす
ることができる。

図２－６は、本開示の実施形態によるニューラルネットワークの量子化方法のフローチ
ャートである。図２－６に示されるように、ニューラルネットワーク量子化方法のステッ
プＳ１２は、以下を含む。

ステップＳ１２２では、前記量子化パラメータにオフセットが含まれる場合、目標デー
タと前記目標データに対応するデータビット幅に基づいて、前記目標データの量子化後デ
ータの最大値を得て、前記目標データは任意種類の量子化すべきデータである。

ステップＳ１２３では、目標データにおける絶対値の最大値と前記目標データ量子化後
データの最大値に基づいて、前記目標データのスケーリング係数を得る。

目標データにおける絶対値の最大値は、上記実施形態における関連説明を参照してもよ
い。

式（９）によって量子化パラメータにオフセットが含まれていない場合、目標データの
スケーリング係数ｆを算出できる。
ｆ＝ｚ_１／Ａ式（９）

ここでは、Ａは、量子化パラメータにオフセットが含まれていない場合、目標データ量
子化後のデータの最大値であり、式（１０）によってＡを計算してもよい：
Ａ＝（２＾ｃｅｉｌ（ｌｎ（Ｚ_１／（２^ｎ－１－１））））（２^ｎ－１－１）式（１０
）

本実施形態において、量子化パラメータにオフセットが含まれていない場合、目標デー
タにおける絶対値の最大値と目標データに対応するデータビット幅によって、目標データ
に対応するスケーリング係数を算出できる。目標データに基づいて、それに対応するスケ
ーリング係数が算出され、目標データ自体の特徴により符合し、目標データの量子化精度
をより高くすることができる。

図２－７は、本開示の実施形態によるニューラルネットワーク量子化方法において、量
子化パラメータがオフセットを含む場合の、量子化前後のデータ対応の概略図である。図
２－７に示すように、Ａ１とＡ２は、ｎで目標データを量子化した後に表せる最大値と最
小値であり、Ｚｍｉｎは目標データにおけるすべての要素の最小値であり、Ｚ_ｍａｘは目
標データにおけるすべての要素の最大値であり、Ｚ_２＝（Ｚ_ｍａｘ―Ｚ_ｍｉｎ）／２の場
合、目標データをオフセットｏで並行移動させた後に、量子化するようにしてもよい。

図２－８は、本開示の実施形態によるニューラルネットワークの量子化方法のフローチ
ャートである。図２－８に示されるように、ニューラルネットワーク量子化方法のステッ
プＳ１２は、以下を含む。

ステップＳ１２４では、前記量子化パラメータにオフセットが含まれる場合、前記目標
データにおける最大値と前記目標データにおける最小値および前記目標データに対応する
データビット幅に基づいて、前記目標データの小数点位置を得ることを含み、前記目標デ
ータは、任意種類の量子化すべきデータである。

一つの可能な実施形態では、量子化パラメータにオフセットが含まれる場合、量子化パ
ラメータは、小数点位置とスケーリング係数のうちの少なくとも１つをさらに含んでもよ
い。図２－７に示すように、式（１１）によって、量子化パラメータにオフセットが含ま
れる場合の目標データの小数点位置ｓを算出できる：
ｓ＝ｃｅｉｌ（ｌｎ（Ｚ_２／（２^ｎ－１－１）））式（
１１）

ここでは、ｃｅｉｌは切り上げであり、ｓは小数点位置であり、ｎは目標データに対応
するデータビット幅である。

本実施形態において、量子化パラメータにオフセットが含まれる場合、目標データにお
ける最大値、最小値と目標データに対応するデータビット幅によって、目標データに対応
する小数点位置を算出できる。目標データに基づいて、それに対応する小数点位置が算出
され、目標データ自体の特徴により符合し、目標データの量子化精度をより高くすること
ができる。

図２－９は、本開示の実施形態によるニューラルネットワークの量子化方法のフローチ
ャートである。図２－９に示されるように、ニューラルネットワーク量子化方法のステッ
プＳ１２は、以下を含む。

ステップＳ１２５では、前記量子化パラメータにオフセットが含まれる場合、目標デー
タと前記目標データに対応するデータビット幅に基づいて、前記目標データの量子化後デ
ータの最大値を得て、前記目標データは、任意種類の量子化すべきデータである。

ステップＳ１２６では、前記目標データにおける最大値、前記目標データにおける最小
値と前記目標データの量子化後データの最大値に基づいて、前記目標データのスケーリン
グ係数を得る。

一つの可能な実施形態では、量子化パラメータにオフセットが含まれる場合、量子化パ
ラメータは、小数点位置、スケーリング係数のうちの少なくとも１つをさらに含んでもよ
い。図２－７に示すように、式（１２）によって、量子化パラメータにオフセットが含ま
れる場合の目標データのスケーリング係数ｆを算出できる。
ｆ＝ｚ_２／Ａ式（１２）

本実施形態において、量子化パラメータにオフセットが含まれる場合、目標データにお
ける最大値、最小値と目標データに対応するデータビット幅によって、目標データに対応
するスケーリング係数を算出できる。目標データに基づいて、それに対応するスケーリン
グ係数が算出され、目標データ自体の特徴により符合し、目標データの量子化精度をより
高くすることができる。

図２－１０は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１０に示されるように、ニューラルネットワーク量子化方法のス
テップＳ１２は、以下を含む。

ステップＳ１２７では、目標データにおける最大値と最小値に基づいて、前記目標デー
タのオフセットを得ることを含み、前記目標データは、任意種類の量子化すべきデータで
ある。

一つの可能な実施形態では、図２－７に示すように、式（１３）によって、量子化パラ
メータにオフセットが含まれる場合の目標データのオフセットｏを算出できる：
ｏ＝（Ｚ_ｍｉｎ＋Ｚ_ｍａｘ）／２式（１３）

本実施形態において、量子化パラメータにオフセットが含まれる場合、目標データ中の
最大値、最小値と目標データに対応するデータビット幅に基づいて、目標データに対応す
るオフセットを算出できる。目標データに基づいて、それに対応するオフセットが算出さ
れ、目標データ自体の特徴により符合し、目標データの量子化精度をより高くすることが
できる。

図２－１１は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１１に示されるように、前記ニューラルネットワークの量子化方
法はさらに以下を含む。

ステップＳ３０では、目標データと前記目標データに対応する量子化データに基づいて
、前記目標データの量子化誤差を確定し、前記目標データは、任意種類の量子化すべきデ
ータである。

目標データに対応する量子化すべきデータと目標データとの間の誤差に基づき、目標デ
ータの量子化誤差を確定することができる。設定された誤差計算方法、例えば標準偏差計
算方法、二乗平均２乗根誤差計算方法などの設定誤差計算方法を使用して、目標データの
量子化誤差を計算することができる。

量子化パラメータに基づいて、目標データに対応する量子化すべきデータを逆量子化し
た後に逆量子化データを得て、逆量子化データと目標データとの間の誤差に基づいて、目
標データの量子化誤差を得ることができる。

量子化間隔の計算に関連する方法によって、例えば式（２１）によって目標データと目
標データに対応する逆量子化データとの間の誤差ｄｉｆｆ _ｂｉｔを算出してもよい。
ｄｉｆｆ_ｂｉｔ＝ｌｎ（Ａ＊２^－１＊ｐ／Σ_ｉ｜Ｆ_ｘ｜）式（
２１）

ここでは、ｐは目標データにおける各要素の数量であり、ｓは目標データの小数点位置
である。Ａの値は量子化パラメータによって確定されることができ、量子化パラメータに
小数点位置ｓが含まれる場合、Ａ＝２^ｓである。量子化パラメータに小数点位置ｓとスケ
ジューリング係数ｆが含まれる場合、Ａ＝２^ｓｘｆ。

二つのデータの平均値の間の差を計算する方法によって、例えば式（２２）によって目
標データと目標データに対応する逆量子化データとの間の誤差ｄｉｆｆ _ｂｉｔを算出して
もよい。

二つのデータの差の間の平均値を計算する方法、例えば式（２３）によって目標データ
と目標データに対応する逆量子化データの間の誤差ｄｉｆｆ _ｂｉｔを算出してもよい。

許容できる最大誤差に基づいて誤差閾値を確定することができる。量子化誤差が誤差閾
値より大きい場合、量子化の精度が期待に応えられないことを意味し、データビット幅を
より長いビット幅に調整する必要がある。高い量子化精度によって、小さい誤差閾値を確
定することもでき、量子化誤差が誤差閾値よりも小さい場合、量子化精度が高いことを示
し、ニューラルネットワークの動作効率に影響を与える。データビット幅をより短いビッ
ト幅に適切に調整することができる。これによって、量子化精度を適切に低下させ、ニュ
ーラルネットワークの動作効率を向上させる。

調整ビット幅を確定した後、目標データに対応するデータビット幅を調整ビット幅に更
新することができる。例えば、更新前の目標データのデータビット幅が８ビットで、調整
ビット幅が１２ビットである場合、更新後の目標データに対応するデータビット幅は１２
ビットである。調整ビット幅と目標データによって目標データに対応する調整量子化パラ
メータを算出できる。目標データに対応する調整量子化パラメータによって目標データを
改めて量子化することができる。これによって、量子化精度がより高いかより低い量子化
データが得られ、量子化すべき層は、量子化精度と処理効率との間のバランスがとれる。

ニューラルネットワークの推理、トレーニング、微調整の過程では、各層間での量子化
すべきデータには一定の相関関係があると見なすことができる。例えば、各層の量子化す
べきデータ間の平均値の差が設定された平均閾値よりも小さく、各層の量子化すべきデー
タの最大値の差も設定された差の閾値よりも小さい場合、量子化すべき層の後続の１つ以
上の層の量子化すべきデータを量子化するために、量子化すべきの層の調整量子化パラメ
ータを後続の１つ以上の層の調整量子化パラメータとして使用されてもよい。ニューラル
ネットワークのトレーニングおよび微調整過程では、量子化すべき層の現在反復で得られ
た調整量子化パラメータを使用して、後続の反復で量子化すべき層を量子化してもよい。

ニューラルネットワークは、調整量子化パラメータによって量子化を実行することは、
量子化すべき層でのみ調整量子化パラメータを使用して量子化すべきデータを再量子化し
、量子化すべき層の演算に再取得された量子化後のデータを使用することを含んでもよい
。また、量子化すべき層で、調整量子化パラメータを用いて量子化すべきデータを量子化
するかわりに、量子化すべき層の後続の１層または複数層で調整量子化パラメータを用い
て量子化すること、および／または後続の反復で量子化すべき層で調整量子化パラメータ
を使用して量子化することを含んでもよい。また、量子化すべき層で調整量子化パラメー
タを使用して、量子化を再実行することもでき、再取得された量子化データを、量子化す
べき層の演算に使用され、量子化すべき層の後続の１つまたは複数層で調整量子化パラメ
ータを使用して量子化すること、および／または、後続の反復で量子化すべき層で調整量
子化パラメータを使用して量子化することを含んでもよい。この開示はこれを制限するも
のではない。

本実施形態では、目標データと目標データに対応する量子化データに基づいて、目標デ
ータの量子化誤差を確定し、目標データは、任意種類の量子化すべきデータである。前記
量子化誤差と誤差閾値に基づいて、目標データに対応するデータビット幅を調整して、前
記目標データに対応する調整ビット幅を得る。目標データに対応するデータビット幅を調
整ビット幅に更新し、目標データおよび調整ビット幅によって計算して対応する調整量子
化パラメータが得られ、これによってニューラルネットワークは調整量子化パラメータに
よって量子化される。目標データと量子化すべきデータの間の誤差によってデータビット
幅を調整し、調整後データビット幅に基づいて調整量子化パラメータを算出する。異なる
誤差閾値を設定することにより、異なる調整量子化パラメータを取得して、量子化精度の
向上や動作効率の向上などの、異なる量子化需要を実現できる。目標データおよび目標デ
ータの量子化データによって算出された調整量子化パラメータも、目標データ自体のデー
タ特性とより一致し、目標データ自体のニーズにより一致する量子化結果を達成し、量子
化精度と処理効率との間でよりよいバランスがとれる。

図２－１２は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１２に示されるように、ニューラルネットワーク量子化方法のス
テップＳ４０は、以下を含む。

目標データに対応するデータビット幅を可変調整ステップ長さで増加することで、調整
ビット幅を得ることができる。例えば、量子化誤差と誤差閾値の差が第１閾値より大きい
場合、データビット幅は調整ステップ長さＭ１で調整でき、量子化誤差と誤差閾値の差が
第１閾値より小さい場合、調整ステップ長さＭ２でデータビット幅を調整でき、ここでは
、第１閾値は第２閾値よりも大きく、Ｍ１はＭ２よりも大きい。需要に応じて各可変調整
ステップ長さを確定できる。この開示は、データビット幅の調整ステップ長さ、および調
整ステップ長さが可変であるかどうかを制限しない。

図２－１３は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１３に示されるように、前記ニューラルネットワークの量子化方
法はさらに以下を含む。

ステップＳ４２では、前記調整ビット幅と前記目標データによって、前記目標データの
調整後量子化誤差を計算する。

ステップＳ４３では、調整ビット幅と前記目標データによって計算された調整後の量子
誤差が前記第１誤差閾値以下になるまで、前記調整後量子化誤差と第１誤差閾値によって
前記調整ビット幅を増加し続ける。

この実施形態では、量子化誤差が第１誤差閾値よりも大きい場合、目標データに対応す
るデータビット幅を大きくして、目標データに対応する調整ビット幅を得る。第１誤差閾
値を設定し、ステップ長さを調整することでデータビット幅を増加することで、調整後デ
ータビット幅は量子化需要を満たすことができる。１回の調整で調整需要を満たせない場
合は、データビット幅を複数回調整できる。第１誤差閾値と調整ステップ長さの設定によ
り、さまざまな量子化需要を満たすように、量子化需要に応じて量子化パラメータを柔軟
に調整でき、量子化精度を独自のデータ特性に応じて適応的に調整できる。

図２－１４は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１４に示されるように、ニューラルネットワーク量子化方法のス
テップＳ４０は、以下を含む。

目標データに対応するデータビット幅を可変調整ステップ長さで減少することで、調整
ビット幅を得ることができる。固定される調整ステップ長さサイズはＮビットにすること
ができ、Ｎは正の整数である。データビット幅を調整するたびに、Ｎビットを減少するこ
とができる。増加後のデータビット幅＝元データビット幅－Ｎビットである。

図２－１５は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１５に示されるように、前記ニューラルネットワークの量子化方
法はさらに以下を含む。

ステップＳ４６では、調整ビット幅と前記目標データによって算出された調整後の量子
誤差が第２誤差閾値以上になるまで、前記調整後量子化誤差と前記第２誤差閾値によって
前記調整ビット幅を減少し続ける。

量子化誤差に応じて目標データに対応するデータビット幅を増加する場合は、ビット幅
を１回調整して調整ビット幅を取得し、調整ビット幅に応じて調整後の量子化パラメータ
を算出し、調整後の量子化パラメータに応じて目標データを量子化して調整後の量子化デ
ータを取得する。次に、調整後の量子化データと目標データによって、前記目標データの
調整後量子化誤差を算出し、調整後量子化誤差は、依然として第２誤差閾値よりも小さい
ことがある。つまり、１回調整後のデータのビット幅によって調整の目的を満たさない場
合がある。調整後量子化誤差が依然として第２誤差閾値よりも小さい場合、調整後データ
ビット幅を調整し続けることができる。つまり、最終的に得られた調整ビット幅と目標デ
ータによって得られた調整後量子化誤差は、第２誤差閾値よりも大きくなるまで、目標デ
ータに対応するデータビット幅を複数回減少することができる。

この実施形態では、量子化誤差が第２誤差閾値よりも小さい場合、目標データに対応す
るデータビット幅を小さくして、目標データに対応する調整ビット幅を得る。第２誤差閾
値を設定し、ステップ長さを調整することでデータビット幅を減少することで、調整後デ
ータビット幅は量子化需要を満たすことができる。１回の調整で調整需要を満たせない場
合は、データビット幅を複数回調整できる。第２誤差閾値と調整ステップ長さの設定によ
り、量子化需要に応じて量子化パラメータを柔軟で適応的に調整でき、異なる量子化需要
を満たし、量子化精度を調整可能にし、量子化精度とニューラルネットワークの動作効率
とのバランスがとれるようにする。

同時に二つの誤差閾値を設定してもよく、ここでは、第１誤差閾値は、量子化の精度が
低すぎると示すために用いられ、データビット幅のビット数を増加することができ、第２
誤差閾値は、量子化の精度が高すぎると示すために用いられ、データビット幅のビット数
を減少することができる。第１誤差閾値が第２誤差閾値より大きいと、目標データの量子
化誤差を同時に二つの誤差閾値と比較することができ、量子化誤差が第１誤差閾値より大
きい場合、データビット幅のビット数を増加し、量子化誤差が第２誤差閾値より小さい場
合、データビット幅のビット数を減少する。量子化誤差が第１誤差閾値と第２誤差閾値の
間にある場合は、データビット幅を一定に保つことができる。

図２－１６は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１６に示すように、前記ニューラルネットワーク演算の微調整段
階および／またはトレーニング段階において、前記方法はさらに以下を含む。

ステップＳ６０では、現在反復および履歴反復における目標データのデータ変動幅を取
得し、前記履歴反復は、前記現在反復の前の反復である。

ニューラルネットワーク演算の微調整段階および／またはトレーニング段階では、複数
の反復を含む。ニューラルネットワーク中の各量子化すべき層は、一回の順演算と一回の
逆演算を行い、量子化すべき層の重みを更新した後、一回の反復を完了する。複数回の反
復において、量子化すべき層における目標データおよび／または目標データに対応する量
子化データのデータ変動幅は、異なる反復における目標データおよび／または量子化デー
タが同じ量子化パラメータを用いて量子化され得るかどうかを測定するために使用され得
る。現在反復および履歴反復における目標データのデータ変動幅が小さく、例えば設定さ
れた幅変動閾値より小さい場合、データ変動幅が小さい複数の反復において同じ量子化パ
ラメータを採用することができる。

予め記憶された量子化パラメータを抽出することにより、目標データに対応する量子化
パラメータを確定することができる。異なる反復において目標データを量子化する場合、
各反復において目標データに対応する量子化パラメータを抽出する必要がある。複数の反
復の目標データおよび／または目標データに対応する量子化データのデータ変動幅が小さ
い場合、データ変動幅が小さい複数の反復で採用された同じ量子化パラメータを一時記憶
することができ、各反復は量子化を行う際に一時記憶した量子化パラメータを利用して量
子化演算を行い、毎回の反復で量子化パラメータを抽出する必要がない。

量子化パラメータは、目標データおよびデータビット幅から計算することもできる。異
なる反復において目標データを量子化する場合、量子化パラメータを各反復において別々
に計算する必要がある。複数の反復の目標データおよび／または目標データに対応する量
子化データのデータ変動幅が小さい場合、データ変動幅が小さい複数の反復に用いること
ができる量子化パラメータが同じであれば、各反復ごとに量子化パラメータを計算する代
わりに、そのうちの第１反復で計算された量子化パラメータを直接使用することができる
。

目標データが重みである場合、反復間の重みは絶えず更新し、複数の反復の重みのデー
タ変動幅が小さい場合、または複数の反復の重みに対応する量子化データのデータ変動幅
が小さい場合、複数の反復において同じ量子化パラメータを用いて重みを量子化すること
ができることを理解されたい。

ステップＳ７０では、前記目標データのデータ変動幅に基づいて、前記目標データに対
応する目標反復間隔を確定して、前記ニューラルネットワークが前記目標反復間隔に基づ
いて前記目標データの量子化パラメータを更新し、前記目標反復間隔は少なくとも１回の
反復を含み、前記目標データは任意種類の量子化すべきデータである。

目標データのデータ変動幅に基づいて目標反復間隔を確定し、目標反復間隔には、少な
くとも１つの反復が含まれ、目標反復間隔内の各反復において同じ量子化パラメータを使
用してもよく、即ち、目標反復間隔内の各反復は目標データの量子化パラメータを更新し
ない。ニューラルネットワークは、目標反復間隔に基づいて目標データの量子化パラメー
タを更新する。目標反復間隔内の反復は、予め設定された量子化パラメータを取得しない
か、または量子化パラメータを計算しない。すなわち目標反復間隔内の反復は、量子化パ
ラメータを更新しない。目標反復間隔外の反復は、予め設定された量子化パラメータを取
得するか、または量子化パラメータを計算する。すなわち目標反復間隔外の反復は量子化
パラメータを更新する。

複数の反復間の目標データまたは目標データの量子化データのデータ変動幅が小さいほ
ど、確定された目標反復間隔に含まれる反復回数が多くなることが理解されるであろう。
計算されたデータ変動幅に基づいて、予め設定されたデータ変動幅と反復間隔との対応関
係を検索し、計算されたデータ変動幅に対応する目標反復間隔を確定することができる。
必要に応じて、データ変動幅と反復間隔との対応関係を予め設定することができる。計算
されたデータ変動幅に基づいて、設定された計算方法を用いて目標反復間隔を計算しても
よい。本開示は、データ変動幅の計算方法および目標反復間隔の取得方法を限定しない。

本実施形態では、ニューラルネットワーク演算の微調整段階および／またはトレーニン
グ段階において、現在反復および履歴反復における目標データのデータ変動幅を取得し、
前記目標データのデータ変動幅に基づいて目標データに対応する目標反復間隔を確定し、
これにより、前記ニューラルネットワークは前記目標反復間隔に基づいて前記目標データ
の量子化パラメータを更新する。複数の反復における目標データまたは目標データに対応
する量子化データのデータ変動幅に基づいて目標反復間隔を確定することができる。ニュ
ーラルネットワークは、目標反復間隔に基づいて量子化パラメータを更新するかどうかを
確定することができる。目標反復間隔に含まれる複数の反復のデータ変動幅が小さいため
、目標反復間隔内の反復は量子化パラメータを更新しなくても量子化精度を保証すること
ができる。目標反復間隔内の複数の反復は量子化パラメータを更新せず、量子化パラメー
タの抽出回数または計算回数を減少することができ、それによってニューラルネットワー
クの演算効率を向上させる。

図２－１７は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１７に示されるように、前記ニューラルネットワークの量子化方
法はさらに以下を含む。

ステップＳ８０では、前記目標データの前記現在反復におけるデータビット幅に基づい
て、前記目標データの前記目標反復間隔内の反復に対応するデータビット幅を確定して、
前記ニューラルネットワークが前記目標データの前記目標反復間隔内の反復に対応するデ
ータビット幅に基づいて、量子化パラメータを確定することを含む。

上述した実施形態で説明したように、目標データの量子化パラメータは、予め設定され
ていてもよいし、目標データに対応するデータビット幅に基づいて算出されてもよい。異
なる量子化すべき層における目標データに対応するデータビット幅、または同じ量子化す
べき層における目標データの異なる反復における対応するデータビット幅は、本開示の上
記実施形態における方法に従って適応的に調整することができる。

目標データのデータビット幅が適応的に調整できず、予め設定されたデータビット幅で
ある場合、目標データの現在反復における予め設定されたデータビット幅に基づいて、目
標反復間隔内の目標データの反復に対応するデータビット幅を確定することができる。目
標反復間隔内の各反復は、自身の事前設定値を使用しなくてもよい。

目標データのデータビット幅が適応的に調整可能である場合、目標データの現在反復に
対応するデータビット幅に基づいて目標データの目標反復間隔内の反復に対応するデータ
ビット幅を確定することができる。データビット幅が適応的に調整可能である場合、デー
タビット幅は一回の調整または複数回の調整を行うことができる。目標データを現在反復
で適応的に調整した後のデータビット幅を、目標反復間隔内の各反復に対応するデータビ
ット幅とすることができる。目標反復間隔内の各反復は、もはやデータビット幅を適応的
に調整（更新）しない。目標データは、現在反復において、適応的に調整されたデータビ
ット幅を使用することができ、適応的に調整される前のデータビット幅を使用することが
でき、本開示はこれに限定されない。

目標反復間隔以外の他の反復において、目標データのデータ変動幅は設定条件を満たさ
ないため、本開示の前記方法に基づいてデータビット幅を適応的に調整することができ、
現在反復にさらに適合する目標データのデータビット幅を得ることができ、本開示の目標
反復間隔の計算方法を使用して、新たな目標反復間隔を計算して、使用することもできる
。したがって、目標反復間隔以外の反復の量子化精度を保証すると同時に、ニューラルネ
ットワークの実行効率を向上させる。

目標反復間隔内の各反復のデータビット幅は同じであり、各反復は、同じデータビット
幅のそれぞれから対応する量子化パラメータを計算することができる。量子化パラメータ
は、小数点位置、スケーリング係数、およびオフセットのうちの少なくとも１つを含むこ
とができる。量子化パラメータは、目標反復間隔内の各反復において、同じデータビット
幅から別々に計算することができる。量子化パラメータが小数点位置、スケーリング係数
およびオフセットを含む場合、目標反復間隔内の各反復において、同じデータビット幅を
用いて、それぞれ対応する小数点位置、スケーリング係数、およびオフセットを計算する
ことができる。

現在反復のデータビット幅に基づいて、目標反復間隔内の各反復のデータビット幅を確
定すると同時に、現在反復の量子化パラメータに基づいて、目標反復間隔内の各反復の対
応する量子化パラメータを確定することができる。目標反復間隔内の各反復の量子化パラ
メータは、再び同じデータビット幅から計算することなくも、ニューラルネットワークの
演算効率を向上させることができる。現在反復の全部の量子化パラメータまたは一部の量
子化パラメータに基づいて目標反復間隔内の各反復の対応する量子化パラメータを確定す
ることができる。現在反復の一部の量子化パラメータに基づいて、目標反復間隔内の各反
復の対応する量子化パラメータが確定されると、残りの部分の量子化パラメータは、目標
反復間隔内の各反復について計算される必要がある。

例えば、量子化パラメータは、小数点位置、スケーリング係数、およびオフセットを含
む。現在反復のデータビット幅と小数点位置に基づいて、目標反復間隔内の各反復のデー
タビット幅と小数点位置を確定することができる。目標反復間隔内の各反復のスケーリン
グ係数およびオフセットは、同じデータビット幅から計算される必要がある。また、現在
反復のデータビット幅、小数点位置、スケーリング係数およびオフセットに基づいて、目
標反復間隔内の各反復のデータビット幅、小数点位置、スケーリング係数およびオフセッ
トを確定することができ、すると、目標反復間隔内の各反復の各量子化パラメータを計算
する必要がない。

本実施形態では、目標データの現在反復に対応するデータビット幅に基づいて、目標デ
ータの目標反復間隔内における反復に対応するデータビット幅を確定し、それにより、ニ
ューラルネットワークは、目標データの目標反復間隔内における反復に対応し、データビ
ット幅に基づいて量子化パラメータを確定する。目標反復間隔内の各反復のデータビット
幅は、現在反復のデータビット幅に基づいて確定され、目標反復間隔内の各反復の目標デ
ータのデータ変化幅は設定の条件を満たすため、同じデータビット幅を利用して計算した
量子化パラメータは、目標反復間隔内の各反復の量子化精度を保証することができる。目
標反復間隔内の各反復は同じデータビット幅を使用し、ニューラルネットワークの演算効
率を向上させることもできる。ニューラルネットワークを量子化した後の演算結果の正確
率とニューラルネットワークの演算効率との間でバランスがとれる。

図２－１８は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１８に示されるように、前記ニューラルネットワークの量子化方
法はさらに以下を含む。

ステップＳ９０では、前記目標データの、前記現在反復に対応する小数点位置に基づい
て、前記目標データの前記目標反復間隔内における反復に対応する小数点位置を確定する
。

量子化パラメータでは、スケーリング係数とオフセットに対して、異なる小数点位置が
同じ目標データの量子化結果に与える影響が大きい。目標データの現在反復に対応する小
数点位置に基づいて、目標反復間隔内の反復に対応する小数点位置を確定することができ
る。データビット幅が適応的に調整不可である場合、目標データの現在反復における予め
設定された小数点位置を、目標データの目標反復間隔内における各反復に対応する小数点
位置としてもよく、目標データの現在反復において予め設定されたデータビット幅から計
算された小数点位置を、目標データの目標反復間隔内における各反復に対応する小数点位
置としてもよい。データビット幅が適応的に調整可能である場合、目標データの現在反復
調整後の小数点位置を、目標データの目標反復間隔内の各反復に対応する小数点位置とし
てもよい。

前記目標データの前記現在反復に対応する小数点位置に基づいて、前記目標データの前
記目標反復間隔内の反復に対応する小数点位置を確定すると同時に、目標データの現在反
復に対応するスケーリング係数に基づいて、前記目標データの前記目標反復間隔内の反復
に対応するスケーリング係数を確定すること、および／または目標データの現在反復に対
応するオフセットに基づいて、前記目標データの前記目標反復間隔内の反復に対応するオ
フセットを確定することができる。

前記目標データの前記現在反復に対応する小数点位置に基づいて、前記目標データの前
記目標反復間隔内の反復に対応する小数点位置を確定すると同時に、目標データの現在反
復に対応するデータビット幅に基づいて、前記目標データの前記目標反復間隔内の反復に
対応するデータビット幅を確定することもでき、ここでは、目標データの現在反復に対応
するデータビット幅は、現在反復のプリセットのデータビット幅または適応的調整後デー
タビット幅であってもよい。

本実施形態において、目標データの現在反復に対応する小数点位置に基づいて、目標デ
ータの目標反復間隔内の反復に対応する小数点位置を確定する。目標反復間隔内の各反復
の小数点位置は、現在反復の小数点位置に基づいて確定され、目標反復間隔内の各反復の
目標データのデータ変化幅は設定の条件を満たすため、同じ小数点位置を利用して、目標
反復間隔内の各反復の量子化精度を保証することができる。目標反復間隔内の各反復は同
じ小数点位置を使用し、ニューラルネットワークの演算効率を向上させることもできる。
ニューラルネットワークを量子化した後の演算結果の正確率とニューラルネットワークの
演算効率との間でバランスがとれる。

図２－１９は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－１９に示されるように、ニューラルネットワーク量子化方法のス
テップＳ６０は、以下を含む。

ステップＳ６１では、目標データの現在反復における小数点位置と、履歴反復間隔によ
って確定される、前記現在反復に対応する履歴反復の小数点位置とに基づいて、目標デー
タに対応する各反復間隔の小数点位置のスライディング平均値を計算する。

ステップＳ６２では、前記目標データの現在反復における小数点位置の第１スライディ
ング平均値と、前の反復間隔に対応する反復の小数点位置の第２スライディング平均値に
基づいて、第１データ変動幅を得る。

前記ステップＳ７０は、以下を含む。

ステップＳ７１では、前記第１目標データのデータ変動幅に基づいて、前記目標データ
に対応する目標反復間隔を確定して、前記ニューラルネットワークが前記目標反復間隔に
基づいて前記目標データの量子化パラメータを更新するようにする。

一つの可能な実施形態では、履歴反復間隔によって確定される、前記現在反復に対応す
る履歴反復は、目標反復間隔を計算する履歴反復であってもよい。現在反復と対応する目
標反復間隔との対応関係は以下を含むことができる。

現在反復から目標反復間隔をカウントし始め、現在反復に対応する目標反復間隔の終了
後の次の反復から改めて目標反復間隔を計算し始めるようにしてもよい。例えば、現在反
復は第１００反復であり、目標反復間隔は３であり、目標反復間隔内の反復は、第１００
反復、第１０１反復と第１０２反復を含み、第１０３反復において第１０３反復に対応す
る目標反復間隔を計算し、１０３反復を、新たに算出された目標反復間隔内の第１反復と
するようにしてもよい。この場合、現在反復が１０３反復の場合、履歴反復間隔に基づい
て確定される、前記現在反復に対応する履歴反復は１００反復である。

現在反復の次の反復から目標反復間隔をカウントし始め、目標反復間隔内の最後の反復
から改めて目標反復間隔を計算し始めるようにしてもよい。例えば、現在反復は第１００
反復であり、目標反復間隔は３であり、目標反復間隔内の反復は、第１０１反復、第１０
２反復と第１０３反復を含み、第１０３反復において第１０３反復に対応する目標反復間
隔を計算し、１０４反復を、新たに算出された目標反復間隔内の第１反復とするようにし
てもよい。この場合、現在反復が１０３反復の場合、履歴反復間隔に基づいて確定される
、前記現在反復に対応する履歴反復は１００反復である。

現在反復の次の反復から目標反復間隔をカウントし始め、目標反復間隔内の最後の反復
から改めて目標反復間隔を計算し始めるようにしてもよい。例えば、現在反復は第１００
反復であり、目標反復間隔は３であり、目標反復間隔内の反復は、第１０１反復、第１０
２反復と第１０３反復を含み、第１０４反復において第１０４反復に対応する目標反復間
隔を計算し、１０５反復を、新たに算出された目標反復間隔内の第１反復とするようにし
てもよい。この場合、現在反復が１０４反復の場合、履歴反復間隔に基づいて確定される
、前記現在反復に対応する履歴反復は１００反復である。

必要に応じて、現在反復と目標反復間隔との他の対応関係を確定するようにしてもよく
、例えば、現在反復の後の第Ｎ反復から目標反復間隔をカウントし始めてもよく、Ｎは１
より大きく、本開示はこれに限定されない。

なお、計算で得られた目標データに対応する各反復間隔の小数点位置のスライディング
平均値は、目標データの現在反復における小数点位置の第１スライディング平均値と、目
標データの前の反復間隔に対応する反復における小数点位置の第２スライディング平均値
とを含む。式（２４）によって、現在反復に対応する小数点位置の第１スライディング平
均値ｍ^（ｔ）を計算できる。
ｍ^（ｔ）←αｘｓ^（ｔ）＋（１－α）ｍ^{（ｔ－１）}
式（２４）

ここでは、ｔは現在反復であり、ｔ－１は前の反復間隔によって確定された履歴反復で
あり、ｍ^{（ｔ－１）}は前の反復間隔によって確定される履歴反復の第２スライディング平
均値であり、ｓ^（ｔ）は現在反復の小数点位置であり、αは第１パラメータである。第１
パラメータはハイパーパラメータであってもよい。

本実施形態において、目標データの現在反復における小数点位置と、履歴反復間隔によ
って確定される、前記現在反復に対応する履歴反復の小数点位置とに基づいて、目標デー
タに対応する各反復間隔の小数点位置のスライディング平均値を計算する。目標データの
現在反復における小数点位置の第１スライディング平均値と、前の反復間隔に対応する反
復の小数点位置の第２スライディング平均値に基づいて、第１データ変動幅を得る。第１
目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を確定し
て、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの量子化
パラメータを更新するようにする。第１データ変動幅は小数点位置の変化傾向を測ること
ができるため、目標反復間隔は目標データの小数点位置の変化傾向とともに変化でき、算
出された各目標反復間隔の大きさは、目標データ小数点位置の変化によって変化できる。
量子化パラメータは目標反復間隔に応じて確定されるので、量子化パラメータに基づいて
量子化して得られた量子化データは、目標データの小数点位置の変動傾向にさらに適合す
ることができ、量子化の精度を保証するとともに、ニューラルネットワークの動作効率を
向上させる。

図２－２０は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－２０に示されるように、ニューラルネットワーク量子化方法のス
テップＳ６２は、以下を含む。

ステップＳ６２１では、前記第１スライディング平均値と前記第２スライディング平均
値の差を計算する。

ステップＳ６２２では、前記差値の絶対値を第１データ変動幅と確定する。

式（２５）によって第１データ変動幅ｄｉｆｆ_{ｕｐｄａｔｅ１} を計算する。
ｄｉｆｆ_{ｕｐｄａｔｅ１}＝｜ｍ^（ｔ）－ｍ^{（ｔ－１）}｜＝α｜ｓ^（ｔ）－ｍ^{（ｔ－１）}
式（２５）｜

第１目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を
確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの
量子化パラメータを更新するようにしてもよい。下式（２６）で目標反復間隔を算出する
ことができる。
Ｉ＝β／ｄｉｆｆ_{ｕｐｄａｔｅ１}－γ 式（２６）

ここでは、βは第２パラメータであり、γは第３パラメータである。第２パラメータと
第３パラメータはハイパーパラメータであってもよい。

なお、第１データ変動幅は小数点位置の変化傾向を測るために利用でき、つまり、第１
データ変動幅が大きければ大きいほど、量子化データの数値範囲変化がひどく、量子化パ
ラメータを更新するとき、より短い目標反復間隔Ｉをあける必要がある。

本実施形態において、前記第１スライディング平均値と前記第２スライディング平均値
の差を計算する。差の絶対値を第１データ変動幅と確定する。スライディング平均値の差
から、正確な第１データ変動幅が得られる。

図２－２１は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－２１に示されるように、前記ニューラルネットワークの量子化方
法はさらに以下を含む。

ステップＳ６３では、現在反復における前記目標データと前記目標データに対応する量
子化データに基づいて、第２データ変動幅を得る。

前記ステップＳ７０は、以下を含む。

ステップＳ７２では、前記目標データの第１データ変動幅と前記第２データ変動幅に基
づいて、前記目標データに対応する目標反復間隔を確定して、前記ニューラルネットワー
クが前記目標反復間隔に基づいて前記目標データの量子化パラメータを更新するようにす
る。

現在反復における前記目標データと前記目標データに対応する量子化データに基づいて
、第２データ変動幅を得るようにしてもよい。ステップＳ６３では、現在反復における前
記目標データと前記目標データに対応する量子化データに基づいて、第２データ変動幅を
得るようにしてもよい。

同様に、式（２３）によって、現在反復において、前記目標データと前記目標データに
対応する逆量子化データとの第２データ変動幅ｄｉｆｆ_ｂｉｔを算出するようにしてもよ
い。他の誤差の計算方法によって、目標データと逆量子化データとの第２データ変動幅ｄ
ｉｆｆ_ｂｉｔを算出するようにしてもよい。この開示はこれを制限するものではない。

ｄｉｆｆ_ｂｉｔ＝ｌｎ（（Σ_ｉ｜Ｚ_ｉ ^（ｎ）｜－Σ_ｉ｜Ｚ_ｉ｜）／Σ_ｉ｜Ｚ_ｉ｜＋１
）式（２３）

ここでは、Ｚ_ｉは目標データであり、Ｚ_ｉ ^（ｎ）は目標データに対応する逆量子化デー
タである。なお、第２データ変動幅は量目標データに対応するデータビット幅の変化傾向
を測るために利用でき、第２データ変動幅が大きければ大きいほど、目標データは対応す
るデータビット幅を更新する必要がある可能性が高く、より短い反復をあけて更新する必
要があり、第２データ変動幅が大きければ大きいほど、必要な目標反復間隔が小さい。

本実施形態において、現在反復における前記目標データと前記目標データに対応する量
子化データに基づいて、第２データ変動幅を得るようにしてもよい。前記目標データの第
１データ変動幅と前記第２データ変動幅に基づいて、前記目標データに対応する目標反復
間隔を確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標デ
ータの量子化パラメータを更新するようにする。第２データ変動幅は、データビット幅の
変動需要を測るために利用でき、すると、第１データ変動幅と第２データ変動幅によって
算出された目標反復間隔は、小数点位置とデータビット幅の変動を同時に追跡することが
でき、目標反復間隔は目標データ自身のデータ量子化需要により符合することもできる。

図２－２２は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－２２に示されるように、ニューラルネットワーク量子化方法のス
テップＳ６３は、以下を含む。

ステップＳ６３１では、現在反復における前記目標データと前記目標データ対応する量
子化データとの誤差を計算する。

ステップＳ６３２では、前記誤差の２乗を前記第２データ変動幅と確定する。

式（２７）によって第２データ変動幅ｄｉｆｆ_{ｕｐｄａｔｅ２} を得ることができる：
ｄｉｆｆ_{ｕｐｄａｔｅ２}＝δ＊ｄｉｆｆ^２ _ｂｉｔ
式（２７）

ここでは、δは第４パラメータであり、第４パラメータはハイパーパラメータであって
もよい。

なお、異なるデータビット幅によって異なる量子化パラメータを得ることができ、さら
に異なる量子化データを得て、異なる第２データ変動幅を生じることができる。第２デー
タ変動幅は、データビット幅の変化傾向を測るために利用でき、第２データ変動幅が大き
ければ大きいほど、より短い目標反復間隔を必要としてより頻繁にデータビット幅を更新
し、即ちより小さい目標反復間隔が必要である。

図２－２３は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－２３に示すように、前記ステップＳ７２は以下を含む。

ステップＳ７２１では、前記第１データ変動幅と前記第２データ変動幅中の最大値に基
づいて、前記目標データに対応する目標反復間隔を確定する。

下式（２８）で目標反復間隔を算出することができる。
Ｉ＝β／ｍａｘ（ｄｉｆｆ_{ｕｐｄａｔｅ１}，ｄｉｆｆ_{ｕｐｄａｔｅ２}）－γ
式（２８）

なお、第１データ変動幅と第２データ変動幅によって得られた目標反復間隔は、データ
ビット幅と小数点位置の変化傾向を同時に測ることができ、両者のうちの一つの変化傾向
が大きい場合、目標反復間隔に対応する変化を発生させることができる。目標反復間隔は
、データビット幅と小数点位置の変化を同時に追跡して対応する調整を行うことができる
。これにより、目標反復間隔によって更新される量子化パラメータは、目標データの変動
傾向により符合し、最終的に、量子化パラメータによって得られた量子化データは、量子
化需要により符合できる。

図２－２４は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－２４に示されるように、ニューラルネットワーク量子化方法のス
テップＳ６０は、以下を含む。

ステップＳ６４では、現在反復が更新周期外にある場合、現在反復および履歴反復にお
ける目標データのデータ変動幅を取得し、前記更新周期は少なくとも１つの反復を含む。

ニューラルネットワーク演算のトレーニング過程および／または微調整過程において、
トレーニング開始または微調整開始の複数の反復において、目標データの変化幅は大きい
。トレーニング開始または微調整開始の複数の反復において目標反復間隔を計算すると、
算出された目標反復間隔はその使用上の意味を失う可能性がある。予め設定された更新周
期によって、更新周期以内の各反復において、目標反復間隔を計算せず、目標反復間隔に
よって複数の反復が同じデータビット幅または小数点位置を使用しないようにしてもよい
。

反復が更新周期の外に進むとき、すなわち現在反復が更新周期以外にあるとき、現在反
復および履歴反復における目標データのデータ変動幅を取得し、前記目標データのデータ
変動幅に基づいて目標データに対応する目標反復間隔を確定し、これにより、前記ニュー
ラルネットワークは前記目標反復間隔に基づいて前記目標データの量子化パラメータを更
新する。例えば、プリセット更新周期は１００反復であると、第１反復から第１００反復
までの反復において、目標反復間隔を計算しない。反復が１０１反復に進み、即ち現在反
復は１０１反復である場合、現在反復は更新周期以外にあり、このとき、第１０１反復お
よび第１反復から第１００反復の反復における目標データのデータ変動幅によって、第１
０１反復の目標データに対応する目標反復間隔を確定し、第１０１反復、または第１０１
間隔のプリセット反復数の反復において、算出された目標反復間隔を使用する。

プリセット反復数から更新周期をカウントし始めてもよく、例えば、第１代から更新周
期における複数の反復をカウントし始めてもよく、第Ｎ代から更新周期における複数の反
復をカウントし始めてもよく、本開示はこれに限定されない。

本実施形態において、反復が更新周期以外に進むとき、目標反復間隔を算出して使用す
る。ニューラルネットワーク演算のトレーニング過程や微調整過程の初期に、目標データ
の変動幅が大きくなることによって、目標反復間隔の使用意義が少ない問題を回避するこ
とができ、目標反復間隔を使用する状況で、ニューラルネットワークの運行効率を向上さ
せることができる。

図２－２５は、本開示の実施形態によるニューラルネットワークの量子化方法のフロー
チャートである。図２－２５に示されるように、前記ニューラルネットワークの量子化方
法はさらに以下を含む。

ステップＳ１００では、現在反復が予め設定された周期内にある場合、現在反復、前記
予め設定された周期の次の周期における前記現在反復に対応する反復、および現在反復に
対応する反復間隔に基づいて、周期間隔を確定する。

ステップＳ１１０では、前記目標データの現在反復に対応するデータビット幅に基づい
て、前記周期間隔内の反復における前記目標データのデータビット幅を確定する。または
前記目標データの現在反復における対応する小数点位置に基づいて、前記周期間隔内の反
復における前記目標データの小数点位置を確定する。

ニューラルネットワーク演算のトレーニング過程または微調整過程には、複数の周期を
含んでもよい。各周期は、複数の反復を含むことができる。ニューラルネットワーク演算
のためのデータが一回完全に演算されることを１周期とする。トレーニング過程において
、反復の進行に伴い、ニューラルネットワークの重みの変化は安定になり、トレーニング
が安定した後、ニューロン、重み、オフセットおよび勾配などの量子化すべきデータはい
ずれも安定になる。目標データが安定化した後に、目標データのデータビット幅と量子化
パラメータも安定化する。同様に、微調整過程において、微調整が安定した後、目標デー
タのデータビット幅と量子化パラメータも安定する。

したがって、予め設定された周期は、トレーニングが安定化した周期または微調整が安
定化した周期に基づいて確定することができる。トレーニングが安定しているか、または
安定している周期の後の周期を微調整して、予め設定された周期として確定することがで
きる。例えばトレーニングが安定している周期がＭ番目の周期であれば、Ｍ番目の周期以
降の周期を予め設定された周期とすることができる。予め設定された周期内で、間隔ごと
に１つの目標反復間隔を計算することができる。計算された目標反復間隔に基づいてデー
タビット幅または量子化パラメータを一回調整して、データビット幅または量子化パラメ
ータの更新回数を減少させ、ニューラルネットワークの運行効率を向上させる。

例えば、プリセット周期はＭ番目の周期以降の周期である。Ｍ＋１番目の周期において
、Ｍ番目の周期におけるＰ番目の反復から計算された目標反復間隔は、Ｍ＋１番目の周期
におけるＱ番目の反復までである。第Ｍ＋１周期における第Ｑ_ｍ＋１反復に基づいてそれ
に対応する目標反復間隔Ｉ_ｍ＋１を得る。第Ｍ＋２周期において、第Ｍ＋１周期における
第Ｑ_ｍ＋１反復に対応する反復は、第Ｑ_ｍ＋２反復である。第Ｍ＋１周期における第Ｑ_ｍ
_＋１反復から、第Ｍ＋２周期における第Ｑ_ｍ＋２＋Ｉ_ｍ＋１反復までは、周期間隔である
。周期間隔内の各反復において、第Ｍ＋１周期における第Ｑ_ｍ＋１反復によって確定され
るデータビット幅または小数点位置等の量子化パラメータを用いる。

本実施形態では、周期間隔を設けて、ニューラルネットワーク演算のトレーニングや微
調整が安定した後に、周期間隔に応じて、周期毎にデータビット幅やドット位置などの量
子化パラメータを更新する。周期間隔は、トレーニング安定または微調整安定後、データ
ビット幅または小数点位置の更新回数を減少することができ、量子化精度を保証すると同
時に、ニューラルネットワークの運行効率を向上させる。

さらに説明しなければならないのは、図２－１から図２－６のフローチャートにおける
各ステップは、矢印の指示に従って順次表示されているが、これらのステップは必ずしも
矢印の順に逐次実行されるわけではない。ここで明示的に指定されている場合を除き、こ
れらのステップの実行には厳密な順序制限はなく、これらのステップは別の順序で実行し
てもよい。また、図２－１から図２－６における少なくとも一部のステップは、複数のサ
ブステップまたは複数の段階を含むことができ、これらのサブステップまたは段階は、必
ずしも同じ時点で実行されるわけではなく、異なる時点で実行されてもよく、これらのサ
ブステップまたは段階の実行順序は、必ずしも順次実行されるわけではなく、代わりに、
他のステップまたは他のステップのサブステップまたは段階の少なくとも一部と順番に、
または交互に実行することができる。

図２－２６は、本開示の実施形態によるニューラルネットワークの量子化装置の概略図
である。図２－２６に示すように、本開示は、ニューラルネットワーク量子化装置を提供
し、前記装置は前記ニューラルネットワークにおける任意層の量子化すべき層を量子化す
るために用いられ、前記装置は、

前記量子化すべき層における各量子化すべきデータに対応する量子化パラメータを確定
するために用いられ、前記量子化すべきデータはニューロン、重み、オフセット、および
勾配のうち少なくとも１つを含む量子化パラメータ確定モジュール１０と、

量子化すべきデータを対応する量子化パラメータに基づいて量子化し、量子化データを
得ることで、前記ニューラルネットワークは前記量子化データに基づいて演算を実行する
ための量子化モジュールと２０を含む。

一つの可能な実施形態では、前記量子化パラメータは、小数点位置、スケーリング係数
とオフセットのうちの少なくとも１つを含み、ここでは、

前記小数点位置は、量子化後の小数点の位置であり、

前記スケーリング係数は、量子化後データの最大値と量子化すべきデータの絶対値の最
大値との比であり、

前記オフセットは、量子化すべきデータの中間値である。

図２－２７は、本開示の実施形態によるニューラルネットワークの量子化装置の概略図
である。図２－２７に示すように、前記量子化パラメータ確定モジュール１０は、

量子化すべきデータと量子化パラメータの対応関係を検索することによって、前記量子
化すべき層における各種の量子化すべきデータに対応する量子化パラメータを確定するよ
うに構成される第１量子化パラメータ確定サブモジュール１１を含む。

一つの可能な実施形態では、前記量子化パラメータ確定モジュール１０は、

各種の量子化すべきデータと対応するデータビット幅に基づいて対応する量子化パラメ
ータを算出するように構成される第２量子化パラメータ確定サブモジュール１２を含む。

一つの可能な実施形態では、前記第２量子化パラメータ確定サブモジュール１２は、

前記量子化パラメータにオフセットが含まれていない場合、目標データにおける絶対値
の最大値と前記目標データに対応するデータビット幅に基づいて、前記目標データの小数
点位置を得て、前記目標データは任意種類の量子化すべきデータであるように構成される
第１小数点位置計算ユニット１２１を含む。

前記量子化パラメータにオフセットが含まれる場合、目標データと前記目標データに対
応するデータビット幅に基づいて、前記目標データの量子化後データの最大値を得て、前
記目標データは任意種類の量子化すべきデータであり、目標データにおける絶対値の最大
値と前記目標データ量子化後データの最大値に基づいて、前記目標データのスケーリング
係数を得るように構成される第１スケーリング係数計算ユニット１２２を含む。

前記量子化パラメータにオフセットが含まれる場合、前記目標データにおける最大値と
前記目標データにおける最小値および前記目標データに対応するデータビット幅に基づい
て、前記目標データの小数点位置を得ることを含み、前記目標データは任意種類の量子化
すべきデータであるように構成される第２小数点位置計算ユニット１２３を含む。

前記量子化パラメータにオフセットが含まれる場合、目標データと前記目標データに対
応するデータビット幅に基づいて、前記目標データの量子化後データの最大値を得て、前
記目標データは任意種類の量子化すべきデータであり、前記目標データにおける最大値、
前記目標データにおける最小値と前記目標データの量子化後データの最大値に基づいて、
前記目標データのスケーリング係数を得る第２スケーリング係数計算ユニット１２４を含
む。

目標データにおける最大値と最小値に基づいて、前記目標データのオフセットを得るこ
とを含み、前記目標データは任意種類の量子化すべきデータであるように構成されるオフ
セット計算ユニット１２５を含む。

図２－２８は、本開示の実施形態によるニューラルネットワークの量子化装置の概略図
である。図２－２８に示すように、一つの可能な実施形態では、前記装置は、

目標データと前記目標データに対応する量子化データに基づいて、前記目標データの量
子化誤差を確定し、前記目標データは任意種類の量子化すべきデータであるように量子化
誤差確定モジュール３０と、

前記量子化誤差と誤差閾値に基づいて、前記目標データに対応するデータビット幅を調
整して、前記目標データに対応する調整ビット幅を得るように構成される調整ビット幅確
定モジュール４０と、

前記目標データに対応するデータビット幅を前記調整ビット幅に更新し、前記目標デー
タおよび前記調整ビット幅によって計算して対応する調整量子化パラメータが得られ、こ
れによってニューラルネットワークは調整量子化パラメータによって量子化されるように
構成される調整量子化パラメータ確定モジュール５０とをさらに含む。

一つの可能な実施形態では、前記調整ビット幅確定モジュール４０は、

前記量子化誤差が前記第１誤差閾値よりも大きい場合、目標データに対応するデータビ
ット幅を増加して、前記目標データに対応する調整ビット幅を得るように構成される第１
調整ビット幅確定サブモジュール４１を含む。

前記調整ビット幅と前記目標データによって、前記目標データの調整後量子化誤差を計
算するように構成される第１調整量子化誤差確定サブモジュール４２と、

調整ビット幅と前記目標データによって計算された調整後の量子誤差が前記第１誤差閾
値以下になるまで、前記調整後量子化誤差と第１誤差閾値によって前記調整ビット幅を増
加し続けるように構成される第１調整ビット幅サイクル確定サブモジュール４３とを含む
。

前記量子化誤差が第２誤差閾値よりも小さい場合、前記目標データに対応するデータビ
ット幅を減少することを含み、前記第２誤差閾値が前記第１誤差閾値よりも小さいように
構成される第２調整ビット幅確定サブモジュール４４を含む。

前記調整ビット幅と前記目標データによって、前記目標データの調整後量子化誤差を計
算するように構成される第２調整量子化誤差確定サブモジュール４５と、

調整ビット幅と前記目標データによって算出された調整後の量子誤差が第２誤差閾値以
上になるまで、前記調整後量子化誤差と前記第２誤差閾値によって前記調整ビット幅を減
少し続けるように構成される第２調整ビット幅サイクル確定サブモジュール４６とを含む
。

図２－２９は、本開示の実施形態によるニューラルネットワークの量子化装置の概略図
である。図２－２９に示すように、一つの可能な実施形態では、前記ニューラルネットワ
ーク演算の微調整段階および／またはトレーニング段階において、前記装置は、

現在反復および履歴反復における目標データのデータ変動幅を取得し、前記履歴反復は
前記現在反復の前の反復であるように構成されるデータ変動幅確定モジュール６０と、

前記目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を
確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの
量子化パラメータを更新し、前記目標反復間隔は少なくとも１回の反復を含み、前記目標
データは任意種類の量子化すべきデータであるように構成される目標反復間隔確定モジュ
ール７０とをさらに含む。

１つの可能な実施形態では、前記装置は、

前記目標データの前記現在反復におけるデータビット幅に基づいて、前記目標データの
前記目標反復間隔内の反復に対応するデータビット幅を確定して、前記ニューラルネット
ワークが前記目標データの前記目標反復間隔内の反復に対応するデータビット幅に基づい
て、量子化パラメータを確定するように構成される第１目標反復間隔応用モジュール８０
をさらに含む。

１つの可能な実施形態では、前記方法は、

前記目標データの、前記現在反復に対応する小数点位置に基づいて、前記目標データの
前記目標反復間隔内における反復に対応する小数点位置を確定するように構成される第２
目標反復間隔応用モジュール９０をさらに含む。

一つの可能な実施形態では、前記データ変動幅確定モジュール６０は、

目標データの現在反復における小数点位置と、履歴反復間隔によって確定される、前記
現在反復に対応する履歴反復の小数点位置とに基づいて、目標データに対応する各反復間
隔の小数点位置のスライディング平均値を計算するように構成されるスライディング平均
値計算サブモジュール６１と、

目標データの現在反復における小数点位置の第１スライディング平均値と、前の反復間
隔に対応する反復の小数点位置の第２スライディング平均値に基づいて、第１データ変動
幅を得るように構成される第１データ変動幅確定サブモジュール６２とをさらに含む。

前記目標反復間隔確定モジュール７０は、

第１目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を
確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの
量子化パラメータを更新するように構成される第１目標反復間隔確定サブモジュール７１
を含む。

一つの可能な実施形態では、前記第１データ変動幅確定サブモジュール６２は、

前記第１スライディング平均値と前記第２スライディング平均値の差を計算し、前記差
値の絶対値を第１データ変動幅と確定するように構成される第１データ変動幅確定ユニッ
ト６２１を含む。

現在反復における前記目標データと前記目標データに対応する量子化データに基づいて
、第２データ変動幅を得るように構成される第２データ変動幅確定サブモジュール６３を
さらに含む。

前記目標反復間隔確定モジュール７０は、

前記目標データの第１データ変動幅と前記第２データ変動幅に基づいて、前記目標デー
タに対応する目標反復間隔を確定して、前記ニューラルネットワークが前記目標反復間隔
に基づいて前記目標データの量子化パラメータを更新するように構成される第２目標反復
間隔確定サブモジュール７２を含む。

一つの可能な実施形態では、前記第２データ変動幅確定モジュール６３は、

現在反復における前記目標データと前記目標データ対応する量子化データとの誤差を計
算し、前記誤差の２乗を前記第２データ変動幅と確定するように構成される第２データ変
動幅確定ユニット６３１を含む。

一つの可能な実施形態では、前記第２目標反復間隔確定サブモジュール７２、前記第１
データ変動幅と前記第２データ変動幅中の最大値に基づいて、前記目標データに対応する
目標反復間隔を確定するように構成される。

現在反復が更新周期外にある場合、現在反復および履歴反復における目標データのデー
タ変動幅を取得し、前記更新周期は少なくとも１つの反復を含むように構成される第３デ
ータ変動幅確定サブモジュール６４を含む。

図２－３０は、本開示の実施形態によるニューラルネットワークの量子化装置の概略図
である。図２－３０に示すように、一つの可能な実施形態では、前記装置は、

現在反復が予め設定された周期内にある場合、現在反復、前記予め設定された周期の次
の周期における前記現在反復に対応する反復および現在反復に対応する反復間隔に基づい
て、周期間隔を確定するように構成される周期間隔確定モジュール１００と、

前記目標データの現在反復における対応するデータビット幅に基づいて、前記周期間隔
内の反復における前記目標データのデータビット幅を確定するように構成される第１周期
間隔応用モジュール１１０と、または、

前記目標データの現在反復における対応する小数点位置に基づいて、前記周期間隔内の
反復における前記目標データの小数点位置を確定するように構成される第２周期間隔応用
モジュール１２０とをさらに含む。

１つの可能な実施形態では、前記装置は、

前記量子化すべき層の後の１層または複数層に前記量子化すべき層の量子化パラメータ
を使用するように構成される量子化パラメータ流用モジュール１３０をさらに含む。

前記一体化されたユニット／モジュールがハードウェアの形態で実装される場合、この
ハードウェアはデジタル回路、アナログ回路などであってもよい。ハードウェア構造の物
理的実装は、トランジスタ、メモリスタなどを含むが、これらに限定されない。特に明記
しない限り、前記人工知能プロセッサは、任意の適切なハードウェアプロセッサであって
もよい。例えば、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＤＳＰとＡＳＩＣ等である。特に明記しな
い限り、前記記憶ユニットは、任意の適切な磁気記憶媒体または磁気光学記憶媒体であっ
てもよい。例えば、抵抗可変メモリＲＲＡＭ（ＲｅｓｉｓｔｉｖｅＲａｎｄｏｍＡｃ
ｃｅｓｓＭｅｍｏｒｙ）、ダイナミックランダムアクセスメモリＤＲＡＭ（Ｄｙｎａｍ
ｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、スタティックランダムアクセスメ
モリＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ）、増強動的
ランダムアクセスメモリＥＤＲＡＭ（ＥｎｈａｎｃｅｄＤｙｎａｍｉｃＲａｎｄｏｍ
ＡｃｃｅｓｓＭｅｍｏｒｙ）、高帯域メモリＨＢＭ（Ｈｉｇｈ－Ｂａｎｄｗｉｄｔｈ
Ｍｅｍｏｒｙ）、ハイビッドメモリキューブＨＭＣ（ＨｙｂｒｉｄＭｅｍｏｒｙＣ
ｕｂｅ）などである。

上記の一体化されたユニット／モジュールは、ソフトウェアプログラムモジュールの形
態で実装され、別個の製品として販売または使用される場合、１つのコンピュータ可読メ
モリに記憶されてもよい。このような理解に基づいて、本開示の技術の解決手段は、本質
的に、または従来技術に寄与する部分、または該技術の解決手段の全てまたは一部は、ソ
フトウェア製品の形態で具現化されてよく、該コンピュータソフトウェア製品はメモリに
記憶されており、コンピュータ装置（パーソナルコンピュータ、サーバ、またはネットワ
ーク装置等であってよい）に、本開示の各実施形態に記載の方法の全部または一部のステ
ップを実行させるためのいくつかのコマンドを含む。上記のメモリは、Ｕディスク、読み
取り専用メモリ（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモ
リ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、リムーバブルハードディス
ク、磁気ディスク、または光ディスクなどの、プログラムコードを記憶可能な様々な媒体
を含む。

一つの可能な実施形態では、本開示はさらに、人工知能チップを開示し、それは上記デ
ータ同期装置を含む。

一つの可能な実施形態では、本開示はさらにＰＣＢボードを開示し、それは記憶デバイ
ス、インターフェースデバイス、制御デバイス、および以上に記載の人工知能チップを含
む。ここでは、前記人工知能チップは、前記記憶デバイス、前記制御デバイス、および前
記インターフェイスデバイスにそれぞれ接続され、前記記憶デバイスはデータを記憶する
ためのものであり、前記インターフェイスデバイスは、前記人工知能チップと外部装置と
の間のデータ伝送を実現するためのものであり、前記制御デバイスは前記人工知能チップ
の状態を監視するためのものである。

図２－３１は、本開示の実施形態によるＰＣＢボードの構成を示すブロック図であり、
図２－３１を参照すると、前記ＰＣＢボードは、前記チップ３８９に加えて他の構成部品
を含んでもよいが、この構成部品は、記憶デバイス３９０、インターフェースデバイス３
９１と制御デバイス３９２を含むが、これらに限定されない。

前記記憶デバイス３９０は、前記人工知能チップとバスによって接続され、データの記
憶に利用される。前記記憶デバイスは、複数組の記憶ユニット３９３を含んでもよい。各
組の前記記憶ユニットは、前記人工知能チップとバスによって接続される。なお、各組の
前記メモリユニットは、ＤＤＲＳＤＲＡＭ（英語：ＤｏｕｂｌｅＤａｔａＲａｔｅ
ＳＤＲＡＭ、ダブルレート同期ダイナミックランダムアクセスメモリ）であってもよい
ことが理解されるであろう。

ＤＤＲは、クロック周波数を上げることなく、ＳＤＲＡＭの速度を倍に上げることがで
きる。ＤＤＲは、クロックパルスの立ち上がりエッジおよび立ち下がりエッジでデータを
読み出すことを可能にする。ＤＤＲのスピードは標準ＳＤＲＡＭの２倍である。一実施形
態では、前記記憶装置は、４組の前記記憶ユニットを含むことができる。前記メモリユニ
ットの各組は複数のＤＤＲ４粒子（チップ）を含むことができる。一実施形態では、前記
人工知能チップは、内部に４つの７２ビットＤＤＲ４コントローラを含むことができ、前
記７２ビットＤＤＲ４コントローラのうち６４ｂｉｔはデータを伝送するために用いられ
、８ｂｉｔはＥＣＣチェックに用いられる。前記メモリユニットにＤＤＲ４－３２００粒
子が使用される場合、データ伝送の理論帯域幅は２５６００ＭＢ／ｓに達することが理解
されるであろう。

一実施形態では、前記メモリユニットの各組は、並列に設置された複数のダブルレート
同期ダイナミックランダムアクセスメモリを含む。ＤＤＲは、１クロックサイクル内で２
回データを送信することができる。前記チップにはＤＤＲを制御するコントローラが設け
られ、前記メモリユニット毎のデータ伝送とデータ記憶の制御に用いられる。

前記インターフェースデバイスは、前記人工知能チップに電気的に接続される。前記イ
ンターフェースデバイスは、前記人工知能チップと外部装置（例えば、サーバまたはコン
ピュータ）との間のデータ伝送を可能にするために使用される。例えば、一実施形態では
、前記インターフェースデバイスは、標準ＰＣＩＥインターフェースであってもよい。例
えば、処理すべきデータは、標準ＰＣＩＥインターフェースを介してサーバによってチッ
プに伝送され、データ転送を可能にする。好ましくは、理論帯域幅は、ＰＣＩＥ３．０
Ｘ１６インターフェース伝送を使用する場合、１６０００ＭＢ／ｓに達することができる
。別の実施形態では、前記インターフェースデバイスは、他のインターフェースであって
もよく、本開示は、上記の他のインターフェースの具体的な表現形態を限定するものでは
なく、前記インターフェースユニットは、中継機能を実現することができる。さらに、前
記人工知能チップの計算結果は、以前として前記インターフェースデバイスによって外部
装置（例えば、サーバ）に伝送される。

Ｂ１、ニューラルネットワークの量子化方法であって、前記ニューラルネットワークに
おける任意の量子化すべき層に対して、前記方法は、

前記量子化すべき層における各量子化すべきデータに対応する量子化パラメータを確定
し、前記量子化すべきデータは。ニューロン、重み、オフセット、および勾配のうちの少
なくとも１つを含むことと、

量子化すべきデータを対応する量子化パラメータに基づいて量子化し、量子化データを
得ることで、前記ニューラルネットワークは前記量子化データに基づいて演算を実行する
こととを含むことを特徴とするニューラルネットワークの量子化方法。

Ｂ２、前記量子化パラメータは小数点位置、スケーリング係数とオフセットのうちの少
なくとも１つを含み、

前記小数点位置は、量子化後の小数点の位置であり、

前記オフセットは、量子化すべきデータの中間値である項目Ｂ１に記載の方法。

Ｂ３、前記量子化すべき層における各種の量子化すべきデータに対応する量子化パラメ
ータを確定することは、

量子化すべきデータと量子化パラメータの対応関係を検索することによって、前記量子
化すべき層における各種の量子化すべきデータに対応する量子化パラメータを確定するこ
とを含む項目Ｂ１またはＢ２に記載の方法。

Ｂ４、前記量子化すべき層中の各種の量子化すべきデータに対応する量子化パラメータ
を確定することは、

各種の量子化すべきデータと対応するデータビット幅に基づいて対応する量子化パラメ
ータを算出することを含む項目Ｂ１またはＢ２に記載の方法。

Ｂ５、前記の、各種の量子化すべきデータと対応するデータビット幅によって、対応す
る量子化パラメータを算出することは、

前記量子化パラメータにオフセットが含まれていない場合、目標データにおける絶対値
の最大値と前記目標データに対応するデータビット幅に基づいて、前記目標データの小数
点位置を得ることを含み、前記目標データは任意種類の量子化すべきデータである項目Ｂ
４に記載の方法。

Ｂ６、前記の、各種の量子化すべきデータと対応するデータビット幅によって、対応す
る量子化パラメータを算出することは、

目標データにおける絶対値の最大値と前記目標データ量子化後データの最大値に基づい
て、前記目標データのスケーリング係数を得ることとを含む項目Ｂ４に記載の方法。

Ｂ７、前記の、各種の量子化すべきデータと対応するデータビット幅によって対応する
量子化パラメータを算出することは、

前記量子化パラメータにオフセットが含まれる場合、前記目標データにおける最大値と
前記目標データにおける最小値および前記目標データに対応するデータビット幅に基づい
て、前記目標データの小数点位置を得ることを含み、前記目標データは任意種類の量子化
すべきデータである項目Ｂ４に記載の方法。

Ｂ８、前記の、各種の量子化すべきデータと対応するデータビット幅によって対応する
量子化パラメータを算出することは、

前記量子化パラメータにオフセットが含まれる場合は、目標データと前記目標データに
対応するデータビット幅に基づいて、前記目標データの量子化後データの最大値を得て、
前記目標データは、任意種類の量子化すべきデータであることと、

前記目標データにおける最大値、前記目標データにおける最小値と前記目標データの量
子化後データの最大値に基づいて、前記目標データのスケーリング係数を得ることとを含
む項目Ｂ４に記載の方法。

Ｂ９、前記の、各種の量子化すべきデータと対応するデータビット幅によって対応する
量子化パラメータを算出することは、

目標データにおける最大値と最小値に基づいて、前記目標データのオフセットを得るこ
とを含み、前記目標データは任意種類の量子化すべきデータである項目Ｂ４に記載の方法
。

Ｂ１０、前記方法は、目標データと前記目標データに対応する量子化データに基づいて
、前記目標データの量子化誤差を確定し、前記目標データは任意種類の量子化すべきデー
タであることと、

前記目標データに対応するデータビット幅を前記調整ビット幅に更新し、前記目標デー
タおよび前記調整ビット幅によって計算して対応する調整量子化パラメータが得られ、こ
れによってニューラルネットワークは調整量子化パラメータによって量子化されることと
をさらに含む項目Ｂ１～Ｂ９のいずれか一項に記載の方法。

Ｂ１１、前記の、前記量子化誤差と誤差閾値に基づいて、前記目標データに対応するデ
ータビット幅を調整して、前記目標データに対応する調整ビット幅を得ることは、

前記量子化誤差が前記第１誤差閾値よりも大きい場合、目標データに対応するデータビ
ット幅を増加して、前記目標データに対応する調整ビット幅を得ることを含む項目Ｂ１０
に記載の方法。

Ｂ１２、前記方法は、

調整ビット幅と前記目標データによって計算された調整後の量子誤差が前記第１誤差閾
値以下になるまで、前記調整後量子化誤差と第１誤差閾値によって前記調整ビット幅を増
加し続けることとをさらに含むことを特徴とする項目Ｂ１１に記載の方法。

Ｂ１３、前記量子化誤差と誤差閾値に基づいて、前記目標データに対応するデータビッ
ト幅を調整することは、

量子化誤差が第２誤差閾値よりも小さい場合、目標データに対応するデータビット幅を
減少することを含み、前記第２誤差閾値が前記第１誤差閾値よりも小さい項目Ｂ１０また
はＢ１１に記載の方法。

Ｂ１４、前記方法は、

調整ビット幅と前記目標データによって算出された調整後の量子誤差が第２誤差閾値以
上になるまで、前記調整後量子化誤差と前記第２誤差閾値によって前記調整ビット幅を減
少し続けることとをさらに含む項目Ｂ１３前記の方法。

Ｂ１５、前記ニューラルネットワーク演算の微調整段階および／またはトレーニング段
階において、前記方法は、

前記目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を
確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの
量子化パラメータを更新し、前記目標反復間隔は少なくとも１回の反復を含み、前記目標
データは任意種類の量子化すべきデータであることとをさらに含む項目Ｂ１～Ｂ１４のい
ずれか一項に記載の方法。

Ｂ１６、前記方法は、

前記目標データの前記現在反復におけるデータビット幅に基づいて、前記目標データの
前記目標反復間隔内の反復に対応するデータビット幅を確定して、前記ニューラルネット
ワークが前記目標データの前記目標反復間隔内の反復に対応するデータビット幅に基づい
て、量子化パラメータを確定することをさらに含む項目Ｂ１５に記載の方法。

Ｂ１７、前記方法は、

前記目標データの、前記現在反復に対応する小数点位置に基づいて、前記目標データの
前記目標反復間隔内における反復に対応する小数点位置を確定することをさらに含む項目
Ｂ１５に記載の方法。

Ｂ１８、前記の、現在反復および履歴反復における目標データのデータ変動幅を取得す
ることは、

目標データの現在反復における小数点位置と、履歴反復間隔によって確定される、前記
現在反復に対応する履歴反復の小数点位置とに基づいて、目標データに対応する各反復間
隔の小数点位置のスライディング平均値を計算することと、

目標データの現在反復における小数点位置の第１スライディング平均値と、前の反復間
隔に対応する反復の小数点位置の第２スライディング平均値に基づいて、第１データ変動
幅を得ることとを含み、

前記目標データの第１データ変動幅と前記第２データ変動幅に基づいて、前記目標デー
タに対応する目標反復間隔を確定して、前記ニューラルネットワークが前記目標反復間隔
に基づいて前記目標データの量子化パラメータを更新することは、

第１目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を
確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの
量子化パラメータを更新することを含む項目Ｂ１５に記載の方法。

Ｂ１９、前記目標データの現在反復における小数点位置の第１スライディング平均値、
および一つ前の反復間隔における対応する反復の小数点位置の第２スライディング平均値
に基づいて第１データ変動幅を得ることは、

前記第１スライディング平均値と前記第２スライディング平均値の差を計算することと
、

前記差値の絶対値を第１データ変動幅と確定することとを含む項目Ｂ１８に記載の方法
。

Ｂ２０、前記方法は、

現在反復における前記目標データと前記目標データに対応する量子化データに基づいて
、第２データ変動幅を得ることをさらに含み、

前記目標データの第１データ変動幅と前記第２データ変動幅に基づいて、前記目標デー
タに対応する目標反復間隔を確定して、前記ニューラルネットワークが前記目標反復間隔
に基づいて前記目標データの量子化パラメータを更新することを含む項目Ｂ１８に記載の
方法。

Ｂ２１、前記の、現在反復における前記目標データと前記目標データに対応する量子化
データに基づいて第２データ変動幅を得ることは、

現在反復における前記目標データと前記目標データ対応する量子化データとの誤差を計
算することと、

前記誤差の２乗を前記第２データ変動幅と確定することとを含む項目Ｂ２０に記載の方
法。

Ｂ２２、前記の、前記目標データの第１データ変動幅と前記第２データ変動幅に基づい
て、前記目標データに対応する目標反復間隔を確定することは、

前記第１データ変動幅と前記第２データ変動幅中の最大値に基づいて、前記目標データ
に対応する目標反復間隔を確定することを含む項目Ｂ２０に記載の方法。

Ｂ２３、前記の、現在反復および履歴反復における目標データのデータ変動幅を取得す
ることは、

現在反復が更新周期外にある場合、現在反復および履歴反復における目標データのデー
タ変動幅を取得することを含み、前記更新周期は少なくとも１つの反復を含む項目Ｂ１５
～Ｂ２３のいずれか一項に記載の方法。

Ｂ２４、前記方法は、

現在反復が予め設定された周期内にある場合、現在反復、前記予め設定された周期の次
の周期における前記現在反復に対応する反復、および現在反復に対応する反復間隔に基づ
いて、周期間隔を確定することと、

前記目標データの現在反復に対応するデータビット幅に基づいて、前記周期間隔内の反
復における前記目標データのデータビット幅を確定することと、または、
前記目標データの現在反復における対応する小数点位置に基づいて、前記周期間隔内の
反復における前記目標データの小数点位置を確定することとをさらに含む項目Ｂ１５～Ｂ
２３のいずれか一項に記載の方法。

Ｂ２５、前記方法は、

前記量子化すべき層の後の１層または複数層に前記量子化すべき層の量子化パラメータ
を使用することをさらに含む項目Ｂ１～Ｂ２４のいずれか一項に記載の方法。

Ｂ２６、ニューラルネットワーク量子化装置であって、前記装置は前記ニューラルネッ
トワークにおける任意層の量子化すべき層を量子化するために用いられ、前記装置は、

前記量子化すべき層における各量子化すべきデータに対応する量子化パラメータを確定
するために用いられ、前記量子化すべきデータは、ニューロン、重み、オフセット、およ
び勾配のうちの少なくとも１つを含む量子化パラメータ確定モジュールと、

量子化すべきデータを対応する量子化パラメータに基づいて量子化し、量子化データを
得ることで、前記ニューラルネットワークは前記量子化データに基づいて演算を実行する
ための量子化モジュールとを含むニューラルネットワーク量子化装置。

Ｂ２７、前記量子化パラメータは小数点位置、スケーリング係数とオフセットのうちの
少なくとも１つを含み、ここでは、

前記小数点位置は、量子化後の小数点の位置であり、

前記オフセットは、量子化すべきデータの中間値である項目Ｂ２６に記載の装置。

Ｂ２８、前記量子化パラメータ確定モジュールは、

量子化すべきデータと量子化パラメータの対応関係を検索することによって、前記量子
化すべき層における各種の量子化すべきデータに対応する量子化パラメータを確定するよ
うに構成される第１量子化パラメータ確定サブモジュールを含む項目Ｂ２５またはＢ２７
に記載の装置。

Ｂ２９、前記量子化パラメータ確定モジュールは、

各種の量子化すべきデータと対応するデータビット幅に基づいて対応する量子化パラメ
ータを算出するように構成される第２量子化パラメータ確定サブモジュールを含む項目Ｂ
２６またはＢ２７に記載の装置。

Ｂ３０、前記第２量子化パラメータ確定サブモジュールは、

前記量子化パラメータにオフセットが含まれていない場合、目標データにおける絶対値
の最大値と前記目標データに対応するデータビット幅に基づいて、前記目標データの小数
点位置を得て、前記目標データは任意種類の量子化すべきデータであるように構成される
第１小数点位置計算ユニットを含む項目Ｂ２９に記載の装置。

Ｂ３１、前記第２量子化パラメータ確定サブモジュールは、

前記量子化パラメータにオフセットが含まれる場合、目標データと前記目標データに対
応するデータビット幅に基づいて、前記目標データの量子化後データの最大値を得て、前
記目標データは任意種類の量子化すべきデータであり、目標データにおける絶対値の最大
値と前記目標データ量子化後データの最大値に基づいて、前記目標データのスケーリング
係数を得るように構成される第１スケーリング係数計算ユニットを含む項目Ｂ２９に記載
の装置。

Ｂ３２、前記第２量子化パラメータ確定サブモジュールは、

前記量子化パラメータにオフセットが含まれる場合、前記目標データにおける最大値と
前記目標データにおける最小値および前記目標データに対応するデータビット幅に基づい
て、前記目標データの小数点位置を得ることを含み、前記目標データは任意種類の量子化
すべきデータであるように構成される第２小数点位置計算ユニットを含む項目Ｂ２９に記
載の装置。

Ｂ３３、前記第２量子化パラメータ確定サブモジュールは、

前記量子化パラメータにオフセットが含まれる場合、目標データと前記目標データに対
応するデータビット幅に基づいて、前記目標データの量子化後データの最大値を得て、前
記目標データは任意種類の量子化すべきデータであり、前記目標データにおける最大値、
前記目標データにおける最小値と前記目標データの量子化後データの最大値に基づいて、
前記目標データのスケーリング係数を得るように構成される第２スケーリング係数計算ユ
ニットを含む項目Ｂ２９に記載の装置。

Ｂ３４、前記第２量子化パラメータ確定サブモジュールは、

目標データにおける最大値と最小値に基づいて、前記目標データのオフセットを得るこ
とを含み、前記目標データは任意種類の量子化すべきデータであるように構成されるオフ
セット計算ユニットを含む項目Ｂ２９に記載の装置。

Ｂ３５、前記装置は、

目標データと前記目標データに対応する量子化データに基づいて、前記目標データの量
子化誤差を確定し、前記目標データは任意種類の量子化すべきデータであるように量子化
誤差確定モジュールと、

前記目標データに対応するデータビット幅を前記調整ビット幅に更新し、前記目標デー
タおよび前記調整ビット幅によって計算して対応する調整量子化パラメータが得られ、こ
れによってニューラルネットワークは調整量子化パラメータによって量子化されるように
構成される調整量子化パラメータ確定モジュールとをさらに含む項目Ｂ２６～Ｂ３４のい
ずれか一項に記載の装置。

Ｂ３６、前記調整ビット幅確定モジュールは、

前記量子化誤差が前記第１誤差閾値よりも大きい場合、目標データに対応するデータビ
ット幅を増加して、前記目標データに対応する調整ビット幅を得るように構成される第１
調整ビット幅確定サブモジュールを含む項目Ｂ３５に記載の装置。

Ｂ３７、前記調整ビット幅確定モジュールは、

前記調整ビット幅と前記目標データによって、前記目標データの調整後量子化誤差を計
算するように構成される第１調整量子化誤差確定サブモジュールと、

調整ビット幅と前記目標データによって計算された調整後の量子誤差が前記第１誤差閾
値以下になるまで、前記調整後量子化誤差と第１誤差閾値によって前記調整ビット幅を増
加し続けるように構成される第１調整ビット幅サイクル確定サブモジュールとをさらに含
む項目Ｂ３６に記載の装置。

Ｂ３８、前記調整ビット幅確定モジュールは、

前記量子化誤差が第２誤差閾値よりも小さい場合、前記目標データに対応するデータビ
ット幅を減少することを含み、前記第２誤差閾値が前記第１誤差閾値よりも小さいように
構成される第２調整ビット幅確定サブモジュールを含む項目Ｂ３５またはＢ３６に記載の
装置。

Ｂ３９、前記調整ビット幅確定モジュールは、

調整ビット幅と前記目標データによって算出された調整後の量子誤差が第２誤差閾値以
上になるまで、前記調整後量子化誤差と前記第２誤差閾値によって前記調整ビット幅を減
少し続けるように構成される第２調整ビット幅サイクル確定サブモジュールとをさらに含
む項目Ｂ３８に記載の装置。

Ｂ４０、前記ニューラルネットワーク演算の微調整段階および／またはトレーニング段
階において、前記装置は、

前記目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を
確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの
量子化パラメータを更新し、前記目標反復間隔は少なくとも１回の反復を含み、前記目標
データは任意種類の量子化すべきデータであるように構成される目標反復間隔確定モジュ
ールとをさらに含む項目Ｂ２６～Ｂ３９のいずれか一項に記載の装置。

Ｂ４１、前記装置は、

前記目標データの前記現在反復におけるデータビット幅に基づいて、前記目標データの
前記目標反復間隔内の反復に対応するデータビット幅を確定して、前記ニューラルネット
ワークが前記目標データの前記目標反復間隔内の反復に対応するデータビット幅に基づい
て、量子化パラメータを確定するように構成される第１目標反復間隔応用モジュールをさ
らに含む項目Ｂ４０に記載の装置。

Ｂ４２、前記装置は、

前記目標データの、前記現在反復に対応する小数点位置に基づいて、前記目標データの
前記目標反復間隔内における反復に対応する小数点位置を確定するように構成される第２
目標反復間隔応用モジュールをさらに含む項目Ｂ４０に記載の装置。

Ｂ４３、前記データ変動幅確定モジュールは、

目標データの現在反復における小数点位置と、履歴反復間隔によって確定される、前記
現在反復に対応する履歴反復の小数点位置とに基づいて、目標データに対応する各反復間
隔の小数点位置のスライディング平均値を計算するように構成されるスライディング平均
値計算サブモジュールと、

目標データの現在反復における小数点位置の第１スライディング平均値と、前の反復間
隔に対応する反復の小数点位置の第２スライディング平均値に基づいて、第１データ変動
幅を得るように構成される第１データ変動幅確定サブモジュールとをさらに含み、

前記目標反復間隔確定モジュールは、

第１目標データのデータ変動幅に基づいて、前記目標データに対応する目標反復間隔を
確定して、前記ニューラルネットワークが前記目標反復間隔に基づいて前記目標データの
量子化パラメータを更新するように構成される第１目標反復間隔確定サブモジュールを含
む項目Ｂ４０に記載の装置。

Ｂ４４、前記第１データ変動幅確定サブモジュールは、

前記第１スライディング平均値と前記第２スライディング平均値の差を計算し、前記差
値の絶対値を第１データ変動幅と確定するように構成される第１データ変動幅確定ユニッ
トを含む項目Ｂ４３に記載の装置。

Ｂ４５、前記データ変動幅確定モジュールは、

現在反復における前記目標データと前記目標データに対応する量子化データに基づいて
、第２データ変動幅を得るように構成される第２データ変動幅確定サブモジュールを含み
、

前記目標反復間隔確定モジュールは、

前記目標データの第１データ変動幅と前記第２データ変動幅に基づいて、前記目標デー
タに対応する目標反復間隔を確定して、前記ニューラルネットワークが前記目標反復間隔
に基づいて前記目標データの量子化パラメータを更新するように構成される第２目標反復
間隔確定サブモジュールを含む項目Ｂ４３に記載の装置。

Ｂ４６、前記第２データ変動幅確定サブモジュールは、

現在反復における前記目標データと前記目標データ対応する量子化データとの誤差を計
算し、前記誤差の２乗を前記第２データ変動幅と確定するように構成される第２データ変
動幅確定ユニットを含む項目Ｂ４５に記載の装置。

Ｂ４７、前記第２目標反復間隔確定サブモジュールは、前記第１データ変動幅と前記第
２データ変動幅中の最大値に基づいて、前記目標データに対応する目標反復間隔を確定す
るように構成される項目Ｂ４５に記載の装置。

Ｂ４８、前記データ変動幅確定モジュールは、

現在反復が更新周期外にある場合、現在反復および履歴反復における目標データのデー
タ変動幅を取得し、前記更新周期は少なくとも１つの反復を含むように構成される第３デ
ータ変動幅確定サブモジュールを含む項目Ｂ４０～Ｂ４７のいずれか一項に記載の装置。

Ｂ４９、前記装置は、

現在反復が予め設定された周期内にある場合、現在反復、前記予め設定された周期の次
の周期における前記現在反復に対応する反復および現在反復に対応する反復間隔に基づい
て、周期間隔を確定するように構成される周期間隔確定モジュールと、

前記目標データの現在反復における対応するデータビット幅に基づいて、前記周期間隔
内の反復における前記目標データのデータビット幅を確定するように構成される第１周期
間隔応用モジュールと、または、

前記目標データの現在反復における対応する小数点位置に基づいて、前記周期間隔内の
反復における前記目標データの小数点位置を確定するように構成される第２周期間隔応用
モジュールとをさらに含む項目Ｂ４０～Ｂ４８のいずれか一項に記載の装置。

Ｂ５０、前記装置は、

前記量子化すべき層の後の１層または複数層に前記量子化すべき層の量子化パラメータ
を使用するように構成される量子化パラメータ流用モジュールをさらに含む項目Ｂ２６～
Ｂ４９のいずれか一項に記載の装置。

Ｂ５１、人工知能チップであって、項目Ｂ２６～Ｂ５０のいずれか一項に記載のニュー
ラルネットワーク量子化装置を含む人工知能チップ。

Ｂ５２、電子装置であって、Ｂ５１に記載の人工知能チップを含む電子装置。

Ｂ５３、ＰＣＢボードであって、記憶デバイス、インターフェースデバイス、制御デバ
イス、および項目Ｂ５１に記載の人工知能チップを含み、

ここでは、前記人工知能チップは、前記記憶デバイス、前記制御デバイス、および前記
インターフェイスデバイスにそれぞれ接続され、

前記制御デバイスは、前記人工知能チップの状態を監視するためのものであるＰＣＢボ
ード。

Ｂ５４、前記記憶デバイスは、複数組の記憶ユニットを含み、各組の前記記憶ユニット
は、バスを介して前記人工知能チップに接続され、前記記憶ユニットは、ＤＤＲＳＤＲ
ＡＭであり、

前記チップは各前記記憶ユニットのデータ伝送およびデータストレージを制御するため
のＤＤＲコントローラを含み、

前記インターフェイスデバイスは、標準のＰＣＩＥインターフェイスである項目Ｂ５３
に記載のＰＣＢボード。

以上、本発明の実施形態について説明したが、これは例示であって、網羅的なものでは
なく、開示された実施形態に限定されるものではない。明された実施形態の範囲および精
神から逸脱することなく、多くの修正および変更が説当業者にとっては明らかであろう。
本明細書で使用される用語の選択は、様々な実施形態の原理、実際の応用、または市場に
おける技術の改良を最もよく説明すること、または本明細書で開示される様々な実施形態
を当業者が理解することができるようにすることを目的とする。

以上の記載は、ニューラルネットワークの量子化の問題を解決するために提供した技術
案（２０１９１０５０５２３９．７）を説明した。

量子化パラメータ調整の問題を解決するために、技術案（２０１９１０５２８５３７．
８）を提供した。具体的には、量子化パラメータの調整方法および装置ならびに関連製品
を提供する。

本開示は、コンピュータ技術分野に関し、特に、ニューラルネットワーク量子化方法お
よび装置ならびに関連製品に関する。

人工知能技術の発展に伴い、その応用分野はますます広くなり、画像認識、音声認識、
自然言語処理などの分野においてよく応用されている。しかし、人工知能アルゴリズムの
複雑性が高まるにつれ、処理すべきデータのデータ量やデータ次元が増大し、増大しつつ
あるデータ量などが演算装置のデータ処理効率、記憶装置のメモリ容量やアクセス効率な
どに大きな課題となっている。

前記技術問題を解決するために、従来技術において、固定ビット幅を採用してニューラ
ルネットワークの演算データを量子化し、すなわち、浮動小数点型の演算データを固定小
数点型の演算データに変換し、ニューラルネットワークの演算データの圧縮を実現する。
しかし、ニューラルネットワークの異なる演算データの間に大きな差異が存在する可能性
があり、従来の量子化方法は、ニューラルネットワーク全体に対して同じ量子化パラメー
タ（例えば小数点位置）を用いて量子化を行い、精度が低く、データ演算結果に影響を与
えることが多い。

これに基づいて、本開示は、ニューラルネットワークの量子化パラメータ調整方法、装
置および関連製品を提供し、ニューラルネットワークの量子化精度を向上させ、演算結果
の正確性と信頼性を保証する。

本開示は、ニューラルネットワークの量子化パラメータ調整方法を提供し、前記方法は
、

量子化すべきデータのデータ変動幅を取得することと、

前記量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確定することで、
この目標反復間隔に基づいて、ニューラルネットワーク演算における量子化パラメータを
調整することとを含み、ここでは、前記目標反復間隔は、少なくとも１回の反復を含み、
前記ニューラルネットワークの量子化パラメータは、前記ニューラルネットワークの演算
における量子化すべきデータに対する量子化動作を実現するためのものである。

本開示は、ニューラルネットワークの量子化パラメータ調整装置をさらに提供し、前記
装置はメモリおよびプロセッサを含み、前記メモリにコンピュータプログラムが記憶され
、前記プロセッサは前記コンピュータプログラムを実行すると、以上に記載のいずれか一
項の方法のステップが実施される。具体的に、プロセッサは上記計算机程序を実行すると
き、以下の操作が実現される。すなわち、

量子化すべきデータのデータ変動幅を取得することと、

本開示は、コンピュータ可読記憶媒体をさらに提供し、前記コンピュータ可読記憶媒体
にコンピュータプログラムが記憶され、前記コンピュータプログラムが実行されると、以
上に記載のいずれか一項に記載の方法のステップが実現される。具体的に、上記計算机程
序が実行されると、以下の操作が実現される。すなわち、

量子化すべきデータのデータ変動幅を取得することと、

本開示は、ニューラルネットワークの量子化パラメータ調整装置を提供し、前記装置は
、

本開示のニューラルネットワークの量子化パラメータ調整方法、装置および関連製品は
、量子化すべきデータのデータ変動幅を取得し、かつこの量子化すべきデータのデータ変
動幅に基づいて目標反復間隔を確定することによって、この目標反復間隔に基づいてニュ
ーラルネットワークの量子化パラメータを調整することができ、このように量子化すべき
データのデータ分布特性に基づいて、異なる演算段階におけるニューラルネットワークの
量子化パラメータを確定することができる。従来技術と比較して、同じニューラルネット
ワークの各種の演算データに対して同じ量子化パラメータを採用し、本開示の方法および
装置は、ニューラルネットワークの量子化過程における精度を向上させることができ、さ
らに演算結果の正確性と信頼性を保証する。更に、目標反復間隔を確定することによって
も量子化効率を向上させることができる。

本開示に係る図面は本明細書に含まれ、本明細書の一部を構成する図面は、本明細書と
共に、本開示の例示的な実施形態、特徴、および態様を示し、本開示の原理を説明するた
めに使用される。

図３－１は、本開示の一実施形態による、量子化パラメータの調整方法の応用環境の概
略図である。

図３－２は、本開示の一実施形態による、量子化すべきデータと量子化後のデータとの
間の対応関係の概略図である。

図３－３は、本開示の実施形態による量子化すべきデータの変換の概略図である。

図３－４は、本開示の一実施形態による、量子化パラメータの調整方法のフローチャー
トである。

図３－５は、本開示の一実施形態の演算過程における量子化すべきデータの変動傾向図
である。

図３－６は、本開示の一実施形態のパラメータ調整法における目標反復間隔の確定方法
のフローチャートである。

図３－７は、本開示の一実施形態における小数点位置の変動幅の確定方法のフローチャ
ートである。

図３－８は、本開示の一実施形態における第２平均値の確定方法のフローチャートであ
る。

図３－９は、本開示の一実施形態におけるデータビット幅の調整方法のフローチャート
である。

図３－１０は、本開示の別の一実施形態におけるデータビット幅の調整方法のフローチ
ャートである。

図３－１１は、本開示のまた別の一実施形態におけるデータビット幅の調整方法のフロ
ーチャートである。

図３－１２は、本開示のさらに別の一実施形態におけるデータビット幅の調整方法のフ
ローチャートである。

図３－１３は、本開示の別の一実施形態における第２平均値の確定方法のフローチャー
トである。

図３－１４は、本開示の別の一実施形態による、量子化パラメータの調整方法のフロー
チャートである。

図３－１５は、本開示の一実施形態による、量子化パラメータの調整方法における量子
化パラメータの調整のフローチャートである。

図３－１６は、本開示の別の一実施形態による、パラメータ調整方法における目標反復
間隔の確定方法のフローチャートである。

図３－１７は、本開示のまた別の一実施形態による、パラメータ調整方法における目標
反復間隔の確定方法のフローチャートである。

図３－１８は、本開示のまた別の一実施形態による、量子化パラメータの調整方法のフ
ローチャートである。

図３－１９は、本開示のさらに別の一実施形態による、量子化パラメータの調整方法の
フローチャートである。

図３－２０は、本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック
図を示す。

図３－２１は、本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック
図である。

図３－２２は、本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック
図である。

図３－２３は、本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック
図である。

図３－２４は、本開示の一実施形態による、量子化パラメータ調整装置の構造ブロック
図である。

図３－２５は、本開示の一実施形態によるＰＣＢボードの構造ブロック図である。

量子化パラメータ調整の問題を解決するために、以下の技術案（２０１９１０５２８５
３７．８）を提供した。以下、本開示の実施形態における技術案は、本開示の実施形態に
おける図面を参照して明確かつ完全に説明される。明らかに、記載された実施形態は、本
開示の実施形態の一部であるが、すべての実施形態ではない。本開示の実施形態に基づい
て、創造的な作業なしに当業者によって得られる他のすべての実施形態は、本開示の保護
範囲に含まれる。

本開示の特許請求の範囲や明細書および図面における「第１」、「第２」等の用語は、
特定の順序を説明するのではなく、異なる対象を区別するためのものであることを理解さ
れたい。本開示の明細書および特許請求の範囲で使用される「含む」および「含む」とい
う用語は、記載された特徴、全体、ステップ、操作、要素および／またはコンポーネント
の存在を示すが、１つまたは複数の他の特徴、全体、ステップ、操作、要素、コンポーネ
ント、および／またはそれらのコンビネーションの存在または追加を除外しない。

本開示の明細書で使用される用語は、特定の実施形態を説明することのみを目のとして
おり、本開示を限定することを意図するものではないことも理解されたい。本願の明細書
および特許請求の範囲に使用されるように、文脈で明白に他の意味が示されない限り、単
数形の「一」、「１つ」および「該」は、複数形を含むことを意味する。本開示の明細書
および特許請求の範囲で使用される「および／または」という用語は、関連してリストさ
れた１つまたは複数の項目の任意の組み合わせおよびすべての可能な組み合わせを指し、
これらの組み合わせを含むことをさらに理解されたい。

人工知能アルゴリズムの複雑さが高まるにつれて、処理すべきデータのデータ量とデー
タ次元も絶えず増大しているが、従来のニューラルネットワークアルゴリズムは通常、浮
動小数点データフォーマットを採用してニューラルネットワーク演算を実行し、これは増
大しつつあるデータ量などが演算装置のデータ処理効率、記憶装置のメモリ容量やアクセ
ス効率などに大きな課題となっている。上記問題を解決するために、ニューラルネットワ
ーク演算過程に係る演算データを量子化することができ、すなわち、浮動小数点で表され
る演算データを固定小数点で表される演算データに変換し、それによって記憶装置の記憶
容量とアクセス効率を低下させ、かつ演算装置の演算効率を向上させる。しかし、従来の
量子化方法はニューラルネットワークの全トレーニング過程において同じデータビット幅
と量子化パラメータ（例えば小数点の位置）を採用して、ニューラルネットワークの異な
る演算データを量子化し、異なる演算データの間に差異があるため、または、トレーニン
グ過程の異なる段階の演算データに差異があるため、前記量子化方法を採用して量子化す
る時、精度が不足し、演算結果に影響を与えることが多い。

これに基づいて、本開示は、メモリ１１０およびプロセッサ１２０を含む量子化パラメ
ータ調整装置に応用することができるニューラルネットワークの量子化パラメータ調整方
法を提供する。図３－１は、この量子化パラメータ調整装置１００の構成ブロック図であ
り、ここで、この量子化パラメータ調整装置１００のプロセッサ１２０は、汎用プロセッ
サであってもよく、この量子化パラメータ調整装置１００のプロセッサ１２０は、人工知
能プロセッサであってもよく、この量子化パラメータ調整装置１００のプロセッサは、汎
用プロセッサと人工知能プロセッサとを含んでもよく、ここでは特に限定されない。この
メモリ１１０は、ニューラルネットワークの演算過程における演算データを記憶するため
に使用されてもよい。この演算データは、ニューロンデータ、重みデータ、または勾配デ
ータのうちの１つ以上であってもよい。このメモリ１１０はまた、コンピュータプログラ
ムを記憶するために使用されてもよい。このコンピュータプログラムは上記プロセッサ１
２０により実行されると、本開示の実施形態における量子化パラメータの調整方法を実現
することができる。この方法はニューラルネットワークのトレーニングまたは微調整過程
に応用することができ、且つニューラルネットワークのトレーニングまたは微調整過程の
異なる段階の演算データの分布特性に応じて、演算データの量子化パラメータを動的に調
整することによって、ニューラルネットワークの量子化過程の精度を向上させ、さらに演
算結果の正確性と信頼性を保証する。

特に明記しない限り、前記人工知能プロセッサは、任意の適切なハードウェアプロセッ
サであってもよい。例えば、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、ＤＳＰとＡＳＩＣ等である。特
に明記しない限り、前記メモリは、任意の適切な磁気記憶媒体または磁気光学記憶媒体で
あってもよい。例えば、抵抗可変メモリＲＲＡＭ（ＲｅｓｉｓｔｉｖｅＲａｎｄｏｍ
ＡｃｃｅｓｓＭｅｍｏｒｙ）、ダイナミックランダムアクセスメモリＤＲＡＭ（Ｄｙｎ
ａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、スタティックランダムアクセ
スメモリＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ）、増強
動的ランダムアクセスメモリＥＤＲＡＭ（ＥｎｈａｎｃｅｄＤｙｎａｍｉｃＲａｎｄ
ｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、高帯域メモリＨＢＭ（Ｈｉｇｈ－Ｂａｎｄｗｉｄ
ｔｈＭｅｍｏｒｙ）、ハイビッドメモリキューブＨＭＣ（ＨｙｂｒｉｄＭｅｍｏｒｙ
Ｃｕｂｅ）などである。

本開示の内容をよりよく理解するために、以下にはまず、本発明の実施形態における量
子化過程および量子化過程に係る量子化パラメータについて説明する。

本開示の実施形態において、量子化とは、第１データフォーマットの演算データを第２
データフォーマットの演算データに変換することを意味する。ここで、この第１データフ
ォーマットの演算データは、浮動小数点表現の演算データであってもよく、この第２デー
タフォーマットの演算データは、固定小数点表現の演算データであってもよい。浮動小数
点表現の演算データは通常大きなメモリスペースを占有するため、浮動小数点表現の演算
データを固定小数点表現の演算データに変換することによって、メモリスペースを節約し
、演算データのアクセス効率および演算効率などを向上させることができる。

任意選択可能に、量子化過程における量子化パラメータは、小数点位置および／または
スケーリング係数を含むことができ、ここで、小数点位置とは、量子化された演算データ
における小数点の位置を指す。スケーリング係数とは、量子化データの最大値と量子化す
べきデータの絶対値の最大値との比であり、更に、量子化パラメータは、オフセットを含
んでいてもよい。オフセットは、非対称の量子化すべきデータにとっては、量子化すべき
データ内の複数の要素の中間値を指し、具体的には、オフセットは、量子化すべきデータ
内の複数の要素の中間点値とすることができる。量子化すべきデータが対称的な量子化す
べきデータである場合、量子化パラメータはオフセットを含まなくてもよい。このとき、
量子化すべきデータから固定小数点位置および／またはスケーリング係数などの量子化パ
ラメータを確定することができる。

プロセッサは、量子化すべきデータの絶対値の最大値Ｚ１およびデータビット幅ｎに基
づいて、小数点位置ｓを計算することができる。例えば、量子化すべきデータに対応する
小数点位置ｓは、以下の式（２）を用いて計算することができる。
ｓ＝ｃｅｉｌ（ｌｎ（Ｚ_１／（２^ｎ－１－１）））式（
２）

ここでは、ｃｅｉｌは切り上げであり、Ｚ_１は量子化すべきデータにおける絶対値の最
大値であり、ｓは小数点位置であり、ｎはデータビット幅である。

このとき、小数点位置ｓを用いて量子化すべきデータを量子化するとき、浮動小数点表
現の量子化すべきデータＦ_ｘはＦ_ｘ≒Ｉ_ｘ×２^ｓと表すことができ、ここでは、Ｉ_ｘとは
、量子化後のｎビットバイナリ表現値であり、ｓは小数点位置を表す。ここでは、この量
子化すべきデータに対応する量子化データは以下のとおりである。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／２^ｓ）式（３
）

ここでは、ｓは小数点位置であり、Ｉ_ｘは量子化データであり、Ｆ_ｘは量子化すべきデ
ータであり、ｒｏｕｎｄは四捨五入の丸め演算である。なお、他の丸め演算方法を用いて
もよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算を用いて、式（３）中の
四捨五入の丸め演算を代替することができる。なお、データビット幅が一定の場合、小数
点位置の量子化で得られた量子化データにおいて、小数点後のビットが多いほど、量子化
データの量子化精度が大きい。

更に、この量子化すべきデータに対応する中間表現データＦ_ｘ１は、以下のとおりであ
ってもよい。
Ｆ_ｘ１＝ｒｏｕｎｄ（Ｆ_ｘ／２^ｓ）ｘ２^ｓ式（４
）

ここでは、ｓは上記の式（２）で確定される小数点位置であり、Ｆ_ｘは量子化すべきデ
ータであり、ｒｏｕｎｄは四捨五入の丸め演算である。Ｆ_ｘ１は、上記の量子化データＩ
_ｘを逆量子化して得られたデータであり得る。この中間表現データＦ_ｘ１のデータ表現フ
ォーマットは上記の量子化すべきデータＦ_ｘのデータ表現フォーマットと一致し、この中
間表現データＦ_ｘ１は、量子化誤差の計算に利用でき、詳細は以下のとおりである。ここ
で、逆量子化とは、量子化の逆過程をいう。
あるいは、スケーリング係数は、第１スケーリング係数を含むことができ、第１スケー
リング係数は、以下のように計算されることができる。
ｆ_１＝Ｚ_１／Ａ＝Ｚ_１／２^ｓ（２^ｎ－１－１）式（５）

ここでは、Ｚ１は量子化すべきデータにおける絶対値の最大値であり、Ａはデータビッ
ト幅ｎで量子化すべきデータを量子化した後のデータの量子化データが表現可能な最大値
であり、Ａは２ ^ｓ（２ ^ｎ－１－１）である。

このとき、プロセッサは、小数点位置と第１スケーリング係数を組み合わせる方式で量
子化すべきデータＦ_ｘを量子化して、量子化データを得ることができる：
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／（２^ｓｘｆ_１））式（６）

ここでは、ｓは上記の式（２）で確定される小数点位置であり、ｆ_１は第１スケーリン
グ係数であり、Ｉ_ｘは量子化データであり、Ｆ_ｘは量子化すべきデータであり、ｒｏｕｎ
ｄは四捨五入の丸め演算である。なお、他の丸め演算方法を用いてもよく、例えば切り上
げ、切り捨て、ゼロへの丸め等の丸め演算を用いて、式（６）中の四捨五入の丸め演算を
代替することができる。

更に、この量子化すべきデータに対応する中間表現データＦ_ｘ１は、以下のとおりであ
ってもよい。
Ｆ_ｘ１＝ｒｏｕｎｄ（Ｆ_ｘ／（２^ｓｘｆ_１））ｘ２^ｓｘｆ_１式（７
）

ここでは、ｓは上記の式（２）で確定される小数点位置であり、ｆ_１はスケーリング係
数であり、Ｆ_ｘは量子化すべきデータであり、ｒｏｕｎｄは四捨五入の丸め演算である。
Ｆ_ｘ１は、上記の量子化データＩ_ｘを逆量子化して得られたデータであり得る。この中間
表現データＦ_ｘ１のデータ表現フォーマットは、上記の量子化すべきデータＦ_ｘのデータ
表現フォーマットと一致し、この中間表現データＦ_ｘ１は、量子化誤差の計算に利用でき
、詳細は以下のとおりである。ここで、逆量子化とは、量子化の逆過程をいう。

任意選択可能に、このスケーリング係数は第２スケーリング係数を含んでもよく、この
第２スケーリング係数は下式で計算することができる：
ｆ_２＝Ｚ_１／（２^ｎ－１－１）式（８）

プロセッサは、第２スケーリング係数のみを使用して、量子化すべきデータＦ_ｘを量子
化し、量子化データを得ることができる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／ｆ_２）式（９）

ここでは、ｆ_２は第２スケーリング係数であり、Ｉ_ｘは量子化データであり、Ｆ_ｘは量
子化すべきデータであり、ｒｏｕｎｄは四捨五入の丸め演算である。なお、他の丸め演算
方法を用いてもよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算を用いて、
式（９）中の四捨五入の丸め演算を代替することができる。なお、データビット幅が一定
の場合、異なるスケーリング係数を用いて、量子化後データの数値範囲を調整することが
できる。

更に、この量子化すべきデータに対応する中間表現データＦ_ｘ１は、以下のとおりであ
ってもよい。
Ｆ_ｘ１＝ｒｏｕｎｄ（Ｆ_ｘ／ｆ_２）ｘｆ_２式（１
０）

ここでは、ｆ_２は第２スケーリング係数であり、Ｆ_ｘは量子化すべきデータであり、ｒ
ｏｕｎｄは四捨五入の丸め演算である。Ｆ_ｘ１は、上記の量子化データＩ_ｘを逆量子化し
て得られたデータであり得る。この中間表現データＦ_ｘ１のデータ表現フォーマットは、
上記の量子化すべきデータＦ_ｘのデータ表現フォーマットと一致し、この中間表現データ
Ｆ_ｘ１は、量子化誤差の計算に利用でき、詳細は以下のとおりである。ここで、逆量子化
とは、量子化の逆過程をいう。

更に、上記第２スケーリング係数は、小数点位置と第１スケーリング係数ｆ_１によって
確定されてもよい。即ち、第２スケーリング係数は下式で計算できる：
ｆ_２＝２^ｓｆ_１式（１１
）

ここでは、ｓは上記の式（２）で確定される小数点位置であり、ｆ_１は上記の式（５）
で算出された第１スケーリング係数である。

あるいは、本発明の実施形態の量子化方法は、対称データの量子化だけでなく、非対称
データの量子化を実現することもできる。この場合、プロセッサは非対称データを対称デ
ータに変換して、データの「オーバーフロー」を回避することができる。具体的には、量
子化パラメータはオフセットを含んでいてもよい。このオフセットは、量子化すべきデー
タの中点値であってもよく、原点に対する量子化すべきデータの中点値のオフセットを表
すために使用されてもよい。図３－３に示すように、プロセッサは、量子化すべきデータ
のデータ分布を統計して、量子化すべきデータにおけるすべての要素中の最小値Ｚｍｉｎ
、量子化すべきデータにおける全ての要素中の最大値Ｚ_ｍａｘを得てから、プロセッサは
この最小値Ｚ_ｍｉｎと最大値Ｚ_ｍａｘによって上記オフセットを算出するようにしてもよ
い。具体的なオフセットの計算方式は以下のとおりである：
ｏ＝（Ｚ_ｍａｘ＋Ｚ_ｍｉｎ）／２式（１２）

ここでは、ｏはオフセットを表し、Ｚ_ｍｉｎは量子化すべきデータのすべての要素中の
最小値を表し、Ｚ_ｍａｘは量子化すべきデータのすべての要素中の最大値を表す。

更に、プロセッサは、この量子化すべきデータのすべての要素における最小値Ｚｍｉｎ
と最大値Ｚ_ｍａｘによって量子化すべきデータにおける絶対値の最大値Ｚ_２を確定するよ
うにしてもよい。
Ｚ_２＝（Ｚ_ｍａｘ－Ｚ_ｍｉｎ）／２式（１３）

このように、プロセッサは、オフセットｏによって量子化すべきデータを並行移動させ
て、非対称量子化すべきデータを対称の量子化すべきデータに変換することができ、図３
－３に示す。プロセッサはさらに、この量子化すべきデータ中の絶対値の最大値Ｚ_２によ
って小数点位置ｓを確定することができ、ここでは、小数点位置は以下の式で計算できる
：
ｓ＝ｃｅｉｌ（ｌｎ（Ｚ_２／（２^ｎ－１－１）））式（１４）

その後、プロセッサは、このオフセットおよびその対応する小数点位置によって量子化
すべきデータを量子化して、量子化データを得ることができる：
Ｉ_ｘ＝ｒｏｕｎｄ（（Ｆ_ｘ－ｏ）／２^ｓ）式（１５）

ここでは、ｓは小数点位置であり、ｏはオフセットであり、Ｉ_ｘは量子化データであり
、Ｆ_ｘは量子化すべきデータであり、ｒｏｕｎｄは四捨五入の丸め演算である。なお、他
の丸め演算方法を用いてもよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算
を用いて、式（１５）中の四捨五入の丸め演算を代替することができる。

更に、この量子化すべきデータに対応する中間表現データＦ_ｘ１は、以下のとおりであ
ってもよい。
Ｆ_ｘ１＝ｒｏｕｎｄ（（Ｆ_ｘ－ｏ）／２^ｓ）ｘ２^ｓ＋ｏ式（１６）

ここでは、ｓは上記の式（１４）で確定される小数点位置であり、ｏはオフセットであ
り、Ｆ_ｘは量子化すべきデータであり、ｒｏｕｎｄは四捨五入の丸め演算である。Ｆ_ｘ１
は、上記の量子化データＩ_ｘを逆量子化して得られたデータであり得る。この中間表現デ
ータＦ_ｘ１のデータ表現フォーマットは、上記の量子化すべきデータＦ_ｘのデータ表現フ
ォーマットと一致し、この中間表現データＦ_ｘ１は、量子化誤差の計算に利用でき、詳細
は以下のとおりである。ここで、逆量子化とは、量子化の逆過程をいう。

さらに任意選択可能に、プロセッサは、この量子化すべきデータ中の絶対値の最大値Ｚ
_２によって小数点位置ｓと第１スケーリング係数ｆ_１を確定することができ、ここでは、
小数点位置ｓの具体的な計算方式は上記の式（１４）を参照できる。即ち、第１スケーリ
ング係数ｆ_１は、下式で計算できる：
ｆ_１＝Ｚ_２／Ａ＝Ｚ_２／（２^ｓ（２^ｎ－１－１））式（１７）

プロセッサは、オフセットおよびそれに対応する第１スケーリング係数ｆ_１と小数点位
置ｓに基づいて、量子化すべきデータを量子化して、量子化データを得るようにしてもよ
い：
Ｉ_ｘ＝ｒｏｕｎｄ（（Ｆ_ｘ－ｏ）／（２^ｓｘｆ_１））式（１８）

ここでは、ｆ_１は第１スケーリング係数であり、ｓは上記の式（１４）で確定される小
数点位置であり、ｏはオフセットであり、Ｉ_ｘは量子化データであり、Ｆ_ｘは量子化すべ
きデータであり、ｒｏｕｎｄは四捨五入の丸め演算である。なお、他の丸め演算方法を用
いてもよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算を用いて、式（１８
）中の四捨五入の丸め演算を代替することができる。

更に、この量子化すべきデータに対応する中間表現データＦ_ｘ１は、以下のとおりであ
ってもよい。
Ｆ_ｘ１＝ｒｏｕｎｄ（（Ｆ_ｘ－ｏ）／（２^ｓｘｆ_１））ｘ２^ｓｘｆ_１＋ｏ
式（１９）

ここでは、ｆ_１は第１スケーリング係数であり、ｓは上記の式（１４）で確定される小
数点位置であり、ｏはオフセットであり、Ｆ_ｘは量子化すべきデータであり、ｒｏｕｎｄ
は四捨五入の丸め演算である。Ｆ_ｘ１は、上記の量子化データＩ_ｘを逆量子化して得られ
たデータであり得る。この中間表現データＦ_ｘ１のデータ表現フォーマットは、上記の量
子化すべきデータＦ_ｘのデータ表現フォーマットと一致し、この中間表現データＦ_ｘ１は
、量子化誤差の計算に利用でき、詳細は以下のとおりである。ここで、逆量子化とは、量
子化の逆過程をいう。

任意選択可能に、このスケーリング係数は第２スケーリング係数を含んでもよく、この
第２スケーリング係数は下式で計算することができる：
ｆ_２＝Ｚ_２／（２^ｎ－１－１）式（２０）

プロセッサは、第２スケーリング係数のみを使用して、量子化すべきデータＦ_ｘを量子
化し、量子化データを得ることができる。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ／ｆ_２）式（２
１）

ここでは、ｆ_２は第２スケーリング係数であり、Ｉ_ｘは量子化データであり、Ｆ_ｘは量
子化すべきデータであり、ｒｏｕｎｄは四捨五入の丸め演算である。なお、他の丸め演算
方法を用いてもよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算を用いて、
式（２１）中の四捨五入の丸め演算を代替することができる。なお、データビット幅が一
定の場合、異なるスケーリング係数を用いて、量子化後データの数値範囲を調整すること
ができる。

更に、この量子化すべきデータに対応する中間表現データＦ_ｘ１は、以下のとおりであ
ってもよい。
Ｆ_ｘ１＝ｒｏｕｎｄ（Ｆ_ｘ／ｆ_２）ｘｆ_２式（２２
）

ここでは、ｆ_２は第２スケーリング係数であり、Ｆ_ｘは量子化すべきデータであり、ｒ
ｏｕｎｄは四捨五入の丸め演算である。Ｆ_ｘ１は上記の量子化データＩ_ｘを逆量子化して
得られたデータであり得る。この中間表現データＦ_ｘ１のデータ表現フォーマットは、上
記の量子化すべきデータＦ_ｘのデータ表現フォーマットと一致し、この中間表現データＦ
_ｘ１は、量子化誤差の計算に利用でき、詳細は以下のとおりである。ここで、逆量子化と
は、量子化の逆過程をいう。

更に、上記の第２スケーリング係数は、小数点位置と第１スケーリング係数ｆ_１によっ
て確定されてもよい。即ち、第２スケーリング係数は下式で計算できる：
ｆ_２＝２^ｓｘｆ_１式（２３）

ここでは、ｓは上記の式（１４）で確定される小数点位置であり、ｆ_１は上記の式（１
７）で算出された第１スケーリング係数である。

任意選択可能に、プロセッサは、オフセットｏに基づいて量子化すべきデータを量子化
してもよく、この場合、小数点位置ｓおよび／またはスケーリング係数は、予め設定され
た値であってもよい。この場合、プロセッサはオフセットに基づいて量子化すべきデータ
を量子化して、量子化データを得る。
Ｉ_ｘ＝ｒｏｕｎｄ（Ｆ_ｘ－ｏ）式（２４）

ここでは、ｏはオフセットであり、Ｉ_ｘは量子化データであり、Ｆ_ｘは量子化すべきデ
ータであり、ｒｏｕｎｄは四捨五入の丸め演算である。なお、他の丸め演算方法を用いて
もよく、例えば切り上げ、切り捨て、ゼロへの丸め等の丸め演算を用いて、式（２４）中
の四捨五入の丸め演算を代替することができる。なお、データビット幅が一定の場合、異
なるオフセットを用いて、量子化後データの数値と量子化前データとのオフセットを調整
することができる。

更に、この量子化すべきデータに対応する中間表現データＦ_ｘ１は、以下のとおりであ
ってもよい。
Ｆ_ｘ１＝ｒｏｕｎｄ（Ｆ_ｘ－ｏ）＋ｏ式（２５）

ここでは、ｏはオフセットであり、Ｆ_ｘは量子化データであり、ｒｏｕｎｄは四捨五入
の丸め演算である。Ｆ_ｘ１は、上記の量子化データＩ_ｘを逆量子化して得られたデータで
あり得る。この中間表現データＦ_ｘ１のデータ表現フォーマットは、上記の量子化すべき
データＦ _ｘのデータ表現フォーマットと一致し、この中間表現データＦ_ｘ１は、量子化誤
差の計算に利用でき、詳細は以下のとおりである。ここで、逆量子化とは、量子化の逆過
程をいう。

本開示の量子化操作は、上述した浮動小数点データの量子化だけでなく、固定小数点デ
ータの量子化を実現するためにも使用することができる。任意選択可能に、この第１デー
タフォーマットの演算データは、固定小数点表現の演算データであってもよく、この第２
データフォーマットの演算データは、固定小数点表現の演算データであってもよい。また
、第２データフォーマットの演算データのデータ表現範囲は、第１データフォーマットの
データ表現範囲よりも小さく、第２データフォーマットの小数点ビット数は第１データフ
ォーマットの小数点ビット数より大きく、すなわち、第２データフォーマットの演算デー
タは第１データ形式の演算データよりも精度が高い。例えば、この第１データフォーマッ
トの演算データは、１６ビットを占める固定小数点データであり、この第２データフォー
マットは、８ビットを占める固定小数点データであってもよい。本開示の実施形態では、
固定小数点表現の演算データによって量子化処理を行うことができ、それによって演算デ
ータが占めるメモリスペースをさらに減少させ、演算データのアクセス効率および演算効
率を向上させる。

本開示の一実施形態の量子化パラメータ調整方法は、ニューラルネットワークのトレー
ニングまたは微調整過程に応用することができ、それによってニューラルネットワークの
トレーニングまたは微調整過程において、ニューラルネットワークの演算過程における演
算データの量子化パラメータを動的に調整し、それによって前記ニューラルネットワーク
の量子化精度を向上させる。ここで、ニューラルネットワークは、ディープニューラルネ
ットワークや畳み込みニューラルネットワーク等であってもよく、特に限定されるもので
はない。

なお、ニューラルネットワークのトレーニング（Ｔｒａｉｎｉｎｇ）とは、ニューラル
ネットワーク（そのニューラルネットワークの重みは乱数とすることができる）に対して
複数回の反復演算（ｉｔｅｒａｔｉｏｎ）を行って、ニューラルネットワークの重みがプ
リセット条件を満たすようにする過程である。ここでは、１回の反復演算には、一般的に
、１回の順方向演算、１回の逆方向演算、および１回の重み更新演算が含まれる。順方向
演算とは、ニューラルネットワークの入力データから順方向推理を行い、順方向演算の結
果を得る過程である。逆方向演算とは、順方向の演算結果と予め設定された参照値に基づ
いて損失値を確定し、その損失値に基づいて重み勾配値を確定したり、データ勾配値を入
力したりする過程である。重み更新演算とは、重み勾配値に基づいてニューラルネットワ
ークの重みを調整する過程である。具体的には、ニューラルネットワークのトレーニング
過程は以下のとおりである。プロセッサは、重みを乱数とするニューラルネットワークを
用いて入力データに対して順方向演算を行って、順方向演算結果を得ることができる。そ
の後、プロセッサは、この順方向演算結果と予め設定された参照値に基づいて損失値を確
定し、その損失値に基づいて重み勾配値および／または入力データ勾配値を確定する。最
後に、プロセッサは、重み勾配値に基づいてニューラルネットワークの勾配値を更新し、
新たな重み値を取得し、１回の反復演算を完了することができる。プロセッサは、ニュー
ラルネットワークの順方向演算の結果が予め設定された条件を満たすまで、複数の反復演
算を循環して実行する。たとえば、ニューラルネットワークの順方向演算結果が予め設定
された参照値に収束した場合、トレーニングを終了する。あるいは、ニューラルネットワ
ークの順方向演算結果と予め設定された参考値により確定された損失値が予め設定された
精度以下である場合、トレーニングを終了する。

微調整とは、ニューラルネットワークの精度が予め設定された需要を満たすことができ
るように、ニューラルネットワーク（このニューラルネットワークの重みは乱数ではなく
収束状態にある）に複数回の反復演算を実行する過程である。この微調整過程は、上記の
トレーニング過程とほぼ一致しており、収束状態にあるニューラルネットワークを再トレ
ーニングする過程であると考えられる。推理（Ｉｎｆｅｒｅｎｃｅ）とは、重みが予め設
定された条件を満たすニューラルネットワークを用いて順方向演算を行って、認識や分類
などの機能を実現する過程であり、例えば、ニューラルネットワークを用いて画像認識な
どを実行する。

本開示の実施形態では、上述したニューラルネットワークのトレーニングや微調整の過
程において、ニューラルネットワーク演算の異なる段階で異なる量子化パラメータを用い
てニューラルネットワークの演算データを量子化し、量子化したデータに基づいて反復演
算を行うことで、ニューラルネットワークの演算過程におけるデータストレージスペース
を減少させ、データアクセス効率および演算効率を向上させることができる。図３－４に
示すように、上記の方法は以下のステップを含むことができる。

Ｓ１００では、量子化すべきデータのデータ変動幅を取得する。

任意選択可能に、プロセッサは、この量子化すべきデータのデータ変動幅を直接読み取
ることができ、この量子化すべきデータのデータ変動幅は、ユーザが入力するものであっ
てもよい。

任意選択可能に、プロセッサは、現在反復の量子化すべきデータおよび履歴反復の量子
化すべきデータに基づいて、計算により、上記の量子化すべきデータのデータの変動幅を
得ることができ、ここでは、現在反復は、現在実行されている反復演算であり、履歴反復
は、現在反復の前に実行される反復演算である。たとえば、プロセッサは、現在反復の量
子化すべきデータにおける要素の最大値と要素の平均値、および各履歴反復の量子化すべ
きデータ内の要素の最大値と要素の平均値を取得し、各反復の要素の最大値と要素の平均
値に基づいて、量子化すべきデータのデータ変動幅を確定することができる。現在反復の
量子化すべきデータにおける要素の最大値が、プリセット数の履歴反復の量子化すべきデ
ータにおける要素の最大値に近く、かつ、現在反復の量子化すべきデータにおける要素の
平均値が、プリセット数の履歴反復の量子化すべきデータにおける要素の平均値に近い場
合、上述した量子化すべきデータのデータ変動幅が小さいと判定できる。そうでなければ
、量子化すべきデータのデータ変動幅が大きいと判定できる。また、この量子化すべきデ
ータのデータ変動幅は、量子化すべきデータのスライディング平均値や分散などで表すこ
とができるが、ここでは具体的には限定しない。

本開示の実施形態では、この量子化すべきデータのデータ変動幅は、量子化すべきデー
タの量子化パラメータを調整する必要があるか否かを判断するために利用することができ
る。例えば、量子化すべきデータのデータ変動幅が大きい場合、量子化の精度を保証する
ために、量子化パラメータをタイムリーに調整する必要があることを説明することができ
る。量子化すべきデータのデータ変動幅が小さい場合、現在検証反復とその後の一定数量
の反復は履歴反復の量子化パラメータを引き続き使用することができ、それによって頻繁
に量子化パラメータを調整することを避け、量子化効率を高めることができる。

ここでは、各反復には少なくとも１つの量子化すべきデータが含まれ、この量子化すべ
きデータは、浮動小数点で表される演算データであってもよいし、固定小数点で表される
演算データであってもよい。任意選択可能に、各反復の量子化すべきデータは、ニューロ
ンデータ、重みデータ、または勾配データのうちの少なくとも１つであってもよい。また
、勾配データは、ニューロン勾配データおよび重み勾配データ等を含んでもよい。

Ｓ２００では、前記量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確
定することで、この目標反復間隔に基づいて、ニューラルネットワーク演算における量子
化パラメータを調整し、ここでは、前記目標反復間隔は、少なくとも１回の反復を含み、
前記ニューラルネットワークの量子化パラメータは、前記ニューラルネットワークの演算
における量子化すべきデータに対する量子化動作を実現するためのものである。

任意選択可能に、この量子化パラメータは、上述した小数点位置および／またはスケー
リング係数を含むことができ、ここで、スケーリング係数は、第１スケーリング係数と第
２スケーリング係数を含むことができる。具体的な小数点位置の計算方法、スケール係数
の計算方法は上記の式（２）を参照でき、スケーリング係数の計算方法は上記の式（５）
または（８）を参照でき、ここでは説明しない。任意選択可能に、この量子化パラメータ
は、上述した式（１２）を参照することができるオフセットを含むことができる。さらに
、プロセッサは、式（１４）によって小数点位置を確定し、上記の式（１７）または（２
０）によってスケーリング係数を確定するようにしてもよい。本開示の実施形態では、プ
ロセッサは、確定された目標反復間隔に基づいて、上記の小数点位置、スケーリング係数
、またはオフセットの少なくとも１つを更新して、このニューラルネットワーク演算にお
ける量子化パラメータを調整することができる。すなわち、このニューラルネットワーク
演算における量子化パラメータは、ニューラルネットワーク演算における量子化すべきデ
ータのデータ変動幅に応じて更新することができる。これにより、量子化の精度を保証で
きる。

ニューラルネットワークのトレーニングや微調整における演算データの変化傾向を統計
し分析することで、量子化すべきデータのデータ変動曲線を得ることができることが理解
できる。図３－５に示すように、このデータの変動曲線８００Ｌからもわかるように、ニ
ューラルネットワークのトレーニングまたは微調整の初期において、異なる反復の量子化
すべきデータのデータの変動は激しく、トレーニング或いは微調整の演算の進行に従って
、異なる反復の量子化すべきデータのデータ変動は徐々に緩やかになっている。そこで、
ニューラルネットのトレーニングや微調整の初期には、量子化パラメータを頻繁に調整す
ることができる。ニューラルネットワークのトレーニングまたは微調整の中期と後期にお
いて、複数回の反復またはトレーニング周期おきに、量子化パラメーターを調整すること
ができる。本開示の方法は、適切な反復間隔を確定することにより、量子化精度と量子化
効率のバランスをとるものである。

具体的には、プロセッサは、量子化すべきデータのデータ変動幅から、目標反復間隔を
確定し、この目標反復間隔に基づいてニューラルネットワークの演算における量子化パラ
メータを調整することができる。任意選択可能に、この目標反復間隔は、量子化すべきデ
ータのデータ変動幅が小さくなるに伴って増加することができる。すなわち、この量子化
すべきデータのデータ変動幅が大きければ大きいほど、この目標反復間隔が小さく、量子
化パラメータの調整が頻繁であることを示す。この量子化すべきデータのデータ変動幅が
小さければ小さいほど、この目標反復間隔が大きく、量子化パラメータの調整が頻繁でな
いことを示す。もちろん、他の実施形態では、上記の目標反復間隔はハイパーパラメータ
であってもよく、例えば、この目標反復間隔は、ユーザがカスタマイズして設定してもよ
い。

任意選択可能に、上記の重みデータ、ニューロンデータおよび勾配データ等の各種の量
子化すべきデータがそれぞれ異なる反復間隔を有することができる。これに応じて、プロ
セッサは、各種の量子化すべきデータに対応するデータの変動幅をそれぞれ取得すること
ができ、これによって、それぞれの量子化すべきデータのデータ変動幅に応じて、対応す
る種類の量子化すべきデータに対応する目標反復間隔を確定する。すなわち、各種の量子
化すべきデータの量子化過程は非同期に行うことができる。本開示の実施形態によれば、
異なる種類の量子化すべきデータの間に差があるので、異なる量子化すべきデータのデー
タ変動幅を用いて、対応する目標反復間隔を確定することができる。そして、対応する目
標反復間隔に基づいて対応する量子化パラメータを確定し、それによって、量子化すべき
データの量子化の精度を保証でき、さらにニューラルネットワークの演算結果の正確性を
保証できる。

もちろん、他の実施形態では、異なる種類の量子化すべきデータに対して、同じ目標反
復間隔を確定して、この目標反復間隔に応じて対応する量子化すべきデータに対応する量
子化パラメータを調整することもできる。例えば、プロセッサは、各種の量子化すべきデ
ータのデータ変動幅をそれぞれ取得し、最大の量子化すべきデータのデータ変動幅に基づ
いて目標反復間隔を確定し、この目標反復間隔に基づいて各種の量子化すべきデータの量
子化パラメータを確定することができる。更に、異なる種類の量子化すべきデータは、同
じ量子化パラメータを用いることもできる。

さらに任意選択可能に、上記のニューラルネットワークは、少なくとも１つの演算層を
含むことができ、この量子化すべきデータは、各演算層に係るニューロンデータ、重みデ
ータ、または勾配データのうちの少なくとも１つであってもよい。このとき、プロセッサ
は、現在の演算層に係る量子化すべきデータを取得し、上記の方法により現在の演算層に
おける各種の量子化すべきデータのデータ変動幅および対応する目標反復間隔を確定する
ことができる。

任意選択可能に、プロセッサは、各反復演算過程においていずれも、上述した量子化す
べきデータのデータ変動幅を一度確定し、対応する量子化すべきデータのデータ変動幅に
基づいて、一回の目標反復間隔を確定することができる。つまり、プロセッサは、各反復
ごとに目標反復間隔を１回計算できる。具体的な目標反復間隔の計算方法については、以
下の説明を参照できる。更に、プロセッサは、プリセットされた条件に基づいて、各反復
から検証反復を選択し、各検証反復において量子化すべきデータのデータ変動幅を確定し
、検証反復に対応する目標反復間隔に基づいて量子化パラメータ等を更新し調整すること
ができる。このとき、この反復が選択された検証反復でない場合、プロセッサはこの反復
に対応する目標反復の間隔を無視できる。

任意選択可能に、各目標反復間隔は１つの検証反復に対応することができ、この検証反
復は、この目標反復間隔の開始反復であってもよいし、この目標反復間隔の終了反復であ
ってもよい。プロセッサは、各目標反復間隔の検証反復においてニューラルネットワーク
の量子化パラメータを調整して、目標反復間隔に応じてニューラルネットワーク演算の量
子化パラメータを調整することができる。ここで、検証反復は、現在の量子化パラメータ
が、量子化すべきデータの需要を満たしているかどうかを調べるための時点であってもよ
い。この調整前量子化パラメータは、調整後の量子化パラメータと同じであってもよいし
、調整後の量子化パラメータと異なっていてもよい。任意選択可能に、隣接する検証反復
間の間隔は、目標反復の間隔以上であってもよい。

たとえば、この目標反復間隔は、現在検証反復から反復の数を計算してもよい。この現
在検証反復は、この目標反復間隔の開始反復であってもよい。例えば、現在検証反復は１
００回目の反復であり、プロセッサは、量子化すべきデータのデータ変動幅に基づいて、
目標反復間隔の反復間隔を３と確定すると、プロセッサは、この目標反復間隔に、１００
回目の反復、１０１回目の反復、１０２回目の反復の３回の反復を含むことができる。プ
ロセッサはこの１００回目の反復においてニューラルネットワーク演算における量子化パ
ラメータを調整することができる。ここでは、現在検証反復は、プロセッサが現在量子化
パラメータの更新調整を行っているときの対応する反復演算である。

任意選択可能に、目標反復間隔は、現在検証反復の次の反復から反復数を計算してもよ
く、この現在検証反復は、現在検証反復の一つ前の反復間隔の終了反復であってもよい。
例えば、現在検証反復は１００回目の反復であり、プロセッサは、量子化すべきデータの
データ変動幅に基づいて、目標反復間隔の反復間隔を３と確定すると、プロセッサは、こ
の目標反復間隔に、１０１回目の反復、１０２回目の反復、１０３回目の反復の３回の反
復を含むことができる。プロセッサは、この１００回目の反復と１０３回目の反復におい
てニューラルネットワーク演算における量子化パラメータを調整することができる。本開
示は、目標反復間隔の確定方式を具体的に限定しない。

一実施形態において、上述した小数点位置、スケーリング要素、およびオフセットの計
算式から分かるように、量子化パラメータは、量子化すべきデータに関連していることが
多い。したがって、上述した動作Ｓ１００では、量子化すべきデータのデータ変動幅は量
子化パラメータの変動幅によって間接的に確定されてもよい。この量子化すべきデータの
データ変動幅は、量子化パラメータの変動幅によって表される。具体的には、図３－６に
示すように、上記操作Ｓ１００は以下を含んでもよい。

任意選択可能に、小数点位置の変動幅は、量子化すべきデータのデータ変動幅を間接的
に反映することができる。この小数点位置の変動幅は、現在検証反復の小数点位置と少な
くとも１回の履歴反復の小数点位置に基づいて確定するものであってもよい。ここで、現
在検証反復の小数点位置および各回の履歴反復の小数点位置は、上述した式によって確定
することができる。ここで、現在検証反復の小数点位置および各回の履歴反復の小数点位
置は、上述した式によって確定することができる。

例えば、プロセッサは、現在検証反復の小数点位置や履歴反復の小数点位置の分散など
を計算し、その分散に基づいて小数点位置の変動幅を確定することもできる。また、プロ
セッサは、現在検証反復の小数点位置と履歴反復の小数点位置の平均値から、小数点位置
の変動幅を確定することができる。具体的には、図３－７に示すように、上記操作Ｓ１１
０は、以下を含んでもよい。

Ｓ１１１では、現在検証反復の１つ前の検証反復に対応する小数点位置と、前記前の検
証反復の前の履歴反復に対応する小数点位置とに基づいて、第１平均値を確定する。ここ
では、前の検証反復は、前記量子化パラメータを前回調整したときの対応する反復であり
、前の検証反復と前記現在検証反復の間の間隔は少なくとも１つの反復の間隔である。

任意選択可能に、この第１平均値は次の式で計算される。
Ｍ１＝ａ１ｘｓ^ｔ－１＋ａ２ｘｓ^ｔ－２＋ａ３ｘｓ^ｔ－３＋．．．＋ａｍｘｓ^１
式（２６）

ここでは、ａ１～ａｍは各反復の小数点位置に対応する計算重みであり、ｓ^ｔ－１は前
の検証反復に対応する小数点位置であり、ｓ^ｔ－２、ｓ^ｔ－３．．．ｓ ^１は、前の検証反
復の前の履歴反復に対応する小数点位置であり、Ｍ１は上記の第１平均値である。更に、
データの分布特性によれば、履歴反復とこの前の反復との距離が遠ければ遠いほど、この
前の反復に近い反復の小数点位置の分布および変動幅への影響が小さくなるので、上記の
計算重みはａ１～ａｍの順に減少させることができる。

例えば、前の検証反復はニューラルネットワーク演算の１００回目の反復であり、履歴
反復は１回目の反復～９９回目の反復であり得る場合、プロセッサはこの１００回目の反
復の小数点位置（即ちｓ^ｔ－１）を得ることができ、この１００回目の反復の前の履歴反
復の小数点位置、即ちｓ ^１を得ることができ、ニューラルネットワークの１回目の反復に
対応する小数点位置……であり得て、ｓ^ｔ－３はニューラルネットワークの９８回目の反
復に対応する小数点位置であり得て、ｓ ^ｔ－２はニューラルネットワークの９９回目の反
復に対応する小数点位置であり得る。さらに、プロセッサは上記の式で計算して第１平均
値を得ることができる。

更に、この第１平均値は、各反復間隔に対応する検証反復の小数点位置から算出するこ
とができる。たとえば、この第１平均値は次の式で計算できる。
Ｍ１＝ａ１ｘｓ^ｔ－１＋ａ２ｘｓ^ｔ－２＋ａ３ｘｓ^ｔ－３＋．．．＋ａｍｘｓ
^１

ここでは、ａ１～ａｍは、各検証反復の小数点位置に対応する計算重みであり、ｓ^ｔ－
^１は、前の検証反復に対応する小数点位置であり、ｓ^ｔ－２、ｓ^ｔ－３．．．ｓ^１は、前
の検証反復の前のプリセット数量の反復間隔の検証反復に対応する小数点位置であり、Ｍ
１は上記の第１平均値である。

たとえば、前の検証反復はニューラルネットワーク演算の１００回目の反復であり、履
歴反復は１回目から９９回目までの反復であり、この９９回の反復は１１反復間隔に分割
して属することができる。たとえば、１回目の反復から９回目の反復は１番目の反復間隔
に属し、１０回目の反復から１８回目の反復は２番目の反復間隔に属し……、９０回目か
ら９９回目は１１反復間隔に属する。すると、プロセッサはこの１００回目の反復の小数
点位置（即ちｓ^ｔ－１）を得ることができ、かつこの１００回目の反復の前の反復間隔に
おける検証反復の小数点位置を得ることができ、即ちｓ ^１はニューラルネットワークの１
番目の反復間隔の検証反復に対応する小数点位置であり得て（例えば、ｓ^１はニューラル
ネットワークの１回目の反復に対応する小数点位置）、……、ｓ^ｔ－３はニューラルネッ
トワークの１０番目の反復間隔の検証反復に対応する小数点位置であり得て（例えば、ｓ
^ｔ－３はニューラルネットワークの８１回目の反復に対応する小数点位置であり得て）、
ｓ^ｔ－２はニューラルネットワークの１１番目の反復間隔の検証反復に対応する小数点位
置であり得る（例えば、ｓ^ｔ－２は、ニューラルネットワークの９０回目の反復に対応す
る小数点位置であり得る）。更に、プロセッサは、上式の計算により第１平均値Ｍ１を得
ることができる。

さらに、計算をさらに単純化し、データが占めるストレージスペースを削減するために
、上記の第１平均値Ｍ１は、以下の式によって計算できる。
Ｍ１＝αｘｓ^ｔ－１＋（１－α）ｘＭ０式（２７）

Ｓ１１２では、現在検証反復に対応する小数点位置と、前記現在検証反復の前の履歴反
復の小数点位置とに基づいて第２平均値を確定する。ここで、現在検証反復に対応する小
数点位置は、現在検証反復の目標データビット幅および量子化すべきデータに基づいて確
定することができる。

任意選択可能に、この第２平均値Ｍ２は、次の式で計算できる。
Ｍ２＝ｂ１ｘｓ^ｔ＋ｂ２ｘｓ^ｔ－１＋ｂ３ｘｓ^ｔ－２＋．．．＋ｂｍｘｓ^１式（２
８）

ここでは、ｂ１～ｂｍは各反復の小数点位置に対応する計算重みであり、ｓ^ｔは現在検
証反復に対応する小数点位置であり、ｓ^ｔ－１、ｓ^ｔ－２．．．ｓ^１は現在検証反復の前
の履歴反復に対応する小数点位置であり、Ｍ２は上記の第２平均値である。更に、データ
の分布特性によれば、履歴反復とこの現在反復との距離が遠ければ遠いほど、この現在反
復に近い反復の小数点位置の分布および変動幅への影響が小さくなるので、上記計算重み
はｂ１～ｂｍの順に減少させることができる。

たとえば、現在検証反復はニューラルネットワーク演算の１０１回目の反復であり、こ
の現在検証反復の前の履歴反復は１回目の反復から１００回目の反復を指す。すると、プ
ロセッサはこの１０１回目の反復の小数点位置を得ることができ（即ちｓ ^ｔ）、かつこの
１０１回目の反復の前の履歴反復の小数点位置を得ることができ、即ちｓ^１は、ニューラ
ルネットワークの第１回目の反復に対応する小数点位置であり得て……、ｓ^ｔ－２は、ニ
ューラルネットワークの９９回目の反復に対応する小数点位置であり得て、ｓ^ｔ－１は、
ニューラルネットワークの１００回目の反復に対応する小数点位置であり得る。更に、プ
ロセッサは、上式の計算により第２平均値Ｍ２を得ることができる。

任意選択可能に、この第２平均値は、各反復間隔に対応する検証反復の小数点位置から
算出することができる。具体的には、図３－８に示すように、上記操作Ｓ１１２は、以下
を含んでもよい。

Ｓ１１２１では、プリセット数の中間スライディング平均値を取得し、ここで、各前記
中間スライディング平均値は、前記現在検証反復の前の前記プリセット数の検証反復に基
づいて確定され、前記検証反復は、前記ニューラルネットワーク量子化過程におけるパラ
メータを調整する際に対応する反復である。

Ｓ１１２２では、前記現在検証反復の小数点位置および前記プリセット数の中間スライ
ディング平均値に基づいて前記第２平均値を確定する。

ここでは、ｂ１～ｂｍは各回の反復の小数点位置に対応する計算重みであり、ｓ^ｔは現
在検証反復に対応する小数点位置であり、ｓ^ｔ－１、ｓ^ｔ－２．．．ｓ^１は、現在検証反
復の前の検証反復に対応する小数点位置であり、Ｍ２は上記の第２平均値である。

たとえば、現在検証反復は１００回目の反復であり、履歴反復は１回目から９９回目ま
での反復であり、この９９回の反復は１１反復間隔に分割して属することができる。たと
えば、１回目の反復から９回目の反復は１番目の反復間隔に属し、１０回目の反復から１
８回目の反復は２番目の反復間隔に属し……、９０回目から９９回目は１１番目の反復間
隔に属する。すると、プロセッサはこの１００回目の反復の小数点位置（即ちｓ^ｔ）を得
ることができ、かつこの１００回目の反復の前の反復間隔における検証反復の小数点位置
を得ることができ、即ちｓ^１はニューラルネットワークの１番目の反復間隔の検証反復に
対応する小数点位置であり得て（例えば、ｓ^１はニューラルネットワークの１回目の反復
に対応する小数点位置）、……、ｓ^ｔ－２はニューラルネットワークの１０番目の反復間
隔の検証反復に対応する小数点位置であり得て（例えば、ｓ^ｔ－２はニューラルネットワ
ークの８１回目の反復に対応する小数点位置であり得て）、ｓ^ｔ－１はニューラルネット
ワークの１１番目の反復間隔の検証反復に対応する小数点位置であり得る（例えば、ｓ^ｔ
^－１は、ニューラルネットワークの９０回目の反復に対応する小数点位置であり得る）。
更に、プロセッサは、上式の計算により第２平均値Ｍ２を得ることができる。

更に、計算を簡単にし、データが占めるストレージスペースを削減するために、プロセ
ッサは、前記現在検証反復に対応する小数点位置および第１平均値に基づいて、前記第２
平均値を確定することができ、すなわち、前記第２平均値は次の式を用いて計算すること
ができる。
Ｍ２＝βｘｓ^ｔ＋（１－β）ｘＭ１式（２９）

Ｓ１１３では、前記第１平均値および前記第２平均値に基づいて第１誤差を確定し、前
記第１誤差は、前記現在検証反復および前記履歴反復の小数点位置の変動幅を表すために
用いられる。

任意選択可能に、第１誤差は、第２平均値と上記の第１平均値との差の絶対値に等しく
することができる。具体的には、上記の第１誤差は、以下の式により算出することができ
る。
ｄｉｆｆ_{ｕｐｄａｔｅ１}＝｜Ｍ２－Ｍ１｜＝β｜ｓ^（ｔ）－Ｍ１｜式（
３０）

任意選択可能に、上述した現在検証反復の小数点位置は、現在検証反復の量子化すべき
データと、現在検証反復に対応する目標データビット幅とに基づいて確定することができ
、具体的な小数点位置の計算方法については、上記の式（２）または式（１４）を参照す
ることができる。ここで、上記現在検証反復に対応する目標データビット幅は、ハイパー
パラメータであってもよい。さらに任意選択可能に、この現在検証反復に対応する目標デ
ータビット幅は、ユーザがカスタマイズして入力することができる。任意選択可能に、ニ
ューラルネットワークのトレーニングまたは微調整における量子化すべきデータに対応す
るデータビット幅は一定であってもよい。すなわち、同一のニューラルネットワークの同
じ種類量子化すべきデータは、同じデータビット幅を用いて量子化される。例えば、この
ニューラルネットワークの各反復におけるニューロンデータは、いずれも８ビットのデー
タビット幅を用いて量子化する。

任意選択可能に、ニューラルネットワークのトレーニングまたは微調整過程における量
子化すべきデータに対応するデータビット幅は可変とし、これにより、データビット幅が
量子化すべきデータの量子化需要を満たせることを保証する。つまり、プロセッサは、量
子化すべきデータに応じて、この量子化すべきデータに対応するデータビット幅を適応的
に調整し、この量子化すべきデータに対応する目標データビット幅を得ることができる。
具体的には、プロセッサは、まず、現在検証反復に対応する目標データのビット幅を確定
することができ、その後、プロセッサは、この現在検証反復に対応する目標データビット
幅およびこの現在検証反復に対応する量子化すべきデータに基づいて、現在検証反復に対
応する小数点位置を確定することができる。

具体的には、図３－９に示すように、上記操作Ｓ１１０は、以下を含んでもよい。

Ｓ１１４では、前記現在検証反復の量子化すべきデータと前記現在検証反復の量子化デ
ータとに基づいて量子化誤差を確定する。ここで、前記現在検証反復の量子化データは、
前記現在検証反復の量子化すべきデータを量子化することによって得られる。

任意選択可能に、前記プロセッサは、量子化すべきデータを初期データビット幅で量子
化して、前記量子化データを得ることができる。この現在検証反復の初期データビット幅
は、ハイパーパラメータであってもよく、この現在検証反復の初期データビット幅は、こ
の現在検証反復の１つ前の検証反復の量子化すべきデータに基づいて確定されてもよい。

具体的には、プロセッサは、現在検証反復の量子化すべきデータと現在検証反復の量子
化データとに基づいて、中間表現データを確定することができる。任意選択可能に、前記
中間表現データは、前記量子化すべきデータの表現フォーマットと一致する。例えば、プ
ロセッサは上述した量子化すべきデータを逆量子化して、量子化すべきデータの表現フォ
ーマットと一致する中間表現データを得ることができ、ここで、逆量子化とは、量子化の
逆過程を指す。例えば、この量子化すべきデータは式（３）を用いて得ることができ、プ
ロセッサはさらに式（４）によって量子化すべきデータを逆量子化して、対応する中間表
現データを得て、量子化すべきデータと中間表現データに基づいて量子化誤差を確定する
ことができる。

更に、プロセッサは、量子化すべきデータとそれに対応する中間表現データに基づいて
量子化誤差を算出すことができる。現在検証反復の量子化すべきデータがＦ_ｘ＝［Ｚ_１，
Ｚ_２．．．，Ｚ_ｍ］であり、この量子化すべきデータに対応する中間表現データがＦ_ｘ１
＝［Ｚ_１ ^（ｎ），Ｚ_２ ^（ｎ）．．．，Ｚ_ｍ ^（ｎ）］であるとする。プロセッサは、量子化
すべきデータＦ_ｘおよびそれに対応する中間表現データＦ_ｘ１に基づいて誤差項を確定し
、この誤差項に基づいて量子化誤差を確定することができる。

任意選択可能に、プロセッサは、中間表現データＦ_ｘ１における各要素の和、および量
子化すべきデータＦ_ｘにおける各要素の和に基づいて上記の誤差項を確定することができ
、この誤差項は、中間表現データＦ_ｘ１における各要素の和と量子化すべきデータＦ_ｘに
おける各要素の和の差値であってもよい。その後、プロセッサはこの誤差項に基づいて量
子化誤差を確定することができる。具体的な量子化誤差は、下式によって確定することが
できる：
ｄｉｆｆ_ｂｉｔ＝ｌｎ（（Σ_ｉ｜Ｚ_ｉ ^（ｎ）｜－Σ_ｉ｜Ｚ_ｉ｜）／Σ_ｉ｜Ｚ_ｉ｜＋１）
式（３１）

ここでは、ｚ_ｉは量子化すべきデータにおける要素であり、Ｚ_ｉ ^（ｎ）は中間表現デー
タＦ_ｘ１の要素である。

任意選択可能に、プロセッサは、それぞれ量子化すべきデータにおける各要素と中間表
現データＦ_ｘ１における対応する要素の差値を計算して、ｍ個の差値を得て、このｍ個の
差値の和を誤差項とする。その後、プロセッサはこの誤差項に基づいて量子化誤差を確定
することができる。具体的な量子化誤差は、下式によって確定することができる：
ｄｉｆｆ_ｂｉｔ＝ｌｎ（Σ_ｉ｜Ｚ_ｉ ^（ｎ）－Ｚ_ｉ｜／Σ_ｉ｜Ｚ_ｉ｜＋１）
式（３２）

任意選択可能に、上記量子化すべきデータにおける各要素は中間表現データＦ_ｘ１にお
ける対応する要素との差値は２^{（ｓ－１）}にほぼ等しくてもよく、従って、上記量子化誤
差は、さらに下式によって確定されてもよい。
ｄｉｆｆ_ｂｉｔ＝ｌｎ（２^ｓ－１＊ｍ／Σ_ｉ｜Ｚ_ｉ｜）式
（３３）

任意選択可能に、前記中間表現データは、前記量子化すべきデータのデータ表現フォー
マットと一致し、前記中間表現データと量子化すべきデータとに基づいて量子化誤差を確
定してもよい。例えば、量子化すべきデータはＦ _ｘ ≒Ｉ _ｘ ×２ ^ｓと表すことができる。す
ると、中間表現データＩ_ｘ１≒Ｆ_ｘ／２^ｓを確定することができ、この中間表現データＩ
_ｘ１は上記の量子化すべきデータと同じデータ表現フォーマットを有することができる。
このとき、プロセッサは、中間表現データＩ_ｘ１と上記式（３）によって算出されたＩ_ｘ
＝ｒｏｕｎｄ（Ｆ_ｘ／２^ｓ）によって量子化誤差を確定することができる。具体的な量子
化誤差確定方式は、上記の式（３１）～式（３３）を参照することができる。

具体的には、プロセッサは、この量子化誤差に基づき、現在検証反復に対応するデータ
ビット幅を適応的に調整して、この現在検証反復が調整された後の目標データビット幅を
確定することができる。この量子化誤差がプリセット条件を満たす場合、現在検証反復に
対応するデータビット幅を維持することができ、つまり、この現在検証反復の目標データ
ビット幅が初期データビット幅に等しくてもよい。量子化誤差がプリセット条件を満たさ
ない場合、プロセッサは、現在検証反復に対応する量子化すべきデータのビット幅を調整
して、現在検証反復に対応する目標データビット幅を得ることができる。プロセッサがこ
の目標データビット幅を用いて現在検証反復の量子化すべきデータを量子化する時、量子
化誤差は上記のプリセット条件を満たす。任意選択可能に、上記のプリセット条件は、ユ
ーザが設定したプリセット閾値であってもよい。

図３－１０に示すように、上記操作Ｓ１１５は、以下のステップを含むことができる。

Ｓ１１５０では、プロセッサは、上述した量子化誤差が第１プリセット閾値以上である
か否かを判断することができる。

前記量子化誤差が第１プリセット閾値以上の場合、操作Ｓ１１５１を実行し、前記現在
検証反復に対応するデータビット幅を大きくして、現在検証反復の目標データビット幅を
得ることができる。量子化誤差が第１プリセット閾値よりも小さい場合、現在検証反復の
データビット幅を維持することができる。

さらに任意選択可能に、プロセッサは、１回の調整で上記の目標データビット幅を得る
ことができる。たとえば、現在検証反復の初期データビット幅がｎ１の場合、プロセッサ
は１回の調整で目標データビット幅ｎ２＝ｎ１＋ｔを確定することができ、ここでは、ｔ
はデータビット幅の調整値である。ここで、この目標データビット幅ｎ２を用いて、現在
検証反復の量子化すべきデータを量子化する場合、得られた量子化誤差は、前記第１プリ
セット閾値より小さくてもよい。

さらに任意選択可能に、プロセッサは、量子化誤差が第１プリセット閾値より小さくな
るまで何度も調整して目標データビット幅を得ることができ、この量子化誤差が第１プリ
セット閾値より小さい場合のデータビット幅を目標データビット幅とすることができる。
具体的には、前記量子化誤差が第１プリセット閾値以上の場合、第１プリセットビット幅
のステップ長さに基づいて第１中間データビット幅を確定する。その後、プロセッサはこ
の第１中間データビット幅に基づいて、現在検証反復の量子化すべきデータを量子化し、
量子化データを得て、前記量子化誤差が前記第１プリセット閾値より小さくなるまで、前
記現在検証反復における量子化すべきデータと前記現在検証反復における量子化データと
に基づいて量子化誤差を確定することができる。プロセッサは、この量子化誤差が第１プ
リセット閾値よりも小さい時に対応するデータビット幅をこの目標データビット幅とする
ことができる。

例えば、現在検証反復の初期データビット幅がｎ１であり、プロセッサはこの初期デー
タビット幅ｎ１を用いて現在検証反復の量子化すべきデータＡを量子化し、量子化データ
Ｂ１を得て、この量子化すべきデータＡと量子化データＢ１に基づいて量子化誤差Ｃ１を
算出する。量子化誤差Ｃ１が第１プリセット閾値以上である場合、プロセッサは第１中間
データビット幅ｎ２＝ｎ１＋ｔ１を確定し、ここで、ｔ１は第１プリセットビット幅のス
テップ長さである。その後、プロセッサは、第１中間データビット幅ｎ２に基づいて現在
検証反復の量子化すべきデータを量子化して、現在検証反復の量子化データＢ２を得て、
この量子化すべきデータＡと量子化データＢ２に基づいて量子化誤差Ｃ２を算出する。こ
の量子化誤差Ｃ２が第１プリセット閾値以上の場合、プロセッサは第１中間データビット
幅ｎ２＝ｎ１＋ｔ１＋ｔ１を確定し、そのあと、この新しい第１中間データビット幅に基
づいて現在検証反復の量子化すべきデータＡを量子化し、量子化誤差が第１プリセット閾
値より小さくなるまで、対応する量子化誤差を計算する。量子化誤差Ｃ１が第１プリセッ
ト閾値よりも小さい場合、この初期データビット幅ｎ１を維持することができる。

更に、上記の第１プリセットビット幅のステップ長さは一定値であってもよく、例えば
、量子化誤差が第１プリセット閾値よりも大きくなるたびに、プロセッサは現在検証反復
に対応するデータビット幅を同じビット幅の値大きくすることができる。任意選択可能に
、上記の第１プリセットビット幅のステップ長さは可変値であってもよく、例えば、プロ
セッサは、量子化誤差と第１プリセット閾値の差値を計算することができ、この量子化誤
差と第１プリセット閾値の差値が小さければ小さいほど、第１プリセットビット幅のステ
ップ長さの値が小さい。

図３－１１に示すように、上記操作装置Ｓ１１５は以下のステップをさらに含むことが
できる。

Ｓ１１５２では、プロセッサは、上記の量子化誤差が第２プリセット閾値以下であるか
どうかを判定することができる。

前記量子化誤差が第２プリセット閾値以下である場合、操作Ｓ１１５３を実行して、前
記現在検証反復に対応するデータビット幅を小さくして、現在検証反復の目標データビッ
ト幅を得ることができる。量子化誤差が第２プリセット閾値よりも大きい時、現在検証反
復のデータビット幅をそのまま維持することができる。

さらに任意選択可能に、プロセッサは、１回の調整で上記の目標データビット幅を得る
ことができる。たとえば、現在検証反復の初期データビット幅がｎ１の場合、プロセッサ
は１回の調整で目標データビット幅ｎ２＝ｎ１－ｔを確定することができ、ここでは、ｔ
はデータビット幅の調整値である。ここで、この目標データビット幅ｎ２を用いて、現在
検証反復の量子化すべきデータを量子化する場合、得られた量子化誤差は、前記第２プリ
セット閾値よりも大きくてもよい。

さらに任意選択可能に、プロセッサは、量子化誤差が第２プリセット閾値より大きくな
るまで何度も調整して目標データビット幅を得ることができ、この量子化誤差が第２プリ
セット閾値より大きい場合のデータビット幅を目標データビット幅とすることができる。
具体的には、前記量子化誤差が第１プリセット閾値以下の場合、第２プリセットビット幅
のステップ長さに基づいて第２中間データビット幅を確定する。その後、プロセッサはこ
の第２中間データビット幅に基づいて、現在検証反復の量子化すべきデータを量子化し、
量子化データを得て、前記量子化誤差が前記第２プリセット閾値より大きくなるまで、前
記現在検証反復における量子化すべきデータと前記現在検証反復における量子化データと
に基づいて量子化誤差を確定することができる。プロセッサは、この量子化誤差が第２プ
リセット閾値よりも大きい時に対応するデータビット幅をこの目標データビット幅とする
ことができる。

例えば、現在検証反復の初期データビット幅がｎ１であり、プロセッサはこの初期デー
タビット幅ｎ１を用いて現在検証反復の量子化すべきデータＡを量子化し、量子化データ
Ｂ１を得て、この量子化すべきデータＡと量子化データＢ１に基づいて量子化誤差Ｃ１を
算出する。量子化誤差Ｃ１が第２プリセット閾値以下である場合、プロセッサは第２中間
データビット幅ｎ２＝ｎ１－ｔ２を確定し、ここで、ｔ２は第２プリセットビット幅のス
テップ長さである。その後、プロセッサは、この第２中間データビット幅ｎ２に基づいて
現在検証反復の量子化すべきデータを量子化して、現在検証反復の量子化データＢ２を得
て、この量子化すべきデータＡと量子化データＢ２に基づいて量子化誤差Ｃ２を算出する
。この量子化誤差Ｃ２が第２プリセット閾値以下の場合、プロセッサは第２中間データビ
ット幅ｎ２＝ｎ１－ｔ２－ｔ２を確定し、そのあと、この新しい第２中間データビット幅
に基づいて現在検証反復の量子化すべきデータＡを量子化し、量子化誤差が第２プリセッ
ト閾値より大きくなるまで、対応する量子化誤差を計算する。量子化誤差Ｃ１が第２プリ
セット閾値よりも大きければ、この初期データビット幅ｎ１をそのまま維持することがで
きる。

更に、上記の第２プリセットビット幅のステップ長さは一定値であってもよく、例えば
、量子化誤差が第２プリセット閾値より小さくなるたびに、プロセッサは、現在検証反復
に対応するデータビット幅を同じビット幅の値小さくすることができる。任意選択可能に
、上記の第２プリセットビット幅のステップ長さは可変値であってもよく、例えば、プロ
セッサは量子化誤差と第２プリセット閾値の差値を計算することができ、この量子化誤差
と第２プリセット閾値の差値が小さければ小さいほど、第２プリセットビット幅のステッ
プ長さの値が小さい。

任意選択可能に、図３－１２に示すように、プロセッサは、量子化誤差が第１プリセッ
ト閾値より小さく、且つ量子化誤差が第２プリセット閾値より大きいと確定した場合、現
在検証反復のデータビット幅をそのまま維持することができ、ここでは、第１プリセット
閾値は第２プリセット閾値よりも大きい。つまり、現在検証反復の目標データビット幅が
初期データビット幅に等しくてもよい。ここでは、図３－１２では、本開示の一実施形態
に係るデータビット幅の確定方式のみを例示するものであり、図３－１２における各操作
の順序は、適応的に調整することができるが、ここでは具体的に限定しない。

本開示の実施形態では、現在の検証の反復によりデータビット幅が変化した場合には、
対応的に小数点位置の変化が生じる。しかし、このときの小数点位置の変化は、量子化す
べきデータのデータ変動によるものではなく、上記の式（３０）で確定される第１誤差で
算出された目標反復間隔が正確ではない可能性があるため、量子化の精度に影響を及ぼす
可能性がある。したがって、現在検証反復のデータビット幅が変化した場合には、第１誤
差が小数点位置の変動幅を正確に反映することを保証し、さらに目標反復間隔の正確性と
確実性を保証するために上記の第２平均値を適宜調整してもよい。具体的には、図３－１
３に示すように、上記の方法は以下を含んでもよい。

Ｓ１１６では、前記目標データビット幅に基づいて、前記現在検証反復のデータビット
幅調整値を確定する。

具体的には、プロセッサは、現在検証反復の目標データビット幅と初期データビット幅
に基づいて、現在検証反復のデータビット幅の調整値を確定することができる。ここで、
このデータビット幅の調整値＝目標データビット幅－初期データビット幅である。もちろ
ん、プロセッサは、現在検証反復のデータビット幅の調整値を直接得ることができる。

Ｓ１１７では、上述した第２平均値を、現在検証反復のデータビット幅調整値に基づい
て更新する。

具体的には、データビット幅の調整値が予め設定されたパラメータより大きい場合（例
えば、予め設定されたパラメーターがゼロに等しくてもよい）、つまり、現在検証反復の
データビット幅が増加する場合、プロセッサはそれに応じて第２平均値を減少することが
できる。データビット幅の調整値が予め設定されたパラメータよりも小さい場合（例えば
、この予め設定されたパラメータがゼロであってもよい）、つまり、現在検証反復のデー
タビット幅が減少する場合、プロセッサはそれに応じて第２平均値を増加させることがで
きる。データビット幅調整値が予め設定されたパラメーターに等しい場合、即ちデータビ
ット幅調整値が０に等しい場合、このとき、現在反復に対応する量子化すべきデータは変
更されず、更新後の第２平均値は更新前の第２平均値に等しくなり、この更新前の第２平
均値は、上記の式（２９）の計算により求められる。任意選択可能に、データビット幅の
調整値が予め設定されたパラメータに等しい場合、すなわち、データビット幅の調整値が
０である場合、プロセッサは第２平均値を更新しなくてもよい。つまり、プロセッサは上
記の動作Ｓ１１７を行わなくてもよい。

例えば、更新前の第２平均値Ｍ２＝β×ｓ^ｔ＋（１－β）×Ｍ１。現在検証反復に対応
する目標データビット幅ｎ２＝初期データビット幅ｎ１＋Δｎの場合、ここでは、Δｎは
データビット幅調整値を表す。このとき、更新後の第２平均値Ｍ２＝β×（ｓ^ｔ－Δｎ）
＋（１－β）×（Ｍ１－Δｎ）である。現在検証反復に対応する目標データビット幅ｎ２
＝初期データビット幅ｎ１－Δｎの場合、ここでは、Δｎはデータビット幅調整値を表し
、このとき、更新後の第２平均値Ｍ２＝β×（ｓ^ｔ－Δｎ）＋（１－β）×（Ｍ１＋Δｎ
）であり、ここでは、ｓ^ｔとは、現在検証反復が目標データビット幅によって確定される
小数点位置であると指す。

例えば、更新前の第２平均値Ｍ２＝β×ｓ^ｔ＋（１－β）×Ｍ１。現在検証反復に対応
する目標データビット幅ｎ２＝初期データビット幅ｎ１＋Δｎの場合、ここでは、Δｎは
データビット幅調整値を表す。このとき、更新後の第２平均値Ｍ２＝β×ｓ^ｔ＋（１－β
）×Ｍ１－Δｎである。現在検証反復に対応する目標データビット幅ｎ２＝初期データビ
ット幅ｎ１－Δｎの場合、ここでは、Δｎはデータビット幅調整値を表し、このとき、更
新後の第２平均値Ｍ２＝β×ｓ^ｔ＋（１－β）×Ｍ１＋Δｎであり、ここでは、ｓ^ｔとは
、現在検証反復が目標データビット幅によって確定される小数点位置であると指す。

更に、図３－６に示すように、上記操作Ｓ２００は以下のステップを含むことができる
。

ステップＳ２１０では、小数点位置の変動幅に基づいて、目標反復間隔を確定し、ここ
で、この目標反復間隔は、上記の小数点位置の変動幅と負の相関がある。すなわち、上記
の小数点位置の変動幅が大きいほど、その目標反復間隔は小さくなる。上記の小数点位置
の変動幅が小さいほど、この目標反復間隔は大きくなる。

以上のように、上述した第１誤差は、小数点位置の変動幅を表してもよい。図３－７に
示すように、上記ステップＳ２１０は、以下を含んでもよい。

ステップＳ２１１では、プロセッサは、前記第１誤差に基づいて、前記目標反復間隔を
確定することができる。ここでは、目標反復間隔は、前記第１誤差と負の相関がある。す
なわち、第１誤差が大きいほど、小数点位置の変化幅が大きく、さらに、量子化すべきデ
ータのデータ変動幅が大きいことを示し、このとき、目標反復間隔は小さくなる。

具体的には、プロセッサは、下式によって目標反復間隔Ｉを算出できる：
I=δ/ｄｉｆｆ_{ｕｐｄａｔｅ１}-γ 式（３１）

なお、第１誤差は、小数点位置の変動幅を評価するために用いることができ、第１誤差
が大きいほど、小数点位置の変動幅が大きいことを示し、さらに、量子化すべきデータの
データ変動幅が大きいほど、目標反復間隔を小さく設定する必要があることを示す。すな
わち、第１誤差が大きいほど、量子化パラメータの調整が頻繁に行われる。

本実施形態では、小数点位置の変動幅（第１誤差）を計算して、小数点位置の変動幅に
基づいて目標反復間隔を確定する。量子化パラメータは目標反復間隔に応じて確定される
ので、量子化パラメータに基づいて量子化して得られた量子化データは、目標データの小
数点位置の変動傾向にさらに適合することができ、量子化の精度を保証するとともに、ニ
ューラルネットワークの動作効率を向上させる。

任意選択可能に、プロセッサは、現在検証反復で目標反復間隔を確定した後、現在検証
反復で、目標反復間隔に対応する量子化パラメータとデータビット幅等のパラメータを更
に確定することで、目標反復間隔に応じて量子化パラメータを更新することができる。こ
こで、量子化パラメータには、小数点位置および／またはスケーリング係数を含むことが
できる。更に、この量子化パラメータは、オフセットをさらに含むことができる。この量
子化パラメータの具体的な計算方法については、上記の説明を参照してもよい。上記の方
法はさらに以下を含んでもよい。

具体的には、プロセッサは、目標反復間隔に基づいて検証反復を確定し、各検証反復で
目標反復間隔を更新してもよく、さらに各検証反復で量子化パラメータを更新してもよい
。たとえば、ニューラルネット演算におけるデータビット幅は一定に保ち、この場合、プ
ロセッサは、各検証反復において、そのまま検証反復の量子化すべきデータに基づいて、
小数点位置などの量子化パラメータを調整することができる。このように、ニューラルネ
ットワーク演算におけるデータビット幅は可変であり、このとき、プロセッサは各検証反
復において、データビット幅を更新し、更新されたデータビット幅とこの検証反復の量子
化すべきデータに基づき、小数点位置などの量子化パラメータを調整することができる。

本開示の実施形態では、プロセッサは、各検証反復において量子化パラメータを更新し
て、現在の量子化パラメータが、量子化すべきデータの量子化ニーズを満たすことを保証
する。ここでは、更新前の目標反復間隔は、更新後の目標反復間隔と同じであってもよい
し、異なってもよい。更新前のデータビット幅は、更新後のデータビット幅と同じであっ
てもよいし、異なっていてもよい。すなわち、異なる反復間隔のデータビット幅は同一で
あっても異なっていてもよい。更新前の量子化パラメータと更新後の量子化パラメータは
同じであってもよいし、異なってもよい。すなわち、異なる反復間隔の量子化パラメータ
は同一であっても異なっていてもよい。

一態様では、このニューラルネットワーク演算における各反復に対応するデータビット
幅は変化せず、即ち、このニューラルネットワーク演算における各反復に対応するデータ
ビット幅はすべて同じであり、このとき、プロセッサは目標反復間隔における小数点位置
などの量子化パラメータを確定することで、目標反復間隔に応じてニューラルネットワー
ク演算における量子化パラメータの調整を行うという目的を実現することができる。ここ
で、この目標反復間隔における反復に対応する量子化パラメータは一致してもよい。すな
わち、目標反復間隔における各反復は同じ小数点位置を採用し、ただ各反復毎に小数点位
置などの量子化パラメータを更新し確定するだけである。これにより、反復ごとに量子化
パラメータを更新調整する必要がなくなり、量子化における計算量を減少し、量子化操作
の効率を向上させる。

任意選択可能に、上記のデータビット幅が変化しないことに対して、目標反復間隔にお
ける反復の対応する小数点位置は一致に保つことができる。具体的には、プロセッサは、
現在検証反復の量子化すべきデータと、現在検証反復に対応する目標データのビット幅と
に基づいて、現在検証反復に対応する小数点位置を確定し、かつ現在検証反復に対応する
小数点位置を、この目標検証反復に対応する小数点位置として使用し、この目標反復間隔
における反復はいずれも現在検証反復に対応する小数点位置を引き続き使用することがで
きる。任意選択可能に、この現在検証反復に対応する目標データビット幅は、ハイパーパ
ラメータであってもよい。たとえば、この現在検証反復に対応する目標データビット幅は
、ユーザがカスタマイズして入力する。この現在の検証の反復に対応する小数点位置は、
上記の式（２）または式（１４）によって計算することができる。

一態様では、このニューラルネットワーク演算における各反復に対応するデータビット
幅は変化することができ、即ち、異なる目標反復間隔に対応するデータビット幅は一致し
なくてもよいが、目標反復間隔における各反復のデータビット幅は不変である。ここで、
この目標反復間隔における反復に対応するデータのビット幅は、ハイパーパラメータであ
ってもよい。例えば、この目標反復間隔における反復に対応するデータのビット幅は、ユ
ーザがカスタマイズして入力することができる。一態様では、この目標反復間隔における
反復に対応するデータビット幅は、例えば、プロセッサ計算によって得られたものであっ
てもよい。例えば、プロセッサは、現在検証反復の量子化すべきデータに基づいて、現在
検証反復に対応する目標データビット幅を確定し、この現在検証反復に対応する目標デー
タビット幅を、目標反復間隔に対応するデータビット幅とする。

任意選択可能に、上記の目標反復間隔に対応するデータビット幅が変化しないことに対
して、目標反復間隔における反復の対応する小数点位置は一致に保つことができる。具体
的には、プロセッサは、現在検証反復の量子化すべきデータと、現在検証反復に対応する
目標データのビット幅とに基づいて、現在検証反復に対応する小数点位置を確定し、かつ
現在検証反復に対応する小数点位置を、この目標検証反復に対応する小数点位置として使
用し、この目標反復間隔における反復はいずれも現在検証反復に対応する小数点位置を引
き続き使用することができる。任意選択可能に、この現在検証反復に対応する目標データ
ビット幅は、ハイパーパラメータであってもよい。たとえば、この現在検証反復に対応す
る目標データビット幅は、ユーザがカスタマイズして入力する。この現在の検証の反復に
対応する小数点位置は、上記の式（２）または式（１４）によって計算することができる
。

任意選択可能に、目標反復間隔における反復に対応するスケーリング係数は一致しても
よい。プロセッサは、現在検証反復の量子化すべきデータに基づいて、現在検証反復に対
応するスケーリング係数を確定し、この現在検証反復に対応するスケーリング係数を、目
標反復間隔における各回の反復のスケーリング係数とすることができる。ここでは、この
目標反復間隔における反復に対応するスケーリング係数が一致している。

任意選択可能に、目標反復間隔における反復に対応するオフセットは一致している。プ
ロセッサは、現在検証反復の量子化すべきデータに基づいて、現在検証反復に対応するオ
フセットを確定し、この現在検証反復に対応するオフセットを、目標反復間隔における各
反復のオフセットとすることができる。更に、プロセッサは、量子化すべきデータの全て
の要素における最小値と最大値を確定し、さらに小数点位置とスケジューリング係数等の
量子化パラメータを確定することができ、具体的に以上の説明を参照できる。この目標反
復間隔における反復に対応するオフセットは一致してもよい。

たとえば、この目標反復間隔は、現在検証反復から反復の数を計算することができ、す
なわち、目標反復間隔に対応する検証反復は、目標反復間隔の開始反復であってもよい。
例えば、現在検証反復は１００回目の反復であり、プロセッサは、量子化すべきデータの
データ変動幅に基づいて、目標反復間隔の反復間隔を３と確定すると、プロセッサは、こ
の目標反復間隔に、１００回目の反復、１０１回目の反復、１０２回目の反復の３回の反
復を含むことができる。さらに、プロセッサは、１００回目の反復に対応する量子化すべ
きデータと目標データビット幅に基づいて、この１００回目の反復に対応する小数点位置
などの量子化パラメータを確定することができ、かつ、この１００回目の反復に対応する
小数点位置などの量子化パラメータを用いて、１００回目の反復、１０１回目の反復と１
０２回目の反復に対して量子化を行うことができる。このように、１０１回目の反復と１
０２回目の反復では、小数点位置などの量子化パラメータを計算する必要がなく、量子化
における計算量を減少し、量子化操作の効率を向上させる。

任意選択可能に、目標反復間隔は、現在検証反復の次の反復から反復の数を計算するこ
とができ、すなわち、この目標反復間隔に対応する検証反復は、この目標反復間隔の終了
反復であってもよい。たとえば、現在検証反復は１００回目の反復であり、プロセッサは
、量子化すべきデータのデータの変動幅に基づいて、目標反復間隔の反復間隔を３に確定
する。この場合、プロセッサは、この目標反復間隔には１０１回目、１０２回目、１０３
回目の三回の反復が含まれると判断できる。さらに、プロセッサは、１００回目の反復に
対応する量子化すべきデータと目標データビット幅に基づいて、この１００回目の反復に
対応する小数点位置などの量子化パラメータを確定することができ、かつ、この１００回
目の反復に対応する小数点位置などの量子化パラメータを用いて、１０１回目の反復、１
０２回目の反復と１０３回目の反復に対して量子化を行うことができる。このように、１
０２回目の反復と１０３回目の反復では、小数点位置などの量子化パラメータを計算する
必要がなく、量子化における計算量を減少し、量子化操作の効率を向上させる。

本開示の実施形態では、同じ目標反復間隔における各回の反復に対応するデータビット
幅および量子化パラメータは、いずれも一致しており、すなわち、同じ目標反復間隔にお
ける各回の反復に対応するデータビット幅、小数点位置、スケーリング係数、およびオフ
セットはいずれも一定に保ち、これによって、ニューラルネットワークのトレーニングま
たは微調整の過程において、量子化すべきデータの量子化パラメータを頻繁に調整するこ
とを避け、量子化過程における計算量を減少し、量子化効率を高めることができる。しか
も、トレーニングまたは微調整の異なる段階でデータの変動幅に応じて量子化パラメータ
を動的に調整することで、量子化の精度を保証することができる。

他の態様では、このニューラルネットワーク演算における各反復に対応するデータビッ
ト幅は変化することができるが、目標反復間隔における各反復のデータビット幅は不変で
ある。このとき、目標反復間隔における反復に対応する小数点位置などの量子化パラメー
タが一致しなくてもよい。プロセッサはまた、現在検証反復に対応する目標データビット
幅に基づいて、目標反復間隔に対応するデータビット幅を確定することができ、ここでは
、目標反復間隔に対応するデータビット幅は一致する。その後、プロセッサは、この目標
反復間隔に対応するデータのビット幅と小数点位置の反復間隔に応じて、ニューラルネッ
トワークの演算における小数点位置などの量子化パラメータを調整することができる。図
３－１５に示すように、上記操作装置Ｓ３００は以下のステップをさらに含むことができ
る。

Ｓ３１０では、現在検証反復の量子化すべきデータに基づいて、目標反復間隔に対応す
るデータビット幅を確定する。ここでは、この目標反復間隔における反復に対応するデー
タビット幅が一致している。すなわち、ニューラルネットワークの演算におけるデータビ
ット幅は、１つの目標反復間隔ごとに更新される。任意選択可能に、この目標反復間隔に
対応するデータビット幅は、現在検証反復の目標データビット幅であってもよい。この現
在検証反復の目標データのビット幅は、上記の操作Ｓ１１４およびＳ１１５を参照するこ
とができ、ここでは説明しない。

たとえば、この目標反復間隔は、現在検証反復から反復の数を計算することができ、す
なわち、目標反復間隔に対応する検証反復は、目標反復間隔の開始反復であってもよい。
たとえば、現在検証反復は１００回目の反復であり、プロセッサは、量子化すべきデータ
のデータの変動幅に基づいて、目標反復間隔の反復間隔を６に確定すると、プロセッサは
、この目標反復間隔には１００回目の反復から１０５回目の反復の６回の反復が含まれる
と判断できる。この場合、プロセッサは１００回目の反復の目標データビット幅を確定す
ることができ、１０１回目の反復から１０５回目の反復までは、この１００回目の反復の
目標データビット幅を引き続き使用し、１０１回目の反復から１０５回目の反復まで、目
標データビット幅を計算する必要がなく、これにより、計算量を減少し、量子化効率およ
び演算効率を向上させる。その後、１０６回目の反復を現在検証反復とし、上記の目標反
復間隔の確定、およびデータビット幅の更新の操作を繰り返すことができる。

任意選択可能に、目標反復間隔は、現在検証反復の次の反復から反復の数を計算するこ
とができ、すなわち、この目標反復間隔に対応する検証反復は、この目標反復間隔の終了
反復であってもよい。たとえば、現在検証反復は１００回目の反復であり、プロセッサは
、量子化すべきデータのデータの変動幅に基づいて、目標反復間隔の反復間隔を６に確定
する。この場合、プロセッサは、この目標反復間隔には１０１回目の反復から１０６回目
の反復の６回の反復が含まれると判断できる。この場合、プロセッサは１００回目の反復
の目標データビット幅を確定することができ、１０１回目の反復から１０６回目の反復ま
では、この１００回目の反復の目標データビット幅を引き続き使用し、１０１回目の反復
から１０６回目の反復まで、目標データビット幅を計算する必要がなく、これにより、計
算量を減少し、量子化効率および演算効率を向上させる。その後、１０６回目の反復を現
在検証反復とし、上記の目標反復間隔の確定、およびデータビット幅の更新の操作を繰り
返すことができる。

ここで、小数点位置の反復間隔には少なくとも１回の反復が含まれ、前記小数点位置の
反復間隔における反復の小数点位置は一致している。任意選択可能に、この小数点位置の
反復間隔は、ハイパーパラメータであってもよい。たとえば、この小数点位置反復間隔は
ユーザがカスタマイズして入力することができる。

任意選択可能に、前記小数点位置の反復間隔は、前記目標反復間隔以下である。この小
数点位置の反復間隔が上記の目標反復間隔と同じである場合、プロセッサは、現在検証反
復でデータビット幅と小数点位置などの量子化パラメータを同期的に更新することができ
る。さらに任意選択可能に、目標反復間隔における反復に対応するスケーリング係数は一
致してもよい。更に、この目標反復間隔における反復に対応するオフセットは一致しても
よい。このとき、この目標反復間隔における反復に対応するデータビット幅と小数点位置
などの量子化パラメータはいずれも同じであり、これにより、計算量を減少し、量子化効
率と演算効率を向上させることができる。具体的な実現過程は上述した実施形態と基本的
に一致しており、上述した説明を参照することができ、ここではこれ以上説明しない。

小数点位置の反復間隔が上記の目標反復間隔よりも小さい場合、プロセッサは、目標反
復間隔に対応する検証反復においてデータビット幅と小数点位置などの量子化パラメータ
を更新し、その位置反復間隔で確定されたサブ検証反復において小数点位置などの量子化
パラメータを更新することができる。データビット幅が不変である場合、小数点位置など
の量子化パラメータは、量子化すべきデータに応じて微調整することができるので、量子
化の精度をさらに向上させるために、同じ目標反復間隔内で小数点位置等の量子化パラメ
ータを調整してもよい。

具体的には、プロセッサは、現在検証反復と小数点位置反復間隔とに基づいて、サブ検
証反復を確定することができ、このサブ検証反復は、小数点位置を調整するために使用さ
れ、このサブ検証反復は、目標反復間隔における反復であってもよい。更に、プロセッサ
は、サブ検証反復の量子化すべきデータと目標反復間隔に対応するデータビット幅に基づ
いて、目標反復間隔における反復に対応する小数点位置を調整することができ、ここでは
、小数点位置の確定方式は、上記の式を参照してもよいが、ここではこれ以上記べない。

たとえば、現在検証反復は１００回目であり、この目標反復間隔は６であり、この目標
反復間隔に含まれる反復は１００回目の反復から１０５回目の反復である。プロセッサが
取得した小数点位置反復間隔はＩｓ１＝３であると、現在検証反復から三回の反復ごとに
小数点位置を調整する。具体的には、プロセッサは、１００回目の反復を上記のサブ検証
反復とし、この１００回目の反復に対応する小数点位置ｓ１を求め、１００回目の反復、
１０１回目の反復、１０２回目の反復において共通小数点位置ｓ１を共用して量子化を行
う。その後、プロセッサは、小数点位置の反復間隔Ｉｓ１に応じて、１０３回目の反復を
上述したサブ検証反復とすることができ、また、プロセッサは、１０３回目の反復に対応
する量子化すべきデータと目標反復間隔に対応するデータビット幅ｎから、第２小数点位
置反復間隔に対応する小数点位置ｓ２を確定することもできる。この場合、１０３回目の
反復から１０５回目の反復では、上記の小数点位置ｓ２を共用して量子化を行うことがで
きる。本開示の実施形態では、上記の更新前の小数点位置ｓ１と更新後の小数点位置ｓ２
との値は、同じであってもよいし、異なっていてもよい。更に、プロセッサは、１０６回
目の反復で、改めて量子化すべきデータのデータ変動幅に応じて、次の目標反復間隔、お
よびこの次の目標反復間隔に対応するデータビット幅と小数点位置などの量子化パラメー
タを確定することができる。

たとえば、現在検証反復は１００回目であり、この目標反復間隔は６であり、この目標
反復間隔に含まれる反復は、１０１回目の反復から１０６回目の反復である。プロセッサ
が取得した小数点位置反復間隔はＩｓ１＝３であると、現在検証反復から三回の反復ごと
に小数点位置を調整する。具体的には、プロセッサは、現在検証反復の量子化すべきデー
タと現在検証反復に対応する目標データビット幅ｎ１とに基づいて、第１小数点位置の反
復間隔に対応する小数点位置をｓ１として確定することができる。この場合、１０１回目
の反復、１０２回目の反復と１０３回目の反復では上記の小数点位置ｓ１を共用して量子
化を行う。その後、プロセッサは、小数点位置の反復間隔Ｉｓ１に応じて、１０４回目の
反復を上述したサブ検証反復とすることができ、また、プロセッサは、１０４回目の反復
に対応する量子化すべきデータと目標反復間隔に対応するデータビット幅ｎ１から、第２
小数点位置反復間隔に対応する小数点位置ｓ２を確定することもできる。この場合、１０
４回目の反復から１０６回目の反復では、上記の小数点位置ｓ２を共用して量子化を行う
ことができる。本開示の実施形態では、上記の更新前の小数点位置ｓ１と更新後の小数点
位置ｓ２との値は、同じであってもよいし、異なっていてもよい。更に、プロセッサは、
１０６回目の反復で、改めて量子化すべきデータのデータ変動幅に応じて、次の目標反復
間隔、およびこの次の目標反復間隔に対応するデータビット幅と小数点位置などの量子化
パラメータを確定することができる。

任意選択可能に、この小数点位置の反復間隔は１に設定でき、つまり、各反復ごとに小
数点位置が１回更新される。任意選択可能に、この小数点位置の反復間隔は同じであって
もよいし、異なっていてもよい。たとえば、この目標反復間隔に含まれる少なくとも１つ
の小数点位置の反復間隔は、順に増加することができる。ここでは、単に本実施形態の実
施形態を例示し、本開示を限定するものではない。

任意選択可能に、この目標反復間隔における反復に対応するオフセットは一致しなくて
もよい。更に、このオフセットは、上述した小数点位置に同期して更新されてもよい。つ
まり、このオフセットに対応する反復間隔は、上記の小数点位置の反復間隔と同じであっ
てもよい。つまり、プロセッサが小数点位置を更新確定するたびに、それに応じてオフセ
ットを更新確定する。もちろん、このオフセットは上記の小数点位置またはデータビット
幅に非同期的に更新することもできるが、ここでは特に制限されない。更に、プロセッサ
は、量子化すべきデータの全ての要素における最小値と最大値を確定し、さらに小数点位
置とスケジューリング係数等の量子化パラメータを確定することができ、具体的に以上の
説明を参照できる。

別の実施形態では、プロセッサは、小数点位置の変動幅と量子化すべきデータのデータ
ビット幅の変化とに基づいて、総合的に、量子化すべきデータのデータ変動幅を確定し、
この量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確定することができ
る。ここでは、この目標反復間隔は、データビット幅を更新確定するために使用できる。
つまり、プロセッサは、各目標反復間隔の検証反復において、データビット幅を更新確定
することができる。小数点位置は固定小数点データの精度を反映することができ、データ
ビット幅は点データのデータ表示範囲を反映することができるので、小数点位置の変動幅
と、量子化すべきデータのデータビット幅の変化とを統合することによって、量子化され
たデータは精度とデータ表示範囲の満足の両立が可能である。任意選択可能に、小数点位
置の変化幅は、上述した第１誤差を用いて表すことができ、ビット幅の変化は、上記の量
子化誤差に基づいて確定することができる。具体的には、図３－１６に示すように、上記
操作Ｓ６００は以下を含んでもよい。

Ｓ４００では、第１誤差を取得し、第１誤差は小数点位置の変動幅を表すことができ、
この小数点位置の変動幅は、量子化すべきデータのデータ変動幅を表すことができる。具
体的には、上記の第１誤差の算出方法については上記の操作Ｓ１１０の説明を参照できる
。

任意選択可能に、上記の第２誤差は、上記の量子化誤差と正の相関を有する量子化誤差
に基づいて確定することができる。具体的には、図３－１６に示すように、上記操作Ｓ５
００は、以下を含んでもよい。

Ｓ５１０では、前記現在検証反復における量子化すべきデータと前記現在検証反復にお
ける量子化すべきデータとに基づいて量子化誤差を確定する。ここでは、前記現在検証反
復の量子化すべきデータは、初期データビット幅に基づいて、前記現在検証反復の量子化
すべきデータを量子化することで得られる。ここでは、具体的な量子化誤差の算出方法に
ついては、上記の操作Ｓ１１４の説明を参照でき、ここでは説明しない。

ここで、ｄｉｆｆ_{ｕｐｄａｔｅ２}は上記の第２誤差であり、ｄｉｆｆ_ｂｉｔは上記の量
子化誤差であり、θはハイパーパラメータである。

Ｓ６００では、第２誤差と第１誤差とに基づいて、目標反復間隔を確定する。

具体的には、プロセッサは、第１誤差と第２誤差の計算に基づいて目標誤差を求め、目
標誤差に基づいて目標反復間隔を確定する。任意選択可能に、目標誤差は第１誤差と第２
誤差を加重平均して算出することができる。例えば、目標誤差＝Ｋ＊第１誤差＋（１－Ｋ
）＊第２誤差であり、ここでは、Ｋはハイパーパラメータである。その後、プロセッサは
、この目標誤差に基づいて目標反復間隔を確定し、目標反復間隔は、この目標誤差と負の
相関を有する。つまり、目標の誤差が大きいほど、目標反復間隔は小さい。

任意選択可能に、この目標誤差は、第１誤差および第２誤差のうちの最も高い値に基づ
いて確定されてもよく、このとき、第１誤差または第２誤差の重みは０である。具体的に
は、図３－１７に示すように、上記操作Ｓ６００は、以下を含んでもよい。

Ｓ６１０では、前記第１誤差と前記第２誤差のうちの最大値を目標誤差とする。

具体的には、プロセッサは、第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}と第２誤差ｄｉｆｆ_ｕｐ
_{ｄａｔｅ２}の大きさを比較してもよく、第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}が第２誤差ｄｉ
ｆｆ_{ｕｐｄａｔｅ２}より大きい場合、この目標誤差は第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１} に
等しい。第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}が第２誤差より小さい場合、この目標誤差は第
２誤差ｄｉｆｆ_{ｕｐｄａｔｅ２} に等しい。第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}が第２誤差に
等しい場合、この目標誤差は第１誤差ｄｉｆｆ_{ｕｐｄａｔｅ１}または第２誤差ｄｉｆｆ_ｕ
_{ｐｄａｔｅ２}であってもよい。即ち、目標誤差ｄｉｆｆ_{ｕｐｄａｔｅ}は、下式で確定する
ことができる。
ｄｉｆｆ_{ｕｐｄａｔｅ}＝ｍａｘ（ｄｉｆｆ_{ｕｐｄａｔｅ１}，ｄｉｆｆ_{ｕｐｄａｔｅ}
_２）式（４５）

Ｓ６２０では、前記目標誤差に基づいて前記目標反復間隔を確定し、ここでは、前記目
標誤差は前記目標反復間隔と負の相関がある。具体的には、目標反復間隔は以下の方式で
確定することができ、

下式で目標反復間隔を算出することができる。
Ｉ＝β／ｄｉｆｆ_{ｕｐｄａｔｅ}－γ 式（４
６）

任意選択可能に、上述した実施形態では、ニューラルネットワーク演算におけるデータ
ビット幅が可変であり、第２誤差によりデータビット幅の変化傾向を評価することができ
る。この状況で、図３－１７に示すように、プロセッサは、目標反復間隔を確定した後、
操作Ｓ６３０を実行し、目標反復間隔における反復に対応するデータビット幅を確定する
ことができ、ここでは、この目標反復間隔における反復に対応するデータビット幅は一致
している。具体的に、プロセッサは、現在検証反復の量子化すべきデータに基づいて、目
標反復間隔に対応するデータビット幅を確定する。すなわち、ニューラルネットワークの
演算におけるデータビット幅は、１つの目標反復間隔ごとに更新される。任意選択可能に
、この目標反復間隔に対応するデータビット幅は、現在検証反復の目標データビット幅で
あってもよい。この現在検証反復の目標データのビット幅は、上記の操作Ｓ１１４および
Ｓ１１５を参照することができ、ここでは説明しない。

一態様では、この目標反復間隔における反復に対応する量子化パラメータは、一致して
もよい。具体的には、プロセッサは、現在検証反復の量子化すべきデータと、現在検証反
復に対応する目標データのビット幅とに基づいて、現在検証反復に対応する小数点位置を
確定し、かつ現在検証反復に対応する小数点位置を、この目標検証反復に対応する小数点
位置として使用し、ここでは、この目標反復間隔における反復に対応する小数点位置を引
き続き使用することができる。すなわち、目標反復間隔における各反復は、いずれも現在
検証反復の小数点位置などの量子化パラメータを引き続き使用する。これにより、反復ご
とに量子化パラメータを更新調整することを避けて、量子化における計算量を減少し、量
子化操作の効率を向上させる。

他の態様では、プロセッサは、小数点位置などの量子化パラメータに対応する小数点位
置反復間隔に基づいて目標反復間隔における量子化パラメータを確定して、ニューラルネ
ットワークの演算における量子化パラメータを調整することができる。即ち、このニュー
ラルネットワーク演算における小数点位置等の量子化パラメータは、データビット幅と非
同期的に更新してもよく、プロセッサは、目標反復間隔の検証反復においてデータビット
幅と小数点位置等の量子化パラメータを更新してもよく、プロセッサは、さらに小数点位
置反復間隔によって単独で目標反復間隔における反復に対応する小数点位置を更新しても
よい。

具体的に、プロセッサは、現在検証反復に対応する目標データビット幅に基づいて、目
標反復間隔に対応するデータビット幅を確定することができ、ここでは、目標反復間隔に
対応するデータビット幅は一致する。その後、プロセッサは、この目標反復間隔に対応す
るデータのビット幅と小数点位置の反復間隔に応じて、ニューラルネットワークの演算に
おける小数点位置などの量子化パラメータを調整することができる。すなわち、図３－１
７に示すように、目標反復間隔に対応するデータビット幅を確定した後、プロセッサは、
操作Ｓ６４０を実行してもよい。取得された小数点位置の反復間隔と前記目標反復間隔に
対応するデータビット幅に基づいて、前記目標反復間隔における反復に対応する小数点位
置を調整して、前記ニューラルネットワーク演算における小数点位置を調整する。ここで
、小数点位置の反復間隔には少なくとも１回の反復が含まれ、前記小数点位置の反復間隔
における反復の小数点位置は一致している。任意選択可能に、この小数点位置の反復間隔
は、ハイパーパラメータであってもよい。たとえば、この小数点位置反復間隔は、ユーザ
がカスタマイズして入力することができる。

任意選択可能に、前記小数点位置の反復間隔は、前記目標反復間隔以下である。この小
数点位置の反復間隔が上記の目標反復間隔と同じである場合、プロセッサは、現在検証反
復でデータビット幅と小数点位置などの量子化パラメータを同期的に更新することができ
る。さらに任意選択可能に、目標反復間隔における反復に対応するスケーリング係数は一
致してもよい。更に、この目標反復間隔における反復に対応するオフセットは、一致して
もよい。このとき、この目標反復間隔における反復に対応するデータビット幅と小数点位
置などの量子化パラメータはいずれも同じであり、これにより、計算量を減少し、量子化
効率と演算効率を向上させることができる。具体的な実現過程は上述した実施形態と基本
的に一致しており、上述した説明を参照することができ、ここではこれ以上説明しない。

具体的には、プロセッサは、現在検証反復と小数点位置反復間隔とに基づいて、サブ検
証反復を確定することができ、このサブ検証反復は、小数点位置を調整するために使用さ
れ、このサブ検証反復は、目標反復間隔における反復であってもよい。更に、プロセッサ
は、サブ検証反復の量子化すべきデータと目標反復間隔に対応するデータビット幅に基づ
いて、目標反復間隔における反復に対応する小数点位置を調整することができ、ここでは
、小数点位置の確定方式は、上記の式（２）または（１４）を参照してもよいが、ここで
はこれ以上記べない。

たとえば、現在検証反復は１００回目であり、この目標反復間隔は６であり、この目標
反復間隔に含まれる反復は１０１回目の反復から１０６回目の反復である。プロセッサが
取得した小数点位置反復間隔はＩｓ１＝３であると、現在検証反復から三回の反復ごとに
小数点位置を調整する。具体的には、プロセッサは、現在検証反復の量子化すべきデータ
と現在検証反復に対応する目標データビット幅ｎ１とに基づいて、第１小数点位置の反復
間隔に対応する小数点位置をｓ１として確定することができる。この場合、１０１回目の
反復、１０２回目の反復と１０３回目の反復では、上記の小数点位置ｓ１を共用して量子
化を行う。その後、プロセッサは、小数点位置の反復間隔Ｉｓ１に応じて、１０４回目の
反復を上述したサブ検証反復とすることができ、また、プロセッサは、１０４回目の反復
に対応する量子化すべきデータと目標反復間隔に対応するデータビット幅ｎ１から、第２
小数点位置反復間隔に対応する小数点位置ｓ２を確定することもできる。この場合、１０
４回目の反復から１０６回目の反復では、上記の小数点位置ｓ２を共用して量子化を行う
ことができる。本開示の実施形態では、上記の更新前の小数点位置ｓ１と更新後の小数点
位置ｓ２との値は、同じであってもよいし、異なっていてもよい。更に、プロセッサは、
１０６回目の反復で、改めて量子化すべきデータのデータ変動幅に応じて、次の目標反復
間隔、およびこの次の目標反復間隔に対応するデータビット幅と小数点位置などの量子化
パラメータを確定することができる。

他の任意の実施形態では、小数点位置、スケーリング係数、およびオフセットの３つの
量子化パラメータの間では非同期であってもよい。すなわち、小数点位置の反復間隔、ス
ケーリング係数の反復間隔、およびオフセットの反復間隔のうちの１つ、または３つ全部
が異なる。ここでは、小数点位置の反復間隔とスケーリング係数の反復間隔は、目標反復
間隔以下である。オフセットの反復間隔は、目標反復間隔より小さくてもよい。オフセッ
トは、量子化すべきデータの分布にのみ関係するため、任意の実施形態では、このオフセ
ットは、目標反復間隔と完全に非同期であってもよい。すなわち、オフセットの反復間隔
は、目標反復間隔よりも大きくてもよい。

１つの任意の実施形態では、上述した方法は、ニューラルネットワークのトレーニング
または微調整の過程で使用されてもよい。これにより、ニューラルネットワークの微調整
またはトレーニング過程に関与する演算データの量子化パラメータに対する調整を実現し
て、ニューラルネットワークの演算過程に関与する演算データの量子化の精度と効率を高
める。この演算データは、ニューロンデータ、重みデータ、または勾配データのうちの少
なくとも１つであってもよい。図３－５に示すように、量子化すべきデータのデータ変動
曲線から分かるように、トレーニングまたは微調整の初期段階では、各反復の量子化すべ
きデータ間の差が大きく、量子化すべきデータのデータ変動幅が激しい。このとき、目標
反復間隔の値を小さくすることで、目標反復間隔における量子化パラメータをタイムリー
に更新し、量子化の精度を保証することができる。トレーニングまたは微調整の中期段階
において、量子化すべきデータのデータ変動幅は次第に緩やかになり、この場合、目標反
復間隔の値を大きくすることで、量子化パラメータの頻繁な更新を回避し、量子化効率お
よび演算効率を向上させることができる。トレーニングまたは微調整の後期段階で、この
時、ニューラルネットワークのトレーニングまたは微調整は安定になり（即ち、ニューラ
ルネットワークの順方向演算結果が予め設定された参考値に近い時、このニューラルネッ
トワークのトレーニングや微調整は安定になる）、この場合も目標反復間隔の値を大きく
し続けて、量子化効率や演算効率をさらに向上させることができる。上記のデータの変動
傾向に基づいて、ニューラルネットワークのトレーニングまたは微調整の異なる段階で異
なる方式を採用して目標反復間隔を確定することができ、これにより、量子化の精度を保
証した上で、量子化効率と演算効率を高めることができる。

具体的に、図３－１８に示すように、ニューラルネットワークのトレーニングまたは微
調整に使用される場合に、この方法は、以下を含むことができる。

Ｓ７１０では、プロセッサは、現在反復が第１プリセット反復より大きいかどうかを確
定する。

ここでは、現在反復とは、プロセッサが現在実行している反復演算を指す。任意選択可
能に、この第１プリセット反復はハイパーパラメータであってもよく、この第１プリセッ
ト反復は量子化すべきデータのデータ変動曲線に基づいて確定されてもよく、この第１プ
リセット反復はユーザがカスタマイズして設定してもよい。任意選択可能に、この第１プ
リセット反復は、１つのトレーニング周期（ｅｐｏｃｈ）に含まれる反復総数より小さく
てもよく、ここでは、一つのトレーニング周期とは、データセットにおけるすべての量子
化すべきデータが一回の順方向演算と一回の逆方向演算を完了することを指す。

任意選択可能に、プロセッサは、ユーザが入力した第１プリセット反復を読み取り、こ
の第１プリセット反復と第１プリセット反復間隔との対応関係に基づいて、第１プリセッ
ト反復間隔を確定することができる。任意選択可能に、この第１プリセット反復間隔はハ
イパーパラメータであってもよく、この第１プリセット反復間隔はユーザがカスタマイズ
して入力するものであってもよい。このとき、プロセッサは直接、ユーザが入力した第１
プリセット反復と第１プリセット反復間隔を読み取り、この第１プリセット反復間隔に基
づいてニューラルネットワーク演算における量子化パラメータを更新することができる。
本開示の実施形態では、プロセッサは、量子化すべきデータのデータ変動幅に基づいて、
目標反復間隔を確定することを必要としない。

例えば、ユーザが入力した第１プリセット反復が１００回目の反復で、第１プリセット
反復間隔が５であると、現在反復が１００回目の反復以下の場合、第１プリセット反復間
隔に基づいて量子化パラメータを更新することができる。即ち、プロセッサは、ニューラ
ルネットワークのトレーニングまたは微調整の１回目の反復から１００回目の反復におい
て、５回目の反復ごとに一回量子化パラメータを更新することを確定できる。具体的には
、プロセッサは、１回目の反復に対応するデータビット幅ｎ１および小数点位置ｓ１など
の量子化パラメータを確定し、このデータビット幅ｎ１および小数点位置ｓ１などの量子
化パラメータを用いて、１回目の反復から５回目の反復までの量子化すべきデータを量子
化することができる。すなわち、１回目の反復から５回目の反復までは同じ量子化パラメ
ータを用いることができる。その後、プロセッサは、６回目の反復に対応するデータビッ
ト幅ｎ２および小数点位置ｓ２等の量子化パラメータを確定し、このデータビット幅ｎ２
および小数点位置ｓ２等の量子化パラメータを用いて、６回目の反復から１０回目の反復
までの量子化すべきデータを量子化することができる。すなわち、６回目から１０回目ま
では同じ量子化パラメータを用いることができる。同様に、プロセッサは、上記のように
１００回目の反復が完了するまで量子化することができる。ここで、各反復間隔における
データビット幅および小数点位置などの量子化パラメータの確定方法については上記の説
明を参照でき、ここでは説明しない。

例えば、ユーザが入力した第１プリセット反復が１００回目の反復であり、第１プリセ
ット反復間隔が１であると、現在反復が１００回目の反復以下の場合、第１プリセット反
復間隔に基づいて量子化パラメータを更新することができる。即ち、プロセッサは、ニュ
ーラルネットワークのトレーニングまたは微調整の１回目の反復から１００回目の反復に
おいて、各反復ごとに量子化パラメータを更新することを確定できる。具体的には、プロ
セッサは、１回目の反復に対応するデータビット幅ｎ１および小数点位置ｓ１などの量子
化パラメータを確定し、このデータビット幅ｎ１および小数点位置ｓ１などの量子化パラ
メータを用いて、１回目の反復の量子化すべきデータを量子化することができる。その後
、プロセッサは、２回目の反復に対応するデータビット幅ｎ２および小数点位置ｓ２等の
量子化パラメータを確定し、このデータビット幅ｎ２および小数点位置ｓ２等の量子化パ
ラメータを用いて２回目の反復の量子化すべきデータを量子化することができ、……。同
様に、プロセッサは、１００回目の反復のデータビット幅ｎ１００および小数点位置ｓ１
００等の量子化パラメータを確定し、このデータビット幅ｎ１００と小数点位置ｓ１００
等の量子化パラメータを用いて、１００回目の反復の量子化すべきデータを量子化するこ
とができる。ここで、各反復間隔におけるデータビット幅および小数点位置などの量子化
パラメータの確定方法については、上記の説明を参照でき、ここでは説明しない。

任意選択可能に、現在反復が第１プリセット反復よりも大きい場合、ニューラルネット
ワークのトレーニングまたは微調整が中期段階にあると示すことができ、このとき、履歴
反復の量子化すべきデータのデータ変動幅を得て、この量子化すべきデータのデータ変動
幅に基づいて目標反復間隔を確定し、この目標反復間隔は上記の第１プリセット反復間隔
より大きくてもよく、これによって、量子化パラメータの更新回数を減少し、量子化効率
および演算効率を向上させる。具体的には、前記現在反復が第１プリセット反復よりも大
きい場合、プロセッサは操作Ｓ７１３を実行し、前記量子化すべきデータのデータ変動幅
に基づいて目標反復間隔を確定し、前記目標反復間隔に基づいて量子化パラメータを調整
することができる。

上記の例の場合、ユーザが入力した第１プリセット反復が１００回目の反復であり、第
１プリセット反復間隔が１であると、現在反復が１００回目の反復以下の場合、第１プリ
セット反復間隔に基づいて量子化パラメータを更新することができる。即ち、プロセッサ
は、ニューラルネットワークのトレーニングまたは微調整の１回目の反復から１００回目
の反復において、各反復ごとに量子化パラメータを更新し、具体的な実施形態は上記の説
明を参照できる。現在反復が１００回目の反復より大きい場合、プロセッサは、現在反復
の量子化すべきデータとその前の履歴反復の量子化すべきデータに基づいて、量子化すべ
きデータのデータ変動幅を確定し、この量子化すべきデータのデータ変動幅に基づいて目
標反復間隔を確定することができる。具体的には、現在反復が１００回目の反復より大き
い場合、プロセッサは、適応的に現在反復に対応するデータビット幅を調整し、現在反復
に対応する目標データビット幅を取得し、この現在反復に対応する目標データビット幅を
目標反復間隔のデータビット幅とすることができ、ここで、目標反復間隔における反復に
対応するデータのビット幅が一致している。同時に、プロセッサは、現在反復に対応する
目標データビット幅と量子化すべきデータに基づき、現在反復に対応する小数点位置を確
定し、かつ現在反復に対応する小数点位置に基づいて第１誤差を確定する。プロセッサは
さらに、現在反復に対応する量子化すべきデータに基づいて、量子化の誤差を確定し、量
子化誤差に基づいて第２誤差を確定することができる。その後、プロセッサは、第１誤差
と第２誤差に基づいて目標反復間隔を確定し、この目標反復間隔は、上記の第１プリセッ
ト反復間隔よりも大きくてもよい。更に、プロセッサは、目標反復間隔における小数点位
置またはスケジューリング係数等の量子化パラメータを確定でき、具体的な確定方式は、
上文における説明を参照できる。

図３－１９に示すように、上記の方法はさらに以下を含んでもよい。

現在反復が第１プリセット反復より大きい場合、プロセッサはさらに操作Ｓ７１２を実
行することができ、即ちプロセッサはさらに、現在反復が第２プリセット反復より大きい
かどうかを確定することができる。ここでは、前記第２プリセット反復は前記第１プリセ
ット反復より大きく、前記第２プリセット反復間隔は前記第１プリセット反復間隔より大
きい。任意選択可能に、上記第２プリセット反復はハイパーパラメータであってもよく、
第２プリセット反復は少なくとも１つのトレーニング周期の反復総数より大きくてもよい
。任意選択可能に、第２プリセット反復は、量子化すべきデータのデータ変動曲線によっ
て確定できる。任意選択可能に、第２プリセット反復はユーザがカスタマイズして入力す
るものであってもよい。

任意選択可能に、プロセッサは、ユーザが設定した第２プリセット反復を読み取り、第
２プリセット反復と第２プリセット反復間隔との対応関係によって、第２プリセット反復
間隔を確定し、この第２プリセット反復間隔は、第１プリセット反復間隔よりも大きい。
任意選択可能に、前記ニューラルネットワークの収束度がプリセット条件を満たす場合、
前記現在反復が第２プリセット反復以上であると確定する。例えば、現在反復の順方向演
算結果がプリセット参考値に近い場合、このニューラルネットワークの収束度がプリセッ
ト条件を満たすと確定し、このとき、現在反復が第２プリセット反復以上であると確定で
きる。または、現在反復に対応する損失値がプリセット閾値以下である場合、このニュー
ラルネットワークの収束度がプリセット条件を満たすことを確定することができる。

任意選択可能に、上記の第２プリセット反復間隔はハイパーパラメータであってもよく
、この第２プリセット反復間隔は、少なくとも一つのトレーニング周期の反復総数以上で
あってもよい。任意選択可能に、この第２プリセット反復間隔はユーザがカスタマイズし
て設定してもよい。プロセッサは直接、ユーザが入力した第２プリセット反復と第２プリ
セット反復間隔を読み取り、この第２プリセット反復間隔に基づいてニューラルネットワ
ーク演算における量子化パラメータを更新することができる。例えば、この第２プリセッ
ト反復間隔は、１つのトレーニング周期の反復総数に等しくてもよく、即ち各トレーニン
グ周期（ｅｐｏｃｈ）ごとに一回量子化パラメータを更新する。

さらに、前記方法は、

前記現在反復が第２プリセット反復以上である場合、プロセッサはさらに、各検証反復
ごとに現在データビット幅が調整される必要があるかどうかを確定することができる。現
在データビット幅を調整する必要があれば、プロセッサは上記の操作Ｓ７１４から操作Ｓ
７１３に切り替えてデータビット幅を改めて確定して、データビット幅が量子化すべきデ
ータの需要を満たすことができる。

具体的には、プロセッサは、上述した第２誤差に基づいて、データビット幅を調整する
必要があるかどうかを判断することができる。プロセッサはさらに、上記操作Ｓ７１５を
実行し、第２誤差がプリセット誤差値より大きいかどうかを確定し、前記現在反復が第２
プリセット反復以上でありかつ前記第２誤差がプリセット誤差値より大きい場合、操作Ｓ
７１３に切り替えて実行し、前記量子化すべきデータのデータ変動幅に基づいて反復間隔
を確定して、前記反復間隔に基づいて前記データビット幅を改めて確定する。現在反復が
第２プリセット反復以上であり、且つ第２誤差がプリセット誤差値以下である場合、引き
続き操作Ｓ７１４を実行し、第２プリセット反復間隔を前記目標反復間隔とし、前記第２
プリセット反復間隔に基づいて前記ニューラルネットワーク量子化過程におけるパラメー
タを調整する。ここでは、予め設定された誤差値は、量子化誤差に対応する予め設定され
た閾値に基づいて確定されてもよい。第２誤差が予め設定された誤差値よりも大きい場合
は、データビット幅をさらに調整する必要があることが示され、プロセッサは、前記反復
間隔に基づいてデータビット幅を改めて確定するために、前記量子化すべきデータのデー
タ変動幅に基づいて反復間隔を確定することができる。

例えば、第２プリセット反復間隔は、一つのトレーニング周期の反復総数である。現在
反復が第２プリセット反復以上の場合、プロセッサは第２プリセット反復間隔に応じて量
子化パラメータを更新することができ、即ち各トレーニング周期（ｅｐｏｃｈ）ごとに一
回量子化パラメータを更新する。このとき、各トレーニング周期の開始反復は１つ検証反
復として、各トレーニング周期の開始反復において、プロセッサはこの検証反復の量子化
すべきデータに基づいて量子化誤差を確定し、量子化誤差に基づいて第２誤差を確定し、
下式によって第２誤差がプリセット誤差値より大きいかどうかを確定する。

ここでは、ｄｉｆｆ_{ｕｐｄａｔｅ２}は第２誤差であり、ｄｉｆｆ_ｂｉｔは量子化誤差で
あり、θはハイパーパラメータであり、Ｔはプリセット誤差値である。任意選択可能に、
このプリセット誤差値は、第１プリセット閾値をハイパーパラメータで除算するものであ
ってもよい。当然ながら、このプリセット誤差値はハイパーパラメータであってもよい。
例えば、このプリセット誤差値は下式で算出できる：Ｔ＝ｔｈ／１０、ここでは、ｔｈは
第１プリセット閾値であり、ハイパーパラメータの値は１０とする。

もちろん、他の実施形態では、プロセッサは、上述した量子化誤差に基づいて、データ
ビット幅を調整する必要があるか否かを判定することができる。例えば、第２プリセット
反復間隔は、１つのトレーニング周期の反復総数である。現在反復が第２プリセット反復
以上の場合、プロセッサは第２プリセット反復間隔に応じて量子化パラメータを更新する
ことができ、即ち各トレーニング周期（ｅｐｏｃｈ）ごとに一回量子化パラメータを更新
する。ここでは、各トレーニング周期の開始反復は１つの検証反復とする。各トレーニン
グ周期の開始反復において、プロセッサはこの検証反復の量子化すべきデータに基づいて
量子化誤差を確定し、この量子化誤差が第１プリセット閾値以上の場合、データビット幅
がプリセット要求を満たせない可能性があると示し、即ちプロセッサは上記の操作Ｓ７１
４から上記の操作Ｓ７１３に切り替える。

なお、上述した各方法の実施形態については、簡単に記述するために、一連の動作の組
み合わせとして記載しているが、当業者であれば周知するように、本開示は、本開示にし
たがって一部のステップが他の順で用いられたり、または同時に実施されたりすることが
できるから、以上に記載の動作の順で制限されるものではない。次に、当業者であれば分
かるように、本明細書に記載された実施形態は全てオプション実施形態に該当し、係る動
作およびモジュールは必ずしも本開示に必須ではない。

本開示の一実施形態はさらに、ニューラルネットワークの量子化パラメータの調整装置
２００を提供し、この量子化パラメータ調整装置２００は、一プロセッサに設置されても
よい。例えば、この量子化パラメータ調整装置２００は通用プロセッサに設けられてもよ
く、また、この量子化パラメータ調整装置は人工知能プロセッサに設けられてもよい。図
３－２０に示すように、上記装置は、

量子化すべきデータのデータ変動幅を取得するように構成される取得モジュール２１０
と、

前記量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確定することで、
この目標反復間隔に基づいて、ニューラルネットワーク演算における量子化パラメータを
調整し、ここでは、前記目標反復間隔は、少なくとも１回の反復を含み、前記ニューラル
ネットワークの量子化パラメータは、前記ニューラルネットワークの演算における量子化
すべきデータに対する量子化動作を実現するためのものであるように構成される反復間隔
確定モジュール２２０とを含む。

任意選択可能に、前記量子化パラメータは小数点位置を含み、前記小数点位置は、前記
量子化すべきデータに対応する量子化データにおける小数点の位置である。図３－２１に
示すように、上記装置は、

現在検証反復に対応する目標データビット幅と前記現在検証反復の量子化すべきデータ
に基づいて、前記目標反復間隔における反復に対応する小数点位置を確定して、前記ニュ
ーラルネットワーク演算における小数点位置を調整するように構成される量子化パラメー
タ確定モジュール２３０をさらに含む。

任意選択可能に、前記量子化パラメータは、小数点位置を含み、前記小数点位置は前記
量子化すべきデータに対応する量子化データにおける小数点の位置である。図３－２３、
図３－２４に示すように、前記装置は、

前記現在検証反復に対応する目標データビット幅に基づいて、目標反復間隔に対応する
データビット幅を確定し、ここでは、目標反復間隔に対応するデータビット幅は一致する
ように構成されるデータビット幅確定モジュール２４０と、

取得された小数点位置の反復間隔と前記目標反復間隔に対応するデータビット幅に基づ
いて、前記目標反復間隔における反復に対応する小数点位置を調整して、前記ニューラル
ネットワーク演算における小数点位置を調整するように構成される量子化パラメータ確定
モジュール２３０とをさらに含み、

任意選択可能に、前記小数点位置の反復間隔は、前記目標反復間隔以下である。

任意選択可能に、前記量子化パラメータはスケーリング係数をさらに含み、前記スケー
リング係数は前記小数点位置と同期して更新される。

任意選択可能に、前記量子化パラメータはオフセットをさらに含み、前記オフセットは
前記小数点位置と同期して更新される。

図３－２４に示すように、前記量子化パラメータ確定モジュール２４０は、

前記現在検証反復の量子化すべきデータと前記現在検証反復の量子化データとに基づい
て量子化誤差を確定し、前記現在検証反復の量子化データは、前記現在検証反復の量子化
すべきデータを量子化することによって得られるように構成される量子化誤差確定ユニッ
ト２４１と、

前記量子化誤差に基づき、前記現在検証反復に対応する目標データビット幅を確定する
ように構成されるデータビット幅確定ユニット２４２とを含む。

任意選択可能に、前記データビット幅確定ユニット２４２は、前記量子化誤差に基づい
て前記現在検証反復に対応する目標データビット幅を確定するように構成され、具体的に
は、

前記量子化誤差が第１プリセット閾値以上の場合、前記現在検証反復に対応するデータ
ビット幅を大きくして、前記現在検証反復に対応する目標データビット幅を得るように構
成され、または、
前記量子化誤差が第２プリセット閾値以下である場合、前記現在検証反復に対応するデ
ータビット幅を小さくして、前記現在検証反復の目標データビット幅を得るように構成さ
れる。

任意選択可能に、前記データビット幅確定ユニット２４２は、前記量子化誤差が第１プ
リセット閾値以上の場合、前記現在検証反復に対応するデータビット幅を大きくして、前
記現在検証反復に対応する目標データビット幅を得るように構成され、具体的には、

前記量子化誤差が前記第１プリセット閾値より小さくなるまで、前記現在検証反復にお
ける量子化すべきデータと前記現在検証反復の量子化データに基づいて、量子化誤差を確
定することを戻して実行するように構成される。ここでは、前記現在検証反復の量子化デ
ータは前記第１中間データビット幅が前記現在検証反復の量子化すべきデータを量子化す
ることで得られるものである。

任意選択可能に、前記データビット幅確定ユニット２４２は、前記量子化誤差が第２プ
リセット閾値以下であれば、前記現在検証反復に対応するデータビット幅を小さくて、前
記現在検証反復に対応する目標データビット幅を得るように構成され、具体的には、
前記量子化誤差が第２プリセット閾値以下の場合、第２プリセットビット幅のステップ
長さに基づいて第２中間データビット幅を確定し、

前記量子化誤差が前記第１プリセット閾値より大きくなるまで、前記現在検証反復にお
ける量子化すべきデータと前記現在検証反復の量子化データに基づいて、量子化誤差を確
定することを戻して実行し、ここでは、前記現在検証反復の量子化データは前記第２中間
データビット幅が前記現在検証反復の量子化すべきデータを量子化することで得られるよ
うに構成される。

任意選択可能に、前記取得モジュール２１０は、

小数点位置の変動幅を取得するように構成される第１取得モジュール２１１を含み、こ
こで、前記小数点位置の変動幅は、前記量子化すべきデータのデータ変動幅を表すために
用いることができ、前記小数点位置の変動幅は、前記量子化すべきデータのデータ変動幅
と正の相関がある。

任意選択可能に、図３－２３または図３－２４に示すように、前記第１取得モジュール
２１１は、

現在検証反復の一つ前の検証反復に対応する小数点位置と、前記目標反復間隔の一つ前
の反復間隔に対応する検証反復である前記一つ前の検証反復前の履歴反復に対応する小数
点位置とによって第１平均値を確定するように構成される第１平均値ユニット２１１０と
、

前記現在検証反復に対応する小数点位置と、前記現在検証反復の前の履歴反復の小数点
位置とに基づいて第２平均値を確定し、前記現在検証反復に対応する小数点位置と、前記
現在検証反復前の履歴反復の小数点位置とによって第２平均値を確定するように構成され
る第２平均値モジュール２１１１と、

前記小数点位置の変動幅を表すための第１誤差を、前記第１平均値および前記第２平均
値によって確定するように構成される第１誤差モジュール２１１２とを含む。

任意選択可能に、前記第２平均値確定ユニット２１１１は具体的に、

任意選択可能に、前記第２平均値確定ユニット２１１１は具体的に、前記現在検証反復
に対応する小数点位置および前記第１平均値に基づいて前記第２平均値を確定するように
構成される。

任意選択可能に、前記第２平均値確定ユニット２１１１は、取得された前記現在検証反
復のデータビット幅調整値に基づいて、前記第２平均値を更新するように構成され、

任意選択可能に、前記第２平均値確定ユニット２１１１は、取得された前記現在検証反
復のデータビット幅調整値に基づいて、前記第２平均値を更新するように構成され、具体
的に、

前記現在検証反復のデータビット幅調整値がプリセットパラメータよりも大きい場合、
前記現在検証反復のデータビット幅調整値に基づいて前記第２平均値を減少し、

前記第１誤差によって、前記第１誤差と負の相関がある前記目標反復間隔を確定するよ
うに構成される第１間隔モジュールを含む、ことを特徴とする。

任意選択可能に、前記取得モジュール２１０は、

第２取得モジュール２１２を含み、前記第２取得モジュールは、前記データビット幅の
変動傾向を取得し、前記小数点位置の変動幅と前記データビット幅の変化傾向によって、
前記量子化すべきデータのデータ変動幅を確定するように構成される。

任意選択可能に、前記反復間隔確定モジュール２２０は、取得された小数点位置の変動
幅を表すための第１誤差およびデータビット幅の変動傾向を表すための第２誤差によって
前記目標反復間隔を確定するように構成される。

任意選択可能に、前記反復間隔確定モジュール２２０は、取得された第１誤差と第２誤
差に基づいて、前記目標反復間隔時を確定するように構成され、具体的には、

前記目標反復間隔と負の相関がある前記目標誤差によって、前記目標反復間隔を確定す
るように構成される。

任意選択可能に、前記第２誤差は、量子化誤差によって確定され、ここでは、前記量子
化誤差は、前記現在検証反復における量子化すべきデータと前記現在検証反復の量子化デ
ータによって確定され、前記第２誤差は、前記量子化誤差と正の相関がある。

任意選択可能に、前記装置は、ニューラルネットワークのトレーニングまたは微調整を
実現するために用いられ、前記反復間隔確定モジュール２２０はさらに、

任意選択可能に、前記反復間隔確定モジュール２２０はさらに、前記現在反復が前記第
１プリセット反復以下の場合、前記第１プリセット反復間隔を前記目標反復間隔とし、前
記第１プリセット反復間隔によって前記量子化パラメータを調整するように構成される。

任意選択可能に、前記反復間隔確定モジュール２２０はさらに、

前記現在反復が第２プリセット反復以上の場合、第２プリセット反復間隔を前記目標反
復間隔とし、前記第２プリセット反復間隔によって前記量子化パラメータを調整し、

前記第２プリセット反復は前記第１プリセット反復よりも大きく、前記第２プリセット
反復間隔は前記第１プリセット反復間隔よりも大きいように構成される。

任意選択可能に、前記反復間隔確定モジュール２２０はさらに、前記現在反復が第２プ
リセット反復以上であり、かつ第２誤差がプリセット誤差値より大きい場合、前記量子化
すべきデータのデータ変動幅によって反復間隔を確定し、前記反復間隔によって前記デー
タビット幅を再確定するように構成される。

なお、本開示の実施形態における各モジュールまたはユニットの動作原理は、上記方法
における各操作の実現過程とほぼ一致し、具体的には以上の記載を参照することができ、
ここでは、再び説明しない。なお、上述した装置の実施形態は概略的なものに過ぎず、本
開示の装置は他の方法で実施することもできることを理解されたい。例えば、上述した実
施形態に記載のユニット／モジュールの分割は、単に論理的機能分割に過ぎず、実際に実
現される場合には別の分割方式が可能である。例えば、複数のユニット、モジュール、ま
たはコンポーネントが組み合わされてもよく、または別のシステムに統合されてもよく、
またはいくつかの特徴が無視されてもよく、または実行されなくてもよい。上記一体化さ
れたユニット／モジュールは、ハードウェアの形態で実現することができ、ソフトウェア
プログラムモジュールの形態で実現することもできる。前記一体化されたユニット／モジ
ュールがハードウェアの形態で実装される場合、このハードウェアはデジタル回路、アナ
ログ回路などであってもよい。ハードウェア構造の物理的実装は、トランジスタ、メモリ
スタなどを含むが、これらに限定されない。

上記の一体化されたユニット／モジュールは、ソフトウェアプログラムモジュールの形
態で実装され、別個の製品として販売または使用される場合、１つのコンピュータ可読メ
モリに記憶されてもよい。このような理解に基づいて、本開示の技術の解決手段は、本質
的に、または、従来技術に寄与する部分、または該技術の解決手段の全てまたは一部は、
ソフトウェア製品の形態で具現化されてよく、該コンピュータソフトウェア製品はメモリ
に記憶されており、コンピュータ装置（パーソナルコンピュータ、サーバ、またはネット
ワーク装置等であってよい）に、本開示の各実施形態に記載の方法の全部または一部のス
テップを実行させるためのいくつかのコマンドを含む。上記のメモリは、Ｕディスク、読
み取り専用メモリ（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメ
モリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、リムーバブルハードディ
スク、磁気ディスク、または光ディスクなどの、プログラムコードを記憶可能な様々な媒
体を含む。

一実施形態において、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶
され、前記コンピュータプログラムが実行されると、以上に記載のいずれか一項に記載の
方法のステップが実現される。具体的に、このコンピュータプログラムがプロセッサまた
は装置によって実行されると、以下の方法が実現される：

量子化すべきデータのデータ変動幅を取得することと、

本開示の実施形態の様々な動作の実現は、上述の方法の様々な動作の実現と基本的に一
致することが理解されるべきであり、詳細については、上述の説明を参照されたいが、こ
こでは説明を省略する。

上記の実施形態では、各実施形態に対する説明は、いずれも重点を置き、ある実施形態
では詳述されない部分は、他の実施形態の関連説明を参照することができる。上記実施形
態の各技術的特徴は、記載を簡潔にするために任意の組み合わせが可能であり、上記実施
形態における各技術的特徴の全ての可能な組み合わせについては記載されていないが、こ
れらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載された範囲とみなすべ
きである。

一つの可能な実施形態では、上述の量子化パラメータ調整装置を含む人工知能チップも
開示される。

一つの可能な実施形態では、本開示はさらにＰＣＢボードを開示し、それは記憶デバイ
ス、インターフェースデバイス、制御デバイス、および以上に記載の人工知能チップを含
む。ここでは、前記人工知能チップは、前記記憶デバイス、前記制御デバイス、および前
記インターフェイスデバイスにそれぞれ接続され、前記記憶デバイスはデータを記憶する
ためのものであり、前記インターフェイスデバイスは前記人工知能チップと外部装置との
間のデータ伝送を実現するためのものであり、前記制御デバイスは、前記人工知能チップ
の状態を監視するためのものである。

図３－２５は、本開示の実施形態によるＰＣＢボードの構成を示すブロック図であり、
図３－２５を参照すると、前記ＰＣＢボードは、前記チップ３８９に加えて他の構成部品
を含んでもよいが、この構成部品は、記憶デバイス３９０、インターフェースデバイス３
９１と制御デバイス３９２を含むが、これらに限定されない。

前記記憶デバイス３９０は、前記人工知能チップとバスによって接続され、データの記
憶に利用される。前記記憶デバイスは、複数組の記憶ユニット３９３を含んでもよい。各
組の前記記憶ユニットは前記人工知能チップとバスによって接続される。なお、各組の前
記記憶ユニットは、ＤＤＲＳＤＲＡＭ（英語：ＤｏｕｂｌｅＤａｔａＲａｔｅＳＤ
ＲＡＭ、ダブルレート同期ダイナミックランダムアクセスメモリ）であってもよいことが
理解されるであろう。

ＤＤＲは、クロック周波数を上げることなく、ＳＤＲＡＭの速度を倍に上げることがで
きる。ＤＤＲは、クロックパルスの立ち上がりエッジおよび立ち下がりエッジでデータを
読み出すことを可能にする。ＤＤＲのスピードは、標準ＳＤＲＡＭの２倍である。一実施
形態では、前記記憶装置は、４組の前記記憶ユニットを含むことができる。前記記憶ユニ
ットの各組は、複数のＤＤＲ４粒子（チップ）を含むことができる。一実施形態では、前
記人工知能チップは、内部に４つの７２ビットＤＤＲ４コントローラを含むことができ、
前記７２ビットＤＤＲ４コントローラのうち６４ｂｉｔはデータを伝送するために用いら
れ、８ｂｉｔはＥＣＣチェックに用いられる。前記記憶ユニットにＤＤＲ４－３２００粒
子が使用される場合、データ伝送の理論帯域幅は２５６００ＭＢ／ｓに達することが理解
されるであろう。

一実施形態では、前記記憶ユニットの各組は、並列に設置された複数のダブルレート同
期ダイナミックランダムアクセスメモリを含む。ＤＤＲは、１クロックサイクル内で２回
データを送信することができる。前記チップにはＤＤＲを制御するコントローラが設けら
れ、前記記憶ユニット毎のデータ伝送とデータ記憶の制御に用いられる。

Ｃ１、ニューラルネットワークの量子化パラメータの調整方法であって、

量子化すべきデータのデータ変動幅を取得することと、

前記量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確定することで、
この目標反復間隔に基づいて、ニューラルネットワーク演算における量子化パラメータを
調整することとを含み、ここでは、前記目標反復間隔は、少なくとも１回の反復を含み、
前記ニューラルネットワークの量子化パラメータは、前記ニューラルネットワークの演算
における量子化すべきデータに対する量子化動作を実現するためのものであるニューラル
ネットワークの量子化パラメータの調整方法。

Ｃ２、前記量子化パラメータは小数点位置を含み、前記小数点位置は前記量子化すべき
データに対応する量子化データにおける小数点の位置であり、前記方法は、

現在検証反復に対応する目標データビット幅と前記現在検証反復の量子化すべきデータ
に基づいて、前記目標反復間隔における反復に対応する小数点位置を確定して、前記ニュ
ーラルネットワーク演算における小数点位置を調整することをさらに含み、

ここでは、前記目標反復間隔における反復に対応する小数点位置は一致している項目Ｃ
１に記載の方法。

Ｃ３、前記量子化パラメータは小数点位置を含み、前記小数点位置は前記量子化すべき
データに対応する量子化データにおける小数点の位置であり、前記方法はさらに、

取得された小数点位置の反復間隔と前記目標反復間隔に対応するデータビット幅に基づ
いて、前記目標反復間隔における反復に対応する小数点位置を調整して、前記ニューラル
ネットワーク演算における小数点位置を調整することとを含み、

ここで、小数点位置の反復間隔には、少なくとも１回の反復が含まれ、前記小数点位置
の反復間隔における反復の小数点位置は一致している項目Ｃ１に記載の方法。

Ｃ４、前記小数点位置の反復間隔は、前記目標反復間隔以下である項目Ｃ２またはＣ３
に記載の方法。

Ｃ５、前記量子化パラメータはスケーリング係数をさらに含み、前記スケーリング係数
は前記小数点位置と同期して更新される項目Ｃ１～Ｃ４のいずれか一項に記載の方法。

Ｃ６、前記量子化パラメータはオフセットをさらに含み、前記オフセットは前記小数点
位置と同期して更新される項目Ｃ１～Ｃ５のいずれか一項に記載の方法。

Ｃ７、前記方法は、

前記量子化誤差に基づき、前記現在検証反復に対応する目標データビット幅を確定する
こととをさらに含む項目Ｃ１～Ｃ６のいずれか一項に記載の方法。

Ｃ８、前記量子化誤差に基づき、前記現在検証反復に対応する目標データビット幅を確
定することは、

前記量子化誤差が第１プリセット閾値以上の場合、前記現在検証反復に対応するデータ
ビット幅を大きくして、前記現在検証反復に対応する目標データビット幅を得ることと、
または、
前記量子化誤差が第２プリセット閾値以下である場合、前記現在検証反復に対応するデ
ータビット幅を小さくして、前記現在検証反復の目標データビット幅を得ることとを含む
項目Ｃ１～Ｃ７のいずれか一項に記載の方法。

Ｃ９、前記量子化誤差が第１プリセット閾値以上の場合、前記現在検証反復に対応する
データビット幅を大きくして、前記現在検証反復に対応する目標データビット幅を得るこ
とは、

前記量子化誤差が前記第１プリセット閾値より小さくなるまで、前記現在検証反復にお
ける量子化すべきデータと前記現在検証反復の量子化データに基づいて、量子化誤差を確
定することを戻して実行することを含み、ここでは、前記現在検証反復の量子化データは
前記第１中間データビット幅が前記現在検証反復の量子化すべきデータを量子化すること
で得られるものである項目Ｃ８に記載の方法。

Ｃ１０、前記量子化誤差が第２プリセット閾値以下の場合、前記現在検証反復に対応す
るデータビット幅を減少することは、

前記量子化誤差が前記第１プリセット閾値より大きくなるまで、前記現在検証反復にお
ける量子化すべきデータと前記現在検証反復の量子化データに基づいて、量子化誤差を確
定することを戻して実行することとを含み、ここでは、前記現在検証反復の量子化データ
は前記第２中間データビット幅が前記現在検証反復の量子化すべきデータを量子化するこ
とで得られるものである項目Ｃ８に記載の方法。

Ｃ１１、前記量子化すべきデータのデータ変動幅を取得することは、

小数点位置の変動幅を取得することを含み、ここで、前記小数点位置の変動幅は、前記
量子化すべきデータのデータ変動幅を表すために用いることができ、前記小数点位置の変
動幅は、前記量子化すべきデータのデータ変動幅と正の相関がある項目Ｃ１～Ｃ１０のい
ずれか一項に記載の方法。

Ｃ１２、前記の、小数点位置の変動幅を取得することは、

前記小数点位置の変動幅を表すための第１誤差を、前記第１平均値および前記第２平均
値によって確定することとを含む、項目Ｃ１～Ｃ１１のいずれか一項に記載の方法。

Ｃ１３、前記の現在検証反復に対応する目標データビット幅と量子化すべきデータによ
って確定される、前記現在検証反復に対応する小数点位置と、前記現在検証反復前の履歴
反復の小数点位置とによって第２平均値を確定することは、

前記現在検証反復の小数点位置および前記プリセット数の中間スライディング平均値に
基づいて前記第２平均値を確定することを含む項目Ｃ１２に記載の方法。

Ｃ１４、前記現在検証反復に対応する小数点位置と、前記現在検証反復前の履歴反復の
小数点位置とによって第２平均値を確定することは、

前記現在検証反復に対応する小数点位置および前記第１平均値に基づいて、前記第２平
均値を確定することを含む項目Ｃ１２に記載の方法。

Ｃ１５、前記方法は、

前記第２平均値を、取得された前記現在検証反復のデータビット幅調整値に基づいて更
新することを含み、ここでは、前記現在検証反復のデータビット幅調整値は、前記現在検
証反復の目標データビット幅と初期データビット幅に基づいて確定される項目Ｃ１２に記
載の方法。

Ｃ１６、前記の、取得された前記現在検証反復のデータビット幅調整値に基づいて、前
記第２平均値を更新することは、

前記現在検証反復のデータビット幅調整値がプリセットパラメータよりも小さい場合、
前記現在検証反復のデータビット幅調整値に基づいて前記第２平均値を増加することを含
む項目Ｃ１５に記載の方法。

Ｃ１７、前記量子化すべきデータのデータ変動幅によって目標反復間隔を確定すること
は、

前記第１誤差によって、前記第１誤差と負の相関がある前記目標反復間隔を確定するこ
とを含む、ことを特徴とする項目Ｃ１２に記載の方法。

Ｃ１８、前記量子化すべきデータのデータ変動幅を取得することは、

データビット幅の変化傾向値を取得することと、

前記小数点位置の変動幅と前記データビット幅の変化傾向によって、前記量子化すべき
データのデータ変動幅を確定することをさらに含む、ことを特徴とするＣ１１～Ｃ１７の
いずれか一項に記載の方法。

Ｃ１９、前記量子化すべきデータのデータ変動幅によって目標反復間隔を確定すること
は、

取得した、小数点位置の変動幅を表すための第１誤差およびデータビット幅の変化傾向
を表すための第２誤差によって前記目標反復間隔を確定することとをさらに含む、ことを
特徴とするＣ１８に記載の方法。

Ｃ２０、取得した前記第１誤差および前記第２誤差によって前記目標反復間隔を確定す
ることは、

前記目標反復間隔と負の相関がある前記目標誤差によって前記目標反復間隔を確定する
こととを含む、ことを特徴とするＣ１９に記載の方法。

Ｃ２１、前記第２誤差は、量子化誤差によって確定され、

前記量子化誤差は、前記現在検証反復における量子化すべきデータと前記現在検証反復
の量子化データによって確定され、前記第２誤差は前記量子化誤差と正の相関がある、こ
とを特徴とするＣ１９またはＣ２０に記載の方法。

Ｃ２２、前記方法は、ニューラルネットワークのトレーニングまたは微調整のために用
いられ、

前記現在反復が第１プリセット反復よりも大きい場合、前記量子化すべきデータのデー
タ変動幅によって目標反復間隔を確定し、前記目標反復間隔によって前記量子化パラメー
タを調整することをさらに含む、ことを特徴とするＣ１～Ｃ２１のいずれか一項に記載の
方法。

Ｃ２３、前記方法は、

前記現在反復が前記第１プリセット反復以下の場合、前記第１プリセット反復間隔を前
記目標反復間隔とし、前記第１プリセット反復間隔によって前記量子化パラメータを調整
することをさらに含む、ことを特徴とする項目Ｃ２２に記載の方法。

Ｃ２４、前記方法は、

前記現在反復が第２プリセット反復以上の場合、第２プリセット反復間隔を前記目標反
復間隔とし、前記第２プリセット反復間隔によって前記量子化パラメータを調整すること
をさらに含み、

ここでは、前記第２プリセット反復は前記第１プリセット反復よりも大きく、前記第２
プリセット反復間隔は前記第１プリセット反復間隔よりも大きい項目Ｃ２２またはＣ２３
に記載の方法。

Ｃ２５、前記方法は、

前記ニューラルネットワークの収束度がプリセット条件を満たす場合、前記現在検証反
復が第２プリセット反復以上であると確定することをさらに含む、項目Ｃ２４に記載の方
法。

Ｃ２６、前記方法は、

前記現在反復が第２プリセット反復以上であり、かつ第２誤差がプリセット誤差値より
大きい場合、前記量子化すべきデータのデータ変動幅によって反復間隔を確定し、前記反
復間隔によって前記データビット幅を再確定することをさらに含む、ことを特徴とするＣ
２４に記載の方法。

Ｃ２７、前記量子化すべきデータはニューロンデータ、重みデータまたは勾配データの
うちの少なくとも１つである項目Ｃ１～Ｃ２６のいずれか一項に記載の方法。

Ｃ２８、ニューラルネットワークの量子化パラメータ調整装置であって、前記装置はメ
モリおよびプロセッサを含み、前記メモリにコンピュータプログラムが記憶され、前記プ
ロセッサは前記コンピュータプログラムを実行すると、項目Ｃ１～Ｃ２７のいずれか一項
に記載の方法のステップが実施されるニューラルネットワークの量子化パラメータ調整装
置。

Ｃ２９、コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にコンピ
ュータプログラムが記憶され、前記コンピュータプログラムが実行されると、項目Ｃ１～
Ｃ２７のいずれか一項に記載の方法のステップが実現されるコンピュータ可読記憶媒体。

Ｃ３０、ニューラルネットワークの量子化パラメータ調整装置であって、前記装置は、

前記量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確定することで、
この目標反復間隔に基づいて、ニューラルネットワーク演算における量子化パラメータを
調整し、ここでは、前記目標反復間隔は、少なくとも１回の反復を含み、前記ニューラル
ネットワークの量子化パラメータは、前記ニューラルネットワークの演算における量子化
すべきデータに対する量子化動作を実現するためのものであるように構成される反復間隔
確定モジュールとを含むニューラルネットワークの量子化パラメータ調整装置。

Ｃ３１、前記量子化パラメータは小数点位置を含み、前記小数点位置は前記量子化すべ
きデータに対応する量子化データにおける小数点の位置であり、前記装置は、

現在検証反復に対応する目標データビット幅と前記現在検証反復の量子化すべきデータ
に基づいて、前記目標反復間隔における反復に対応する小数点位置を確定して、前記ニュ
ーラルネットワーク演算における小数点位置を調整するように構成される量子化パラメー
タ確定モジュールをさらに含み、

ここでは、前記目標反復間隔における反復に対応する小数点位置は一致している項目Ｃ
３０に記載の装置。

Ｃ３２、前記量子化パラメータは小数点位置を含み、前記小数点位置は前記量子化すべ
きデータに対応する量子化データにおける小数点の位置であり、前記装置は、

ここで、小数点位置の反復間隔には少なくとも１回の反復が含まれ、前記小数点位置の
反復間隔における反復の小数点位置は一致している項目Ｃ３０に記載の装置。

Ｃ３３、前記小数点位置の反復間隔は、前記目標反復間隔以下である項目Ｃ３２に記載
の装置。

Ｃ３４、前記量子化パラメータはスケーリング係数をさらに含み、前記スケーリング係
数は前記小数点位置と同期して更新される項目Ｃ３１～Ｃ３３のいずれか一項に記載の装
置。

Ｃ３５、前記量子化パラメータはオフセットをさらに含み、前記オフセットは前記小数
点位置と同期して更新される項目Ｃ３１～Ｃ３３のいずれか一項に記載の装置。

Ｃ３６、前記データビット幅確定モジュールは、前記現在検証反復の量子化すべきデー
タと前記現在検証反復の量子化データとに基づいて量子化誤差を確定し、前記現在検証反
復の量子化データは、前記現在検証反復の量子化すべきデータを量子化することによって
得られるように構成される量子化誤差確定ユニットと、

前記量子化誤差に基づき、前記現在検証反復に対応する目標データビット幅を確定する
ように構成されるデータビット幅確定ユニットとを含む項目Ｃ３１～Ｃ３３のいずれか一
項に記載の装置。

Ｃ３７、前記データビット幅確定ユニットは、前記量子化誤差に基づいて前記現在検証
反復に対応する目標データビット幅を確定するように構成され、具体的には、

前記量子化誤差が第２プリセット閾値以下である場合、前記現在検証反復に対応するデ
ータビット幅を小さくして、前記現在検証反復の目標データビット幅を得るように構成さ
れる項目Ｃ３６に記載の装置。

Ｃ３８、前記データビット幅確定ユニットは、前記量子化誤差が第１プリセット閾値以
上の場合、前記現在検証反復に対応するデータビット幅を大きくして、前記現在検証反復
に対応する目標データビット幅を得るように構成され、具体的には、

前記量子化誤差が前記第１プリセット閾値より小さくなるまで、前記現在検証反復にお
ける量子化すべきデータと前記現在検証反復の量子化データに基づいて量子化誤差を確定
することを戻して実行するように構成され、ここでは、前記現在検証反復の量子化データ
は前記第１中間データビット幅が前記現在検証反復の量子化すべきデータを量子化するこ
とで得られるものである項目Ｃ３７に記載の装置。

Ｃ３９、前記データビット幅確定ユニットは、前記量子化誤差が第２プリセット閾値以
下であれば、前記現在検証反復に対応するデータビット幅を小さくて、前記現在検証反復
に対応する目標データビット幅を得るように構成され、具体的には、

前記量子化誤差が第２プリセット閾値以下の場合、第２プリセットビット幅のステップ
長さに基づいて第２中間データビット幅を確定し、

前記量子化誤差が前記第１プリセット閾値より大きくなるまで、前記現在検証反復にお
ける量子化すべきデータと前記現在検証反復の量子化データに基づいて、量子化誤差を確
定することを戻して実行するように構成され、ここでは、前記現在検証反復の量子化デー
タは前記第２中間データビット幅が前記現在検証反復の量子化すべきデータを量子化する
ことで得られるものである項目Ｃ３７に記載の装置。

Ｃ４０、前記取得モジュールは、小数点位置の変動幅を取得するように構成される第１
取得モジュールを含み、ここで、前記小数点位置の変動幅は、前記量子化すべきデータの
データ変動幅を表すために用いることができ、前記小数点位置の変動幅は、前記量子化す
べきデータのデータ変動幅と正の相関がある項目Ｃ３０～Ｃ３９のいずれか一項に記載の
装置。

Ｃ４１、前記第１取得モジュールは、

前記現在検証反復に対応する小数点位置と、前記現在検証反復の前の履歴反復の小数点
位置とに基づいて第２平均値を確定し、前記現在検証反復に対応する小数点位置は、前記
現在検証反復に対応する目標データビット幅と量子化すべきデータによって確定されるよ
うに構成される第２平均値モジュールと、

前記小数点位置の変動幅を表すための第１誤差を、前記第１平均値および前記第２平均
値によって確定するように構成される第１誤差モジュールとを含む項目Ｃ４０に記載の方
法。

Ｃ４２、前記第２平均値確定ユニットは具体的に、

前記現在検証反復の小数点位置および前記プリセット数の中間スライディング平均値に
基づいて前記第２平均値を確定するように構成される項目Ｃ４１に記載の装置。

Ｃ４３、前記第２平均値確定ユニットは具体的に、前記現在検証反復に対応する小数点
位置および前記第１平均値に基づいて前記第２平均値を確定するように構成される項目Ｃ
４１に記載の装置。

Ｃ４４、前記第２平均値確定ユニットは、取得された前記現在検証反復のデータビット
幅調整値に基づいて、前記第２平均値を更新するように構成され、

ここでは、前記現在検証反復のデータビット幅調整値は、前記現在検証反復の目標デー
タビット幅と初期データビット幅に基づいて確定される項目Ｃ４１に記載の装置。

Ｃ４５、前記第２平均値確定ユニットは取得された前記現在検証反復のデータビット幅
調整値に基づいて、前記第２平均値を更新するように構成され、具体的に、

前記現在検証反復のデータビット幅調整値がプリセットパラメータよりも小さい場合、
前記現在検証反復のデータビット幅調整値に基づいて前記第２平均値を増加するように構
成される項目Ｃ４４に記載の装置。

Ｃ４６、前記反復間隔モジュールは前記第１誤差によって、前記第１誤差と負の相関が
ある前記目標反復間隔を確定するように構成される項目Ｃ４１に記載の装置。

Ｃ４７、前記取得モジュールは、第２取得モジュールをさらに含み、前記第２取得モジ
ュールは、用前記データビット幅の変動傾向を取得し、前記小数点位置の変動幅と前記デ
ータビット幅の変化傾向によって、前記量子化すべきデータのデータ変動幅を確定するよ
うに構成される項目Ｃ４０に記載の装置。

Ｃ４８、前記反復間隔モジュールはさらに、小数点位置の変動幅を表すための第１誤差
およびデータビット幅の変動傾向を表すための第２誤差によって前記目標反復間隔を確定
するように構成される項目Ｃ４７に記載の装置。

Ｃ４９、前記反復間隔確定モジュールは取得された第１誤差と第２誤差に基づいて、前
記目標反復間隔を確定するように構成され、具体的には、

前記目標反復間隔と負の相関がある前記目標誤差によって前記目標反復間隔を確定する
ように構成されるＣ４８に記載の装置。

Ｃ５０、前記第２誤差は、量子化誤差によって確定され、

前記量子化誤差は、前記現在検証反復における量子化すべきデータと前記現在検証反復
の量子化データによって確定され、前記第２誤差は前記量子化誤差と正の相関がある、項
目Ｃ４８またはＣ４９に記載の装置。

Ｃ５１、前記装置は、ニューラルネットワークのトレーニングまたは微調整を実現する
ために用いられ、前記反復間隔確定モジュールはさらに、

前記現在反復が第１プリセット反復よりも大きい場合、前記量子化すべきデータのデー
タ変動幅によって目標反復間隔を確定し、前記目標反復間隔によって前記量子化パラメー
タを調整するように構成される項目Ｃ３０～Ｃ５０のいずれか一項に記載の装置。

Ｃ５２、前記反復間隔確定モジュールはさらに、前記現在反復が前記第１プリセット反
復以下の場合、前記第１プリセット反復間隔を前記目標反復間隔とし、前記第１プリセッ
ト反復間隔によって前記量子化パラメータを調整するように構成される項目Ｃ５１に記載
の装置。

Ｃ５３、前記反復間隔確定モジュールはさらに、

前記現在反復が第２プリセット反復以上の場合、第２プリセット反復間隔を前記目標反
復間隔とし、前記第２プリセット反復間隔によって前記量子化パラメータを調整するよう
に構成され、

前記第２プリセット反復は前記第１プリセット反復よりも大きく、前記第２プリセット
反復間隔は前記第１プリセット反復間隔よりも大きい項目Ｃ５１または項目Ｃ５２に記載
の装置。

Ｃ５４、前記反復間隔確定モジュールはさらに、前記現在反復が第２プリセット反復以
上であり、かつ第２誤差がプリセット誤差値より大きい場合、前記量子化すべきデータの
データ変動幅によって反復間隔を確定し、前記反復間隔によって前記データビット幅を再
確定するように構成される項目Ｃ５３に記載の装置。

以上、本発明の実施形態について説明したが、これは例示であって、網羅的なものでは
なく、開示された実施形態に限定されるものではない。説明された実施形態の範囲および
精神から逸脱することなく、多くの修正および変更が当業者にとっては明らかであろう。
本明細書で使用される用語の選択は、様々な実施形態の原理、実際の応用、または市場に
おける技術の改良を最もよく説明すること、または本明細書で開示される様々な実施形態
を当業者が理解することができるようにすることを目的とする。

量子化パラメータ調整の問題を解決するために、技術案（２０１９１０５２８５３７．
８）を提供した。

Claims

ニューラルネットワークの量子化パラメータの調整方法であって、
量子化すべきデータのデータ変動幅を取得することと、
前記量子化すべきデータのデータ変動幅に基づいて、目標反復間隔を確定することにより、前記目標反復間隔に基づいてニューラルネットワーク演算の量子化パラメータを調整することと、を含み、
前記目標反復間隔は少なくとも１回の反復を含み、前記ニューラルネットワークの量子化パラメータは、前記ニューラルネットワークの演算における量子化すべきデータに対する量子化動作を実現するためのものである、ことを特徴とするニューラルネットワークの量子化パラメータの調整方法。
前記量子化パラメータは小数点位置を含み、前記小数点位置は、前記量子化すべきデータに対応する量子化データにおける小数点の位置であり、
前記ニューラルネットワークの量子化パラメータの調整方法は、
現在検証反復に対応する目標データビット幅および前記現在検証反復の量子化すべきデータに基づいて、前記目標反復間隔における反復に対応する小数点位置を確定して、前記ニューラルネットワーク演算における小数点位置を調整することをさらに含み、
前記目標反復間隔における反復に対応する小数点位置は一致している、ことを特徴とする請求項１に記載のニューラルネットワークの量子化パラメータの調整方法。
前記量子化パラメータは小数点位置を含み、前記小数点位置は、前記量子化すべきデータに対応する量子化データにおける小数点の位置であり、
前記ニューラルネットワークの量子化パラメータの調整方法は、
現在検証反復に対応する目標データビット幅に基づいて、前記目標反復間隔に対応するデータビット幅を確定することと、
取得された小数点位置の反復間隔と前記目標反復間隔に対応するデータビット幅に基づいて、前記目標反復間隔における反復に対応する小数点位置を調整し、前記ニューラルネットワーク演算における小数点位置を調整することとを含み、
前記目標反復間隔における反復に対応するデータビット幅は一致しており、
前記小数点位置の反復間隔には少なくとも一回の反復が含まれ、前記小数点位置の反復間隔における反復の小数点位置は一致しており、前記小数点位置の反復間隔は前記目標反復間隔以下である、ことを特徴とする請求項１に記載のニューラルネットワークの量子化パラメータの調整方法。
前記量子化パラメータはスケーリング係数をさらに含み、前記スケーリング係数は前記小数点位置と同期して更新され、および／または、
前記量子化パラメータはオフセットをさらに含み、前記オフセットは前記小数点位置と同期して更新される、ことを特徴とする請求項２～３のいずれか一項に記載のニューラルネットワークの量子化パラメータの調整方法。
前記ニューラルネットワークの量子化パラメータの調整方法は、
前記現在検証反復の量子化すべきデータと、前記現在検証反復の量子化すべきデータを量子化することによって得られる前記現在検証反復の量子化データとに基づいて量子化誤差を確定することと、
前記量子化誤差に基づき、前記現在検証反復に対応する目標データビット幅を確定することとをさらに含む、ことを特徴とする請求項２～３のいずれか一項に記載のニューラルネットワークの量子化パラメータの調整方法。
前記量子化誤差に基づき、前記現在検証反復に対応する目標データビット幅を確定することは、
前記量子化誤差が第１プリセット閾値以上である場合、前記現在検証反復に対応するデータビット幅を大きくして、前記現在検証反復に対応する目標データビット幅を取得すること、または、
前記量子化誤差が第２プリセット閾値以下である場合、前記現在検証反復に対応するデータビット幅を小さくして、前記現在検証反復に対応する目標データビット幅を取得することを含む、ことを特徴とする請求項５に記載のニューラルネットワークの量子化パラメータの調整方法。
前記量子化誤差が第１プリセット閾値以上である場合、前記現在検証反復に対応するデータビット幅を大きくして、前記現在検証反復に対応する目標データビット幅を取得することは、
前記量子化誤差が第１プリセット閾値以上である場合、第１プリセットビット幅のステップ長さに基づいて第１中間データビット幅を確定することと、
前記量子化誤差が前記第１プリセット閾値より小さくなるまで、前記現在検証反復における量子化すべきデータと前記現在検証反復の量子化データに基づいて量子化誤差を確定することを戻して実行することとを含み、
前記現在検証反復の量子化データは、前記第１中間データビット幅に基づいて前記現在検証反復の量子化すべきデータを量子化することで得られるものであり、
前記量子化誤差が第２プリセット閾値以下である場合、前記現在検証反復に対応するデータビット幅を小さくすることは、
前記量子化誤差が第２プリセット閾値以下である場合、第２プリセットビット幅のステップ長さに基づいて第２中間データビット幅を確定することと、
前記量子化誤差が前記第２プリセット閾値より大きくなるまで、前記現在検証反復における量子化すべきデータと前記現在検証反復の量子化データに基づいて量子化誤差を確定することを戻して実行することとを含み、
前記現在検証反復の量子化データは、前記第２中間データビット幅に基づいて前記現在検証反復の量子化すべきデータを量子化することで得られるものである、ことを特徴とする請求項６に記載のニューラルネットワークの量子化パラメータの調整方法。
前記量子化すべきデータのデータ変動幅を取得することは、
小数点位置の変動幅を取得することを含み、前記小数点位置の変動幅は、前記量子化すべきデータのデータ変動幅を表すために用いられ、前記小数点位置の変動幅は、前記量子化すべきデータのデータ変動幅と正の相関がある、ことを特徴とする請求項２～７のいずれか一項に記載のニューラルネットワークの量子化パラメータの調整方法。
前記小数点位置の変動幅を取得することは、
前記現在検証反復前の１つの前の検証反復に対応する小数点位置、および前記１つの前の検証反復前の履歴反復に対応する小数点位置に基づいて、第１平均値を確定することと、
前記現在検証反復に対応する小数点位置、および前記現在検証反復の前の履歴反復の小数点位置に基づいて、第２平均値を確定することと、
前記第１平均値および前記第２平均値に基づいて、前記小数点位置の変動幅を表すための第１誤差を確定することとを含み、
前記１つの前の検証反復は前記目標反復間隔の前の１つ前の反復間隔に対応する検証反復であり、
前記現在検証反復に対応する小数点位置は、前記現在検証反復に対応する目標データビット幅および量子化すべきデータによって確定される、ことを特徴とする請求項８に記載のニューラルネットワークの量子化パラメータの調整方法。
前記現在検証反復に対応する小数点位置、および前記現在検証反復の前の履歴反復の小数点位置に基づいて、第２平均値を確定することは、
プリセット数の中間スライディング平均値を取得することと、
前記現在検証反復の小数点位置および前記プリセット数の中間スライディング平均値に基づいて、第２平均値を確定することとを含み、
前記中間スライディング平均値のそれぞれは、前記現在検証反復の前の前記プリセット数の検証反復に基づいて確定され、または、
前記現在検証反復に対応する小数点位置、および前記現在検証反復の前の履歴反復の小数点位置に基づいて、第２平均値を確定することは、
前記現在検証反復に対応する小数点位置および前記第１平均値に基づいて、前記第２平均値を確定することを含む、ことを特徴とする請求項９に記載のニューラルネットワークの量子化パラメータの調整方法。
前記ニューラルネットワークの量子化パラメータの調整方法は、
取得された前記現在検証反復のデータビット幅調整値に基づいて、前記第２平均値を更新することをさらに含み、
前記現在検証反復のデータビット幅調整値は、前記現在検証反復の目標データビット幅と初期データビット幅に基づいて確定される、ことを特徴とする請求項９に記載のニューラルネットワークの量子化パラメータの調整方法。
取得された前記現在検証反復のデータビット幅調整値に基づいて、前記第２平均値を更新することは、
前記現在検証反復のデータビット幅調整値がプリセットパラメータより大きい場合、前記現在検証反復のデータビット幅調整値に基づいて前記第２平均値を減少することと、
前記現在検証反復のデータビット幅調整値がプリセットパラメータよりも小さい場合、
前記現在検証反復のデータビット幅調整値に基づいて前記第２平均値を増加することとを含む、ことを特徴とする請求項１１に記載のニューラルネットワークの量子化パラメータの調整方法。
前記量子化すべきデータのデータ変動幅に基づいて目標反復間隔を確定することは、
前記第１誤差によって前記目標反復間隔を確定することを含み、前記目標反復間隔は前記第１誤差と負の相関がある、ことを特徴とする請求項９に記載のニューラルネットワークの量子化パラメータの調整方法。
量子化すべきデータのデータ変動幅を取得することは、
データビット幅の変化傾向を取得することと、
前記小数点位置の変動幅および前記データビット幅の変化傾向に基づいて、前記量子化すべきデータのデータ変動幅を確定することとをさらに含む、ことを特徴とする請求項８～１３のいずれか一項に記載のニューラルネットワークの量子化パラメータの調整方法。
前記量子化すべきデータのデータ変動幅に基づいて目標反復間隔を確定することは、
取得した、小数点位置の変動幅を表すための第１誤差およびデータビット幅の変化傾向を表すための第２誤差に基づいて、前記目標反復間隔を確定することをさらに含み、前記第２誤差は量子化誤差によって確定され、
取得した前記第２誤差および前記第１誤差に基づいて前記目標反復間隔を確定することは、
前記第１誤差と前記第２誤差のうちの最大値を目標誤差とすることと、
前記目標誤差に基づいて前記目標反復間隔を確定することとを含み、前記目標誤差は前記目標反復間隔と負の相関がある、ことを特徴とする請求項１４に記載のニューラルネットワークの量子化パラメータの調整方法。
前記ニューラルネットワークの量子化パラメータの調整方法は、ニューラルネットワークのトレニングまたは微調整に利用され、
現在反復が第１プリセット反復よりも大きい場合、前記量子化すべきデータのデータ変動幅によって目標反復間隔を確定し、前記目標反復間隔によって前記量子化パラメータを調整することと、
前記現在反復が前記第１プリセット反復以下である場合、第１プリセット反復間隔を前記目標反復間隔とし、前記第１プリセット反復間隔によって前記量子化パラメータを調整することと、
前記現在反復が第２プリセット反復以上である場合、第２プリセット反復間隔を前記目標反復間隔とし、前記第２プリセット反復間隔によって前記量子化パラメータを調整することと、
前記現在反復が第２プリセット反復以上であり、かつ第２誤差がプリセット誤差値より大きい場合、前記量子化すべきデータのデータ変動幅によって反復間隔を確定し、前記反復間隔によって前記データビット幅を再確定することとをさらに含み、
前記第２プリセット反復は前記第１プリセット反復よりも大きく、前記第２プリセット反復間隔は前記第１プリセット反復間隔よりも大きい、ことを特徴とする請求項３に記載のニューラルネットワークの量子化パラメータの調整方法。
メモリおよびプロセッサを備え、前記メモリはコンピュータプログラムを格納し、前記プロセッサが前記コンピュータプログラムを実行すると、請求項１から１６のいずれか一項に記載のニューラルネットワークの量子化パラメータの調整方法のステップが実施される、ことを特徴とするニューラルネットワークの量子化パラメータの調整装置。
コンピュータプログラムを格納するコンピュータ可読記憶媒体であって、プロセッサによって、前記コンピュータプログラムが実行されると、請求項１から１６のいずれか一項に記載のニューラルネットワークの量子化パラメータの調整方法のステップが実施される、ことを特徴とするコンピュータ可読記憶媒体。