JP7298266B2 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
JP7298266B2
JP7298266B2 JP2019080454A JP2019080454A JP7298266B2 JP 7298266 B2 JP7298266 B2 JP 7298266B2 JP 2019080454 A JP2019080454 A JP 2019080454A JP 2019080454 A JP2019080454 A JP 2019080454A JP 7298266 B2 JP7298266 B2 JP 7298266B2
Authority
JP
Japan
Prior art keywords
information processing
delimiter
quantization
setting unit
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019080454A
Other languages
English (en)
Other versions
JP2020177535A (ja
Inventor
靖文 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019080454A priority Critical patent/JP7298266B2/ja
Priority to EP20166174.1A priority patent/EP3726372B1/en
Priority to US16/840,601 priority patent/US11675567B2/en
Priority to CN202010285832.8A priority patent/CN111831251A/zh
Publication of JP2020177535A publication Critical patent/JP2020177535A/ja
Application granted granted Critical
Publication of JP7298266B2 publication Critical patent/JP7298266B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/499Denomination or exception handling, e.g. rounding or overflow
    • G06F7/49942Significance control
    • G06F7/49947Rounding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/499Denomination or exception handling, e.g. rounding or overflow
    • G06F7/49905Exception handling
    • G06F7/4991Overflow or underflow
    • G06F7/49915Mantissa overflow or underflow in handling floating-point numbers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F5/00Methods or arrangements for data conversion without changing the order or content of the data handled
    • G06F5/01Methods or arrangements for data conversion without changing the order or content of the data handled for shifting, e.g. justifying, scaling, normalising
    • G06F5/012Methods or arrangements for data conversion without changing the order or content of the data handled for shifting, e.g. justifying, scaling, normalising in floating-point computations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
アナログ的にコンダクタンスが変化するニューロモルフィック素子を利用して、ニューラルネットワークの処理に必要な積和演算を実行する手法が提案されている(例えば、特許文献1参照)。音声符号化装置において、数値計算での桁落ちによる線形予測係数の精度の低下をニューラルネットワークの学習機能を用いて防止する手法が提案されている(例えば、特許文献2参照)。音声と画像とを用いて音声の認識を行う場合に、音声と画像とのそれぞれの特徴パラメータを最適に統合し、認識装置における認識性能を向上させる手法が提案されている(例えば、特許文献3参照)。
特許第6293963号 特開平5-303398号公報 特開2000-200098号公報
例えば、ニューラルネットワークの計算に使用するデータや重みなどの各種変数を浮動小数点数で表現する場合、ニューラルネットワークの計算の精度を向上できるが、使用する演算器の規模は大きくなり、計算時間は長くなる。一方、データや重みなどの各種変数を量子化して固定小数点数で表現する場合、演算器の規模を削減でき、計算時間も短くできるが、ニューラルネットワークの計算の精度は低下するおそれがある。計算の精度が低下した場合、ニューラルネットワークの学習の精度は低下し、学習により構築されたニューラルネットワークを用いた推論処理等の精度は低下する。
1つの側面では、本発明は、量子化した変数を使用してニューラルネットワークの計算を実行する場合に、計算の精度が低下することを抑止することを目的とする。
一つの観点によれば、情報処理装置は、ニューラルネットワークの計算を実行する情報処理装置であって、前記計算に使用する変数を量子化する場合の区切り位置を順次変更し、前記区切り位置の変更毎に量子化前後の変数の差分に基づく量子化誤差を算出し、前記量子化誤差が最小になる前記区切り位置を量子化に使用する前記区切り位置に設定する位置設定部と、前記位置設定部が設定した前記区切り位置に基づいて変数を量子化する量子化部と、を有することを特徴とする。
1つの側面では、本発明は、量子化した変数を使用してニューラルネットワークの計算を実行する場合に、計算の精度が低下することを抑止することができる。
一実施形態における情報処理装置の一例を示すブロック図である。 図1の情報処理装置の動作の一例を示す説明図である。 別の実施形態における情報処理装置の一例を示すブロック図である。 図3の情報処理装置の動作の一例を示す説明図である。 図4で説明した更新処理により最適化された区切り位置と、最適化された区切り位置により量子化された変数を示す説明図である。 図3の情報処理装置によるニューラルネットワークの学習の一例を示すフロー図である。 図6のステップS12の一例を示すフロー図である。 他の情報処理装置によるニューラルネットワークの学習の一例を示すフロー図である。 学習を繰り返した場合のニューラルネットワークの認識精度の一例を示す説明図である。 図7のステップS12の別の例を示すフロー図である。 図7のステップS12のさらなる別の例を示すフロー図である。 別の実施形態における情報処理装置の動作の一例を示すフロー図である。 さらなる別の実施形態における情報処理装置の動作の一例を示すフロー図である。 別の実施形態における情報処理装置の動作の一例を示すフロー図である。 別の実施形態における情報処理装置の動作の一例を示すフロー図である。
以下、図面を用いて実施形態を説明する。
図1は、一実施形態における情報処理装置の一例を示す。図1に示す情報処理装置100は、例えば、ニューラルネットワークを用いた画像処理等の学習または推論に使用される。情報処理装置100は、通信バス40で相互に接続されたCPU(Central Processing Unit)10、メモリ20およびアクセラレータ30を有する。なお、情報処理装置100は、CPU10の代わりに他のプロセッサを有してもよい。また、情報処理装置100は、図示した以外の要素を含んでもよく、さらに、情報処理装置100は、アクセラレータ30を持たなくてもよい。
CPU10は、図示しない演算器と、位置設定部12および量子化部14とを有する。位置設定部12および量子化部14は、ハードウェアにより実現されてもよく、CPU10がメモリ20に保持された情報処理プログラムを実行することで実現されてもよい。位置設定部12および量子化部14の機能は、後述する。
メモリ20は、OS(Operating System)およびアプリケーションプログラム等の各種プログラムと、ニューラルネットワークの処理で使用するデータおよび変数等とを記憶する。メモリ20は、ニューラルネットワークの計算の途中で生成される中間データ等を記憶してもよい。アクセラレータ30は、例えば、GPU(Graphics Processing Unit)またはDSP(Digital Signal Processor)等であり、CPUに代わってニューラルネットワークの積和演算や行列演算等を実行可能である。
なお、この実施形態では、例えば、固定小数点数データを用いてニューラルネットワークの計算が実行されるため、CPU10およびアクセラレータ30は、図示しない固定小数点演算器を有する。また、固定小数点数データを用いてニューラルネットワークの計算を実行する場合に計算の精度を低下させないために、CPU10は、浮動小数点数データを量子化して固定小数点数データに変換する場合、量子化の区切り位置(閾値)を最適化する処理を実行する。量子化の区切り位置の最適化については、図2で説明する。
位置設定部12は、ニューラルネットワークの計算に使用する重み等の変数を量子化する場合の閾値である区切り位置を、量子化前の変数と量子化後の変数との差分に基づいて算出される量子化誤差を小さくするように設定する。
量子化部14は、例えば、メモリ20に記憶された浮動小数点数データ(入力データや重み)を読み出し、位置設定部12が設定した区切り位置に基づいて、浮動小数点数データを量子化することで、固定小数点数データに変換する。あるいは、量子化部14は、位置設定部12が設定した区切り位置に基づいて、ニューラルネットワークの計算で得られた中間データ等の固定小数点数データの区切り位置を変更する。そして、情報処理装置100は、区切り位置が最適化された固定小数点数データを用いて、順伝播(forward propagation)、誤差逆伝播(back-propagation)および重みを更新する最適化(optimization)等のディープニューラルネットワークの処理を実行する。
図2は、図1の情報処理装置100の動作の一例を示す。例えば、図2に示す動作は、CPU10が実行する情報処理プログラムにより実現される。すなわち、図2は、情報処理装置100による情報処理方法および情報処理装置100が実行する情報処理プログラムによる動作の例を示す。
図2に示す例では、ニューラルネットワークの計算で使用する変数の1つである重みを量子化する動作について説明するが、入力データやレイヤー間での中間データを量子化する場合も同様である。例えば、図2では、ニューラルネットワークにおけるレイヤーのいずれかで使用する重み(丸印)を、数直線上に並べている。図2の数直線は、図の左側ほど値が大きく、図の右側ほど値が小さい。また、重みの値は、丸印の中心で示される。
図2に示す例では、各重みは、4値(2進数の”11”、”10”、”01”、”00”)のいずれかに量子化される。量子化後の値の個数である量子化数(量子化する個数)は、2個である。量子化数を2のm乗個(mは1以上の自然数)に設定することで、量子化後の変数を、mビットの2進数の全ての値を用いて表すことができ、固定小数点数データとしてニューラルネットワークの演算を通常の演算器を使用して実行することができる。この例では、量子化後の重みは、2ビットの固定小数点数で表される。
浮動小数点数データを固定小数点数データに量子化することで、浮動小数点数データを用いて演算を実行する場合に比べて、乗算器等の演算器の構成を簡易にすることができ、CPU10またはアクセラレータ30に搭載できる演算器の数を増やすことができる。これにより、浮動小数点数データの演算を実行する場合に比べて、ニューラルネットワークの演算の処理性能を向上することができる。
量子化数を”4”にする場合、位置設定部12は、量子化の上限Δ0と下限Δ4との間に、量子化するときの閾値である区切り位置Δ1、Δ2、Δ3を設定する。なお、以下では、上限Δ0および下限Δ4も、区切り位置と称する場合もある。量子化後の値の個数である量子化数は、2値以上であれば、4値以外でもよいが、上述したように、2のm乗個であることが好ましい。
例えば、位置設定部12は、互いに隣接する2つの区切り位置(Δ0とΔ1、Δ1とΔ2、Δ2とΔ3、Δ3とΔ4)の間隔が均等な初期状態から、区切り位置Δ1、Δ2、Δ3を設定する処理を開始する。区切り位置Δ1、Δ2、Δ3を設定する前の初期状態において、区切り位置の間隔を均等にすることで、区切り位置Δ1、Δ2、Δ3を最適化するための計算量を減らすことができる。
例えば、位置設定部12は、重みの最大値maxを量子化の上限Δ0に設定し、重みの最小値minを量子化の下限Δ4に設定する。なお、量子化する重みの上限を予め上限Δ0に決めてもよい。この場合、上限Δ0を超える重みの値は、上限Δ0の値に変更される。同様に、量子化する重みの下限を予め下限Δ4に決めてもよい。この場合、下限Δ4を下回る重みの値は、下限Δ4の値に変更される。
位置設定部12は、例えば、区切り位置Δ1、Δ2、Δ3を順次変更し、変更する毎に、量子化前の重みと量子化後の重みとの値の差分に基づいて量子化誤差を算出する。例えば、位置設定部12は、まず、区切り位置Δ1を、区切り位置Δ0と区切り位置Δ2との間で順次変更して量子化誤差を算出し、量子化誤差が最小となる区切り位置Δ1を新たな区切り位置Δ1とする。
次に、位置設定部12は、区切り位置Δ2を、新たな区切り位置Δ1と区切り位置Δ3との間で順次変更して量子化誤差を算出し、量子化誤差が最小となる区切り位置Δ2を新たな区切り位置Δ2とする。次に、位置設定部12は、区切り位置Δ3を、新たな区切り位置Δ2と区切り位置Δ4との間で順次変更して量子化誤差を算出し、量子化誤差が最小となる区切り位置Δ3を新たな区切り位置Δ3とする。
この後、位置設定部12は、新たに設定した区切り位置Δ1、Δ2、Δ3を順次変更し、変更する毎に、量子化前の重みと量子化後の重みとの値の差分に基づいて量子化誤差を算出する。そして、新たな区切り位置Δ1、Δ2、Δ3を求める処理を、区切り位置Δ1、Δ2、Δ3が変化しなくなるまで繰り返し実行し、量子化誤差が最小となる区切り位置Δ1、Δ2、Δ3の組合せを決定する。
区切り位置Δ1-Δ3を順次変更して量子化誤差を算出することで、最適な区切り位置Δ1、Δ2、Δ3が見つけられるため、例えば、簡易な情報処理プログラムによるループ処理を繰り返すことで、量子化誤差の最小値を検出することができる。なお、最適な区切り位置Δ1、Δ2、Δ3を求める手法は、上述に限定されず、計算量は増加するが、総当たりで求めてもよい。
位置設定部12は、式(1)を用いて量子化誤差LOSSを算出してもよい。
Figure 0007298266000001
式(1)において、nは、量子化数(nは2以上の自然数)であり、kは、量子化対象の変数Wの非ゼロ要素の要素数である。Wkiは、変数Wと同じ要素数を持ち、かつ変数Wから絶対値の大きい順にk個の要素を取り出し、それ以外の要素は0とした変数である。
式(1)は、量子化前の変数の集合Wと、量子化後の変数の集合Wの量子化誤差を二乗誤差で表した式(2)を展開することで得られ、量子化された変数の量子化誤差が最小となる条件式である。
Figure 0007298266000002
式(2)において、Wは、量子化前のパラメータの集合であり、Wは、量子化後のパラメータの集合である。
位置設定部12が最適な区切り位置Δ1、Δ2、Δ3を設定した後、量子化部14は、位置設定部12が設定した区切り位置Δ0、Δ1、Δ2を閾値として、浮動小数点数で表された各重みを4値のいずれかに量子化する。例えば、量子化部14は、式(3)を使用して、重みを量子化する。
Figure 0007298266000003
式(3)において、WQiは、量子化後の変数の値である。ki*は、量子化対象の重みのテンソルの非ゼロ要素の要素数を示し、量子化誤差LOSSを最小化するkの値である。Wk1*は、設定された区切り位置によって分割された量子化対象の重みの各テンソルを用いて得られる集合を示す。
そして、情報処理装置100は、それぞれ最適に量子化された変数等を用いて、ニューラルネットワークの計算を実行する。例えば、情報処理装置100は、ニューラルネットワークを用いた推論において、ニューラルネットワークの入力側から計算を順次実行する順伝播処理を実行する。また、情報処理装置100は、ニューラルネットワークを用いた学習において、順伝播処理に続いて、ニューラルネットワークの出力側から計算を順次実行する逆伝播処理を実行する。さらに、情報処理装置100は、逆伝播処理の結果に基づいて変数を更新する更新処理を実行する。
なお、量子化するための区切り位置は、ミニバッチ毎に設定されてもよく、順伝播処理、逆伝播処理および更新処理の各々に対応して設定されてもよい。量子化するための区切り位置を、量子化誤差LOSSが最小となるように設定することで、区切り位置を変更しない場合に比べて、ニューラルネットワークの計算の精度を向上することができる。例えば、画像中の物体を認識するニューラルネットワークにおいて、区切り位置を変更しない場合に比べて、画像の認識率を向上することができる。
また、量子化によりビット数を削減した固定小数点数データを使用してニューラルネットワークの計算を実行する場合の認識率を、浮動小数点数データを使用してニューラルネットワークの計算を実行する場合の認識率と同等以上にすることできる。この結果、浮動小数点数データを使用する場合に比べて、CPU10の演算効率を向上することができ、電力効率を向上することができる。
以上、図1および図2に示す実施形態では、区切り位置を、量子化誤差が最小となるように設定することで、区切り位置を変更しない場合に比べて、ニューラルネットワークの計算の精度を向上することができる。すなわち、量子化した変数を使用してニューラルネットワークの計算を実行する場合に、認識精度が低下することを抑止することができる。
例えば、固定小数点数データを用いてニューラルネットワークの演算を実行することができるため、浮動小数点数データで演算を実行する場合に比べて、乗算器等の演算器の構成を簡易にすることができ、CPU10に搭載できる演算器の数を増やすことができる。この結果、浮動小数点数データで演算を実行する場合に比べて、ニューラルネットワークの演算の処理性能を向上することができる。CPU10の演算効率を向上することができ、電力効率を向上することができる。
図3は、別の実施形態における情報処理装置の一例を示す。図1と同様の要素については、同じ符号を付し、詳細な説明は省略する。図3に示す情報処理装置100Aは、図1に示した情報処理装置100と同様に、例えば、ニューラルネットワークにおける画像処理等の学習または推論に使用される。情報処理装置100Aは、通信バス40で相互に接続されたCPU10A、メモリ20、アクセラレータ30、補助記憶装置50および通信インタフェース60を有する。なお、情報処理装置100Aは、図示した以外の要素を含んでもよい。
CPU10Aは、図示しない演算器と、位置設定部12Aおよび量子化部14Aとを有する。CPU10Aおよびアクセラレータ30は、上述した実施形態と同様に、図示しない固定小数点演算器を有する。位置設定部12Aおよび量子化部14Aは、ハードウェアにより実現されてもよく、CPU10Aがメモリ20に保持された情報処理プログラムを実行することで実現されてもよい。位置設定部12Aは、例えば、重み等の変数を8値のいずれかに量子化するための7個の区切り位置を設定することを除き、図1に示した位置設定部12の機能と同様の機能を有する。量子化部14Aは、位置設定部12Aにより設定された7個の区切り位置に基づいて、変数を量子化することを除き、図1に示した量子化部14の機能と同様の機能を有する。
補助記憶装置50は、CPU10Aが実行するOS(Operating System)およびアプリケーションプログラム等の各種プログラムと、ニューラルネットワークの計算で使用するデータ、重み等の各種変数等とを記憶する。補助記憶装置50が記憶するプログラム等は、メモリ20に転送され、CPU10Aにより実行される。通信インタフェース60は、例えば、ネットワークを介して他の情報処理装置等と通信する機能を有する。これにより、ニューラルネットワークの計算を複数の情報処理装置を使用して並列に実行することが可能になる。
図4および図5は、図3の情報処理装置100Aの動作の一例を示す。図2で説明した動作と同様の動作については、詳細な説明は省略する。例えば、図4および図4で説明する動作は、CPU10Aが実行する情報処理プログラムにより実現される。すなわち、図4および図5は、情報処理装置100Aによる情報処理方法および情報処理装置100Aが実行する情報処理プログラムによる動作の説明を示す。
図4に示す例においても、図2と同様に、ニューラルネットワークの計算で使用する変数の1つである重みを量子化する例について説明する。なお、入力データ、活性化関数(activation functions)、ニューラルネットワークに含まれるレイヤーから出力される中間データ等が、ニューラルネットワークの計算で使用するために量子化されてもよい。
図4および図5の数直線は、絶対値を示しており、正負は区別されない。数直線は、図の左側ほど絶対値が大きく、図の右側ほど絶対値が小さい。なお、量子化する前の変数(重み)は、浮動小数点数(32ビットまたは16ビット等)で表される。
この実施形態では、各重みの絶対値は、8値(2進数の”111”、”110”、”101”、”100”、”011”、”010”、”001”、”000”)のいずれかに量子化される。すなわち、量子化により振り分けられる値の個数である量子化数は、8個(2の3乗個)である。この場合、量子化の上限Δ0と下限Δ8との間に、量子化するときの閾値である7個の区切り位置Δ1、Δ2、Δ3、Δ4、Δ5、Δ6、Δ7が設定される。この場合、量子化後の重みは、3ビットの固定小数点数で表される。
なお、図4では、上限Δ0より値が大きい重みは、上限Δ0に変更され、下限Δ8より値が小さい重みは、下限Δ8に変更される。例えば、上限Δ0および下限Δ8は、ニューラルネットワークの設計者や、ニューラルネットワークを使用する使用者により、予め決められる。
図4の上側の太い曲線は、浮動小通点数データで表される量子化対象の変数(この例では重み)の分布を示し、符号W-Wは、区切り位置Δ1-Δ7により分割された量子化対象の変数群を示す。図4の下側の矩形は、区切り位置Δ1-Δ7を閾値として量子化した場合の変数の分布を示し、符号WQ1-WQ8は、量子化された変数を示す。なお、量子化数は、ニューラルネットワークの設計者や、ニューラルネットワークを使用する使用者により、n個(nは2以上の自然数)に予め指定される。
例えば、位置設定部12Aは、重みを量子化する処理を開始する前に、区切り位置Δ1、Δ2、Δ3、Δ4、Δ5、Δ6、Δ7を、上限Δ0と下限Δ8との間に等間隔に配置する。そして、位置設定部12Aは、量子化対象の重みのテンソルに含まれる要素を絶対値が大きい順に並べ替える。このため、符号W-Wの各々で示される変数群は、正値と負値の両方を含み得る。次に、位置設定部12Aは、並べ替えた重みを、区切り位置にしたがって8個の集合に分割する。
位置設定部12Aは、重みを分割した後に、図2で説明した処理と同様に、重みを量子化する区切り位置のうち、区切り位置Δ1を、区切り位置Δ0から区切り位置Δ2の範囲を順次変更する毎に、上述した式(1)を用いて量子化誤差を計算する。位置設定部12Aは、区切り位置Δ1を動かした範囲内で量子化誤差の値が最小となった位置に区切り位置Δ1を更新する。
次に、位置設定部12Aは、区切り位置Δ2を、更新された新たな区切り位置Δ1から区切り位置Δ3の範囲を順次変更する毎に、上述した式(1)を用いて量子化誤差を計算する。位置設定部12Aは、区切り位置Δ2を動かした範囲内で量子化誤差の値が最小となった位置に区切り位置Δ2を更新する。
位置設定部12Aは、区切り位置Δ3、Δ4、Δ5、Δ6、Δ7の各々について、上述した区切り位置Δ1、Δ2の更新処理と同様に更新処理を順次行う。さらに、位置設定部12Aは、更新した区切り位置Δ1-Δ7の各々について、上述した区切り位置Δ1、Δ2の更新処理と同様に更新処理を順次行う。位置設定部12Aは、区切り位置Δ1-Δ7の少なくともいずれかが更新された場合、更新後の区切り位置Δ1-Δ7を使用して、さらなる更新処理を実行する。すなわち、位置設定部12Aは、全ての区切り位置Δ1-Δ7が更新されなくなるまで、更新処理を繰り返し実行する。
なお、図4に示す最適な区切り位置Δ1-Δ7を求める処理を、正負が区別されない絶対値を用いて実施する場合、正負を区別する場合に比べて、量子化のための計算量を少なくすることができる。一方で、ニューラルネットワークでの認識率の劣化量(すなわち、量子化誤差量)は、正負を区別する場合に比べて多くなる。このため、量子化のための計算量を抑えたい場合、正負が区別されない絶対値を用いて最適な区切り位置を求める処理を実行することが好ましい。
図5は、図4で説明した更新処理により最適化された区切り位置Δ1-Δ7と、最適化された区切り位置Δ1-Δ7により量子化された変数を示す。すなわち、図5は、更新されなくなった場合の区切り位置Δ1-Δ7を示している。
位置設定部12Aによる区切り位置Δ1-Δ7の更新処理が完了した場合、量子化部14Aは、上述した式(3)を用いて、重みの量子化を行う。すなわち、量子化部14Aは、設定された区切り位置によって分割された量子化対象の重みの各テンソルを用いて得られる集合(Wk1*~Wkn*)と、それらテンソルの非ゼロ要素の要素数(k1*~kn*)を用いて、変数の量子化を行う。これにより、量子化対象の重みは、量子化後の値WQ1-WQ8のいずれかに振り分けられる。なお、値WQ1-WQ8は、正負が区別されていない絶対値である。
これにより、情報量の多い16ビットまたは32ビットの浮動小数点数データを、情報量の少ない3ビットの固定小数点数データに量子化する場合にも、ニューラルネットワークの計算の精度が低下することを抑止できる。例えば、画像中の物体を認識するニューラルネットワークにおいて、区切り位置を変更しない場合に比べて、画像の認識率を向上することができる。
図6は、図3の情報処理装置100によるニューラルネットワークの学習の一例を示す。例えば、図6に示すフローは、CPU10Aが実行する情報処理プログラムにより実現される。すなわち、図6に示すフローは、情報処理装置100Aによる情報処理方法および情報処理装置100Aが実行する情報処理プログラムによる動作の例を示す。例えば、図6は、エポック毎に実行される。1エポックは、ニューラルネットワークの学習を行うデータサイズに相当するサイズの処理を行う単位であり、所定数のミニバッチの処理を含む。
まず、CPU10Aは、ステップS10において、ニューラルネットワークの学習を行うために、重み等の各種変数の初期値の設定、ミニバッチサイズの設定等の設定の初期化を行う。
次に、CPU10Aの位置設定部12Aは、ステップS12において、量子化誤差を最小にするために、図4および図5で説明したように、量子化処理に使用する区切り位置を設定する。区切り位置の設定処理の例は、図7で説明する。次に、CPU10Aの量子化部14Aは、ステップS14において、ステップS12で設定された区切り位置を閾値として使用して、図5で説明したように、重み等の変数を量子化する。例えば、位置設定部12Aは、上述した式(3)を用いて、変数を量子化する。なお、量子化される変数は、ニューラルネットワークに入力される入力データおよびニューラルネットワークのレイヤー間で入出力される中間データを含んでもよく、その場合、区切り位置の設定は、変数毎に実施されてもよい。
次に、CPU10Aは、ステップS16において、ニューラルネットワークへの入力データおよびニューラルネットワークに設定された重み等の変数に基づいて、ニューラルネットワークの入力層から出力層に向けた計算、すなわち順伝播の計算を実行する。順伝播の計算の結果、ニューラルネットワークの出力層の出力を関数とする損失関数(loss function)の値が計算される。
ニューラルネットワークの学習の目的は、ニューラルネットワークに設定される重みの値を更新することである。このため、CPU10Aは、ステップS16の後、ステップS18において、ニューラルネットワークの出力層から入力層に向けた計算、すなわち、誤差逆伝播の計算の行うことで、重みの更新幅を決定する。例えば、誤差逆伝播の計算に使用される重みの更新幅を決定するアルゴリズムとして、勾配降下法(gradient descent)が使用される。
次に、CPU10Aは、誤差逆伝播の計算の後、ステップS20において、算出された重みの更新幅を用いて、重みの値を更新する。次に、ステップS22において、CPU10Aは、1エポックの学習に対応する入力データが全て入力された場合、処理を終了し、入力されていない入力データがある場合、処理をステップS12に戻す。
そして、CPU10Aは、1エポックの学習に対応する入力データが全て入力されるまで、順伝播の計算、誤差逆伝播の計算、重みの更新の操作を繰り返し実行する。例えば、ステップS12、S14、S16、S18、S20の処理は、ミニバッチサイズ毎に実行される。換言すれば、1エポックの処理が完了するまで、ミニバッチが繰り返し実行される。この実施形態では、ミニバッチ毎に繰り返される学習毎にステップS12により区切り位置が更新され、ステップS14により変数が量子化され、量子化誤差が最小となる位置で変数が量子化される。これにより、量子化された重み等の変数を使用するニューラルネットワークの認識率の劣化を低減することができる。
なお、図6に示す処理では、ミニバッチ毎に、ニューラルネットワークの計算の前に、区切り位置が設定され、設定された区切り位置にしたがって重み等が量子化される。そして、ニューラルネットワークの計算は、当該ミニバッチで設定された区切り位置を使用して量子化された重み等を使用して実行される。このため、ニューラルネットワークの計算は、区切り位置を設定し、重み等を量子化したCPU10Aにより実行されることが、他の情報処理装置へのデータ転送を発生させない点で効率的である。
図7は、図6のステップS12の一例を示す。まず、ステップS120において、位置設定部12Aは、量子化対象の変数である重み等の変数を絶対の大きさ順に並べる。すなわち、変数は正負の区別なく並べられる。次に、ステップS121において、位置設定部12Aは、量子化対象の変数である重み等の変数を現在の区切り位置にしたがって分割する。
次に、ステップS122において、位置設定部12Aは、区切り位置を示す変数Sを”0”に設定し、値が最大の区切り位置S7を示す変数Smaxを”7”に設定する。次に、ステップS123において、位置設定部12Aは、変数Sを”1”増加させる。
次に、ステップS124において、位置設定部12Aは、図4で説明したように、変数Sで示される区切り位置ΔSを、区切り位置ΔS-1から区切り位置ΔS+1まで順次変更し、各区切り位置ΔSでの量子化誤差を算出する。例えば、S=”1”の場合、位置設定部12Aは、区切り位置Δ1を区切り位置Δ0から区切り位置Δ2まで順次変更させて、各区切り位置Δ1での量子化誤差を算出する。例えば、位置設定部12Aは、上述した式(1)を用いて、量子化誤差を算出する。
次に、ステップS125において、位置設定部12Aは、ステップS124で算出した量子化誤差のうち、最小の量子化誤差が算出された区切り位置ΔSを新たな区切り位置ΔSに設定する。
次に、ステップS126において、位置設定部12Aは、変数Sが変数Smaxに等しい場合、全ての区切り位置Δ1-Δ7を変更して量子化誤差を算出したため、処理をステップS127に移行する。位置設定部12Aは、変数Sが変数Smaxでない場合、変更していない区切り位置があるため、処理をステップS123に戻す。
ステップS127において、位置設定部12Aは、直前に処理したステップS124、S125において、更新された区切り位置がある場合、最小の量子化誤差に対応する区切り位置の収束が完了していないため、処理をステップS120に戻す。一方、位置設定部12Aは、直前に処理したステップS124、S125において、更新された区切り位置がない場合、最小の量子化誤差に対応する区切り位置の収束が完了したと判断し、図7の処理を終了し、図6のステップS14の処理に移行する。すなわち、連続する2回のステップS124、S125の処理において、区切り位置に変更がない場合、図7の処理は終了される。
図8は、他の情報処理装置によるニューラルネットワークの学習の一例を示す。図6と同様の処理については、同じ符号を付し、詳細な説明を省略する。図8に示す学習では、図6に示したステップS10の代わりにステップS11が実行され、ステップS11の後、図6に示したステップS16、S18、S20、S22が繰り返し実行される。すなわち、図8では、図6に示したステップS12、S14は実行されない。
ステップS11では、図6に示したステップS10の処理に加えて、量子化処理に使用する区切り位置が設定される。例えば、区切り位置は、図4の初期状態に示すように等間隔に設定される。等間隔に設定された区切り位置は、ステップS16、S18、S20の学習において、変更されずに使用される。
図9は、学習を繰り返した場合のニューラルネットワークの認識精度の一例を示す。図9の上側は、図6に示す処理により学習を繰り返した場合の認識精度の遷移を示し、図9の下側は、図8に示す処理により学習を繰り返した場合の認識精度の遷移を示す。学習の繰り返し回数はエポック数で示される。
図6に示す処理による学習(図9の上側)では、量子化後のビット数を8ビット、6ビット、4ビット、3ビットのいずれに設定する場合にも、ニューラルネットワークの認識精度(認識率)に優位差はない。すなわち、3ビットまたは4ビットに量子化する場合にも、8ビットに量子化する場合と同等の認識精度を得ることができる。また、所望の認識精度(例えば、0.9)に到達するまでのエポック数は、3ビットの場合、20回程度になるが、4ビットの場合は、8ビットおよび6ビットの場合と有意差がない。換言すれば、3ビットにおいても、学習回数を増やすことで、所望の認識精度を得ることができる。この結果、例えば、ビット数の少ない簡易な演算器を多数搭載したアクセラレータ30(図3)を用いることで、ビット数の多い演算器を用いて学習する場合に比べて、学習の効率を向上することができ、消費電力も削減することができる。
一方、図8に示す処理による学習(図9の下側)では、3ビットまたは4ビットに量子化したときの認識精度は、6ビットまたは8ビットに量子化したときの認識精度に比べて大きく劣化し、実用に耐えないレベルである。また、6ビットに量子化したときの認識精度も、8ビットに量子化したときの認識精度に比べて劣化する。さらに、8ビット以外では、学習を繰り返しても所望の認識精度(例えば、0.9)に到達することができない。
図9の上側に示すように、ミニバッチ毎に、最小の量子化誤差に対応する区切り位置を設定することで、区切り位置を固定で設定する場合に比べて、ニューラルネットワークの認識精度を向上することができ、少ないエポック数により学習を収束させることができる。
図10は、図7のステップS12の別の例を示す。図7と同様の処理については、同じ符号を付し、詳細な説明を省略する。図10では、図7のステップS124の代わりにステップS124Aが実行される。その他の処理は、図7と同様である。なお、図10に示す処理は、量子化誤差の変化が下に凸の特性を示す場合に使用される。
ステップS124Aでは、位置設定部12Aは、黄金分割探索アルゴリズムを用いて区切り位置ΔSを変更し、量子化誤差が最も小さい区切り位置ΔSを見つける。例えば、量子化誤差は、上述した式(1)を用いて算出される。
黄金分割探索アルゴリズムを用いることにより、量子化誤差を小さくする区切り位置ΔSを見つけるまでの探索回数を低減することができ、最適な区切り位置ΔSを算出するための計算量を削減することができる。この結果、黄金分割探索アルゴリズムを用いない場合に比べて、図6に示した学習に掛かる時間を削減することができる。
図11は、図7のステップS12のさらなる別の例を示す。図7と同様の処理については、同じ符号を付し、詳細な説明を省略する。図11では、図7のステップS124の代わりにステップS124Bが実行される。その他の処理は、図7と同様である。なお、図11に示す処理は、量子化誤差の変化が下に凸の特性を示す場合に使用される。
ステップS124Bでは、位置設定部12Aは、区切り位置ΔSを、隣接する区切り位置の一方から他方(例えば、ΔS-1からΔS+1)に向けて移動し、量子化誤差が減少から増加に転じた場合に、量子化誤差が最小になったと判定する。例えば、量子化誤差は、上述した式(1)を用いて算出される。
図11では、区切り位置ΔSを、ΔS-1からΔS+1まで全て移動して量子化誤差を算出する場合に比べて、量子化誤差を算出する回数を削減することができ、学習に掛かる時間を削減することができる。
以上、図3から図11に示す実施形態においても、図1から図2に示す実施形態と同様に、区切り位置を、量子化誤差が最小となるように変更することで、区切り位置を変更しない場合に比べて、ニューラルネットワークの計算の精度を向上することができる。すなわち、量子化した変数を使用してニューラルネットワークの計算を実行する場合に、計算の精度が低下することを抑止することができる。例えば、固定小数点数データを用いてニューラルネットワークの演算を実行することができるため、浮動小数点数データを用いる場合に比べて、CPU10Aの演算効率を向上することができ、電力効率を向上することができる。
さらに、図3から図11に示す実施形態では、ニューラルネットワークを学習させるミニバッチ毎に区切り位置を最適化し、学種を繰り返すことで、所望の認識率に到達するまでの学習回数を削減することができ、学習効率を向上することができる。また、最適な区切り位置Δ1-Δ7を求める処理を、正負が区別されない絶対値を用いて実施することで、正負を区別する場合に比べて、量子化のための計算量を少なくすることができる。
図12は、別の実施形態における情報処理装置の動作の一例を示す。図6と同様の処理については、同じ符号を付し、詳細な説明を省略する。図12に示すフローを実行する情報処理装置は、例えば、図3に示す情報処理装置100Aである。情報処理装置100Aは、情報処理プログラムを実行することで、図12に示す処理を実現する。すなわち、図12に示すフローは、情報処理装置100Aによる情報処理方法および情報処理装置100Aが実行する情報処理プログラムによる動作の例を示す。
図12では、ステップS12が、ステップS20とステップS22との間に配置される。但し、ステップS12による処理は、ステップS20の完了時だけでなく、ステップS16の完了時およびステップS18の完了時にそれぞれ開始されてもよい。なお、図12のステップS12で実行される処理は、図7、図10または図11に示したステップS12のいずれかである。
例えば、ステップS16において順伝播により生成された中間データ(次のレイヤーへの入力データ)を用いて、次回のミニバッチで中間データを量子化するための区切り位置が設定される。ステップS18において逆伝播により生成された中間データ(次のレイヤーへの入力データ)を用いて、次回のミニバッチで中間データを量子化するための区切り位置が設定される。同様に、ステップS20において更新された重み等の変数を用いて、次回のミニバッチで変数を量子化するための区切り位置が設定される。
なお、初回のミニバッチでは、区切り位置が設定されていない。このため、初回のミニバッチでの変数の量子化は、デフォルトの区切り位置を用いて実行される。例えば、デフォルトの区切り位置は、図4の初期状態に示すように等間隔に設定され、ステップS10で設定される。また、各ミニバッチでの変数の量子化は、前回のミニバッチで設定された区切り位置を用いて実行される。
ステップS12による区切り位置の設定処理を、学習後であって次回のミニバッチの投入前に実行することで、順伝播、逆伝播および重みの更新の計算が終了次第、それぞれに対応する区切り位置の設定処理を開始することができる。これにより、例えば、順伝播、逆伝播および重みの更新のそれぞれに対応する区切り位置の設定処理を複数の情報処理装置100Aで並列に実行することができる。この結果、図6に比べて、区切り位置を設定するための計算時間を短縮することができ、ニューラルネットワークの学習時間を短縮することができる。
図13は、さらなる別の実施形態における情報処理装置の動作の一例を示す。図6と同様の処理については、同じ符号を付し、詳細な説明を省略する。図13に示すフローを実行する情報処理装置は、例えば、図3に示す情報処理装置100Aである。情報処理装置100Aは、情報処理プログラムを実行することで、図13に示す処理を実現する。すなわち、図13に示すフローは、情報処理装置100Aによる情報処理方法および情報処理装置100Aが実行する情報処理プログラムによる動作の例を示す。
図13では、ステップS12、S14が、ステップS20とステップS22との間に配置される。但し、図12と同様に、ステップS12、S14による処理は、ステップS20の完了時だけでなく、ステップS16の完了時およびステップS18の完了時にそれぞれ開始されてもよい。また、図12と同様に、初回のミニバッチでの変数の量子化は、デフォルトの区切り位置を用いて、ステップS10により実行される。そして、2回目以降のミニバッチでの変数の量子化は、前回のミニバッチで設定された区切り位置を用いて実行される。なお、図13のステップS12で実行される処理は、図7、図10または図11に示したステップS12のいずれかである。
図13に示す実施形態においても、図12に示した実施形態と同様に、順伝播、逆伝播および重みの更新の計算が終了次第、それぞれに対応する区切り位置の設定処理を開始することができる。さらに、変数の量子化を、区切り位置が設定され次第開始することができる。これにより、例えば、順伝播、逆伝播および重みの更新のそれぞれに対応する区切り位置の設定処理と変数の量子化とを複数の情報処理装置100Aで並列に実行することができる。この結果、図6および図12に比べて、区切り位置を設定および変数を量子化するための計算時間を短縮することができ、ニューラルネットワークの学習時間を短縮することができる。
図14は、別の実施形態における情報処理装置の動作の一例を示す説明図である。図7と同様の処理については、同じ符号を付し、詳細な説明を省略する。図14に示すステップS12のフローを実行する情報処理装置は、例えば、図3に示す情報処理装置100Aである。情報処理装置100Aは、情報処理プログラムを実行することで、図14に示す処理を実現する。すなわち、図14に示すフローは、情報処理装置100Aによる情報処理方法および情報処理装置100Aが実行する情報処理プログラムによる動作の例を示す。
情報処理装置100Aは、図6に示す処理を実行する。図14では、図7のステップS120の代わりにステップS120Cが実行される。その他の処理は、図7と同様である。位置設定部12Aは、ステップS120Cにおいて、量子化対象の変数である重み等の変数を、正負を含めた大きさ順に並べる。すなわち、変数は正負を区別して並べられる。この後のステップS121からステップS127の処理は、図7の説明と同様である。
この実施形態では、変数が正負を含めた大きさ順に並べられるため、例えば、ステップS121において、正値と負値とは別々に分割される。最適な区切り位置を求める処理を、正負が区別して大きさ順に並べた値を用いて実施する場合、正負を区別しない場合に比べて、量子化のための計算量は多くなる。一方で、ニューラルネットワークでの認識率の劣化量(すなわち、量子化誤差量)は、正負を区別しない場合に比べて、少なくなる。このため、認識率の劣化量を抑えたニューラルネットワークを構築したい場合、正負が区別した値を用いて最適な区切り位置を求める処理を実行することが好ましい。
図14に示す実施形態においても、図1から図11に示した実施形態と同様の効果を得ることができる。さらに、図14に示す実施形態では、正負を区別して最適な区切り位置を設定することで、正負を区別する場合に比べて、学習後のニューラルネットワークの認識率を向上することができる。なお、図10および図11に示すステップS120が、図14に示すステップS120Cに置き換えられてもよい。
図15は、別の実施形態における情報処理装置の動作の一例を示す。図6と同様の処理については、同じ符号を付し、詳細な説明を省略する。図15に示すフローを実行する情報処理装置は、例えば、図3に示す情報処理装置100Aである。情報処理装置100Aは、情報処理プログラムを実行することで、図15に示す処理を実現する。すなわち、図15に示すフローは、情報処理装置100Aによる情報処理方法および情報処理装置100Aが実行する情報処理プログラムによる動作の例を示す。
図15では、図6に示す動作に対して、ステップS18、S20の処理が削除されている。すなわち、図15では、予め実施された学習に基づいてニューラルネットワークによる推論が実行される。推論を実行する場合にも、図6と同様に、ミニバッチ毎に区切り位置を更新し、更新した区切り位置を用いて変数を量子化することで、量子化された変数を使用するニューラルネットワークの認識率の劣化を低減することができる。なお、図15のステップS12で実行される処理は、図7、図10または図11に示したステップS12のいずれかである。また、上述した図12および図13からステップS18、S20の処理が削除され、予め実施された学習に基づいて推論が実行されてもよい。
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
10、10A CPU
12、12A 位置設定部
14、14A 量子化部
20 メモリ
30 アクセラレータ
40 通信バス
50 補助記憶装置
60 通信インタフェース
100、100A 情報処理装置
Δ0-Δ8 区切り位置

Claims (13)

  1. ニューラルネットワークの計算を実行する情報処理装置であって、
    前記計算に使用する変数を量子化する場合の区切り位置を順次変更し、前記区切り位置の変更毎に量子化前後の変数の差分に基づく量子化誤差を算出し、前記量子化誤差が最小になる前記区切り位置を量子化に使用する前記区切り位置に設定する位置設定部と、
    前記位置設定部が設定した前記区切り位置に基づいて変数を量子化する量子化部と、を有することを特徴とする情報処理装置。
  2. 前記位置設定部は、
    複数の前記区切り位置を1つずつ変更して前記量子化誤差が最小になる複数の前記区切り位置を見つける処理を、複数の前記区切り位置が変更されなくなるまで繰り返し実行し、
    変更されなくなった前記区切り位置を、量子化に使用する前記区切り位置に設定すること、を特徴とする請求項1に記載の情報処理装置。
  3. 前記位置設定部は、式(4)を用いて前記量子化誤差LOSSを算出すること、を特徴とする請求項1または請求項2に記載の情報処理装置。
    Figure 0007298266000004
    n:量子化する個数(nは2以上の自然数)
    :量子化対象の変数Wの非ゼロ要素の要素数
    ki:変数Wと同じ要素数を持ち、かつ変数Wから絶対値の大きい順にk個の要素を取り出し、それ以外の要素は0とした変数
  4. 前記位置設定部は、前記量子化誤差の変化が下に凸の特性を示す場合、黄金分割探索アルゴリズムを用いて前記量子化誤差が最小になる前記区切り位置を探索すること、を特徴とする請求項1に記載の情報処理装置。
  5. 前記位置設定部は、前記量子化誤差の変化が下に凸の特性を示す場合、前記区切り位置を隣接する前記区切り位置側から順次変更し、前記量子化誤差が減少から増加に転じた場合に前記量子化誤差が最小になったと判定すること、を特徴とする請求項1に記載の情報処理装置。
  6. 前記位置設定部は、前記区切り位置の間隔が均等に設定された初期状態から、前記区切り位置を設定する処理を開始すること、を特徴とする請求項1ないし請求項5のいずれか1項に記載の情報処理装置。
  7. 前記位置設定部は、変数の絶対値を用いて前記区切り位置を設定すること、を特徴とする請求項1ないし請求項6のいずれか1項に記載の情報処理装置。
  8. 前記位置設定部は、正負が区別された変数を用いて前記区切り位置を設定すること、を特徴とする請求項1ないし請求項6のいずれか1項に記載の情報処理装置。
  9. 前記位置設定部は、2のm乗個(mは1以上の自然数)に量子化する個数に対応する数の前記区切り位置を設定すること、を特徴とする請求項1ないし請求項8のいずれか1項に記載の情報処理装置。
  10. 前記情報処理装置は、前記ニューラルネットワークの入力側から計算を順次実行する順伝播処理と、前記ニューラルネットワークの出力側から計算を順次実行する逆伝播処理と、前記逆伝播処理の結果に基づいて変数を更新する更新処理とを含むバッチを繰り返し実行し、
    前記位置設定部は、各バッチにおいて前記更新処理の後に、次のバッチで使用する前記区切り位置を設定すること、を特徴とする請求項1ないし請求項9のいずれか1項に記載の情報処理装置。
  11. 前記情報処理装置は、前記位置設定部により設定された前記区切り位置を用いて、前記ニューラルネットワークの推論で使用する変数を量子化すること、を特徴とする請求項1ないし請求項9のいずれか1項に記載の情報処理装置。
  12. ニューラルネットワークの計算を実行する情報処理装置による情報処理方法であって、
    前記計算に使用する変数を量子化する場合の区切り位置を順次変更し、前記区切り位置の変更毎に量子化前後の変数の差分に基づく量子化誤差を算出し、前記量子化誤差が最小になる前記区切り位置を量子化に使用する前記区切り位置に設定し、
    設定した前記区切り位置に基づいて変数を量子化すること、を特徴とする情報処理方法。
  13. ニューラルネットワークの計算を実行する情報処理装置が実行する情報処理プログラムであって、
    前記情報処理装置に、
    前記計算に使用する変数を量子化する場合の区切り位置を順次変更し、前記区切り位置の変更毎に量子化前後の変数の差分に基づく量子化誤差を算出し、前記量子化誤差が最小になる前記区切り位置を量子化に使用する前記区切り位置に設定させ、
    設定した前記区切り位置に基づいて変数を量子化させること、を特徴とする情報処理プログラム。
JP2019080454A 2019-04-19 2019-04-19 情報処理装置、情報処理方法および情報処理プログラム Active JP7298266B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019080454A JP7298266B2 (ja) 2019-04-19 2019-04-19 情報処理装置、情報処理方法および情報処理プログラム
EP20166174.1A EP3726372B1 (en) 2019-04-19 2020-03-27 Information processing device, information processing method, and information processing program
US16/840,601 US11675567B2 (en) 2019-04-19 2020-04-06 Quantization device, quantization method, and recording medium
CN202010285832.8A CN111831251A (zh) 2019-04-19 2020-04-13 信息处理设备、信息处理方法及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019080454A JP7298266B2 (ja) 2019-04-19 2019-04-19 情報処理装置、情報処理方法および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2020177535A JP2020177535A (ja) 2020-10-29
JP7298266B2 true JP7298266B2 (ja) 2023-06-27

Family

ID=70056859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019080454A Active JP7298266B2 (ja) 2019-04-19 2019-04-19 情報処理装置、情報処理方法および情報処理プログラム

Country Status (4)

Country Link
US (1) US11675567B2 (ja)
EP (1) EP3726372B1 (ja)
JP (1) JP7298266B2 (ja)
CN (1) CN111831251A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022075307A (ja) * 2020-11-06 2022-05-18 キオクシア株式会社 演算デバイス、計算機システム、及び演算方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180107925A1 (en) 2016-10-19 2018-04-19 Samsung Electronics Co., Ltd. Method and apparatus for neural network quantization

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3183944B2 (ja) 1992-04-24 2001-07-09 オリンパス光学工業株式会社 音声符号化装置
US5432883A (en) 1992-04-24 1995-07-11 Olympus Optical Co., Ltd. Voice coding apparatus with synthesized speech LPC code book
JP2000200098A (ja) 1999-01-07 2000-07-18 Sony Corp 学習装置および学習方法、並びに認識装置および認識方法
JP5310614B2 (ja) * 2010-03-17 2013-10-09 富士通株式会社 動画像符号化装置、動画像符号化方法及び動画像復号装置ならびに動画像復号方法
JP2012221187A (ja) * 2011-04-08 2012-11-12 Fujitsu Ltd 演算回路、演算処理装置、及び演算回路の制御方法
CN105760933A (zh) * 2016-02-18 2016-07-13 清华大学 卷积神经网络的逐层变精度定点化方法及装置
US20180107926A1 (en) * 2016-10-19 2018-04-19 Samsung Electronics Co., Ltd. Method and apparatus for neural network quantization
CN106845640A (zh) * 2017-01-12 2017-06-13 南京大学 基于深度卷积神经网络的层内非均匀的等间隔定点量化方法
CN106897734A (zh) * 2017-01-12 2017-06-27 南京大学 基于深度卷积神经网络的层内非均匀的k平均聚类定点量化方法
JP6293963B1 (ja) 2017-08-31 2018-03-14 Tdk株式会社 ニューロモルフィック素子を含むアレイの制御装置、離散化ステップサイズの演算方法およびプログラム
US11551077B2 (en) * 2018-06-13 2023-01-10 International Business Machines Corporation Statistics-aware weight quantization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180107925A1 (en) 2016-10-19 2018-04-19 Samsung Electronics Co., Ltd. Method and apparatus for neural network quantization

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Fengfu Li et al.,"Ternary weight networks",arXiv.org [online],arXiv:1605.04711v2,米国,Cornell University,2016年11月,pp.1-5,[令和4年11月15日 検索], インターネット:<URL:https://arxiv.org/abs/1605.04711v2>

Also Published As

Publication number Publication date
EP3726372B1 (en) 2022-02-16
US11675567B2 (en) 2023-06-13
US20200334521A1 (en) 2020-10-22
EP3726372A1 (en) 2020-10-21
JP2020177535A (ja) 2020-10-29
CN111831251A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
US11043962B2 (en) Information processing apparatus, information processing method, and recording medium
EP3474132B1 (en) Arithmetic processor, arithmetic processing apparatus including arithmetic processor, information processing apparatus including arithmetic processing apparatus, and control method for arithmetic processing apparatus
CN110222821B (zh) 基于权重分布的卷积神经网络低位宽量化方法
Carmichael et al. Deep positron: A deep neural network using the posit number system
US11734568B2 (en) Systems and methods for modification of neural networks based on estimated edge utility
CN110969251B (zh) 基于无标签数据的神经网络模型量化方法及装置
JP6540841B1 (ja) 演算処理装置、情報処理装置、情報処理方法、およびプログラム
KR20200004700A (ko) 뉴럴 네트워크에서 파라미터를 처리하는 방법 및 장치
JP7298266B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN114626516A (zh) 一种基于对数块浮点量化的神经网络加速系统
CN114462591A (zh) 一种动态量化神经网络的推理方法
CN113902109A (zh) 一种神经网络规则化位串行计算的压缩方法及装置
EP3796233A1 (en) Information processing device and method, and program
US20210097397A1 (en) Information processing apparatus and information processing method
JP7294017B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2021246892A1 (en) Method for training an artificial neural network comprising quantized parameters
US20210216867A1 (en) Information processing apparatus, neural network computation program, and neural network computation method
Kalali et al. A power-efficient parameter quantization technique for CNN accelerators
CN110852361B (zh) 基于改进深度神经网络的图像分类方法、装置与电子设备
KR20210138382A (ko) 뉴럴 네트워크에서의 다중 레벨 단계적 양자화 방법 및 장치
CN114386469A (zh) 一种对卷积神经网络模型量化的方法、装置及电子设备
TWI846454B (zh) 用於深度學習網路的優化方法及運算系統
CN112596912B (zh) 二值或三值神经网络卷积计算的加速运算方法及装置
US20220147821A1 (en) Computing device, computer system, and computing method
Athar An Overview of Datatype Quantization Techniques for Convolutional Neural Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230529

R150 Certificate of patent or registration of utility model

Ref document number: 7298266

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150