JP6921079B2 - ニューラルネットワーク装置、車両制御システム、分解処理装置、及びプログラム - Google Patents

ニューラルネットワーク装置、車両制御システム、分解処理装置、及びプログラム Download PDF

Info

Publication number
JP6921079B2
JP6921079B2 JP2018528880A JP2018528880A JP6921079B2 JP 6921079 B2 JP6921079 B2 JP 6921079B2 JP 2018528880 A JP2018528880 A JP 2018528880A JP 2018528880 A JP2018528880 A JP 2018528880A JP 6921079 B2 JP6921079 B2 JP 6921079B2
Authority
JP
Japan
Prior art keywords
input
matrix
vector
neural network
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018528880A
Other languages
English (en)
Other versions
JPWO2018016608A1 (ja
Inventor
満 安倍
満 安倍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Publication of JPWO2018016608A1 publication Critical patent/JPWO2018016608A1/ja
Application granted granted Critical
Publication of JP6921079B2 publication Critical patent/JP6921079B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Neurology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Feedback Control In General (AREA)

Description

関連する出願
本出願では、2016年7月21日に日本国に出願された特許出願番号2016−143705の利益を主張し、当該出願の内容は引用することによりここに組み込まれているものとする。
本技術は、入力情報をニューラルネットワークモデルの入力層に入力して出力層から出力情報を得るニューラルネットワーク装置及びプログラム、ニューラルネットワーク装置を備えた車両制御システム、及びこのニューラルネットワークを構成するための分解処理装置に関する。
ニューラルネットワークを利用して入力情報を処理することで、入力情報をクラス分けしたり、入力情報から所定の情報を検出したりすることができる。図16は、4次元の入力ベクトルを3クラスに分ける(3つのクラスのいずれに属するかを識別する)ニューラルネットワークの例を示す図である。図16に示すように、識別すべき4次元の入力ベクトル(入力マップともいう。)が入力層aとして入力されると、この入力情報は、中間層a〜aを経て、3次元の出力層aとして出力される。
入力層aと中間層aとの間には、重み行列(フィルタともいう。)Wとバイアスベクトルbが定義されており、中間層aは、下式(1)によって求められる。
Figure 0006921079
ここで、f(・)は、活性化関数であり、例えば以下の関数(ReLU)が用いられる。
Figure 0006921079
以下同様にして、中間層a、aが、下式(2)、(3)によって求められ、出力層aは、下式(4)によって求められる。
Figure 0006921079
このように、ニューラルネットワークの各層では、下記のように、前層からの入力ベクトルをx(D次元)とし、重み行列W(D行D列)とし、及びバイアスb(D次元)とすると、次層への出力ベクトル(活性化関数を適用する前)y(D次元)が下式(5)で表現される。
Figure 0006921079
上記のようなニューラルネットワークでは、層数を多くする(深層にする)と、情報処理の精度が向上することが知られている。しかしながら、層数を多くすると、処理コストも大きくなる。具体的には、式(5)の演算において必要なメモリ容量が大きくなり、処理時間も長くなる。
例えば、全結合層(Fully Connected Layer、以下「FC層」ともいう。)においては、重み行列Wが単精度実数(32ビット)の場合には、32Dビットのメモリを消費することになる。また、各層ではD回の単精度実数の積和演算が必要であり、特にこの計算に処理時間を要することになる。なお、FC層は、通常はニューラルネットワークの最後に配置されるが、畳み込み層(Convolutional Layer、以下「CONV層」ともいう。)においても入力マップをスライディングウィンドウにより適切に切り出し、並べ替えることで、CONV層をFC層とみなすことができる。
本技術は、上記の問題点に鑑みてなされたものであり、ニューラルネットワーク装置においてメモリ消費量及び演算量を小さくすることを目的とする。
一態様のニューラルネットワーク装置は、ニューラルネットワークモデルを記憶する記憶部(24)と、入力情報を前記ニューラルネットワークモデルの入力層に入力して出力層を出力する演算部(22)とを備え、前記ニューラルネットワークモデルの少なくとも1つの層の重み行列(W)が整数の行列である重み基底行列(M)と実数の行列である重み係数行列(C)との積(M)で構成されている。
一態様の車両制御システムは、上記のニューラルネットワーク装置(20)と、前記入力情報を取得する車載センサ(30)と、前記出力に基づいて車両を制御する車両制御装置(40)とを備えた構成を有している。
一態様の分解処理装置は、ニューラルネットワークモデルを取得する取得部(11)と、前記ニューラルネットワークモデルの少なくとも1つの層の重み行列を整数の行列である重み基底行列(M)と実数の行列である重み係数行列(C)との積(M)に分解する重み分解部(12)と、前記重み基底行列(M)と前記重み係数行列(C)を出力する出力部(14)とを備えた構成を有している。
一態様のプログラムは、コンピュータを、入力情報をニューラルネットワークモデルの入力層に入力して出力層から出力情報を得るニューラルネットワーク装置として機能させるプログラムであって、前記コンピュータの記憶部(24)には、前記ニューラルネットワークモデルの少なくとも1つの全結合層の重み行列(W)を分解して得られた整数の重み基底行列(M)及び実数の重み係数行列(C)と、入力ベクトル(x)を整数の入力基底行列(M)と実数の入力係数ベクトル(c)との積と入力バイアス(b)との和に分解するための、学習によって得られた前記入力係数ベクトル(c)及び前記入力バイアス(b)のうちの前記入力係数ベクトル(c)と、前記学習によって得られた前記入力係数ベクトル(c)及び前記入力バイアス(b)に基づいて得られた、前記入力ベクトルの各要素の値(x)と、それに対する入力基底行列の値(m (j))との関係を規定したルックアップテーブル(LUT)とが記憶され、前記プログラムは、前記コンピュータを、前記ニューラルネットワークモデルの少なくとも1つの全結合層において、前層の出力ベクトルを入力ベクトル(x)として、前記記憶部(24)から読み出した前記重み基底行列(M)、前記実数の重み係数行列(C)、及び前記入力係数ベクトル(c)と、前記記憶部(24)から読み出した前記ルックアップテーブル(LUT)を参照して得られた前記入力ベクトル(x)に対応する前記入力基底行列(M)とを用いて、前記入力ベクトル(x)と前記重み行列(W)との積を求める演算部として機能させる。
一態様のプログラムは、コンピュータを、入力情報をニューラルネットワークモデルの入力層に入力して出力層から出力情報を得るニューラルネットワーク装置として機能させるプログラムであって、前記コンピュータの記憶部(24)には、前記ニューラルネットワークモデルの少なくとも1つの全結合層の重み行列(W)を分解して得られた整数の重み基底行列(M)及び実数の重み係数行列(C)と、入力ベクトル(x)を整数の入力基底行列(M)と実数の入力係数ベクトル(c)との積と入力バイアス(b)との和に分解するための、学習によって得られた前記入力係数ベクトル(c)及び前記入力バイアス(b)のうちの前記入力係数ベクトル(c)と、前記学習によって得られた前記入力係数ベクトル(c)及び前記入力バイアス(b)に基づいて得られた、前記入力ベクトルの各要素(x)についての、前記入力ベクトルの各要素(x)に対応する前記入力基底行列の行のすべての組み合わせ(β)と、それによって得られる前記入力ベクトルの各要素(x)の近似値の候補(p)を大きさ順に並べたときの中点(mp)とが記憶され、前記プログラムは、前記コンピュータを、前記ニューラルネットワークモデルの少なくとも1つの全結合層において、前層の出力ベクトルを入力ベクトル(x)として、前記記憶部(24)から読み出した前記重み基底行列(M)、前記実数の重み係数行列(C)、及び前記入力係数ベクトル(c)と、前記入力基底行列の行のすべての組み合わせ(β)と前記中点(mp)とを用いて、前記入力ベクトルと前記重み行列との積を求める演算部(22)として機能させる。
一態様のニューラルネットワーク装置は、ニューラルネットワークモデルを記憶する記憶部(24)と、入力情報を前記ニューラルネットワークモデルの入力層に入力して出力層を出力する演算部(22)とを備え、前記演算部(22)は、前記ニューラルネットワークモデルの少なくとも1つの層において、前層の出力ベクトルを入力ベクトル(x)として、前記入力ベクトル(x)を整数の行列である入力基底行列(M)と実数のベクトルである入力係数ベクトル(c)との積(M)と入力バイアス(b)との和に分解して(x=M+b1)、分解された前記入力ベクトル(M+b1)と重み行列(W)との積を求める構成を有している(Wx=W(M+b1))。
以下に説明するように、本技術には他の態様が存在する。したがって、この技術の開示は、本技術の一部の提供を意図しており、ここで記述され請求されている発明の範囲を制限することは意図していない。
図1は、実施の形態の整数分解された入力ベクトルと重み行列との積の計算を説明する図である。 図2は、実施の形態の分解処理装置の構成を示す図である。 図3は、実施の形態の重み行列を基底行列と係数行列に分解する処理を説明する図である。 図4は、実施の形態の分割手法において実施されるアルゴリズムのフロー図である。 図5は、実施の形態の重み行列を基底行列と係数行列に分解する処理の変形例を説明する図である。 図6は、実施の形態の入力ベクトルを基底行列と係数ベクトルとの積とバイアスとに分解する処理の変形例を説明する図である。 図7は、実施の形態の入力ベクトルの基底行列の全探索による更新を説明する図である。 図8は、実施の形態の入力ベクトルの基底行列の最適化を説明する図である。 図9は、実施の形態の入力ベクトルの基底行列の最適化を説明する図である。 図10は、実施の形態の入力ベクトルの基底行列の最適化を説明する図である。 図11は、実施の形態のニューラルネットワーク装置の構成を示す図である。 図12は、実施の形態のニューラルネットワークモデルのFC層における演算部の処理を説明する図である。 図13は、実施の形態のCONV層の入力マップと出力マップとの関係を示す図である。 図14は、実施の形態のCONV層の入力マップと出力マップとの関係を示す図である。 図15は、実施の形態のCONV層の重み行列の分解を示す図である。 図16は、4次元の入力ベクトルを3クラスに識別するニューラルネットワークの例を示す図である。 図17は、実施の形態の変形例における入力ベクトルの基底行列の最適化を説明する図である。 図18は、実施の形態の変形例における入力ベクトルの基底行列の最適化を説明する図である。 図19は、実施の形態の変形例におけるプロトタイプ及び中点をプロットした数直線を示す図である。 図20は、実施の形態の変形例におけるプロトタイプ及び中点をプロットした数直線を示す図である。 図21は、実施の形態の変形例におけるβのアサインを説明する図である。 図22は、実施の形態の変形例におけるニューラルネットワーク装置の構成を示す図である。 図23は、実施の形態の変形例における二分木探索を説明する図である。 図24は、実施の形態の変形例における二分木探索を説明する図である。 図25は、実施の形態の変形例における二分木探索を説明する図である。 図26は、実施の形態の変形例における二分木探索を説明する図である。 図27は、実施の形態の変形例における二分木を説明する図である。 図28は、実施の形態における車両制御システムの構成を示す図である。
以下、図面を参照して実施の形態を説明する。なお、以下に説明する実施の形態は、本技術を実施する場合の一例を示すものであって、本技術を以下に説明する具体的構成に限定するものではない。本技術の実施にあたっては、実施の形態に応じた具体的構成が適宜採用されてよい。
一態様のニューラルネットワーク装置は、ニューラルネットワークモデルを記憶する記憶部(24)と、入力情報を前記ニューラルネットワークモデルの入力層に入力して出力層を出力する演算部(22)とを備え、前記ニューラルネットワークモデルの少なくとも1つの層の重み行列(W)が整数の行列である重み基底行列(M)と実数の行列である重み係数行列(C)との積(M)で構成されている。
この構成により、ニューラルネットワークにおける全結合層の重み行列(W)が整数の重み基底行列(M)と実数の重み係数行列(C)との積(M)で構成されるので、当該層の演算において、メモリの消費量を小さくくできる。
上記のニューラルネットワーク装置において、前記演算部(22)は、前記少なくとも1つの層において、前層の出力ベクトルを入力ベクトル(x)として、前記入力ベクトル(x)を整数の行列である入力基底行列(M)と実数のベクトルである入力係数ベクトル(c)との積(M)と入力バイアス(b)との和に分解して(x=M+b1)、前記入力ベクトル(x)と前記重み行列(W)との積を求めてよい(Wx=(M(M+b1))。
この構成により、入力ベクトル(x)と前記重み行列(W)との積を求める演算において、入力基底行列(M)と重み基底行列(M)との積演算を整数行列どうしの積演算とできるので、メモリの消費量を小さくし、演算量を小さくできる。
上記のニューラルネットワーク装置において、前記重み基底行列(M)は二値行列であってよく、前記入力基底行列(M)は二値行列であってよく、前記演算部(22)は、前記重み基底行列(M)と前記入力基底行列(M)との積演算(M)を論理演算とビットカウントで行ってよい。
この構成により、入力ベクトル(x)と前記重み行列(W)との積を求める演算における入力基底行列(M)と重み基底行列(M)との積演算を二値行列どうしの積演算とすることができ、論理演算とビットカウントで実行できるので、入力ベクトル(x)と前記重み行列(W)との積を求める演算を高速化できる。
上記のニューラルネットワーク装置において、前記重み基底行列(M)は三値行列であってよく、前記入力基底行列(M)は二値行列であってよく、前記演算部(22)は、前記重み基底行列(M)と前記入力基底行列(M)との積演算(M)を論理演算とビットカウントで行ってよい。
この構成により、入力ベクトル(x)と前記重み行列(W)との積を求める演算における入力基底行列(M)と重み基底行列(M)との積演算を二値行列と三値行列との積演算とすることができ、論理演算とビットカウントで実行できるので、入力ベクトル(x)と前記重み行列(W)との積を求める演算を高速化できる。
上記のニューラルネットワーク装置において、前記演算部(22)は、前記入力ベクトル(x)に対して、前記入力基底行列(M)を最適化することで、前記入力ベクトル(x)を分解してよい。
この構成により、全結合層に対する入力ベクトル(x)が得られるたびに入力係数ベクトル(c)と入力バイアス(b)を求める必要はなく、全結合層の演算量を小さくできる。
上記のニューラルネットワーク装置において、前記演算部(22)は、前記入力ベクトル(x)の各要素(x)について、前記入力ベクトルの各要素に対応する前記入力基底行列の行のすべての組み合わせ(β)と前記学習された前記入力係数ベクトル(c)との積と学習された前記入力バイアス(b)との和(βc+b)の中から最も近い候補を選ぶことで前記入力基底行列(M)を最適化してよい。
この構成により、一次元の最近傍探索によって入力基底行列(M)を最適化できる。
上記のニューラルネットワーク装置において、前記記憶部(24)は、前記入力ベクトルの各要素(x)の値と、それに対する前記最も近い候補における入力基底行列の値(m (j))との関係を規定したルックアップテーブル(LUT)を記憶していてよく、前記演算部(22)は、前記ルックアップテーブル(LUT)を参照することで、前記入力ベクトル(x)に対して前記入力基底行列(M)を最適化してよい。
この構成により、入力ベクトル(x)に対する入力基底行列(M)の最適化を高速化できる。
上記のニューラルネットワーク装置において、前記記憶部(24)は、前記入力ベクトルの各要素(x)について、前記入力ベクトルの各要素(x)に対応する前記入力基底行列の行(β)のすべての組み合わせと、それによって得られる前記入力ベクトルの各要素の近似値の候補(p)を大きさ順に並べたときの中点(mp)を記憶していてよく、前記演算部(22)は、前記入力ベクトルの各要素(x)について、前記中点(mp)を用いた二分木探索法によって前記入力ベクトルの各要素(x)に対応する前記入力基底行列の行(m (j))を決定することで前記入力基底行列(M)を最適化してよい。
この構成により、入力ベクトル(x)に対する入力基底行列(M)の最適化を高速化できるとともに、演算部(22)の演算に必要なメモリの容量を小さくできる。
上記のニューラルネットワーク装置において、前記ニューラルネットワークモデルは、畳込みニューラルネットワークモデルであってよく、畳込みニューラルネットワークモデルは、畳込み層の複数のフィルタをまとめることで前記重み行列(W)とし、前記畳込み層を全結合層とみなして、当該重み行列(W)を整数の重み基底行列(M)と実数の重み係数行列(C)との積で構成していてよく、前記演算部(22)は、全結合層とみなされた前記畳込み層で、分解された前記入力ベクトル(x)と分解された前記重み行列(W)との積を求めてよい。
この構成により、畳込みニューラルネットワークモデルの畳込み層の演算において、メモリ消費量を小さくし、演算量を小さくできる。
一態様のニューラルネットワーク装置は、ニューラルネットワークモデルを用いて認識を行うニューラルネットワーク装置であって、前記ニューラルネットワークモデルの少なくとも1つの層の演算として論理演算を行う構成を有している。
この構成により、論理演算によって高速にニューラルネットワークモデルの演算を行うことができる。
一態様のニューラルネットワーク装置は、ニューラルネットワークモデルを用いて認識を行うニューラルネットワーク装置であって、前記ニューラルネットワークモデルの少なくとも1つの層の演算に用いる二値又は三値の行列を記憶している構成を有している。
この構成により、二値又は三値の行列によって高速にニューラルネットワークモデルの演算を行うことができる。
一態様の車両制御システムは、上記のニューラルネットワーク装置(20)と、前記入力情報を取得する車載センサ(30)と、前記出力に基づいて車両を制御する車両制御装置(40)とを備えた構成を有している。
この構成により、ニューラルネットワークモデルによる認識に基づいて車両を制御できる。
一態様の分解処理装置は、ニューラルネットワークモデルを取得する取得部(11)と、前記ニューラルネットワークモデルの少なくとも1つの層の重み行列を整数の行列である重み基底行列(M)と実数の行列である重み係数行列(C)との積(M)に分解する重み分解部(12)と、前記重み基底行列(M)と前記重み係数行列(C)を出力する出力部(14)とを備えた構成を有している。
この構成により、上記のニューラルネットワーク装置を構成するための重み基底行列(M)と重み係数行列(C)を得ることができる。
上記の分解処理装置は、入力ベクトル(x)を整数の行列である入力基底行列(M)と実数のベクトルである入力係数ベクトル(c)との積と入力バイアス(b)との和に分解する(x=M+b1)ための前記入力係数ベクトル(c)と前記入力バイアス(b)を学習する入力事前分解部(13)をさらに備えていてよく、前記出力部(14)は、前記学習により得られた前記入力係数ベクトル(c)を出力してよい。
この構成により、入力ベクトル(x)を分解するための係数ベクトル(c)と入力バイアス(b)を学習により事前に取得しておくことができる。
上記の分解処理装置において、前記入力事前分解部(13)は、前記入力ベクトル(x)に対して前記入力基底行列(M)を最適化するためのルックアップテーブル(LUT)を生成してよく、前記出力部(14)は、前記ルックアップテーブル(LUT)を出力してよい。
この構成により、入力ベクトル(x)を高速に分解するためのルックアップテーブル(LUT)を事前に取得しておくことができる。
一態様のプログラムは、コンピュータを、入力情報をニューラルネットワークモデルの入力層に入力して出力層から出力情報を得るニューラルネットワーク装置として機能させるプログラムであって、前記コンピュータの記憶部(24)には、前記ニューラルネットワークモデルの少なくとも1つの全結合層の重み行列(W)を分解して得られた整数の重み基底行列(M)及び実数の重み係数行列(C)と、入力ベクトル(x)を整数の入力基底行列(M)と実数の入力係数ベクトル(c)との積と入力バイアス(b)との和に分解するための、学習によって得られた前記入力係数ベクトル(c)及び前記入力バイアス(b)のうちの前記入力係数ベクトル(c)と、前記学習によって得られた前記入力係数ベクトル(c)及び前記入力バイアス(b)に基づいて得られた、前記入力ベクトルの各要素の値(x)と、それに対する入力基底行列の値(m (j))との関係を規定したルックアップテーブル(LUT)とが記憶され、前記プログラムは、前記コンピュータを、前記ニューラルネットワークモデルの少なくとも1つの全結合層において、前層の出力ベクトルを入力ベクトル(x)として、前記記憶部(24)から読み出した前記重み基底行列(M)、前記実数の重み係数行列(C)、及び前記入力係数ベクトル(c)と、前記記憶部(24)から読み出した前記ルックアップテーブル(LUT)を参照して得られた前記入力ベクトル(x)に対応する前記入力基底行列(M)とを用いて、前記入力ベクトル(x)と前記重み行列(W)との積を求める演算部として機能させる。
この構成により、ニューラルネットワークにおける全結合層の重み行列(W)が整数の重み基底行列(M)と実数の重み係数行列(C)との積(M)で構成され、入力ベクトル(x)と前記重み行列(W)との積を求める演算において、入力基底行列(M)と重み基底行列(M)との積演算を整数行列どうしの積演算とできるので、メモリの消費量を小さくし、演算量を小さくでき、ルックアップテーブルを参照して入力ベクトル(x)に対する入力基底行列(M)の最適化するので、入力ベクトル(x)と前記重み行列(W)との積を求める演算を高速化できる。
一態様のプログラムは、コンピュータを、入力情報をニューラルネットワークモデルの入力層に入力して出力層から出力情報を得るニューラルネットワーク装置として機能させるプログラムであって、前記コンピュータの記憶部(24)には、前記ニューラルネットワークモデルの少なくとも1つの全結合層の重み行列(W)を分解して得られた整数の重み基底行列(M)及び実数の重み係数行列(C)と、入力ベクトル(x)を整数の入力基底行列(M)と実数の入力係数ベクトル(c)との積と入力バイアス(b)との和に分解するための、学習によって得られた前記入力係数ベクトル(c)及び前記入力バイアス(b)のうちの前記入力係数ベクトル(c)と、前記学習によって得られた前記入力係数ベクトル(c)及び前記入力バイアス(b)に基づいて得られた、前記入力ベクトルの各要素(x)についての、前記入力ベクトルの各要素(x)に対応する前記入力基底行列の行のすべての組み合わせ(β)と、それによって得られる前記入力ベクトルの各要素(x)の近似値の候補(p)を大きさ順に並べたときの中点(mp)とが記憶され、前記プログラムは、前記コンピュータを、前記ニューラルネットワークモデルの少なくとも1つの全結合層において、前層の出力ベクトルを入力ベクトル(x)として、前記記憶部(24)から読み出した前記重み基底行列(M)、前記実数の重み係数行列(C)、及び前記入力係数ベクトル(c)と、前記入力基底行列の行のすべての組み合わせ(β)と前記中点(mp)とを用いて、前記入力ベクトルと前記重み行列との積を求める演算部(22)として機能させる。
この構成により、入力ベクトル(x)に対する入力基底行列(M)の最適化を高速化できるとともに、演算部(22)の演算に必要なメモリの容量を小さくできる。
一態様のニューラルネットワーク装置は、ニューラルネットワークモデルを記憶する記憶部(24)と、入力情報を前記ニューラルネットワークモデルの入力層に入力して出力層を出力する演算部(22)とを備え、前記演算部(22)は、前記ニューラルネットワークモデルの少なくとも1つの層において、前層の出力ベクトルを入力ベクトル(x)として、前記入力ベクトル(x)を整数の行列である入力基底行列(M)と実数のベクトルである入力係数ベクトル(c)との積(M)と入力バイアス(b)との和に分解して(x=M+b1)、分解された前記入力ベクトル(M+b1)と前記重み行列(W)との積を求める構成を有している(Wx=W(M+b1))。
重み行列(W)が二値又は三値の要素で構成されている場合には、この構成により、入力ベクトル(x)と重み行列(W)との積を求める演算において、入力基底行列(M)と重み行列(W)との積演算を整数行列と二値又は三値の行列との積演算とできるので、演算量を小さくできる。
以下、図面を参照して実施の形態を説明する。本実施の形態では、省メモリ・高速化されたニューラルネットワークモデルを構成するための分解処理装置10と、ニューラルネットワークモデルを利用して入力情報から出力情報を得るニューラルネットワーク装置20を説明するが、まず、本実施の形態における基本的な考え方について説明する。上記のように、ニューラルネットワークのFC層では、重み行列(フィルタ)Wと入力ベクトル(入力マップ)xとの積Wxを計算する工程が含まれる。この重み行列Wを整数の基底行列と実数の係数行列とに分解(整数分解)し、入力ベクトルxを整数の基底行列と実数の係数ベクトルに分解(整数分解)することで、メモリ消費量を削減できるとともに、演算量を少なくして処理時間を短縮できる。
図1は、本実施の形態の整数分解された積Wxの計算を説明する図である。なお、図1ではバイアスbは省略している。また、基底数kは、重み行列Wの大きさに応じて決定されるが、およそ重み行列Wの1/8〜1/4程度(数十〜数百程度)であり、基底数kは、例えば2〜4程度とすることができる。これをバイアスbを含めて式で表現すると、下式(6)のように表現される。
Figure 0006921079
重み行列Wを分解して得られた基底行列M は二値又は三値の行列であり、入力ベクトルxを分解して得られた基底行列Mは二値の行列である。なお、基底行列Mは、後述の例のように三値の行列であってもよい。式(6)の右辺第1項のM は、二値又は三値の行列と二値又は三値の行列との積であり、これは、論理演算(AND、XOR)とビットカウントで計算可能である。また、右辺第2項と第3項との和は、後述するように事前に計算可能である。よって、図1及び式(6)の分解によって、大半の演算を論理演算に帰着可能である。
図2は、本実施の形態の深層ニューラルネットワークを構成するための分解処理装置の構成を示す図である。図2に示すように、分解処理装置10は、データ取得部11と、重み分解部12と、入力事前分解部13と、分解結果出力部14とを備えている。データ取得部11は、本実施の形態のニューラルネットワークモデルの構成情報(各層の重み(フィルタ)W、バイアスbを含む)、及び学習用の入力ベクトルを取得する。
重み分解部12は、重み行列Wを実数の係数行列Cと二値又は三値の基底行列Mとの積に分解する。入力事前分解部13は、入力ベクトルxを二値又は三値の基底行列Mと実数の係数ベクトルcとの積とバイアスbとの和に分解するための係数ベクトルcとの積とバイアスbを学習によって求め、入力ベクトルxから基底行列Mを求めるためのルックアップテーブルLUTを生成する。分解結果出力部14は、重み分解部12で得られた係数行列Cと二値又は三値の基底行列Mとの積及び入力事前分解部13で得られたルックアップテーブルLUTを用いて、ニューラルネットワークモデルを再構成して、後述するニューラルネットワーク装置20に出力する。以下、各機能について詳細に説明する。
(重み行列の分解)
重み分解部12は、重み行列Wを実数の係数行列Cと整数の基底行列Mとの積に分解する。図3は、重み行列Wを基底数kの基底行列Mと係数行列Cに分解する処理を説明する図である。本実施の形態では、重み分解部12は、重み行列Wを二値又は三値の基底行列Mと実数の係数行列Cに分解する。以下、本実施の形態の重み分解部12において、二値又は三値の基底行列Mと実数の係数行列Cに分解する手法として、第1ないし第4の手法を説明する。
(第1の分解手法)
第1の分解手法として、データ非依存型の分解手法を説明する。第1の分解手法では、重み分解部12は、分解誤差を表す下式のコスト関数gを解くことで分解を行う。
Figure 0006921079
ここで、基底行列Mは二値行列であり、M∈{−1,1}D0×kwである。
具体的には、重み分解部12は、以下の手順で上記のコスト関数gを解く。
(1)基底行列M及び係数行列Cをランダムに初期化する。
(2)基底行列Mの要素を固定して、係数行列Cの要素を最小二乗法により最適化することで、コスト関数gが最小になるように係数行列Cの要素を更新する。
(3)係数行列Cの要素を固定して、コスト関数gが最小になるように全探索で基底行列Mの要素を更新する。
(4)収束するまで(2)及び(3)を繰り返す。例えば、コスト関数gが所定の収束条件(例えば、減少量が一定値以下となる)を満たしたときに、収束したと判定する。
(5)ステップ(1)〜ステップ(4)により得た解を候補として保持する。
(6)ステップ(1)〜ステップ(5)を繰り返し、最もコスト関数gを小さくできた候補基底行列M及び候補係数行列Cを最終結果として採用する。なお、このステップ(1)〜ステップ(5)の繰り返しはなくてもよいが、複数回繰り返すことで、初期値依存の問題を回避できる。
次に、ステップ(3)における基底行列Mの更新処理を説明する。基底行列Mのj行目の行ベクトルの要素は、重み行列Wのj行目の要素のみに依存する。よって、基底行列Mの各行ベクトルの値は、他の行とは独立して最適化することができるので、基底行列Mは、行ごとに網羅探索(全探索)を行うことができる。基底行列Mのj行目の行ベクトルは、本実施の形態のように二値分解の場合は2kw通りしか存在しない(なお、三値分解の場合にも3kw通りしか存在しない)。よって、これらをすべて網羅的にチェックし、コスト関数gを最小化する行ベクトルを採用する。これを基底行列Mのすべての行ベクトルに対して適用して、基底行列Mの要素を更新する。
(第2の分解手法)
第2の分解手法として、係数行列Cを疎にするデータ非依存型の分解手法を説明する。第2の分解手法では、重み分解部12は、分解誤差である下式のコスト関数gを解くことで分解を行う。
Figure 0006921079
ここで、基底行列Mは二値行列であり、M∈{−1,1}D0×kである。また、|Cは、係数行列Cの要素のL1ノルムであり、λはその係数である。
重み分解部12は、以下の手順で上記のコスト関数gを解く。
(1)基底行列M及び係数行列Cをランダムに初期化する。
(2)基底行列Mの要素を固定して、係数行列Cの要素を近接勾配法で最適化する。
(3)係数行列Cの要素を固定して、コスト関数gが最小になるように全探索で基底行列Mの要素を更新する。
(4)収束するまで(2)及び(3)を繰り返す。例えば、コスト関数gが所定の収束条件(例えば、減少量が一定値以下となる)を満たしたときに、収束したと判定する。
(5)ステップ(1)〜ステップ(4)により得た解を候補として保持する。
(6)ステップ(1)〜ステップ(5)を繰り返し、最もコスト関数gを小さくできた候補基底行列M及び候補係数行列Cを最終結果として採用する。なお、このステップ(1)〜ステップ(5)の繰り返しはなくてもよいが、複数回繰り返すことで、初期値依存の問題を回避できる。
第2の分解手法によれば、係数行列Cを疎にすることができる。係数行列Cを疎にすることで、式(6)の積C の計算において、係数行列Cのゼロ要素にかかわる部分を省略することができ、さらに高速に内積計算を行うことができる。
(第3の分解手法)
次に、第3の分解手法を説明する。第1の分解手法では、コスト関数gとして、分解誤差
Figure 0006921079
を定義し、この分解誤差を最小化することを考えた。しかしながら、重み行列Wを基底行列Mと係数行列Cとの積に近似した後に実際に近似をしたいのは、入力ベクトルxと重み行列Wの積Wxである。
そこで、第3の分解手法では、サンプル入力ベクトルxをあらかじめS個集め、これをまとめたものをX∈RD0×Sとする。そして、分解誤差を
Figure 0006921079
と定義して、これを最小化する。即ち、第3の分解手法では、重み分解部12は、下式のコスト関数gを解くことで分解を行う。
Figure 0006921079
このコスト関数gによれば、重み行列Wは、実際のデータの分布に従って分解されることになるため、分解の際の近似精度が向上する。
この近似分解は、基底行列Mを構成する基底ベクトルm (j)を逐次的に求めることで行うことができる。第3の分解手法の手順は以下のとおりである。
(1)第1又は第2の分解手法によって、基底行列M及び係数行列Cを求めて、これをそれらの初期値とする。
(2)基底行列Mの要素を固定して、係数行列Cの要素を最小二乗法で最適化する。
(3)係数行列Cの要素を固定して、基底行列Mの要素を最適化することで、基底行列Mの要素を更新する。この基底行列Mの更新処理については後述する。
(4)収束するまで(2)及び(3)を繰り返し、コスト関数gを最小化した基底行列M及び係数行列Cを候補として保持する。
(5)ステップ(1)〜(6)を繰り返し、コスト関数gを最小化した基底行列M及び係数行列Cを最終結果として採用する。なお、ステップ(1)では再度第1又は第2の分解手法による基底行列M及び係数行列Cの最適化が行われるので、初期値が変更される。また、ステップ(5)の繰り返しはなくてもよいが、複数回繰り返すことで、初期値依存の問題を軽減できる。
次に、ステップ(3)における基底行列Mの更新処理を説明する。データ依存分解の場合、基底行列Mの行ベクトルの値は、もはや他の行と独立せず、依存してしまう。基底行列Mの要素は、二値又は三値、即ち離散値であるため、基底行列Mの最適化は、組合最適化問題となる。よって、基底行列Mの最適化には、例えば、グリーディアルゴリズム(Greedy algorithm)、タブ−サーチ(Tabu search)、シミュレイテッドアニーリング(Simulated annealing)等のアルゴリズムを用いることができる。ステップ(1)でよい初期値が得られているので、これらのアルゴリズムでも良好に分解誤差を最小化できる。
例えばグリーディアルゴリズムを用いる場合は、以下の手順で基底行列Mを最適化する。
(3−1)基底行列Mの要素のうち、ランダムにT個を選択する。
(3−2)2通りの組み合わせ(後述の三値分解の場合は3通り)を試し、最もコスト関数gを最小化したものを採用する。
(3−3)ステップ(3−1)及びステップ(3−2)を収束するまで繰り返す。
(第4の分解手法)
第4の分解手法は、第2の分解手法と第3の分解手法とを組み合わせたものである。具体的には、下式のコスト関数gを解くことで分解を行う。
Figure 0006921079
このコスト関数gによれば、重み行列Wは、実際のデータの分布に従って分解されることになるため、分解の際の近似精度が向上するとともに、係数行列Cを疎にすることができる。即ち、第2の分解手法のメリットと第3の分解手法のメリットをいずれも得ることができる。具体的な分解の手順は、第3の分解手法と同様である。
第2の実施の形態の分解では、重み行列Wをまとめて一括して分解していたので、基底数kが大きくなると分解が困難になる。そこで、本実施の形態では、以下のアルゴリズムで実数行列を逐次的に分解してもよい。
図4は、本実施の形態の分割手法において実施されるアルゴリズムのフロー図である。なお、以下の説明において、上記の第1〜第4の分解手法で重み行列Wをk個の基底を持つ基底行列Mと係数行列Cとに分解する手順を下式のように表記することとする。
Figure 0006921079
まず、重み分解部12は、分解すべき重み行列Wを取得する(ステップS41)。次に、重み分解部12は、インデクスj(j=1〜N)を1とし、残差行列Rに重み行列Wを代入する(ステップS42)。残差行列Rは、逐次的な分解によってそれまでに分解された基底行列M (j)と係数行列C (j)との内積の和と重み行列Wとの差である。
次に、重み分解部12は、残差行列Rを第1又は第2の実施の形態の手法によって、基底行列Mと係数行列Cに分解する(ステップS43)。このとき、基底数はkwjとする。なお、基底数k (j)=k (1)、k (2)、・・・、k (N)は、あらかじめ重み分解部12に記憶されている。M (j) (j)が得られると、重み分解部12は、もとの残差行列RとM (j) (j)との差分を新たな残差行列Rとし(ステップS44)、インデクスjをインクリメントし(ステップS45)、インデクスjがNより大きいか、即ち、N段階の逐次的な分解が終了したかを判断する(ステップS46)。
インデクスjがN以下である場合には(ステップS46にてNO)、重み分解部12は、ステップS43に戻って、ステップS44で得られた新たな残差行列Rに対して、ステップS45でインクリメントされた新たなjで再度分解を行う。以上の処理を繰り返して、インデクスjがNより大きくなったら(ステップS46でYES)、処理を終了する。なお、上記のように、N段の基底数k (j)=k (1)、k (2)、・・・、k (N)は、あらかじめ用意されており、それらは同じ数であっても互いに異なる数であってもよい。また、基底数kは例えば8程度であればよい。
本実施の形態によれば、分解の基底数kを増やせば増やすほど、もとの精度に近づけることができる。
図5は、重み行列Wを基底数kの基底行列Mと係数行列Cに分解する処理の変形例を説明する図である。この変形例では、図5に示すように、重み行列Wのj列目のベクトルを個別に分解して、それらをまとめる。このようにベクトルごとに分解することで、分解にかかる計算コストを抑えることができる。個々のベクトルは、上記の第1〜第4の分解手法によって分解すればよい。
ここで、重み行列Wのj列目の列ベクトルをw(j)と表記し、係数行列Cのj列目の列ベクトルをc (j)と表記する。本実施の形態では、複数の実数ベクトルw(j)を並べてなる重み行列Wを、複数の基底行列M (i)と、複数の係数ベクトルc (j)を図5に示すように斜めに並べてなる行列との積の和に分解したものとみなせる。なお、図5において行列のハッチング部分には0が入る。
(入力ベクトルの分解)
次に、入力ベクトルxの分解について説明する。図6は、入力ベクトルxを基底数kの基底行列Mと係数ベクトルcとの積とバイアスbとに分解する処理の変形例を説明する図である。入力ベクトルxは、図6及び下式(12)に示すように分解される。
Figure 0006921079
なお、バイアス項b1を考慮しているのは、ReLUの影響によって、入力ベクトル(マップ)は、非負で、かつバイアスが大きくなるからである。このバイアス項はなくてもよいが、要否は前層の出力に依存することになる。
入力ベクトルxは、入力情報又は各層において得られるベクトルであるので、本来は、事前に分解をしておくことはできず、後述するニューラルネットワーク装置20における実行時に分解をしなければならないものである。しかしながら、以下に説明するように、c及びbは学習によって事前に決定しておくことができるので、入力事前分解部13は、c及びbを学習によって事前に決定する。これにより、各層において入力ベクトルxが得られたときに、それに応じてMのみを最適化することで入力ベクトルを分解することができ、処理を高速化できる。本実施の形態では、この入力ベクトルxに応じたMの最適化も、後述するルックアップテーブルを用いることで高速化する。入力事前分解部13は、このルックアップテーブルを学習によって事前に決定する処理も行う。以下、順に説明する。
まず、入力ベクトルxが得られたときにこれを分解する手法を説明する。この分解では、分解誤差を表す下式のコスト関数Jを解くことで分解を行う。
Figure 0006921079
具体的には、以下の手順で上記のコスト関数Jを解くことができる。
(1)基底行列Mをランダムに初期化する。
(2)基底行列Mを固定して、係数ベクトルcの要素及びバイアスbを最小二乗法により最適化することで、コスト関数Jが最小になるように、係数ベクトルcの要素及び係数bを更新する。
(3)係数ベクトルcの要素及びバイアスbを固定して、コスト関数Jが最小になるように全探索で基底行列Mの要素を更新する。
(4)収束するまで(2)及び(3)を繰り返す。例えば、コスト関数Jが所定の収束条件(例えば、減少量が一定値以下となる)を満たしたときに、収束したと判定する。
以下では、基底行列Mが三値行列である場合を例に説明する。ステップ(3)の全探索において、Mのj行目をm (j)と記載すると、各行は独立に下式(14)及び図7の要領で全探索により更新できる。
Figure 0006921079
各層において、入力ベクトルxが得られたら上記のコスト関数Jを解くことでこの入力ベクトルを基底行列Mと係数ベクトルcに分解できる。しかしながら、実行時にこの分解を各層において行っていたのでは、多大な処理時間を有することになり、例えば車載カメラでの歩行者検知等には実用できない。そこで、本発明者は、以下の点に注目した。
まず、式(14)において、c及びbはxの値域を決めているとみることができる。また、Mは、c及びbで定められる値域の中で、どの値に相当するかを指示しているとみることができる。ここで、xの値域はどの要素も似たようなものであるため、学習時には分解処理装置10で予めc及びbのみを決めておき、後述するニューラルネットワーク装置20での実行時にはMだけを最適化することができる。このようにすることで、実行時の分解を高速化できる。もちろん、c、b、Mの3つをいずれも実行時に最適化する方がよいが、実際には上記のようにMだけを最適化しても、十分に実用的である。
だけを最適化すればよいのであれば、結局のところは、実行時には式(14)のみを計算すればよいことになる。ここで、式(14)は、3kx通り(Mが二値行列の場合は2kx通り)の(βc+b)の中から最も近い候補を選ぶ一次元の最近傍探索とみることができる。例えば、k=2,c=(1.3,0.4)、b=2.4の場合は、3kx通りの(βc+b)は、図8に示すようになる。図9は、図8の各(βc+b)を数直線上に並べた図である。いま、図9に示すように、入力ベクトルxのある列xが2.1であるとすると、図9から明らかなように最も近い候補は、m (j)=(0,−1)であり、これが最適値となる。
図10は、図9の数直線を等間隔に分割して複数のビンを設定した状態を示す図である。入力事前分解部13は、図9の数直線を等間隔に分割して設定された複数のビンごとに最適値となるβを規定したルックアップテーブルLUTを作成する。ニューラルネットワーク装置20では、入力ベクトルxが得られたときに、それが属するビンを求めてルックアップテーブルLUTを参照することで、非常に高速にm (j)を求めることができる。
分解結果出力部14は、重み分解部12で重み行列Wを分解して得られたM及びC、及び入力事前分解部13で得られた係数ベクトルc及びバイアスbを用いて、式(6)の右辺の第2項及び第3項の和を計算する。上述のように、c、b、M、及びCは、いずれも重み分解部12又は入力事前分解部13にて得られているので、式(6)の右辺の第2項及び第3項の和を計算することが可能である。
分解結果出力部14は、各FC層について、式(6)の右辺の第1項を計算するためのc、M、及びC、式(6)の右辺の第2項と第3項との和、及びMの各行ベクトルm (j)を求めるためのルックアップテーブルLUT(j)(j=1,・・・,D)をニューラルネットワーク装置20に出力する。
なお、以下では、Mを「重み基底行列」といい、Cを「重み係数行列」といい、Mを「入力基底行列」といい、cを「入力係数ベクトル」といい、bを「入力バイアス」という。
図11は、ニューラルネットワーク装置20の構成を示す図である。ニューラルネットワーク装置20は、入力情報取得部21と、演算部22と、出力情報出力部23と、記憶部24とを備えている。記憶部24は、ニューラルネットワークモデルが記憶されており、各FC層について、分解処理装置10で生成され出力された式(6)の右辺の第1項を計算するための入力係数ベクトルc、重み基底行列M、及び重み係数行列C、式(6)の右辺の第2項と第3項の和(b 1+b)、並びに入力基底行列Mの各行ベクトルm (j)を求めるためのルックアップテーブルLUT(j)(j=1,・・・,D)を分解処理装置10から取得して記憶している。
入力情報取得部21には、処理対象となる入力情報が入力される。演算部22は、記憶部24からニューラルネットワークモデルを読み出して、入力情報取得部21にて取得された入力情報を入力層に入力して演算処理を実行し、出力層を得る。
図12は、ニューラルネットワークモデルのFC層における演算部22の処理を説明する図である。演算部22は、少なくとも1つのFC層において、前層の出力ベクトルを入力ベクトルxとして、この入力ベクトルxを二値の入力基底行列Mと実数の入力係数ベクトルcとの積と入力バイアスbに分解して、入力ベクトルxと重み行列Wとの積を求める。具体的には、FC層において、演算部22は、前層の出力が得られると、これを入力ベクトルxとして、式(6)の演算を行うことで、入力ベクトルxと重み行列Wとの積を求める。
図12に示すように、演算部22は、まず、記憶部24から読み出したルックアップテーブルLUTを参照して入力ベクトルxに対応する二値の入力基底行列Mを求める。次に、演算部22は、得られた二値の入力基底行列Mと、記憶部24から読み出した重み係数行列C、重み基底行列M、及び入力係数ベクトルcを用いて式(6)の右辺の第1項(C )を計算する。
演算部22は、上記の計算(C )によって得られた式(6)の右辺の第1項の値と、記憶部24から読み出した式(6)の右辺の第2項と第3項の和(b 1+b)との和(C +b 1+b)を計算する。演算部22は、さらに、その計算結果を活性化関数(例えば、ReLU)に入力することで、当該層の出力(次の層の入力)を算出する。
演算部22は、上記のような演算をFC層で実行しつつニューラルネットワークモデルに従って演算を行うことで、最後に出力層を得る。出力層の値は出力情報出力部23に出力される。出力情報出力部23は、演算部22で得られた出力層の値に基づいて、求められている出力情報を出力する。例えば、ニューラルネットワークモデルがクラス分けを行うものである場合には、出力情報出力部23は、出力情報として出力層における最も尤度の大きいクラスの情報を出力情報として出力する。
これまで述べたように、ニューラルネットワークにおけるFC層において、上記の分解された重み行列W及び入力ベクトルの分解のためのルックアップテーブルLUTによる省メモリ化及び高速化が有効である。ただし、中間層のCONV層についても、各種のフィルタ(3次元)を並べることで4次元のデータ構造とすることができ、上記の高速化の手法を適用できる。
図13及び図14は、CONV層の入力マップと出力マップとの関係を示す図である。図13及び図14において、左側が入力マップIMであり、右側が出力マップOMであり、入力マップに適用されている直方体が3次元のフィルタF1、F2である。フィルタF1とフィルタF2とは、異なるフィルタであって、このように互いに異なるフィルタがCout個用意されている。出力マップ1枚分の演算量は、(fin)×(HW)となり、すべてのフィルタについて合算すると、(fin)×(HW)×Coutとなり、本実施の形態を適用しない場合には演算量が非常に多くなる。
このような場合でも、図15に示すように、各フィルタを列ベクトルとしてそれらを行方向に並べて重み行列Wを生成する。これにより、CONV層もFC層とみなすことができ、上記の省メモリ・高速な演算が可能となる。
表1は、本実施の形態のニューラルネットワーク装置20において各FC層で必要な演算量を従来技術と比較した表である。
Figure 0006921079
表1においてBは、論理演算を実施する変数(レジスタ)のビット幅である。D,Dが数百〜数千のオーダであるのに対して、上述のように、kは2〜4程度であり、kはD/8〜D/4程度であるので、本実施の形態では従来技術と比較して演算量は減少している。
表2は、本実施の形態のニューラルネットワーク装置20において各FC層におけるメモリの消費量を従来技術と比較した表である。
Figure 0006921079
表2では、実数として単精度実数(32ビット)を用いている。表2から明らかなように、本実施の形態では、従来技術と比較してメモリの消費量が減少している。
本実施の形態の分割処理装置10及びニューラルネットワーク装置20によれば、FC層におけるメモリの消費量を小さくでき、かつ演算量を小さくできるので、ニューラルネットワークの層数が多く(深層ニューラルネットワーク)、上記の省メモリ・高速な演算を複数の層で適用できる場合に、本実施の形態が特に有効である。
なお、上記の分解処理装置10及びニューラルネットワーク装置20は、それぞれ、記憶装置、メモリ、演算処理装置等を備えたコンピュータがプログラムを実行することで実現される。上記の実施の形態では、分解処理装置10とニューラルネットワーク装置20とを別々の装置として説明したが、これらの装置が同一のコンピュータによって構成されていてもよい。
また、上述のように、予めc及びbのみを決めておき、ニューラルネットワーク装置20での実行時にはMだけを最適化することで、実行時の入力ベクトルの分解を高速化できる。上記の実施の形態では、最適入力基底探索手法として、複数のビンごとにm (j)を最適化するβを規定したルックアップテーブルLUTを作成してニューラルネットワーク装置20に記憶しておき、ニューラルネットワーク装置20で入力ベクトルxが得られたときに、各要素xについて、それが属するビンを求めてルックアップテーブルLUTを参照して最適なβを求めるという手法で規定行列Mを求めた。
最適入力基底探索手法は、上記に限られない。以下では、最適入力基底探索手法の変形例を説明する。以下の説明では、基底行列Mが二値行列である場合を例に説明する。まず、入力事前分解部13は、m (j)のすべての候補βについて(βc+b)を計算する。例えば、k=4、c=(3.8,8.6,1.2,0.4)、b=15.2の場合は、2kx通り(本例では、k=4なので、2kx=2=16通り)のβについて得られる(βc+b)は図17に示すようになる。以下、各βについて、(βc+b)の計算によって得られた値をプロトタイプpという。
次に、入力事前分解部13は、プロトタイプpをその値の大きさでソート(並び替え)する。図18は、図17の例について、プロトタイプpの値でソートした結果を示している。このように並び替えたときのプロトタイプの値が小さい方から順に添え字1,2,・・・,16を付して、p,p,・・・,p16と表記する。また、各プロトタイプp(i=1〜16)に対応するβをβ(i=1〜16)と表記する。
入力事前分解部13は、次に、ソートされたプロトタイプpについて、隣り合うプロトタイプ間の中点mp(i=1〜15)を求める。図19は、図18の各(βc+b)を数直線上に並べるとともに、それらの中点mp(i=1〜15)を示した図である。なお、mp=(p+pi+1)/2である。
入力ベクトルの各要素の値xに対してアサインすべきβは、図20に示すように、中点mpを境界にして定義できる。例えば、図21に示すように、x=5.8に対しては、β(−1,−1,1,1)を割り当てることができる。この割り当てをニューラルネットワーク装置20の演算部22で行う場合には、二分探索法を用いることができる。
図22は、本変形例のニューラルネットワーク装置20の構成を示す図である。本変形例では、上記の実施の形態のニューラルネットワーク装置20と比較すると、ルックアップテーブルLUTの代わりに、入力ベクトルxの各要素xについて、後述する二分木(図27)を構成するための情報β(i=1,・・・,2kx)及びmp(i=1,・・・,2kx−1)を記憶している。
演算部22は、まず、図23に示すように、隣接するプロトタイプの中点mpのうち、中央の中点(本例の場合にはmp)とxとを比較する。本例(x=5.8)の場合には、x<mpであるため、解はβ,・・・,βのいずれかであることが分かる。演算部22は、次に、図24に示すように、残った候補β,・・・,βを2つに分ける中点mp(本例の場合にはmp)とxとを比較する。本例(x=5.8)の場合には、x<mpであるため、解はβ,・・・,βのいずれかであることが分かる。
演算部22は、次に、図25に示すように、残った候補β,・・・,βを2つに分ける中点mp(本例の場合にはmp)とxとを比較する。本例(x=5.8)の場合には、x>mpであるため、解はβ又はβであることが分かる。演算部22は、最後に、図26に示すように、残った候補β,βを2つに分ける中点mp(本例の場合にはmp)とxとを比較する。本例(x=5.8)の場合には、x>mpであるため、解はβ4であることが分かる。
以上のようにして、演算部22は、4回の比較演算によって解を求めることができる。図27は、上記の二分木探索法を示す図である。一般的には、演算部22は、ビット数分(k回)だけの比較をすれば最終的に解を得ることができる。演算部22は、すべてのβ(i=1,・・・,2kx)と中点mp(i=1,・・・,2kx−1)をメモリ上に保持しておけばよい。入力基底行列Mが三値行列であるときは、すべてのβ(i=1,・・・,3kx)と中点mp(i=1,・・・,3kx−1)をメモリ上に保持しておけばよい。
このように、本変形例によれば、k回の比較演算をするだけで、高速に最適なβを求めることができるとともに、メモリの消費量も小さくできる。
なお、上記の実施の形態及びその変形例では、重み行列が実数行列である場合を説明したが、重み行列がもともと二値又は三値の要素で構成されている場合には、重み行列の分解は不要である。この場合には、入力ベクトルのみを二値又は三値の基底行列と実数の係数ベクトルとの積とバイアスとの和に分解すればよい。このように、重み行列がもともと二値又は三値であるニューラルネットワークは、例えば、M. Courbariaux, Y. Bengio, and J.P. David. BinaryConnect: Training deep neural networks with binary weights during propagations. In NIPS, pp. 3105-3113, 2015.やF. Li and B. Liu. Ternary weight networks. Technical Report arXiv:1605.04711, 2016.に紹介されている。
入力ベクトルを基底行列と実数ベクトルに分解することで、演算量を少なくして演算を高速化できる。
上記の実施の形態及びその変形例のニューラルネットワーク装置20は、画像認識、音声認識、自然言語処理等のあらゆる分野で応用が可能であり、例えば、車載センサの検出値を入力情報として、車両の周辺の物体を認識する装置として応用可能である。図28は、ニューラルネットワーク装置20を含む車両制御システムの構成を示すブロック図である。車両制御システム100は、ニューラルネットワーク装置20と、車載センサ30と、車両制御装置40とを備えている。
車載センサ30は、センシングを行うことでニューラルネットワーク装置の入力装置に入力される入力情報を取得する。車載センサ30は、例えば、単眼カメラ、ステレオカメラ、マイク、ミリ波レーダであってよい。これらの検出値はそのまま入力情報としてニューラルネットワーク装置20に入力してもよいし、これらの検出値に対して情報処理を行って入力情報を生成してニューラルネットワーク装置20に入力してもよい。
ニューラルネットワーク装置20は、特定種類の物体(例えば、人物、車両等)を検出して矩形枠で囲うものであってよいし、画素ごとにどのクラスに属しているかを判断するもの(セマンティックセグメンテーション)であってもよいし、他の認識処理を行うものであってもよい。
また、車両制御装置40は、ニューラルネットワーク装置の出力(認識結果)に基づいて、車両の制御を行う。車両制御は、車両の自動運転であってもよいし、車両の運転アシスト(例えば、衝突危険時の強制制動、レーンキーピング等)であってもよいし、車両のドライバへの情報提供(例えば、認識結果の提示、認識結果に基づく危険判断の結果の報知等)であってもよい。

Claims (17)

  1. ニューラルネットワークモデルを記憶する記憶部と、
    入力情報を前記ニューラルネットワークモデルの入力層に入力して出力層を出力する演算部と、
    を備え、
    前記ニューラルネットワークモデルの少なくとも1つの層の重み行列が整数の行列である重み基底行列と実数の行列である重み係数行列との積で構成されているニューラルネットワーク装置。
  2. 前記演算部は、前記少なくとも1つの層において、前層の出力ベクトルを入力ベクトルとして、前記入力ベクトルを整数の行列である入力基底行列と実数のベクトルである入力係数ベクトルとの積と入力バイアスとの和に分解して、前記入力ベクトルと前記重み行列との積を求める請求項1に記載のニューラルネットワーク装置。
  3. 前記重み基底行列は二値行列であり、前記入力基底行列は二値行列であり、
    前記演算部は、前記重み基底行列と前記入力基底行列との積演算を論理演算とビットカウントで行う請求項2に記載のニューラルネットワーク装置。
  4. 前記重み基底行列は三値行列であり、前記入力基底行列は二値行列であり、
    前記演算部は、前記重み基底行列と前記入力基底行列との積演算を論理演算とビットカウントで行う請求項2に記載のニューラルネットワーク装置。
  5. 前記演算部は、前記入力ベクトルに対して、前記入力基底行列を最適化することで、前記入力ベクトルを分解する請求項3又は4に記載のニューラルネットワーク装置。
  6. 前記演算部は、前記入力ベクトルの各要素について、前記入力ベクトルの各要素に対応する前記入力基底行列の行のすべての組み合わせと学習された前記入力係数ベクトルとの積と学習された前記入力バイアスとの和の中から最も近い候補を選ぶことで前記入力基底行列を最適化する請求項5に記載のニューラルネットワーク装置。
  7. 前記記憶部は、前記入力ベクトルの各要素の値と、それに対する前記最も近い候補における入力基底行列の値との関係を規定したルックアップテーブルを記憶しており、
    前記演算部は、前記ルックアップテーブルを参照することで、前記入力ベクトルに対して前記入力基底行列を最適化する請求項6に記載のニューラルネットワーク装置。
  8. 前記記憶部は、前記入力ベクトルの各要素について、前記入力ベクトルの各要素に対応する前記入力基底行列の行のすべての組み合わせと、それによって得られる前記入力ベクトルの各要素の近似値の候補を大きさ順に並べたときの中点を記憶しており、
    前記演算部は、前記入力ベクトルの各要素について、前記中点を用いた二分木探索法によって前記入力ベクトルの各要素に対応する前記入力基底行列の行を決定することで前記入力基底行列を最適化する請求項6に記載のニューラルネットワーク装置。
  9. 車載カメラで得た画像を前記入力情報として歩行者検知を行う請求項1ないし8のいずれかに記載のニューラルネットワーク装置。
  10. 前記ニューラルネットワークモデルは、畳込みニューラルネットワークモデルであり、
    前記畳込みニューラルネットワークモデルは、畳込み層の複数のフィルタをまとめることで前記重み行列とし、前記畳込み層を全結合層とみなして、当該重み行列を整数の重み基底行列と実数の重み係数行列との積で構成しており、
    前記演算部は、全結合層とみなされた前記畳込み層で、分解された前記入力ベクトルと分解された前記重み行列との積を求める請求項2ないし8のいずれかに記載のニューラルネットワーク装置。
  11. 請求項1ないし10のいずれかに記載のニューラルネットワーク装置と、
    前記入力情報を取得する車載センサと、
    前記出力に基づいて車両を制御する車両制御装置と、
    を備えた、車両制御システム。
  12. ニューラルネットワークモデルを取得する取得部と、
    前記ニューラルネットワークモデルの少なくとも1つの層の重み行列を整数の行列である重み基底行列と実数の行列である重み係数行列との積に分解する重み分解部と、
    前記重み基底行列と前記重み係数行列を出力する出力部と、
    を備えた分解処理装置。
  13. 入力ベクトルを整数の行列である入力基底行列と実数のベクトルである入力係数ベクトルとの積と入力バイアスとの和に分解するための前記入力係数ベクトルと前記入力バイアスを学習する入力事前分解部をさらに備え、
    前記出力部は、前記学習により得られた前記入力係数ベクトルを出力する請求項12に記載の分解処理装置。
  14. 前記入力事前分解部は、前記入力係数ベクトル及び前記入力バイアスに基づいて、前記入力ベクトルに対して前記入力基底行列を最適化するためのルックアップテーブルを生成し、
    前記出力部は、前記ルックアップテーブルを出力する請求項13に記載の分解処理装置。
  15. コンピュータを、入力情報をニューラルネットワークモデルの入力層に入力して出力層から出力情報を得るニューラルネットワーク装置として機能させるプログラムであって、
    前記コンピュータの記憶部には、
    前記ニューラルネットワークモデルの少なくとも1つの全結合層の重み行列を分解して得られた整数の重み基底行列及び実数の重み係数行列と、
    入力ベクトルを整数の入力基底行列と実数の入力係数ベクトルとの積と入力バイアスとの和に分解するための、学習によって得られた前記入力係数ベクトル及び前記入力バイアスのうちの前記入力係数ベクトルと、
    前記学習によって得られた前記入力係数ベクトル及び前記入力バイアスに基づいて得られた、前記入力ベクトルの各要素の値と、それに対する入力基底行列の値との関係を規定したルックアップテーブルと、
    が記憶され、
    前記プログラムは、前記コンピュータを、前記ニューラルネットワークモデルの少なくとも1つの全結合層において、前層の出力ベクトルを入力ベクトルとして、前記記憶部から読み出した前記重み基底行列、前記実数の重み係数行列、及び前記入力係数ベクトルと、前記記憶部から読み出した前記ルックアップテーブルを参照して得られた前記入力ベクトルに対応する前記入力基底行列とを用いて、前記入力ベクトルと前記重み行列との積を求める演算部として機能させるプログラム。
  16. コンピュータを、入力情報をニューラルネットワークモデルの入力層に入力して出力層から出力情報を得るニューラルネットワーク装置として機能させるプログラムであって、
    前記コンピュータの記憶部には、
    前記ニューラルネットワークモデルの少なくとも1つの全結合層の重み行列を分解して得られた整数の重み基底行列及び実数の重み係数行列と、
    入力ベクトルを整数の入力基底行列と実数の入力係数ベクトルとの積と入力バイアスとの和に分解するための、学習によって得られた前記入力係数ベクトル及び前記入力バイアスのうちの前記入力係数ベクトルと、
    前記学習によって得られた前記入力係数ベクトル及び前記入力バイアスに基づいて得られた、前記入力ベクトルの各要素についての、前記入力ベクトルの各要素に対応する前記入力基底行列の行のすべての組み合わせと、それによって得られる前記入力ベクトルの各要素の近似値の候補を大きさ順に並べたときの中点と、
    が記憶され、
    前記プログラムは、前記コンピュータを、前記ニューラルネットワークモデルの少なくとも1つの全結合層において、前層の出力ベクトルを入力ベクトルとして、前記記憶部から読み出した前記重み基底行列、前記実数の重み係数行列、及び前記入力係数ベクトルと、前記入力基底行列の行のすべての組み合わせと前記中点とを用いて、前記入力ベクトルと前記重み行列との積を求める演算部として機能させるプログラム。
  17. ニューラルネットワークモデルを記憶する記憶部と、
    入力情報を前記ニューラルネットワークモデルの入力層に入力して出力層を出力する演算部と、
    を備え、
    前記演算部は、前記ニューラルネットワークモデルの少なくとも1つの層において、前層の出力ベクトルを入力ベクトルとして、前記入力ベクトルを整数の行列である入力基底行列と実数のベクトルである入力係数ベクトルとの積と入力バイアスとの和に分解して、分解された前記入力ベクトルと重み行列との積を求めるニューラルネットワーク装置。
JP2018528880A 2016-07-21 2017-07-20 ニューラルネットワーク装置、車両制御システム、分解処理装置、及びプログラム Active JP6921079B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016143705 2016-07-21
JP2016143705 2016-07-21
PCT/JP2017/026363 WO2018016608A1 (ja) 2016-07-21 2017-07-20 ニューラルネットワーク装置、車両制御システム、分解処理装置、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2018016608A1 JPWO2018016608A1 (ja) 2019-05-09
JP6921079B2 true JP6921079B2 (ja) 2021-08-18

Family

ID=60992638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018528880A Active JP6921079B2 (ja) 2016-07-21 2017-07-20 ニューラルネットワーク装置、車両制御システム、分解処理装置、及びプログラム

Country Status (4)

Country Link
US (1) US11657267B2 (ja)
JP (1) JP6921079B2 (ja)
CN (1) CN109716362B (ja)
WO (1) WO2018016608A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019033381A1 (en) * 2017-08-18 2019-02-21 Intel Corporation EFFECTIVE NEURONIC NETWORKS WITH MATRIX STRUCTURES DEVELOPED IN AUTOMATIC LEARNING ENVIRONMENTS
CN110245741A (zh) * 2018-03-09 2019-09-17 佳能株式会社 多层神经网络模型的优化和应用方法、装置及存储介质
US11755880B2 (en) 2018-03-09 2023-09-12 Canon Kabushiki Kaisha Method and apparatus for optimizing and applying multilayer neural network model, and storage medium
KR20210098445A (ko) * 2018-12-07 2021-08-10 소니 세미컨덕터 솔루션즈 가부시키가이샤 정보 처리 장치, 정보 처리 방법, 프로그램, 이동체 제어 장치, 및 이동체
CN111382847B (zh) * 2018-12-27 2022-11-22 上海寒武纪信息科技有限公司 数据处理装置及相关产品
CN110162403B (zh) * 2019-05-28 2021-07-13 首都师范大学 一种基于人工神经网络的硬件资源分配方法及系统
JP7114528B2 (ja) * 2019-07-08 2022-08-08 株式会社東芝 推論装置、学習装置、推論方法及び学習方法
CN110349107B (zh) * 2019-07-10 2023-05-26 北京字节跳动网络技术有限公司 图像增强的方法、装置、电子设备、及存储介质
JP7265946B2 (ja) * 2019-07-12 2023-04-27 株式会社メガチップス ニューラルネットワーク用プロセッサ、ニューラルネットワーク用処理方法、および、プログラム
KR102512932B1 (ko) * 2020-01-31 2023-03-22 한국과학기술원 암 환자의 발현량 데이터로부터 암세포 내재적 특성을 추출하는 방법 및 이를 위한 장치
CN115053280B (zh) * 2020-02-17 2024-05-03 三菱电机株式会社 模型生成装置、车载装置和模型生成方法
KR20210111014A (ko) * 2020-03-02 2021-09-10 삼성전자주식회사 전자 장치 및 그 제어 방법
JP7384081B2 (ja) * 2020-03-18 2023-11-21 株式会社デンソー 情報処理装置、データ分解方法、及びデータ分解プログラム
TWI723823B (zh) * 2020-03-30 2021-04-01 聚晶半導體股份有限公司 基於神經網路的物件偵測裝置和物件偵測方法
CN113554145B (zh) * 2020-04-26 2024-03-29 伊姆西Ip控股有限责任公司 确定神经网络的输出的方法、电子设备和计算机程序产品
CN111681263B (zh) * 2020-05-25 2022-05-03 厦门大学 基于三值量化的多尺度对抗性目标跟踪算法
JPWO2022244216A1 (ja) * 2021-05-20 2022-11-24

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69032259T2 (de) * 1989-09-20 1998-08-13 Fujitsu Ltd Paralleldatenverarbeitungsanlage
JP2619575B2 (ja) * 1991-10-03 1997-06-11 浜松ホトニクス株式会社 ニューラルネットワーク装置及びその実行方法
US8457409B2 (en) * 2008-05-22 2013-06-04 James Ting-Ho Lo Cortex-like learning machine for temporal and hierarchical pattern recognition
JP6055391B2 (ja) * 2012-11-05 2016-12-27 株式会社デンソーアイティーラボラトリ 関連性判定装置、関連性判定プログラム、及び関連性判定方法
US9728184B2 (en) * 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
CN105224984B (zh) * 2014-05-31 2018-03-13 华为技术有限公司 一种基于深度神经网络的数据类别识别方法及装置
JP6566397B2 (ja) 2014-08-18 2019-08-28 株式会社デンソーアイティーラボラトリ 認識装置、実数行列分解方法、認識方法
CN106575379B (zh) * 2014-09-09 2019-07-23 英特尔公司 用于神经网络的改进的定点整型实现方式
US10534994B1 (en) * 2015-11-11 2020-01-14 Cadence Design Systems, Inc. System and method for hyper-parameter analysis for multi-layer computational structures

Also Published As

Publication number Publication date
US20190286982A1 (en) 2019-09-19
US11657267B2 (en) 2023-05-23
CN109716362B (zh) 2024-01-09
CN109716362A (zh) 2019-05-03
WO2018016608A1 (ja) 2018-01-25
JPWO2018016608A1 (ja) 2019-05-09

Similar Documents

Publication Publication Date Title
JP6921079B2 (ja) ニューラルネットワーク装置、車両制御システム、分解処理装置、及びプログラム
EP3295385B1 (en) Fixed point neural network based on floating point neural network quantization
US20190087713A1 (en) Compression of sparse deep convolutional network weights
Ayachi et al. Strided convolution instead of max pooling for memory efficiency of convolutional neural networks
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
US20160328645A1 (en) Reduced computational complexity for fixed point neural network
CN109754078A (zh) 用于优化神经网络的方法
WO2019144066A1 (en) Systems and methods for preparing data for use by machine learning algorithms
WO2019209658A1 (en) Learning a truncation rank of singular value decomposed matrices representing weight tensors in neural networks
KR20220058897A (ko) 컴퓨트-인-메모리 어레이의 컬럼 임계치들을 조정함으로써 xnor 등가 연산들을 수행
CN111523546A (zh) 图像语义分割方法、系统及计算机存储介质
CN113570029A (zh) 获取神经网络模型的方法、图像处理方法及装置
CN115860081B (zh) 一种芯粒算法调度方法、系统、电子设备及存储介质
CN113112013A (zh) 针对分辨率降低的神经网络的优化量化
CN114463540A (zh) 使用神经网络对图像进行分割
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
CN114972850A (zh) 多分支网络的分发推理方法、装置、电子设备及存储介质
KR20210039921A (ko) 신경망 모델을 최적화하도록 구성된 심층 신경망 시스템의 동작 방법
Chang et al. Differentiable architecture search with ensemble gumbel-softmax
Ayadi et al. MIGSOM: multilevel interior growing self-organizing maps for high dimensional data clustering
CN109697511B (zh) 数据推理方法、装置及计算机设备
Swaney et al. Efficient skin segmentation via neural networks: HP-ELM and BD-SOM
US20230059976A1 (en) Deep neural network (dnn) accelerator facilitating quantized inference
CN113538278B (zh) 基于可变形卷积的深度图补全方法
CN112766330B (zh) 图像多标签分类方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210720

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210727

R150 Certificate of patent or registration of utility model

Ref document number: 6921079

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150