以下に、図1~図34を参照しながら、本発明に係る学習装置および学習方法の実施形態を詳細に説明する。また、以下の実施形態によって本発明が限定されるものではなく、以下の実施形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。
[第1の実施形態]
(GBDTのロジックについて)
高性能な機械学習のアルゴリズムとしてのDLにおいて、識別器は様々なハードロジックによる実装が試みられ、GPU(Graphics Processing Unit)での処理と比較して電力効率が高いことが分かっている。ただし、DLのうち特にCNNの場合には、GPUのアーキテクチャが非常にマッチするため、速度的には、ロジック実装したFPGA(Field-Programmable Gate Array)の方がGPUに比べて、識別が速いというわけではない。それに対して、GBDTのような決定木系のアルゴリズムについて、FPGAによるハードロジックの実装が試行され、GPUよりも高速な結果が報告されている。これは、後述するように、決定木系のアルゴリズムはそのデータ配列の特徴上、GPUのアーキテクチャに適さないためである。
また、学習に関しては、識別よりも世の中の検討は遅れており、DLにおいてもほとんど現状報告がなく、決定木系では報告は少ない状況である。その中でもGBDTの学習は、現状どこからもまだ報告がなく、現在では未開拓の分野であると考えられる。精度のよい識別モデルを得るためには、学習時に特徴量の選択および設計、ならびに学習アルゴリズムのハイパーパラメータの選択を行うため、莫大な試行回数が必要となり、特に大量の学習データがある場合には、学習処理のスピードの高さは現実的に最終的なモデルの精度について非常に大きく作用する。さらに、ロボティクス、HFT(High Frequency Trading)、およびRTB(Real-Time Bidding)のように環境変化への追従のリアルタイム性が求められる分野に関しては、スピードの速さが性能へと直結する。そのため、精度の高いGBDTにおいて、高速な学習処理が出来た場合には、結果的にそれを利用したシステムの性能を大きく向上させることができると考えられる。
(GBDTのFPGAに対する親和性)
決定木またはGBDTが、なぜGPUでは速くならないか、および、なぜFPGAだと速くなるかについて、GBDTのFPGAに対する親和性の観点から述べる。
まず、GBDTがブースティングを用いたアルゴリズムであることの観点から述べる。決定木の中でも、アンサンブル学習を用いたRandom Forest(RF)の場合は、木の間に依存関係がないため、GPUでも並列化しやすいが、GBDTはブースティングを用いて、多数の木を連結する方法であり、一個前の木の結果が出ないと、次の木の学習を開始することができない。そのため、処理としてシリアルな処理であり、一本ずつの木をいかに速く学習するかがキーとなる。これに対して、RFでは、一本あたりは遅くても、並列に多数の木の学習を速くすることで、全体の学習を速くするという選択肢をとり得る。そのため、GPUを用いた場合にも次に述べるDRAM(Dynamic Random Access Memory)のアクセスレイテンシの問題をある程度隠蔽することが可能であると考えられる。
次に、GPUデバイスのRAM(Random Access Memory)へのアクセス速度の限界(特にランダムアクセス)の観点から述べる。FPGAに内蔵のSRAM(Static Random Access Memory)は、FPGA内のRAMのバス幅を非常に大きくできるため、ミドルレンジのFPGAである、例えば、Xilinx社のXC7k325Tを用いた場合でも、以下の様に、3.2[TB/sec]に及ぶ。なお、内蔵RAMの容量は16[Mb]である。
BRAM 445個 × 36bit × 100MHz × 2ポート = 445*36*2*100*10^6/10^12 = 3.2TB/sec
また、ハイエンドのFPGAである、Xilinx社のVU9Pを用いた場合、6.9[TB/sec]である。なお、内蔵RAMの容量は270[Mb]である。
URAM 960個 × 36bit × 100MHz × 2ポート = 960*36*2*100*10^6/10^12 = 6.9TB/sec
これらの値は、クロック周波数を100[MHz]とした場合であるが、実際には、回路構成を工夫すると、200~500[MHz]程度での動作が考えられ、限界の帯域は数倍となる。これに対して、CPU(Central Processing Unit)に接続されているRAMは現世代では、DDR4(Double-Data-Rate4)であるが、下記のようにDIMM(Dual Inline Memory Module)1枚での帯域は25.6[GB/sec]に留まる。4枚のインタリーブ構成(256ビット幅)にしたとしても、100[GB/sec]程度である。DDR4のチップ規格がDDR4-3200(バス幅64ビット、DIMM1枚)の場合、以下のようになる。
200MHz × 2(DDR) × 64 = 200*10^6*2*64/10^9 = 25.6GB/sec
GPUに搭載されているGDDR5(Graphics Double-Data-Rate5)では、DDR4の帯域よりも4倍程度大きくなっているが、それでも、最大で400[GB/sec]程度である。
このように、FPGA内のRAMと、GPUおよびCPUでの外部メモリとは、帯域に大きな差がある。さらに、ここまでは、アドレスに対してシーケンシャルなアクセスの場合に関して述べてきたが、これ以上に大きく効いてくるのが、ランダムアクセス時のアクセスの時間である。FPGA内蔵のRAMはSRAMであるため、シーケンシャルアクセスでもランダムアクセスでもアクセスレイテンシは1クロックであるが、DDR4およびGDDR5は、DRAMであり、センスアンプの都合上、異なるカラムにアクセスした場合には、レイテンシが大きくなる。例えば、DDR4のRAMにおいて、代表的なCASレイテンシ(Column Address Strobe latency)は16クロックであり、簡単には、シーケンシャルアクセスと比較して、1/16しかスループットが出ない計算となる。
CNNの場合には、隣接した画素のデータを処理していくので、ランダムアクセスのレイテンシは大きく問題とならないが、決定木の場合には、分岐を続けていくと、枝ごとに元のデータのアドレスがどんどんと不連続になり、基本的にランダムアクセスとなる。そのため、データをDRAMに置いた場合、そのスループットがボトルネックとなり、速度が大きく劣化する。GPUにはそのような場合の性能劣化を抑えるために、キャッシュが存在するが、基本的に決定木はデータを総なめしていくアルゴリズムなので、データアクセスに局所性がなくキャッシュの効果が非常に効きにくい。なお、GPUの構造では、GPUには、演算コア(SM)毎に割り振られたSRAMからなるシェアードメモリが存在し、これを使うと高速な処理が可能である場合があるが、1個のSMあたり16~48[kB]と少量であり、かつ、SM間をまたぐアクセスの場合には、大きなレイテンシが発生する。現在の高価で大規模なGPUである、Nvidia K80の場合のシェアードメモリの容量の試算を以下に示す。
K80 = 2 × 13 SMX = 26 SMX = 4992 CUDAコア
26 × 48 × 8 = 9Mb
このように、数十万円する大規模なGPUでもシェアードメモリはたった9[Mb]しか存在せず、容量が少な過ぎる。さらに、GPUの場合は、上述のように、処理を行うSMは他のSMのシェアードメモリには直接アクセスできないことに起因し、決定木の学習に利用する場合には、高速なコーディングが困難という制約も存在する。
以上のように、データがFPGA上のSRAMに載るという前提で、FPGAはGPUに比べてGBDTの学習アルゴリズムを高速に実装可能であると考えられる。
(GBDTのアルゴリズム)
図1は、決定木モデルの一例を示す図である。以下、式(1)~式(22)および図1を参照してGBDTの基本論理を説明する。
GBDTは、教師あり学習の一手法であり、教師あり学習は以下の式(1)に示すように、学習データに対するフィッティングの良さを表すロス関数L(θ)と、学習したモデルの複雑さを表す正則化項Ω(θ)とからなる目的関数obj(θ)を何らかの尺度で最適化する処理である。正則化項Ω(θ)は、モデル(決定木)が複雑になり過ぎることを防ぐ、すなわち、汎化性能を高める役割を有する。
式(1)の第1項のロス関数は、例えば、以下の式(2)に示すように、サンプルデータ(学習データ)ごとに誤差関数lより計算されるロスを足し合わせたものである。ここでnはサンプルデータ数、iはサンプル番号、yはラベル、モデルのy(ハット)は予測値である。
ここで、誤差関数lは、例えば、以下の式(3)および式(4)に示すような二乗誤差関数またはロジスティックロス関数等が用いられる。
また式(1)の第2項の正則化項Ω(θ)は、例えば、以下の式(5)に示すようなパラメータθの二乗ノルム等が用いられる。ここで、λは正則化の重みを表すハイパーパラメータである。
ここで、GBDTの場合について考える。まず、GBDTのi番目のサンプルデータx
iに対する予測値は、以下の式(6)のように表現できる。
ここで、Kは決定木の総数、kは決定木の番号、f
k()はk番目の決定木の出力、x
iは入力されるサンプルデータの特徴量である。これより、GBDTもRF等と同じく、各決定木の出力を足し合わせたものを最終的な出力としていることがわかる。また、パラメータθは、θ={f
1,f
2,・・・,f
K}である。以上より、GBDTの目的関数は以下の式(7)のように表される。
上記の目的関数について学習を行うが、決定木モデルではニューラルネット等の学習で用いられるSGD(Stochastic Gradient Descent:確率的勾配降下法)等の手法は使えない。そこでAdditive Training(ブースティング)を用いて学習を行う。Additive Trainingでは、あるラウンド(学習回数、決定木モデル数)tにおける予測値を以下の式(8)のように表現する。
式(8)より、あるラウンドtにおいて、決定木(の出力)f
t(x
i)を求める必要があることが分かる。逆に、あるラウンドtでは他のラウンドについて考える必要はない。そこで、以下では、ラウンドtについて考える。ラウンドtでの目的関数は以下の式(9)のように表される。
ここで、ラウンドtにおける目的関数のテーラー展開(二次の項までで打ち切り)は以下の式(10)のようになる。
ここで、式(10)において、勾配情報g
i、h
iは以下の式(11)で表されるものである。
式(10)において定数項を無視すると、ラウンドtでの目的関数は、以下の式(12)のようになる。
この式(12)により、ラウンドtでの目的関数は、誤差関数を1ラウンド前の予測値で1階微分および2階微分したもの、および正則化項で表されるので、1階微分および2階微分が求まる誤差関数ならば適用が可能なことが分かる。
ここで、決定木モデルについて考える。図1に決定木モデルの例を示す。決定木モデルは、ノードとリーフとから構成され、ノードではある分岐条件を元に入力を次のノードまたはリーフへ入力し、リーフにはリーフウェイトがあり、これが入力に対する出力となる。例えば、図1では、「リーフ2」のリーフウェイトW2が「-1」であることを示している。
また、決定木モデルは以下の式(13)に示すように定式化される。
式(13)において、wはリーフウェイト、qは木の構造を表す。つまり、入力(サンプルデータx)は木の構造qによりいずれかのリーフに割り当てられ、そのリーフのリーフウェイトが出力されることになる。
ここで、決定木モデルの複雑さを以下の式(14)のように定義する。
式(14)において、第1項はリーフの数による複雑さを、第2項はリーフウェイトの二乗ノルムである。また、γは正則化項の重要度を制御するハイパーパラメータである。以上より、ラウンドtでの目的関数について、以下の式(15)のように整理する。
ただし、式(15)において、I
j、G
j、H
jは、以下の式(16)のように表される。
式(15)より、あるラウンドtでの目的関数はリーフウェイトwに関する二次関数であり、一般に二次関数の最小値、およびその時の条件は、以下の式(17)で表される。
つまり、あるラウンドtの決定木の構造qが決まったときに、その目的関数およびリーフウェイトは以下の式(18)のようになる。
ここまでで、あるラウンドで決定木の構造が決まったときのリーフウェイトの算出が可能となった。以降は、決定木の構造の学習手順について述べる。
決定木の構造の学習方法の1つに貪欲法(Greedy Algorithm)がある。貪欲法では、木構造を深さ0からスタートし、各ノードで分岐スコア(Gain)を計算し分岐するか否かを判断して決定木の構造を学習するアルゴリズムである。分岐スコアは以下の式(19)で求められる。
ここで、GL、HLは左ノードに分岐したサンプルの勾配情報の和、GR、HRは右ノードに分岐したサンプルの勾配情報の和、γは正則化項である。式(19)の[]内の第1項は左ノードに分岐したサンプルデータのスコア(目的関数)、第2項は右ノードに分岐したサンプルデータのスコア、第3項は分岐しない場合のスコアであり、分岐による目的関数の改善度合いを表している。
上述の式(19)に示す分岐スコアは、ある特徴量のあるしきい値で分岐した時の良さを表すが、これ単体ではどのような条件が最適か判断できない。そこで、貪欲法では、全ての特徴量の全てのしきい値候補で分岐スコアを求め、分岐スコアが最大となる条件を探すものである。貪欲法は上述のように、アルゴリズムとしては非常にシンプルであるが、全ての特徴量の全てのしきい値候補で分岐スコアを求めるため計算コストが高い。そこで後述するXGBoost等のライブラリでは、性能を維持しつつ、計算コストを低減する工夫がなされている。
(XGBoostについて)
以下、GBDTのライブラリとして周知なXGBoostについて述べる。XGBoostの学習アルゴリズムでは、しきい値候補の削減、および欠損値の扱いの2点について工夫がされている。
まず、しきい値候補の削減について説明する。上述した貪欲法は計算コストが高いという課題があった。XGBoostでは、Weighted Quantile Sketchという方法でしきい値候補数を削減している。これは、分岐スコア(Gain)の計算では、左右に別れるサンプルデータの勾配情報の和が重要であり、勾配情報の和が一定割合変化するしきい値のみを探索候補とするものである。具体的にはサンプルの二次勾配であるhを用いている。特徴量の次元をfとすると、特徴量およびサンプルデータの二次勾配hの集合を、以下の式(20)のように表現する。
また、ランク関数r
fを以下の式(21)のように定義する。
ここで、zはしきい値候補である。式(21)に示すランク関数r
fは、あるしきい値候補より小さいサンプルデータの二次勾配の和が全サンプルデータの二次勾配の和に占める割合を意味している。最終的には、次元fで示される特徴量について、あるしきい値候補の集合{s
f1,s
f2,・・・,s
fl}を求める必要があり、これは以下の式(22)で求める。
ここでεはしきい値候補の削減度合いを決めるパラメータであり、おおよそ1/ε個のしきい値候補が得られる。
Weighted Quantile Sketchは、決定木の最初のノードで(全サンプルデータに対して一括で)行うグローバルと、ノードごとに(当該ノードに割り当てられたサンプルについて毎回)行うローカルの2パターンが考えられる。汎化性能の面ではローカルの方がよいという結果が出ているので、XGBoostではローカルを採用している。
次に、欠損値の扱いについて説明する。入力されるサンプルデータの欠損値の扱いはGBDTおよび決定木に限らず、機械学習分野において一般的に有効な手法はない。欠損値を、平均値、中央値、もしくは協調フィルタ等で補完する方法、または欠損値が多い特徴量を除外する方法等があるが、性能の面で多くのケースで成功するわけではない。しかし、構造化データは欠損値を含むことが多く、実用上は何らかの対応が求められる。
XGBoostは、欠損値を含むサンプルデータを直接扱えるように学習アルゴリズムが工夫されている。これは、ノードの分岐スコアを求める際に、欠損値のデータを全て左右どちらかのノードに割り当てた時のスコアを求める方法である。また、上述のWeighted Quantile Sketchを行う場合は、欠損値を含むサンプルデータを除外した集合に対してしきい値候補を求めるものとすればよい。
(LightGBMについて)
次に、GBDTのライブラリであるLightGBMについて述べる。LightGBMは前処理にbinningと呼ばれる特徴量の量子化を採用し、分岐スコアの計算にGPUを利用した高速なアルゴリズムを採用している。LightGBMはXGBoostと比較して性能は同程度で学習速度が数倍速く、近年利用者が増えてきている。
まず、特徴量の量子化について説明する。分岐スコアは、データセットが大規模であれば大量のしきい値候補に対して計算が必要である。LightGBMは、学習の前処理として、特徴量を量子化することでしきい値候補数を削減している。また、量子化することでXGBoostのようにノードごとにしきい値候補の値および数が変わることがなく、GPUを利用する場合に必須の処理となっている。
特徴量の量子化についてはbinningという名前で様々な研究がなされており、LightGBMでは、特徴量をk個のビンに分割しており、しきい値候補はk個だけとなる。kは255、63、15等であり、データセットによって性能または学習速度は異なる。
また、特徴量を量子化したことで分岐スコアの計算が簡易になる。具体的には、しきい値候補が単に量子化された値になる。そのため、各特徴量について一次勾配および二次勾配のヒストグラムを作成し、各ビン(量子化された値)について分岐スコアを求めればよいことになる。これを特徴量ヒストグラムと呼んでいる。
次に、GPUを利用した分岐スコアの計算について説明する。分岐スコアの計算自体は特徴量が量子化されているため最大でも256パターンであるが、サンプルデータ数はデータセットによっては数万件を超えるため、ヒストグラム作成が学習時間に対して支配的となる。上述で述べたように、分岐スコアの計算では、特徴量ヒストグラムを求める必要がある。GPUを利用した場合、複数のスレッドが同一のヒストグラムを更新する必要があるが、このとき同一のビンを更新する可能性がある。そのため、アトミック演算を使用する必要があり、同一のビンを更新する割合が高いとパフォーマンスが低下する。そこで、LightGBMでは、ヒストグラムの作成の際に、一次勾配および二次勾配のどちらのヒストグラムから値を更新するかをスレッドごとに分けており、これによって同一のビンを更新する頻度を下げている。
(学習識別装置の構成)
図2は、実施形態に係る学習識別装置のモジュール構成の一例を示す図である。図3は、ポインタメモリの構成の一例を示す図である。図4は、ラーニングモジュールのモジュール構成の一例を示す図である。図2~図4を参照しながら、本実施形態に係る学習識別装置1のモジュール構成について説明する。
図2に示すように、本実施形態に係る学習識別装置1は、CPU10と、ラーニングモジュール20(学習部)と、データメモリ30と、モデルメモリ40と、クラシフィケーションモジュール50(識別部)と、を備えている。このうち、ラーニングモジュール20、データメモリ30、モデルメモリ40およびクラシフィケーションモジュール50は、FPGAにより構成されている。CPU10と、当該FPGAとはバスを介してデータ通信可能となっている。なお、学習識別装置1は、図2に示す各構成要素だけではなく、他の構成要素、例えば、CPU10のワークエリアとなるRAM、CPU10が実行するプログラム等を記憶したROM(Read Only Memory)、各種データ(プログラム等)を記憶した補助記憶装置、および外部装置と通信を行う通信I/F等を備えているものとしてもよい。
CPU10は、全体でGBDTの学習を制御する演算装置である。CPU10は、制御部11を有する。制御部11は、ラーニングモジュール20、データメモリ30、モデルメモリ40およびクラシフィケーションモジュール50の各モジュールを制御する。制御部11は、CPU10で実行されるプログラムによって実現される。
ラーニングモジュール20は、決定木を構成するノード毎の最適な特徴量の番号(以下、「特徴量番号」と称する場合がある)、およびしきい値を算出し、当該ノードがリーフの場合は、リーフウェイトを算出し、モデルメモリ40に書き込むハードウェアモジュールである。また、図4に示すように、ラーニングモジュール20は、ゲイン算出モジュール21_1、21_2、・・・、21_n(ゲイン算出部)と、最適条件導出モジュール22(導出部)と、を備えている。ここで、nは、少なくともサンプルデータ(学習データ、識別データ双方含む)の特徴量の数以上の数である。なお、ゲイン算出モジュール21_1、21_2、・・・、21_nについて、任意のゲイン算出モジュールを示す場合、または総称する場合、単に「ゲイン算出モジュール21」と称するものとする。
ゲイン算出モジュール21は、入力されるサンプルデータに含まれる特徴量のうち対応する特徴量について、各しきい値における分岐スコアを、上述の式(19)を用いて算出するモジュールである。ここで、サンプルデータのうち学習データには、特徴量の他、ラベル(真の値)が含まれ、サンプルデータのうち識別データには、特徴量が含まれるが、ラベルは含まれていない。また、各ゲイン算出モジュール21は、一度(1クロック)で入力されたすべての特徴量について、それぞれにそのヒストグラムを演算・格納するメモリを有し、全特徴量を並列に演算する。そのヒストグラムの結果より、各特徴量のゲインを並列に算出する。これによって、一度に、または同時に全特徴量に対する処理が可能となるので、学習処理の速度を飛躍的に向上させることが可能となる。このように、並列に全部の特徴量を読み出し、処理していく方法をフィーチャパラレル(Feature Parallel)と呼ぶ。なお、この方法を実現するためには、データメモリは一度(1クロック)ですべての特徴量を読み出すことができる必要がある。そのため、通常の32ビットや256ビット幅のデータ幅を持つメモリでは実現できない。また、ソフトウエアでは、通常CPUの一度に扱えるデータのビット数は64ビットにとどまり、特徴量数が100、各特徴量のビット数が8ビットだとしても8000ビットが必要となるのに対して、全く対応できない。そのため、従来は、メモリのアドレス毎(例えば、CPUが扱える64ビット幅)に別の特徴量を格納しておき、特徴量すべてでは、複数のアドレスにまたがって保存される方法が取られていた。それに対して、本方法では、メモリの1アドレスにすべての特徴量を格納し、1アクセスで全特徴量を読み出す点が新規の技術内容である。
上述のように、GBDTでは決定木の学習についての並列化はできない。そのため、いかに一本ずつの決定木を速く学習するかが、学習処理の速度に関して支配的となる。一方、アンサンブルな学習を行うRFでは、決定木の間の依存関係は学習時にないので、決定木ごとの学習処理の並列化は容易であるが、一般的にGBDTに対して精度が劣る。上述のように、RFよりも精度の高いGBDTの学習について、上述のようなフィーチャパラレル(Feature Parallel)を適用することで、決定木の学習処理の速度を向上させることができる。
ゲイン算出モジュール21は、算出した分岐スコアを最適条件導出モジュール22へ出力する。
最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出するモジュールである。最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノードの分岐条件データ(ノードのデータの一例)として、モデルメモリ40へ書き込む。
データメモリ30は、各種データを格納するSRAMである。データメモリ30は、ポインタメモリ31と、フィーチャメモリ32と、ステートメモリ33と、を備えている。
ポインタメモリ31は、フィーチャメモリ32で格納されているサンプルデータの格納先アドレスを記憶するメモリである。ポインタメモリ31は、図3に示すように、バンクA(バンク領域)と、バンクB(バンク領域)とを有する。なお、バンクAおよびバンクBの2バンクに分割して、サンプルデータの格納先アドレスを記憶する動作の詳細については、図5~図13で後述する。なお、ポインタメモリ31は、3つ以上のバンクを有することを制限するものではない。
フィーチャメモリ32は、サンプルデータ(学習データ、識別データを含む)を格納するメモリである。
ステートメモリ33は、ステート情報(上述のw、g、h)およびラベル情報を記憶するメモリである。
モデルメモリ40は、決定木のノード毎の分岐条件データ(特徴量番号、しきい値)、そのノードがリーフであるか否かを示すリーフフラグ(フラグ情報、ノードのデータの一例)、および、そのノードがリーフである場合におけるリーフウェイトを記憶するSRAMである。
クラシフィケーションモジュール50は、ノードごと、決定木ごとにサンプルデータを振り分けるハードウェアモジュールである。また、クラシフィケーションモジュール50は、ステート情報(w,g,h)を計算して、ステートメモリ33に書き込む。
なお、クラシフィケーションモジュール50は、上述のように学習処理におけるサンプルデータ(学習データ)の識別(分岐)だけでなく、サンプルデータ(識別データ)に対する識別処理においても、同一のモジュール構成で、当該識別データに対する識別を行うことが可能である。また、識別処理時にも、一括して特徴量をすべて読み込むことにより、クラシフィケーションモジュール50による処理をパイプライン化することができ、クロックごとに1つのサンプルデータの識別をすることまで処理の高速化が可能となる。一方、上述のように一括で読み込むことができない場合、どこの特徴量が必要になるかは、各ノードに分岐してみないとわからないため、毎回該当する特徴量のアドレスにアクセスする形態ではパイプライン化ができないことになる。
また、上述のクラシフィケーションモジュール50を複数備えるものとし、複数の識別データを分割(データパラレル(Data Parallel))して、各クラシフィケーションモジュール50に分配してそれぞれに識別処理をさせることによって、識別処理を高速化させることもできる。
(学習識別装置の学習処理)
以下、図5~図13を参照しながら、学習識別装置1の学習処理について具体的に説明する。
<初期化>
図5は、実施形態に係る学習識別装置の初期化時のモジュールの動作を示す図である。図5に示すように、まず、制御部11は、ポインタメモリ31を初期化する。例えば、図5に示すように、制御部11は、ポインタメモリ31のバンクAに対して、サンプルデータ(学習データ)のフィーチャメモリ32におけるアドレスを、学習データの数だけ順番に(例えば、アドレスの低い方から順に)書き込む。
なお、学習データのすべてを利用(すべてのアドレスを書き込み)することに限定されるものではなく、いわゆるデータサブサンプリングによって、所定の乱数に従った確率に基づいてランダムに選択した学習データを用いる(当該選択した学習データのアドレスを書き込む)ものとしてもよい。例えば、データサブサンプリングが0.5の場合、乱数に従った半分の確率で学習データの全アドレスのうち、半分のアドレスがポインタメモリ31(ここではバンクA)に書き込まれるものとしてもよい。乱数の発生には、LFSR(Linear Feedback Shift Register:線形帰還シフトレジスタ)により作成された擬似乱数が使用可能である。
また、学習に使用する学習データのうちすべての特徴量を使用することに限定されるものではなく、いわゆるフィーチャサブサンプルによって、上述と同様の乱数に従った確率に基づいてランダムに選択(例えば、半分を選択)した特徴量のみを使用するものとしてもよい。この場合、例えば、フィーチャサブサンプルにより選択された特徴量以外の特徴量のデータとしては、フィーチャメモリ32から定数が出力されるものとすればよい。これによって、未知のデータ(識別データ)に対する汎化性能が向上するという効果がある。
<デプス0・ノード0の分岐条件データの決定>
図6は、実施形態に係る学習識別装置のデプス0、ノード0のノードパラメータを決定する場合のモジュールの動作を示す図である。なお、決定木の一番上の階層を「デプス0」、そこから下の階層を順に「デプス1」、「デプス2」、・・・と称するものとし、特定の階層の一番左のノードを「ノード0」、そこから右のノードを順に「ノード1」、「ノード2」、・・・と称するものとする。
図6に示すように、まず、制御部11は、ラーニングモジュール20へ開始アドレスおよび終了アドレスを送信し、トリガによりラーニングモジュール20による処理を開始させる。ラーニングモジュール20は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクA)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出し、ステートメモリ33からステート情報(w,g,h)を読み出す。
この場合、上述したように、ラーニングモジュール20の各ゲイン算出モジュール21は、対応する特徴量のヒストグラムを計算し、それぞれ自身のSRAMに格納し、その結果に基づいて各しきい値における分岐スコアを算出する。そして、ラーニングモジュール20の最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出する。そして、最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノード(デプス0、ノード0)の分岐条件データとして、モデルメモリ40へ書き込む。この際、最適条件導出モジュール22は、ノード(デプス0、ノード0)からさらに分岐されることを示すためにリーフフラグを「0」として、当該ノードのデータ(分岐条件データの一部としてもよい)をモデルメモリ40へ書き込む。
以上の動作について、ラーニングモジュール20は、バンクAに書き込まれた学習データのアドレスを順に指定し、当該アドレスによって、フィーチャメモリ32から各学習データを読み出して行う。
<デプス0・ノード0でのデータ分岐処理>
図7は、実施形態に係る学習識別装置のデプス0、ノード0の分岐時のモジュールの動作を示す図である。
図7に示すように、制御部11は、クラシフィケーションモジュール50へ開始アドレスおよび終了アドレスを送信し、トリガによりクラシフィケーションモジュール50による処理を開始させる。クラシフィケーションモジュール50は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクA)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出す。また、クラシフィケーションモジュール50は、モデルメモリ40から対応するノード(デプス0、ノード0)の分岐条件データ(特徴量番号、しきい値)を読み出す。そして、クラシフィケーションモジュール50は、分岐条件データに従って、読み出したサンプルデータを、ノード(デプス0、ノード0)の左側に分岐させるか、右側に分岐させるかを判定し、その判定結果により、当該学習データのフィーチャメモリ32におけるアドレスを、ポインタメモリ31の読み出しバンク(ここではバンクA)(読み出し用のバンク領域)と異なる他方のバンク(書き込みバンク)(ここではバンクB)(書き込み用のバンク領域)に書き込む。
この際、クラシフィケーションモジュール50は、当該ノードの左側に分岐すると判定した場合、当該学習データのアドレスを、図7に示すように、バンクBのアドレスの低い方から順に書き込み、当該ノードの右側に分岐すると判定した場合、当該学習データのアドレスを、バンクBのアドレスの高い方から順に書き込む。これによって、書き込みバンク(バンクB)では、ノードの左側に分岐した学習データのアドレスは、アドレスの低い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの高い方にきれいに分けて書き込むことができる。なお、書き込みバンクにおいて、ノードの左側に分岐した学習データのアドレスは、アドレスの高い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの低い方に分けて書き込むものとしてもよい。
このように、ポインタメモリ31では、上述のように、バンクAおよびバンクBの2つが構成されており、交互に読み書きすることによって、FPGA内のSRAMの容量が限られている中、効率的にメモリを使用することが可能となる。単純には、フィーチャメモリ32およびステートメモリ33を、それぞれ2バンク構成する方法もあるが、一般的に、サンプルデータよりも、フィーチャメモリ32でのアドレスを示すデータの方が小さいので、本実施形態のように、ポインタメモリ31を準備しておき、間接的にアドレスを指定する方法の方が、メモリの使用量を削減することが可能となる。
以上の動作について、クラシフィケーションモジュール50は、全学習データに対して分岐処理を行う。ただし、分岐処理が終了した後、ノード(デプス0、ノード0)の左側と右側とに同数の学習データが分けられるわけではないので、クラシフィケーションモジュール50は、左側に分岐した学習データのアドレスと、右側に分岐した学習データのアドレスとの境界に対応する書き込みバンク(バンクB)におけるアドレス(中間アドレス)を、制御部11に返す。当該中間アドレスは、次の分岐処理の際に使用される。
<デプス1・ノード0の分岐条件データの決定>
図8は、実施形態に係る学習識別装置のデプス1、ノード0のノードパラメータを決定する場合のモジュールの動作を示す図である。基本的には、図6に示した、デプス0・ノード0の分岐条件データの決定の処理と同様であるが、対象とするノードの階層が変わる(デプス0からデプス1になる)ので、ポインタメモリ31のバンクAおよびバンクBの役割が反転する。具体的には、バンクBが読み出しバンクとなり、バンクAが書き込みバンク(図9参照)となる。
図8に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、ラーニングモジュール20へ開始アドレスおよび終了アドレスを送信し、トリガによりラーニングモジュール20による処理を開始させる。ラーニングモジュール20は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出し、ステートメモリ33からステート情報(w,g,h)を読み出す。具体的には、ラーニングモジュール20は、図8に示すように、バンクBの左側(アドレスが低い方)から中間アドレスまで順にアドレスを指定していく。
この場合、上述したように、ラーニングモジュール20の各ゲイン算出モジュール21は、読み出した学習データの各特徴量をそれぞれ自身のSRAMに格納して、各しきい値における分岐スコアを算出する。そして、ラーニングモジュール20の最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出する。そして、最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノード(デプス1、ノード0)の分岐条件データとして、モデルメモリ40へ書き込む。この際、最適条件導出モジュール22は、ノード(デプス1、ノード0)からさらに分岐されることを示すためにリーフフラグを「0」として、当該ノードのデータ(分岐条件データの一部としてもよい)をモデルメモリ40へ書き込む。
以上の動作について、ラーニングモジュール20は、バンクBの左側(アドレスが低い方)から中間アドレスまで順に指定し、当該アドレスによって、フィーチャメモリ32から各学習データを読み出して行う。
<デプス1・ノード0でのデータ分岐処理>
図9は、実施形態に係る学習識別装置のデプス1、ノード0の分岐時のモジュールの動作を示す図である。
図9に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、クラシフィケーションモジュール50へ開始アドレスおよび終了アドレスを送信し、トリガによりクラシフィケーションモジュール50による処理を開始させる。クラシフィケーションモジュール50は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)の左側から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出す。また、クラシフィケーションモジュール50は、モデルメモリ40から対応するノード(デプス1、ノード0)の分岐条件データ(特徴量番号、しきい値)を読み出す。そして、クラシフィケーションモジュール50は、分岐条件データに従って、読み出したサンプルデータを、ノード(デプス1、ノード0)の左側に分岐させるか、右側に分岐させるかを判定し、その判定結果により、当該学習データのフィーチャメモリ32におけるアドレスを、ポインタメモリ31の読み出しバンク(ここではバンクB)(読み出し用のバンク領域)と異なる他方のバンク(書き込みバンク)(ここではバンクA)(書き込み用のバンク領域)に書き込む。
この際、クラシフィケーションモジュール50は、当該ノードの左側に分岐すると判定した場合、当該学習データのアドレスを、図9に示すように、バンクAのアドレスの低い方(受信した開始アドレス)から順に書き込み、当該ノードの右側に分岐すると判定した場合、当該学習データのアドレスを、バンクAのアドレスの高い方(受信した終了アドレスであって前回の中間アドレス)から順に書き込む。これによって、書き込みバンク(バンクA)では、ノードの左側に分岐した学習データのアドレスは、アドレスの低い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの高い方にきれいに分けて書き込むことができる。なお、書き込みバンクにおいて、ノードの左側に分岐した学習データのアドレスは、アドレスの高い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの低い方に分けて書き込むものとしてもよい。
以上の動作について、クラシフィケーションモジュール50は、全学習データのうちバンクBの中間アドレスよりも左側に書き込まれたアドレスで指定される学習データに対して分岐処理を行う。ただし、分岐処理が終了した後、ノード(デプス1、ノード0)の左側と右側とに同数の学習データが分けられるわけではないので、クラシフィケーションモジュール50は、左側に分岐した学習データのアドレスと、右側に分岐した学習データのアドレスとの中間に対応する書き込みバンク(バンクA)におけるアドレス(中間アドレス)を、制御部11に返す。当該中間アドレスは、次の分岐処理の際に使用される。
<デプス1・ノード1の分岐条件データの決定>
図10は、実施形態に係る学習識別装置のデプス1、ノード1のノードパラメータを決定する場合のモジュールの動作を示す図である。なお、図8の場合と同様に、デプス1・ノード0のノードと同じ階層なので、バンクBが読み出しバンクとなり、バンクAが書き込みバンク(図11参照)となる。
図10に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、ラーニングモジュール20へ開始アドレスおよび終了アドレスを送信し、トリガによりラーニングモジュール20による処理を開始させる。ラーニングモジュール20は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出し、ステートメモリ33からステート情報(w,g,h)を読み出す。具体的には、ラーニングモジュール20は、図10に示すように、バンクBの右側(アドレスが高い方)から中間アドレスまで順にアドレスを指定していく。
この場合、上述したように、ラーニングモジュール20の各ゲイン算出モジュール21は、読み出した学習データの各特徴量をそれぞれ自身のSRAMに格納して、各しきい値における分岐スコアを算出する。そして、ラーニングモジュール20の最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出する。そして、最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノード(デプス1、ノード1)の分岐条件データとして、モデルメモリ40へ書き込む。この際、最適条件導出モジュール22は、ノード(デプス1、ノード1)からさらに分岐されることを示すためにリーフフラグを「0」として、当該ノードのデータ(分岐条件データの一部としてもよい)をモデルメモリ40へ書き込む。
以上の動作について、ラーニングモジュール20は、バンクBの右側(アドレスが高い方)から中間アドレスまで順に指定し、当該アドレスによって、フィーチャメモリ32から各学習データを読み出して行う。
<デプス1・ノード1でのデータ分岐処理>
図11は、実施形態に係る学習識別装置のデプス1、ノード1の分岐時のモジュールの動作を示す図である。
図11に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、クラシフィケーションモジュール50へ開始アドレスおよび終了アドレスを送信し、トリガによりクラシフィケーションモジュール50による処理を開始させる。クラシフィケーションモジュール50は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)の右側から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出す。また、クラシフィケーションモジュール50は、モデルメモリ40から対応するノード(デプス1、ノード1)の分岐条件データ(特徴量番号、しきい値)を読み出す。そして、クラシフィケーションモジュール50は、分岐条件データに従って、読み出したサンプルデータを、ノード(デプス1、ノード1)の左側に分岐させるか、右側に分岐させるかを判定し、その判定結果により、当該学習データのフィーチャメモリ32におけるアドレスを、ポインタメモリ31の読み出しバンク(ここではバンクB)(読み出し用のバンク領域)と異なる他方のバンク(書き込みバンク)(ここではバンクA)(書き込み用のバンク領域)に書き込む。
この際、クラシフィケーションモジュール50は、当該ノードの左側に分岐すると判定した場合、当該学習データのアドレスを、図11に示すように、バンクAのアドレスの低い方(受信した開始アドレスであって前回の中間アドレス)から順に書き込み、当該ノードの右側に分岐すると判定した場合、当該学習データのアドレスを、バンクAのアドレスの高い方(受信した終了アドレス)から順に書き込む。これによって、書き込みバンク(バンクA)では、ノードの左側に分岐した学習データのアドレスは、アドレスの低い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの高い方にきれいに分けて書き込むことができる。なお、書き込みバンクにおいて、ノードの左側に分岐した学習データのアドレスは、アドレスの高い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの低い方に分けて書き込むものとしてもよい。この場合、図9における動作も合わせる必要がある。
以上の動作について、クラシフィケーションモジュール50は、全学習データのうちバンクBの中間アドレスよりも右側に書き込まれたアドレスで指定される学習データに対して分岐処理を行う。ただし、分岐処理が終了した後、ノード(デプス1、ノード1)の左側と右側とに同数の学習データが分けられるわけではないので、クラシフィケーションモジュール50は、左側に分岐した学習データのアドレスと、右側に分岐した学習データのアドレスとの中間に対応する書き込みバンク(バンクA)におけるアドレス(中間アドレス)を、制御部11に返す。当該中間アドレスは、次の分岐処理の際に使用される。
<デプス1・ノード1の分岐条件データの決定時に分岐しない場合>
図12は、実施形態に係る学習識別装置のデプス1、ノード1のノードパラメータを決定の結果、分岐しない場合のモジュールの動作を示す図である。なお、図8の場合と同様に、デプス1・ノード0のノードと同じ階層なので、バンクBが読み出しバンクとなる。
図12に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、ラーニングモジュール20へ開始アドレスおよび終了アドレスを送信し、トリガによりラーニングモジュール20による処理を開始させる。ラーニングモジュール20は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出し、ステートメモリ33からステート情報(w,g,h)を読み出す。具体的には、ラーニングモジュール20は、図12に示すように、バンクBの右側(アドレスが高い方)から中間アドレスまで順にアドレスを指定していく。
ラーニングモジュール20は、算出した分岐スコア等から、これ以上ノード(デプス1、ノード1)から分岐しないと判断した場合、リーフフラグを「1」として、当該ノードのデータ(分岐条件データの一部としてもよい)をモデルメモリ40に書き込むと共に、制御部11にも当該ノードのリーフフラグが「1」であることを送信する。これによって、ノード(デプス1、ノード1)から下の階層には分岐しないことが認識される。さらに、ラーニングモジュール20は、ノード(デプス1、ノード1)のリーフフラグが「1」である場合、特徴量番号およびしきい値の代わりに、リーフウェイト(w)(分岐条件データの一部としてもよい)をモデルメモリ40に書き込む。これにより、モデルメモリ40の容量を別々に持つよりも小さくすることができる。
以上の図6~図12で示した処理を、階層(デプス)毎に進めていくと、全体の決定木が完成する(決定木が学習される)。
<決定木の学習が完了した場合>
図13は、実施形態に係る学習識別装置において決定木の学習が完了した場合に全サンプルデータのステート情報を更新するときのモジュールの動作を示す図である。
GBDTを構成する1つの決定木の学習が完了した場合、次の決定木へのブースティング(ここではグラディエントブースティング)の際に使用するため、各学習データの誤差関数に対応する一次勾配g、二次勾配h、および各学習データに対するリーフウェイトwを算出する必要がある。図13に示すように、制御部11は、トリガによりクラシフィケーションモジュール50による上述の計算を開始させる。クラシフィケーションモジュール50は、全学習データに対して、全デプス(階層)のノードに対する分岐判定の処理を行い、各学習データに対応するリーフウェイトを算出する。そして、クラシフィケーションモジュール50は、算出したリーフウェイトに対して、ラベル情報を基に、ステート情報(w、g、h)を算出し、元のステートメモリ33のアドレスに書き戻す。このように、更新されたステート情報を利用して、次の決定木の学習が行われる。
以上のように、本実施形態に係る学習識別装置1において、ラーニングモジュール20は、入力されたサンプルデータの各特徴量を読み込むためのメモリ(例えば、SRAM)をそれぞれ備えている。これによって、1アクセスでサンプルデータの全特徴量を読み出すことができ、各ゲイン算出モジュール21により、一度に全特徴量に対する処理が可能となるので、決定木の学習処理の速度を飛躍的に向上させることが可能となる。
また、本実施形態に係る学習識別装置1において、ポインタメモリ31では、バンクAおよびバンクBの2つが構成されており、交互に読み書きするものとしている。これによって、効率的にメモリを使用することが可能となる。単純には、フィーチャメモリ32およびステートメモリ33を、それぞれ2バンク構成する方法もあるが、一般的に、サンプルデータよりも、フィーチャメモリ32でのアドレスを示すデータの方が小さいので、本実施形態のように、ポインタメモリ31を準備しておき、間接的にアドレスを指定する方法の方が、メモリ容量を節約することが可能となる。また、クラシフィケーションモジュール50は、ノードの左側に分岐すると判定した場合、学習データのアドレスを、2つのバンクのうち書き込みバンクのアドレスの低い方から順に書き込み、当該ノードの右側に分岐すると判定した場合、当該学習データのアドレスを、書き込みバンクのアドレスの高い方から順に書き込む。これによって、書き込みバンクでは、ノードの左側に分岐した学習データのアドレスは、アドレスの低い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの高い方にきれいに分けて書き込むことができる。
(変形例)
図14は、変形例に係る学習識別装置のモデルメモリの構成の一例を示す図である。図14を参照しながら、本変形例に係る学習識別装置1におけるモデルメモリ40において、決定木のデプス(階層)毎にメモリが備えられた構成について説明する。
図14に示すように、本変形例に係る学習識別装置1のモデルメモリ40は、学習された決定木のモデルデータについてデプス(階層)毎にデータ(具体的には分岐条件データ)を格納するためのデプス0用メモリ41_1、デプス1用メモリ41_2、・・・、デプス(m-1)用メモリ41_mを有する。ここで、mは、少なくとも決定木のモデルのデプス(階層)数以上の数である。すなわち、モデルメモリ40は、学習された決定木のモデルデータについてデプス(階層)毎にデータ(デプス0ノードデータ、デプス1ノードデータ、・・・、デプス(m-1)ノードデータ)を同時に取り出すための独立したポートを有する、ということになる。これによって、クラシフィケーションモジュール50は、決定木における最初のノードでの分岐結果に基づき、次のノードに対応するデータ(分岐条件データ)を読み出すことを、全デプス(階層)で並列に行い、途中にメモリを介さずに、1つのサンプルデータ(識別データ)に対して、1クロックで同時に各デプス(階層)での分岐処理を実行(パイプライン処理)することが可能となる。これによって、クラシフィケーションモジュール50における識別処理は、サンプルデータ数分だけの時間だけで済むことになり、識別処理の速度を飛躍的に向上させることができる。これに対して、従来の技術では、ノード毎に新しいメモリ領域にサンプルデータをコピーしていくため、メモリの読み書きの時間だけ速度に影響し、(サンプルデータ数×デプス(階層)数)の識別処理の時間となるので、上述のように本変形例に係る識別処理の方が大幅に優位となる。
図15は、変形例に係る学習識別装置のクラシフィケーションモジュールの構成の一例を示す図である。図15に示すように、クラシフィケーションモジュール50は、ノード0判別器51_1、ノード1判別器51_2、ノード2判別器51_3、・・・を有する。フィーチャメモリ32からは、1クロックに1つのサンプルデータが特徴量として供給される。図15に示すように、特徴量は、まずノード0判別器51_1に入力され、ノード0判別器51_1は、対応するモデルメモリ40のデプス0用メモリ41_1からそのノードのデータ(デプス0ノードデータ)(右に行くか、左に行くかの条件、および使用する特徴量番号)を受け取る。ノード0判別器51_1では、その条件に従い、対応するサンプルデータが右に行くか左に行くかが判別される。なお、ここではデプス用メモリ(デプス0用メモリ41_1、デプス1用メモリ41_2、デプス2用メモリ41_3、・・・)はそれぞれレイテンシが1クロックあるとしている。ノード0判別器51_1の結果により、次のデプス1用メモリ41_2の内、何番目のノードに行くかがアドレス指定され、対応するノードのデータ(デプス1ノードデータ)が抽出され、ノード1判別器51_2に入力される。
デプス0用メモリ41_1のレイテンシは1クロックであるため、同じように特徴量も1クロックの遅延を入れて、ノード1判別器51_2に入力される。また、同じクロックで次のサンプルデータの特徴量がノード0判別器51_1に入力されている。このようにして、パイプライン処理で識別を行うことにより、デプス毎にメモリが同時に出力されている前提で、1つの決定木全体として、1クロックで1つのサンプルデータを識別することが可能である。なお、デプス0用メモリ41_1は、デプス0ではノードは1つしかないので、1つのアドレスのみでよく、デプス1用メモリ41_2は、デプス1ではノードは2つあるので、2つのアドレスが必要であり、同じように、デプス2用メモリ41_3は、4つのアドレスが必要であり、デプス3用メモリ(図示せず)は、8つのアドレスが必要となる。なお、このクラシフィケーションモジュール50は木全体の識別を行うものであるが、ノードの学習時には、ノード0判別器51_1のみを用いて学習を行うことで同じ回路を流用して、回路規模を小さくすることができる。
[第2の実施形態]
第2の実施形態に係る学習識別装置について、第1の実施形態に係る学習識別装置1と相違する点を中心に説明する。第1の実施形態では、サンプルデータが記憶されるデータメモリ30を1つとして、GBDTによる学習処理および識別処理について説明した。本実施形態では、複数のサンプルデータを並列で処理するデータパラレルを実現するために、データメモリを複数に分割して学習処理を行う動作について説明する。
(データパラレルについて)
図16は、データパラレルを適用した学習識別装置のモジュール構成の一例を示す図である。図16を参照しながら、データパラレルを実現する構成の例である学習識別装置1aの構成について説明する。
サンプルデータ(学習データまたは識別データ)に対するデータパラレルを実現するためには、まず、図16に示すように、サンプルデータを分割して保持するために2つのデータメモリ30a、30bに分割することが考えられる。図16のデータメモリ30bでは図示していないが、データメモリ30aと同様に、データメモリ30bも、ポインタメモリ31と、フィーチャメモリ32と、ステートメモリ33とを含む。ただし、単にサンプルデータを保持するメモリを分割しても、分割されたサンプルデータを並列に処理(学習処理、識別処理等)を行う機構が必要である。図16に示す例では、識別処理を行うモジュールを、分割されたデータメモリと同数だけ配置された構成を示す。すなわち、学習識別装置1aは、2つのデータメモリ30a、30bのそれぞれに格納されたサンプルデータについて並列で識別処理を行うために、クラシフィケーションモジュール50a、50bを有する。個別のモジュールに着目した場合、フィーチャパラレルで処理されるものとすると、上述のようなデータパラレルにするために、構成の変更はほとんどないので実装も容易である。
また、学習処理、すなわち、ラーニングモジュール20での処理を高速化するためのデータパラレルとしては、サンプルデータを分割して保持するために2つのデータメモリ30a、30bに分割すると共に、上述したように、学習処理の過程で算出される特徴量および勾配情報(上述の式(11)参照)についてのヒストグラム(以下、「勾配ヒストグラム」と称する場合がある)を保持するメモリが、データメモリの分割数に比例して増大するので、回路規模が増大するという問題がある。
(勾配ヒストグラムを用いた分岐スコアの算出方法)
ここで、まず、ラーニングモジュール20における分岐スコアの算出方法について説明する。ここで、サンプルデータ(ここでは学習データ)の特徴量は、あるビット幅に量子化されていることを前提とする。例えば、特徴量が8ビット(256パターンの値)で、特徴量の次元が100である場合、ラーニングモジュール20は、256×100=25600パターンの分岐スコアを算出することになる。この場合のしきい値の候補は、256個である。
ある分岐条件(1つの特徴量に対する1つのしきい値)に対応する分岐スコアを算出するには、現在のノードにある学習データから、しきい値以上の特徴量を有する学習データの勾配情報の和(上述の式(19)のG
R、H
Rに相当)と、当該しきい値未満の学習データの勾配情報の和(上述の式(19)のG
L、H
Lに相当)を求める必要がある。ここで、下記の(表1)に示すように、学習データが4つ、特徴量が1次元で値が3パターン、勾配情報が一次勾配gである場合において具体的に説明する。
(表1)に示すように、特徴量が0、1、2の3パターンあるので、しきい値についても0、1、2となり、各しきい値での勾配情報の和は、以下の(表2)に示す値となり、この3パターンの各しきい値に対応する分岐スコアが算出される。
特定のしきい値に対して、勾配情報の和を求めるためには、現在のノードのすべての学習データを参照する必要がある。これをすべてのしきい値について毎回行うものとすると、非常に処理時間がかかることになる。例えば、特徴量が8ビット(256パターン)の場合、しきい値についても256パターンあるので、(現在のノードにある学習データ数×256)回だけ勾配情報の和を求める必要がある。これでは非常に処理時間がかかるので、予め、特徴量の各値における勾配情報の和(勾配ヒストグラム)、および勾配情報の総和を求めておき、勾配ヒストグラムの累積和をとることによって分岐スコアの算出処理を簡略化するものとする。
サンプルデータが上述の(表1)で示したものである場合、特徴量の各値における勾配情報の和(勾配ヒストグラム)は、以下の(表3)に示す値となる。
また、特徴量の各値における勾配情報の総和は、0.1+0.2+0.1-0.3=0.1となる。ここで、勾配ヒストグラムの累積和を求めることによって、勾配情報の和G
Lが求まり、勾配情報の総和から勾配情報の和G
Lを引くと勾配情報のG
Rが求まり、各しきい値に対する勾配情報の和G
L、G
Rは、以下の(表4)に示す値となる。
この方法であれば、現在のノードの学習データはそれぞれ1回参照すればよく、その後は、しきい値の数だけ勾配ヒストグラムを参照すれば、すべての分岐条件に対して分岐スコアを求めることができる。特徴量が8ビット(256パターン)の場合、(現在のノードにある学習データ数+256)回の処理で済むことになる。なお、上述の場合は、特徴量が1次元の場合であるが、特徴量が2次元以上でも、特徴量の次元ごとに勾配ヒストグラムを求めれば、同様の処理を並列で算出することが可能である。以下、第1の実施形態でフィーチャパラレルで学習を行うラーニングモジュール20の構成として示した図4に基づいてさらに詳細な構成を示した図17に示すラーニングモジュール20により、勾配ヒストグラムを算出して分岐条件データを求めるための構成および動作を説明し、さらに、データパラレルの構成とした場合の構成および動作について説明する。
(勾配ヒストグラムを用いて分岐条件データを求めるラーニングモジュールの構成例)
図17は、ラーニングモジュールの詳細なモジュール構成の一例を示す図である。図17を参照しながら、上述の図4が示す構成をさらに詳細に示したラーニングモジュール20の構成および動作について説明する。
図17に示すラーニングモジュール20は、ゲイン算出モジュール21_1、21_2、・・・、21_nと、最適条件導出モジュール22と、を備えている。ここで、nは、少なくともサンプルデータ(ここでは、学習データ)の特徴量の種類以上の数である。なお、ゲイン算出モジュール21_1、21_2、・・・、21_nについて、任意のゲイン算出モジュールを示す場合、または総称する場合、単に「ゲイン算出モジュール21」と称するものとする。
ゲイン算出モジュール21_1~21_1nは、それぞれ、入力されるサンプルデータに含まれる特徴量のうち対応する特徴量について、各しきい値における分岐スコアを、上述の式(19)を用いて算出するモジュールである。ゲイン算出モジュール21_1は、勾配ヒストグラム算出モジュール61_1と、累積勾配算出モジュール62_1と、算出モジュール63_1と、を含む。
勾配ヒストグラム算出モジュール61_1は、入力したサンプルデータの特徴量の各値をヒストグラムのビンとして、当該サンプルデータに対応する勾配情報の値を積算することによって勾配ヒストグラムを算出するモジュールである。
累積勾配算出モジュール62_1は、特徴量に対する各しきい値について、勾配ヒストグラムの累積和を求めることにより、勾配情報の和(GL、GR、HL、HR)を算出するモジュールである。
算出モジュール63_1は、累積勾配算出モジュール62_1により算出された勾配情報の和を用いて、上述の式(19)を用いて、各しきい値における分岐スコアを算出するモジュールである。
また、ゲイン算出モジュール21_2も、同様に、勾配ヒストグラム算出モジュール61_2と、累積勾配算出モジュール62_2と、算出モジュール63_2と、を含み、以下、ゲイン算出モジュール21_nについても同様である。なお、勾配ヒストグラム算出モジュール61_1、61_2、・・・、61_nについて、任意の勾配ヒストグラム算出モジュールを示す場合、または総称する場合、単に「勾配ヒストグラム算出モジュール61」と称するものとする。また、累積勾配算出モジュール62_1、62_2、・・・、62_nについて、任意の累積勾配算出モジュールを示す場合、または総称する場合、単に「累積勾配算出モジュール62」と称するものとする。また、算出モジュール63_1、63_2、・・・、63_nについて、任意の算出モジュールを示す場合、または総称する場合、単に「算出モジュール63」と称するものとする。
最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量および各しきい値に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出するモジュールである。最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノードの分岐条件データ(ノードのデータの一例)として、モデルメモリ40へ書き込む。
<勾配ヒストグラム算出モジュールの構成および動作>
図18は、ラーニングモジュールの勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図18を参照しながら、ラーニングモジュール20における勾配ヒストグラム算出モジュール61の構成および動作について説明する。なお、図18では、特徴量が1次元であるものとし、勾配情報として一次勾配gおよび二次勾配hがある場合について説明するが、単に、勾配情報g、勾配情報hと称する場合がある。
図18に示すように、勾配ヒストグラム算出モジュール61は、データカウンタ201と、加算器202と、ディレイ203と、勾配ヒストグラムメモリ204と、総和格納メモリ205と、加算器206と、ディレイ207と、勾配ヒストグラムメモリ208と、総和格納メモリ209と、を有する。
データカウンタ201は、データメモリ30から学習処理の対象となるサンプルデータ(特徴量)、および対応する勾配情報g、hを読み出すためのアドレスを出力する。
加算器202は、勾配ヒストグラムメモリ204から読み出した、加算された勾配情報gと、データメモリ30から新たに読み出した勾配情報gとを加算する。
ディレイ203は、加算器202により加算された勾配情報gを勾配ヒストグラムメモリ204に書き込むタイミングを合わせるために、データメモリ30から読み出された特徴量を遅延して出力する。
勾配ヒストグラムメモリ204は、特徴量の値をアドレスとして、加算された勾配情報gを格納していき、最終的に、特徴量の値(ビン)ごとの勾配ヒストグラムを格納するメモリである。
総和格納メモリ205は、データメモリ30から読み出した勾配情報gの総和を格納するメモリである。
加算器206は、勾配ヒストグラムメモリ208から読み出した、加算された勾配情報hと、データメモリ30から新たに読み出した勾配情報hとを加算する。
ディレイ207は、加算器206により加算された勾配情報hを勾配ヒストグラムメモリ208に書き込むタイミングを合わせるために、データメモリ30から読み出された特徴量を遅延して出力する。
勾配ヒストグラムメモリ208は、特徴量の値をアドレスとして、加算された勾配情報hを格納していき、最終的に、特徴量の値(ビン)ごとの勾配ヒストグラムを格納するメモリである。
総和格納メモリ209は、データメモリ30から読み出した勾配情報hの総和を格納するメモリである。
以下、勾配ヒストグラム算出モジュール61の勾配ヒストグラムの算出動作の流れを簡潔に説明する。まず、勾配ヒストグラム算出モジュール61は、データカウンタ201から出力されるアドレスを用いて、データメモリ30に記憶されている、現在のノードの1つの学習データ(特徴量、勾配情報)を読み出す。そして、加算器202は、データメモリ30から読み出した特徴量をアドレスとして、勾配ヒストグラムメモリ204から勾配情報g(加算された勾配情報g)を読み出す。そして、加算器202は、勾配ヒストグラムメモリ204から読み出した勾配情報g(加算された勾配情報g)と、データメモリ30から読み出した勾配情報gとを加算し、データメモリ30から読み出された特徴量をアドレスとして、勾配ヒストグラムメモリ204へ加算した勾配情報gを書き込む(更新する)。総和格納メモリ205は、データメモリ30から勾配情報gを読み出す度に加算して勾配情報gの総和を格納する。なお、加算器206、ディレイ207、勾配ヒストグラムメモリ208および総和格納メモリ209による勾配情報hに対する処理も、上述と同様である。以上の動作を、現在のノードのすべての学習データについて繰り返す。
<累積勾配算出モジュールの構成および動作>
図19は、ラーニングモジュールの累積勾配算出モジュールのモジュール構成の一例を示す図である。図19を参照しながら、ラーニングモジュール20における累積勾配算出モジュール62の構成および動作について説明する。なお、図19では、特徴量が1次元であるものとし、勾配情報として一次勾配gおよび二次勾配hがある場合について説明する。
図19に示すように、累積勾配算出モジュール62は、しきい値カウンタ210と、アキュムレータ211と、ディレイ212と、差分器213と、アキュムレータ214と、ディレイ215と、差分器216と、を有する。
しきい値カウンタ210は、勾配ヒストグラムメモリ204、208から特徴量の値ごとに加算された勾配情報(g、h)、すなわち、特徴量の各値の勾配ヒストグラムを読み出すためのアドレスとなるしきい値を出力する。
アキュムレータ211は、しきい値カウンタ210から出力されたしきい値(アドレス)に対応した勾配情報gについての勾配ヒストグラムを勾配ヒストグラムメモリ204から読み出して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。
ディレイ212は、アキュムレータ211から読み出した勾配情報gについての勾配ヒストグラムの累積和を、差分器213から勾配情報gの和GRが出力されるタイミングと合せるために遅延させて、勾配情報gの和GLとして出力する。
差分器213は、総和格納メモリ205から読み出した勾配情報gの総和から、アキュムレータ211から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和GL)を引いて、勾配情報gの和GRを算出する。
アキュムレータ214は、しきい値カウンタ210から出力されたしきい値(アドレス)に対応した勾配情報hについての勾配ヒストグラムを勾配ヒストグラムメモリ208から読み出して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。
ディレイ215は、アキュムレータ214から読み出した勾配情報hについての勾配ヒストグラムの累積和を、差分器216から勾配情報hの和HRが出力されるタイミングと合せるために遅延させて、勾配情報hの和HLとして出力する。
差分器216は、総和格納メモリ209から読み出した勾配情報hの総和から、アキュムレータ214から読み出した勾配情報hについての勾配ヒストグラムの累積和(すなわち、勾配情報hの和HL)を引いて、勾配情報hの和HRを算出する。
以下、累積勾配算出モジュール62の勾配情報の和(GL、GR、HL、HR)の算出動作の流れを簡潔に説明するなお、累積勾配算出モジュール62による算出処理は、勾配ヒストグラム算出モジュール61における勾配情報の勾配ヒストグラムの算出・格納処理の動作終了後に開始される。すなわち、勾配ヒストグラム算出モジュール61による算出処理の終了後は、勾配ヒストグラムメモリ204、208には、それぞれ、現在のノードのすべての学習データから算出された勾配情報g、hについての勾配ヒストグラムが保持してある。
まず、累積勾配算出モジュール62は、しきい値カウンタ210から出力されるアドレスとしてのしきい値を用いて、勾配ヒストグラムメモリ204に記憶されている勾配情報gの勾配ヒストグラムを読み出す。そして、アキュムレータ211は、しきい値カウンタ210から出力されたしきい値に対応した勾配情報gについての勾配ヒストグラムを勾配ヒストグラムメモリ204から読み出して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。そして、差分器213は、総和格納メモリ205から読み出した勾配情報gの総和から、アキュムレータ211から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和GL)を引いて、勾配情報gの和GRを算出して、算出モジュール63へ出力する。また、ディレイ212は、アキュムレータ211から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和GL)を、差分器213の出力に合せて、算出モジュール63へ出力する。なお、アキュムレータ214、ディレイ215および差分器216におる勾配情報hに対する処理(勾配情報hの和HL、HRの算出処理)も、上述と同様である。以上の動作を、すべてのしきい値について繰り返すが、この場合、しきい値カウンタ210がしきい値を順にカウントアップさせながら一巡して出力することによって実現される。
<データパラレルにした場合の勾配ヒストグラム算出モジュール>
図20は、データパラレルにした場合の勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図20を参照しながら、データパラレルにした場合の勾配ヒストグラム算出モジュール61の構成および動作について説明する。なお、図20では、データパラレルの分割数を2とし、特徴量が1次元であるものとし、勾配情報として一次勾配gのみを考えた場合について説明する。
図20に示すように、分割数が2の場合のデータパラレルとするために、図18に示すデータメモリ30の代わりに、分割したメモリであるデータメモリ30a、30bが構成され、勾配ヒストグラム算出モジュール61の代わりに、勾配ヒストグラム算出モジュール61a、61bが構成される。
図20に示すように、勾配ヒストグラム算出モジュール61aは、データカウンタ201aと、加算器202aと、ディレイ203aと、勾配ヒストグラムメモリ204aと、総和格納メモリ205aと、を有する。また、勾配ヒストグラム算出モジュール61bは、データカウンタ201bと、加算器202bと、ディレイ203bと、勾配ヒストグラムメモリ204bと、総和格納メモリ205bと、を有する。データカウンタ201a、201b、加算器202a、202b、ディレイ203a、203b、勾配ヒストグラムメモリ204a、204b、および、総和格納メモリ205a、205bの機能は、図18で説明した各機能と同様である。
データパラレルを簡易に構成する場合、図20に示すように、データメモリ30と共に、勾配ヒストグラム算出モジュール61も分割数と同数だけ配置する構成が考えられる。この場合、勾配ヒストグラムメモリの数は、特徴量次元×分割数となる。図20に示す例では、特徴量は一次元、分割数は2としているので、勾配ヒストグラムメモリ204a、204bの2つとなる。さらに、勾配情報として一次勾配gおよび二次勾配h用のそれぞれの勾配ヒストグラムメモリを考えた場合、必要となる勾配ヒストグラムメモリの全容量は、1つのメモリの容量(ビン数×ビット幅)×2(一次勾配g、二次勾配h)×特徴量次元×分割数となる。大規模なデータセットでは、特徴量が数百~数千次元ある場合も珍しくなく、そのうえ、分割数を増やすと大量のメモリの数が必要となり、メモリの容量がボトルネックとなり、回路の規模が増大してしまう。例えば、特徴量が8ビット(256パターン)で2000次元であり、勾配情報が一次勾配gおよび二次勾配hの2つとし、勾配ヒストグラムのビット幅が12ビットの場合、12[ビット]×256=3072[ビット]なので、1つの勾配ヒストグラムメモリのメモリ容量は3072ビットを満たせるものが必要になる。メモリは、通常、2のべき乗で用意されるので、この場合、メモリ容量は4096ビット(4kビット)となる。したがって、1分割(分割なし)の場合の勾配ヒストグラムメモリの全容量は、以下のようになる。
4[kビット]×2(一次勾配g、二次勾配h)×2000[次元]=16[Mビット]
すなわち、1分割(分割なし)あたり16Mビットのメモリ容量が必要になり、分割した場合は、(分割数×16Mビット)のメモリ容量が必要となる。
例えば、ハイエンドなFPGAであるxilinx社のvirtex UltrScale+のVU9Pというチップの場合について考える。勾配ヒストグラムメモリに用いることができるのは分散RAMおよびブロックRAMという回路である。VU9Pでは、分散RAMが最大で36.1Mビット、ブロックRAMが最大で75.9Mビットである。そのため、勾配ヒストグラムメモリに分散RAMを用いた場合は2分割が限界であり、ブロックRAMを用いた場合は4分割が限界となる。また、分散RAMおよびブロックRAMは、勾配ヒストグラムの保持以外にも使う必要があるため、分割数の上限は上述の数よりも低くなる。以上のことより、特徴量および勾配情報のセットが並列に入力される場合において、図17~図20で説明したラーニングモジュール20の構成と比較して、より小規模な回路で勾配ヒストグラムを算出および格納することが可能な構成が必要である。以下、本実施形態に係るラーニングモジュールの構成および動作を、図21~図26で説明する。
(第2の実施形態に係るラーニングモジュールの構成)
図21は、第2の実施形態に係る学習識別装置のラーニングモジュールのモジュール構成の一例を示す図である。図21を参照しながら、本実施形態に係る学習識別装置(学習装置の一例)のラーニングモジュール20aの構成および動作について説明する。なお、図21では、データパラレルの分割数を2とし、特徴量が1次元であるものとして説明する。
図21に示すように、本実施形態に係るラーニングモジュール20aは、勾配ヒストグラム算出モジュール71と、累積勾配算出モジュール72(累積勾配算出部)と、算出モジュール73(スコア算出部)と、最適条件導出モジュール22と、を備えている。
勾配ヒストグラム算出モジュール71は、入力したサンプルデータの特徴量の各値をヒストグラムのビンとして、当該サンプルデータに対応する勾配情報の値を積算することによって勾配ヒストグラムを算出するモジュールである。勾配ヒストグラム算出モジュール71は、勾配出力モジュール301a、301bと、加算モジュール302と、アキュムレータモジュール303と、総和格納メモリ304と、を有する。
勾配出力モジュール301a、301bは、特徴量の各値に対応した出力ポートを有し、データメモリ30a、30bから、特徴量および勾配情報を入力し、入力した特徴量の値に対応した出力ポートから当該勾配情報を出力するモジュールである。
加算モジュール302は、特徴量の値(ビン)ごとに対応する勾配情報を加算して出力するモジュールである。
アキュムレータモジュール303は、特徴量の値(ビン)ごとに、加算モジュール302から入力した加算された勾配情報を、現在保持している加算された勾配情報に加算し、最終的に、ビンごとに勾配情報の勾配ヒストグラムを保持するモジュールである。
総和格納メモリ304は、加算モジュール302により算出された勾配情報の総和を格納するメモリである。
累積勾配算出モジュール72は、特徴量に対する各しきい値について、勾配ヒストグラムの累積和を求めることにより、勾配情報の和(GL、GR、HL、HR)を算出するモジュールである。
算出モジュール73は、累積勾配算出モジュール72により算出された勾配情報の和を用いて、上述の式(19)を用いて、各しきい値における分岐スコアを算出するモジュールである。
最適条件導出モジュール22は、算出モジュール73により出力された各特徴量(図21では1つの特徴量)および各しきい値に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出するモジュールである。最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノードの分岐条件データ(ノードのデータの一例)として、モデルメモリ40へ書き込む。
また、図21に示すように、分割数が2の場合のデータパラレルとするために、メモリがデータメモリ30a、30bの2つのメモリに分割され、勾配ヒストグラム算出モジュール71のうち、前段において勾配出力モジュール301a、301bの2つのモジュールに分割されている。図21では、分割された物理的な単位を、「分割1」および「分割2」と表記している。
<勾配ヒストグラム算出モジュールの構成および動作>
図22は、第2の実施形態のラーニングモジュールの勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図22を参照しながら、本実施形態に係るラーニングモジュール20aにおける勾配ヒストグラム算出モジュール71の構成および動作について説明する。なお、図21では、データパラレルの分割数を2とし、特徴量が1次元であるものとし、勾配情報として1つ(例えば、一次勾配g)のみを考えた場合について説明する。
図21に示すように、勾配ヒストグラム算出モジュール71は、図20で説明した構成に加え、データカウンタ311a、311bを有する。
データカウンタ311aは、データメモリ30aから学習処理の対象となるサンプルデータ(特徴量)、および対応する勾配情報を読み出すためのアドレスを出力する。
勾配出力モジュール301aは、図22に示すように、比較器312_1、312_2、・・・、312_Nと、マルチプレクサ313_1、313_2、・・・、313_Nと、を有する。ここで、Nは、特徴量が取り得る値の数であって、勾配ヒストグラムにおけるビンの数である。なお、比較器312_1、312_2、・・・、312_Nについて、任意の比較器を示す場合、または総称する場合、単に「比較器312」と称するものとする。また、マルチプレクサ313_1、313_2、・・・、313_Nについて、任意のマルチプレクサを示す場合、または総称する場合、単に「マルチプレクサ313」と称するものとする。
比較器312は、データメモリ30aから読み出した特徴量と、特定のビンの特徴量の値とを入力し、双方を比較して一致した場合、一致した旨(例えば、電圧レベルのオン出力)を、マルチプレクサ313へ出力する。例えば、比較器312_1は、データメモリ30aから読み出した特徴量が、ビン1の特徴量の値と一致した場合、一致した旨をマルチプレクサ313_1へ出力する。
マルチプレクサ313は、比較器312がデータメモリ30aから読み出した特徴量(学習データ)に対応する勾配情報と、0とを入力し、比較器312から出力された比較結果に応じて、入力した勾配情報または0を出力する。例えば、マルチプレクサ313_1は、比較器312_1がデータメモリ30aから読み出した特徴量に対応する勾配情報と、0とを入力し、比較器312_1から出力された比較結果が一致を示す場合、入力した勾配情報をビン1に対応する勾配情報として出力し、比較結果が不一致を示す場合、0を出力する。すなわち、データメモリ30aから読み出された特徴量の値に対応するマルチプレクサ313から、当該特徴量に対応する勾配情報が出力され、それ以外のマルチプレクサ313から0が出力される仕組みである。
なお、データメモリ30b、データカウンタ311b、および勾配出力モジュール301bの機能は、それぞれ上述のデータメモリ30a、データカウンタ311a、および勾配出力モジュール301aと同様である。
加算モジュール302は、特徴量の値、すなわちビンごとにマルチプレクサ313から入力した勾配情報を加算して、アキュムレータモジュール303へ出力する。加算モジュール302は、加算器321_1、321_2、・・・、321_Nと、加算器322と、を有する。
加算器321_1、321_2、・・・、321_Nは、それぞれビン1、2、・・・、Nごとにマルチプレクサ313から入力した勾配情報を加算して、加算した勾配情報をアキュムレータモジュール303へ出力する。例えば、加算器321_1は、勾配出力モジュール301aにおけるビン1に対応するマルチプレクサ313_1からの出力である勾配情報と、勾配出力モジュール301bにおけるビン1に対応するマルチプレクサ313_1からの出力である勾配情報と、を加算して、アキュムレータモジュール303(この場合、後述するビン1アキュムレータ331_1)へ出力する。
加算器322は、勾配出力モジュール301aおよび勾配出力モジュール301bが、それぞれデータメモリ30a、30bから読み出した勾配情報をぞれぞれ入力して加算し、加算した勾配情報を総和格納メモリ304へ出力する。
アキュムレータモジュール303は、特徴量の値(ビン)ごとに、加算モジュール302から入力した加算された勾配情報を、現在保持している加算された勾配情報に加算し、最終的に、ビンごとに勾配情報の勾配ヒストグラムを保持する。アキュムレータモジュール303は、ビン1アキュムレータ331_1と、ビン2アキュムレータ331_2と、・・・、ビンNアキュムレータ331_Nと、を有する。
ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_Nは、それぞれビン1、2、・・・、Nごとに、加算器321_1、321_2、・・・、321_Nからそれぞれ入力した加算された勾配情報を、現在保持している加算された勾配情報に加算する。例えば、ビン1アキュムレータ331_1は、加算器321_1から入力した加算された勾配情報を、現在保持している加算された勾配情報に加算し、ビン1の勾配情報の勾配ヒストグラムを保持する。
総和格納メモリ304は、加算器322から出力された加算された勾配情報を、現在保持している加算された勾配情報に加算する。すなわち、総和格納メモリ304は、すべての学習データに対応する勾配情報の総和が格納される。
以下、本実施形態に係る勾配ヒストグラム算出モジュール71の勾配ヒストグラムの算出動作の流れを簡潔に説明する。データカウンタ311a(311b)は、データメモリ30aから学習処理の対象となるサンプルデータ(特徴量)、および対応する勾配情報を読み出すためのアドレスを出力する。勾配出力モジュール301a(301b)の比較器312は、データメモリ30a(30b)から読み出した特徴量と、特定のビンの特徴量の値とを入力し、双方を比較して一致した場合、一致した旨を、マルチプレクサ313へ出力する。マルチプレクサ313は、比較器312がデータメモリ30a(30b)から読み出した特徴量(学習データ)に対応する勾配情報と、0とを入力し、比較器312から出力された比較結果に応じて、入力した勾配情報または0を出力する。加算モジュール302の加算器321_1、321_2、・・・、321_Nは、それぞれビン1、2、・・・、Nごとにマルチプレクサ313から入力した勾配情報を加算して、加算した勾配情報をアキュムレータモジュール303へ出力する。アキュムレータモジュール303のビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_Nは、それぞれビン1、2、・・・、Nごとに、加算器321_1、321_2、・・・、321_Nからそれぞれ入力した加算された勾配情報を、現在保持している加算された勾配情報に加算して、最終的に、ビンごとに勾配情報の勾配ヒストグラムを保持する。以上の動作を、現在のノードのすべての学習データについて繰り返す。
以上のような、本実施形態に係る勾配ヒストグラム算出モジュール71の構成では、従来の図20で示した構成のように勾配ヒストグラムをメモリに格納するのではなく、特徴量のビンごとに対応したレジスタ(アキュムレータ)に格納するものとしている。図22に示す勾配ヒストグラム算出モジュール71の構成では、特徴量のビン数×特徴量次元(図22では次元を1としている)の数のレジスタがあれば実現することが可能である。すなわち、勾配ヒストグラムを格納するために必要となる全容量は、ビン数×ビット幅×2(一次勾配g、二次勾配h)×特徴量次元となり、分割数に依存しない。したがって、従来の図20で示した構成の場合と比較して、勾配ヒストグラムを格納するための回路容量を大幅に削減することができる。また、本実施形態に係る勾配ヒストグラム算出モジュール71の構成では、回路規模は分割数に依存しないので、他のモジュールの回路規模が許せる限り、データパラレルの分割数を増加させることができ、学習処理の速度を向上させることが可能となる。
例えば、特徴量が8ビット(256パターン)で2000次元であり、勾配情報が一次勾配gおよび二次勾配hの2つとした場合、必要となるレジスタの数は、以下のようになる。
256(ビン数)×2(一次勾配g、二次勾配h)×2000[次元]=1024000[個]
ここで、上述のVU9Pというチップの場合、最大レジスタ数は2364000[個]なので、本実施形態に係る勾配ヒストグラム算出モジュール71の構成で、勾配ヒストグラムの保持に必要なレジスタ数は、当該最大レジスタ数の半分程度に収めることができる。
図23は、第2の実施形態のラーニングモジュールにおいて分割数を3とした場合の勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図23を参照しながら、データパラレルの分割数を3とした場合の勾配ヒストグラム算出モジュール71の構成の一例について説明する。なお、図23では、特徴量が1次元であるものとし、勾配情報として1つ(例えば、一次勾配g)のみを考えた場合について説明する。
例えば、図23では、加算モジュール302は、加算器321_1_1、・・・、321_N_1と、加算器321_1_2、・・・、321_N_2と、加算器322_1、322_2と、を有する。図23に示す勾配ヒストグラム算出モジュール71のように、加算モジュール302は、段階的に勾配情報を統合(加算)するものとすればよい。例えば、ビン1について、加算器321_1_1は、「分割1」から出力された勾配情報と、「分割2」から出力された勾配情報とを加算して、加算器321_1_2へ出力する。そして、加算器321_1_2は、加算器321_1_1から出力された加算値と、「分割3」から出力された勾配情報と、を加算して、アキュムレータモジュール303のビン1アキュムレータ331_1へ出力する。
<累積勾配算出モジュールの構成および動作>
図24は、第2の実施形態のラーニングモジュールの累積勾配算出モジュールのモジュール構成の一例を示す図である。図24を参照しながら、本実施形態に係るラーニングモジュール20aにおける累積勾配算出モジュール72の構成および動作について説明する。なお、図24では、データパラレルの分割数を1とし、特徴量が1次元であるものとし、勾配情報として2つ(例えば、一次勾配g、二次勾配h)を考えた場合について説明する。
図19に示す従来の累積勾配算出モジュール62では、しきい値カウンタ210の出力(しきい値)をアドレスとして、勾配ヒストグラムメモリ204(208)にアクセスしていた。図24では、勾配ヒストグラムは、ビンごとにレジスタ(アキュムレータ)に保持されているので、マルチプレクサを介してすべてのビンからしきい値カウンタのしきい値に対応した値のみを取り出している。
図24に示すように、累積勾配算出モジュール72は、しきい値カウンタ340と、アキュムレータ341と、ディレイ342と、差分器343と、アキュムレータ344と、ディレイ345と、差分器346と、マルチプレクサ347、348と、を有する。また、図24では、一次勾配gに対応するアキュムレータモジュール303および総和格納メモリ304を、それぞれアキュムレータモジュール303gおよび総和格納メモリ304gとしている。また、二次勾配hに対応するアキュムレータモジュール303および総和格納メモリ304を、それぞれアキュムレータモジュール303hおよび総和格納メモリ304hとしている。
しきい値カウンタ340は、アキュムレータモジュール303g、303hから、特徴量の値(ビン)ごとに加算された勾配情報(g、h)、すなわち、特徴量の各ビンの勾配ヒストグラムを読み出すためのしきい値を出力する。
マルチプレクサ347は、しきい値カウンタ340からのしきい値と、アキュムレータモジュール303gの各アキュムレータ(ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_N)の格納値(勾配ヒストグラム)を入力する。そして、マルチプレクサ347は、入力した各ビンの勾配ヒストグラムのうち、しきい値カウンタ340からのしきい値に対応するビンに対応する勾配ヒストグラムを、アキュムレータ341へ出力する。
マルチプレクサ348は、しきい値カウンタ340からのしきい値と、アキュムレータモジュール303hの各アキュムレータ(ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_N)の格納値(勾配ヒストグラム)を入力する。そして、マルチプレクサ348は、入力した各ビンの勾配ヒストグラムのうち、しきい値カウンタ340からのしきい値に対応するビンに対応する勾配ヒストグラムを、アキュムレータ344へ出力する。
アキュムレータ341は、しきい値カウンタ340から出力されたしきい値に対応する勾配情報gについての勾配ヒストグラムをマルチプレクサ347から入力して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。
ディレイ342は、アキュムレータ341から読み出した勾配情報gについての勾配ヒストグラムの累積和を、差分器343から勾配情報gの和GRが出力されるタイミングと合せるために遅延させて、勾配情報gの和GLとして出力する。
差分器343は、総和格納メモリ304gから読み出した勾配情報gの総和から、アキュムレータ341から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和GL)を引いて、勾配情報gの和GRを算出する。
アキュムレータ344は、しきい値カウンタ340から出力されたしきい値に対応する勾配情報hについての勾配ヒストグラムをマルチプレクサ348から入力して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。
ディレイ345は、アキュムレータ344から読み出した勾配情報hについての勾配ヒストグラムの累積和を、差分器346から勾配情報hの和HRが出力されるタイミングと合せるために遅延させて、勾配情報hの和HLとして出力する。
差分器346は、総和格納メモリ304hから読み出した勾配情報hの総和から、アキュムレータ344から読み出した勾配情報hについての勾配ヒストグラムの累積和(すなわち、勾配情報hの和HL)を引いて、勾配情報hの和HRを算出する。
以下、累積勾配算出モジュール72の勾配情報の和(GL、GR、HL、HR)の算出動作の流れを簡潔に説明するなお、累積勾配算出モジュール72による算出処理は、勾配ヒストグラム算出モジュール71における勾配情報の勾配ヒストグラムの算出・格納処理の動作終了後に開始される。すなわち、勾配ヒストグラム算出モジュール71による算出処理の終了後は、アキュムレータモジュール303g、303hには、それぞれ、現在のノードのすべての学習データから算出された勾配情報g、hについての勾配ヒストグラムが保持してある。
まず、マルチプレクサ347は、しきい値カウンタ340からのしきい値と、アキュムレータモジュール303gの各アキュムレータ(ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_N)の格納値(勾配ヒストグラム)を入力する。そして、マルチプレクサ347は、入力した各ビンの勾配ヒストグラムのうち、しきい値カウンタ340からのしきい値に対応するビンに対応する勾配ヒストグラムを、アキュムレータ341へ出力する。そして、アキュムレータ341は、しきい値カウンタ340から出力されたしきい値に対応する勾配情報gについての勾配ヒストグラムをマルチプレクサ347から入力して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。また、ディレイ342は、アキュムレータ341から読み出した勾配情報gについての勾配ヒストグラムの累積和を、差分器343から勾配情報gの和GRが出力されるタイミングと合せるために遅延させて、勾配情報gの和GLとして、算出モジュール73へ出力する。そして。差分器343は、総和格納メモリ304gから読み出した勾配情報gの総和から、アキュムレータ341から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和GL)を引いて、勾配情報gの和GRを算出して、算出モジュール73へ出力する。なお、マルチプレクサ348、アキュムレータ344、ディレイ345および差分器346におる勾配情報hに対する処理(勾配情報hの和HL、HRの算出処理)も、上述と同様である。以上の動作を、すべてのしきい値について繰り返すが、この場合、しきい値カウンタ340がしきい値を順にカウントアップさせながら一巡して出力することによって実現される。
このように、予め、勾配ヒストグラム算出モジュール71による勾配情報の勾配ヒストグラムの算出・格納処理の動作を行ったうえで、累積勾配算出モジュール72および算出モジュール73の処理を行うものとしている。これによって、ラーニングモジュール20aによる分岐スコア(ゲイン)の算出処理を高速化することができる。
<次元数が2の場合のラーニングモジュールの構成>
図25は、第2の実施形態に係る学習識別装置において特徴量の種類を2とした場合のラーニングモジュールのモジュール構成の一例を示す図である。図26は、第2の実施形態のラーニングモジュールにおいて特徴量の種類を2とした場合の勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図25および図26を参照しながら、本実施形態に係る学習識別装置(学習装置の一例)のラーニングモジュール20bの構成および動作について説明する。なお、図25では、データパラレルの分割数を2とし、特徴量が2次元であるものとして説明する。
図25に示すように、ラーニングモジュール20bは、勾配ヒストグラム算出モジュール71と、累積勾配算出モジュール72_1、72_2と、算出モジュール73_1、73_2と、最適条件導出モジュール22と、を備えている。勾配ヒストグラム算出モジュール71は、勾配出力モジュール301a_1、301a_2、301b_1、301b_2と、加算モジュール302_1、302_2と、アキュムレータモジュール303_1、303_2と、総和格納メモリ304_1、304_2と、を有する。図26に示すように、勾配ヒストグラム算出モジュール71は、図25に示した構成に加え、データカウンタ311a、311bを有する。
また、図26に示すように、勾配出力モジュール301a_1、301a_2、301b_1、301b_2は、それぞれ、比較器312_1、312_2、・・・、312_Nと、マルチプレクサ313_1、313_2、・・・、313_Nと、を有する。加算モジュール302_1、302_2は、それぞれ、加算器321_1、321_2、・・・、321_Nと、加算器322と、を有する。アキュムレータモジュール303_1、303_2は、それぞれ、ビン1アキュムレータ331_1と、ビン2アキュムレータ331_2と、・・・、ビンNアキュムレータ331_Nと、を有する。
図25および図26に示す構成のうち、勾配出力モジュール301a_1、301b_1、加算モジュール302_1、アキュムレータモジュール303_1、総和格納メモリ304_1、累積勾配算出モジュール72_1、および算出モジュール73_1は、「特徴量1」に対応する処理のために用いられる。一方、勾配出力モジュール301a_2、301b_2、加算モジュール302_2、アキュムレータモジュール303_2、総和格納メモリ304_2、累積勾配算出モジュール72_2、および算出モジュール73_2は、「特徴量2」に対応する処理のために用いられる。各モジュールの動作は、図22および図24で説明した動作と同様である。
上述したように、勾配ヒストグラムを格納するために必要となる容量は、ビン数×ビット幅×2(一次勾配g、二次勾配h)×特徴量次元であるので、特徴量の次元数だけ、アキュムレータモジュール303(図25では、アキュムレータモジュール303_1、303_2)が必要となる。しかし、当該容量は、分割数に依存しないので、図25および図26に示す例では、分割数が2の場合であるが、分割数が3以上となっても、特徴量の次元が2である限り、アキュムレータモジュール303は2つであればよい。
以上のように、本実施形態に係る学習識別装置のラーニングモジュール20a(20b)では、勾配ヒストグラム算出モジュール71は、従来の図20で示した構成のように勾配ヒストグラムをメモリに格納するのではなく、特徴量のビンごとに対応したレジスタ(アキュムレータ)に格納するものとしている。この勾配ヒストグラム算出モジュール71の構成では、特徴量のビン数×特徴量次元の数のレジスタがあれば実現することが可能である。すなわち、勾配ヒストグラムを格納するために必要となる全容量は、ビン数×ビット幅×2(一次勾配g、二次勾配h)×特徴量次元となり、分割数に依存しない。したがって、従来の図20で示した構成の場合と比較して、並列に入力される特徴量および勾配情報について作成された勾配ヒストグラムの情報を保持するメモリ(アキュムレータ、レジスタ)の回路規模を大幅に削減することができる。また、本実施形態に係る勾配ヒストグラム算出モジュール71の構成では、回路規模は分割数に依存しないので、他のモジュールの回路規模が許せる限り、データパラレルの分割数を増加させることができ、学習処理の速度を向上させることが可能となる。
[第3の実施形態]
第3の実施形態に係る学習識別装置について、第2の実施形態に係る学習識別装置と相違する点を中心に説明する。本実施形態では、累積勾配算出モジュール72(勾配出力部の一例)によって算出された勾配情報の和(GL、GR、HL、HR)から分岐スコアを算出する算出モジュール73の構成を具体的に説明する。
(算出モジュールの構成)
図27は、第3の実施形態のラーニングモジュールの算出モジュールのモジュール構成の概要の一例を示す図である。まず、図27を参照しながら、本実施形態に係る学習識別装置のラーニングモジュール(ここでは、上述のラーニングモジュール20aであるものとする)の算出モジュール73の構成の概要について説明する。
算出モジュール73(分岐スコア算出部)は、上述のように、累積勾配算出モジュール72により算出された累積勾配、すなわち、勾配情報の和(GL、GR、HL、HR)を用いて、上述の式(19)により、各しきい値における分岐スコアを算出するモジュールである。なお、式(19)で算出される値は、本発明の「指標値」に対応する。図27に示すように、算出モジュール73は、左側分岐ゲイン算出モジュール351と、右側分岐ゲイン算出モジュール352と、加算器353と、減算器354と、を備えている。算出モジュール73には、累積勾配算出モジュール72から1クロックに1セットの勾配情報の和(GL、GR、HL、HR)(ある条件におけるGL、GR、HL、HR)が入力される。分岐スコアは、ある条件(特徴量、しきい値)で学習データを分岐したときの良さを示す値である。
左側分岐ゲイン算出モジュール351は、累積勾配算出モジュール72から勾配情報の和(GL、HL)、および正則化項λから、式(19)における[]内の第1項(以下、左側分岐ゲインと称する)を算出するモジュールである。
右側分岐ゲイン算出モジュール352は、累積勾配算出モジュール72から勾配情報の和(GR、HR)、および正則化項λから、式(19)における[]内の第2項(以下、右側分岐ゲインと称する)を算出するモジュールである。
加算器353は、左側分岐ゲイン算出モジュール351により算出された左側分岐ゲインと、右側分岐ゲイン算出モジュール352により算出された右側分岐ゲインとを加算する演算回路である。
減算器354は、加算器353により算出された左側分岐ゲインと右側分岐ゲインとの和から、式(19)における[]内の第3項(以下、分岐前ゲインという)を減算する演算回路である。この減算器354からの出力が、算出モジュール73としての出力となり、後段の最適条件導出モジュール22(導出部)へ入力される。後述するように、分岐スコアについては、各特徴量、各しきい値の分岐スコアの大小関係が把握できればよいので、式(19)における1/2の乗算、および定数であるγを無視している。
上述の算出モジュール73の各演算回路による処理は、各特徴量、各しきい値のすべての条件において行われる。
図28は、算出モジュールを除算器を用いた構成で実現した場合の一例を示す図である。次に、図28を参照しながら、算出モジュール73の具体的な実装例として、除算器を用いて実装した例を算出モジュール73_dvとして説明する。
図28に示すように、算出モジュール73_dvは、左側分岐ゲイン算出モジュール351_dvと、右側分岐ゲイン算出モジュール352_dvと、加算器353と、減算器354と、分岐前ゲイン算出モジュール355_dvと、を備えている。なお、加算器353および減算器354の動作は、図27で上述した通りである。
左側分岐ゲイン算出モジュール351_dvは、図27における左側分岐ゲイン算出モジュール351に対応するモジュールであり、二乗計算器371と、加算器372と、除算器373と、を備えている。
二乗計算器371は、累積勾配算出モジュール72から入力した勾配情報の和GLを二乗、すなわち、和GLと和GLとを乗算する演算回路である。
加算器372は、累積勾配算出モジュール72から入力した勾配情報の和HLと、正則化項λとの和を演算する演算回路である。
除算器373は、二乗計算器371で演算された勾配情報の和GLの二乗を、加算器372で演算された勾配情報の和HLと正則化項λとの和で除する演算回路である。除算器373で演算された値、すなわち左側分岐ゲインは、加算器353へ出力される。
右側分岐ゲイン算出モジュール352_dvは、図27における右側分岐ゲイン算出モジュール352に対応するモジュールであり、二乗計算器374と、加算器375と、除算器376と、を備えている。
二乗計算器374は、累積勾配算出モジュール72から入力した勾配情報の和GRを二乗、すなわち、和GRと和GRとを乗算する演算回路である。
加算器375は、累積勾配算出モジュール72から入力した勾配情報の和HRと、正則化項λとの和を演算する演算回路である。
除算器376は、二乗計算器374で演算された勾配情報の和GRの二乗を、加算器375で演算された勾配情報の和HRと正則化項λとの和で除する演算回路である。除算器376で演算された値、すなわち右側分岐ゲインは、加算器353へ出力される。
分岐前ゲイン算出モジュール355_dvは、図27における分岐前ゲインを算出するモジュールであり、二乗計算器377と、加算器378と、除算器379と、を備えている。
二乗計算器377は、勾配ヒストグラム算出モジュール71の総和格納メモリ304gから入力した勾配情報gの総和(実質的に、GL+GR)を二乗、すなわち、当該総和と当該総和とを乗算する演算回路である。
加算器378は、勾配ヒストグラム算出モジュール71の総和格納メモリ304hから入力した勾配情報hの総和(実質的に、HL+HR)と、正則化項λとの和を演算する演算回路である。
除算器379は、二乗計算器377で演算された勾配情報gの総和(GL+GR)の二乗を、加算器378で演算された勾配情報hの総和(HL+HR)と正則化項λとの和で除する演算回路である。除算器379で演算された値、すなわち分岐前ゲインは、減算器354へ出力される。
分岐前ゲインは、特徴量の次元には関係ないので、次元に関係なく、分岐前ゲイン算出モジュール355_dvは1つあればよい。一方、左側分岐ゲイン算出モジュール351_dvおよび右側分岐ゲイン算出モジュール352_dvは、それぞれ特徴量の次元数分だけ必要である。したがって、算出モジュール73_dvに含まれる除算器は、(特徴量の次元数×2+1)個必要となる。例えば、特徴量が100次元である場合、201個の除算器が必要となる。上述のように除算器は、加算器および減算器等に比べると回路規模が大きいので特徴量の次元数が増えると共に、ラーニングモジュール20a全体の回路規模も大きくなることになる。そこで、以下、分岐スコアを算出するための算出モジュール73について、除算器を用いない本実施形態の回路構成について説明する。
図29は、第3の実施形態のラーニングモジュールの算出モジュールを除算器を用いない構成で実現した場合の一例を示す図である。図29を参照しながら、本実施形態の除算器(除算回路)を用いない算出モジュール73の構成について説明する。
分岐スコアは、各ノードの分岐条件の算出に用いるので、値そのものは重要ではなく、各条件(特徴量、しきい値)での大小関係が把握されるものであればよい。そこで、本実施形態の算出モジュール73は、各条件での分岐スコアの大小関係が大きく変わらない範囲で、除算器を用いず、近似手法を用いた演算回路で構成されている。ただし、リーフウェイトを算出するモジュール(後述する図30に示すリーフウェイト算出モジュール74)は、リーフウェイトの値そのものが重要であるため、上述のような近似手法を用いるのは好ましくないので、図30で後述するように、近似手法を用いず、かつ、除算器を用いた演算精度の高い構成によって実現するものとする。上述の式(19)に示した分岐スコアを算出する式中には、a2/bという形式の演算が3つ存在し、本実施形態の算出モジュール73では、当該演算を近似により実現する。また、上述のように、分岐スコアについては、各特徴量、各しきい値の分岐スコアの大小関係が把握できればよいので、式(19)における1/2の乗算、および定数であるγを無視する。
図29に示すように、算出モジュール73は、左側分岐ゲイン算出モジュール351と、右側分岐ゲイン算出モジュール352と、加算器353と、減算器354と、分岐前ゲイン算出モジュール355と、を備えている。なお、加算器353および減算器354の動作は、図27で上述した通りである。
左側分岐ゲイン算出モジュール351は、加算器361と、近似モジュール362と、を備えている。
加算器361は、累積勾配算出モジュール72から入力した勾配情報の和HLと、正則化項λとの和を演算する演算回路である。
近似モジュール362は、累積勾配算出モジュール72からの勾配情報の和GL、および、加算器361で算出された勾配情報の和HLと正則化項λとの和を入力し、左側分岐ゲインを算出するモジュールである。ただし、具体的には、近似モジュール362は、左側分岐ゲインの対数の近似値を求める。近似モジュール362の構成および動作の詳細は、図31~図33で後述する。
右側分岐ゲイン算出モジュール352は、加算器363と、近似モジュール364と、を備えている。
加算器363は、累積勾配算出モジュール72から入力した勾配情報の和HRと、正則化項λとの和を演算する演算回路である。
近似モジュール364は、累積勾配算出モジュール72からの勾配情報の和GR、および、加算器363で算出された勾配情報の和HRと正則化項λとの和を入力し、右側分岐ゲインを算出するモジュールである。ただし、具体的には、近似モジュール364は、右側分岐ゲインの対数の近似値を求める。近似モジュール364の構成および動作の詳細は、図31~図33で後述する。
分岐前ゲイン算出モジュール355は、図27における分岐前ゲインを算出するモジュールであり、加算器365と、近似モジュール366と、を備えている。
加算器365は、勾配ヒストグラム算出モジュール71の総和格納メモリ304hから入力した勾配情報hの総和(実質的に、HL+HR)と、正則化項λとの和を演算する演算回路である。
近似モジュール366は、勾配ヒストグラム算出モジュール71の総和格納メモリ304gから入力した勾配情報gの総和(実質的に、GL+GR)と、および、加算器365で算出された勾配情報hの総和(HL+HR)と正則化項λとの和を入力し、分岐前ゲインを算出するモジュールである。ただし、具体的には、近似モジュール366は、分岐前ゲインの対数の近似値を求める。近似モジュール366の構成および動作の詳細は、図31~図33で後述する。
図30は、第3の実施形態のラーニングモジュールのリーフウェイト算出モジュールのモジュール構成の一例を示す図である。ここで、図30を参照しながら、本実施形態に係るリーフウェイト算出モジュール74(リーフウェイト算出部)の構成および動作について説明する。なお、リーフウェイト算出モジュール74は、図21に示すラーニングモジュール20aに備えられているものとする。
リーフウェイト算出モジュール74は、勾配ヒストグラム算出モジュール71の総和格納メモリ304gから入力した勾配情報g(一次勾配)の総和(GL+GR)、総和格納メモリ304hから入力した勾配情報h(二次勾配)の総和(HL+HR)、および正則化項λを用いて、上述の式(18)により、リーフバリューを算出するモジュールである。図30に示すように、リーフウェイト算出モジュール74は、加算器367と、除算器368と、符号反転器369と、を備えている。
加算器367は、勾配ヒストグラム算出モジュール71の総和格納メモリ304hから入力した勾配情報hの総和(HL+HR)と、正則化項λとの和を演算する演算回路である。
除算器368は、勾配ヒストグラム算出モジュール71の総和格納メモリ304gから入力した勾配情報gの総和(GL+GR)を、加算器367で演算された勾配情報hの総和(HL+HR)と正則化項λとの和を除する演算回路である。
符号反転器369は、除算器368で演算された値の符号を反転させてリーフウェイトして求める演算回路である。
リーフウェイトは、分岐スコアと異なり、値そのものが重要であるため、リーフウェイト算出モジュール74は、近似手法を用いず、かつ、図30に示すような除算器を用いた演算精度の高い回路構成によって実現されるので、数値精度の高いリーフウェイトを算出することができる。
また、算出モジュール73に関しては除算器を用いず、近似手法を用いた算出処理を行うので、リーフウェイト算出モジュール74の回路規模よりも小さい回路規模で実現することが可能となる。
(近似モジュールの構成)
図31は、第3の実施形態の算出モジュールの近似モジュールのモジュール構成の一例を示す図である。図32は、対数曲線の線形補間を説明する図である。図31および図32を参照しながら、図29に示した左側分岐ゲイン算出モジュール351、右側分岐ゲイン算出モジュール352および分岐前ゲイン算出モジュール355それぞれにおける近似モジュール362、364、366の構成および動作について説明する。なお、以下では、このうち近似モジュール362の構成を例として説明するが、近似モジュール364、366についても構成は同様である。
まず、上述の式(19)に示す分岐スコア(Gain)の対数を考える。分岐スコアの対数は、以下の式(23)で求められる。
式(23)が示すように、a2/bの形式の対数は、2×log(a)-log(b)の形式となり、除算を用いずに演算が可能となる。また、2×log(a)の演算についても、(log(a)+log(a))という加算処理、またはlog(a)の値のビットシフトにより実現可能である。そして、式(23)が示すように、6つのlog演算を行うことによって、分岐スコアの対数を求めることができる。ただし、分岐前ゲインについては、特徴量ごとに求める必要がないので、特徴量の次元×4+2のlog演算が必要となる。この対数の演算は、正確な値を計算する場合は回路規模が大きくなることもあるが、log(a)の演算には、後述するように線形補間を用いた近似演算を用いる。これによって、対数演算前よりも規模の小さな演算回路により演算が可能となる。この場合における上述の式(23)の演算(近似演算)を実現する近似モジュール362のモジュール構成について図31を参照しながら説明する。
図31に示すように、近似モジュール362は、対数近似モジュール381と、ビットシフト382と、対数近似モジュール383と、ディレイ384と、減算器385と、を備えている。
対数近似モジュール381は、勾配情報の和GLの対数log(GL)の近似値を算出するモジュールである。ここで、対数の近似値を求めるための線形補間について図32を参照しながら説明する。上述の式(23)における各対数は、底が2であるものとする。図32に示すように、対数log(x)のグラフの入力xについて複数の区間に分け、各区間で直線による近似(線形補間)を行う。ここで、上述のように、分岐スコアについては、各特徴量、各しきい値の分岐スコアの大小関係が把握できればよく、分岐スコアの値そのもの、さらにはその対数の値そのものは重要ではないため、粗い近似(分割する区間を少なくした場合での線形補間による近似)を考える。図32に示す例では、1~2の区間、2~4の区間、4~8の区間、8~16の区間、16以上の区間に分けている。この場合、対数log(x)は、底が2であるため、グラフ上の各区間の境界点の座標はそれぞれ(20,0)、(21,1)、(22,2)、(23,3)、(24,4)となる。そして、1~2の区間、2~4の区間、4~8の区間、8~16の区間をそれぞれ線形補間した各直線の傾きは、20、2-1、2-2、2-3、すなわち、いずれも2のべき乗で表される。このため、図33で後述するように、線形補間をした直線の傾きを乗じる演算は、ビットシフトにより実現することが可能となる。対数近似モジュール381の具体的な構成は、図33で後述する。
ビットシフト382は、対数近似モジュール381により算出された勾配情報の和GLの対数log(GL)(近似値)を2倍した値(2×log(GL))を算出する演算回路である。具体的には、ビットシフト382によって2倍する乗算は、ビットをシフトする処理によって実現できる。
対数近似モジュール383は、上述の加算器361により演算された勾配情報の和HLと正則化項λとの和の対数log(HL+λ)の近似値を算出するモジュールである。なお、対数近似モジュール383による近似値の算出動作は、上述の対数近似モジュール381と同様である。
ディレイ384は、ビットシフト382により演算された2×log(GL)の減算器385への入力とタイミングを合わせるために、対数近似モジュール383により算出された対数log(HL+λ)を遅延して出力する演算回路である。
減算器385は、ビットシフト382により演算された2×log(GL)から、ディレイ384から出力された対数log(HL+λ)を減算する演算回路である。この減算器385からの出力が、近似モジュール362として出力である左側分岐ゲインの対数(近似値)となる。同様に、近似モジュール364の出力は、右側分岐ゲインの対数(近似値)であり、近似モジュール366の出力は、分岐前ゲインの対数(近似値)である。
(対数近似モジュールの構成)
図33は、第3の実施形態の近似モジュールの対数近似モジュールのモジュール構成の一例を説明する図である。図34は、線形補間の基準値を説明する図である。図33および図34を参照しながら、図31に示した対数近似モジュール381、383の構成および動作について説明する。なお、以下では、このうち対数近似モジュール381の構成を例として説明するが、対数近似モジュール383についても構成は同様である。
対数近似モジュール381は、上述のように、勾配情報の和GLの対数log(GL)の近似値を算出するモジュールである。対数近似モジュール381は、区間判定モジュール390と、区間近似モジュール400と、を有する。
区間判定モジュール390は、対数log(GL)の入力(ここではGL)について分割した複数の区間のうち、実際に入力した勾配情報の和GLがどの区間に属するかを判定するモジュールである。ここでは、分割される区間は、1~2の区間、2~4の区間、4~8の区間、8以上の区間の4つの区間であるものとする。区間判定モジュール390は、定数出力器391a~391cと、比較器392a~392cと、比較結果出力器393と、区間出力器394と、を有する。
定数出力器391aは、1~2の区間と、2~4の区間との境界点のx座標である「2」を、比較器392aへ出力する回路である。定数出力器391bは、2~4の区間と、4~8の区間との境界点のx座標である「4」を、比較器392bへ出力する回路である。定数出力器391cは、4~8の区間と、8以上区間との境界点のx座標である「8」を、比較器392cへ出力する回路である。
比較器392aは、入力値(勾配情報の和GL)と、定数出力器391aから出力された「2」とを比較して、「2」以上であるか否かを示す情報(例えば、0か1のビット情報)を出力する演算回路である。比較器392bは、入力値(勾配情報の和GL)と、定数出力器391bから出力された「4」とを比較して、「4」以上であるか否かを示す情報(例えば、0か1のビット情報)を出力する演算回路である。比較器392cは、入力値(勾配情報の和GL)と、定数出力器391cから出力された「8」とを比較して、「8」以上であるか否かを示す情報(例えば、0か1のビット情報)を出力する演算回路である。
比較結果出力器393は、比較器392a~392cそれぞれからの出力値を集約して各出力値を示す情報を出力する演算回路である。例えば、比較器392aからの出力が「1」(2以上)であり、比較器392bからの出が「0」(4未満)であり、比較器392cからの出力が「0」(8未満)である場合、比較結果出力器393は、「001」のようなビット情報を出力する。
区間出力器394は、比較結果出力器393にから出力されたビット情報から、入力値(勾配情報の和G
L)がどの区間に属するかを判定し、当該区間を示す情報を出力する演算回路である。例えば、比較器392a~392cからの出力(すなわち、比較結果出力器393からの出力)と、各区間を示す情報との対応付けが、下記の(表5)に示す態様でなされているものとする。
区間出力器394は、例えば、入力値(勾配情報の和GL)が「5」である場合、比較結果出力器393からの出力「011」から、入力値(勾配情報の和GL)が値「2」で示される区間(4~8の区間)に属するものと判定し、当該区間を示す情報(例えば、「2」を示すビット情報)を出力する。区間出力器394からの出力情報は、後述する開始点出力器401、基準値出力器405および加算器406それぞれに入力される。
区間近似モジュール400は、区間判定モジュール390により判定された勾配情報の和GLが属する区間に基づいて、勾配情報の和GLの対数log(GL)の近似値を算出するモジュールである。区間近似モジュール400は、開始点出力器401と、減算器402と、シフト403a~403dと、選択器404と、基準値出力器405と、加算器406と、を有する。
開始点出力器401は、区間判定モジュール390(区間出力器394)からの出力が示す入力値(勾配情報の和GL)が属する区間の開始点を出力する演算回路である。例えば、区間判定モジュール390からの出力が「2」である場合、開始点出力器401は、4~8の区間の開始点である「4」を出力する。
減算器402は、入力値(勾配情報の和GL)から、開始点出力器401からの区間の開始点を減算する演算回路である。図34に示す直線のグラフは、ある区間での線形補間のグラフを示しており、横軸xは、入力値(勾配情報の和GL)であり、縦軸yは、勾配情報の和GLの対数log(GL)(近似値)を示す。この図34に示すグラフが示す区間は、開始点(開始位置)x0から終了点(終了位置)x1までの区間である。そして、開始点(開始位置)x0での対数(近似値)がy0であり、終了点(終了位置)x1での対数(近似値)がy1である。そして、x=入力値(勾配情報の和GL)である場合の対数log(x)の線形補間による近似値がyであることを示している。図34に示す例の場合、減算器402により、x-x0が算出されることになる。
シフト403aは、減算器402の出力値に対して1~2の区間の線形補間のグラフの傾きを乗じる演算回路である。シフト403bは、減算器402の出力値に対して2~4の区間の線形補間のグラフの傾きを乗じる演算回路である。シフト403cは、減算器402の出力値に対して4~8の区間の線形補間のグラフの傾きを乗じる演算回路である。シフト403dは、減算器402の出力値に対して8以上の区間の線形補間のグラフの傾きを乗じる演算回路である。ただし、シフト403dは、8以上の区間の傾きとして、例えば、8~16の区間での線形補間のグラフの傾きを想定するものとすればよい。各区間における線形補間のグラフ(直線)の傾きは、上述のように2のべき乗で表されるので、シフト403a~403dによる演算処理は、ビットシフトにより実現することができる。
選択器404は、シフト403a~403dそれぞれの出力値を入力し、このうち、区間出力器394から入力した入力値(勾配情報の和GL)が属する区間に対応する出力値を加算器406へ出力する演算回路である。例えば、区間出力器394からの出力が1~2の区間である場合、選択器404は、シフト403aからの出力値、すなわち、減算器402の出力値に対して1~2の区間の線形補間のグラフの傾きを乗じた値を出力する。
基準値出力器405は、区間出力器394から入力した入力値(勾配情報の和GL)が属する区間に対応する基準値を、加算器406へ出力する演算回路である。具体的には、当該区間が、図34に示す線形補間のグラフに対応する区間である場合、y0が、当該区間に対応する基準値となる。
加算器406は、選択器404からの出力値と、基準値出力器405からの基準値とを加算する演算部である。図34に示す線形補間のグラフを例にすると、加算器406は、x-x0の値に、当該グラフの傾きを乗じた値(すなわち、y-y0)に、基準値y0を加算することによって対数log(x)の線形補間による近似値であるyが算出されることになる。この加算器406からの出力が、対数近似モジュール381としての出力である勾配情報の和GLの対数log(GL)の近似値となる。
以上のような、算出モジュール73の構成、近似モジュール362、364、366の構成、および対数近似モジュール381、383の構成によって、分岐スコアの対数の近似値を求めることができる。したがって、最適条件導出モジュール22は、算出モジュール73から出力された分岐スコアの対数の近似値が最大となる特徴量の番号(特徴量番号)およびしきい値を導出する。
なお、図33においては、区間を4つに分割した場合の例を示しているが、これに限定されるものではなく、回路規模が許容される限りにおいて5以上の区間に分割して線形補間による近似を行うものとしてもよく、認識精度に問題がなければ、回路規模を小さくするために3以下の区間に分割するものとしてもよい。
以上のように、本実施形態の算出モジュール73は、累積勾配算出モジュール72によって算出された勾配情報の和(GL、GR、HL、HR)から、上述の式(19)で算出される分岐スコアそのものの代わりに、上述の式(23)で示される分岐スコアの対数を算出するものとしている。さらに、分岐スコアの対数を算出する際には、厳密な対数の値ではなく、当該対数のグラフに対する線形補間により対数の近似値を求めている。これによって、最適条件導出モジュール22は、各特徴量番号、各しきい値での分岐スコアそのものを比較する代わりに、分岐スコアの対数の近似値を用いることによって、同等の大小関係の比較処理を行うことができる。これによって、式(19)で含まれる除算を行う除算器を含むことなく、回路構成を実現できるので、勾配ブースティングの分岐スコアを算出するための回路規模の増加を抑制することができる。
また、対数については線形補間による近似値を求めるものとし、線形補間の対象となる各区間でのグラフ(直線)の傾きが2のべき乗で表されるように区間を分割するものとしている。これによって、線形補間をした直線の傾きを乗じる演算は、乗算そのものを行う演算回路ではなく、回路規模の小さいビットシフト処理を行う回路で実現することができる。
また、上述の分岐スコアの対数の近似値を演算するための各種モジュールは、算出モジュール73内に存在するものであり、特徴量の次元が複数の場合は、算出モジュール73も特徴量ごとに配置されるので、当該各種モジュールも同様に算出モジュール73ごとに配置される。したがって、特徴量の次元が複数であっても問題なく動作する。
なお、算出モジュール73は、上述の式(19)で示される分岐スコアの対数を求め、かつその近似値を算出する動作を示したが、この場合、式(19)で示される分岐スコアの対数を「分岐スコア」と捉えることもできるし、式(19)で示される分岐スコアの対数の近似値を「分岐スコア」と捉えることもできる。
また、本実施形態の算出モジュール73は、累積勾配算出モジュール72から出力された勾配情報の和(GL、GR、HL、HR)を入力して分岐スコア(正確には分岐スコアの対数の近似値)を算出するものとしたが、これに限定されるものではない。例えば、上述の図19に示す累積勾配算出モジュール62(勾配出力部の一例)からの勾配情報の和(GL、GR、HL、HR)を入力して分岐スコアを算出するものとしてもよい。
また、本実施形態にの算出モジュール73は、ラーニングモジュール20aに含まれるモジュールとして説明したが、上述の図25に示す複数の特徴量に対応したラーニングモジュール20bに含まれるモジュールであってもよいのは言うまでもない。
以下では、上述の第1の実施形態に係る学習識別装置1における学習処理の速度の予測結果を説明する。
まずは、比較のためGBDTの代表的なライブラリである上述のXGBoost、およびLightGBMの学習速度の評価を行った。2017年12月時点では、LightGBMでGPUを用いた場合が高速であり、これについて実測した。
ハードウェア構成のクロックから処理時間を算出した。今回実装したハードウェアのロジックでは、ラーニングモジュール20による学習処理、クラシフィケーションモジュール50による識別処理(ノード単位)、およびクラシフィケーションモジュール50による識別処理(木単位)の3つが主な処理である。
<ラーニングモジュールの処理について>
ここでは、サンプルデータの各特徴量から勾配ヒストグラムの作成および分岐スコアの算出が支配的である。サンプルデータの各特徴量からの勾配ヒストグラムの作成では、1デプス(階層)ごとに全サンプルデータを読む必要がある。木のデプスが浅い段階で学習が終了するサンプルデータもあるので、この見積りは最大値である。分岐スコアの計算は勾配ヒストグラムの全ビンを参照するのでビンの数(特徴量の次元)のクロックを要する。以上より、ラーニングモジュール20の処理のクロック数C
learningは以下の式(24)で表される。
ここで、nsample_trainは決定木の学習に使うサンプルデータ数であり、一般に全サンプルデータからサブサンプルされた集合である。また、maxdepthは決定木の最大深さであり、nfeatureはビンの数(特徴量の次元)であり、nnodeはノード数である。
<クラシフィケーションモジュールの処理(ノード単位)について>
ここでは、学習したノードの結果を使って、サンプルデータが左右どちらの下位のノードに割り当てられるかを処理している。深さごとに処理するサンプルデータの総数は変わらないので、クロック数C
Classification_nodeは以下の式(25)で表される。実際は途中で学習が終了するノードがあるため、下記の見積は最大値である。
<クラシフィケーションモジュールの処理(木単位)について>
ここでは、決定木1つの学習が終了した後、次の決定木の学習のため、サンプルデータごとに勾配情報の更新を行う。そのため、学習した決定木を用いて、全サンプルデータについて予測を行う必要がある。木単位の処理では、深さ分だけ遅延が発生する。この場合、クロック数C
Classification_treeは以下の式(26)で表される。
ここで、全サンプルデータとは、サブサンプル前の全学習サンプルデータと、全バリデーションサンプルデータの総数である。
以上より、決定木1つ分の学習処理にかかるクロック数C
tree(最大値)は以下の式(27)で表される。
GBDTは多数の決定木から構成されるので、決定木の本数をn
treeとすると、GBDTモデル全体のクロック数C
gbdtは以下の式(28)で表される。
以上は、上述したフィーチャパラレル(Feature Parallel)の場合の試算であり、このモジュールを並列に多数配置し、データで分割した場合のいわゆるデータパラレル(Data Parallel)では、各モジュール毎に各ノードでのデータ数に偏りがない場合には、基本的にそのモジュール数倍の高速化が可能である。どの程度偏りが存在するかは、サンプルデータおよび各モジュールへのサンプルデータの分割の方法に依存するため、今後、本オーバーヘッドに関しては実データを用いて検討を行う。予測としては、本オーバーヘッドを考慮しても、効率で50%以上は出るものと推測される。
<使用データについて>
テスト用のサンプルデータとしては、約10万件からランダムに学習データと識別データ(評価用データ)とを選択したものである。以下にデータセットの概要を示す。
・クラス数 :2
・特徴量次元 :129
・学習データ数 :63415
・評価用データ数 :31707
また、速度の測定条件を以下の(表6)に示す。FPGAのクロック周波数は仮に100[MHz]での動作とした(実際にはそれ以上となる可能性が高い)。
<ハードウェアロジックの試算>
上述した速度の計算式を用いた上述のアーキテクチャでの学習速度の試算を以下の(表7)に示す。ただし、本試算はすべてのサンプルデータが末端の枝まで行った場合の試算であり最悪値である。
<CPU・GPUでの実測を含めた比較結果>
CPU・GPUでの実測結果を以下の(表8)に示す。なお、比較のため、ハードロジックの試算結果も含めて表示している。ここまでの試算はフィーチャパラレル(Feature Parallel)のみであるため、参考として、データパラレル(Data Parallel)も併用した場合の試算結果も追加した。
本データに関しては、GPUを使用した場合にもCPUよりも速度が落ちていることがわかる。LightGBMの開発元のマイクロソフト社はGPU使用の場合には、3倍から10倍程度高速化するが、データに大きく依存するとしており、本データに関しては、GPUでの高速化がうまくいかなかったことがわかる。また、この結果はGBDTのアルゴリズムが、CNNほどGPUの高速化が容易ではないことを示している。CPUでの結果では、最も基本的なライブラリであるXGBoostと比較して、後発のLightGBMでは10倍程度高速となっている。なお、フィーチャパラレル(Feature Parallel)のみのハードロジックでも、PC(Personal Computer)での最も速いCPU(LightGBM)と比較して、2.3倍程度高速となっている。また、15並列のデータパラレル(Data Parallel)も使用した場合には、データパラレル(Data Parallel)の効率を75%とした場合でも、25倍以上、AWS f1.16xlargeインスタンスを考えた場合で240並列の場合の効率を50%とすると、275倍以上の速度となることが試算された。ただし、この試算はメモリ帯域が限界の場合の試算である。
なお、消費電力に関してはFPGAでは数[W]と予測され、CPUおよびGPUでの100[W]以上であることを考えると、速度に加えて消費電力が2桁異なるため、電力効率では3桁以上の差となる可能性がある。
以下では、上述の第3の実施形態に係る学習識別装置において、例えば、図28に示した除算器373を実現するための回路規模と、除算器373の代わりに図29に示す近似モジュール362を用いた場合の回路規模とを比較した。また、ここでは、ザイリンクス社のハイエンドなFPGAであるvirtex UltraScale+のVU9Pというチップを用いた場合について考える。
一番リソースの少ない8ビットのradix2を用いた除算器373の場合、必要なLUT(ルックアップテーブル)およびFF(フリップフロップ)の数は、以下のようになる。
LUT:67[個]
FF :134[個]
除算器の場合、入力に対して演算結果が出るまで時間がかかり、上述の場合8クロックかかる。高速化を図る第3の実施形態の算出モジュール73においては、1クロックで1条件の分岐スコアの算出ができないと、処理速度の高速化にはつながらないため、1クロックで1条件の分岐スコアを算出するためには8個の除算器が必要になる。したがってこの場合の除算器の回路規模は以下のようになる。
LUT:67×8=536[個]
FF :134×8=1072[個]
一方、除算器373の代わりに近似モジュール362を用い、上述のような4区間に分割した場合を想定して回路を構成する場合であって、Vivado system generatorで実装した場合の回路規模は以下のようになる。
(対数演算部分:対数近似モジュール381、383)
LUT:53[個]
FF :54[個]
(減算器385)
LUT:55[個]
FF :14[個]
(ビットシフト382)
LUT:0[個]
LUT:0[個]
したがって、線形補間による近似を用いた場合の回路規模の合計は以下のようになる。
LUT:53×2+55=161[個]
FF :54×2+14=122[個]
したがって、除算器373の場合と比較して、近似モジュール362を用いた場合では、LUTで約1/4、FFで約1/9に回路規模を削減できることが確認された。また、上述の回路規模の比較は、回路規模の小さい除算器を想定したものであり、入力ビット数、または要求される除算の精度によっては、回路規模の大きな除算器が必要となるため、その場合の削減効果は大きくなる。
以下では、上述の第3の実施形態に係る学習識別装置において、除算器を用いた場合と対数近似モジュールを用いた場合とで精度を比較した。計算環境は、MATLABのfixed point designerを用いてGBDT学習の変数を固定小数点で演算するものとした。
・データセット
UCIリポジトリのHIGGSデータセットを用いた。HIGGSデータセットは、1100万サンプル、特徴量が28次元、2クラス判別のデータセットである。
このデータセットはサンプル数が多いため、データ番号の下位10000サンプルを利用するものとした。このうち5000サンプルを学習データとして、残りの5000サンプルを識別データ(評価用データ)として用いた。また、学習率を1、正則化項γを0、正則化項λを1、最大の木の深さを2、ブースティングでの木の数を100、データサンプリングレートを1、フィーチャサブサンプリングレートを1とした。
以上の条件で学習した場合の認識性能(識別性能)の結果を図35および図36に示す。認識性能は、2クラス分類の良さを表すのに一般的に用いられるAUC(Area Under the Curve)を用いた。AUCとは、ROC(Receiver Operating Characteristic)曲線の形状が左上方向にシフトする場合のシフト具合を曲線の面積で表したグラフである。学習データを用いた場合のAUCを図35に示し、識別データを用いた場合のAUCを図36に示す。
双方のAUCが示すように、学習データおよび識別データ共に、対数近似を用いた場合でも、対数近似を用いない通常の場合の認識性能に対して低下することなく学習ができているという結果が得られた。これによって、認識性能を維持しつつ、分岐スコアを算出する回路規模を大幅に削減することができることが確認された。