JP7035827B2 - 学習識別装置および学習識別方法 - Google Patents

学習識別装置および学習識別方法 Download PDF

Info

Publication number
JP7035827B2
JP7035827B2 JP2018110712A JP2018110712A JP7035827B2 JP 7035827 B2 JP7035827 B2 JP 7035827B2 JP 2018110712 A JP2018110712 A JP 2018110712A JP 2018110712 A JP2018110712 A JP 2018110712A JP 7035827 B2 JP7035827 B2 JP 7035827B2
Authority
JP
Japan
Prior art keywords
gradient
feature amount
cumulative
category
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018110712A
Other languages
English (en)
Other versions
JP2019212243A (ja
Inventor
拓哉 田中
亮介 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2018110712A priority Critical patent/JP7035827B2/ja
Priority to US16/424,637 priority patent/US11436538B2/en
Publication of JP2019212243A publication Critical patent/JP2019212243A/ja
Application granted granted Critical
Publication of JP7035827B2 publication Critical patent/JP7035827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習識別装置および学習識別方法に関する。
近年、AI(Artificial Intelligence:人工知能)に関連して一般的にも知られるようになった機械学習を用いて、大量のデータを元に人間の機能を代替する試みが各分野において広がっている。この分野は未だ日ごとに大きく発展を続けているが、現状いくつかの課題がある。その内の代表的なものは、データから汎用的な知識を取り出す汎化性能を含む精度の限界、および、その大きな計算負荷による処理速度の限界である。また、よく知られている、高性能な機械学習のアルゴリズムとして、Deep learning(DL)(ディープラーニング、深層学習)、およびその中で周辺のみに入力ベクトルを限定したConvolutional Neural Network(CNN)等が存在する。これらの手法と比較して、現状では、勾配ブースティング(例えば、GBDT(Gradient Boosting Decision Tree:勾配ブースティング決定木))は、特徴量の抽出が難しいため画像、音声および言語等の入力データに対しては精度が劣るものの、それ以外の構造化したデータではより良い性能が出ることが知られている。現に、データサイエンティストのコンペティションであるKaggleでは、GBDTが最もスタンダードなアルゴリズムとなっている。実社会の機械学習により解決したい課題のうち70%は、画像、音声および言語以外の構造化されたデータと言われており、GBDTは実世界の問題を解くためには、重要なアルゴリズムであることは間違いない。さらに、近年、決定木を用いて、画像音声等のデータの特徴抽出を行う手法も提案され始めている。
勾配ブースティングは、CCN等のディープラーニングに比べて学習処理が高速である。しかし、実用上必要な作業である特徴選択、ハイパーパラメータの調整、ならびに汎化性能の評価および性能向上を目的とした、複数のモデルを組み合わせることにより性能向上を図るモデルアンサンブルおよびスタッキング等の作業では数百回を超える学習も珍しくない。したがって、比較的高速な勾配ブースティングでも計算時間が課題となる。そのため、勾配ブースティングの学習処理の高速化を目的とした研究が近年多数報告されている。
このようなGBDTに使用する学習データには、特徴量として、数値の大きさそのものに意味のある数値データではなく、特定のカテゴリを示す識別子としての意味を有するカテゴリ特徴量が含まれる場合がある。このカテゴリ特徴量は、数値の大きさに意味がある数値データとしての特徴量(以下、非カテゴリ特徴量と称する場合がある)を用いた場合と比較して、学習処理を行う場合の扱いが異なる。したがって、GBDTは、カテゴリ特徴量を含む学習データに対して他の学習アルゴリズムよりも比較的精度が高いので、ハードロジック化した際もカテゴリ特徴量を含む学習データにより学習処理を行うことができる必要がある。
このようなカテゴリ特徴量について、ワンホットエンコーディングと称する符号化を行うことによって、数値データとしての特徴量(非カテゴリ特徴量)と同様の扱いで学習処理を行う技術が開示されている(例えば、非特許文献1参照)。ここで、ワンホットエンコーディングとは、N種類のカテゴリを示すカテゴリ特徴量を、N次元の2値特徴量に変換する符号化方式である。
しかしながら、非特許文献1に記載された技術のように、カテゴリ特徴量をワンホットエンコーディングにより符号化した場合、カテゴリの種類の数だけ特徴量が増加することになる。カテゴリ特徴量によっては100種類以上のカテゴリを有する場合もある。この場合、GBDTにより学習を行うハードロジックでは、特徴量について並列に学習処理を行う必要があり、ワンホットエンコーディングにより符号化した場合、増加した特徴量の次元数分だけ学習モジュールが必要になり、回路規模が増大するという問題がある。
本発明は、上述の問題点に鑑みてなされたものであって、カテゴリ特徴量を含む学習データを用いて勾配ブースティングによる学習を行う場合に、回路規模の増大を抑制することができる学習識別装置および学習識別方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、勾配ブースティングによる学習を行う学習識別装置において、サンプルデータの特徴量の各値に対応する勾配情報を積算したヒストグラムを、前記特徴量の値ごとに記憶するヒストグラム記憶部と、前記ヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力し、前記特徴量に対応するしきい値に応じた前記特徴量の値に対応する前記ヒストグラムを、前記特徴量に対応する前記勾配情報の累積和として算出するカテゴリ累積勾配算出部と、前記ヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力し、前記特徴量に対応するしきい値を用いた前記カテゴリ累積勾配算出部による分類方法とは異なる該しきい値による分類方法で分類された前記特徴量の値に対応する前記ヒストグラムの和を、前記特徴量に対応する前記勾配情報の累積和として算出する非カテゴリ累積勾配算出部と、前記カテゴリ累積勾配算出部により算出された累積和、または、前記非カテゴリ累積勾配算出部により算出された累積和を出力する累積和選択部と、を備えたことを特徴とする。
本発明によれば、カテゴリ特徴量を含む学習データを用いて勾配ブースティングによる学習を行う場合に、回路規模の増大を抑制することができる。
図1は、決定木モデルの一例を示す図である。 図2は、第1の実施形態に係る学習識別装置のモジュール構成の一例を示す図である。 図3は、ポインタメモリの構成の一例を示す図である。 図4は、ラーニングモジュールのモジュール構成の一例を示す図である。 図5は、第1の実施形態に係る学習識別装置の初期化時のモジュールの動作を示す図である。 図6は、第1の実施形態に係る学習識別装置のデプス0、ノード0のノードパラメータを決定する場合のモジュールの動作を示す図である。 図7は、第1の実施形態に係る学習識別装置のデプス0、ノード0の分岐時のモジュールの動作を示す図である。 図8は、第1の実施形態に係る学習識別装置のデプス1、ノード0のノードパラメータを決定する場合のモジュールの動作を示す図である。 図9は、第1の実施形態に係る学習識別装置のデプス1、ノード0の分岐時のモジュールの動作を示す図である。 図10は、第1の実施形態に係る学習識別装置のデプス1、ノード1のノードパラメータを決定する場合のモジュールの動作を示す図である。 図11は、第1の実施形態に係る学習識別装置のデプス1、ノード1の分岐時のモジュールの動作を示す図である。 図12は、第1の実施形態に係る学習識別装置のデプス1、ノード1のノードパラメータを決定の結果、分岐しない場合のモジュールの動作を示す図である。 図13は、第1の実施形態に係る学習識別装置において決定木の学習が完了した場合に全サンプルデータのステート情報を更新するときのモジュールの動作を示す図である。 図14は、第1の実施形態の変形例に係る学習識別装置のモデルメモリの構成の一例を示す図である。 図15は、第1実施形態の変形例に係る学習識別装置のクラシフィケーションモジュールの構成の一例を示す図である。 図16は、データパラレルを適用した学習識別装置のモジュール構成の一例を示す図である。 図17は、ラーニングモジュールの詳細なモジュール構成の一例を示す図である。 図18は、ラーニングモジュールの勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。 図19は、ラーニングモジュールの累積勾配算出モジュールのモジュール構成の一例を示す図である。 図20は、データパラレルにした場合の勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。 図21は、第2の実施形態に係る学習識別装置のラーニングモジュールのモジュール構成の一例を示す図である。 図22は、第2の実施形態のラーニングモジュールの勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。 図23は、第2の実施形態のラーニングモジュールにおいて分割数を3とした場合の勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。 図24は、第2の実施形態のラーニングモジュールの累積勾配算出モジュールのモジュール構成の一例を示す図である。 図25は、第2の実施形態に係る学習識別装置において特徴量の種類を2とした場合のラーニングモジュールのモジュール構成の一例を示す図である。 図26は、第2の実施形態のラーニングモジュールにおいて特徴量の種類を2とした場合の勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。 図27は、カテゴリ特徴量用の累積勾配算出モジュールのモジュール構成の一例を示す図である。 図28は、特徴量番号とカテゴリフラグとを関連付けるカテゴリ情報の一例を示す図である。 図29は、第3の実施形態のラーニングモジュールの累積勾配算出モジュールのモジュール構成の概要を示す図である。 図30は、第3の実施形態のラーニングモジュールの累積勾配算出モジュールのモジュール構成の詳細の一例を示す図である。 図31は、第3の実施形態のラーニングモジュールにおいてフィーチャパラレルに対応した累積勾配算出モジュールのモジュール構成の一例を示す図である。 図32は、非カテゴリ特徴量に対応するクラシフィケーションモジュールのモジュール構成の概要を示す図である。 図33は、第3の実施形態のクラシフィケーションモジュールのモジュール構成の概要を示す図である。 図34は、第3の実施形態の変形例のラーニングモジュールにおいてデータパラレルに対応した累積勾配算出モジュールのモジュール構成の一例を示す図である。
以下に、図1~図34を参照しながら、本発明に係る学習識別装置および学習識別方法の実施形態を詳細に説明する。また、以下の実施形態によって本発明が限定されるものではなく、以下の実施形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。
[第1の実施形態]
(GBDTのロジックについて)
高性能な機械学習のアルゴリズムとしてのDLにおいて、識別器は様々なハードロジックによる実装が試みられ、GPU(Graphics Processing Unit)での処理と比較して電力効率が高いことが分かっている。ただし、DLのうち特にCNNの場合には、GPUのアーキテクチャが非常にマッチするため、速度的には、ロジック実装したFPGA(Field-Programmable Gate Array)の方がGPUに比べて、識別が速いというわけではない。それに対して、GBDTのような決定木系のアルゴリズムについて、FPGAによるハードロジックの実装が試行され、GPUよりも高速な結果が報告されている。これは、後述するように、決定木系のアルゴリズムはそのデータ配列の特徴上、GPUのアーキテクチャに適さないためである。
また、学習に関しては、識別よりも世の中の検討は遅れており、DLにおいてもほとんど現状報告がなく、決定木系では報告は少ない状況である。その中でもGBDTの学習は、現状どこからもまだ報告がなく、現在では未開拓の分野であると考えられる。精度のよい識別モデルを得るためには、学習時に特徴量の選択および設計、ならびに学習アルゴリズムのハイパーパラメータの選択を行うため、莫大な試行回数が必要となり、特に大量の学習データがある場合には、学習処理のスピードの高さは現実的に最終的なモデルの精度について非常に大きく作用する。さらに、ロボティクス、HFT(High Frequency Trading)、およびRTB(Real-Time Bidding)のように環境変化への追従のリアルタイム性が求められる分野に関しては、スピードの速さが性能へと直結する。そのため、精度の高いGBDTにおいて、高速な学習処理が出来た場合には、結果的にそれを利用したシステムの性能を大きく向上させることができると考えられる。
(GBDTのFPGAに対する親和性)
決定木またはGBDTが、なぜGPUでは速くならないか、および、なぜFPGAだと速くなるかについて、GBDTのFPGAに対する親和性の観点から述べる。
まず、GBDTがブースティングを用いたアルゴリズムであることの観点から述べる。決定木の中でも、アンサンブル学習を用いたRandom Forest(RF)の場合は、木の間に依存関係がないため、GPUでも並列化しやすいが、GBDTはブースティングを用いて、多数の木を連結する方法であり、一個前の木の結果が出ないと、次の木の学習を開始することができない。そのため、処理としてシリアルな処理であり、一本ずつの木をいかに速く学習するかがキーとなる。これに対して、RFでは、一本あたりは遅くても、並列に多数の木の学習を速くすることで、全体の学習を速くするという選択肢をとり得る。そのため、GPUを用いた場合にも次に述べるDRAM(Dynamic Random Access Memory)のアクセスレイテンシの問題をある程度隠蔽することが可能であると考えられる。
次に、GPUデバイスのRAM(Random Access Memory)へのアクセス速度の限界(特にランダムアクセス)の観点から述べる。FPGAに内蔵のSRAM(Static Random Access Memory)は、FPGA内のRAMのバス幅を非常に大きくできるため、ミドルレンジのFPGAである、例えば、Xilinx社のXC7k325Tを用いた場合でも、以下の様に、3.2[TB/sec]に及ぶ。なお、内蔵RAMの容量は16[Mb]である。
BRAM 445個 × 36bit × 100MHz × 2ポート = 445*36*2*100*10^6/10^12 = 3.2TB/sec
また、ハイエンドのFPGAである、Xilinx社のVU9Pを用いた場合、6.9[TB/sec]である。なお、内蔵RAMの容量は270[Mb]である。
URAM 960個 × 36bit × 100MHz × 2ポート = 960*36*2*100*10^6/10^12 = 6.9TB/sec
これらの値は、クロック周波数を100[MHz]とした場合であるが、実際には、回路構成を工夫すると、200~500[MHz]程度での動作が考えられ、限界の帯域は数倍となる。これに対して、CPU(Central Processing Unit)に接続されているRAMは現世代では、DDR4(Double-Data-Rate4)であるが、下記のようにDIMM(Dual Inline Memory Module)1枚での帯域は25.6[GB/sec]に留まる。4枚のインタリーブ構成(256ビット幅)にしたとしても、100[GB/sec]程度である。DDR4のチップ規格がDDR4-3200(バス幅64ビット、DIMM1枚)の場合、以下のようになる。
200MHz × 2(DDR) × 64 = 200*10^6*2*64/10^9 = 25.6GB/sec
GPUに搭載されているGDDR5(Graphics Double-Data-Rate5)では、DDR4の帯域よりも4倍程度大きくなっているが、それでも、最大で400[GB/sec]程度である。
このように、FPGA内のRAMと、GPUおよびCPUでの外部メモリとは、帯域に大きな差がある。さらに、ここまでは、アドレスに対してシーケンシャルなアクセスの場合に関して述べてきたが、これ以上に大きく効いてくるのが、ランダムアクセス時のアクセスの時間である。FPGA内蔵のRAMはSRAMであるため、シーケンシャルアクセスでもランダムアクセスでもアクセスレイテンシは1クロックであるが、DDR4およびGDDR5は、DRAMであり、センスアンプの都合上、異なるカラムにアクセスした場合には、レイテンシが大きくなる。例えば、DDR4のRAMにおいて、代表的なCASレイテンシ(Column Address Strobe latency)は16クロックであり、簡単には、シーケンシャルアクセスと比較して、1/16しかスループットが出ない計算となる。
CNNの場合には、隣接した画素のデータを処理していくので、ランダムアクセスのレイテンシは大きく問題とならないが、決定木の場合には、分岐を続けていくと、枝ごとに元のデータのアドレスがどんどんと不連続になり、基本的にランダムアクセスとなる。そのため、データをDRAMに置いた場合、そのスループットがボトルネックとなり、速度が大きく劣化する。GPUにはそのような場合の性能劣化を抑えるために、キャッシュが存在するが、基本的に決定木はデータを総なめしていくアルゴリズムなので、データアクセスに局所性がなくキャッシュの効果が非常に効きにくい。なお、GPUの構造では、GPUには、演算コア(SM)毎に割り振られたSRAMからなるシェアードメモリが存在し、これを使うと高速な処理が可能である場合があるが、1個のSMあたり16~48[kB]と少量であり、かつ、SM間をまたぐアクセスの場合には、大きなレイテンシが発生する。現在の高価で大規模なGPUである、Nvidia K80の場合のシェアードメモリの容量の試算を以下に示す。
K80 = 2 × 13 SMX = 26 SMX = 4992 CUDAコア
26 × 48 × 8 = 9Mb
このように、数十万円する大規模なGPUでもシェアードメモリはたった9[Mb]しか存在せず、容量が少な過ぎる。さらに、GPUの場合は、上述のように、処理を行うSMは他のSMのシェアードメモリには直接アクセスできないことに起因し、決定木の学習に利用する場合には、高速なコーディングが困難という制約も存在する。
以上のように、データがFPGA上のSRAMに載るという前提で、FPGAはGPUに比べてGBDTの学習アルゴリズムを高速に実装可能であると考えられる。
(GBDTのアルゴリズム)
図1は、決定木モデルの一例を示す図である。以下、式(1)~式(22)および図1を参照してGBDTの基本論理を説明する。
GBDTは、教師あり学習の一手法であり、教師あり学習は以下の式(1)に示すように、学習データに対するフィッティングの良さを表すロス関数L(θ)と、学習したモデルの複雑さを表す正則化項Ω(θ)とからなる目的関数obj(θ)を何らかの尺度で最適化する処理である。正則化項Ω(θ)は、モデル(決定木)が複雑になり過ぎることを防ぐ、すなわち、汎化性能を高める役割を有する。
Figure 0007035827000001
式(1)の第1項のロス関数は、例えば、以下の式(2)に示すように、サンプルデータ(学習データ)ごとに誤差関数lより計算されるロスを足し合わせたものである。ここでnはサンプルデータ数、iはサンプル番号、yはラベル、モデルのy(ハット)は予測値である。
Figure 0007035827000002
ここで、誤差関数lは、例えば、以下の式(3)および式(4)に示すような二乗誤差関数またはロジスティックロス関数等が用いられる。
Figure 0007035827000003
Figure 0007035827000004
また式(1)の第2項の正則化項Ω(θ)は、例えば、以下の式(5)に示すようなパラメータθの二乗ノルム等が用いられる。ここで、λは正則化の重みを表すハイパーパラメータである。
Figure 0007035827000005
ここで、GBDTの場合について考える。まず、GBDTのi番目のサンプルデータxに対する予測値は、以下の式(6)のように表現できる。
Figure 0007035827000006
ここで、Kは決定木の総数、kは決定木の番号、f()はk番目の決定木の出力、xは入力されるサンプルデータの特徴量である。これより、GBDTもRF等と同じく、各決定木の出力を足し合わせたものを最終的な出力としていることがわかる。また、パラメータθは、θ={f,f,・・・,f}である。以上より、GBDTの目的関数は以下の式(7)のように表される。
Figure 0007035827000007
上記の目的関数について学習を行うが、決定木モデルではニューラルネット等の学習で用いられるSGD(Stochastic Gradient Descent:確率的勾配降下法)等の手法は使えない。そこでAdditive Training(ブースティング)を用いて学習を行う。Additive Trainingでは、あるラウンド(学習回数、決定木モデル数)tにおける予測値を以下の式(8)のように表現する。
Figure 0007035827000008
式(8)より、あるラウンドtにおいて、決定木(の出力)f(x)を求める必要があることが分かる。逆に、あるラウンドtでは他のラウンドについて考える必要はない。そこで、以下では、ラウンドtについて考える。ラウンドtでの目的関数は以下の式(9)のように表される。
Figure 0007035827000009
ここで、ラウンドtにおける目的関数のテーラー展開(二次の項までで打ち切り)は以下の式(10)のようになる。
Figure 0007035827000010
ここで、式(10)において、勾配情報g、hは以下の式(11)で表されるものである。
Figure 0007035827000011
式(10)において定数項を無視すると、ラウンドtでの目的関数は、以下の式(12)のようになる。
Figure 0007035827000012
この式(12)により、ラウンドtでの目的関数は、誤差関数を1ラウンド前の予測値で1階微分および2階微分したもの、および正則化項で表されるので、1階微分および2階微分が求まる誤差関数ならば適用が可能なことが分かる。
ここで、決定木モデルについて考える。図1に決定木モデルの例を示す。決定木モデルは、ノードとリーフとから構成され、ノードではある分岐条件を元に入力を次のノードまたはリーフへ入力し、リーフにはリーフウェイトがあり、これが入力に対する出力となる。例えば、図1では、「リーフ2」のリーフウェイトW2が「-1」であることを示している。
また、決定木モデルは以下の式(13)に示すように定式化される。
Figure 0007035827000013
式(13)において、wはリーフウェイト、qは木の構造を表す。つまり、入力(サンプルデータx)は木の構造qによりいずれかのリーフに割り当てられ、そのリーフのリーフウェイトが出力されることになる。
ここで、決定木モデルの複雑さを以下の式(14)のように定義する。
Figure 0007035827000014
式(14)において、第1項はリーフの数による複雑さを、第2項はリーフウェイトの二乗ノルムである。また、γは正則化項の重要度を制御するハイパーパラメータである。以上より、ラウンドtでの目的関数について、以下の式(15)のように整理する。
Figure 0007035827000015
ただし、式(15)において、I、G、Hは、以下の式(16)のように表される。
Figure 0007035827000016
式(15)より、あるラウンドtでの目的関数はリーフウェイトwに関する二次関数であり、一般に二次関数の最小値、およびその時の条件は、以下の式(17)で表される。
Figure 0007035827000017
つまり、あるラウンドtの決定木の構造qが決まったときに、その目的関数およびリーフウェイトは以下の式(18)のようになる。
Figure 0007035827000018
ここまでで、あるラウンドで決定木の構造が決まったときのリーフウェイトの算出が可能となった。以降は、決定木の構造の学習手順について述べる。
決定木の構造の学習方法の1つに貪欲法(Greedy Algorithm)がある。貪欲法では、木構造を深さ0からスタートし、各ノードで分岐スコア(Gain)を計算し分岐するか否かを判断して決定木の構造を学習するアルゴリズムである。分岐スコアは以下の式(19)で求められる。
Figure 0007035827000019
ここで、G、Hは左ノードに分岐したサンプルの勾配情報の和、G、Hは右ノードに分岐したサンプルの勾配情報の和、γは正則化項である。式(19)の[]内の第1項は左ノードに分岐したサンプルデータのスコア(目的関数)、第2項は右ノードに分岐したサンプルデータのスコア、第3項は分岐しない場合のスコアであり、分岐による目的関数の改善度合いを表している。
上述の式(19)に示す分岐スコアは、ある特徴量のあるしきい値で分岐した時の良さを表すが、これ単体ではどのような条件が最適か判断できない。そこで、貪欲法では、全ての特徴量の全てのしきい値候補で分岐スコアを求め、分岐スコアが最大となる条件を探すものである。貪欲法は上述のように、アルゴリズムとしては非常にシンプルであるが、全ての特徴量の全てのしきい値候補で分岐スコアを求めるため計算コストが高い。そこで後述するXGBoost等のライブラリでは、性能を維持しつつ、計算コストを低減する工夫がなされている。
(XGBoostについて)
以下、GBDTのライブラリとして周知なXGBoostについて述べる。XGBoostの学習アルゴリズムでは、しきい値候補の削減、および欠損値の扱いの2点について工夫がされている。
まず、しきい値候補の削減について説明する。上述した貪欲法は計算コストが高いという課題があった。XGBoostでは、Weighted Quantile Sketchという方法でしきい値候補数を削減している。これは、分岐スコア(Gain)の計算では、左右に別れるサンプルデータの勾配情報の和が重要であり、勾配情報の和が一定割合変化するしきい値のみを探索候補とするものである。具体的にはサンプルの二次勾配であるhを用いている。特徴量の次元をfとすると、特徴量およびサンプルデータの二次勾配hの集合を、以下の式(20)のように表現する。
Figure 0007035827000020
また、ランク関数rを以下の式(21)のように定義する。
Figure 0007035827000021
ここで、zはしきい値候補である。式(21)に示すランク関数rは、あるしきい値候補より小さいサンプルデータの二次勾配の和が全サンプルデータの二次勾配の和に占める割合を意味している。最終的には、次元fで示される特徴量について、あるしきい値候補の集合{sf1,sf2,・・・,sfl}を求める必要があり、これは以下の式(22)で求める。
Figure 0007035827000022
ここでεはしきい値候補の削減度合いを決めるパラメータであり、おおよそ1/ε個のしきい値候補が得られる。
Weighted Quantile Sketchは、決定木の最初のノードで(全サンプルデータに対して一括で)行うグローバルと、ノードごとに(当該ノードに割り当てられたサンプルについて毎回)行うローカルの2パターンが考えられる。汎化性能の面ではローカルの方がよいという結果が出ているので、XGBoostではローカルを採用している。
次に、欠損値の扱いについて説明する。入力されるサンプルデータの欠損値の扱いはGBDTおよび決定木に限らず、機械学習分野において一般的に有効な手法はない。欠損値を、平均値、中央値、もしくは協調フィルタ等で補完する方法、または欠損値が多い特徴量を除外する方法等があるが、性能の面で多くのケースで成功するわけではない。しかし、構造化データは欠損値を含むことが多く、実用上は何らかの対応が求められる。
XGBoostは、欠損値を含むサンプルデータを直接扱えるように学習アルゴリズムが工夫されている。これは、ノードの分岐スコアを求める際に、欠損値のデータを全て左右どちらかのノードに割り当てた時のスコアを求める方法である。また、上述のWeighted Quantile Sketchを行う場合は、欠損値を含むサンプルデータを除外した集合に対してしきい値候補を求めるものとすればよい。
(LightGBMについて)
次に、GBDTのライブラリであるLightGBMについて述べる。LightGBMは前処理にbinningと呼ばれる特徴量の量子化を採用し、分岐スコアの計算にGPUを利用した高速なアルゴリズムを採用している。LightGBMはXGBoostと比較して性能は同程度で学習速度が数倍速く、近年利用者が増えてきている。
まず、特徴量の量子化について説明する。分岐スコアは、データセットが大規模であれば大量のしきい値候補に対して計算が必要である。LightGBMは、学習の前処理として、特徴量を量子化することでしきい値候補数を削減している。また、量子化することでXGBoostのようにノードごとにしきい値候補の値および数が変わることがなく、GPUを利用する場合に必須の処理となっている。
特徴量の量子化についてはbinningという名前で様々な研究がなされており、LightGBMでは、特徴量をk個のビンに分割しており、しきい値候補はk個だけとなる。kは255、63、15等であり、データセットによって性能または学習速度は異なる。
また、特徴量を量子化したことで分岐スコアの計算が簡易になる。具体的には、しきい値候補が単に量子化された値になる。そのため、各特徴量について一次勾配および二次勾配のヒストグラムを作成し、各ビン(量子化された値)について分岐スコアを求めればよいことになる。これを特徴量ヒストグラムと呼んでいる。
次に、GPUを利用した分岐スコアの計算について説明する。分岐スコアの計算自体は特徴量が量子化されているため最大でも256パターンであるが、サンプルデータ数はデータセットによっては数万件を超えるため、ヒストグラム作成が学習時間に対して支配的となる。上述で述べたように、分岐スコアの計算では、特徴量ヒストグラムを求める必要がある。GPUを利用した場合、複数のスレッドが同一のヒストグラムを更新する必要があるが、このとき同一のビンを更新する可能性がある。そのため、アトミック演算を使用する必要があり、同一のビンを更新する割合が高いとパフォーマンスが低下する。そこで、LightGBMでは、ヒストグラムの作成の際に、一次勾配および二次勾配のどちらのヒストグラムから値を更新するかをスレッドごとに分けており、これによって同一のビンを更新する頻度を下げている。
(学習識別装置の構成)
図2は、実施形態に係る学習識別装置のモジュール構成の一例を示す図である。図3は、ポインタメモリの構成の一例を示す図である。図4は、ラーニングモジュールのモジュール構成の一例を示す図である。図2~図4を参照しながら、本実施形態に係る学習識別装置1のモジュール構成について説明する。
図2に示すように、本実施形態に係る学習識別装置1は、CPU10と、ラーニングモジュール20(学習部)と、データメモリ30と、モデルメモリ40と、クラシフィケーションモジュール50(識別部)と、を備えている。このうち、ラーニングモジュール20、データメモリ30、モデルメモリ40およびクラシフィケーションモジュール50は、FPGAにより構成されている。CPU10と、当該FPGAとはバスを介してデータ通信可能となっている。なお、学習識別装置1は、図2に示す各構成要素だけではなく、他の構成要素、例えば、CPU10のワークエリアとなるRAM、CPU10が実行するプログラム等を記憶したROM(Read Only Memory)、各種データ(プログラム等)を記憶した補助記憶装置、および外部装置と通信を行う通信I/F等を備えているものとしてもよい。
CPU10は、全体でGBDTの学習を制御する演算装置である。CPU10は、制御部11を有する。制御部11は、ラーニングモジュール20、データメモリ30、モデルメモリ40およびクラシフィケーションモジュール50の各モジュールを制御する。制御部11は、CPU10で実行されるプログラムによって実現される。
ラーニングモジュール20は、決定木を構成するノード毎の最適な特徴量の番号(以下、「特徴量番号」と称する場合がある)、およびしきい値を算出し、当該ノードがリーフの場合は、リーフウェイトを算出し、モデルメモリ40に書き込むハードウェアモジュールである。また、図4に示すように、ラーニングモジュール20は、ゲイン算出モジュール21_1、21_2、・・・、21_n(ゲイン算出部)と、最適条件導出モジュール22(導出部)と、を備えている。ここで、nは、少なくともサンプルデータ(学習データ、識別データ双方含む)の特徴量の数以上の数である。なお、ゲイン算出モジュール21_1、21_2、・・・、21_nについて、任意のゲイン算出モジュールを示す場合、または総称する場合、単に「ゲイン算出モジュール21」と称するものとする。
ゲイン算出モジュール21は、入力されるサンプルデータに含まれる特徴量のうち対応する特徴量について、各しきい値における分岐スコアを、上述の式(19)を用いて算出するモジュールである。ここで、サンプルデータのうち学習データには、特徴量の他、ラベル(真の値)が含まれ、サンプルデータのうち識別データには、特徴量が含まれるが、ラベルは含まれていない。また、各ゲイン算出モジュール21は、一度(1クロック)で入力されたすべての特徴量について、それぞれにそのヒストグラムを演算・格納するメモリを有し、全特徴量を並列に演算する。そのヒストグラムの結果より、各特徴量のゲインを並列に算出する。これによって、一度に、または同時に全特徴量に対する処理が可能となるので、学習処理の速度を飛躍的に向上させることが可能となる。このように、並列に全部の特徴量を読み出し、処理していく方法をフィーチャパラレル(Feature Parallel)と呼ぶ。なお、この方法を実現するためには、データメモリは一度(1クロック)ですべての特徴量を読み出すことができる必要がある。そのため、通常の32ビットや256ビット幅のデータ幅を持つメモリでは実現できない。また、ソフトウエアでは、通常CPUの一度に扱えるデータのビット数は64ビットにとどまり、特徴量数が100、各特徴量のビット数が8ビットだとしても8000ビットが必要となるのに対して、全く対応できない。そのため、従来は、メモリのアドレス毎(例えば、CPUが扱える64ビット幅)に別の特徴量を格納しておき、特徴量すべてでは、複数のアドレスにまたがって保存される方法が取られていた。それに対して、本方法では、メモリの1アドレスにすべての特徴量を格納し、1アクセスで全特徴量を読み出す点が新規の技術内容である。
上述のように、GBDTでは決定木の学習についての並列化はできない。そのため、いかに一本ずつの決定木を速く学習するかが、学習処理の速度に関して支配的となる。一方、アンサンブルな学習を行うRFでは、決定木の間の依存関係は学習時にないので、決定木ごとの学習処理の並列化は容易であるが、一般的にGBDTに対して精度が劣る。上述のように、RFよりも精度の高いGBDTの学習について、上述のようなフィーチャパラレル(Feature Parallel)を適用することで、決定木の学習処理の速度を向上させることができる。
ゲイン算出モジュール21は、算出した分岐スコアを最適条件導出モジュール22へ出力する。
最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出するモジュールである。最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノードの分岐条件データ(ノードのデータの一例)として、モデルメモリ40へ書き込む。
データメモリ30は、各種データを格納するSRAMである。データメモリ30は、ポインタメモリ31と、フィーチャメモリ32と、ステートメモリ33と、を備えている。
ポインタメモリ31は、フィーチャメモリ32で格納されているサンプルデータの格納先アドレスを記憶するメモリである。ポインタメモリ31は、図3に示すように、バンクA(バンク領域)と、バンクB(バンク領域)とを有する。なお、バンクAおよびバンクBの2バンクに分割して、サンプルデータの格納先アドレスを記憶する動作の詳細については、図5~図13で後述する。なお、ポインタメモリ31は、3つ以上のバンクを有することを制限するものではない。
フィーチャメモリ32は、サンプルデータ(学習データ、識別データを含む)を格納するメモリである。
ステートメモリ33は、ステート情報(上述のw、g、h)およびラベル情報を記憶するメモリである。
モデルメモリ40は、決定木のノード毎の分岐条件データ(特徴量番号、しきい値)、そのノードがリーフであるか否かを示すリーフフラグ(フラグ情報、ノードのデータの一例)、および、そのノードがリーフである場合におけるリーフウェイトを記憶するSRAMである。
クラシフィケーションモジュール50は、ノードごと、決定木ごとにサンプルデータを振り分けるハードウェアモジュールである。また、クラシフィケーションモジュール50は、ステート情報(w,g,h)を計算して、ステートメモリ33に書き込む。
なお、クラシフィケーションモジュール50は、上述のように学習処理におけるサンプルデータ(学習データ)の識別(分岐)だけでなく、サンプルデータ(識別データ)に対する識別処理においても、同一のモジュール構成で、当該識別データに対する識別を行うことが可能である。また、識別処理時にも、一括して特徴量をすべて読み込むことにより、クラシフィケーションモジュール50による処理をパイプライン化することができ、クロックごとに1つのサンプルデータの識別をすることまで処理の高速化が可能となる。一方、上述のように一括で読み込むことができない場合、どこの特徴量が必要になるかは、各ノードに分岐してみないとわからないため、毎回該当する特徴量のアドレスにアクセスする形態ではパイプライン化ができないことになる。
また、上述のクラシフィケーションモジュール50を複数備えるものとし、複数の識別データを分割(データパラレル(Data Parallel))して、各クラシフィケーションモジュール50に分配してそれぞれに識別処理をさせることによって、識別処理を高速化させることもできる。
(学習識別装置の学習処理)
以下、図5~図13を参照しながら、学習識別装置1の学習処理について具体的に説明する。
<初期化>
図5は、実施形態に係る学習識別装置の初期化時のモジュールの動作を示す図である。図5に示すように、まず、制御部11は、ポインタメモリ31を初期化する。例えば、図5に示すように、制御部11は、ポインタメモリ31のバンクAに対して、サンプルデータ(学習データ)のフィーチャメモリ32におけるアドレスを、学習データの数だけ順番に(例えば、アドレスの低い方から順に)書き込む。
なお、学習データのすべてを利用(すべてのアドレスを書き込み)することに限定されるものではなく、いわゆるデータサブサンプリングによって、所定の乱数に従った確率に基づいてランダムに選択した学習データを用いる(当該選択した学習データのアドレスを書き込む)ものとしてもよい。例えば、データサブサンプリングが0.5の場合、乱数に従った半分の確率で学習データの全アドレスのうち、半分のアドレスがポインタメモリ31(ここではバンクA)に書き込まれるものとしてもよい。乱数の発生には、LFSR(Linear Feedback Shift Register:線形帰還シフトレジスタ)により作成された擬似乱数が使用可能である。
また、学習に使用する学習データのうちすべての特徴量を使用することに限定されるものではなく、いわゆるフィーチャサブサンプルによって、上述と同様の乱数に従った確率に基づいてランダムに選択(例えば、半分を選択)した特徴量のみを使用するものとしてもよい。この場合、例えば、フィーチャサブサンプルにより選択された特徴量以外の特徴量のデータとしては、フィーチャメモリ32から定数が出力されるものとすればよい。これによって、未知のデータ(識別データ)に対する汎化性能が向上するという効果がある。
<デプス0・ノード0の分岐条件データの決定>
図6は、実施形態に係る学習識別装置のデプス0、ノード0のノードパラメータを決定する場合のモジュールの動作を示す図である。なお、決定木の一番上の階層を「デプス0」、そこから下の階層を順に「デプス1」、「デプス2」、・・・と称するものとし、特定の階層の一番左のノードを「ノード0」、そこから右のノードを順に「ノード1」、「ノード2」、・・・と称するものとする。
図6に示すように、まず、制御部11は、ラーニングモジュール20へ開始アドレスおよび終了アドレスを送信し、トリガによりラーニングモジュール20による処理を開始させる。ラーニングモジュール20は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクA)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出し、ステートメモリ33からステート情報(w,g,h)を読み出す。
この場合、上述したように、ラーニングモジュール20の各ゲイン算出モジュール21は、対応する特徴量のヒストグラムを計算し、それぞれ自身のSRAMに格納し、その結果に基づいて各しきい値における分岐スコアを算出する。そして、ラーニングモジュール20の最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出する。そして、最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノード(デプス0、ノード0)の分岐条件データとして、モデルメモリ40へ書き込む。この際、最適条件導出モジュール22は、ノード(デプス0、ノード0)からさらに分岐されることを示すためにリーフフラグを「0」として、当該ノードのデータ(分岐条件データの一部としてもよい)をモデルメモリ40へ書き込む。
以上の動作について、ラーニングモジュール20は、バンクAに書き込まれた学習データのアドレスを順に指定し、当該アドレスによって、フィーチャメモリ32から各学習データを読み出して行う。
<デプス0・ノード0でのデータ分岐処理>
図7は、実施形態に係る学習識別装置のデプス0、ノード0の分岐時のモジュールの動作を示す図である。
図7に示すように、制御部11は、クラシフィケーションモジュール50へ開始アドレスおよび終了アドレスを送信し、トリガによりクラシフィケーションモジュール50による処理を開始させる。クラシフィケーションモジュール50は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクA)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出す。また、クラシフィケーションモジュール50は、モデルメモリ40から対応するノード(デプス0、ノード0)の分岐条件データ(特徴量番号、しきい値)を読み出す。そして、クラシフィケーションモジュール50は、分岐条件データに従って、読み出したサンプルデータを、ノード(デプス0、ノード0)の左側に分岐させるか、右側に分岐させるかを判定し、その判定結果により、当該学習データのフィーチャメモリ32におけるアドレスを、ポインタメモリ31の読み出しバンク(ここではバンクA)(読み出し用のバンク領域)と異なる他方のバンク(書き込みバンク)(ここではバンクB)(書き込み用のバンク領域)に書き込む。
この際、クラシフィケーションモジュール50は、当該ノードの左側に分岐すると判定した場合、当該学習データのアドレスを、図7に示すように、バンクBのアドレスの低い方から順に書き込み、当該ノードの右側に分岐すると判定した場合、当該学習データのアドレスを、バンクBのアドレスの高い方から順に書き込む。これによって、書き込みバンク(バンクB)では、ノードの左側に分岐した学習データのアドレスは、アドレスの低い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの高い方にきれいに分けて書き込むことができる。なお、書き込みバンクにおいて、ノードの左側に分岐した学習データのアドレスは、アドレスの高い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの低い方に分けて書き込むものとしてもよい。
このように、ポインタメモリ31では、上述のように、バンクAおよびバンクBの2つが構成されており、交互に読み書きすることによって、FPGA内のSRAMの容量が限られている中、効率的にメモリを使用することが可能となる。単純には、フィーチャメモリ32およびステートメモリ33を、それぞれ2バンク構成する方法もあるが、一般的に、サンプルデータよりも、フィーチャメモリ32でのアドレスを示すデータの方が小さいので、本実施形態のように、ポインタメモリ31を準備しておき、間接的にアドレスを指定する方法の方が、メモリの使用量を削減することが可能となる。
以上の動作について、クラシフィケーションモジュール50は、全学習データに対して分岐処理を行う。ただし、分岐処理が終了した後、ノード(デプス0、ノード0)の左側と右側とに同数の学習データが分けられるわけではないので、クラシフィケーションモジュール50は、左側に分岐した学習データのアドレスと、右側に分岐した学習データのアドレスとの境界に対応する書き込みバンク(バンクB)におけるアドレス(中間アドレス)を、制御部11に返す。当該中間アドレスは、次の分岐処理の際に使用される。
<デプス1・ノード0の分岐条件データの決定>
図8は、実施形態に係る学習識別装置のデプス1、ノード0のノードパラメータを決定する場合のモジュールの動作を示す図である。基本的には、図6に示した、デプス0・ノード0の分岐条件データの決定の処理と同様であるが、対象とするノードの階層が変わる(デプス0からデプス1になる)ので、ポインタメモリ31のバンクAおよびバンクBの役割が反転する。具体的には、バンクBが読み出しバンクとなり、バンクAが書き込みバンク(図9参照)となる。
図8に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、ラーニングモジュール20へ開始アドレスおよび終了アドレスを送信し、トリガによりラーニングモジュール20による処理を開始させる。ラーニングモジュール20は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出し、ステートメモリ33からステート情報(w,g,h)を読み出す。具体的には、ラーニングモジュール20は、図8に示すように、バンクBの左側(アドレスが低い方)から中間アドレスまで順にアドレスを指定していく。
この場合、上述したように、ラーニングモジュール20の各ゲイン算出モジュール21は、読み出した学習データの各特徴量をそれぞれ自身のSRAMに格納して、各しきい値における分岐スコアを算出する。そして、ラーニングモジュール20の最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出する。そして、最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノード(デプス1、ノード0)の分岐条件データとして、モデルメモリ40へ書き込む。この際、最適条件導出モジュール22は、ノード(デプス1、ノード0)からさらに分岐されることを示すためにリーフフラグを「0」として、当該ノードのデータ(分岐条件データの一部としてもよい)をモデルメモリ40へ書き込む。
以上の動作について、ラーニングモジュール20は、バンクBの左側(アドレスが低い方)から中間アドレスまで順に指定し、当該アドレスによって、フィーチャメモリ32から各学習データを読み出して行う。
<デプス1・ノード0でのデータ分岐処理>
図9は、実施形態に係る学習識別装置のデプス1、ノード0の分岐時のモジュールの動作を示す図である。
図9に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、クラシフィケーションモジュール50へ開始アドレスおよび終了アドレスを送信し、トリガによりクラシフィケーションモジュール50による処理を開始させる。クラシフィケーションモジュール50は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)の左側から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出す。また、クラシフィケーションモジュール50は、モデルメモリ40から対応するノード(デプス1、ノード0)の分岐条件データ(特徴量番号、しきい値)を読み出す。そして、クラシフィケーションモジュール50は、分岐条件データに従って、読み出したサンプルデータを、ノード(デプス1、ノード0)の左側に分岐させるか、右側に分岐させるかを判定し、その判定結果により、当該学習データのフィーチャメモリ32におけるアドレスを、ポインタメモリ31の読み出しバンク(ここではバンクB)(読み出し用のバンク領域)と異なる他方のバンク(書き込みバンク)(ここではバンクA)(書き込み用のバンク領域)に書き込む。
この際、クラシフィケーションモジュール50は、当該ノードの左側に分岐すると判定した場合、当該学習データのアドレスを、図9に示すように、バンクAのアドレスの低い方から順に書き込み、当該ノードの右側に分岐すると判定した場合、当該学習データのアドレスを、バンクAのアドレスの高い方から順に書き込む。これによって、書き込みバンク(バンクA)では、ノードの左側に分岐した学習データのアドレスは、アドレスの低い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの高い方にきれいに分けて書き込むことができる。なお、書き込みバンクにおいて、ノードの左側に分岐した学習データのアドレスは、アドレスの高い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの低い方に分けて書き込むものとしてもよい。
以上の動作について、クラシフィケーションモジュール50は、全学習データのうちバンクBの中間アドレスよりも左側に書き込まれたアドレスで指定される学習データに対して分岐処理を行う。ただし、分岐処理が終了した後、ノード(デプス1、ノード0)の左側と右側とに同数の学習データが分けられるわけではないので、クラシフィケーションモジュール50は、左側に分岐した学習データのアドレスと、右側に分岐した学習データのアドレスとの中間に対応する書き込みバンク(バンクA)におけるアドレス(中間アドレス)を、制御部11に返す。当該中間アドレスは、次の分岐処理の際に使用される。
<デプス1・ノード1の分岐条件データの決定>
図10は、実施形態に係る学習識別装置のデプス1、ノード1のノードパラメータを決定する場合のモジュールの動作を示す図である。なお、図8の場合と同様に、デプス1・ノード0のノードと同じ階層なので、バンクBが読み出しバンクとなり、バンクAが書き込みバンク(図11参照)となる。
図10に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、ラーニングモジュール20へ開始アドレスおよび終了アドレスを送信し、トリガによりラーニングモジュール20による処理を開始させる。ラーニングモジュール20は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出し、ステートメモリ33からステート情報(w,g,h)を読み出す。具体的には、ラーニングモジュール20は、図10に示すように、バンクBの右側(アドレスが高い方)から中間アドレスまで順にアドレスを指定していく。
この場合、上述したように、ラーニングモジュール20の各ゲイン算出モジュール21は、読み出した学習データの各特徴量をそれぞれ自身のSRAMに格納して、各しきい値における分岐スコアを算出する。そして、ラーニングモジュール20の最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出する。そして、最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノード(デプス1、ノード1)の分岐条件データとして、モデルメモリ40へ書き込む。この際、最適条件導出モジュール22は、ノード(デプス1、ノード1)からさらに分岐されることを示すためにリーフフラグを「0」として、当該ノードのデータ(分岐条件データの一部としてもよい)をモデルメモリ40へ書き込む。
以上の動作について、ラーニングモジュール20は、バンクBの右側(アドレスが高い方)から中間アドレスまで順に指定し、当該アドレスによって、フィーチャメモリ32から各学習データを読み出して行う。
<デプス1・ノード1でのデータ分岐処理>
図11は、実施形態に係る学習識別装置のデプス1、ノード1の分岐時のモジュールの動作を示す図である。
図11に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、クラシフィケーションモジュール50へ開始アドレスおよび終了アドレスを送信し、トリガによりクラシフィケーションモジュール50による処理を開始させる。クラシフィケーションモジュール50は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)の右側から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出す。また、クラシフィケーションモジュール50は、モデルメモリ40から対応するノード(デプス1、ノード1)の分岐条件データ(特徴量番号、しきい値)を読み出す。そして、クラシフィケーションモジュール50は、分岐条件データに従って、読み出したサンプルデータを、ノード(デプス1、ノード1)の左側に分岐させるか、右側に分岐させるかを判定し、その判定結果により、当該学習データのフィーチャメモリ32におけるアドレスを、ポインタメモリ31の読み出しバンク(ここではバンクB)(読み出し用のバンク領域)と異なる他方のバンク(書き込みバンク)(ここではバンクA)(書き込み用のバンク領域)に書き込む。
この際、クラシフィケーションモジュール50は、当該ノードの左側に分岐すると判定した場合、当該学習データのアドレスを、図11に示すように、バンクAのアドレスの低い方から順に書き込み、当該ノードの右側に分岐すると判定した場合、当該学習データのアドレスを、バンクAのアドレスの高い方から順に書き込む。これによって、書き込みバンク(バンクA)では、ノードの左側に分岐した学習データのアドレスは、アドレスの低い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの高い方にきれいに分けて書き込むことができる。なお、書き込みバンクにおいて、ノードの左側に分岐した学習データのアドレスは、アドレスの高い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの低い方に分けて書き込むものとしてもよい。この場合、図9における動作も合わせる必要がある。
以上の動作について、クラシフィケーションモジュール50は、全学習データのうちバンクBの中間アドレスよりも右側に書き込まれたアドレスで指定される学習データに対して分岐処理を行う。ただし、分岐処理が終了した後、ノード(デプス1、ノード1)の左側と右側とに同数の学習データが分けられるわけではないので、クラシフィケーションモジュール50は、左側に分岐した学習データのアドレスと、右側に分岐した学習データのアドレスとの中間に対応する書き込みバンク(バンクA)におけるアドレス(中間アドレス)を、制御部11に返す。当該中間アドレスは、次の分岐処理の際に使用される。
<デプス1・ノード1の分岐条件データの決定時に分岐しない場合>
図12は、実施形態に係る学習識別装置のデプス1、ノード1のノードパラメータを決定の結果、分岐しない場合のモジュールの動作を示す図である。なお、図8の場合と同様に、デプス1・ノード0のノードと同じ階層なので、バンクBが読み出しバンクとなる。
図12に示すように、制御部11は、デプス0での処理でクラシフィケーションモジュール50から受け取った中間アドレスに基づいて、ラーニングモジュール20へ開始アドレスおよび終了アドレスを送信し、トリガによりラーニングモジュール20による処理を開始させる。ラーニングモジュール20は、開始アドレスおよび終了アドレスに基づいて、ポインタメモリ31(バンクB)から対象とする学習データのアドレスを指定し、当該アドレスによって、フィーチャメモリ32から学習データ(特徴量)を読み出し、ステートメモリ33からステート情報(w,g,h)を読み出す。具体的には、ラーニングモジュール20は、図12に示すように、バンクBの右側(アドレスが高い方)から中間アドレスまで順にアドレスを指定していく。
ラーニングモジュール20は、算出した分岐スコア等から、これ以上ノード(デプス1、ノード1)から分岐しないと判断した場合、リーフフラグを「1」として、当該ノードのデータ(分岐条件データの一部としてもよい)をモデルメモリ40に書き込むと共に、制御部11にも当該ノードのリーフフラグが「1」であることを送信する。これによって、ノード(デプス1、ノード1)から下の階層には分岐しないことが認識される。さらに、ラーニングモジュール20は、ノード(デプス1、ノード1)のリーフフラグが「1」である場合、特徴量番号およびしきい値の代わりに、リーフウェイト(w)(分岐条件データの一部としてもよい)をモデルメモリ40に書き込む。これにより、モデルメモリ40の容量を別々に持つよりも小さくすることができる。
以上の図6~図12で示した処理を、階層(デプス)毎に進めていくと、全体の決定木が完成する(決定木が学習される)。
<決定木の学習が完了した場合>
図13は、実施形態に係る学習識別装置において決定木の学習が完了した場合に全サンプルデータのステート情報を更新するときのモジュールの動作を示す図である。
GBDTを構成する1つの決定木の学習が完了した場合、次の決定木へのブースティング(ここではグラディエントブースティング)の際に使用するため、各学習データの誤差関数に対応する一次勾配g、二次勾配h、および各学習データに対するリーフウェイトwを算出する必要がある。図13に示すように、制御部11は、トリガによりクラシフィケーションモジュール50による上述の計算を開始させる。クラシフィケーションモジュール50は、全学習データに対して、全デプス(階層)のノードに対する分岐判定の処理を行い、各学習データに対応するリーフウェイトを算出する。そして、クラシフィケーションモジュール50は、算出したリーフウェイトに対して、ラベル情報を基に、ステート情報(w、g、h)を算出し、元のステートメモリ33のアドレスに書き戻す。このように、更新されたステート情報を利用して、次の決定木の学習が行われる。
以上のように、本実施形態に係る学習識別装置1において、ラーニングモジュール20は、入力されたサンプルデータの各特徴量を読み込むためのメモリ(例えば、SRAM)をそれぞれ備えている。これによって、1アクセスでサンプルデータの全特徴量を読み出すことができ、各ゲイン算出モジュール21により、一度に全特徴量に対する処理が可能となるので、決定木の学習処理の速度を飛躍的に向上させることが可能となる。
また、本実施形態に係る学習識別装置1において、ポインタメモリ31では、バンクAおよびバンクBの2つが構成されており、交互に読み書きするものとしている。これによって、効率的にメモリを使用することが可能となる。単純には、フィーチャメモリ32およびステートメモリ33を、それぞれ2バンク構成する方法もあるが、一般的に、サンプルデータよりも、フィーチャメモリ32でのアドレスを示すデータの方が小さいので、本実施形態のように、ポインタメモリ31を準備しておき、間接的にアドレスを指定する方法の方が、メモリ容量を節約することが可能となる。また、クラシフィケーションモジュール50は、ノードの左側に分岐すると判定した場合、学習データのアドレスを、2つのバンクのうち書き込みバンクのアドレスの低い方から順に書き込み、当該ノードの右側に分岐すると判定した場合、当該学習データのアドレスを、書き込みバンクのアドレスの高い方から順に書き込む。これによって、書き込みバンクでは、ノードの左側に分岐した学習データのアドレスは、アドレスの低い方に、ノードの右側に分岐した学習データのアドレスは、アドレスの高い方にきれいに分けて書き込むことができる。
(変形例)
図14は、変形例に係る学習識別装置のモデルメモリの構成の一例を示す図である。図14を参照しながら、本変形例に係る学習識別装置1におけるモデルメモリ40において、決定木のデプス(階層)毎にメモリが備えられた構成について説明する。
図14に示すように、本変形例に係る学習識別装置1のモデルメモリ40は、学習された決定木のモデルデータについてデプス(階層)毎にデータ(具体的には分岐条件データ)を格納するためのデプス0用メモリ41_1、デプス1用メモリ41_2、・・・、デプス(m-1)用メモリ41_mを有する。ここで、mは、少なくとも決定木のモデルのデプス(階層)数以上の数である。すなわち、モデルメモリ40は、学習された決定木のモデルデータについてデプス(階層)毎にデータ(デプス0ノードデータ、デプス1ノードデータ、・・・、デプス(m-1)ノードデータ)を同時に取り出すための独立したポートを有する、ということになる。これによって、クラシフィケーションモジュール50は、決定木における最初のノードでの分岐結果に基づき、次のノードに対応するデータ(分岐条件データ)を読み出すことを、全デプス(階層)で並列に行い、途中にメモリを介さずに、1つのサンプルデータ(識別データ)に対して、1クロックで同時に各デプス(階層)での分岐処理を実行(パイプライン処理)することが可能となる。これによって、クラシフィケーションモジュール50における識別処理は、サンプルデータ数分だけの時間だけで済むことになり、識別処理の速度を飛躍的に向上させることができる。これに対して、従来の技術では、ノード毎に新しいメモリ領域にサンプルデータをコピーしていくため、メモリの読み書きの時間だけ速度に影響し、(サンプルデータ数×デプス(階層)数)の識別処理の時間となるので、上述のように本変形例に係る識別処理の方が大幅に優位となる。
図15は、変形例に係る学習識別装置のクラシフィケーションモジュールの構成の一例を示す図である。図15に示すように、クラシフィケーションモジュール50は、ノード0判別器51_1、ノード1判別器51_2、ノード2判別器51_3、・・・を有する。フィーチャメモリ32からは、1クロックに1つのサンプルデータが特徴量として供給される。図15に示すように、特徴量は、まずノード0判別器51_1に入力され、ノード0判別器51_1は、対応するモデルメモリ40のデプス0用メモリ41_1からそのノードのデータ(デプス0ノードデータ)(右に行くか、左に行くかの条件、および使用する特徴量番号)を受け取る。ノード0判別器51_1では、その条件に従い、対応するサンプルデータが右に行くか左に行くかが判別される。なお、ここではデプス用メモリ(デプス0用メモリ41_1、デプス1用メモリ41_2、デプス2用メモリ41_3、・・・)はそれぞれレイテンシが1クロックあるとしている。ノード0判別器51_1の結果により、次のデプス1用メモリ41_2の内、何番目のノードに行くかがアドレス指定され、対応するノードのデータ(デプス1ノードデータ)が抽出され、ノード1判別器51_2に入力される。
デプス0用メモリ41_1のレイテンシは1クロックであるため、同じように特徴量も1クロックの遅延を入れて、ノード1判別器51_2に入力される。また、同じクロックで次のサンプルデータの特徴量がノード0判別機51_1に入力されている。このようにして、パイプライン処理で識別を行うことにより、デプス毎にメモリが同時に出力されている前提で、1つの決定木全体として、1クロックで1つのサンプルデータを識別することが可能である。なお、デプス0用メモリ41_1は、デプス0ではノードは1つしかないので、1つのアドレスのみでよく、デプス1用メモリ41_2は、デプス1ではノードは2つあるので、2つのアドレスが必要であり、同じように、デプス2用メモリ41_3は、4つのアドレスが必要であり、デプス3用メモリ(図示せず)は、8つのアドレスが必要となる。なお、このクラシフィケーションモジュール50は木全体の識別を行うものであるが、ノードの学習時には、ノード0判別器51_1のみを用いて学習を行うことで同じ回路を流用して、回路規模を小さくすることができる。
[第2の実施形態]
第2の実施形態に係る学習識別装置について、第1の実施形態に係る学習識別装置1と相違する点を中心に説明する。第1の実施形態では、サンプルデータが記憶されるデータメモリ30を1つとして、GBDTによる学習処理および識別処理について説明した。本実施形態では、複数のサンプルデータを並列で処理するデータパラレルを実現するために、データメモリを複数に分割して学習処理を行う動作について説明する。
(データパラレルについて)
図16は、データパラレルを適用した学習識別装置のモジュール構成の一例を示す図である。図16を参照しながら、データパラレルを実現する構成の例である学習識別装置1aの構成について説明する。
サンプルデータ(学習データまたは識別データ)に対するデータパラレルを実現するためには、まず、図16に示すように、サンプルデータを分割して保持するために2つのデータメモリ30a、30bに分割することが考えられる。図16のデータメモリ30bでは図示していないが、データメモリ30aと同様に、データメモリ30bも、ポインタメモリ31と、フィーチャメモリ32と、ステートメモリ33とを含む。ただし、単にサンプルデータを保持するメモリを分割しても、分割されたサンプルデータを並列に処理(学習処理、識別処理等)を行う機構が必要である。図16に示す例では、識別処理を行うモジュールを、分割されたデータメモリと同数だけ配置された構成を示す。すなわち、学習識別装置1aは、2つのデータメモリ30a、30bのそれぞれに格納されたサンプルデータについて並列で識別処理を行うために、クラシフィケーションモジュール50a、50bを有する。個別のモジュールに着目した場合、フィーチャパラレルで処理されるものとすると、上述のようなデータパラレルにするために、構成の変更はほとんどないので実装も容易である。
また、学習処理、すなわち、ラーニングモジュール20での処理を高速化するためのデータパラレルとしては、サンプルデータを分割して保持するために2つのデータメモリ30a、30bに分割すると共に、上述したように、学習処理の過程で算出される特徴量および勾配情報(上述の式(11)参照)についてのヒストグラム(以下、「勾配ヒストグラム」と称する場合がある)を保持するメモリが、データメモリの分割数に比例して増大するので、回路規模が増大するという問題がある。
(勾配ヒストグラムを用いた分岐スコアの算出方法)
ここで、まず、ラーニングモジュール20における分岐スコアの算出方法について説明する。ここで、サンプルデータ(ここでは学習データ)の特徴量は、あるビット幅に量子化されていることを前提とする。例えば、特徴量が8ビット(256パターンの値)で、特徴量の次元が100である場合、ラーニングモジュール20は、256×100=25600パターンの分岐スコアを算出することになる。この場合のしきい値の候補は、256個である。
ある分岐条件(1つの特徴量に対する1つのしきい値)に対応する分岐スコアを算出するには、現在のノードにある学習データから、しきい値以上の特徴量を有する学習データの勾配情報の和(上述の式(19)のG、Hに相当)と、当該しきい値未満の学習データの勾配情報の和(上述の式(19)のG、Hに相当)を求める必要がある。ここで、下記の(表1)に示すように、学習データが4つ、特徴量が1次元で値が3パターン、勾配情報が一次勾配gである場合において具体的に説明する。
Figure 0007035827000023
(表1)に示すように、特徴量が0、1、2の3パターンあるので、しきい値についても0、1、2となり、各しきい値での勾配情報の和は、以下の(表2)に示す値となり、この3パターンの各しきい値に対応する分岐スコアが算出される。
Figure 0007035827000024
特定のしきい値に対して、勾配情報の和を求めるためには、現在のノードのすべての学習データを参照する必要がある。これをすべてのしきい値について毎回行うものとすると、非常に処理時間がかかることになる。例えば、特徴量が8ビット(256パターン)の場合、しきい値についても256パターンあるので、(現在のノードにある学習データ数×256)回だけ勾配情報の和を求める必要がある。これでは非常に処理時間がかかるので、予め、特徴量の各値における勾配情報の和(勾配ヒストグラム)、および勾配情報の総和を求めておき、勾配ヒストグラムの累積和をとることによって分岐スコアの算出処理を簡略化するものとする。
サンプルデータが上述の(表1)で示したものである場合、特徴量の各値における勾配情報の和(勾配ヒストグラム)は、以下の(表3)に示す値となる。
Figure 0007035827000025
また、特徴量の各値における勾配情報の総和は、0.1+0.2+0.1-0.3=0.1となる。ここで、勾配ヒストグラムの累積和を求めることによって、勾配情報の和Gが求まり、勾配情報の総和から勾配情報の和Gを引くと勾配情報のGが求まり、各しきい値に対する勾配情報の和G、Gは、以下の(表4)に示す値となる。
Figure 0007035827000026
この方法であれば、現在のノードの学習データはそれぞれ1回参照すればよく、その後は、しきい値の数だけ勾配ヒストグラムを参照すれば、すべての分岐条件に対して分岐スコアを求めることができる。特徴量が8ビット(256パターン)の場合、(現在のノードにある学習データ数+256)回の処理で済むことになる。なお、上述の場合は、特徴量が1次元の場合であるが、特徴量が2次元以上でも、特徴量の次元ごとに勾配ヒストグラムを求めれば、同様の処理を並列で算出することが可能である。以下、第1の実施形態でフィーチャパラレルで学習を行うラーニングモジュール20の構成として示した図4に基づいてさらに詳細な構成を示した図17に示すラーニングモジュール20により、勾配ヒストグラムを算出して分岐条件データを求めるための構成および動作を説明し、さらに、データパラレルの構成とした場合の構成および動作について説明する。
(勾配ヒストグラムを用いて分岐条件データを求めるラーニングモジュールの構成例)
図17は、ラーニングモジュールの詳細なモジュール構成の一例を示す図である。図17を参照しながら、上述の図4が示す構成をさらに詳細に示したラーニングモジュール20の構成および動作について説明する。
図17に示すラーニングモジュール20は、ゲイン算出モジュール21_1、21_2、・・・、21_nと、最適条件導出モジュール22と、を備えている。ここで、nは、少なくともサンプルデータ(ここでは、学習データ)の特徴量の種類以上の数である。なお、ゲイン算出モジュール21_1、21_2、・・・、21_nについて、任意のゲイン算出モジュールを示す場合、または総称する場合、単に「ゲイン算出モジュール21」と称するものとする。
ゲイン算出モジュール21_1~21_1nは、それぞれ、入力されるサンプルデータに含まれる特徴量のうち対応する特徴量について、各しきい値における分岐スコアを、上述の式(19)を用いて算出するモジュールである。ゲイン算出モジュール21_1は、勾配ヒストグラム算出モジュール61_1と、累積勾配算出モジュール62_1と、算出モジュール63_1と、を含む。
勾配ヒストグラム算出モジュール61_1は、入力したサンプルデータの特徴量の各値をヒストグラムのビンとして、当該サンプルデータに対応する勾配情報の値を積算することによって勾配ヒストグラムを算出するモジュールである。
累積勾配算出モジュール62_1は、特徴量に対する各しきい値について、勾配ヒストグラムの累積和を求めることにより、勾配情報の和(G、G、H、H)を算出するモジュールである。
算出モジュール63_1は、累積勾配算出モジュール62_1により算出された勾配情報の和を用いて、上述の式(19)を用いて、各しきい値における分岐スコアを算出するモジュールである。
また、ゲイン算出モジュール21_2も、同様に、勾配ヒストグラム算出モジュール61_2と、累積勾配算出モジュール62_2と、算出モジュール63_2と、を含み、以下、ゲイン算出モジュール21_nについても同様である。なお、勾配ヒストグラム算出モジュール61_1、61_2、・・・、61_nについて、任意の勾配ヒストグラム算出モジュールを示す場合、または総称する場合、単に「勾配ヒストグラム算出モジュール61」と称するものとする。また、累積勾配算出モジュール62_1、62_2、・・・、62_nについて、任意の累積勾配算出モジュールを示す場合、または総称する場合、単に「累積勾配算出モジュール62」と称するものとする。また、算出モジュール63_1、63_2、・・・、63_nについて、任意の算出モジュールを示す場合、または総称する場合、単に「算出モジュール63」と称するものとする。
最適条件導出モジュール22は、各ゲイン算出モジュール21により出力された各特徴量および各しきい値に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出するモジュールである。最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノードの分岐条件データ(ノードのデータの一例)として、モデルメモリ40へ書き込む。
<勾配ヒストグラム算出モジュールの構成および動作>
図18は、ラーニングモジュールの勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図18を参照しながら、ラーニングモジュール20における勾配ヒストグラム算出モジュール61の構成および動作について説明する。なお、図18では、特徴量が1次元であるものとし、勾配情報として一次勾配gおよび二次勾配hがある場合について説明するが、単に、勾配情報g、勾配情報hと称する場合がある。
図18に示すように、勾配ヒストグラム算出モジュール61は、データカウンタ201と、加算器202と、ディレイ203と、勾配ヒストグラムメモリ204と、総和格納メモリ205と、加算器206と、ディレイ207と、勾配ヒストグラムメモリ208と、総和格納メモリ209と、を有する。
データカウンタ201は、データメモリ30から学習処理の対象となるサンプルデータ(特徴量)、および対応する勾配情報g、hを読み出すためのアドレスを出力する。
加算器202は、勾配ヒストグラムメモリ204から読み出した、加算された勾配情報gと、データメモリ30から新たに読み出した勾配情報gとを加算する。
ディレイ203は、加算器202により加算された勾配情報gを勾配ヒストグラムメモリ204に書き込むタイミングを合わせるために、データメモリ30から読み出された特徴量を遅延して出力する。
勾配ヒストグラムメモリ204は、特徴量の値をアドレスとして、加算された勾配情報gを格納していき、最終的に、特徴量の値(ビン)ごとの勾配ヒストグラムを格納するメモリである。
総和格納メモリ205は、データメモリ30から読み出した勾配情報gの総和を格納するメモリである。
加算器206は、勾配ヒストグラムメモリ208から読み出した、加算された勾配情報hと、データメモリ30から新たに読み出した勾配情報hとを加算する。
ディレイ207は、加算器206により加算された勾配情報hを勾配ヒストグラムメモリ208に書き込むタイミングを合わせるために、データメモリ30から読み出された特徴量を遅延して出力する。
勾配ヒストグラムメモリ208は、特徴量の値をアドレスとして、加算された勾配情報hを格納していき、最終的に、特徴量の値(ビン)ごとの勾配ヒストグラムを格納するメモリである。
総和格納メモリ209は、データメモリ30から読み出した勾配情報hの総和を格納するメモリである。
以下、勾配ヒストグラム算出モジュール61の勾配ヒストグラムの算出動作の流れを簡潔に説明する。まず、勾配ヒストグラム算出モジュール61は、データカウンタ201から出力されるアドレスを用いて、データメモリ30に記憶されている、現在のノードの1つの学習データ(特徴量、勾配情報)を読み出す。そして、加算器202は、データメモリ30から読み出した特徴量をアドレスとして、勾配ヒストグラムメモリ204から勾配情報g(加算された勾配情報g)を読み出す。そして、加算器202は、勾配ヒストグラムメモリ204から読み出した勾配情報g(加算された勾配情報g)と、データメモリ30から読み出した勾配情報gとを加算し、データメモリ30から読み出された特徴量をアドレスとして、勾配ヒストグラムメモリ204へ加算した勾配情報gを書き込む(更新する)。総和格納メモリ205は、データメモリ30から勾配情報gを読み出す度に加算して勾配情報gの総和を格納する。なお、加算器206、ディレイ207、勾配ヒストグラムメモリ208および総和格納メモリ209による勾配情報hに対する処理も、上述と同様である。以上の動作を、現在のノードのすべての学習データについて繰り返す。
<累積勾配算出モジュールの構成および動作>
図19は、ラーニングモジュールの累積勾配算出モジュールのモジュール構成の一例を示す図である。図19を参照しながら、ラーニングモジュール20における累積勾配算出モジュール62の構成および動作について説明する。なお、図19では、特徴量が1次元であるものとし、勾配情報として一次勾配gおよび二次勾配hがある場合について説明する。
図19に示すように、累積勾配算出モジュール62は、しきい値カウンタ210と、アキュムレータ211(累積記憶部の一例)と、ディレイ212(第3出力部の一例)と、差分器213(第4出力部の一例)と、アキュムレータ214(累積記憶部の一例)と、ディレイ215(第3出力部の一例)と、差分器216(第4出力部の一例)と、を有する。
しきい値カウンタ210は、勾配ヒストグラムメモリ204、208から特徴量の値ごとに加算された勾配情報(g、h)、すなわち、特徴量の各値の勾配ヒストグラムを読み出すためのアドレスとなるしきい値を出力する。
アキュムレータ211は、しきい値カウンタ210から出力されたしきい値(アドレス)に対応した勾配情報gについての勾配ヒストグラムを勾配ヒストグラムメモリ204から読み出して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。
ディレイ212は、アキュムレータ211から読み出した勾配情報gについての勾配ヒストグラムの累積和を、差分器213から勾配情報gの和Gが出力されるタイミングと合せるために遅延させて、勾配情報gの和Gとして出力する。
差分器213は、総和格納メモリ205から読み出した勾配情報gの総和から、アキュムレータ211から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和G)を引いて、勾配情報gの和Gを算出する。
アキュムレータ214は、しきい値カウンタ210から出力されたしきい値(アドレス)に対応した勾配情報hについての勾配ヒストグラムを勾配ヒストグラムメモリ208から読み出して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。
ディレイ215は、アキュムレータ214から読み出した勾配情報hについての勾配ヒストグラムの累積和を、差分器216から勾配情報hの和Hが出力されるタイミングと合せるために遅延させて、勾配情報hの和Hとして出力する。
差分器216は、総和格納メモリ209から読み出した勾配情報hの総和から、アキュムレータ214から読み出した勾配情報hについての勾配ヒストグラムの累積和(すなわち、勾配情報hの和H)を引いて、勾配情報hの和Hを算出する。
以下、累積勾配算出モジュール62の勾配情報の和(G、G、H、H)の算出動作の流れを簡潔に説明するなお、累積勾配算出モジュール62による算出処理は、勾配ヒストグラム算出モジュール61における勾配情報の勾配ヒストグラムの算出・格納処理の動作終了後に開始される。すなわち、勾配ヒストグラム算出モジュール61による算出処理の終了後は、勾配ヒストグラムメモリ204、208には、それぞれ、現在のノードのすべての学習データから算出された勾配情報g、hについての勾配ヒストグラムが保持してある。
まず、累積勾配算出モジュール62は、しきい値カウンタ210から出力されるアドレスとしてのしきい値を用いて、勾配ヒストグラムメモリ204に記憶されている勾配情報gの勾配ヒストグラムを読み出す。そして、アキュムレータ211は、しきい値カウンタ210から出力されたしきい値に対応した勾配情報gについての勾配ヒストグラムを勾配ヒストグラムメモリ204から読み出して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。そして、差分器213は、総和格納メモリ205から読み出した勾配情報gの総和から、アキュムレータ211から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和G)を引いて、勾配情報gの和Gを算出して、算出モジュール63へ出力する。また、ディレイ212は、アキュムレータ211から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和G)を、差分器213の出力に合せて、算出モジュール63へ出力する。なお、アキュムレータ214、ディレイ215および差分器216による勾配情報hに対する処理(勾配情報hの和H、Hの算出処理)も、上述と同様である。以上の動作を、すべてのしきい値について繰り返すが、この場合、しきい値カウンタ210がしきい値を順にカウントアップさせながら一巡して出力することによって実現される。
<データパラレルにした場合の勾配ヒストグラム算出モジュール>
図20は、データパラレルにした場合の勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図20を参照しながら、データパラレルにした場合の勾配ヒストグラム算出モジュール61の構成および動作について説明する。なお、図20では、データパラレルの分割数を2とし、特徴量が1次元であるものとし、勾配情報として一次勾配gのみを考えた場合について説明する。
図20に示すように、分割数が2の場合のデータパラレルとするために、図18に示すデータメモリ30の代わりに、分割したメモリであるデータメモリ30a、30bが構成され、勾配ヒストグラム算出モジュール61の代わりに、勾配ヒストグラム算出モジュール61a、61bが構成される。
図20に示すように、勾配ヒストグラム算出モジュール61aは、データカウンタ201aと、加算器202aと、ディレイ203aと、勾配ヒストグラムメモリ204aと、総和格納メモリ205aと、を有する。また、勾配ヒストグラム算出モジュール61bは、データカウンタ201bと、加算器202bと、ディレイ203bと、勾配ヒストグラムメモリ204bと、総和格納メモリ205bと、を有する。データカウンタ201a、201b、加算器202a、202b、ディレイ203a、203b、勾配ヒストグラムメモリ204a、204b、および、総和格納メモリ205a、205bの機能は、図18で説明した各機能と同様である。
データパラレルを簡易に構成する場合、図20に示すように、データメモリ30と共に、勾配ヒストグラム算出モジュール61も分割数と同数だけ配置する構成が考えられる。この場合、勾配ヒストグラムメモリの数は、特徴量次元×分割数となる。図20に示す例では、特徴量は一次元、分割数は2としているので、勾配ヒストグラムメモリ204a、204bの2つとなる。さらに、勾配情報として一次勾配gおよび二次勾配h用のそれぞれの勾配ヒストグラムメモリを考えた場合、必要となる勾配ヒストグラムメモリの全容量は、1つのメモリの容量(ビン数×ビット幅)×2(一次勾配g、二次勾配h)×特徴量次元×分割数となる。大規模なデータセットでは、特徴量が数百~数千次元ある場合も珍しくなく、そのうえ、分割数を増やすと大量のメモリの数が必要となり、メモリの容量がボトルネックとなり、回路の規模が増大してしまう。例えば、特徴量が8ビット(256パターン)で2000次元であり、勾配情報が一次勾配gおよび二次勾配hの2つとし、勾配ヒストグラムのビット幅が12ビットの場合、12[ビット]×256=3072[ビット]なので、1つの勾配ヒストグラムメモリのメモリ容量は3072ビットを満たせるものが必要になる。メモリは、通常、2のべき乗で用意されるので、この場合、メモリ容量は4096ビット(4kビット)となる。したがって、1分割(分割なし)の場合の勾配ヒストグラムメモリの全容量は、以下のようになる。
4[kビット]× 2(一次勾配g、二次勾配h)×2000[次元]=16[Mビット]
すなわち、1分割(分割なし)あたり16Mビットのメモリ容量が必要になり、分割した場合は、(分割数×16Mビット)のメモリ容量が必要となる。
例えば、ハイエンドなFPGAであるxilinx社のvirtex UltrScale+のVU9Pというチップの場合について考える。勾配ヒストグラムメモリに用いることができるのは分散RAMおよびブロックRAMという回路である。VU9Pでは、分散RAMが最大で36.1Mビット、ブロックRAMが最大で75.9Mビットである。そのため、勾配ヒストグラムメモリに分散RAMを用いた場合は2分割が限界であり、ブロックRAMを用いた場合は4分割が限界となる。また、分散RAMおよびブロックRAMは、勾配ヒストグラムの保持以外にも使う必要があるため、分割数の上限は上述の数よりも低くなる。以上のことより、特徴量および勾配情報のセットが並列に入力される場合において、図17~図20で説明したラーニングモジュール20の構成と比較して、より小規模な回路で勾配ヒストグラムを算出および格納することが可能な構成が必要である。以下、本実施形態に係るラーニングモジュールの構成および動作を、図21~図26で説明する。
(第2の実施形態に係るラーニングモジュールの構成)
図21は、第2の実施形態に係る学習識別装置のラーニングモジュールのモジュール構成の一例を示す図である。図21を参照しながら、本実施形態に係る学習識別装置(学習装置の一例)のラーニングモジュール20aの構成および動作について説明する。なお、図21では、データパラレルの分割数を2とし、特徴量が1次元であるものとして説明する。
図21に示すように、本実施形態に係るラーニングモジュール20aは、勾配ヒストグラム算出モジュール71と、累積勾配算出モジュール72と、算出モジュール73と、最適条件導出モジュール22と、を備えている。
勾配ヒストグラム算出モジュール71は、入力したサンプルデータの特徴量の各値をヒストグラムのビンとして、当該サンプルデータに対応する勾配情報の値を積算することによって勾配ヒストグラムを算出するモジュールである。勾配ヒストグラム算出モジュール71は、勾配出力モジュール301a、301bと、加算モジュール302と、アキュムレータモジュール303と、総和格納メモリ304と、を有する。
勾配出力モジュール301a、301bは、特徴量の各値に対応した出力ポートを有し、データメモリ30a、30bから、特徴量および勾配情報を入力し、入力した特徴量の値に対応した出力ポートから当該勾配情報を出力するモジュールである。
加算モジュール302は、特徴量の値(ビン)ごとに対応する勾配情報を加算して出力するモジュールである。
アキュムレータモジュール303は、特徴量の値(ビン)ごとに、加算モジュール302から入力した加算された勾配情報を、現在保持している加算された勾配情報に加算し、最終的に、ビンごとに勾配情報の勾配ヒストグラムを保持するモジュールである。
総和格納メモリ304は、加算モジュール302により算出された勾配情報の総和を格納するメモリである。
累積勾配算出モジュール72は、特徴量に対する各しきい値について、勾配ヒストグラムの累積和を求めることにより、勾配情報の和(G、G、H、H)を算出するモジュールである。
算出モジュール73は、累積勾配算出モジュール72により算出された勾配情報の和を用いて、上述の式(19)を用いて、各しきい値における分岐スコアを算出するモジュールである。
最適条件導出モジュール22は、算出モジュール73により出力された各特徴量(図21では1つの特徴量)および各しきい値に対応する各分岐スコアを入力し、分岐スコアが最大となる特徴量の番号(特徴量番号)およびしきい値を導出するモジュールである。最適条件導出モジュール22は、導出した特徴量番号およびしきい値を、対応するノードの分岐条件データ(ノードのデータの一例)として、モデルメモリ40へ書き込む。
また、図21に示すように、分割数が2の場合のデータパラレルとするために、メモリがデータメモリ30a、30bの2つのメモリに分割され、勾配ヒストグラム算出モジュール71のうち、前段において勾配出力モジュール301a、301bの2つのモジュールに分割されている。図21では、分割された物理的な単位を、「分割1」および「分割2」と表記している。
<勾配ヒストグラム算出モジュールの構成および動作>
図22は、第2の実施形態のラーニングモジュールの勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図22を参照しながら、本実施形態に係るラーニングモジュール20aにおける勾配ヒストグラム算出モジュール71の構成および動作について説明する。なお、図22では、データパラレルの分割数を2とし、特徴量が1次元であるものとし、勾配情報として1つ(例えば、一次勾配g)のみを考えた場合について説明する。
図22に示すように、勾配ヒストグラム算出モジュール71は、図21で説明した構成に加え、データカウンタ311a、311bを有する。
データカウンタ311aは、データメモリ30aから学習処理の対象となるサンプルデータ(特徴量)、および対応する勾配情報を読み出すためのアドレスを出力する。
勾配出力モジュール301aは、図22に示すように、比較器312_1、312_2、・・・、312_N(判定部)と、マルチプレクサ313_1、313_2、・・・、313_Nと、を有する。ここで、Nは、特徴量が取り得る値の数であって、勾配ヒストグラムにおけるビンの数である。なお、比較器312_1、312_2、・・・、312_Nについて、任意の比較器を示す場合、または総称する場合、単に「比較器312」と称するものとする。また、マルチプレクサ313_1、313_2、・・・、313_Nについて、任意のマルチプレクサを示す場合、または総称する場合、単に「マルチプレクサ313」(選択部)と称するものとする。
比較器312は、データメモリ30aから読み出した特徴量と、特定のビンの特徴量の値とを入力し、双方を比較して一致した場合、一致した旨(例えば、電圧レベルのオン出力)を、マルチプレクサ313へ出力する。例えば、比較器312_1は、データメモリ30aから読み出した特徴量が、ビン1の特徴量の値と一致した場合、一致した旨をマルチプレクサ313_1へ出力する。
マルチプレクサ313は、比較器312がデータメモリ30aから読み出した特徴量(学習データ)に対応する勾配情報と、0とを入力し、比較器312から出力された比較結果に応じて、入力した勾配情報または0を出力する。例えば、マルチプレクサ313_1は、比較器312_1がデータメモリ30aから読み出した特徴量に対応する勾配情報と、0とを入力し、比較器312_1から出力された比較結果が一致を示す場合、入力した勾配情報をビン1に対応する勾配情報として出力し、比較結果が不一致を示す場合、0を出力する。すなわち、データメモリ30aから読み出された特徴量の値に対応するマルチプレクサ313から、当該特徴量に対応する勾配情報が出力され、それ以外のマルチプレクサ313から0が出力される仕組みである。
なお、データメモリ30b、データカウンタ311b、および勾配出力モジュール301bの機能は、それぞれ上述のデータメモリ30a、データカウンタ311a、および勾配出力モジュール301aと同様である。
加算モジュール302は、特徴量の値、すなわちビンごとにマルチプレクサ313から入力した勾配情報を加算して、アキュムレータモジュール303へ出力する。加算モジュール302は、加算器321_1、321_2、・・・、321_Nと、加算器322と、を有する。
加算器321_1、321_2、・・・、321_Nは、それぞれビン1、2、・・・、Nごとにマルチプレクサ313から入力した勾配情報を加算して、加算した勾配情報をアキュムレータモジュール303へ出力する。例えば、加算器321_1は、勾配出力モジュール301aにおけるビン1に対応するマルチプレクサ313_1からの出力である勾配情報と、勾配出力モジュール301bにおけるビン1に対応するマルチプレクサ313_1からの出力である勾配情報と、を加算して、アキュムレータモジュール303(この場合、後述するビン1アキュムレータ331_1)へ出力する。
加算器322は、勾配出力モジュール301aおよび勾配出力モジュール301bが、それぞれデータメモリ30a、30bから読み出した勾配情報をぞれぞれ入力して加算し、加算した勾配情報を総和格納メモリ304へ出力する。
アキュムレータモジュール303は、特徴量の値(ビン)ごとに、加算モジュール302から入力した加算された勾配情報を、現在保持している加算された勾配情報に加算し、最終的に、ビンごとに勾配情報の勾配ヒストグラムを保持する。アキュムレータモジュール303は、ビン1アキュムレータ331_1と、ビン2アキュムレータ331_2と、・・・、ビンNアキュムレータ331_Nと、を有する。
ビン1アキュムレータ331_1、ビン2アキュームレータ331_2、・・・、ビンNアキュムレータ331_Nは、それぞれビン1、2、・・・、Nごとに、加算器321_1、321_2、・・・、321_Nからそれぞれ入力した加算された勾配情報を、現在保持している加算された勾配情報に加算する。例えば、ビン1アキュムレータ331_1は、加算器321_1から入力した加算された勾配情報を、現在保持している加算された勾配情報に加算し、ビン1の勾配情報の勾配ヒストグラムを保持する。
総和格納メモリ304は、加算器322から出力された加算された勾配情報を、現在保持している加算された勾配情報に加算する。すなわち、総和格納メモリ304は、すべての学習データに対応する勾配情報の総和が格納される。
以下、本実施形態に係る勾配ヒストグラム算出モジュール71の勾配ヒストグラムの算出動作の流れを簡潔に説明する。データカウンタ311a(311b)は、データメモリ30aから学習処理の対象となるサンプルデータ(特徴量)、および対応する勾配情報を読み出すためのアドレスを出力する。勾配出力モジュール301a(301b)の比較器312は、データメモリ30a(30b)から読み出した特徴量と、特定のビンの特徴量の値とを入力し、双方を比較して一致した場合、一致した旨を、マルチプレクサ313へ出力する。マルチプレクサ313は、比較器312がデータメモリ30a(30b)から読み出した特徴量(学習データ)に対応する勾配情報と、0とを入力し、比較器312から出力された比較結果に応じて、入力した勾配情報または0を出力する。加算モジュール302の加算器321_1、321_2、・・・、321_Nは、それぞれビン1、2、・・・、Nごとにマルチプレクサ313から入力した勾配情報を加算して、加算した勾配情報をアキュムレータモジュール303へ出力する。アキュムレータモジュール303のビン1アキュムレータ331_1、ビン2アキュームレータ331_2、・・・、ビンNアキュムレータ331_Nは、それぞれビン1、2、・・・、Nごとに、加算器321_1、321_2、・・・、321_Nからそれぞれ入力した加算された勾配情報を、現在保持している加算された勾配情報に加算して、最終的に、ビンごとに勾配情報の勾配ヒストグラムを保持する。以上の動作を、現在のノードのすべての学習データについて繰り返す。
以上のような、本実施形態に係る勾配ヒストグラム算出モジュール71の構成では、従来の図20で示した構成のように勾配ヒストグラムをメモリに格納するのではなく、特徴量のビンごとに対応したレジスタ(アキュムレータ)に格納するものとしている。図22に示す勾配ヒストグラム算出モジュール71の構成では、特徴量のビン数×特徴量次元(図22では次元を1としている)の数のレジスタがあれば実現することが可能である。すなわち、勾配ヒストグラムを格納するために必要となる全容量は、ビン数×ビット幅×2(一次勾配g、二次勾配h)×特徴量次元となり、分割数に依存しない。したがって、従来の図20で示した構成の場合と比較して、勾配ヒストグラムを格納するための回路容量を大幅に削減することができる。また、本実施形態に係る勾配ヒストグラム算出モジュール71の構成では、回路規模は分割数に依存しないので、他のモジュールの回路規模が許せる限り、データパラレルの分割数を増加させることができ、学習処理の速度を向上させることが可能となる。
例えば、特徴量が8ビット(256パターン)で2000次元であり、勾配情報が一次勾配gおよび二次勾配hの2つとした場合、必要となるレジスタの数は、以下のようになる。
256(ビン数)×2(一次勾配g、二次勾配h)×2000[次元]=1024000[個]
ここで、上述のVU9Pというチップの場合、最大レジスタ数は2364000[個]なので、本実施形態に係る勾配ヒストグラム算出モジュール71の構成で、勾配ヒストグラムの保持に必要なレジスタ数は、当該最大レジスタ数の半分程度に収めることができる。
図23は、第2の実施形態のラーニングモジュールにおいて分割数を3とした場合の勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図23を参照しながら、データパラレルの分割数を3とした場合の勾配ヒストグラム算出モジュール71の構成の一例について説明する。なお、図23では、特徴量が1次元であるものとし、勾配情報として1つ(例えば、一次勾配g)のみを考えた場合について説明する。
例えば、図23では、加算モジュール302は、加算器321_1_1、・・・、321_N_1と、加算器321_1_2、・・・、321_N_2と、加算器322_1、322_2と、を有する。図23に示す勾配ヒストグラム算出モジュール71のように、加算モジュール302は、段階的に勾配情報を統合(加算)するものとすればよい。例えば、ビン1について、加算器321_1_1は、「分割1」から出力された勾配情報と、「分割2」から出力された勾配情報とを加算して、加算器321_1_2へ出力する。そして、加算器321_1_2は、加算器321_1_1から出力された加算値と、「分割3」から出力された勾配情報と、を加算して、アキュムレータモジュール303のビン1アキュムレータ331_1へ出力する。
<累積勾配算出モジュールの構成および動作>
図24は、第2の実施形態のラーニングモジュールの累積勾配算出モジュールのモジュール構成の一例を示す図である。図24を参照しながら、本実施形態に係るラーニングモジュール20aにおける累積勾配算出モジュール72の構成および動作について説明する。なお、図24では、データパラレルの分割数を1とし、特徴量が1次元であるものとし、勾配情報として2つ(例えば、一次勾配g、二次勾配h)を考えた場合について説明する。
図19に示す従来の累積勾配算出モジュール62では、しきい値カウンタ210の出力(しきい値)をアドレスとして、勾配ヒストグラムメモリ204(208)にアクセスしていた。図24では、勾配ヒストグラムは、ビンごとにレジスタ(アキュムレータ)に保持されているので、マルチプレクサを介してすべてのビンからしきい値カウンタのしきい値に対応した値のみを取り出している。
図24に示すように、累積勾配算出モジュール72は、しきい値カウンタ340と、アキュムレータ341と、ディレイ342と、差分器343と、アキュムレータ344と、ディレイ345と、差分器346と、マルチプレクサ347、348と、を有する。また、図24では、一次勾配gに対応するアキュムレータモジュール303および総和格納メモリ304を、それぞれアキュムレータモジュール303gおよび総和格納メモリ304gとしている。また、二次勾配hに対応するアキュムレータモジュール303および総和格納メモリ304を、それぞれアキュムレータモジュール303hおよび総和格納メモリ304hとしている。
しきい値カウンタ340は、アキュムレータモジュール303g、303hから、特徴量の値(ビン)ごとに加算された勾配情報(g、h)、すなわち、特徴量の各ビンの勾配ヒストグラムを読み出すためのしきい値を出力する。
マルチプレクサ347は、しきい値カウンタ340からのしきい値と、アキュムレータモジュール303gの各アキュムレータ(ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_N)の格納値(勾配ヒストグラム)を入力する。そして、マルチプレクサ347は、入力した各ビンの勾配ヒストグラムのうち、しきい値カウンタ340からのしきい値に対応するビンに対応する勾配ヒストグラムを、アキュムレータ341へ出力する。
マルチプレクサ348は、しきい値カウンタ340からのしきい値と、アキュムレータモジュール303hの各アキュムレータ(ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_N)の格納値(勾配ヒストグラム)を入力する。そして、マルチプレクサ348は、入力した各ビンの勾配ヒストグラムのうち、しきい値カウンタ340からのしきい値に対応するビンに対応する勾配ヒストグラムを、アキュムレータ344へ出力する。
アキュムレータ341は、しきい値カウンタ340から出力されたしきい値に対応する勾配情報gについての勾配ヒストグラムをマルチプレクサ347から入力して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。
ディレイ342は、アキュムレータ341から読み出した勾配情報gについての勾配ヒストグラムの累積和を、差分器343から勾配情報gの和Gが出力されるタイミングと合せるために遅延させて、勾配情報gの和Gとして出力する。
差分器343は、総和格納メモリ304gから読み出した勾配情報gの総和から、アキュムレータ341から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和G)を引いて、勾配情報gの和Gを算出する。
アキュムレータ344は、しきい値カウンタ340から出力されたしきい値に対応する勾配情報hについての勾配ヒストグラムをマルチプレクサ348から入力して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。
ディレイ345は、アキュムレータ344から読み出した勾配情報hについての勾配ヒストグラムの累積和を、差分器346から勾配情報hの和Hが出力されるタイミングと合せるために遅延させて、勾配情報hの和Hとして出力する。
差分器346は、総和格納メモリ304hから読み出した勾配情報hの総和から、アキュムレータ344から読み出した勾配情報hについての勾配ヒストグラムの累積和(すなわち、勾配情報hの和H)を引いて、勾配情報hの和Hを算出する。
以下、累積勾配算出モジュール72の勾配情報の和(G、G、H、H)の算出動作の流れを簡潔に説明するなお、累積勾配算出モジュール72による算出処理は、勾配ヒストグラム算出モジュール71における勾配情報の勾配ヒストグラムの算出・格納処理の動作終了後に開始される。すなわち、勾配ヒストグラム算出モジュール71による算出処理の終了後は、アキュムレータモジュール303g、303hには、それぞれ、現在のノードのすべての学習データから算出された勾配情報g、hについての勾配ヒストグラムが保持してある。
まず、マルチプレクサ347は、しきい値カウンタ340からのしきい値と、アキュムレータモジュール303gの各アキュムレータ(ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_N)の格納値(勾配ヒストグラム)を入力する。そして、マルチプレクサ347は、入力した各ビンの勾配ヒストグラムのうち、しきい値カウンタ340からのしきい値に対応するビンに対応する勾配ヒストグラムを、アキュムレータ341へ出力する。そして、アキュムレータ341は、しきい値カウンタ340から出力されたしきい値に対応する勾配情報gについての勾配ヒストグラムをマルチプレクサ347から入力して、現在格納している勾配ヒストグラムの累積和に対して、さらに累積して、新たな勾配ヒストグラムの累積和として保持する。また、ディレイ342は、アキュムレータ341から読み出した勾配情報gについての勾配ヒストグラムの累積和を、差分器343から勾配情報gの和Gが出力されるタイミングと合せるために遅延させて、勾配情報gの和Gとして、算出モジュール73へ出力する。そして。差分器343は、総和格納メモリ304gから読み出した勾配情報gの総和から、アキュムレータ341から読み出した勾配情報gについての勾配ヒストグラムの累積和(すなわち、勾配情報gの和G)を引いて、勾配情報gの和Gを算出して、算出モジュール73へ出力する。なお、マルチプレクサ348、アキュムレータ344、ディレイ345および差分器346におる勾配情報hに対する処理(勾配情報hの和H、Hの算出処理)も、上述と同様である。以上の動作を、すべてのしきい値について繰り返すが、この場合、しきい値カウンタ340がしきい値を順にカウントアップさせながら一巡して出力することによって実現される。
このように、予め、勾配ヒストグラム算出モジュール71による勾配情報の勾配ヒストグラムの算出・格納処理の動作を行ったうえで、累積勾配算出モジュール72および算出モジュール73の処理を行うものとしている。これによって、ラーニングモジュール20aによる分岐スコア(ゲイン)の算出処理を高速化することができる。
<次元数が2の場合のラーニングモジュールの構成>
図25は、第2の実施形態に係る学習識別装置において特徴量の種類を2とした場合のラーニングモジュールのモジュール構成の一例を示す図である。図26は、第2の実施形態のラーニングモジュールにおいて特徴量の種類を2とした場合の勾配ヒストグラム算出モジュールのモジュール構成の一例を示す図である。図25および図26を参照しながら、本実施形態に係る学習識別装置(学習装置の一例)のラーニングモジュール20bの構成および動作について説明する。なお、図25では、データパラレルの分割数を2とし、特徴量が2次元であるものとして説明する。
図25に示すように、ラーニングモジュール20bは、勾配ヒストグラム算出モジュール71と、累積勾配算出モジュール72_1、72_2と、算出モジュール73_1、73_2と、最適条件導出モジュール22と、を備えている。勾配ヒストグラム算出モジュール71は、勾配出力モジュール301a_1、301a_2、301b_1、301b_2と、加算モジュール302_1、302_2と、アキュムレータモジュール303_1、303_2と、総和格納メモリ304_1、304_2と、を有する。図26に示すように、勾配ヒストグラム算出モジュール71は、図25に示した構成に加え、データカウンタ311a、311bを有する。
また、図26に示すように、勾配出力モジュール301a_1、301a_2、301b_1、301b_2は、それぞれ、比較器312_1、312_2、・・・、312_Nと、マルチプレクサ313_1、313_2、・・・、313_Nと、を有する。加算モジュール302_1、302_2は、それぞれ、加算器321_1、321_2、・・・、321_Nと、加算器322と、を有する。アキュムレータモジュール303_1、303_2は、それぞれ、ビン1アキュムレータ331_1と、ビン2アキュムレータ331_2と、・・・、ビンNアキュムレータ331_Nと、を有する。
図25および図26に示す構成のうち、勾配出力モジュール301a_1、301b_1、加算モジュール302_1、アキュムレータモジュール303_1、総和格納メモリ304_1、累積勾配算出モジュール72_1、および算出モジュール73_1は、「特徴量1」に対応する処理のために用いられる。一方、勾配出力モジュール301a_2、301b_2、加算モジュール302_2、アキュムレータモジュール303_2、総和格納メモリ304_2、累積勾配算出モジュール72_2、および算出モジュール73_2は、「特徴量2」に対応する処理のために用いられる。各モジュールの動作は、図22および図24で説明した動作と同様である。
上述したように、勾配ヒストグラムを格納するために必要となる容量は、ビン数×ビット幅×2(一次勾配g、二次勾配h)×特徴量次元であるので、特徴量の次元数だけ、アキュムレータモジュール303(図25では、アキュムレータモジュール303_1、303_2)が必要となる。しかし、当該容量は、分割数に依存しないので、図25および図26に示す例では、分割数が2の場合であるが、分割数が3以上となっても、特徴量の次元が2である限り、アキュムレータモジュール303は2つであればよい。
以上のように、本実施形態に係る学習識別装置のラーニングモジュール20a(20b)では、勾配ヒストグラム算出モジュール71は、従来の図20で示した構成のように勾配ヒストグラムをメモリに格納するのではなく、特徴量のビンごとに対応したレジスタ(アキュムレータ)に格納するものとしている。この勾配ヒストグラム算出モジュール71の構成では、特徴量のビン数×特徴量次元の数のレジスタがあれば実現することが可能である。すなわち、勾配ヒストグラムを格納するために必要となる全容量は、ビン数×ビット幅×2(一次勾配g、二次勾配h)×特徴量次元となり、分割数に依存しない。したがって、従来の図20で示した構成の場合と比較して、並列に入力される特徴量および勾配情報について作成された勾配ヒストグラムの情報を保持するメモリ(アキュムレータ、レジスタ)の回路規模を大幅に削減することができる。また、本実施形態に係る勾配ヒストグラム算出モジュール71の構成では、回路規模は分割数に依存しないので、他のモジュールの回路規模が許せる限り、データパラレルの分割数を増加させることができ、学習処理の速度を向上させることが可能となる。
[第3の実施形態]
第3の実施形態に係る学習識別装置について、第2の実施形態に係る学習識別装置と相違する点を中心に説明する。第1の実施形態および第2の実施形態では、サンプルデータが含む特徴量が数値の大きさそのものに意味のある数値データであることを前提として説明した。本実施形態では、数値データではなく特定のカテゴリを示す識別子としての意味を有する特徴量(カテゴリ特徴量)についても学習の対象として処理可能な構成および動作について説明する。
(ワンホットエンコーディングを用いた勾配情報の和の算出動作)
まず、カテゴリ特徴量を上述のワンホットエンコーディングにより符号化することにより、勾配情報の和G、G、H、Hを算出する動作について説明する。例えば、以下の(表5)に示すようなカテゴリ特徴量を有するサンプルデータを考える。
Figure 0007035827000027
この(表5)に示すサンプルデータでは、A~Cの3種類のカテゴリのいずれかを示すカテゴリ特徴量を有するデータである。このカテゴリ特徴量を、上述のワンホットエンコーディングによる符号化により3次元の2値特徴量に変換すると、以下の(表6)のようになる。
Figure 0007035827000028
この(表6)に示すように1次元の特徴量(カテゴリ特徴量)が、ワンホットエンコーディングによって3次元の特徴量(特徴量a、b、c)となり、特徴量の種類が増加していることになる。ここで、特徴量a~cの値の意味は、特徴量aについては、カテゴリがAであるサンプルデータについては値が「1」となり、それ以外のカテゴリの場合は値が「0」となる。特徴量bについては、カテゴリがBであるサンプルデータについては値が「1」となり、それ以外のカテゴリの場合は値が「0」となる。特徴量cについては、カテゴリがCであるサンプルデータについては値が「1」となり、それ以外のカテゴリの場合は値が「0」となる。また、(表5)に示したサンプルデータに、例えば、(表7)に示すように、勾配情報(一次勾配)gが対応しているものとする。
Figure 0007035827000029
この(表7)に示すサンプルデータのカテゴリ特徴量について勾配情報gの和G、Gを算出する動作を説明する。(表7)に示すサンプルデータのカテゴリ特徴量をワンホットエンコーディングによる符号化により3次元の2値特徴量に変換すると、以下の(表8)のようになる。
Figure 0007035827000030
この(表8)に示す2値の特徴量a~cについて、GBDTのノードにおける分岐は、0と1とを分ける1種類しか存在しないので、2値の各特徴量について勾配情報gの和G、Gは、以下の(表9)のようになる。
Figure 0007035827000031
(カテゴリ特徴量そのままを用いた場合の勾配情報の和の算出動作)
次に、ワンホットエンコーディングによる符号化はせずにカテゴリ特徴量そのままで、勾配情報の和G、Gを求める方法を考える。当該方法では、カテゴリ特徴量について、あるカテゴリであるか否かを条件として、それぞれのサンプルデータの勾配情報gについて和を取ればよい。
上述の(表7)に示したサンプルデータに着目して、まず、カテゴリAであるか否かを条件とした場合、カテゴリAであるサンプルデータの勾配情報gの和は「0.5」であり、カテゴリAでないサンプルデータの勾配情報gの和は「0.3」である。また、カテゴリBであるか否かを条件とした場合、カテゴリBであるサンプルデータの勾配情報gの和は「0.2」であり、カテゴリBでないサンプルデータの勾配情報gの和は「0.6」である。そして、カテゴリCであるか否かを条件とした場合、カテゴリCであるサンプルデータの勾配情報gの和は「0.1」であり、カテゴリCでないサンプルデータの勾配情報gの和は「0.7」である。したがって、これらの結果は、カテゴリ特徴量をワンホットエンコーディングによる符号化を行うことによって求めた勾配情報gの和G、Gを示す上述の(表9)の結果と同様である。すなわち、あるカテゴリであるか否かを条件として、それぞれのサンプルデータの勾配情報gについて和を取る処理を、各カテゴリについて行うことによって、ワンホットエンコーディングによる符号化を行った場合の処理と同様の勾配情報gの和G、Gを得ることができる。また、G>+Gは、全サンプルデータの勾配情報の総和であり常に等しいので、あるカテゴリについて勾配情報gの和G(またはG)が求まれば、和G(またはG)も求めることができる。以上のような勾配情報gの和G、Gの算出方法によって、同様に、勾配情報(二次勾配)hの和H、Hを算出することが可能である。
(カテゴリ特徴量に対応した累積勾配算出モジュールの構成)
図27は、カテゴリ特徴量用の累積勾配算出モジュールのモジュール構成の一例を示す図である。図27を参照しながら、カテゴリ特徴量に対応した累積勾配算出モジュール(カテゴリ用累積勾配算出モジュール62a)の構成について説明する。なお、図27では、1次元のカテゴリ特徴量を想定し、勾配情報として一次勾配gおよび二次勾配hがある場合について説明する。
まず、カテゴリ特徴量を含むサンプルデータとして、上述の(表7)に示したサンプルデータのカテゴリ特徴量が、各カテゴリを適当な数値(例えば、連続する数値)に変換し、下記の(表10)に示すような非カテゴリ特徴量と同様の形式で、データメモリ30に記憶されているものとする。
Figure 0007035827000032
そして、当該カテゴリ特徴量について、上述の図18に示す勾配ヒストグラム算出モジュール61により同図で説明したのと同様の動作で、勾配ヒストグラムメモリ204、208(ヒストグラム記憶部の一例)に勾配ヒストグラム(ヒストグラムの一例)が格納される。すなわち、勾配ヒストグラムメモリ204は、カテゴリ特徴量の値をアドレスとして、加算された勾配情報gが格納されていき、最終的に、カテゴリ特徴量の値(ビン)ごとの勾配ヒストグラムを格納する。また、勾配ヒストグラムメモリ208は、カテゴリ特徴量の値をアドレスとして、加算された勾配情報hが格納されていき、最終的に、カテゴリ特徴量の値(ビン)ごとの勾配ヒストグラムを格納する。例えば、勾配ヒストグラムメモリ204には、カテゴリ特徴量の値(ビン)ごとに、下記の(表11)に示すような勾配ヒストグラムが格納される。
Figure 0007035827000033
図27に示すように、カテゴリ用累積勾配算出モジュール62aは、しきい値カウンタ210と、ディレイ212(第1出力部の一例)と、差分器213(第2出力部の一例)と、ディレイ215(第1出力部の一例)と、差分器216(第2出力部の一例)と、を有する。上述の図19に示した累積勾配算出モジュール62と比較すると、カテゴリ用累積勾配算出モジュール62aは、アキュムレータ211、214が除外された構成を有する。
しきい値カウンタ210は、勾配ヒストグラムメモリ204、208からカテゴリ特徴量の値ごとに加算された勾配情報(g、h)、すなわち、カテゴリ特徴量の各値の勾配ヒストグラムを読み出すためのアドレスとなるしきい値(ここでは、カテゴリ特徴量の値)を出力する。
ディレイ212は、勾配ヒストグラムメモリ204から読み出した勾配情報gについての勾配ヒストグラムを、差分器213から勾配情報gの和Gが出力されるタイミングと合せるために遅延させて、勾配情報gの和Gとして出力する。
差分器213は、総和格納メモリ205(総和記憶部の一例)から読み出した勾配情報gの総和から、勾配ヒストグラムメモリ204から読み出した勾配情報gについての勾配ヒストグラム(すなわち、勾配情報gの和G)を引いて、勾配情報gの和Gを算出する。
ディレイ215は、勾配ヒストグラムメモリ208から読み出した勾配情報hについての勾配ヒストグラムを、差分器216から勾配情報hの和Hが出力されるタイミングと合せるために遅延させて、勾配情報hの和Hとして出力する。
差分器216は、総和格納メモリ209(総和記憶部の一例)から読み出した勾配情報hの総和から、勾配ヒストグラムメモリ208から読み出した勾配情報hについての勾配ヒストグラム(すなわち、勾配情報hの和H)を引いて、勾配情報hの和Hを算出する。
以下、カテゴリ用累積勾配算出モジュール62aの勾配情報の和(G、G、H、H)の算出動作の流れを簡潔に説明するなお、カテゴリ用累積勾配算出モジュール62aによる算出処理は、勾配ヒストグラム算出モジュール61における勾配情報の勾配ヒストグラムの算出・格納処理の動作終了後に開始される。すなわち、勾配ヒストグラム算出モジュール61による算出処理の終了後は、勾配ヒストグラムメモリ204、208には、それぞれ、現在のノードのすべての学習データ(ここでは、特徴量がカテゴリ特徴量であるものとする)から算出された勾配情報g、hについての勾配ヒストグラムが保持してある。
まず、カテゴリ用累積勾配算出モジュール62aは、しきい値カウンタ210から出力されるアドレスとしてのしきい値(カテゴリ特徴量の値)を用いて、勾配ヒストグラムメモリ204に記憶されている勾配情報gの勾配ヒストグラムを読み出す。そして、ディレイ212は、しきい値カウンタ210から出力されたしきい値に対応した勾配情報gについての勾配ヒストグラムを勾配ヒストグラムメモリ204から読み出して、差分器213から勾配情報gの和Gが出力されるタイミングと合せるために遅延させて、勾配情報gの和Gとして、算出モジュール63(スコア算出部の一例)へ出力する。そして、差分器213は、総和格納メモリ205から読み出した勾配情報gの総和から、勾配ヒストグラムメモリ204から読み出した勾配情報gについての勾配ヒストグラム(すなわち、勾配情報gの和G)を引いて、勾配情報gの和Gを算出して、算出モジュール63へ出力する。なお、ディレイ215および差分器216による勾配情報hに対する処理(勾配情報hの和H、Hの算出処理)も、上述と同様である。以上の動作を、すべてのしきい値について繰り返すが、この場合、しきい値カウンタ210がしきい値を順にカウントアップさせながら一巡して出力することによって実現される。これによって、カテゴリ特徴量について、ワンホットエンコーディングによる符号化を行うことなく、勾配情報の和(G、G、H、H)が算出される。
上述の図27に示したカテゴリ用累積勾配算出モジュール62aは、カテゴリ特徴量に対応して、勾配情報の和(G、G、H、H)を算出するモジュールであるが、実際には、特徴量がカテゴリ特徴量であるか非カテゴリ特徴量であるかは対象のサンプルデータによって異なるため、ハードロジックではどちらの場合にも動作する構成が必要である。以下、図28~図31を参照しながら、カテゴリ特徴量および非カテゴリ特徴量の双方に対応して、勾配情報の和(G、G、H、H)を算出することができる本実施形態に係る累積勾配算出モジュールについて説明する。
(カテゴリ特徴量および非カテゴリ特徴量の双方に対応した累積勾配算出モジュールの構成)
図28は、特徴量番号とカテゴリフラグとを関連付けるカテゴリ情報の一例を示す図である。図29は、第3の実施形態のラーニングモジュールの累積勾配算出モジュールのモジュール構成の概要を示す図である。図28および図29を参照しながら、本実施形態の累積勾配算出モジュール72aの構成の概要について説明する。
サンプルデータには、複数の特徴量(複数次元の特徴量)が含まれており、それらの特徴量として、カテゴリ特徴量および非カテゴリ特徴量の双方が含まれ得る。そこで、前提として、本実施形態のラーニングモジュールに入力されるサンプルデータの各特徴量の特徴量番号と、当該各特徴量がそれぞれカテゴリ特徴量であるのか否かを示すカテゴリフラグとを関連付けたカテゴリ情報として、例えば、図28に示すような情報が記憶手段(例えば、データメモリ30)に記憶されているものとする。図28に示すカテゴリ情報の例では、カテゴリフラグが「1」である特徴量は、カテゴリ特徴量であることを示し、カテゴリフラグが「0」である特徴量は、非カテゴリ特徴量であることを示す。なお、含まれる特徴量の構成(カテゴリ特徴量であるのでか非カテゴリ特徴量であるのか)が異なるサンプルデータのデータセットを新たに用いる場合には、当該データセットに対応したカテゴリ情報を用いるものとすればよい。
ここで、図29に示す本実施形態に係る累積勾配算出モジュール72aの構成の概要について説明する。図29に示すように、累積勾配算出モジュール72aは、非カテゴリ特徴量演算手段80と、カテゴリ特徴量演算手段80aと、マルチプレクサ64と、を有する。
非カテゴリ特徴量演算手段80は、入力した勾配ヒストグラムが、非カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G、H、H)を算出する手段(モジュール)である。
カテゴリ特徴量演算手段80aは、入力した勾配ヒストグラムが、カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G、H、H)を算出する手段(モジュール)である。
マルチプレクサ64は、上述の記憶手段に記憶されたカテゴリ情報のカテゴリフラグを順に入力すると共に、非カテゴリ特徴量演算手段80およびカテゴリ特徴量演算手段80aの双方で算出された勾配情報の和(G、G、H、H)を入力する。そして、マルチプレクサ64は、入力したカテゴリフラグが「1」(すなわち、カテゴリ特徴量を示す)である場合、カテゴリ特徴量演算手段80aから入力した勾配情報の和(G、G、H、H)を、後段の算出モジュール(例えば、算出モジュール73)へ出力する。一方、マルチプレクサ64は、入力したカテゴリフラグが「0」(すなわち、非カテゴリ特徴量を示す)である場合、非カテゴリ特徴量演算手段80から入力した勾配情報の和(G、G、H、H)を、後段の算出モジュールへ出力する。
以上のように、累積勾配算出モジュール72aは、カテゴリ情報を参照して、現在学習処理の対象となっているサンプルデータに含まれる各特徴量がカテゴリ特徴量であるのか非カテゴリ特徴量であるのかによって、非カテゴリ特徴量演算手段80またはカテゴリ特徴量演算手段80aにより算出された勾配情報の和(G、G、H、H)のうちいずれを出力するのかを切り替えている。すなわち、非カテゴリ特徴量演算手段80およびカテゴリ特徴量演算手段80aは、それぞれ入力した勾配ヒストグラムを用いて、並列に勾配情報の和(G、G、H、H)を算出しておき、累積勾配算出モジュール72aは、カテゴリフラグに基づいて、出力する勾配情報の和(G、G、H、H)を切り替える。この累積勾配算出モジュール72aの構成について、以下、図30を参照しながら、詳細な構成について説明する。
図30は、第3の実施形態のラーニングモジュールの累積勾配算出モジュールのモジュール構成の詳細の一例を示す図である。図30を参照しながら、本実施形態の累積勾配算出モジュール72aの構成の詳細について説明する。なお、図30では、特徴量が1次元であり、勾配情報として一次勾配gおよび二次勾配hがある場合について説明する。
図30に示すように、累積勾配算出モジュール72aは、しきい値カウンタ340と、累積勾配算出モジュール62(非カテゴリ累積勾配算出部)と、カテゴリ用累積勾配算出モジュール62a(カテゴリ累積勾配算出部)と、マルチプレクサ64(累積和選択部)と、を有する。累積勾配算出モジュール62は、上述の図19で説明した累積勾配算出モジュール62と同様の構成および機能を有する。また、累積勾配算出モジュール62およびカテゴリ用累積勾配算出モジュール62aがそれぞれ有するしきい値カウンタ210の代わりに、累積勾配算出モジュール72aでは、しきい値カウンタ340が含まれている。
しきい値カウンタ340は、勾配ヒストグラムメモリ204、208から特徴量の値ごとに加算された勾配情報(g、h)、すなわち、特徴量の各値の勾配ヒストグラムを読み出すためのアドレスとなるしきい値(特徴量の値)を出力する。
累積勾配算出モジュール62は、勾配ヒストグラムメモリ204、208から入力した勾配ヒストグラムが、非カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G、H、H)を算出するモジュールである。ここで、勾配情報の和(G、H)は、「第1累積和」に相当し、勾配情報の和(G、H)は、「第2累積和」に相当する。累積勾配算出モジュール62は、上述のように、図19で説明した累積勾配算出モジュール62と同様の構成および機能を有し、図29に示した非カテゴリ特徴量演算手段80に対応するものである。
カテゴリ用累積勾配算出モジュール62aは、勾配ヒストグラムメモリ204、208から入力した勾配ヒストグラムが、カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G、H、H)を算出するモジュールである。ここで、勾配情報の和(G、H)は、「第1累積和」に相当し、勾配情報の和(G、H)は、「第2累積和」に相当する。カテゴリ用累積勾配算出モジュール62aは、上述のように、図27で説明したカテゴリ用累積勾配算出モジュール62aと同様の構成および機能を有し、図29に示したカテゴリ特徴量演算手段80aに対応するものである。
以下、累積勾配算出モジュール72aの勾配情報の和(G、G、H、H)の算出動作の流れを簡潔に説明するなお、累積勾配算出モジュール72aによる算出処理は、勾配ヒストグラム算出モジュール61における勾配情報の勾配ヒストグラムの算出・格納処理の動作終了後に開始される。すなわち、勾配ヒストグラム算出モジュール61による算出処理の終了後は、勾配ヒストグラムメモリ204、208には、それぞれ、現在のノードのすべての学習データから算出された勾配情報g、hについての勾配ヒストグラムが保持してある。
まず、累積勾配算出モジュール62およびカテゴリ用累積勾配算出モジュール62aは、それぞれ、しきい値カウンタ340から出力されるアドレスとしてのしきい値(特徴量の値)を用いて、勾配ヒストグラムメモリ204、208に記憶されている勾配情報g、hの勾配ヒストグラムを読み出す。さらに、累積勾配算出モジュール62およびカテゴリ用累積勾配算出モジュール62aは、それぞれ、総和格納メモリ205、209から勾配情報g、hの総和を読み出す。
次に、累積勾配算出モジュール62は、勾配ヒストグラムメモリ204、208から入力した勾配ヒストグラムが、非カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G、H、H)を算出する。それに並列して、カテゴリ用累積勾配算出モジュール62aは、勾配ヒストグラムメモリ204、208から入力した勾配ヒストグラムが、カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G、H、H)を算出する。
そして、マルチプレクサ64は、入力したカテゴリフラグが「1」(すなわち、カテゴリ特徴量を示す)である場合、カテゴリ用累積勾配算出モジュール62aから入力した勾配情報の和(G、G、H、H)を、後段の算出モジュール(例えば、算出モジュール73)(スコア算出部の一例)へ出力する。一方、マルチプレクサ64は、入力したカテゴリフラグが「0」(すなわち、非カテゴリ特徴量を示す)である場合、累積勾配算出モジュール62から入力した勾配情報の和(G、G、H、H)を、後段の算出モジュールへ出力する。
以上の動作を、すべてのしきい値について繰り返すが、この場合、しきい値カウンタ340がしきい値を順にカウントアップさせながら一巡して出力することによって実現される。このように、カテゴリ情報を参照して、現在学習処理の対象となっているサンプルデータに含まれる各特徴量がカテゴリ特徴量であるのか非カテゴリ特徴量であるのかによって、カテゴリ用累積勾配算出モジュール62aまたは累積勾配算出モジュール62により算出された勾配情報の和(G、G、H、H)のうちいずれを出力するのかを切り替えている。これによって、カテゴリ特徴量についてワンホットエンコーディングによる符号化を行うことなく、カテゴリ特徴量および非カテゴリ特徴量の双方に対応して、勾配情報の和(G、G、H、H)を算出することができる。
(フィーチャパラレルを実現する累積勾配算出モジュールの構成)
図31は、第3の実施形態のラーニングモジュールにおいてフィーチャパラレルに対応した累積勾配算出モジュールのモジュール構成の一例を示す図である。図31を参照しながら、本実施形態に係るラーニングモジュールにおいてフィーチャパラレルに対応した累積勾配算出モジュールの構成について説明する。なお、図31では、特徴量がM次元のフィーチャパラレルを想定している。
図31に示すように、特徴量が2次元以上(図31ではM次元)の場合、特徴量ごとにに、勾配ヒストグラムメモリ204、208および総和格納メモリ205、209を含む勾配ヒストグラム算出モジュール61、ならびに、しきい値カウンタ340、累積勾配算出モジュール62、カテゴリ用累積勾配算出モジュール62aおよびマルチプレクサ64を含む累積勾配算出モジュール72aが備えられる構成とすればよい。図31に示す例では、「特徴量1」に対応するモジュールとして、勾配ヒストグラム算出モジュール61_1および累積勾配算出モジュール72a_1が備えられ、「特徴量M」に対応するモジュールとして、勾配ヒストグラム算出モジュール61_Mおよび累積勾配算出モジュール72a_Mが備えられている。
以上のような構成によって、カテゴリ特徴量および非カテゴリ特徴量の双方に対応して、勾配情報の和(G、G、H、H)を算出することを可能とし、かつ、当該算出についてフィーチャパラレルを実現することができる。
(クラシフィケーションモジュールの構成および動作)
図32は、非カテゴリ特徴量に対応するクラシフィケーションモジュールのモジュール構成の概要を示す図である。まず、図32を参照しながら、非カテゴリ特徴量を有するサンプルデータ(学習データ、識別データ)について識別処理を行う場合のクラシフィケーションモジュール50の概念構成について説明する。
図32に示すように、クラシフィケーションモジュール50は、大小判定モジュール220を含む。
大小判定モジュール220は、上述の図15に示したクラシフィケーションモジュール50に含まれるノード0判別器51_1、ノード1判別器51_2、ノード2判別器51_3、・・・のそれぞれに対応するモジュールである。すなわち、大小判定モジュール220は、対応するノードのノードデータをモデルメモリ40から読み出し、ノードデータに含まれるしきい値を入力すると共に、識別処理の対象となるサンプルデータの特徴量を入力する。ここで、大小判定モジュール220が入力する特徴量は、サンプルデータに含まれる特徴量のうち、上述のノードデータに含まれる特徴量番号により特定される特徴量である。そして、大小判定モジュール220は、入力した特徴量の値が、入力したしきい値以上であるか、しきい値未満であるかの大小判定を行い、その判定結果を出力する。
すなわち、図32に示すクラシフィケーションモジュール50は、サンプルデータの特徴量が非カテゴリ特徴量であることを前提とした識別処理を行うものである。したがって、図32に示すクラシフィケーションモジュール50では、特定のカテゴリであるか否かを分岐条件として識別処理を行う必要があるカテゴリ特徴量に対して、識別処理を実行することができない。そこで、本実施形態に係る学習識別装置は、以下の図33に示すクラシフィケーションモジュール50cを備える。
図33は、第3の実施形態のクラシフィケーションモジュールのモジュール構成の概要を示す図である。図33を参照しながら、カテゴリ特徴量および非カテゴリ特徴量の双方を有するサンプルデータ(学習データ、識別データ)について識別処理を行うことを可能とするクラシフィケーションモジュール50cの概念構成について説明する。
図33に示すように、クラシフィケーションモジュール50cは、大小判定モジュール220(第1判定部)と、一致判定モジュール221(第2判定部)と、マルチプレクサ222(判定結果選択部)と、を有する。
大小判定モジュール220は、上述の図32で説明したのと同様の機能を有する。
一致判定モジュール221は、大小判定モジュール220と同様に、対応するノードのノードデータをモデルメモリ40から読み出し、ノードデータに含まれるしきい値を入力すると共に、識別処理の対象となるサンプルデータの特徴量をカテゴリ特徴量であるものとして入力する。ここで、一致判定モジュール221が入力する特徴量は、サンプルデータに含まれる特徴量のうち、上述のノードデータに含まれる特徴量番号により特定される特徴量である。そして、一致判定モジュール221は、入力した特徴量の値が、入力したしきい値(ここではカテゴリを示す値と捉える)と一致するか否かの一致判定を行い、その判定結果を出力する。
マルチプレクサ222は、上述の記憶手段に記憶されたカテゴリ情報のカテゴリフラグを順に入力すると共に、大小判定モジュール220および一致判定モジュール221の双方で判定された判定結果を入力する。そして、マルチプレクサ222は、入力したカテゴリフラグが「1」(すなわち、カテゴリ特徴量を示す)である場合、一致判定モジュール221から入力した一致判定の判定結果を出力する。一方、マルチプレクサ222は、入力したカテゴリフラグが「0」(すなわち、非カテゴリ特徴量を示す)である場合、大小判定モジュール220から入力した大小判定の判定結果を出力する。
以下、クラシフィケーションモジュール50cのサンプルデータ(特徴量)に対する識別処理の流れを簡潔に説明する。
まず、大小判定モジュール220は、データメモリ30から入力したサンプルデータの特徴量を読み出し、モデルメモリ40から対応するノードのノードデータを読み出し、読み出した特徴量が、ノードデータに含まれるしきい値以上であるか、しきい値未満であるかの大小判定を行い、その判定結果を出力する。それに並列して、一致判定モジュール221は、データメモリ30から入力したサンプルデータの特徴量を読み出し、モデルメモリ40から対応するノードのノードデータを読み出し、読み出した特徴量が、ノードデータに含まれるしきい値(ここではカテゴリを示す値と捉える)と一致するか否かの一致判定を行い、その判定結果を出力する。
そして、マルチプレクサ222は、入力したカテゴリフラグが「1」(すなわち、カテゴリ特徴量を示す)である場合、一致判定モジュール221から入力した一致判定の判定結果を出力する。一方、マルチプレクサ222は、入力したカテゴリフラグが「0」(すなわち、非カテゴリ特徴量を示す)である場合、大小判定モジュール220から入力した大小判定の判定結果を出力する。
以上の動作を、データメモリ30から入力したサンプルデータのすべてについて行う。このように、カテゴリ情報を参照して、識別処理の対象となっているサンプルデータに含まれる各特徴量がカテゴリ特徴量であるのか非カテゴリ特徴量であるのかによって、大小判定モジュール220による大小判定の判定結果、または、一致判定モジュール221による一致判定の判定結果のうちいずれを出力するのかを切り替えている。
以上のように、本実施形態に係るラーニングモジュールの累積勾配算出モジュール72aは、カテゴリ特徴量に対する勾配情報の和を算出することが可能なカテゴリ用累積勾配算出モジュール62aと共に、非カテゴリ特徴量に対応した上述の累積勾配算出モジュール62を有するものとしている。そして、カテゴリ情報を参照して、現在学習処理の対象となっているサンプルデータに含まれる各特徴量がカテゴリ特徴量であるのか非カテゴリ特徴量であるのかによって、カテゴリ用累積勾配算出モジュール62aまたは累積勾配算出モジュール62により算出された勾配情報の和のうちいずれを出力するのかを切り替えている。これによって、カテゴリ特徴量についてワンホットエンコーディングによる符号化を行うことなく、カテゴリ特徴量および非カテゴリ特徴量の双方に対応して、勾配情報の和を算出することができる。ゆえに、カテゴリ特徴量を含む学習データを用いて勾配ブースティングによる学習を行う場合に、回路規模の増大を抑制することができる。
また、本実施形態に係るクラシフィケーションモジュール50cは、カテゴリ情報を参照して、識別処理の対象となっているサンプルデータに含まれる各特徴量がカテゴリ特徴量であるのか非カテゴリ特徴量であるのかによって、大小判定モジュール220による大小判定の判定結果、または、一致判定モジュール221による一致判定の判定結果のうちいずれを出力するのかを切り替えている。したがって、カテゴリ特徴量および非カテゴリ特徴量の双方を有するサンプルデータ(学習データ、識別データ)について識別処理を行うことができる。
(変形例)
図34は、第3の実施形態の変形例のラーニングモジュールにおいてデータパラレルに対応した累積勾配算出モジュールのモジュール構成の一例を示す図である。図34を参照しながら、本変形例に係るラーニングモジュールにおいてデータパラレルに対応した累積勾配算出モジュールの構成について説明する。なお、図34では、特徴量が1次元であるものとし、勾配情報として2つ(例えば、一次勾配g、二次勾配h)を考えた場合について説明する。
図34に示すように、本変形例ではデータパラレルを実現するために、第2の実施形態で説明したように、勾配ヒストグラムを格納するための記憶手段として、図30等で示した勾配ヒストグラムメモリ204、208の代わりに、上述の図24で示したアキュムレータモジュール303g、303h(ヒストグラム記憶部の一例)に勾配ヒストグラムを格納させている。すなわち、図34では、勾配ヒストグラムは、ビンごとにレジスタ(アキュムレータ)に保持されているので、マルチプレクサを介してすべてのビンからしきい値カウンタのしきい値に対応した値のみを取り出している。また、図22等で説明したように、勾配ヒストグラムを特徴量のビンごとに対応したレジスタ(アキュムレータ)に格納する場合、データパラレルの分割数を2以上としても、勾配ヒストグラムに格納するために必要となる全容量は、ビン数×ビット幅×2(一次勾配g、二次勾配h)×特徴量次元となり、分割数に依存しない。したがって、図34に示すように、特徴量が1次元である場合、勾配ヒストグラムを格納するためには、アキュムレータモジュール303g、303hの一組が構成されていればよい。
図34に示すように、本変形例の累積勾配算出モジュール72bは、しきい値カウンタ340と、累積勾配算出モジュール62(非カテゴリ累積勾配算出部)と、カテゴリ用累積勾配算出モジュール62a(カテゴリ累積勾配算出部)と、マルチプレクサ347、348(ヒストグラム選択部)と、マルチプレクサ64(累積和選択部)と、を有する。また、図34では、上述の図24の場合と同様に、一次勾配gに対応するアキュムレータモジュール303および総和格納メモリ304を、それぞれアキュムレータモジュール303gおよび総和格納メモリ304g(総和記憶部の一例)としている。また、二次勾配hに対応するアキュムレータモジュール303および総和格納メモリ304を、それぞれアキュムレータモジュール303hおよび総和格納メモリ304h(総和記憶部の一例)としている。
しきい値カウンタ340は、アキュムレータモジュール303g、303hから、特徴量の値(ビン)ごとに加算された勾配情報(g、h)、すなわち、特徴量の各ビンの勾配ヒストグラムを読み出すためのしきい値(特徴量の値)を出力する。
マルチプレクサ347は、しきい値カウンタ340からのしきい値と、アキュムレータモジュール303gの各アキュムレータ(ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_N)の格納値(勾配ヒストグラム)を入力する。そして、マルチプレクサ347は、入力した各ビンの勾配ヒストグラムのうち、しきい値カウンタ340からのしきい値に対応するビンに対応する勾配ヒストグラムを、累積勾配算出モジュール62およびカテゴリ用累積勾配算出モジュール62aそれぞれへ出力する。
マルチプレクサ348は、しきい値カウンタ340からのしきい値と、アキュムレータモジュール303hの各アキュムレータ(ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_N)の格納値(勾配ヒストグラム)を入力する。そして、マルチプレクサ348は、入力した各ビンの勾配ヒストグラムのうち、しきい値カウンタ340からのしきい値に対応するビンに対応する勾配ヒストグラムを、累積勾配算出モジュール62およびカテゴリ用累積勾配算出モジュール62aそれぞれへ出力する。
累積勾配算出モジュール62は、総和格納メモリ304g、304hから勾配情報g、hの各総和を入力し、マルチプレクサ347、348から入力した勾配ヒストグラムが、非カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G、H、H)を算出するモジュールである。累積勾配算出モジュール62は、上述のように、図19で説明した累積勾配算出モジュール62と同様の構成および機能を有する。
カテゴリ用累積勾配算出モジュール62aは、総和格納メモリ304g、304hから勾配情報g、hの各総和を入力し、マルチプレクサ347、348から入力した勾配ヒストグラムが、カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G、H、H)を算出するモジュールである。カテゴリ用累積勾配算出モジュール62aは、上述のように、図27で説明したカテゴリ用累積勾配算出モジュール62aと同様の構成および機能を有する。
マルチプレクサ64は、上述の記憶手段に記憶されたカテゴリ情報のカテゴリフラグを順に入力すると共に、累積勾配算出モジュール62およびカテゴリ用累積勾配算出モジュール62aの双方で算出された勾配情報の和(G、G、H、H)を入力する。そして、マルチプレクサ64は、入力したカテゴリフラグが「1」(すなわち、カテゴリ特徴量を示す)である場合、カテゴリ用累積勾配算出モジュール62aから入力した勾配情報の和(G、G、H、H)を、後段の算出モジュール(例えば、算出モジュール73)(スコア算出部の一例)へ出力する。一方、マルチプレクサ64は、入力したカテゴリフラグが「0」(すなわち、非カテゴリ特徴量を示す)である場合、累積勾配算出モジュール62から入力した勾配情報の和(G、G、H、H)を、後段の算出モジュールへ出力する。
以下、累積勾配算出モジュール72bの勾配情報の和(G、G、H、H)の算出動作の流れを簡潔に説明するなお、累積勾配算出モジュール72bによる算出処理は、勾配ヒストグラム算出モジュール71における勾配情報の勾配ヒストグラムの算出・格納処理の動作終了後に開始される。すなわち、勾配ヒストグラム算出モジュール71による算出処理の終了後は、アキュムレータモジュール303g、303hには、それぞれ、現在のノードのすべての学習データから算出された勾配情報g、hについての勾配ヒストグラムが保持してある。
まず、マルチプレクサ347は、しきい値カウンタ340からのしきい値と、アキュムレータモジュール303gの各アキュムレータ(ビン1アキュムレータ331_1、ビン2アキュムレータ331_2、・・・、ビンNアキュムレータ331_N)の格納値(勾配ヒストグラム)を入力する。そして、マルチプレクサ347は、入力した各ビンの勾配ヒストグラムのうち、しきい値カウンタ340からのしきい値に対応するビンに対応する勾配ヒストグラムを、累積勾配算出モジュール62およびカテゴリ用累積勾配算出モジュール62aそれぞれへ出力する。
次に、累積勾配算出モジュール62は、総和格納メモリ304gから勾配情報gの各総和を入力し、マルチプレクサ347、348から入力した勾配ヒストグラムが、非カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G)を算出する。それに並列して、カテゴリ用累積勾配算出モジュール62aは、総和格納メモリ304gから勾配情報gの各総和を入力し、マルチプレクサ347、348から入力した勾配ヒストグラムが、カテゴリ特徴量に対応する勾配ヒストグラムであるものとして勾配情報の和(G、G)を算出する。
そして、マルチプレクサ64は、入力したカテゴリフラグが「1」(すなわち、カテゴリ特徴量を示す)である場合、カテゴリ用累積勾配算出モジュール62aから入力した勾配情報の和(G、G)を、後段の算出モジュール(例えば、算出モジュール73)へ出力する。一方、マルチプレクサ64は、入力したカテゴリフラグが「0」(すなわち、非カテゴリ特徴量を示す)である場合、累積勾配算出モジュール62から入力した勾配情報の和(G、G)を、後段の算出モジュールへ出力する。
なお、アキュムレータモジュール303hからの勾配ヒストグラム、および総和格納メモリ304hからの勾配情報hの総和を用いた勾配情報hの和H、Hの算出処理も、上述と同様である。以上の動作を、すべてのしきい値について繰り返すが、この場合、しきい値カウンタ340がしきい値を順にカウントアップさせながら一巡して出力することによって実現される。
以上のような構成によって、カテゴリ特徴量および非カテゴリ特徴量の双方に対応して、勾配情報の和(G、G、H、H)を算出することを可能とし、かつ、当該算出についてデータパラレルを実現することができる。
以下では、上述の実施形態に係る学習識別装置1における学習処理の速度の予測結果を説明する。
まずは、比較のためGBDTの代表的なライブラリである上述のXGBoost、およびLightGBMの学習速度の評価を行った。2017年12月時点では、LightGBMでGPUを用いた場合が高速であり、これについて実測した。
ハードウェア構成のクロックから処理時間を算出した。今回実装したハードウェアのロジックでは、ラーニングモジュール20による学習処理、クラシフィケーションモジュール50による識別処理(ノード単位)、およびクラシフィケーションモジュール50による識別処理(木単位)の3つが主な処理である。
<ラーニングモジュールの処理について>
ここでは、サンプルデータの各特徴量から勾配ヒストグラムの作成および分岐スコアの算出が支配的である。サンプルデータの各特徴量からの勾配ヒストグラムの作成では、1デプス(階層)ごとに全サンプルデータを読む必要がある。木のデプスが浅い段階で学習が終了するサンプルデータもあるので、この見積りは最大値である。分岐スコアの計算は勾配ヒストグラムの全ビンを参照するのでビンの数(特徴量の次元)のクロックを要する。以上より、ラーニングモジュール20の処理のクロック数Clearningは以下の式(23)で表される。
Figure 0007035827000034
ここで、nsample_trainは決定木の学習に使うサンプルデータ数であり、一般に全サンプルデータからサブサンプルされた集合である。また、maxdepthは決定木の最大深さであり、nfeatureはビンの数(特徴量の次元)であり、nnodeはノード数である。
<クラシフィケーションモジュールの処理(ノード単位)について>
ここでは、学習したノードの結果を使って、サンプルデータが左右どちらの下位のノードに割り当てられるかを処理している。深さごとに処理するサンプルデータの総数は変わらないので、クロック数CClassification_nodeは以下の式(24)で表される。実際は途中で学習が終了するノードがあるため、下記の見積は最大値である。
Figure 0007035827000035
<クラシフィケーションモジュールの処理(木単位)について>
ここでは、決定木1つの学習が終了した後、次の決定木の学習のため、サンプルデータごとに勾配情報の更新を行う。そのため、学習した決定木を用いて、全サンプルデータについて予測を行う必要がある。木単位の処理では、深さ分だけ遅延が発生する。この場合、クロック数CClassification_treeは以下の式(25)で表される。
Figure 0007035827000036
ここで、全サンプルデータとは、サブサンプル前の全学習サンプルデータと、全バリデーションサンプルデータの総数である。
以上より、決定木1つ分の学習処理にかかるクロック数Ctree(最大値)は以下の式(26)で表される。
Figure 0007035827000037
GBDTは多数の決定木から構成されるので、決定木の本数をntreeとすると、GBDTモデル全体のクロック数Cgbdtは以下の式(27)で表される。
Figure 0007035827000038
以上は、上述したフィーチャパラレル(Feature Parallel)の場合の試算であり、このモジュールを並列に多数配置し、データで分割した場合のいわゆるデータパラレル(Data Parallel)では、各モジュール毎に各ノードでのデータ数に偏りがない場合には、基本的にそのモジュール数倍の高速化が可能である。どの程度偏りが存在するかは、サンプルデータおよび各モジュールへのサンプルデータの分割の方法に依存するため、今後、本オーバーヘッドに関しては実データを用いて検討を行う。予測としては、本オーバーヘッドを考慮しても、効率で50%以上は出るものと推測される。
<使用データについて>
テスト用のサンプルデータとしては、約10万件からランダムに学習データと識別データ(評価用データ)とを選択したものである。以下にデータセットの概要を示す。
・クラス数 :2
・特徴量次元 :129
・学習データ数 :63415
・評価用データ数 :31707
また、速度の測定条件を以下の(表12)に示す。FPGAのクロック周波数は仮に100[MHz]での動作とした(実際にはそれ以上となる可能性が高い)。
Figure 0007035827000039
<ハードウェアロジックの試算>
上述した速度の計算式を用いた上述のアーキテクチャでの学習速度の試算を以下の(表13)に示す。ただし、本試算はすべてのサンプルデータが末端の枝まで行った場合の試算であり最悪値である。
Figure 0007035827000040
<CPU・GPUでの実測を含めた比較結果>
CPU・GPUでの実測結果を以下の(表14)に示す。なお、比較のため、ハードロジックの試算結果も含めて表示している。ここまでの試算はフィーチャパラレル(Feature Parallel)のみであるため、参考として、データパラレル(Data Parallel)も併用した場合の試算結果も追加した。
Figure 0007035827000041
本データに関しては、GPUを使用した場合にもCPUよりも速度が落ちていることがわかる。LightGBMの開発元のマイクロソフト社はGPU使用の場合には、3倍から10倍程度高速化するが、データに大きく依存するとしており、本データに関しては、GPUでの高速化がうまくいかなかったことがわかる。また、この結果はGBDTのアルゴリズムが、CNNほどGPUの高速化が容易ではないことを示している。CPUでの結果では、最も基本的なライブラリであるXGBoostと比較して、後発のLightGBMでは10倍程度高速となっている。なお、フィーチャパラレル(Feature Parallel)のみのハードロジックでも、PC(Personal Computer)での最も速いCPU(LightGBM)と比較して、2.3倍程度高速となっている。また、15並列のデータパラレル(Data Parallel)も使用した場合には、データパラレル(Data Parallel)の効率を75%とした場合でも、25倍以上、AWS f1.16xlargeインスタンスを考えた場合で240並列の場合の効率を50%とすると、275倍以上の速度となることが試算された。ただし、この試算はメモリ帯域が限界の場合の試算である。
なお、消費電力に関してはFPGAでは数[W]と予測され、CPUおよびGPUでの100[W]以上であることを考えると、速度に加えて消費電力が2桁異なるため、電力効率では3桁以上の差となる可能性がある。
1、1a 学習識別装置
10 CPU
11 制御部
20、20a、20b ラーニングモジュール
21、21_1、21_2 ゲイン算出モジュール
22 最適条件導出モジュール
30、30a、30b データメモリ
31 ポインタメモリ
32 フィーチャメモリ
33 ステートメモリ
40 モデルメモリ
41_1 デプス0用メモリ
41_2 デプス1用メモリ
41_3 デプス2用メモリ
50、50a、50b、50c クラシフィケーションモジュール
51_1 ノード0判別器
51_2 ノード1判別器
51_3 ノード2判別器
61、61_1、61_2 勾配ヒストグラム算出モジュール
61a、61b 勾配ヒストグラム算出モジュール
62、62_1、62_2 累積勾配算出モジュール
62a カテゴリ用累積勾配算出モジュール
63、63_1、63_2 算出モジュール
64 マルチプレクサ
71 勾配ヒストグラム算出モジュール
72、72_1、72_2 累積勾配算出モジュール
72a、72a_1 累積勾配算出モジュール
72b 累積勾配算出モジュール
73、73_1、73_2 算出モジュール
80 非カテゴリ特徴量演算手段
80a カテゴリ特徴量演算手段
201、201a、201b データカウンタ
202、202a、202b 加算器
203、203a、203b ディレイ
204、204a、204b 勾配ヒストグラムメモリ
205、205a、205b 総和格納メモリ
206 加算器
207 ディレイ
208 勾配ヒストグラムメモリ
209 総和格納メモリ
210 しきい値カウンタ
211 アキュムレータ
212 ディレイ
213 差分器
214 アキュムレータ
215 ディレイ
216 差分器
220 大小判定モジュール
221 一致判定モジュール
222 マルチプレクサ
301a、301a_1、301a_2 勾配出力モジュール
301b、301b_1、301b_2 勾配出力モジュール
302、302_1、302_2 加算モジュール
303、303_1、303_2 アキュムレータモジュール
303g、303h アキュムレータモジュール
304、304_1、304_2 総和格納メモリ
304g、304h 総和格納メモリ
311a、311b データカウンタ
312、312_1、312_2 比較器
313、313_1、313_2 マルチプレクサ
321_1、321_2 加算器
321_1_1、321_1_2 加算器
322、322_1、322_2 加算器
331_1 ビン1アキュムレータ
331_2 ビン2アキュムレータ
340 しきい値カウンタ
341 アキュムレータ
342 ディレイ
343 差分器
344 アキュムレータ
345 ディレイ
346 差分器
347、348 マルチプレクサ
Chen, Tianqi, and Carlos Guestrin. "Xgboost: A Scalable Tree Boosting System." Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016.

Claims (11)

  1. 勾配ブースティングによる学習を行う学習識別装置において、
    サンプルデータの特徴量の各値に対応する勾配情報を積算したヒストグラムを、前記特徴量の値ごとに記憶するヒストグラム記憶部と、
    前記ヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力し、前記特徴量に対応するしきい値に応じた前記特徴量の値に対応する前記ヒストグラムを、前記特徴量に対応する前記勾配情報の累積和として算出するカテゴリ累積勾配算出部と、
    前記ヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力し、前記特徴量に対応するしきい値を用いた前記カテゴリ累積勾配算出部による分類方法とは異なる該しきい値による分類方法で分類された前記特徴量の値に対応する前記ヒストグラムの和を、前記特徴量に対応する前記勾配情報の累積和として算出する非カテゴリ累積勾配算出部と、
    前記カテゴリ累積勾配算出部により算出された累積和、または、前記非カテゴリ累積勾配算出部により算出された累積和を出力する累積和選択部と、
    を備えた学習識別装置。
  2. 前記カテゴリ累積勾配算出部は、前記ヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力し、前記特徴量に対応するしきい値と一致する場合の前記特徴量の値に対応する前記ヒストグラムを、前記特徴量に対応する前記勾配情報の第1累積和として算出し、該しきい値と一致しない場合の前記特徴量の値に対応する前記ヒストグラムを、前記特徴量に対応する前記勾配情報の第2累積和として算出し、
    非カテゴリ累積勾配算出部は、前記ヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力し、前記特徴量に対応する前記しきい値により一方に分類された前記特徴量の値に対応する前記ヒストグラムの和を、前記特徴量に対応する前記勾配情報の第1累積和として算出し、該しきい値により他方に分類された前記特徴量の値に対応する前記ヒストグラムの和を、前記特徴量に対応する前記勾配情報の第2累積和として算出し、
    前記累積和選択部は、前記サンプルデータに含まれる前記特徴量の種類を示す特徴量識別情報と、該特徴量がカテゴリ特徴量であるか否かを示すカテゴリ識別情報とを関連付けたカテゴリ情報により示される、前記カテゴリ累積勾配算出部および前記非カテゴリ累積勾配算出部にそれぞれ入力された前記ヒストグラムに対応する前記カテゴリ識別情報が、カテゴリ特徴量であることを示す場合、前記カテゴリ累積勾配算出部により算出された前記第1累積和および前記第2累積和を出力し、非カテゴリ特徴量であることを示す場合、前記非カテゴリ累積勾配算出部により算出された前記第1累積和および前記第2累積和を出力する請求項1に記載の学習識別装置。
  3. 前記各サンプルデータに対応する勾配情報の総和を記憶する総和記憶部を、さらに備え、
    前記カテゴリ累積勾配算出部は、
    前記ヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力して、該ヒストグラムを前記第1累積和として出力する第1出力部と、
    前記総和記憶部から入力した総和と、前記第1出力部から出力された前記第1累積和との差分を前記第2累積和として出力する第2出力部と、
    を有し、
    前記非カテゴリ累積勾配算出部は、
    前記ヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力し、前記特徴量に対応する前記しきい値により一方に分類された前記特徴量の値に対応する前記ヒストグラムを累積して記憶する累積記憶部と、
    前記累積記憶部に記憶された累積された前記ヒストグラムを、前記第1累積和として出力する第3出力部と、
    前記総和記憶部から入力した前記総和と、前記第3出力部から出力された前記第1累積和との差分を前記第2累積和として出力する第4出力部と、
    を有する請求項2に記載の学習識別装置。
  4. 前記ヒストグラム記憶部は、前記サンプルデータの特徴量の各値に対応する勾配情報を、前記各値をビンとした場合における該ビンごとに積算したヒストグラムを記憶し、
    前記ヒストグラム記憶部に記憶された前記ビンごとの前記ヒストグラムのうち、前記しきい値に対応する前記ヒストグラムを選択して、前記カテゴリ累積勾配算出部および前記非カテゴリ累積勾配算出部それぞれに入力させるヒストグラム選択部を、さらに備えた請求項1~3のいずれか一項に記載の学習識別装置。
  5. 前記勾配情報は、前記勾配ブースティングにおける一次勾配および二次勾配であり、
    前記ヒストグラム記憶部は、前記一次勾配および前記二次勾配それぞれに対応して備えられ、
    前記カテゴリ累積勾配算出部および前記非カテゴリ累積勾配算出部は、前記一次勾配および前記二次勾配それぞれに対応した前記累積和を算出する請求項1~4のいずれか一項に記載の学習識別装置。
  6. 前記勾配ブースティングにより複数のノードで構成される決定木を学習する請求項1~5のいずれか一項に記載の学習識別装置。
  7. 複数のノードで構成される決定木を学習し、学習した前記決定木の学習結果に基づいて、前記勾配ブースティングにより次の決定木を学習する請求項1~5のいずれか一項に記載の学習識別装置。
  8. 複数のノードのデータで構成された1以上の前記決定木のモデルデータを記憶するモデルメモリと、
    サンプルデータの特徴量の値と、前記モデルメモリに記憶された前記ノードのデータに含まれる前記しきい値との大小判定を行う第1判定部と、
    サンプルデータの特徴量の値と、前記モデルメモリに記憶された前記ノードのデータに含まれる前記しきい値との一致判定を行う第2判定部と、
    前記サンプルデータに含まれる前記特徴量の種類を示す特徴量識別情報と、該特徴量がカテゴリ特徴量であるか否かを示すカテゴリ識別情報とを関連付けたカテゴリ情報によって、前記第1判定部および前記第2判定部がそれぞれ判定する前記特徴量が非カテゴリ特徴量であることが示される場合、前記第1判定部による判定結果を出力し、該特徴量がカテゴリ特徴量であることが示される場合、前記第2判定部による判定結果を出力する判定結果選択部と、
    を、さらに備えた請求項6または7に記載の学習識別装置。
  9. 前記サンプルデータの特徴量が2次元以上である場合、前記特徴量の種類ごとに、前記ヒストグラム記憶部、前記カテゴリ累積勾配算出部、前記非カテゴリ累積勾配算出部、および、前記累積和選択部を備えた請求項1~8のいずれか一項に記載の学習識別装置。
  10. 前記累積和選択部により出力された前記累積和に基づいて、該累積和に対応する前記しきい値についての分岐スコアを算出するスコア算出部を、さらに備えた請求項1~9のいずれか一項に記載の学習識別装置。
  11. 勾配ブースティングによる学習を行う学習識別装置の学習識別方法であって、
    サンプルデータの特徴量の各値に対応する勾配情報を積算したヒストグラムを、前記特徴量の値ごとに記憶するヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力し、前記特徴量に対応するしきい値に応じた前記特徴量の値に対応する前記ヒストグラムを、前記特徴量に対応する前記勾配情報の累積和として算出するカテゴリ累積勾配算出ステップと、
    前記ヒストグラム記憶部に記憶された前記ヒストグラムのうち、前記特徴量の値ごとに、対応する前記ヒストグラムを入力し、前記特徴量に対応するしきい値を用いた前記カテゴリ累積勾配算出ステップでの分類方法とは異なる該しきい値による分類方法で分類された前記特徴量の値に対応する前記ヒストグラムの和を、前記特徴量に対応する前記勾配情報の累積和として算出する非カテゴリ累積勾配算出ステップと、
    前記カテゴリ累積勾配算出ステップで算出した累積和、または、前記非カテゴリ累積勾配算出ステップで算出した累積和を出力する累積和選択ステップと、
    を有する学習識別方法。
JP2018110712A 2018-06-08 2018-06-08 学習識別装置および学習識別方法 Active JP7035827B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018110712A JP7035827B2 (ja) 2018-06-08 2018-06-08 学習識別装置および学習識別方法
US16/424,637 US11436538B2 (en) 2018-06-08 2019-05-29 Learning by gradient boosting using a classification method with the threshold for the feature amount

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018110712A JP7035827B2 (ja) 2018-06-08 2018-06-08 学習識別装置および学習識別方法

Publications (2)

Publication Number Publication Date
JP2019212243A JP2019212243A (ja) 2019-12-12
JP7035827B2 true JP7035827B2 (ja) 2022-03-15

Family

ID=68765053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018110712A Active JP7035827B2 (ja) 2018-06-08 2018-06-08 学習識別装置および学習識別方法

Country Status (2)

Country Link
US (1) US11436538B2 (ja)
JP (1) JP7035827B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615208B2 (en) * 2018-07-06 2023-03-28 Capital One Services, Llc Systems and methods for synthetic data generation
JP7176359B2 (ja) * 2018-11-05 2022-11-22 株式会社リコー 学習装置および学習方法
JP7363145B2 (ja) 2019-07-12 2023-10-18 株式会社リコー 学習装置および学習方法
US10867245B1 (en) * 2019-10-17 2020-12-15 Capital One Services, Llc System and method for facilitating prediction model training
CN111368901A (zh) * 2020-02-28 2020-07-03 深圳前海微众银行股份有限公司 基于联邦学习的多方联合建模方法、设备和介质
CN111858827B (zh) * 2020-07-31 2023-11-14 成都新潮传媒集团有限公司 一种地图点位抽稀展示方法、装置及计算机设备
CN113239945B (zh) * 2021-07-12 2021-09-17 中国人民解放军国防科技大学 利用轨迹约束的红外弱小目标检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014532928A (ja) 2011-10-31 2014-12-08 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索結果をランク付けする方法および装置ならびに検索方法および装置
US9269054B1 (en) 2011-11-09 2016-02-23 BigML, Inc. Methods for building regression trees in a distributed computing environment
US20160162793A1 (en) 2014-12-05 2016-06-09 Alibaba Group Holding Limited Method and apparatus for decision tree based search result ranking

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8503770B2 (en) * 2009-04-30 2013-08-06 Sony Corporation Information processing apparatus and method, and program
US10380456B2 (en) * 2014-03-28 2019-08-13 Nec Corporation Classification dictionary learning system, classification dictionary learning method and recording medium
JP2015225410A (ja) * 2014-05-26 2015-12-14 株式会社東芝 認識装置、方法及びプログラム
CN110728317A (zh) * 2019-09-30 2020-01-24 腾讯科技(深圳)有限公司 决策树模型的训练方法、系统、存储介质及预测方法
US11436434B2 (en) * 2019-12-24 2022-09-06 Microsoft Technology Licensing, Llc Machine learning techniques to identify predictive features and predictive values for each feature

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014532928A (ja) 2011-10-31 2014-12-08 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索結果をランク付けする方法および装置ならびに検索方法および装置
US9269054B1 (en) 2011-11-09 2016-02-23 BigML, Inc. Methods for building regression trees in a distributed computing environment
US20160162793A1 (en) 2014-12-05 2016-06-09 Alibaba Group Holding Limited Method and apparatus for decision tree based search result ranking

Also Published As

Publication number Publication date
US11436538B2 (en) 2022-09-06
US20190378046A1 (en) 2019-12-12
JP2019212243A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
JP7035827B2 (ja) 学習識別装置および学習識別方法
JP7087695B2 (ja) 学習装置および学習方法
JP7087825B2 (ja) 学習装置および学習方法
JP7095479B2 (ja) 学習装置および学習方法
JP7196542B2 (ja) 学習装置および学習方法
JP7069897B2 (ja) 学習識別装置および学習識別方法
JP7069898B2 (ja) 学習識別装置および学習識別方法
US11475314B2 (en) Learning device and learning method
JP7099163B2 (ja) 学習装置および学習方法
JP7211020B2 (ja) 学習装置および学習方法
JP7363145B2 (ja) 学習装置および学習方法
JP7040168B2 (ja) 学習識別装置および学習識別方法
JP7167544B2 (ja) 学習装置および学習方法
JP7243084B2 (ja) 学習方法、プログラムおよび学習装置
JP7176359B2 (ja) 学習装置および学習方法
JP7200765B2 (ja) 学習装置および学習方法
JP7200766B2 (ja) 学習装置および学習方法
RU2771750C1 (ru) Обучающее устройство и способ обучения

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210208

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220128

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R151 Written notification of patent or utility model registration

Ref document number: 7035827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151