JP2018147182A - 演算処理装置およびその制御方法 - Google Patents

演算処理装置およびその制御方法 Download PDF

Info

Publication number
JP2018147182A
JP2018147182A JP2017040919A JP2017040919A JP2018147182A JP 2018147182 A JP2018147182 A JP 2018147182A JP 2017040919 A JP2017040919 A JP 2017040919A JP 2017040919 A JP2017040919 A JP 2017040919A JP 2018147182 A JP2018147182 A JP 2018147182A
Authority
JP
Japan
Prior art keywords
buffer
processing
calculation
arithmetic processing
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017040919A
Other languages
English (en)
Other versions
JP6936592B2 (ja
Inventor
悠介 谷内出
Yusuke Yachide
悠介 谷内出
加藤 政美
Masami Kato
政美 加藤
伊藤 嘉則
Yoshinori Ito
嘉則 伊藤
山本 貴久
Takahisa Yamamoto
貴久 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017040919A priority Critical patent/JP6936592B2/ja
Priority to US15/908,945 priority patent/US11699067B2/en
Publication of JP2018147182A publication Critical patent/JP2018147182A/ja
Application granted granted Critical
Publication of JP6936592B2 publication Critical patent/JP6936592B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Information Transfer Systems (AREA)

Abstract

【課題】複数の処理ノードを用いる演算処理をより少ないメモリサイズで実行可能とする。【解決手段】複数の処理ノードを用いて構成される階層型ネットワークを利用して演算処理を実行する演算処理装置は、複数の処理ノードの各々が演算処理に利用するパラメータと複数の処理ノードの各々における演算処理の演算結果とを記憶する記憶手段と、階層型ネットワークの構成に基づいて、当該階層型ネットワークにおける少なくとも1つの階層において演算結果データ及びパラメータのバッファ方式を切換えるバッファ制御手段と、を有する。【選択図】図1

Description

本発明は、複数の処理ノードを用いる階層型ネットワークを利用した演算処理に必要なメモリサイズを低減する技術に関するものである。
ディープネット(或いはディープニューラルネット、ディープラーニングとも称される)と呼ばれる多階層のニューラルネットワークが、近年非常に大きな注目を集めている。ディープネットは、特定の演算手法を指すものではないが、一般的には、入力データ(例えば画像)に対して、階層的な処理(ある階層の処理結果を、その後段の階層の処理の入力とする)を行うものを指す。特に画像識別の分野では、畳込みフィルタ演算を行う畳込み層と、統合演算を行う統合層とから構成されるディープネットが主流になりつつある。
近年のディープネットと呼ばれる大規模な結合ネットワークでは、1つの特徴面を生成するための結合数が増えており、それによって参照する特徴面が増える。そのため、演算に必要な特徴面を保持するメモリサイズおよび、それに必要なフィルタカーネル用のバッファメモリサイズが増大することになる。このため、特に、ハードウェアにより実現する場合、LSIの内部にサイズの大きいRAM(Random-access Memory)を用意する必要があり、回路規模が増大する。ソフトウェアにより実現する場合であっても、組み込み機器に実装する場合、システムに必要なメモリ量が増大する事で同様にコストが上昇する。すなわち、演算に使用可能なメモリ量は、システムにかけることのできるコストによって定まる有限な値となる。
そこで、特徴面を保持するメモリの増大を避ける手法として、特許文献1および2で入力するデータを部分領域単位で順次投入する方法が利用されている。具体的には、特許文献1および2では効率的に畳込みフィルタ演算のために各領域を包含する複数ライン分のメモリサイズを用いることで畳込みフィルタ演算を順々に階層をまたがって行っている。
また、特許文献3では、上述した複数の特徴面に対するバッファ制御方式をネットワークの構成に合わせて、予め選択し、選択した方式に従ってネットワーク全体を処理する方法が提案されている。この方式では複数のバッファ制御方式から必要となるメモリサイズが小さい方式を選択することでメモリサイズが削減できる。
特許第5184824号 特許第5171118号 特許第5368687号
しかしながら、近年のディープネットのネットワーク構造は階層間の結合の粗密化や階層構造が多様化している。階層が深いディープネットにおいては、たとえ部分的な領域であっても、多層にまたがって特徴面データを保持しなければならず、結果的にメモリサイズが増大する。この場合、特徴面保持・フィルタカーネル係数保持の両観点からとらえると、上述の従来の技術は本質的な必要メモリサイズ削減にはならない場合がある。
本発明はこのような問題を鑑みてなされたものであり、複数の処理ノードを用いる階層型ネットワークを利用した演算処理を、より少ないメモリサイズで実行可能とする技術を提供することを目的とする。
上述の問題点を解決するため、本発明に係る演算処理装置は以下の構成を備える。すなわち、複数の処理ノードを用いて構成される階層型ネットワークを利用して演算処理を実行する演算処理装置は、前記複数の処理ノードの各々が演算処理に利用するパラメータと、前記複数の処理ノードの各々における演算処理の演算結果と、を記憶する記憶手段と、前記階層型ネットワークの構成に基づいて、該階層型ネットワークにおける少なくとも1つの階層において、前記記憶手段における前記演算結果データ及び前記パラメータのバッファ方式を切換えるバッファ制御手段と、を有する。
本発明によれば、複数の処理ノードを用いる階層型ネットワークを利用した演算処理を、より少ないメモリサイズで実行可能とする技術を提供することができる。
CNN処理部の詳細構成を示す図である。 シーケンサー部の詳細構成を示す図である。 リングバッファ制御およびフレームバッファ制御それぞれにおけるデータ転送のタイムチャートを示す図である。 CNNのネットワーク構成を例示的に示す図である。 ライン単位での演算処理を説明する図である。 第1実施形態に係るパターン検出装置の構成を示す図である。 リングバッファ方式およびフレームバッファ方式それぞれにおける必要メモリ量を説明する図である。 パターン検出装置における制御を示すフローチャートである。 CNN処理の詳細動作を示すフローチャートである。 シーケンス制御情報の例を示す図である。 リングバッファ制御およびフレームバッファ制御それぞれにおけるメモリ割り当ての例を示す図である。 演算部の構成の一例を示す図である。 リングバッファおよびフレームバッファの動作を説明する図である。 CNNにおける複数の処理ノードの論理接続構成を説明する図である。 バッファ制御方式の切換え位置を決定するフローチャートである。 バッファ制御方式を切換える場合のシーケンス制御情報の例を示す図である。 ラインバッファ処理時に必要なメモリサイズの見積もり例を示す図である。
以下に、図面を参照して、この発明の好適な実施の形態を詳しく説明する。なお、以下の実施の形態はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。
(第1実施形態)
本発明に係る演算処理装置の第1実施形態として、CNN処理により画像中の特定の物体を検出するパターン検出装置を例に挙げて以下に説明する。ここで、CNNは、Convolutional Neural Networksの略である。
<前提技術>
CNNはそのディープネットの実現方法として代表的な手法であり、以下CNNに基づく手法について説明する。
図4は、CNNのネットワーク構成を例示的に示す図である。具体的には、処理対象の入力画像401に対してフィルタカーネル402を使用した畳込みフィルタ演算処理の例を示している。このような場合、以下の数式(1)に示す積和演算処理により、畳込みフィルタ演算結果が算出される。
Figure 2018147182
ここで、「di,j」は座標(i,j)での処理対象画像画素値を示し、「fi,j」は座標(i,j)でのフィルタ演算結果を示す。また、「ws,t」は座標(i+s,j+t)の処理対象画像画素値に適用するフィルタカーネルの値(重み係数)を示し、「columnSize」及び「rowSize」はフィルタカーネルサイズを示す。フィルタカーネル402を処理対象画像中でスキャンさせつつ、上述の演算を行うことで、畳込みフィルタ演算の出力結果を得ることができる。以下フィルタカーネルに対し中身のパラメータ値を重み係数として表現する。
この畳込みフィルタ演算及びシグモイド変換に代表される非線形変換処理から、特徴量が生成される。入力画像に対してこの特徴量を生成する演算を階層的に繰り返し行うことで、画像の特徴を表現する特徴面が得られる。つまり、入力画像全体に対して畳込みフィルタ演算を繰り返して生成された二次元特徴量が特徴面になる。
画像からの特徴量抽出処理に畳込みフィルタ演算を用い、抽出した特徴量を用いた識別処理にパーセプトロンに代表される行列積演算を用いる構成になっているものを、典型的なディープネットとしている。この特徴量抽出処理は畳込みフィルタ演算を何度も繰り返す多階層処理であることが多く、また識別処理も全結合の多階層のパーセプトロンが用いられることがある。この構成は、近年盛んに研究されているディープネットとしては一般的な構成である。
ディープネットの演算例を図4を参照して説明する。ここでは、入力画像(入力層)401に対して、畳込みフィルタ演算により特徴量抽出を行い、特徴面426の特徴量を得、その特徴量に対して、識別処理を行い、識別結果428を得るような処理を示している。入力画像401から特徴面426を得るまでに畳込みフィルタ演算を何度も繰り返している。また、特徴面426に対して全結合のパーセプトロン処理を複数回行い、最終的な識別結果428を得ている。ここで、階層429〜434はそれぞれ、処理の階層(ステージ)を示している。
まず、前半の畳込みフィルタ演算を説明する。図4において、入力画像401は、画像データに対してラスタスキャンされた所定サイズの画像データを示す。特徴面404〜406は第1段目の階層429の特徴面を示す。前述のとおり、特徴面とは、所定の特徴抽出フィルタ(畳込みフィルタ演算及び非線形処理)の処理結果を示すデータ面である。ラスタスキャンされた画像データに対する処理結果であるため、処理結果も面で表される。特徴面404〜406は、入力画像401に対する畳込みフィルタ演算及び非線形処理により生成される。例えば、特徴面404〜406の情報は、それぞれ入力画像401の402の領域に対して結合を表す矢印403a〜403cに対応するフィルタカーネルとの畳込み演算結果の非線形変換を入力画像前面に対して行うことで得られる。上述の各特徴面生成のための畳込みフィルタ演算に必要な結合関係にある構造を、階層的な結合関係と呼ぶ。
次に、第2段目の階層430の特徴面413、415を生成する演算について説明する。特徴面413は前段の階層429の3つの特徴面404〜406と結合している。従って、特徴面413のデータを算出する場合、特徴面404に対しては領域407に対して矢印410aの結合に対応するフィルタカーネルを用いた畳込みフィルタ演算を行い、この結果を保持する。同様に、特徴面405及び406に対しては、各々フィルタカーネル411a及び412aの畳込みフィルタ演算を行い、これらの結果を保持する。これらの3種類のフィルタ演算の終了後、結果を加算し、非線形変換処理を行う。以上の処理を画像全体に対して処理することにより、特徴面413を生成する。
同様に、特徴面415の生成の際には、前段の階層429の特徴面404〜405と矢印410bの結合に対応するフィルタカーネル、矢印411b及び412bの結合による3つの畳込みフィルタ演算を行う。また、第3段目の階層431の特徴面419の生成の際には、前段の階層430の特徴面413、415に対するフィルタカーネル417a、418aによる2つの畳込みフィルタ演算を行う。同様に特徴面421では特徴面413、415に対するフィルタカーネル417b、418b、特徴面423では特徴面413、415に対するフィルタカーネル417c、418cによる畳込みフィルタ演算を行う。
上記の処理を繰り返し最終的に階層432では特徴面426を生成するために、前段の階層431の特徴面419、421、423に対してフィルタカーネル425a、425b、425cとの畳込みフィルタ演算を行う。
図4では2階層のパーセプトロンになっている。パーセプトロンは、入力特徴量のそれぞれ要素に対する重み付き和を非線形変換したものである。従って、特徴面426に対して、行列積演算を行い、その結果に非線形変換を行えば、識別結果427を得ることができる。さらに同様の処理を繰り返せば、最終的な識別結果428を得ることができる。
上述の通り、一般的な多階層のニューラルネットワークを利用した処理装置において、演算処理に必要なメモリサイズは、数式(1)で定義される計算に必要な結合関係にある特徴面の特徴量およびフィルタカーネルの重み係数の値の総計になる。図4に示すCNN演算の構成例の場合、階層入出力画像バッファを除くと画像サイズ×3個(特徴面404〜406)の特徴面バッファメモリとそれに必要なフィルタカーネルバッファサイズのメモリが必要になる。
また、階層431の特徴面419、421、423の領域420、422、424に対して畳込みフィルタ演算を行うために、当該3つの領域に相当するメモリが必要になる。また、それらを算出するためには、前段(階層430)の特徴面413、415の領域414、416相当のメモリサイズが必要である。同様に、領域414、416の畳込みフィルタ演算を行うためには、階層429の特徴面404〜406の領域407〜409に相当するメモリが必要になる。また、領域407〜409を生成するために、入力画像401の領域402に相当するメモリが必要になる。
<概要>
第1実施形態では、ネットワーク構造の階層的な結合関係の構成に応じて、階層毎にメモリ保持方式(データバッファリング方式)を切り替える。特に、特徴面に加えフィルタカーネルの重み係数も考慮してバッファ制御方式を階層毎に切り替えることで必要なメモリサイズを低減する形態について説明する。
<装置構成>
図6は、第1実施形態に係るパターン検出装置の構成を示す図である。パターン検出装置は、階層的演算処理回路を具備し、画像データ中の特定の物体(画像パターン)を検出する機能を有する画像処理装置である。
画像入力部61は、光学系、CCD(Charge-Coupled Devices)又はCMOS(Complementary Metal Oxide Semiconductor)センサ等の光電変換デバイスを有する。また、画像入力部61は、光電変換間デバイスを制御するドライバ回路/ADコンバータ/各種画像補正を司る信号処理回路/フレームバッファ等を具備する。前処理部62は、検出処理を効果的に行うための各種前処理を行う。具体的には、前処理部62は、色変換処理/コントラスト補正処理等の画像データ変換をハードウェアで処理する。CNN処理部63は、本実施形態による階層的演算処理回路を含み、特徴検出処理部として機能する。なお、CNN処理部63の詳細については図1を参照して後述する。
DMAC(Direct Memory Access Controller)66は、画像バス64上の各処理部間のデータ転送、及び、画像バス64上のデバイスとCPUバス67上のRAM70間のデータ転送を司る。ブリッジ65は、画像バス64とCPUバス67のブリッジ機能を提供する。CPU68は、本装置全体の動作を制御するものである。ROM(Read-only Memory)69は、CPU68の動作を規定する命令や各種演算に必要なパラメータデータを格納する。例えば、CNN処理部63の動作に必要なフィルタカーネルの重み係数、ネットワーク結合情報、シーケンス制御情報もROM69に格納されている。RAM(Random Access Memory)70はCPU68の動作に必要なメモリである。RAM70はDRAM(Dynamic RAM)等の比較的容量の大きいメモリで構成される。CPU68はブリッジ65を介して画像バス64上の各種処理部にアクセスする事が可能である。画像バス64とCPUバス67を分離する事により、ハードウェアによる画像入力部61、前処理部62、CNN処理部63の各処理部の動作とCPU68の動作を同時に並列実行させることができる。
パターン検出装置は、CNNのような階層的な演算を行う。図14は、CNNにおける複数の処理ノードの論理接続構成を説明する図である。図14において処理ノードとは、畳込み演算の対象画像と畳込みカーネルから畳込み演算結果を得る処理を行うブロックを指す。なお、図14では便宜上「第0処理ノード」を設けているが、通常第0処理ノードでは特になにも処理は行われず、入力画像が第1〜第3処理ノードへ入力される。例えば、第4処理ノードでは、第1〜3処理ノードの出力に対し、それぞれ係数の異なる畳込みカーネルを適用して畳込み演算を行う。そして、それぞれの畳込み演算の結果を加算し、その加算結果に非線形変換を行って第4処理ノードの演算結果を得ている。
CNN処理部63に、図14に示されるCNN構成を適用する場合、演算処理部を処理ノード間で時分割に使用することで、各処理ノードで規定された演算を実行する。例えば、まず第1処理ノードで規定された演算を行い、その後第2処理ノードで規定された演算を行う、というようにCNNの演算が実行されていく。つまり、CNNを構成する処理ノードは複数存在し、論理的なネットワークを構成するが、1つの(同一の)物理的な処理ノードであり得る。
図1は、CNN処理部63の詳細構成を示す図である。演算部101は、シーケンサー部104からの制御信号に応じて、所定のデータ群に対して畳込み演算と非線形処理を実行する。
図12は、演算部101の構成の一例を示す図である。乗算器1201は、入力されるフィルタカーネルの重み係数と同期して入力される入力データとを乗じる。累積加算器1202は、乗算器1201の出力を所定の期間累積加算する。非線形変換処理部1203は、ロジスティック関数やTanh関数を用いて累積加算結果を非線形変換する。非線形変換は、例えば、各入力値に対して所定の関数値を列挙する関数テーブルで実現される。
記憶部である内部メモリ(以下、単にメモリという)102は、入力画像/中間層の特徴抽出結果/最終検出結果、フィルタカーネルの重み係数等を格納する。本実施形態では、畳込み演算を高速に実行するため、メモリ102として、高速にランダムアクセスが可能なSRAM(Static RAM)を使用している。
メモリアクセス制御部103は、シーケンサー部104からの信号に応じて、メモリ102に対するアクセス、アドレスの生成、リード/ライト信号制御及びデータバスの方向制御等を司る。メモリアクセス制御部は、外部からの命令に応じてシーケンサー部及びメモリアクセス制御部を通して内部メモリに、データを書き込むことが可能である。これは、例えば入力画像や畳込み演算で使用するフィルタカーネルの重み係数を内部メモリに保持させる場合に使用する。また、シーケンサー部104からは外部メモリ内に保持されている辞書データや入力画像をCNN処理する際にメモリ102に保持するためのデータ入力線がメモリアクセス制御部に接続されており、CNN処理に必要なデータを供給している。
図2は、シーケンサー部104の詳細構成を示す図である。シーケンサー部104は、特徴面制御シーケンスを生成する部分、フィルタカーネルの重み係数のシーケンスを制御する部分、演算部への制御信号を生成する部分に分けられる。
まず初めに特徴面を制御するシーケンス信号を生成する部分について説明する。シーケンサー部104は複数のリングカウンタ制御部201−1〜201−nを備えており、それぞれ各処理ノードがメモリ102をフレームバッファおよびリングバッファとして利用するために用いられる。以下、リングカウンタ制御部201−1〜201−nの任意の1つを指す場合は、リングカウンタ制御部201と記載する。リングカウンタ制御部201は、CNN演算の論理的な各処理ノード毎に1つずつ用意される。各リングカウンタ制御部201は、バッファ制御部202からの指示に従い各シーケンスでのバッファ制御方式選択に基づいて、リングバッファもしくはフレームバッファ方式で制御するための信号をリングカウンタ制御部201へ出力する。ここでは、説明を簡単にするために、リングバッファ方式及びフレームバッファ方式の2つを利用可能な形態に関して説明するが、この2つに限定されるものでは無い。
リングカウンタ制御部201は、リングバッファのサイズを指定するリングサイズ設定部203、リングバッファの動作状況を保持するリングカウンタ204及びメモリ102上の物理アドレスを決定するためのオフセットアドレス設定部205を具備する。リングカウンタ制御部201の出力はセレクタ206、207で選択されて、メモリアクセス制御部103へ提供される。この構成により、メモリ102には、ネットワークを構成する複数の処理ノードの各々に対応して、演算結果データを保持するための中間バッファ用の記憶領域が割り当てられることになる。
次に重み係数について説明する。CNN演算で必要となるフィルタカーネルの重み係数のメモリ制御(パラメータ制御)に関しては重み係数制御部(パラメータ制御部)208が司り、バッファ制御方式に応じた重み係数が格納されているアドレスを生成する。重み係数制御部は制御方式に応じて制御動作が異なる。各バッファ制御方式に伴う、特徴面データおよび重み係数制御の動作の詳細については後述する。
最後に演算制御部209について説明する。上述の特徴面、および重み係数の制御信号に従って、メモリ102からデータが供給され、シーケンスに従って入力データに対する適切な処理を行うための制御を演算部101に対して行う必要がある。演算制御部209は、その制御信号を生成・出力している。
シーケンス制御情報設定部105は、後述するシーケンス制御情報を予めテーブルデータとして保持している。テーブルデータはレジスタやRAMで構成される。シーケンサー部104はテーブルデータに従ってメモリアクセス制御部103や演算部101の動作を順次制御することにより、後述する所定の単位演算をベースとした階層型ネットワークの演算処理を実現する。
CPUバス64、67は、CPU68がCNN処理部63内の各種レジスタやメモリにアクセスするためのバスインターフェースである。例えば、以下に示すデータを、当該インターフェースを介してCPU68から書き込むことができる。書き込み先は上述の通り、メモリ102である。
・シーケンス制御情報設定部105のシーケンス制御情報、
・メモリ102で保持されている演算部101で必要とする重み係数、
・入力画像
図5は、ライン単位での演算処理を説明する図である。先に述べたとおり、リングバッファ制御およびフレームバッファ制御に係らず、第1実施形態での所定の単位演算とは、演算部101を用いて行われるライン単位の畳込み演算である。ただし、図5では、説明を簡単にするため、1つの処理ノードの演算出力画像(または、ネットワークへの入力画像)を演算対象画像として畳込み演算を行う場合が示されており、非線形変換も省略されている。
図5(a)において、演算対象画像(参照画像)501において、模式的に示す最小の1マスが、ラスタスキャン順で示された入力画像又は前階層の処理ノードでの演算結果の画像である演算対象画像の画素を示す。当該画素をinput(x,y)で示し、xは水平方向位置、yは垂直方向位置である。
502は演算結果の画像を表し、模式的に示す最小の1マスが、ラスタスキャン順の演算結果の画素を示すものとする。当該画素をoutput(x,y)で示し、xは水平方向位置、yは垂直方向位置である。
演算対象画像501内の太線で囲まれた領域503は、output(6,7)位置の畳込み演算を処理する場合の参照画像の領域を示す。領域503では、畳込みカーネルのサイズが水平方向「11」、垂直方向「13」の場合が示されている。
演算結果の画像502の太線で囲まれた領域504は、演算対象画像501に対して単位演算(水平方向1行分の演算)を行った場合の結果領域を示す。ここで、領域504内の格子状の網掛け領域506は、畳込みカーネルのサイズに依存して発生する周辺領域(演算が行われない領域)の画素である。つまり、output(5,7)の位置の演算を行うべき参照画像領域は、領域503を左に1画素分ずらしたものとなる。しかしながら、そのような領域は演算対象画像501(参照領域)からはみ出してしまうため、一部の参照画素が存在しないことになる。なお、階層的処理においてこの周辺領域(無効領域)をどう扱うかは、本発明において本質的でないので説明は省略する。ここでは、デフォルト値を埋め込むとするが、削除するかあるいは所定の演算結果を埋め込んでもよい。なお、領域504より上のラインについても同様に無効領域となる。
図5から明らかなように、1ラインの単位演算を行うには、演算対象画像501の必要領域として、少なくとも領域505が必要となる。領域505は、図5において網掛け領域として示されており、水平方向サイズは演算対象画像501と同じサイズ、垂直方向サイズは畳込みカーネルの垂直方向サイズが必要となる。説明の都合上、この領域を単位演算対象画像領域505と呼ぶ。領域504で示されるような単位演算を、単位演算対象画像領域505をずらしながら行うことで、演算対象画像501の全領域にわたって畳込み演算を行うことができる。例えば、図5(b)には、1画素下にずらした単位演算対象画像領域に対して単位演算を行った場合を示している。この時、ある単位演算を実行できるか否かは、その単位演算の単位演算対象画像領域505’の画素データが、前階層の処理ノードによって演算され、その結果が出力されているか否かに依存する。もちろん、複数の参照画像を入力として演算に用いる処理ノードの場合は、全ての参照画像についての単位演算対象画像領域の画素データが出力されている必要がある。
<バッファ制御方式>
次に、図4を参照して説明したCNNネットワークに対し、異なるバッファ制御方式の動作例を説明する。図7は、リングバッファ制御およびフレームバッファ制御それぞれにおける必要メモリ量を説明する図である。また、図13は、リングバッファおよびフレームバッファの動作を説明する図である。
図7(a)は、リングバッファ方式でCNNネットワークを処理する場合を示している。図7(a)では、階層429〜434をリングバッファ方式で処理する場合を想定している。
矢印403a〜403c、410a〜410b、411a〜411b、411a〜411b、417a〜417c、418a〜418c、425a〜425cは入力特徴面から異なるフィルタカーネルの重み係数で畳込み演算するための統合関係を表している。図7(a)における階層432における特徴面426の領域714を生成するために前階層の特徴面との畳込み演算が必要となる。つまり階層432における特徴面426の領域714を生成するために階層431における領域706〜708の分を格納するメモリ領域が必要となる。同様に領域706〜708を生成するために階層430の領域704〜705の分のメモリ領域が必要となる。さらに領域704〜705を生成するために階層429の領域701〜703のメモリ領域が必要となる。つまり、リングバッファ方式での処理対象となる連続する層(図7では階層429〜431)の特徴面をCNN処理するために必要なメモリサイズは総リングバッファサイズ(つまり領域701〜708の合計サイズ)になる。また、処理速度の観点から上記結合に基づくフィルタカーネルの重み係数の全てをメモリに保持しておくことが望ましいが、それに限ったものではない。
図13(a)は、リングバッファの動作を模式的に説明する図である。ここでは説明のためリングバッファの高さ(循環数)を”6”とする。また、ここでは、入力画像1300の画像データが、ラスタスキャン順に入力された場合に、6ライン分のリングバッファにどのように保持され、参照されるかを説明する。
ここでリングバッファに付随するリングカウンタは”0”〜”5”の値を循環する。また、リングカウンタの初期値は”5”であり、1ライン分のデータが投入されるときに1インクリメントされるものとする。ただし、リングバッファの循環数と同じ値になると、リングカウンタのカウンタ値は”0”に戻る。例えば、本リングバッファでは循環数は”6”であるので、カウンタ値は”5”の次は”0”に戻ることになる。
状態1301はリングバッファに入力画像1300の先頭から6ライン分のデータ(L1〜L6)がフルに充填された状態を表し、リングカウンタの値は”5”となっている。次のラインを格納するとき、リングカウンタはインクリメントされ”0”に戻り、リングバッファの先頭行にL7が充填される。すなわちリングカウンタの値は、最新のラインを格納したリングバッファ中の行を示す(”0”基準)。この状態を、状態1302に示す。
状態1302では、リングバッファからL2〜L7を参照する事が可能となり、その開始行は”リングカウンタの値+1”の行である。更に次のラインL8を格納する場合は、状態1303に示すように2行目位置にL8が充填され、リングカウンタの値は”1”となる。この場合、L3〜L8を参照する事が可能となり、先頭行はやはり”リングカウンタの値+1”の行となっていることが分かる。リングバッファ制御にはリングバッファ制御を行う全レイヤにおいて、すべてのリングバッファサイズ分保持し、順次動作させることができる。
上記説明はリングバッファを”6”での説明だったが、使用するフィルタカーネルの高さに応じてリングカウンタ値の循環数の設定を変更することで異なるフィルタカーネルのサイズで動作させることが可能となる。
図7(b)は、フレームバッファ方式でCNNネットワークを処理する場合を示している。図7(b)は、図7(a)に対して、階層429〜432をフレームバッファ方式で処理する場合を想定している。ただし、フレームバッファ方式では一度に連続する2つの層間での処理毎にCNN処理を行うことを想定している。そのため、図7(b)の例で、階層429と430の間の処理に注目して説明する。
図7(b)では、入力となる特徴面404〜406に対して異なるフィルタカーネルの重み係数での結合(矢印410a〜410b、411a〜411b、412a〜412b)に基づいてCNN処理することで特徴面413、415を出力する。フレームバッファ方式ではそれぞれに対応したメモリサイズが必要になる。つまり、特徴面709〜711の総特徴面サイズおよび712〜713の総重み係数である。本フレームバッファ方式では連続する2つの層を一度にCNN処理していくが、異なる2つの連続する層のフレームバッファ方式での処理の場合、同じメモリ領域を利用することができる。つまり、必要なメモリサイズはフレームバッファ方式で処理する2つの連続する層が複数ある場合、必要となる総メモリサイズはそれぞれで必要となる総メモリサイズの中で最大のものということができる。つまり、仮に階層429及び430の必要総メモリサイズより階層430〜431の必要総メモリサイズが大きい場合は階層430〜431の必要総メモリサイズ分のメモリが必要となる。
図13(b)は、フレームバッファの動作を模式的に説明する図である。ここでは、リングバッファ方式での仕組みをフレームバッファ方式に拡張する。フレームバッファ方式でのバッファ処理は簡単で、具体的にはリングバッファの循環数を入力画像データのライン数に一致させるだけでよい。循環数を入力画像データのライン数に一致させるだけで、そのバッファにおいては、1フレーム分の処理中において前のラインが上書きされなくなる。すなわち、リングバッファとしてだけでなく、フレームバッファとしても機能させることができる。図13でいうと、入力画像1304に対して、状態1305のようにリングカウンタ数をフレームサイズに合わせた値を指定するだけである。
<装置の動作>
図8は、パターン検出装置における制御を示すフローチャートである。すなわち、CPU68が実行する一連の検出処理動作を示している。CPU68におけるソフトウェアによる処理は、所定の設定処理等を行った後、画像入力部61やCNN処理部63等のハードウェア処理回路部をドライブする。
ステップS801では、CPU68は、検出処理の開始に先立ち、変数やレジスタ等の各種初期化処理を実行する。各処理部はCPU68の初期化指示に従って内部のレジスタ、メモリ等を初期化する。またここでは、入力画像サイズ全域を処理領域とする初期設定も行う。本処理を含め、以降CPU68は、ブリッジ65及び画像バス64を介してCNN処理部63や他のハードウェア回路部にアクセスし、CPUバスアクセス制御部113を介して所定のレジスタやメモリにデータを設定することが可能となる。
ステップS802では、CPU68は、シーケンス制御情報設定部105にシーケンス制御情報を設定する。シーケンス制御情報はネットワーク構成に基づくバッファ制御方式も含めた、CNN演算を制御するためのシーケンス制御情報のテーブルであり、レジスタファイル或いはRAM等により構成される。
図10は、シーケンス制御情報をテーブルとして構成した例を示す図である。具体的には、図14に示したCNNネットワークで処理を行う場合のテーブルを示している。
図10の(a)は、リングバッファ方式の場合のシーケンス制御情報のテーブルの例を示している。「シーケンス番号」は動作順序、「入力特徴面番号」はCNN処理の入力となる特徴面の番号、「出力特徴面番号」はCNN処理の出力となる特徴面の番号である。「シーケンス番号」はライン単位での処理の順序を示す番号で、テーブルの配列Indexに相当する。そのため、実際に数字を保持する必要はない。また、「処理ライン」は出力特徴面におけるライン番号、「重み係数番号」はフィルタカーネルの重み係数の番号を表している。更に、「演算種別」はCNN処理の処理内容、「フィルタ幅」、「フィルタ高さ」はそれぞれカーネル演算のサイズを表している。本件ではラインを処理単位としており、1ライン単位処理するごとに、処理ノードを切り替えている。
例えば、シーケンス番号”9”までは、入力画像(ここでは入力特徴面番号)に対して出力特徴面番号”1”〜”3”に対する処理を行っており、シーケンス番号”10”〜”15”では、次の層の出力特徴面番号”4”および”5”の処理を行っている。これは、シーケンス番号”9”までで、出力特徴面番号”4”および”5”の1ライン分の演算処理に必要な参照画像が演算されたためである。
このようにリングバッファ方式では、演算可能になった処理ノードから速やかにライン単位演算を行っていくことにより、参照される側のバッファをライン単位で順次開放可能にしている。これにより、中間バッファを必要最小限の循環数のリングバッファとして構成することが可能となる。一方で、重み係数について注目するとそれぞれの出力特徴面に対して対応するフィルタカーネルの重み係数は参照特徴面である入力特徴面でそれぞれ異なる。例えば、シーケンス番号”1”、”2”、”3”では入力特徴面番号は同じでも出力特徴面番号が異なるため畳込みに使用される重み係数はそれぞれ”1”、”2”、”3”と異なる。またシーケンス番号19、20、21では出力特徴面番号4に対して入力特徴面番号がそれぞれ”1”、”2”、”3”と異なるため重み係数番号は、この場合”4”、”6”、”8”と異なる。
以上のシーケンスから、リングバッファ方式で処理する場合、使用される重み係数は特徴面処理時に必要な値が階層をまたがって参照される。このため、リングバッファ方式で処理される重み係数は内部メモリに保持しておくことが、外部メモリアクセス数増大を防ぐうえで望ましいといえる。つまり、出力特徴面関する中間バッファは最小限の循環数で確保し、重み係数に関しては必要な係数を全て内部で保持する方法になる。
図10(b)は、フレームバッファ方式の場合のシーケンス制御情報のテーブルの例を示している。特定の処理ノードの単位演算を連続して行い、当該特定の処理ノードの演算が有効領域全域について完了した後に、次の処理ノードの演算を開始している。
図10(b)では、例えば出力特徴面番号“1”〜“3”に対するCNN処理をそれぞれの特徴面全有効領域演算が完了するごとに切り替えて処理を行う。このような処理を繰り返して連続する二つの層間に対して処理していくため、すでに処理済みの特徴面が不要になる場合がある。たとえば、階層1403と階層1404間の処理を行う場合、入力特徴面番号“4”と“5”に値するCNN処理の結果である出力特徴面“6”と“7”は前の連続する二つの層間での処理における入力特徴面“1”〜“3”の中間バッファ領域は不用となる。従って、最終階層まで演算の完了していないこの時点で、このバッファ領域を開放して同領域を処理ノード番号“6”、“7”の出力用として割り当てることができるようになる。
ここで、リングバッファ方式と同様に重み係数に注目すると、出力特徴面に対する入力特徴面の参照が連続していることがわかる。例えば、シーケンス番号”1”から”N”まで、出力特徴面”1”に対して入力特徴番号”0”を参照し同じフィルタカーネルの重み係数番号”1”を連続して参照している。つまり、重み係数の参照は連続して一定期間行われることがわかる。例えば、重み係数を畳込み演算を行っている階層間で切り替えることで、フレームバッファに必要なすべてのフィルタカーネルの重み係数を同時に内部メモリに保持する必要がなくなる。以上から、例えばフレームバッファ制御では特徴面と、フィルタカーネルの重み係数に関して層間で必要なサイズを中間バッファとして保持するだけでよい。次の層では、前階層で使用した、特徴面、重み係数は不要である。
CNN演算の場合、演算種別に応じてフィルタカーネルの重み係数を選択することになる。CNN演算はカーネル演算処理、正規化、プーリング処理等の演算の種類があるが、図の例では説明の簡単化のために、カーネル演算処理に対応した例のみ表示している。「フィルタ幅」はフィルタに対応する畳込みカーネルの幅に相当し、「フィルタ高さ」は畳込みカーネルの高さに相当する。
尚、本実施形態では、入力画像に対して各処理ノードは演算可能な最大範囲を演算するように設定しているが、最終的に演算結果を利用する処理ノードの利用したい演算範囲から、前階層に向かって順に演算範囲を逆算してももちろんかまわない。この場合は終了ラインも合わせて情報として持つようにすると、より演算を無駄無く行える。
図11は、リングバッファ制御およびフレームバッファ制御それぞれにおけるメモリ割り当ての例を示す図である。具体的には、図14に示すネットワークを実現する場合の処理ノードとオフセットアドレス及びリングバッファの高さの関係の一例を示すメモリマップである。図11(a)はリングバッファ方式の場合のメモリマップを、図11(b)はフレームバッファ方式の場合のメモリマップを示している。
ADRx(x:1〜8)はオフセットアドレス、BHx(x:1〜3)はリングバッファの高さ(循環数)に相当する。Ixは入力画像データの幅を示す。既に述べたとおり、フレームバッファ制御では前階層で使用した中間バッファ領域を現階層処理に割り当てて処理することでメモリ領域を削減している。図11(b)において、第1特徴面、第2特徴面の部分にそれぞれ、第6特徴面および第7特徴面が割り当てられている理由は上記の理由による。
ステップS803では、CPU68は、画像処理/前処理を行う。CPU68より処理開始の指示を受けた画像入力部61は、1フレーム分の画像データを取得し、図示しない内部バッファに格納する。画像入力部61は、画像データの格納が終了するとCPU68に対して画像取得終了割り込みを発生する。CPU68はこの割り込みを検知すると、DMAC66を起動して取得した画像データを前処理部62の内部メモリ(図示しない)に転送する。前処理部62は画像データの転送が終了すると、前処理を開始する。前処理部62は、例えば、予め指定するコントラスト補正情報に従って画像データのコントラストを補正する。前処理部62は補正処理を終了するとCPU68に対して割り込みを発生する。CPU68はこの割り込みを検知すると、再びDMAC66を起動し、前処理部62によって補正された画像データをCNN処理部63内のメモリ102の入力画像バッファ(図11の第0処理ノード領域に相当)に転送することとなる。
ステップS804では、CPU68は、フレームバッファ方式とリングバッファ方式による制御に基づくCNN処理を実行するよう制御する。図9は、CNN処理の詳細動作を示すフローチャートである。具体的には、CNN処理の動作を司るシーケンサー部104の動作を示している。
ステップS901では、シーケンサー部104は、シーケンスを読み出す。ここでは、制御単位はフレームバッファ方式ないしはリングバッファ方式を単位とする。これはCPU68からフィルタカーネルの重み係数を内部メモリにセットする制御順序がバッファ制御方式毎に切り替える必要があることに起因する。
ステップS902では、シーケンサー部104は、バッファ制御方式がフレームバッファ方式であるか否かを判定する。実際にはシーケンス制御情報から切り替えるわけではなく、CPU68が制御判断を行い、それに伴ったシーケンスで制御される。
ステップS903〜S905では、フレームバッファ方式での制御を行う。S903では、CPU68は、層単位で必要となるフィルタカーネルの重み係数をメモリ102に供給する。その後、所定のシーケンスに従って、シーケンサー部104が特徴面データ供給制御信号を生成し、フレーム単位でメモリ102からメモリアクセス制御部103を介して演算部101に供給される。S904では、演算制御部209でシーケンスに従った演算制御信号を作成し、演算部101はシーケンサー部104からの演算制御信号に伴って、シーケンスによって指定された演算を行う。出力特徴面データは演算部101からメモリ102へメモリアクセス制御部103を経由して行われる。この処理は対象となる層内の全特徴面に対して順次行われる。S905では、ある層内の全CNN処理が終了した後、シーケンスで指定された層すべてが終了していない場合は、S903に戻る。その後、CPU68が次の層で必要なフィルタカーネルの重み係数を内部メモリに供給し、同様の処理がシーケンス内の全層に対して処理が終了するまで行われる。
一方、ステップS906〜S908では、リングバッファ方式での制御を行う。S906で、CPU68は、リング処理で必要な全フィルタカーネルの重み係数(異なる階層を含む)をメモリ102へ供給する。S907で、シーケンスに従い、シーケンサー部104がリング制御のための制御信号及び、演算に必要なフィルタカーネルの重み係数制御信号を順次生成する。各制御信号に伴いメモリアクセス制御部103がアドレス生成、メモリ102から演算部101にデータを供給することとなる。この際フレームバッファ制御時と同様に演算制御部209でシーケンスに従った演算制御信号を作成し、演算部101に供給することで必要な演算を行う。S908では、ある層内の全CNN処理が終了した後、シーケンスで指定された層すべてが終了していない場合は、S907に戻る。その後、同様の処理がシーケンス内の全層に対して処理が終了するまで行われる。
ステップS909では、シーケンサー部104は、全シーケンスが終了しているかを判断し、終了していない場合はステップS901に戻り処理を継続させる。
図3は、リングバッファ制御およびフレームバッファ制御それぞれにおけるデータ転送のタイムチャートを示す図である。具体的には、別のCPU68から供給されるデータ転送を表した図である。図3(a)はフレームバッファ方式、図3(b)はリングバッファ方式におけるタイムチャートを示している。
図3(a)のフレームバッファ方式では、最初に入力データを供給したのち、処理層毎に必要なフィルタカーネルの重み係数を順次供給している様子を表している。図3(b)のリングバッファ方式では、最初にリングバッファで必要なデータを供給し、その後ライン毎に入力データを転送している。
ステップS805では、CPU68は、割り込みを検知すると、ステップS804のCNN演算が完了したと見なし、出力画像の取得処理を行う。この処理において、CPU68は、DMAC66を起動してCNN処理部63から必要な演算結果をRAM70に転送する。
以上説明したように、階層毎にバッファ制御方式を切換えながら処理を行う。これにより、階層構造に応じた切換えシーケンスを実行することが可能となり、より少ないメモリ量でCNN処理を実行することが可能となる。
最後に実際にバッファ制御方式を切り替えたときの動作について説明する。図16は、バッファ制御方式を切換える場合のシーケンス制御情報の例を示す図である。ここでは、階層1401から1403をリングバッファ制御、階層1403から1405をフレームバッファ制御で制御する場合のシーケンス制御情報を示している。
まず初めに、階層1401から1403内の処理ノードでの処理は図10(a)で示したシーケンスと第5処理ノードまでの処理で同様で、次の処理ノードで処理に必要な特徴面(ライン)がそろった段階で随時処理していく。そのため、例えば、シーケンス番号”1”から”18”までに、第1ノードから第3ノードまでの3ライン分を得るために、第0処理ノードに対して3ライン分それぞれのフィルタカーネルの重み係数で畳込み演算する。その後それらを使用し第4、5の第1ラインの処理をシーケンス番号”19”から”24”までで行っている。このようなライン処理を随時行っていく。
この例では、第0処理ノードから第5処理ノードまでをリングバッファ制御するために必要なシーケンス番号は”1080”で、その後次のシーケンスから直ちにフレームバッファ制御での処理に切り替わる。ここで、フレームバッファ制御では参照する入力特徴面をフレームで保持していることを想定しているため、フレーム処理からバッファ処理に切り替わる階層1403の第4および第5処理ノードの特徴面は全て内部保持している前提である。次にフレームバッファ制御を階層1403〜1405で行う。フレームバッファ制御では処理ノードの組合せごとにフレーム単位で処理を完結していく。
まず階層1404と1405の間で、シーケンス番号”1081”から”1200”までは第4処理ノードを入力特徴面として、第6処理ノードを出力特徴面とし、フィルタカーネルの重み係数番号”10”で全ライン分を処理している。随時処理ノード間の畳込み演算を行う。階層1404の処理ノードの特徴面全てのラインを処理し終わったら、階層1403の特徴面は階層1405の特徴面を処理する上で直接必要がなくなるため、その領域を解放し、階層1405の特徴面を保持する領域として利用する。最終的にシーケンス番号”1800”ですべてのシーケンスを終了させることで、第8処理ノードの特徴面を取得することができる。
<効果>
最後に、上述の手法によるメモリサイズの変化について図17を参照して説明する。図17は、ラインバッファ処理時に必要なメモリサイズの見積もり例を示す図である。ここでは、画像サイズがQQVGA(つまり高さ120画素)を想定する。なお、説明を簡単にするために画像端部も畳込み演算し画像サイズは変わらないことを想定する。
具体的には、各層における、画像サイズ(Feature map)、特徴面数(#Feature map)、カーネルサイズ(kernel size)を、テーブルの記載の値としたときの見積もりである。
ラインバッファ方式の見積もりでは、特徴面バッファサイズ(Line:Feature map size)、フィルタカーネルバッファサイズ(Line:Weight size(Sum from L1))を示している。さらに、総バッファサイズであるバッファサイズ(Line:Total size)を示している。
フレームバッファ方式の見積もりでは、特徴面バッファサイズ(FRAME:Feature map size)、フィルタカーネルバッファサイズ(Frame:Weight size)を示している。さらに、総バッファサイズであるバッファサイズ(Frame:Total size)を示している。
ここでラインバッファ処理では、上述のとおり、階層をまたがってフィルタカーネルの重み係数を畳込み演算を順次行っていくため、重み係数は全て内部で保持する必要がある。表はL1層からL9層までの階層構造であり、ラインバッファ方式のフィルタカーネルバッファサイズの列は、L1層から各階層までのカーネルサイズを保持したときのフィルタカーネルバッファサイズの総和(合計メモリサイズ)である。つまり、L3までをラインバッファ処理する場合は103.8キロバイト(以降KB)のフィルタカーネルバッファサイズが必要となる。同様にラインバッファ方式の特徴面バッファサイズの列は、L1層から各階層までのカーネルサイズを保持したときの特徴面ラインバッファサイズの総和である。
図17のテーブルに記載されている階層のネットワークに対して仮にすべてをラインバッファ処理する場合に必要なバッファサイズの総量は17670.9KBとなる。また、仮にすべてをフレームバッファ制御では階層をまたがって処理する必要がないため、階層単位の処理で必要なバッファサイズの最大値があればよく、この例ではL5階層を処理する際に必要な11952.0KBである。どちらかのバッファ処理を選択する場合はフレームバッファ制御を選択した方が必要なメモリサイズが小さい。
L1〜L5までをラインバッファ処理し、その後フレームバッファ制御するように内部バッファ処理を切り替える場合を想定する。その場合、ラインバッファ処理をL5までにする際に必要なバッファサイズは2109.9KBになる。またフレームバッファ制御をL6〜L9まで行う場合L8もしくはL9を処理するため必要な最大バッファサイズ3504.0KBになる。そのため、計5163.9KBのバッファサイズで処理することができる。これにより、どちらかを選択する方式に比べ大幅にバッファサイズを減らすことができる。
以上説明したとおり第1実施形態によれば、シーケンスを変更しそれに応じた制御を行うことで、層単位にバッファ制御方式を切り替える。処理対象のネットワークの構成に応じてバッファ制御方式を切り替えることで、演算に必要なメモリサイズを少なくすることができる。
なお、上述の説明においてはCNNを例に説明したが、これに限ったものではない。また、画像を処理する例について説明したが、多次元データに対する処理に対しても適用可能である。
(第2実施形態)
第2実施形態では、リングバッファ方式とフレームバッファ方式の切換えを決定する手法について説明する。
<必要なメモリサイズの算出>
まずはそれぞれの方式で必要なメモリサイズを算出する方法について述べる。まずはリングバッファ方式の場合について考える。リングバッファ制御ではCNN全体で処理が1ライン単位ずつ進んでいくことになるので、全ての中間バッファは、基本的に同時に存在している必要がある。以下では畳込み演算に注目して説明するため、特徴量のサブサンプリングなどの演算は記載しない。ここでは以下のパラメータを用いる。
全階層数(入力層除く):A
対象となるバッファ方式での処理の層数:N
対象となるバッファ方式での階層番号変数(中間層):l=1,2,…,N−1
各階層特徴面数:F
特徴番号(注目階層の注目特徴):f=f=1,…,F
前階層の特徴番号:f’=fl−1
入力画像サイズ(水平方向,垂直方向):I,I
カーネルサイズ(水平方向,垂直方向):W(l,f,f’),W(l,f,f’)
リングバッファ高さ:B(l,f)
リング中間バッファ必要容量:S
フィルタカーネルの重み係数を保持するバッファの必要容量:Wb_all
このとき、全ての中間バッファを最低限必要なサイズのラインバッファとして割り当てるときに必要となるトータルのサイズS、および、フィルタカーネルの重み係数Wallは、以下の数式(2)により求めることができる。
Figure 2018147182
つまり、ラインバッファ方式で必要となる中間バッファのサイズはS+Wallということになる。
上述の計算では、ネットワーク演算を構成する全ての処理ノードの各々に必要な中間バッファのサイズを当該処理ノードの後段に接続される処理ノードが必要とするデータ量に設定している。そして、それら中間バッファのサイズを合計することにより、ネットワーク演算に必要なメモリ量を算出している。また、前述の通り、ラインバッファ方式では複数の階層にまたがって演算するため、フィルタカーネルの重み係数はすべてバッファリングしておく前提で算出している。
次にフレームバッファ方式の場合に必要となるメモリ量について考える。第1実施形態で説明した通り、フレームバッファ方式では連続する階層間の処理で必要な入力特徴面および出力特徴面をメモリに保持する。また次の階層間での処理を行う場合は、前階層間での出力特徴面を入力特徴面とし、前階層間での入力特徴面が保持されていた領域は解放することが可能なため、その領域に現階層の出力特徴面データを格納する。フィルタカーネルの重み係数に関しては、階層間の処理で必要なデータを内部メモリに保持して処理することも可能ではあるが、重み係数を順次ロードし、ロードした重み係数に係る演算をその場で行うことで、必要メモリサイズはさらに少なくなる。
このとき、各層間のフレーム中間バッファ必要容量S、および、フィルタカーネルの重み係数を保持するバッファの必要容量Wは、以下の数式(3)により求めることができる。
Figure 2018147182
フレームバッファ制御では各フレーム間の演算処理で必要となるバッファサイズに対して対象となるフレームバッファ処理の階層間で最大となるサイズがあればよい。そのため、フレームバッファ処理で必要なバッファサイズはmax(S+W)となる。
フレームで中間バッファを構成した際(フレームバッファ方式を採用した際)のトータルの必要サイズを求めることができる。この計算は、ネットワーク構成において連続する2つの階層の組に属する全ての処理ノードが生成する演算結果データのサイズの合計を全ての組について計算し、その内の最大となるサイズを必要なメモリ量とするものである。フィルタカーネルの重み係数に関して言えば、各レイヤ間で生成する特徴面単位で特徴面演算に必要なフィルタカーネルの重み係数で全レイヤで最大のものということができる。そのため、フレームバッファ方式で必要なバッファサイズはS+Wp_allになる。
数式(2)及び(3)から分かる通り、CNN階層の中で、どの階層をリングバッファ方式あるいはフレームバッファ方式で行うかでトータルで必要となるメモリサイズは変わってくる。これは、CNNネットワークの各論理的処理ノードの接続構造と、各ノードの畳込みカーネルサイズに依存する。以下ではバッファ制御方式を切換える階層を決定する手法について説明する。
<切換え階層の決定方法>
図15は、バッファ制御方式の切換え位置を決定するフローチャートである。この処理は、例えば、CPU68により実行される。
ステップS1501では、CPU68は、要求仕様を取得する。ここで要求仕様とはユーザが許容できる最大メモリサイズである。
ステップS1502では、CPU68は、対象となるCNN階層構造に関する情報を取得する。ここでCNN階層構造とは、階層の個数、各階層の特徴面数、画像サイズ、カーネルサイズなどCNN階層構造を決定するための基本的な情報である。
ステップS1503〜S1508が、実際に切換え位置を決定するためのプロセスになる。S1503では、CPU68は、まず切換え数Cを設定する。ここでは、切換えを行う前提で切換え数”1”から始めているが、これに限ったものではない。
ステップS1504では、CPU68は、バッファ切換え方式位置Nを決定する。ここでは、第1階層と第2階層との間を切換え位置として始めることを想定しているが、これに限ったものではない。図14を例に挙げると階層1402と階層1403の間を切換え位置としている。
ステップS1505では、CPU68は、切換え位置によって前後の階層に対してそれぞれで、数式(2)及び(3)から各バッファ制御方式で必要となるメモリサイズを決定し、数式(2)及び(3)のどちらか大きい方を必要メモリサイズとして算出する。
ステップS1506では、CPU68は、それまでで算出されたなかで最小となる必要メモリサイズより、今回の切換え位置で見積もった必要メモリサイズの方が小さい場合は、今回の切換え位置を採用とする。これは切換え位置や後述する切換え数の違いで得られる必要メモリサイズの中から最小のものを選ぶということを意味している。
ステップS1507では、CPU68は、切換え数Cに対して、取り得るすべての切換えパターンに対して見積もりを行ったかを確認する。全て行っていない場合は、ステップS1508で切換え位置を変えてS1505〜S1507を繰り返す。一方、すべてのパターンを行った場合には、ステップS1509で要求仕様であるメモリサイズを満たしているかを判断する。満たしていない場合にはステップS1510で切換え数を増やし、S1503〜S1509を繰り返す。満たした場合には終了となる。
以上説明したとおり第2実施形態によれば、より好適な切換え階層の位置を決定することが可能となる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
101 演算部; 102 内部メモリ; 103 メモリアクセス制御部; 104 シーケンサー部; 105 シーケンス情報設定部

Claims (10)

  1. 複数の処理ノードを用いて構成される階層型ネットワークを利用して処理を実行する演算処理装置であって、
    前記複数の処理ノードの各々が演算処理に利用するパラメータと、前記複数の処理ノードの各々における演算処理の演算結果と、を記憶する記憶手段と、
    前記階層型ネットワークの構成に基づいて、該階層型ネットワークにおける少なくとも1つの階層において、前記記憶手段における前記パラメータ及び前記演算結果のバッファ方式を切換えるバッファ制御手段と、
    を有することを特徴とする演算処理装置。
  2. 前記階層型ネットワークのそれぞれの階層で利用するバッファ方式の複数の組合せそれぞれに対して、前記記憶手段において前記パラメータを記憶するために必要な第1のメモリサイズと、前記記憶手段において前記演算結果を記憶するために必要な第2のメモリサイズと、の合計メモリサイズを算出する算出手段と、
    前記合計メモリサイズに基づいて、前記複数の組合せの中から、前記階層型ネットワークで利用するバッファ方式の組合せを選択する選択手段と、
    を更に有し、
    前記バッファ制御手段は、前記選択手段により選択されたバッファ方式の組合せに従ってバッファ方式を切換える
    ことを特徴とする請求項1に記載の演算処理装置。
  3. 前記選択手段は、前記合計メモリサイズが最小となるバッファ方式の組合せを選択する
    ことを特徴とする請求項2に記載の演算処理装置。
  4. 前記選択手段により選択されたバッファ方式の組合せに従って前記複数の処理ノードを制御するためのシーケンス制御情報を生成する生成手段と、
    前記シーケンス制御情報に基づいて前記複数の処理ノードに演算処理を実行させるシーケンス制御手段と、
    を更に有する
    ことを特徴とする請求項2又は3に記載の演算処理装置。
  5. 前記バッファ制御手段は、前記バッファ方式として、リングバッファ方式とラインバッファ方式とを利用可能に構成されている
    ことを特徴とする請求項1乃至4の何れか1項に記載の演算処理装置。
  6. 前記階層型ネットワークは、CNN(Convolutional Neural Networks)である
    ことを特徴とする請求項1乃至5の何れか1項に記載の演算処理装置。
  7. 前記演算処理は画像に対する畳込みフィルタ演算処理であり、
    前記構成は、前記CNNの階層の個数、各階層における特徴面数、各階層における画像サイズ、各階層におけるカーネルサイズ、の少なくとも1つを含む
    ことを特徴とする請求項6に記載の演算処理装置。
  8. 前記複数の処理ノードは論理的な処理ノードであり同一の物理的な処理ノードにより実現される
    ことを特徴とする請求項1乃至7の何れか1項に記載の演算処理装置。
  9. 複数の処理ノードを用いて構成される階層型ネットワークを利用して処理を実行する演算処理装置の制御方法であって、前記演算処理装置は、前記複数の処理ノードの各々が演算処理に利用するパラメータと、前記複数の処理ノードの各々における演算処理の演算結果と、を記憶する記憶部を有し、
    前記制御方法は、
    前記階層型ネットワークの構成に基づいて、前記階層型ネットワークで利用するバッファ方式の組合せを決定する決定工程と、
    前記決定工程により決定されたバッファ方式の組合せに従って前記記憶部における前記パラメータ及び前記演算結果のバッファ方式を切換えるバッファ制御工程と、
    を含むことを特徴とする制御方法。
  10. コンピュータを、請求項1乃至8の何れか1項に記載の演算処理装置の各手段として機能させるためのプログラム。
JP2017040919A 2017-03-03 2017-03-03 演算処理装置およびその制御方法 Active JP6936592B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017040919A JP6936592B2 (ja) 2017-03-03 2017-03-03 演算処理装置およびその制御方法
US15/908,945 US11699067B2 (en) 2017-03-03 2018-03-01 Arithmetic processing apparatus and control method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017040919A JP6936592B2 (ja) 2017-03-03 2017-03-03 演算処理装置およびその制御方法

Publications (2)

Publication Number Publication Date
JP2018147182A true JP2018147182A (ja) 2018-09-20
JP6936592B2 JP6936592B2 (ja) 2021-09-15

Family

ID=63355657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017040919A Active JP6936592B2 (ja) 2017-03-03 2017-03-03 演算処理装置およびその制御方法

Country Status (2)

Country Link
US (1) US11699067B2 (ja)
JP (1) JP6936592B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020060967A (ja) * 2018-10-10 2020-04-16 LeapMind株式会社 ニューラルネットワーク処理装置、およびニューラルネットワーク処理方法
EP3680827A1 (en) 2019-01-10 2020-07-15 Canon Kabushiki Kaisha Information processing apparatus and memory control method
JP2020140546A (ja) * 2019-02-28 2020-09-03 キヤノン株式会社 データ処理装置及びその方法
WO2020188658A1 (ja) * 2019-03-15 2020-09-24 三菱電機株式会社 アーキテクチャ推定装置、アーキテクチャ推定方法、およびアーキテクチャ推定プログラム
JP2020201883A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 データ処理装置及びその制御方法
JP2021012596A (ja) * 2019-07-08 2021-02-04 キヤノン株式会社 演算処理装置及び演算処理方法
JP2022508028A (ja) * 2018-10-10 2022-01-19 芯原微電子(上海)股▲ふん▼有限公司 3次元画像処理におけるデータの読み書き方法とシステム、記憶媒体及び端末
JP2022184136A (ja) * 2021-05-31 2022-12-13 キヤノン株式会社 情報処理装置、情報処理方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10283091B2 (en) * 2014-10-13 2019-05-07 Microsoft Technology Licensing, Llc Buffer optimization
US10387740B2 (en) * 2016-10-10 2019-08-20 Gyrfalcon Technology Inc. Object detection and recognition apparatus based on CNN based integrated circuits
US10956584B1 (en) * 2018-09-25 2021-03-23 Amazon Technologies, Inc. Secure data processing
JP7278150B2 (ja) * 2019-05-23 2023-05-19 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法
JP7362312B2 (ja) 2019-06-25 2023-10-17 キヤノン株式会社 画像処理装置、撮像装置、画像処理装置の制御方法、及びプログラム
JP7299770B2 (ja) * 2019-07-01 2023-06-28 キヤノン株式会社 演算処理装置及び演算処理方法
KR20210031296A (ko) * 2019-09-11 2021-03-19 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112561034A (zh) * 2020-12-04 2021-03-26 深兰人工智能(深圳)有限公司 一种神经网络加速装置
CN117377983A (zh) * 2021-05-27 2024-01-09 谷歌有限责任公司 具有卷积和注意力的机器学习模型的系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080693A (ja) * 2007-09-26 2009-04-16 Canon Inc 演算処理装置および方法
JP2009105695A (ja) * 2007-10-24 2009-05-14 Seiko Epson Corp 画像形成装置および画像形成システム
JP2013058277A (ja) * 2011-09-07 2013-03-28 Renesas Electronics Corp 半導体装置
JP2013214151A (ja) * 2012-03-30 2013-10-17 Fujifilm Corp 画像処理装置、方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3543661B2 (ja) * 1999-03-05 2004-07-14 日本電気株式会社 交換機ファイルシステムにおけるバッファキャッシュ方法および装置
JP2003228364A (ja) * 2002-02-01 2003-08-15 Shinnichi Electronics Kk パチンコ機の画像表示装置とその表示方法及びそのコンピュータプログラム
JP4124015B2 (ja) * 2003-05-01 2008-07-23 ヤマハ株式会社 画像表示装置
JP5171118B2 (ja) * 2007-06-13 2013-03-27 キヤノン株式会社 演算処理装置及びその制御方法
JP5184824B2 (ja) 2007-06-15 2013-04-17 キヤノン株式会社 演算処理装置及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080693A (ja) * 2007-09-26 2009-04-16 Canon Inc 演算処理装置および方法
JP2009105695A (ja) * 2007-10-24 2009-05-14 Seiko Epson Corp 画像形成装置および画像形成システム
JP2013058277A (ja) * 2011-09-07 2013-03-28 Renesas Electronics Corp 半導体装置
JP2013214151A (ja) * 2012-03-30 2013-10-17 Fujifilm Corp 画像処理装置、方法及びプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022508028A (ja) * 2018-10-10 2022-01-19 芯原微電子(上海)股▲ふん▼有限公司 3次元画像処理におけるデータの読み書き方法とシステム、記憶媒体及び端末
JP2020060967A (ja) * 2018-10-10 2020-04-16 LeapMind株式会社 ニューラルネットワーク処理装置、およびニューラルネットワーク処理方法
JP7201802B2 (ja) 2018-10-10 2023-01-10 芯原微電子(上海)股▲ふん▼有限公司 3次元画像処理におけるデータの読み書き方法とシステム、記憶媒体及び端末
JP7040771B2 (ja) 2018-10-10 2022-03-23 LeapMind株式会社 ニューラルネットワーク処理装置、通信装置、ニューラルネットワーク処理方法、およびプログラム
JP7227769B2 (ja) 2019-01-10 2023-02-22 キヤノン株式会社 情報処理装置及びメモリ制御方法
US11663453B2 (en) 2019-01-10 2023-05-30 Canon Kabushiki Kaisha Information processing apparatus and memory control method
EP3680827A1 (en) 2019-01-10 2020-07-15 Canon Kabushiki Kaisha Information processing apparatus and memory control method
JP2020112998A (ja) * 2019-01-10 2020-07-27 キヤノン株式会社 情報処理装置及びメモリ制御方法
JP2020140546A (ja) * 2019-02-28 2020-09-03 キヤノン株式会社 データ処理装置及びその方法
JP7297468B2 (ja) 2019-02-28 2023-06-26 キヤノン株式会社 データ処理装置及びその方法
WO2020188658A1 (ja) * 2019-03-15 2020-09-24 三菱電機株式会社 アーキテクチャ推定装置、アーキテクチャ推定方法、およびアーキテクチャ推定プログラム
JPWO2020188658A1 (ja) * 2019-03-15 2021-09-13 三菱電機株式会社 アーキテクチャ推定装置、アーキテクチャ推定方法、およびアーキテクチャ推定プログラム
US11636321B2 (en) 2019-06-13 2023-04-25 Canon Kabushiki Kaisha Data processing apparatus and control method
JP2020201883A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 データ処理装置及びその制御方法
JP2021012596A (ja) * 2019-07-08 2021-02-04 キヤノン株式会社 演算処理装置及び演算処理方法
JP7308674B2 (ja) 2019-07-08 2023-07-14 キヤノン株式会社 演算処理装置及び演算処理方法
JP2022184136A (ja) * 2021-05-31 2022-12-13 キヤノン株式会社 情報処理装置、情報処理方法
JP7321213B2 (ja) 2021-05-31 2023-08-04 キヤノン株式会社 情報処理装置、情報処理方法

Also Published As

Publication number Publication date
JP6936592B2 (ja) 2021-09-15
US11699067B2 (en) 2023-07-11
US20180253641A1 (en) 2018-09-06

Similar Documents

Publication Publication Date Title
JP6936592B2 (ja) 演算処理装置およびその制御方法
US7978905B2 (en) Calculation processing apparatus and control method thereof
JP5376920B2 (ja) コンボリューション演算回路、階層的コンボリューション演算回路及び物体認識装置
US8391306B2 (en) Calculation processing apparatus and method
JP6945986B2 (ja) 演算回路、その制御方法及びプログラム
EP3557425B1 (en) Accelerator and system for accelerating operations
EP3557485A1 (en) Method for accelerating operations and accelerator apparatus
JP2018535491A (ja) 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体
WO2008153194A1 (en) Calculation processing apparatus and method
JP6800656B2 (ja) 演算回路、その制御方法及びプログラム
JP2020042774A (ja) 人工知能推論演算装置
JP7402623B2 (ja) フィルタ処理装置及びその制御方法
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
JP6532334B2 (ja) 並列演算装置、画像処理装置及び並列演算方法
JP6970827B2 (ja) 演算処理装置
JP7398938B2 (ja) 情報処理装置およびその学習方法
JP7278150B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP7391553B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7308674B2 (ja) 演算処理装置及び演算処理方法
JP2023058636A (ja) 情報処理装置及びメモリ制御方法
JP2021009566A (ja) 演算処理装置及び演算処理方法
JP6964969B2 (ja) 演算処理装置、演算処理方法及びプログラム
JP7169768B2 (ja) 画像処理装置、画像処理方法
JP7321213B2 (ja) 情報処理装置、情報処理方法
JPH09231352A (ja) ピクセル画像マッピング方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200302

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210827

R151 Written notification of patent or utility model registration

Ref document number: 6936592

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151