JP7299770B2

JP7299770B2 - 演算処理装置及び演算処理方法

Info

Publication number: JP7299770B2
Application number: JP2019123135A
Authority: JP
Inventors: しおり脇野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2023-06-28
Anticipated expiration: 2039-07-01
Also published as: US20210004667A1; JP2021009566A; US11704546B2

Description

本発明は、階層型ニューラルネットワークに入力データを入力して該階層型ニューラルネットワークの各階層における演算処理を行うことで、該階層における特徴面を算出する技術に関するものである。

ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（以下ＣＮＮと略記する）と呼ばれる階層的な演算手法が認識対象の変動に対して頑健なパターン認識を可能にする手法として注目されている。例えば、非特許文献１では様々な応用例・実装例が開示されている。

図９は、簡単なＣＮＮのネットワーク構成例を示す図である。９０１は入力層であり、画像データに対してＣＮＮによる処理を行う場合、所定サイズの画像データに相当する。９０３ａ～９０３ｄは第１階層９０８の特徴面、９０５ａ～９０５ｄは第２階層９０９の特徴面、９０７は第３階層９１０の特徴面を示す。特徴面とは、所定の特徴抽出演算（コンボリューション演算及び非線形処理）の処理結果に相当するデータ面である。特徴面は上位階層で所定の対象を認識するための特徴抽出結果に相当し、画像データに対する処理結果であるため、処理結果も面で表す。特徴面９０３ａ～９０３ｄは、入力層９０１に対応するコンボリューション演算と非線形処理により生成されるものである。例えば、特徴面９０３ａは、９０２１ａとして模式的に示す２次元のコンボリューション演算と演算結果の非線形変換により算出する。例えば、カーネル（係数マトリクス）サイズがｃｏｌｕｍｎＳｉｚｅ×ｒｏｗＳｉｚｅのコンボリューション演算は以下の式（１）に示すような積和演算により処理する。

ｉｎｐｕｔ（ｘ，ｙ）：座標（ｘ、ｙ）での参照画素値
ｏｕｔｐｕｔ（ｘ，ｙ）：座標（ｘ、ｙ）での演算結果
ｗｅｉｇｈｔ（ｃｏｌｕｍｎ，ｒｏｗ）：ｏｕｔｐｕｔ（ｘ、ｙ）の演算に使用する重み係数
ｃｏｌｕｍｎＳｉｚｅ、ｒｏｗＳｉｚｅ：コンボリューションカーネルサイズ
Ｌ：前階層の特徴マップの数
ＣＮＮによる処理では、複数のコンボリューションカーネルを画素単位で走査しながら積和演算を繰り返し、最終的な積和結果を非線形変換することで特徴面を算出する。なお、特徴面９０３ａを算出する場合は、前階層との結合数が１であるため、コンボリューションカーネルは１つである。ここで、９０２１ｂ、９０２１ｃ、９０２１ｄはそれぞれ特徴面９０３ｂ、９０３ｃ、９０３ｄを算出する際に使用されるコンボリューションカーネルである。

図１０は、特徴面９０５ａを算出す場合の例を説明する図である。特徴面９０５ａは、特徴面９０５ａが属する第２階層９０９の前階層である第１階層９０８における特徴面９０３ａ～ｄと結合している。特徴面９０５ａのデータを算出する場合、特徴面９０３ａに対しては９０４１ａで模式的に示すカーネルを用いたフィルタ演算を畳み込み演算処理部１００１にて行い、該フィルタ演算の結果を累積加算器１００２に保持する。特徴面９０３ｂ、９０３ｃ、９０４ｃに対してはそれぞれ９０４２ａ、９０４３ａ、９０４４ａで示すカーネルのコンボリューション演算を畳み込み演算処理部１００１にて行い、該フィルタ演算の結果を累積加算器１００２に蓄積する。この４種類のコンボリューション演算の終了後、累積加算器１００２により該４種類のコンボリューション演算の累積加算を行う。そして、該累積加算の結果に対して非線形変換処理部１００３によりロジスティック関数や双曲正接関数（ｔａｎｈ関数）を利用した非線形変換処理を行う。

以上の処理を画像全体に対して１画素ずつ走査しながら行うことで、特徴面９０５ａを算出する。同様に特徴面９０５ｂは前階層である第１階層９０８の特徴面に対して９０４１ｂ／９０４２ｂ／９０４３ｂ／９０４４ｂで示す４つのカーネルのコンボリューション演算を行い、累積加算、非線形処理し、算出する。これは、特徴面９０５ｃ、９０５ｄについても同様である。更に特徴面９０７は、前階層である第２階層９０９の特徴面９０５ａ～ｄに対して９０６１、９０６２、９０６３、９０６４で示す４つのカーネルのコンボリューション演算を用いて算出する。なお、各カーネル係数はパーセプトロン学習やバックプロパゲーション学習等の一般的な手法を用いて予め学習により決定されているものとする。

ＣＮＮを用いた演算を行うＣＮＮ処理ハードウェアを組み込みシステムに実装してネットワーク処理する場合、ＣＮＮ処理ハードウェアは、階層毎に、入力データと重み係数とを用いた演算を行う。そしてＣＮＮ処理ハードウェアは、該演算の結果を次の階層の入力データとし、次の階層の重み係数との演算を行うことを繰り返し、最終的なパターン認識結果を得る。

ＣＮＮによる処理では、多数のコンボリューションを繰り返すために膨大な回数の積和演算が必要になり、そのためＣＮＮ処理ハードウェアは高速で処理を実行することが求められる。

特許第５３６８６８７特開昭６１－６２１８７

ＹａｎｎＬｅＣｕｎ，ＫｏｒａｙＫａｖｕｋｖｕｏｇｌｕａｎｄＣｌeｍｅｎｔＦａｒａｂｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｉｎＶｉｓｉｏｎ，Ｐｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ（ＩＳＣＡＳ'１０），ＩＥＥＥ，２０１０，

特許文献１の手法では、ＣＮＮ処理ハードウェア内部にＳＲＡＭを備え、中間階層の特徴面９０３ａ～ｄ、９０５ａ～ｄの一部または全てを格納する中間バッファとして使用する。中間バッファから読み出したデータをコンボリューション演算し、該コンボリューション演算により得られた処理結果を中間バッファへ格納する。中間バッファをＳＲＡＭで構成することでデータアクセス時間を削減し、処理効率を向上させている。

さらにデータアクセス時間を削減するために、一般的なフィルタ演算で必要になる複数ラインを別々のメモリに格納し、同時に読み出すことで高速化を図る技術が特許文献２などに開示されている。

このように、ＣＮＮ処理ハードウェアは、積和演算を効率的に行うために、複数のデータを短いアクセス時間で同時に読み書きすることができるよう内部に複数のＳＲＡＭを備え、複数ラインを別々のメモリに格納し、処理する。

一方、ＣＮＮ処理ハードウェアが出力するパターン認識結果は、後処理され、検出対象の位置座標が特定される。後処理は例えば、検出位置の精度を高めるための補正処理や、検出位置の抽出、重複した判別結果をマージする処理等が挙げられ、これらの処理により、誤検出を抑制し、出力されたパターン判別結果の精度を向上させることができる。後処理には柔軟性が求められるため、汎用ＣＰＵによる処理が適している。一般的にはＣＮＮ処理ハードウェアが出力した演算結果は、ＤＭＡＣ等で汎用ＣＰＵが使用する共有メモリに転送され、汎用ＣＰＵが処理する。そのため、共有メモリにデータを転送する時間が必要となり、処理性能が低下する、また、共有メモリに転送する際にバスを経由してデータを転送するので、バス帯域が逼迫するという課題がある。さらに、ＣＮＮ処理ハードウェアのメモリと、共有メモリが別々に必要であるためコストがかかる課題がある。

本発明では、階層型ニューラルネットワークに入力データを入力して該階層型ニューラルネットワークの各階層における演算処理を行う場合に、処理性能を低下させずに処理を高速化させるとともに、コストの削減を可能にする技術を提供する。

本発明の一様態は、階層型ニューラルネットワークに入力データを入力して該階層型ニューラルネットワークの各階層における演算処理を行う演算処理装置であって、
前記各階層における特徴面を、該階層の前の階層の特徴面を参照して算出する演算部と、
前記演算部によって算出され、参照される特徴面を保持する複数のメモリを有する特徴面保持部と、
前記演算処理を行うそれぞれの階層に関する情報であるネットワーク情報に基づいて、前記複数のメモリに前記演算部によって算出された特徴面を配置して書き込み、該複数のメモリから前記演算部によって参照される特徴面を読み出すメモリアクセス管理部と、
前記特徴面保持部がメモリ空間にアドレスマップされており、前記ネットワーク情報に基づいて該メモリ空間にアドレスマップされた特徴面の画素値のアドレスを算出し、該アドレスを用いて該特徴面保持部から画素値を読み出して処理するプロセッサと
を備えることを特徴とする。

本発明の構成によれば、共有メモリにデータを転送する必要がなく、処理性能を低下せせずに処理を高速化させることができる。さらには共有メモリを別途設ける必要がなく、コストを削減することができる。

認識処理部８０１のハードウェア構成例を示すブロック図。画像処理システムの全体動作を示すフローチャート。ステップＳ２０６における処理の詳細を示すフローチャート。第１階層９０８と第２階層９０９の特徴面を特徴面保持部１０２１のメモリに割り当てる割り当て方法の一例を示す図。図４に示した割り当て方法に従って割り当てられた各メモリの特徴面のアドレスの割り当て方法の一例を示す図。ステップＳ３０７における処理のフローチャート。ＣＰＵ１０４のメモリマップの一部を示す図。画像処理システムのハードウェア構成例を示すブロック図。簡単なＣＮＮのネットワーク構成例を示す図。特徴面９０５ａを算出す場合の例を説明する図。認識処理部８０１の構成例を示すブロック図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
先ず、本実施形態に係る演算処理装置としての認識処理装置を利用した画像処理システムのハードウェア構成例について、図８のブロック図を用いて説明する。本実施形態に係る画像処理システムは、入力された画像データから特定の物体の領域を検出する機能を有する。

画像入力部８００は、撮像を行うことで画像データを入力データとして取得する。画像データは動画像における各フレームの画像のデータであっても良いし、静止画像のデータであっても良い。画像入力部８００は、光学系、ＣＣＤ（Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）又はＣＭＯＳ（ＣｏｍｐｌｉｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサ等の光電変換デバイス及びセンサを制御するドライバー回路／ＡＤコンバータ／各種画像補正を司る信号処理回路／フレームバッファ等により構成される。

認識処理部８０１は、本実施形態に係る演算処理装置としての認識処理装置を含み、画像入力部８００による画像データから特定の物体の領域を検出する。ＤＭＡＣ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓＣｏｎｔｒｏｌｌｅｒ）８０５は、画像バス８０２上の各処理部と、ＣＰＵバス８０９上の各処理部と、の間のデータ転送を司る。

ブリッジ８０３は、画像バス８０２とＣＰＵバス８０９のブリッジ機能を提供する。

前処理部８０４は、認識処理部８０１による認識処理を効果的に行うための各種の前処理を行う。具体的には、前処理部８０４は、画像入力部８００が取得した画像データに対して色変換処理／コントラスト補正処理等の画像変換処理をハードウェアで処理する。

ＣＰＵ８０６は、ＲＯＭ８０７やＲＡＭ８０８に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ８０６は、画像処理システム全体の動作制御を行うと共に、画像処理システムが行うものとして後述する各処理を実行若しくは制御する。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８０７には、ＣＰＵ８０６の動作を規定する命令を含むコンピュータプログラムやデータなどが格納されている。以下の説明において画像処理システムが既知の情報として取り扱う情報はＲＯＭ８０７に格納されている。ＲＯＭ８０７に格納されているデータには、認識処理部８０１を動作させるためのデータセット（階層型ニューラルネットワークの一例であるＣＮＮに応じた動作パラメータと重み係数）も含まれている。このデータセットは、ＤＭＡＣ８０５を介して認識処理部８０１に入力される。

ＲＡＭ８０８はＲＯＭ８０７からロードされたコンピュータプログラムやデータを格納するためのエリア、画像入力部８００が取得した画像データを保持するためのエリア、処理対象とするデータを一時的に保持するためのエリア、等を有する。またＲＡＭ８０８は、ＣＰＵ８０６が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ８０８は各種のエリアを適宜提供することができる。

画像入力部８００が取得した画像データは前処理部８０４で前処理されて一端ＲＡＭ８０８に格納され、ＤＭＡＣ８０５により認識処理部８０１に転送（入力）される。認識処理部８０１は、入力された前処理後の画像データに対して画素単位で所定の判別処理を行うことで、該画像データが表す画像中の特定の物体の領域を検出する。認識処理部８０１によって検出された領域に係る情報（画像中の該領域を規定する情報や該領域内の画像など）は、ＤＭＡＣ８０５によってＲＡＭ８０８に転送されて該ＲＡＭ８０８に格納される。

次に、認識処理部８０１のハードウェア構成例について、図１のブロック図を用いて説明する。制御部１０１は、認識処理部８０１の全体を制御する。制御部１０１は内部にネットワーク情報保持部１０１１を有しており、該ネットワーク情報保持部１０１１にはネットワーク情報が設定（格納）される。ＤＭＡＣ８０５がＲＯＭ８０７に予め格納されているネットワーク情報をネットワーク情報保持部１０１１に転送して設定する。ネットワーク情報は、処理する階層の数、階層の番号、階層毎の特徴面の情報（特徴面の幅、高さ、特徴面の数）、階層間の結合の情報（コンボリューションカーネルの水平サイズ、垂直サイズ）を含む。

また制御部１０１は、動作制御用のレジスタとしてイネーブルレジスタも備え、ＣＰＵ８０６が処理開始を指示する。ＣＰＵ８０６は複数階層の処理開始を制御部１０１へ指示し、制御部１０１は後述する特徴面格納部１０２、畳み込み演算部１０３へ階層単位の処理の開始を複数回指示する。制御部１０１は、処理の開始指示を示す制御信号と共にネットワーク情報保持部１０１１に設定（保持）されているネットワーク情報を、制御パラメータとして送信する。

生成した階層の特徴面に後処理を施す場合、特徴面格納部１０２及び畳み込み演算部１０３での階層単位の処理が完了すると、制御部１０１はネットワーク情報保持部１０１１に設定されているネットワーク情報をＣＰＵ１０４に制御パラメータとして送信する。そして制御部１０１は処理の開始指示を出す。

特徴面格納部１０２は、特徴面を格納するためのものであり、特徴面保持部１０２１と、特徴面保持部１０２１のデータの読み書きを制御するメモリアクセス管理部１０２２と、を備える。

特徴面保持部１０２１は、（Ｎ＋１）個（Ｎは１以上の整数）のデュアルポートＳＲＡＭ（メモリ０～メモリＮ）を有する。以下の説明では一例としてＮ＝５とする。つまり、以下の説明では、特徴面保持部１０２１は６つのデュアルポートＳＲＡＭ（メモリ０～メモリ５）を有するものとする。また、ＳＲＡＭのデータ幅は４バイトとする。

メモリアクセス管理部１０２２は、デュアルポートＳＲＡＭのインターフェースのうちの片側１ポートを制御する。メモリアクセス管理部１０２２は、制御部１０１から受信する制御パラメータ（階層のネットワーク情報）に基づき、畳み込み演算部１０３の演算結果である各階層の生成された特徴面を６つのデュアルポートＳＲＡＭへどのように配置するか決定し、書き込む。また、メモリアクセス管理部１０２２は、参照特徴面を読み出して畳み込み演算部１０３へ送信する。そしてメモリアクセス管理部１０２２は、畳み込み演算部１０３から、生成する階層の全特徴面を受信すると、制御部１０１へ完了を通知する。

畳み込み演算部１０３は、畳み込み演算を行うものであり、フィルタカーネルサイズに応じた重み係数と参照特徴面を入力とし、演算結果として特徴面を出力する。ＤＭＡＣ８０５がＲＯＭ８０７に予め配置された重み係数を畳み込み演算部１０３に転送する。畳み込み演算部１０３は、制御部１０１から制御パラメータとしてフィルタカーネルサイズを受信し、処理開始を指示されると演算処理を行い、生成する階層の全特徴面の演算処理が完了すると、制御部１０１へ完了を通知する。

ＣＰＵ１０４は、特徴面の後処理を行う。ＣＰＵ１０４は、画像バス８０２のバスマスタであり、メモリ空間に、後述するメモリ制御部１０５を介して特徴面保持部１０２１のメモリがアドレスマップされている。制御部１０１から処理開始指示を受信すると、処理対象の階層のネットワーク情報に基づいてデータを取得し、処理する。

メモリ制御部１０５は、特徴面保持部１０２１が有するデュアルポートＳＲＡＭに対するデータの読み書きを制御するものであり、特徴面保持部１０２１の６つのデュアルポートＳＲＡＭのインターフェースのうちの片側１ポートを制御する。またメモリ制御部１０５は画像バス８０２のバススレーブであり、バスマスタから要求を受け、メモリに対するデータの読み書きを行う。

次に、画像処理システムの全体動作について、図２のフローチャートに従って説明する。ステップＳ２０２では、ＣＰＵ８０６は、画像入力部８００を介して画像データ（入力データ）を取得する。ステップＳ２０３では、前処理部８０４は、ステップＳ２０２で取得した画像データに対して前処理を施し、ＲＡＭ８０８に格納する。

ステップＳ２０４では、ＣＰＵ８０６はＤＭＡＣ８０５に、ＲＯＭ８０７に格納されている処理対象の階層のデータセットの開始位置アドレスを設定して起動する。処理対象の階層は１つであっても複数であってもよい。これによりＤＭＡＣ８０５は、設定された開始アドレスから処理対象の階層のデータセットを読み出して転送する。

転送完了後、ステップＳ２０５では、再びＣＰＵ８０６は、ＤＭＡＣ８０５にＲＡＭ８０８の前処理後のデータの開始位置アドレスを設定して起動する。これによりＤＭＡＣ８０５は、設定された開始アドレスから前処理後のデータを読み出して転送する。

ステップＳ２０６では、ＣＰＵ８０６は、認識処理部８０１を起動するので、認識処理部８０１は処理を実行する。認識処理部８０１の処理が完了すると、該処理の結果（検出結果や中間階層の特徴データ）が再度ＲＡＭ８０８に格納される。

ステップＳ２０７では、ＣＰＵ８０６は、全階層の処理が完了したか否かを判断する。この判断の結果、全階層の処理が完了した場合には、図２のフローチャートに従った処理は終了する。一方、未だ処理が完了していない階層が残っている場合には、処理はステップＳ２０４に進み、未だ処理が完了していない階層についてステップＳ２０４以降の処理を行う。

組み込み機器向けの小規模なニューラルネットワークでは、全階層を一度に処理することが可能であるため、この場合はステップＳ２０７では「全階層の処理は完了した」と判断して、図２のフローチャートに従った処理は終了する。一方、大規模なニューラルネットワークでは、一度にすべての階層を処理することができないため、ニューラルネットワークを時分割で処理することとなる。この場合、ステップＳ２０７では、時分割で行っている処理が未だ施されていない階層が残っている場合には、処理はステップＳ２０４に進み、残りの階層の処理を実施する。２回目以降のステップＳ２０５の処理は、ＲＡＭ８０８に格納した認識処理部８０１の処理結果を処理対象のデータとして転送する。

次に、上記のステップＳ２０６における処理の詳細について、図３のフローチャートに従って説明する。制御部１０１が全体を制御する。ステップＳ２０５の処理が完了した時点で、認識処理部８０１の処理対象の階層に関する情報はネットワーク情報保持部１０１１に設定されている。

ステップＳ３０２では、制御部１０１は、ネットワーク情報保持部１０１１に保持された情報を、階層単位で特徴面格納部１０２、畳み込み演算部１０３に対して制御パラメータとして送信し、処理開始指示を出す。

ステップＳ３０３では、特徴面格納部１０２は、入力層の処理であるか否かを判定する。この判定の結果、入力層の処理である場合には、処理はステップＳ３０４に進み、入力層以外の階層の処理である場合には、処理はステップＳ３０５に進む。

ステップＳ３０４では、特徴面格納部１０２は、画像データを参照特徴面として出力する。一方、ステップＳ３０５では、特徴面格納部１０２は、前階層の特徴面を特徴面保持部１０２１から読み出し、参照特徴面として出力する。

ステップＳ３０６では、畳み込み演算部１０３は、参照特徴面と重み係数に基づき畳み込み演算を行い、演算結果を特徴面格納部１０２に送信する。ステップＳ３０７では、メモリアクセス管理部１０２２は、生成された特徴面のメモリ配置を決定し、該決定されたメモリ配置に従って特徴面を特徴面保持部１０２１に格納する。メモリ配置の詳細については、図４～６を用いて後述する。

次に、ステップＳ３０８では、特徴面格納部１０２は全特徴面の生成が完了したか否かを判定する。この判定の結果、全特徴面の生成が完了した場合には、処理はステップＳ３０９に進む。一方、未だ生成が完了していない特徴面が残っている場合には、処理はステップＳ３０３に進み、未だ生成が完了していない特徴面についてステップＳ３０３以降の処理を行う。

ステップＳ３０９では、特徴面格納部１０２および畳み込み演算部１０３は制御部１０１に対して完了通知を出す。そして制御部１０１は完了通知を受けると、最終階層の処理が完了したか否かを判定する。

この判定の結果、最終階層の処理が完了した場合には、処理はステップＳ３１０に進む。一方、最終階層の処理がまだ完了していない場合には、処理はステップＳ３０２に進み、さらに制御部１０１は次の階層の処理を指示する。

ステップＳ３１０では、制御部１０１は最終階層の処理が完了すると、ＣＰＵ１０４に最終階層の番号等のネットワーク情報を与え、処理開始指示を出す。ＣＰＵ１０４はネットワーク情報に基づき、最終階層の特徴面を読み出し、位置座標を特定し、処理を終了する。ステップＳ３１０の処理の詳細（ステップＳ３１０１～ステップＳ３１０４）については後述する。

次に、図４～６を用いて、メモリアクセス管理部１０２２が制御するメモリ配置について説明する。図４は、図９の第１階層９０８と第２階層９０９の特徴面を特徴面保持部１０２１のメモリに割り当てる割り当て方法の一例を示す図である。

特徴面格納部１０２の特徴面は、階層を単位に複数のメモリにインターリーブする。また、特徴面格納部１０２の特徴面は、ラインを単位に複数のメモリにインターリーブする。

図９の左側には、第１階層９０８の特徴面９０３ａ～ｄ、第２階層９０９の特徴面９０５ａ～ｄの画素値を示している。特徴面９０３ａの左上隅の位置を（０，０）としたときの位置（ｘ、ｙ）における特徴面９０３ａの画素値をａ（ｘ、ｙ）と表している。特徴面９０３ｂの左上隅の位置を（０，０）としたときの位置（ｘ、ｙ）における特徴面９０３ｂの画素値をｂ（ｘ、ｙ）と表している。特徴面９０３ｃの左上隅の位置を（０，０）としたときの位置（ｘ、ｙ）における特徴面９０３ｃの画素値をｃ（ｘ、ｙ）と表している。特徴面９０３ｃの左上隅の位置を（０，０）としたときの位置（ｘ、ｙ）における特徴面９０３ｃの画素値をｃ（ｘ、ｙ）と表している。特徴面９０５ａの左上隅の位置を（０，０）としたときの位置（ｘ、ｙ）における特徴面９０５ａの画素値をａ（ｘ、ｙ）と表している。特徴面９０５ｂの左上隅の位置を（０，０）としたときの位置（ｘ、ｙ）における特徴面９０５ｂの画素値をｂ（ｘ、ｙ）と表している。特徴面９０５ｃの左上隅の位置を（０，０）としたときの位置（ｘ、ｙ）における特徴面９０５ｃの画素値をｃ（ｘ、ｙ）と表している。特徴面９０５ｄの左上隅の位置を（０，０）としたときの位置（ｘ、ｙ）における特徴面９０５ｄの画素値をｄ（ｘ、ｙ）と表している。

図４では、第１階層９０８の特徴面の水平方向のサイズは３２画素、垂直方向のサイズは３２画素としており、第２階層９０９の特徴面の水平方向のサイズは１６画素、垂直方向のサイズは１６画素としている。１座標の画素値のデータは１バイトとする。図４の右側には、各特徴面をメモリに割り当てる方法の一例を示している。

特徴面保持部１０２１が有するメモリ群を２つのグループに分け、一方のグループを第１のメモリ群、他方のグループを第２のメモリ群とする。本実施形態では、特徴面保持部１０２１は６つのデュアルポートＳＲＡＭ（メモリ０～メモリ５）を有するので、メモリ０～メモリ２を第１のメモリ群、メモリ３～メモリ５を第２のメモリ群とする。そして階層ごとに特徴面を、第１のメモリ群、第２のメモリ群の順に交互に配置する。これにより、入力特徴面と出力特徴面を別のメモリに配置し、読み出しと書き込みを同時に行うことができ、高速に処理を行うことができる。さらに、１枚の特徴面をライン（Ｙ座標が同一の画素群をラインと呼ぶ）毎に異なるメモリに割り当てる。つまり、本実施形態の場合、特徴面の連続する３ラインが異なるメモリに配置される。これにより、コンボリューションカーネルのサイズが３×３以下のときは畳み込み演算部１０３に入力する参照特徴面の画素を同時に読み出すことができ、高速に処理ができる。コンボリューションカーネルサイズが３×３より大きいときは２サイクルで読み出すことができる。

上述の説明に従い、図４の右側に示すように、第１階層９０８の特徴面９０３ａ～ｄには１ライン毎に、メモリ０、メモリ１、メモリ２を交互に割り当てる。特徴面９０３ａの最終ラインに割り当てたメモリはメモリ１であるので、特徴面９０３ｂの１ライン目には次のメモリであるメモリ２を割り当てる。メモリを効率的に使用するために、特徴面を跨ぐときにも、連続するラインと同様にメモリを割り当てる。同様に特徴面９０３ｃにもラインごとにメモリ１、メモリ２、メモリ０を交互に割り当て、特徴面９０３ｄにもラインごとにメモリ０、メモリ１、メモリ２を交互に割り当てる。

第２階層９０９の特徴面９０５ａ～ｄには１ライン毎に、メモリ３、メモリ４、メモリ５を交互に割り当てる。特徴面９０５ａの最終ラインに割り当てたメモリはメモリ３であるので、特徴面９０５ｂの１ライン目には次のメモリであるメモリ４を割り当てる。メモリを効率的に使用するために、特徴面を跨ぐときにも、連続するラインと同様にメモリを割り当てる。同様に特徴面９０５ｃにもラインごとにメモリ３、メモリ４、メモリ５を交互に割り当て、特徴面９０５ｄにもラインごとにメモリ３、メモリ４、メモリ５を交互に割り当てる。

図５は、図４に示した割り当て方法に従って割り当てられた各メモリの特徴面のアドレスの割り当て方法の一例を示す図である。メモリはデータ幅４バイトであるから、１アドレスに４画素のデータを格納することになる。ｘ座標が小さい画素から順に下位バイトに詰めるものとする。

メモリ０には、アドレス０～０ｘ７に特徴面９０３ａの１ライン目の画素の画素値、アドレス０ｘ８～０ｘｆに４ライン目の画素の画素値、アドレス０ｘ１０～０ｘ１７に７ライン目の画素の画素値…と３ラインオフセットの３２画素の画素値を格納する。この３２画素の画素値のデータサイズは３２バイトである。

特徴面９０３ａの１１ライン分の画素値を格納後、次のアドレス０ｘ５８から特徴面９０３ｂの２ライン目の画素の画素値を格納する。同様に、特徴面９０３ｃ、特徴面９０３ｄについても画素値を格納する。メモリ１には、アドレス０～０ｘ７に９０３ａの２ライン目のデータから順に３ラインオフセットで３２画素を格納し、続いて、特徴面９０３ｂ～ｄについても画素値を格納する。メモリ２にも同様に特徴面９０３ａ～ｄの画素値を格納する。メモリ３～５にも、それぞれ同様に、第２階層９０８の特徴面９０５ａ～ｄの３ラインオフセットの１６画素の画素値（１６バイト）を格納する。

次に、上記のステップＳ３０７にて、メモリアクセス管理部１０２２が特徴面番号ｎの特徴面の座標（ｘ、ｙ）における画素値を格納するメモリと、そのアドレスを決定する方法について、図６のフローチャートに従って説明する。

ステップＳ３０２では、制御部１０１は、制御パラメータとして処理対象及び生成対象の階層の階層番号、特徴面の水平サイズｗ、垂直サイズｈ、特徴面数、を階層単位で特徴面格納部１０２、畳み込み演算部１０３に対して送信する。畳み込み演算部１０３は、全特徴面のデータをラスタ順に出力するものとする。畳み込み演算部１０３が出力すると図６のフローチャートに従った処理が開始される。

ステップＳ６０２では、メモリアクセス管理部１０２２は、特徴面番号ｎ、座標（ｘ、ｙ）の全特徴面のラインの通し番号ＬをＬ＝（ｎ－１）×ｈ＋ｙを計算することで求める。

ステップＳ６０３では、メモリアクセス管理部１０２２は、通し番号Ｌを特徴面保持部１０２１のメモリ数に応じて剰余演算することで、格納先メモリ番号ｍｅｍを決定する。つまりメモリアクセス管理部１０２２は、ｍｅｍ＝ｍｏｄ（Ｌ，（メモリ数／２））を計算することで、格納先メモリ番号ｍｅｍを求める。

ｍｅｍ＝０の場合（剰余演算結果が０のとき）、処理はステップＳ６０４に進む。ステップＳ６０４では、メモリアクセス管理部１０２２は、生成対象の階層の階層番号が奇数か否かを判定し、奇数の場合は処理はステップＳ６０５に進み、偶数の場合はステップＳ６０６に進む。ステップＳ６０５ではメモリアクセス管理部１０２２は、画素値をメモリ０へ格納し、ステップＳ６０６ではメモリアクセス管理部１０２２は、画素値をメモリ３へ格納する。

ｍｅｍ＝１の場合（剰余演算結果が１のとき）、処理はステップＳ６０７に進む。ステップＳ６０７では、メモリアクセス管理部１０２２は、生成対象の階層の階層番号が奇数か否かを判定し、奇数の場合は処理はステップＳ６０８に進み、偶数の場合はステップＳ６０９に進む。ステップＳ６０８ではメモリアクセス管理部１０２２は、画素値をメモリ１へ格納し、ステップＳ６０９ではメモリアクセス管理部１０２２は、画素値をメモリ４へ格納する。

ｍｅｍ＝２の場合（剰余演算結果が２のとき）、処理はステップＳ６１０に進む。ステップＳ６１０では、メモリアクセス管理部１０２２は、生成対象の階層の階層番号が奇数か否かを判定し、奇数の場合は処理はステップＳ６１１に進み、偶数の場合はステップＳ６１２に進む。ステップＳ６１１ではメモリアクセス管理部１０２２は、画素値をメモリ２へ格納し、ステップＳ６１２ではメモリアクセス管理部１０２２は、画素値をメモリ５へ格納する。

このように画素値の格納先を決定することで、奇数番号の階層から偶数番号の階層を生成するとき、参照特徴面を読み出すメモリと生成特徴面を書き出すメモリが別々となる。同様に偶数番号の階層から奇数番号の階層を生成するとき、参照特徴面を読み出すメモリと生成特徴面を書き出すメモリが別々となる。また、生成特徴面はラインの通し番号順に１ラインずつ異なるメモリに格納することになり、参照特徴面として読み込むときに複数ラインが同時に読み込める。

そしてステップＳ６１３では、メモリアクセス管理部１０２２は、メモリのアドレスを算出する。１ラインの先頭画素を格納するアドレスＡ０については、Ａ０＝Ｌ／（メモリ数／２）×ｗ／４を計算することで求め、アドレスＡ１については、Ａ０＋ｘ／４を計算することで求める。

次に、上記のステップＳ３１０における処理の詳細について説明する。図７はＣＰＵ１０４のメモリマップの一部を示す図である。メモリ０～５はそれぞれ８ＫＢのメモリとし、特定のベースアドレスから４８ＫＢの連続した領域に割り当てる。メモリ０の先頭アドレスは０番地、メモリ１以降の先頭アドレスは０ｘ２０００番地ずつ加算される。

メモリ制御部１０５は、アクセス要求のアドレスに応じてメモリのチップセレクトを選択する。例えば、０番地から０ｘ１ＦＦＦ番地へのアクセス要求はメモリ０のチップセレクトを、０ｘ２０００番地から０ｘ３ＦＦＦ番地へのアクセス要求はメモリ１のチップセレクトを選択する。また、メモリのアドレスはアクセス要求のアドレスの［１３：２］とする。

ステップＳ３１０１では、ＣＰＵ１０４は、ネットワーク情報を取得する。制御部１０１が制御パラメータとして最終階層の階層番号、特徴面の水平サイズｗ、垂直サイズｈ、特徴面数を引き渡し、ＣＰＵ１０４はこの制御パラメータを参照する。

次に、ステップＳ３１０２では、特徴面番号ｎ、座標（ｘ、ｙ）の特徴面の画素値を読み出すために図６のフローチャートに従った処理が実行され、格納メモリとアドレスＡ１が特定される。ここでは、図６のフローチャートに従った処理はＣＰＵ１０４が行っても良いし、メモリアクセス管理部１０２２が行っても良い。

そしてステップＳ３１０３では、ＣＰＵ１０４は、ステップＳ３１０２で特定された格納メモリとアドレスＡ１から、以下のような変換処理を行うことで、メモリマップ上のアドレスを取得する。

格納メモリがメモリ０のとき、アドレス＝Ａ１×４
格納メモリがメモリ１のとき、アドレス＝Ａ１×４＋０ｘ２０００
格納メモリがメモリ２のとき、アドレス＝Ａ１×４＋０ｘ４０００
格納メモリがメモリ３のとき、アドレス＝Ａ１×４＋０ｘ６０００
格納メモリがメモリ４のとき、アドレス＝Ａ１×４＋０ｘ８０００
格納メモリがメモリ５のとき、アドレス＝Ａ１×４＋０ｘａ０００
そしてステップＳ３１０４ではＣＰＵ１０４は、変換後のアドレスでメモリ制御部１０５にアクセス要求を出し、該アクセス要求に応じて読み出された特徴面の画素値を取得し、位置座標を特定する。

このように、本実施形態によれば、共有メモリにデータ転送する時間をなくし、かつ、バス帯域を削減することができる。また、ＣＮＮの処理を行うハードウェア（ＣＮＮ処理ハードウェア）のメモリは、ＣＰＵのアドレスマップドメモリとなる。そのため、ＣＮＮ処理ハードウェアが動作しないときはＣＰＵのワークメモリとして使用することもでき、ワークメモリを別途設ける必要がなく、コストを削減できる。

［第２の実施形態］
以下では第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。本実施形態に係る認識処理部８０１の構成例について、図１１のブロック図を用いて説明する。

本実施形態では、メモリマップ上の４８ＫＢの連続した領域に、先頭アドレス０番地から順に、処理対象の階層の特徴面がラスタ順に連続して格納されているものとして扱う。つまり、特徴面の水平サイズｗ、垂直サイズｈに応じて、特徴面番号ｎ、座標（ｘ、ｙ）の特徴面のデータのメモリマップ上のアドレスＡ２は以下の式で決定する。

Ａ２＝ｗ×ｈ×ｎ（特徴面オフセット）＋ｙ×ｗ（ラインオフセット）＋ｘ
メモリ制御部１０５１は、ＳＲＡＭインターフェースは１つ（チップセレクトは１つ）であるという構成の元、アクセス要求アドレスをそのままＳＲＡＭのアドレス信号とする。ＳＲＡＭインターフェースはメモリアクセス管理部１０２４に接続される。ステップＳ３１０にてＡ２へのＳＲＡＭアクセスがそのままメモリアクセス管理部１０２４に通知される。

特徴面保持部１０２３はシングルポートＳＲＡＭとする。メモリアクセス管理部１０２４は、メモリ制御部１０５１のＳＲＡＭインターフェースからアクセス要求があるとき、そのアドレスと特徴面の水平サイズｗ、垂直サイズｈ、階層番号から、特徴面番号ｎ、座標（ｘ、ｙ）を特定する。そして図６のフローチャートに従って格納先メモリとアドレスを決定してメモリからデータを読み込む。リードデータは、メモリ制御部１０５１へ出力する。

このように、本実施形態では、ＣＮＮ処理ハードウェアが出力した演算結果に対して後処理するＣＰＵ１０４が、特徴面の水平サイズ、垂直サイズに応じ、メモリマップ上の特定アドレスへのアクセス要求を出す。メモリアクセス管理部１０２４が中間層および最終層の特徴面を格納するメモリのインターフェースから直接読み出すことで、第１の実施形態と同様の効果を得ることができる。なお、汎用ＣＰＵ、アドレスマップドメモリとしてそれぞれ、認識処理部８０１の外部にあるＣＰＵ８０６、ＲＡＭ８０８を使用しても良い。

なお、上記の各実施形態では、図１，１１に示した全ての機能部をハードウェアで実装したケースについて説明した。しかし、図１，１１に示した機能部のうち一部の機能部をソフトウェア（コンピュータプログラム）で実装しても良い。この場合、このコンピュータプログラムはＲＯＭ８０７等のメモリに格納され、ＣＰＵ８０６等のプロセッサがこのコンピュータプログラムを実行することで、対応する機能部の機能を実現させることができる。

なお、上記の説明において使用した具体的な数値は、具体的な説明を行うために使用したものであって、上記の各実施形態がこれらの数値に限定されることを意図したものではない。なお、以上説明した各実施形態の一部若しくは全部を適宜組み合わせても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に用いても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０１：制御部１０２：特徴面格納部１０２１：特徴面保持部１０２２：メモリアクセス管理部１０３：畳み込み演算部１０４：ＣＰＵ１０５：メモリ制御部

Claims

階層型ニューラルネットワークに入力データを入力して該階層型ニューラルネットワークの各階層における演算処理を行う演算処理装置であって、
前記各階層における特徴面を、該階層の前の階層の特徴面を参照して算出する演算部と、
前記演算部によって算出され、参照される特徴面を保持する複数のメモリを有する特徴面保持部と、
前記演算処理を行うそれぞれの階層に関する情報であるネットワーク情報に基づいて、前記複数のメモリに前記演算部によって算出された特徴面を配置して書き込み、該複数のメモリから前記演算部によって参照される特徴面を読み出すメモリアクセス管理部と、
前記特徴面保持部がメモリ空間にアドレスマップされており、前記ネットワーク情報に基づいて該メモリ空間にアドレスマップされた特徴面の画素値のアドレスを算出し、該アドレスを用いて該特徴面保持部から画素値を読み出して処理するプロセッサと
を備えることを特徴とする演算処理装置。
前記ネットワーク情報は、階層ごとの特徴面の幅および高さ、特徴面の数、を含むことを特徴とする請求項１に記載の演算処理装置。
前記メモリは前記それぞれの階層のうち中間層または最終層の特徴面を格納し、前記プロセッサは中間層または最終層の特徴面を処理することを特徴とする請求項１に記載の演算処理装置。
前記プロセッサは前記ネットワーク情報と前記メモリアクセス管理部の情報に基づき前記アドレスを算出することを特徴とする請求項１に記載の演算処理装置。
前記メモリアクセス管理部は、前記特徴面保持部の特徴面を、階層を単位に複数のメモリにインターリーブさせて配置することを特徴とする請求項１に記載の演算処理装置。
前記メモリアクセス管理部は、前記特徴面保持部の特徴面を、ラインを単位に複数のメモリにインターリーブさせて配置することを特徴とする請求項１に記載の演算処理装置。
前記メモリアクセス管理部は、前記プロセッサのアクセス要求アドレスに基づき、前記メモリの格納先を算出し、データを読み出し、返すことを特徴とする請求項１に記載の演算処理装置。
階層型ニューラルネットワークに入力データを入力して該階層型ニューラルネットワークの各階層における演算処理を行う演算処理装置が行う演算処理方法であって、
前記演算処理装置は、
前記各階層における特徴面を、該階層の前の階層の特徴面を参照して算出する演算部と、
前記演算部によって算出され、参照される特徴面を保持する複数のメモリを有する特徴面保持部と、
前記メモリに対する読み書きを管理するメモリアクセス管理部と、
前記特徴面保持部へアクセスするプロセッサと
を備え、
前記メモリアクセス管理部は、前記演算処理を行うそれぞれの階層に関する情報であるネットワーク情報に基づいて、前記複数のメモリに前記演算部によって算出された特徴面を配置して書き込み、該複数のメモリから前記演算部によって参照される特徴面を読み出し、
前記特徴面保持部がメモリ空間にアドレスマップされており、前記プロセッサは、前記ネットワーク情報に基づいて該メモリ空間にアドレスマップされた特徴面の画素値のアドレスを算出し、該アドレスを用いて該特徴面保持部から画素値を読み出して処理することを特徴とする演算処理方法。