JP2021012596A

JP2021012596A - 演算処理装置及び演算処理方法

Info

Publication number: JP2021012596A
Application number: JP2019127080A
Authority: JP
Inventors: しおり脇野; Shiori Wakino
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2021-02-04
Anticipated expiration: 2039-07-08
Also published as: JP7308674B2; US20210011653A1; US11347430B2

Abstract

【課題】メモリからの高速な読み出しと、メモリ利用効率の向上と、を可能にするための技術を提供すること。【解決手段】演算処理装置は、コンボリューション演算を行う演算部と、演算部の画像データと演算結果とを格納する複数のメモリで構成されるデータ保持部とを有する。さらに演算処理装置は、演算部が出力する演算結果を受信し、該受信した演算結果のうち、同一特徴面の連続するラインのデータを異なるメモリに書き込み、同じ階層の複数の特徴面の同一座標のデータを異なるメモリに書き込むメモリ書き込み制御部を有する。さらに演算処理装置は、同一特徴面の連続するラインのデータを異なるメモリから読み出し、同じ階層の異なる特徴面の同一座標のデータを異なるメモリから読み出し、演算部へ送信するメモリ読み出し制御部を有する。【選択図】図１

Description

本発明は、階層的なフィルタ演算処理を行う技術に関するものである。

ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（以下ＣＮＮと略記する）に代表される階層的な演算手法が、認識対象の変動に対して頑健なパターン認識を可能にする手法として注目されている。例えば、非特許文献１では様々な応用例・実装例が開示されている。

図７は簡単なＣＮＮの例を示すネットワーク構成図である。７０１は入力層であり、画像データに対してＣＮＮによる処理を行う場合、ラスタスキャンされた所定サイズの画像データに相当する。７０３ａ〜７０３ｄは第１階層７０８の特徴面、７０５ａ〜７０５ｄは第２階層７０９の特徴面、７０７は第３階層７１０の特徴面を示す。特徴面とは、所定の特徴抽出演算（コンボリューション演算及び非線形処理）の処理結果に相当するデータ面である。特徴面は上位階層で所定の対象を認識するための特徴抽出結果に相当し、ラスタスキャンされた画像データに対する処理結果であるため、処理結果も面で表す。特徴面７０３ａ〜７０３ｄは、入力層７０１に対応するコンボリューション演算と非線形処理により生成されるものである。例えば、特徴面７０３ａは、７０２１ａ〜ｄに模式的に示す２次元のコンボリューション演算と演算結果の非線形変換により算出する。例えば、カーネル（係数マトリクス）サイズがｃｏｌｕｍｎＳｉｚｅ×ｒｏｗＳｉｚｅのコンボリューション演算は以下の式（１）に示すような積和演算により処理する。

ｉｎｐｕｔ（ｘ，ｙ）：２次元座標（ｘ、ｙ）での参照画素値
ｏｕｔｐｕｔ（ｘ，ｙ）：２次元座標（ｘ、ｙ）での演算結果
ｗｅｉｇｈｔ（ｃｏｌｕｍｎ，ｒｏｗ）：座標（ｘ＋ｃｏｌｕｍｎ、ｙ＋ｒｏｗ）での重み係数
Ｌ：前階層の特徴マップ数
ｃｏｌｕｍｎＳｉｚｅ、ｒｏｗＳｉｚｅ：コンボリューションカーネルサイズ
ＣＮＮによる処理では、複数のコンボリューションカーネルを画素単位で走査しながら積和演算を繰り返し、最終的な積和結果を非線形変換することで特徴面を算出する。なお、特徴面７０３ａを算出する場合は、前階層との結合数が１であるため、コンボリューションカーネルは１つである。ここで、７０２１ａ〜ｄはそれぞれ、特徴面７０３ａ〜ｄを算出する際に使用されるコンボリューションカーネルである。

図８は、特徴面７０５ａを算出する場合の例を説明する図である。特徴面７０５ａは、第１階層７０８（前階層）における特徴面７０３ａ〜ｄと結合している。特徴面７０５ａのデータを算出する場合、特徴面７０３ａに対しては７０４１ａで模式的に示すカーネルを用いたフィルタ演算を畳み込み演算処理部８０１にて行い、該フィルタ演算の結果を累積加算器８０２に保持する。同様に特徴面７０３ｂ〜ｄに対してはそれぞれ７０４２ａ、７０４３ａ、７０４４ａで示すカーネルのコンボリューション演算を畳み込み演算処理部８０１にて行い、その演算結果を累積加算器８０２に蓄積する。この４種類のコンボリューション演算の終了後、累積加算器８０２により該４種類のコンボリューション演算の累積加算を行う。そして、該累積加算の結果に対して非線形変換処理部８０３によりロジスティック関数や双曲正接関数（ｔａｎｈ関数）を利用した非線形変換処理を行う。以上の処理を画像全体に対して１画素ずつ走査しながら行うことで特徴面７０５ａを算出する。同様に特徴面７０５ｂ〜ｄは第１階層７０８（前階層）の特徴面に対してそれぞれ７０４１ｂ〜７０４４ｂで示すカーネルのコンボリューション演算、７０４１ｃ〜７０４４ｃで示すカーネルのコンボリューション演算、７０４１ｄ〜７０４４ｄで示すカーネルのコンボリューション演算を行い、累積加算、非線形処理し、算出する。更に、特徴面７０７は、第２階層７０９（前階層）の特徴面７０５ａ〜ｄに対して７０６１〜７０６４で示す４つのコンボリューション演算を用いて算出する。

なお、各カーネル係数はパーセプトロン学習やバックプロパゲーション学習等の一般的な手法を用いて予め学習により決定されているものとする。また、階層ごとにコンボリューションカーネルのサイズが異なることが多い。

特許第５３６８６８７特開昭６１−６２１８７

ＹａｎｎＬｅＣｕｎ、ＫｏｒａｙＫａｖｕｋｖｕｏｇｌｕａｎｄＣｌeｍｅｎｔＦａｒａｂｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｉｎＶｉｓｉｏｎ、Ｐｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ（ＩＳＣＡＳ’１０）、ＩＥＥＥ、２０１０

特許文献１の手法は、内部にＳＲＡＭメモリを備え、中間階層の特徴面７０３ａ〜ｄ、７０５ａ〜ｄの一部、または、全てを格納する中間バッファとして使用する。中間バッファから読み出したデータをコンボリューション演算処理し、得られた処理結果を、中間バッファへ格納する。このとき、１画素当たりのコンボリューション演算処理に必要な参照範囲は、コンボリューションカーネルサイズｃｏｌｕｍｎＳｉｚｅ、ｒｏｗＳｉｚｅで決まる。以下では、ｃｏｌｕｍｎＳｉｚｅ＝Ｎ，ｒｏｗＳｉｚｅ＝ＭのコンボリューションカーネルサイズをＮ×Ｍと表記する。

図９は、第１階層７０８の特徴面７０３ａ〜ｄ、第２階層７０９の特徴面７０５ａ〜ｄ、中間バッファに格納する領域、を示す図である。ここではどちらの階層の特徴面も幅を２０とし、ｎ（ｘ、ｙ）は、特徴面７０３ｎ、７０５ｎ（ｎ＝ａ〜ｄ）のデータ面の座標（ｘ、ｙ）のデータを示す。第２階層７０９を算出するコンボリューション演算のカーネルサイズを４×４とするとき、第２階層７０９の特徴面７０５ａ〜ｄの算出には、上述の式（１）で示されるように第１階層７０８の特徴面７０３ａ〜ｄのｘ方向４画素、ｙ方向４画素を参照する。より具体的には、特徴面７０５ａ〜ｄの座標（０、０）におけるデータを算出するときは第１階層７０８の特徴面７０３ａ〜ｄにおいて領域９０２〜９０５内の画素が参照画素となる。したがって、中間バッファには少なくとも領域９０２〜９０５を格納しておく必要がある。効率よく第２階層７０９の特徴面を算出するためには、第１階層７０８の特徴面７０３ａ〜ｄの（０、０）〜（１９、３）の４ラインを中間バッファに格納し、特徴面７０５ａ〜ｄの（０、０）〜（１９、０）の１ラインをラスタ順に算出するのがよい。

同様に、第３階層７１０を算出するコンボリューション演算のカーネルサイズを５×５とするとき、特徴面７０７の算出にはｘ方向５画素、ｙ方向５画素を参照する。そのため、特徴面７０５ａ〜ｄの（０、０）〜（１９、４）の５ラインを中間バッファに格納し、特徴面７０７の１ラインを算出する。

また、一般的なフィルタ演算では必要になる複数ラインを別々のメモリに格納し、同時に読み出すことで高速化を図る技術が特許文献２などに開示されている。

図１０は、中間バッファを２つのＳＲＡＭ（メモリ０、メモリ１）で構成し、第１階層７０８の特徴面７０３ａ〜ｄを１ライン単位で異なるメモリに配置し、２ラインを同時に読み出すことで処理を高速化するためのメモリ格納方法を示す図である。ＳＲＡＭのデータ幅を４バイト、特徴面における１座標あたりのデータサイズを１バイトとする。

特徴面７０３ａの奇数ラインのデータをメモリ０に、偶数ラインのデータをメモリ１に格納する。メモリ内のラインの先頭アドレスから次のラインの先頭アドレスまでのオフセットをラインオフセットと呼び、メモリ０およびメモリ１のラインオフセットは０ｘ１４である。特徴面７０３ｂ〜ｄについても同様に、奇数ラインのデータをメモリ０に、偶数ラインのデータをメモリ１に格納する。特徴面の先頭アドレスから次の特徴面の先頭アドレスまでのオフセットをチャネルオフセットと呼び、メモリ０およびメモリ１のチャネルオフセットは０ｘ２８である。

ここで、特徴面７０５ａ中の座標（０、０）におけるデータを算出するための動作について説明する。まず、特徴面７０３ａのデータをコンボリューション演算するため、メモリ０およびメモリ１における先頭アドレス０ｘ０のデータを同時に読み出す（すなわち１ライン目と２ライン目のデータを同時に読み出す）。続いて、メモリ０およびメモリ１において、現在の読み出しアドレス０ｘ０にラインオフセットを加算したアドレス０ｘ１４におけるデータを同時に読み出す（すなわち３ライン目と４ライン目のデータを同時に読み出す）。この２回のリードデータを対象にしてコンボリューション演算を行って処理結果を得る。

続いて特徴面７０３ｂのデータは、メモリ０およびメモリ１における先頭アドレス０ｘ０にチャネルオフセットを加算したアドレス０ｘ２８のデータを同時に読み出す（すなわち１ライン目と２ライン目のデータを同時に読み出す）。続いて現在の読み出しアドレスにラインオフセットを加算したアドレス０ｘ３ｃのデータを同時に読み出す（すなわち３ライン目と４ライン目のデータを同時に読み出す）。この２回のリードデータを対象にしてコンボリューション演算を行って処理結果を得る。続いて特徴面７０３ｃ〜ｄについても同様にデータを読み出し、処理結果を得る。

そして、特徴面７０３ａ〜ｄをコンボリューション演算した結果を累積加算し、該累積加算の結果を非線形処理することで、特徴面７０５ａにおける座標（０、０）のデータを得る。

上記に示すように、中間バッファを２つのＳＲＡＭで構成するとき、同時に２ラインのデータが同時に読み出し可能であるため、１つのＳＲＡＭで構成した場合と比較して読み出し回数が１／２になり、高速に処理ができる。また、中間バッファに格納するライン数が偶数の場合はメモリ０、１の読み出しのアドレッシングは同一であるため、アドレッシング回路を共有することができ、コスト削減ができると共に、制御も容易である。

図１１は、上記のメモリ０およびメモリ１で構成される中間バッファに第２階層７０９の特徴面７０５ａ〜ｄの５ラインを格納する方法を示す図である。データは、第１階層７０８の特徴面の格納領域の隣のアドレス０ｘａ０から格納する。

特徴面７０５ａの奇数ラインをメモリ０に、偶数ラインをメモリ１に格納する。特徴面７０５ｂについては、奇数ラインをメモリ０に、偶数ラインをメモリ１に配置するとメモリ０とメモリ１の使用量に偏りが生じるので、メモリを有効に使うため、奇数ラインをメモリ１に、偶数ラインをメモリ０に格納する。特徴面７０５ｃについては、特徴面７０５ａと同様に奇数ラインをメモリ０に、偶数ラインをメモリ１に格納し、特徴面７０５ｄについては、特徴面７０５ｂと同様に奇数ラインをメモリ１に、偶数ラインをメモリ０に配置する。このとき、メモリ０、メモリ１のラインオフセットは０ｘ１４である。チャネルオフセットは固定値ではなく、０ｘ２８と０ｘ３ｃが特徴面によって切り替わる。

ここで、特徴面７０７中の座標（０、０）におけるデータを算出するための動作について説明する。まず、特徴面７０５ａのデータをコンボリューション演算するため、メモリ０およびメモリ１におけるアドレス０ｘａ０からデータを同時に読み出す（すなわち１ライン目と２ライン目のデータを同時に読み出す）。続いて現在の読み出しアドレスにラインオフセットを加算したアドレス０ｘｂ４からデータを同時に読み出す（すなわち３ライン目と４ライン目のデータを同時に読み出す）。さらにメモリ０のみ、現在の読み出しアドレスにラインオフセットを加算したアドレス０ｘｃ８からデータを読み出し（すなわち５ライン目のデータを読み出し）、３回のリードデータを対象にしてコンボリューション演算を行って処理結果を得る。

続いて特徴面７０５ｂのデータを読み出すため、チャネルオフセットを加算する。メモリ０のチャネルオフセットは０ｘ３ｃ、メモリ１のチャネルオフセットは０ｘ２８であり、メモリ０、１のアドレスは異なる。１ライン目および２ライン目のデータとして、メモリ１におけるアドレス０ｘｃ８のデータ、メモリ０におけるアドレス０ｘｄｃのデータを同時に読み出す。また、３ライン目および４ライン目のデータとして、メモリ１におけるアドレス０ｘｃ８のデータ、メモリ０におけるアドレス０ｘｆ０のデータを同時に読み出す。さらに５ライン目のデータとして、メモリ１におけるアドレス０ｘｆ０のデータを読み出し、３回のリードデータを対象にしてコンボリューション演算を行って処理結果を得る。

続いて特徴面７０５ｃのデータを読み出すため、チャネルオフセットを加算する。このときのメモリ０のチャネルオフセットは０ｘ２８、メモリ１のチャネルオフセットは０ｘ３ｃであり、特徴面７０５ｂのデータを読み出すときのチャネルオフセットと異なる。

同様に特徴面７０５ｃ、７０５ｄのデータを各々読み出し、コンボリューション演算した結果を累積し、次階層の特徴面の座標（０、０）におけるデータとする。

上記に示すように、中間バッファに格納する特徴面のライン数が奇数の場合はメモリ０、１の読み出しのアドレスが異なるため、個別にアドレッシング回路が必要となり、さらにチャネルオフセットを切り替えながらアドレッシングするため、制御が複雑になる。

また、図１０の構成において、中間バッファに５ライン格納する別の方法として、多めに６ラインを格納することでメモリ０、１の読み出しのアドレッシングは同一にできるが、１ラインの無駄が発生する。

上記の如くＣＮＮにおける処理では、階層ごとにコンボリューションカーネルのサイズは様々で、中間バッファを複数個のメモリで構成する場合、カーネルサイズによってはメモリのアドレッシングが複雑になる、メモリ利用効率が低下する、という課題がある。本発明では、メモリからの高速な読み出しと、メモリ利用効率の向上と、を可能にするための技術を提供する。

本発明の一様態は、入力された画像データに対して階層的にフィルタ演算処理を施して複数の特徴面を算出する演算処理装置であって、コンボリューション演算を行う演算部と、前記演算部の画像データと演算結果とを格納する複数のメモリで構成されるデータ保持部と、前記演算部が出力する演算結果を受信し、該受信した演算結果のうち、同一特徴面の連続するラインのデータを前記複数のメモリのうち異なるメモリに書き込み、同じ階層の複数の特徴面の同一座標のデータを前記複数のメモリのうち異なるメモリに書き込むメモリ書き込み制御部と、同一特徴面の連続するラインのデータを、前記データ保持部の異なるメモリから読み出し、同じ階層の異なる特徴面の同一座標のデータを、前記データ保持部の異なるメモリから読み出し、前記演算部へ送信するメモリ読み出し制御部とを備えることを特徴とする。

本発明の構成によれば、メモリからの高速な読み出しとメモリ利用効率の向上とを容易なアドレッシングで可能にする。つまり、中間階層のデータを使用する演算で発生する中間バッファからのメモリの読み出し回数を減らすことができ、パターン認識を行う装置の処理性能を向上させつつ、中間バッファのメモリ量および回路規模の削減が可能である。

ＣＮＮ処理部６０１のハードウェア構成例を示すブロック図。メモリ書き込み制御部１０３の動作のフローチャート。メモリ読み出し制御部１０４の動作のフローチャート。ＣＮＮ処理部６０１の動作に関する処理のフローチャート。メモリ０およびメモリ１におけるデータ格納状態を示す図。メモリ０およびメモリ１におけるデータ格納状態を示す図。画像処理システムのハードウェア構成例を示すブロック図。簡単なＣＮＮの例を示すネットワーク構成図。特徴面７０５ａを算出する場合の例を説明する図。第１階層７０８の特徴面７０３ａ〜ｄ、第２階層７０９の特徴面７０５ａ〜ｄ、中間バッファに格納する領域、を示す図。２個のＳＲＡＭで構成する中間バッファにおける４ラインデータ格納方法を示す図。２個のＳＲＡＭ構成する中間バッファにおける５ラインデータ格納方法を示す図。ラスタ順に演算処理する場合のメモリ書き込み制御部１０３の動作のフローチャート。先にラスタ順に演算処理する場合のメモリ読み出し制御部１０４の動作のフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
先ず、本実施形態に係る演算処理装置としてのパターン認識装置を利用した画像処理システムのハードウェア構成例について、図６のブロック図を用いて説明する。本実施形態に係る画像処理システムは、入力画像から特定の物体の領域を検出する機能を有する。

画像入力部６００は、撮像を行うことで画像データを入力画像として取得する。画像データは動画像における各フレームの画像のデータであっても良いし、静止画像のデータであっても良い。画像入力部６００は、光学系、ＣＣＤ（Ｃｈａｒｇｅ−ＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）又はＣＭＯＳ（ＣｏｍｐｌｉｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサ等の光電変換デバイス及びセンサを制御するドライバー回路／ＡＤコンバータ／各種画像補正を司る信号処理回路／フレームバッファ等により構成される。

ＣＮＮ処理部６０１は、本実施形態に係る演算処理装置としてのパターン認識装置を含み、画像入力部６００による画像データから特定の物体の領域を検出する。ＣＮＮ処理部６０１はメモリ６０１ａを有しており、該メモリ６０１ａは中間バッファとして利用する２つのメモリ（後述するメモリ０およびメモリ１）を有しており、この２つのメモリにより２ラインの同時アクセスが可能である。

ＤＭＡＣ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓＣｏｎｔｒｏｌｌｅｒ）６０５は、画像バス６０２上の各処理部と、ＣＰＵバス６０９上の各処理部と、の間のデータ転送を司る。

ブリッジ６０３は、画像バス６０２とＣＰＵバス６０９のブリッジ機能を提供する。

前処理部６０４は、ＣＮＮ処理部６０１によるパターン認識処理を効果的に行うための各種の前処理を行う。具体的には、前処理部６０４は、画像入力部６００が取得した画像データに対して色変換処理／コントラスト補正処理等の画像変換処理をハードウェアで処理する。

ＣＰＵ６０６は、ＲＯＭ６０７やＲＡＭ６０８に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ６０６は、画像処理システム全体の動作制御を行うと共に、画像処理システムが行うものとして後述する各処理を実行若しくは制御する。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）６０７には、ＣＰＵ６０６の動作を規定する命令を含むコンピュータプログラムやデータなどが格納されている。以下の説明において画像処理システムが既知の情報として取り扱う情報はＲＯＭ６０７に格納されている。

ＲＡＭ６０８はＲＯＭ６０７からロードされたコンピュータプログラムやデータを格納するためのエリア、画像入力部６００が取得した画像データを保持するためのエリア、処理対象とするデータを一時的に保持するためのエリア、等を有する。またＲＡＭ６０８は、ＣＰＵ６０６が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ６０８は各種のエリアを適宜提供することができる。

なお、ＲＡＭ６０８もしくはＲＯＭ６０７には、ＣＮＮ処理部６０１が行うコンボリューション演算に使用する重み係数等のパラメータが格納されている。

画像入力部６００が取得した画像データは前処理部６０４を介してＣＮＮ処理部６０１に入力される。ＣＮＮ処理部６０１は、入力された前処理後の画像データに対して画素単位で所定の判別処理を行うことで、該画像データが表す画像中の特定の物体の領域を検出する。ＣＮＮ処理部６０１によって検出された領域に係る情報（画像中の該領域を規定する情報や該領域内の画像など）は、ＤＭＡＣ６０５によってＲＡＭ６０８に転送されて該ＲＡＭ６０８に格納される。

ＣＮＮ処理部６０１のハードウェア構成例について、図１のブロック図を用いて説明する。ＣＮＮ処理部６０１は、図７を用いて説明した中間層の特徴面を、階層的にフィルタ演算処理を施すことで算出する。特徴面は、座標単位で特徴面順に算出し、さらにｘ方向に算出する。例えば、座標（ｘ、ｙ）のデータを７０３（７０５）ａ、７０３（７０５）ｂ、７０３（７０５）ｃ、７０３（７０５）ｄの順（ａ−ｄ順）で求めると、次に座標（ｘ＋１、ｙ）のデータをａ−ｄ順で求め、次に座標（ｘ＋２、ｙ）のデータをａ−ｄ順で求める。

制御部１０５は、ＣＮＮ処理部６０１の全体を制御する。制御部１０５は内部に不図示の動作設定レジスタを有しており、該動作設定レジスタが保持するレジスタ値は、レジスタインターフェースを経由してＣＰＵ６０６により設定される。動作設定レジスタが保持するレジスタ値は、不図示の信号線を介して、後述するコンボリューション演算部１０１、メモリ書き込み制御部１０３、メモリ読み出し制御部１０４へ送出される。

動作設定レジスタはレジスタ値として、階層毎の特徴面の情報（特徴面の幅、ライン数、特徴面数、特徴面を配置する中間バッファの先頭アドレス、ライン数）、階層間の結合の情報（コンボリューションカーネルのサイズ）を保持している。また動作設定レジスタはイネーブルレジスタを有する。

ＣＰＵ６０６が、全階層の特徴面の情報、階層間の結合の情報を設定し、イネーブルレジスタをオンにすると、制御部１０５は、全階層の特徴面の算出順序を１ライン単位で決定する。つまり、１ライン単位で算出対象の階層を切り替えて処理する。算出対象の階層内では、１座標ずつ特徴面方向に算出し、さらに座標をラスタ方向にずらし全特徴面の１ラインを処理する。

制御部１０５は上記の決定した順序に基づき算出対象の階層の番号（階層番号）と算出対象のラインの番号（ライン番号：ｙ座標）をコンボリューション演算部１０１、メモリ書き込み制御部１０３、メモリ読み出し制御部１０４に送出して処理開始指示を出す。

コンボリューション演算部１０１は、外部から転送された画像データを入力するインターフェース、コンボリューション演算に使用する重み係数を入力するインターフェースを有する。さらにコンボリューション演算部１０１は、後述するメモリ読み出し制御部１０４から送信された中間階層データを入力するインターフェース、演算結果をメモリ書き込み制御部１０３に出力するインターフェースを備える。そしてコンボリューション演算部１０１は、画像データと中間階層データのどちらか一方の入力データを選択して（制御部１０５から処理開始指示時に引き渡される算出対象の階層の番号に応じて選択する）演算する。また、コンボリューション演算部１０１は、内部に複数の重み係数を格納するメモリを有し、算出対象の階層の番号に応じて、重み係数を選択して使用する。

算出対象が第１階層７０８の特徴面である場合、コンボリューション演算部１０１は画像データを入力とし、特徴面７０３ａ〜ｄの算出に使用する重み係数を使用する。また、算出対象が第２階層７０９の特徴面である場合、中間階層データを入力とし、特徴面７０５ａ〜ｄの算出に使用する重み係数を選択する。また、算出対象が第３階層７１０の特徴面７０７である場合、中間階層データを入力とし、特徴面７０７の算出に使用する重み係数を選択する。演算結果は画素単位で出力する。

データ保持部１０２は、中間階層のデータをバッファするためのメモリ（中間バッファ）であり、リード・ライト２ポート、データ幅４バイトのＳＲＡＭ２個で構成する。ＳＲＡＭのライトポートのインターフェースは、チップセレクト（ＷＣＳ）、ライトイネーブル（ＷＥ）、ライトアドレス（ＷＡ）、ライトデータ（ＷＤ）の信号で構成される。リードポートのインターフェースはチップセレクト（ＲＣＳ）、リードアドレス（ＲＡ）、リードデータ（ＲＤ）の信号で構成される。２個のＳＲＡＭのうち一方をメモリ０、他方をメモリ１と称する。中間階層（第１階層７０８、第２階層７０９、第３階層７１０）における特徴面のデータは階層ごとに中間バッファの先頭アドレスとライン数を指定して配置される。それぞれの中間バッファの領域はリングバッファとして使用される。

書き込み制御部１０３は、コンボリューション演算部１０１による演算結果を画素単位で受信し、データ保持部１０２へ書き込む。書き込み制御部１０３は、メモリ０およびメモリ１のライトポートのチップセレクトＷＣＳ［０］、ＷＣＳ［１］、ライトイネーブルＷＥ［０］、ＷＥ［１］、ライトアドレスＷＡ［０］、ＷＡ［１］、ライトデータＷＤ［０］、ＷＤ［１］を制御する。信号名に続く［番号］はメモリの番号（メモリ番号）を示す。メモリ０のメモリ番号は「０」、メモリ１のメモリ番号は「１」である。メモリのインターフェース信号の制御は、制御部１０５から与えられる算出対象の階層の番号と算出対象のラインの番号（ｙ座標）に基づき行われる。

メモリ書き込み制御部１０３の動作について、図２のフローチャートに従って説明する。メモリ書き込み制御部１０３は、制御部１０５から、算出対象の階層の番号、算出対象のラインの番号（ｙ座標）、処理開始指示が与えられると処理を開始する。与えられた階層番号から、メモリに書き込む階層の特徴面の情報（特徴面の幅、特徴面数、特徴面を配置する中間バッファの先頭アドレス、ライン数）を特定する。

ステップＳ２０１では、書き込み対象となる中間バッファのラインの番号（ライン番号：ｋ）、チャネルオフセット（Ｃｏｆｓｔ）、ライトアドレス（ＷＡ）を算出する。中間バッファをリングバッファとして使用するため、中間バッファのライン番号であるｋは、算出対象のラインの番号であるｙ座標と中間バッファのライン数から、ｙ座標の中間バッファのライン数による余剰演算（以下、余剰演算子をｍｏｄとする）で決定する。Ｃｏｆｓｔは、（特徴面の幅×中間バッファのライン数）として算出する。ＷＡは、特徴面を配置する中間バッファの先頭アドレス（ＳＡ）と特徴面の幅、ｋで算出する。また、算出対象のｘ座標を０に初期化する。

ステップＳ２０２では、特徴面の番号（特徴面番号）を１に初期化し、特徴面番号＝１のときのライトアドレスを保存する。このライトアドレスは、ｘ座標が進むときに参照するアドレスとなる。

ステップＳ２０３では、演算結果のデータ受信を待機し、演算結果のデータを受信すると、処理はステップＳ２０４に進む。

ステップＳ２０４では、受信したデータ（演算結果のデータ）を書き込むメモリの番号であるメモリ番号Ｍｅｍを決定する。メモリ番号Ｍｅｍは、特徴面番号、中間バッファのライン番号ｋ、メモリ数、を用いて｛（ｋ＋特徴面番号−１）ｍｏｄメモリ数｝と計算される。本実施形態ではメモリ数は２であり、ｙ座標＝０、特徴面番号＝１のとき、Ｍｅｍ＝０となるので、メモリ０を選択し、その後、特徴面番号が増加するごとに、メモリ１、０、１、０と順に切り替える。また、中間バッファのライン番号ｋが増加するごとに同じ特徴面でもメモリを切り替える。

このような決定方法によると、特徴面番号が固定でｋがインクリメントされるとき、メモリ番号はトグルする。すなわち、同一特徴面の連続するラインは異なるメモリに書き込まれる。また、ｋが固定で特徴面番号がインクリメントされるとき、メモリ番号はトグルする。すなわち、連続する特徴面の同一ラインは異なるメモリに書き込まれる。

ステップＳ２０５では、受信データを書き込む。メモリ番号が０のときメモリ０のチップセレクト（ＷＣＳ［０］）をアクティブにし、ライトアドレス（ＷＡ［０］）にＷＡを設定、ライトデータ（ＷＤ［０］）に受信データを設定し、メモリ０へ書き込む。ライトイネーブル（ＷＥ［０］）は、メモリのデータ幅とＷＡの値に応じて適切なビットをアクティブにする。メモリ番号が１のとき、メモリ１に受信データを書き込む。

ステップＳ２０６にて次の特徴面のデータを書き込むメモリ番号（ｎｅｘｔＭｅｍ）を算出する。次の特徴面番号は、現在の特徴面番号を１つインクリメントすることで得られ、ｎｅｘｔＭｅｍも現在のメモリ番号を１つインクリメントすることで得られる。

ステップＳ２０７では、次の特徴面のデータを書き込むメモリのメモリ番号ｎｅｘｔＭｅｍが０であるのか、それとも１であるのかを判定する。この判定の結果、次の特徴面のデータを書き込むメモリのメモリ番号ｎｅｘｔＭｅｍが０のとき、処理はステップＳ２０８に進む。一方、次の特徴面のデータを書き込むメモリのメモリ番号ｎｅｘｔＭｅｍが１のとき、処理はステップＳ２０９に進む。

ステップＳ２０８では、ライトアドレスを現在のライトアドレスにチャネルオフセットを加算した値に更新する。一方、ステップＳ２０９では、ライトアドレスは更新しない。つまり、特徴面番号Ｎ、Ｎ＋１（Ｎは奇数）の同一座標のデータは、ライトアドレスは替えず、メモリ番号のみ変えた場所に格納される。

ステップＳ２１０では、特徴面番号が特徴面数に達しているか否かを判定する。この判定の結果、達している場合には、処理はステップＳ２１１に進む。一方、達していない場合には、達するまで特徴面番号をインクリメントし、ステップＳ２０３〜ステップＳ２０９の処理を実行する。

ステップＳ２１１では、ライトアドレスをステップＳ２０２で保存した特徴面番号１のときのライトアドレスを１つインクリメントしたアドレスに更新する。ｘ座標が特徴面の幅に達するまでｘ座標をインクリメントして、再度、特徴面番号１のデータから順に格納する。

ステップＳ２１２では、ｘ座標が特徴面幅に達しているか否かを判定する。この判定の結果、達している場合には、図２のフローチャートに従った処理は終了する。一方、達していない場合には、達するまでｘ座標をインクリメントし、ステップＳ２０３〜ステップＳ２１１を実行する。

図２のフローチャートに従った処理によると、ステップＳ２０４〜ステップＳ２０５に示す通り、同一特徴面の連続するラインは異なるメモリに格納されるため、２ライン同時に読み出すことが可能である。また、ステップＳ２０６〜ステップＳ２０９に示す通り、特徴面番号Ｎ、Ｎ＋１（Ｎは奇数）の同一座標のデータは、ライトアドレスは替えず、メモリ番号のみ変えて対応するメモリに格納される。然るに、特徴面数が２の倍数のとき、中間バッファのライン数に依らず２個のメモリには等しいデータ量のデータが格納される。具体的には、ステップＳ２０６〜ステップＳ２０９のアドレス更新方法によると、特徴面番号Ｎ、Ｎ＋１の特徴面を１組とし、同じ組内の特徴面の同一座標のデータを異なるメモリの同一アドレスに格納する。

図１に戻って、メモリ読み出し制御部１０４は、データ保持部１０２からデータを読み出し、該読み出したデータを、コンボリューション演算部１０１に参照画素データとなる中間階層データを送信する。メモリ読み出し制御部１０４は、データ保持部１０２の２つのメモリ（メモリ０およびメモリ１）のリードポートのチップセレクトＲＣＳ［０］、ＲＣＳ［１］、アドレスＲＡ［０］、ＲＡ［１］を制御する。信号名に続く番号はメモリ番号を示す。メモリのインターフェース信号の制御は、制御部１０５から与えられる算出対象の階層の番号と算出対象のラインの番号（ｙ座標）に基づき行われる。参照画素データは最大２ラインずつ、複数回に分けてコンボリューション演算部１０１に送信される。

メモリ読み出し制御部１０４の動作について、図３のフローチャートに従って説明する。メモリ読み出し制御部１０４は、制御部１０５から、算出対象の階層の番号、算出対象のラインの番号（ｙ座標）、処理開始指示が与えられると処理を開始する。

算出対象の階層の番号から、参照される前階層の特徴面の情報（特徴面の幅、ライン数、特徴面数、特徴面を配置する中間バッファの先頭アドレス、ライン数）、階層間の結合の情報（コンボリューションカーネルのサイズ）を特定する。

ステップＳ３０１では、読み出し対象となる中間バッファの先頭ラインの番号（ｋ）、チャネルオフセット（Ｃｏｆｓｔ）、リードアドレス（ＲＡ）を算出する。中間バッファをリングバッファとして使用するため、中間バッファの先頭ラインの番号ｋは、算出対象のラインの番号（ｙ座標）と中間バッファのライン数から、（ｙ座標ｍｏｄ中間バッファのライン数）で決定する。Ｃｏｆｓｔは、（特徴面の幅×中間バッファのライン数）で算出する。ＲＡは、特徴面を配置する中間バッファの先頭アドレス（ＳＡ）と特徴面の幅、ｋで算出する。また、算出対象のｘ座標を０に初期化する。

ステップＳ３０２では、特徴面番号を１に初期化し、特徴面番号＝１のときのリードアドレスを保存する。このリードアドレスは、ｘ座標が進むときに参照するアドレスとなる。

ステップＳ３０３では、参照画素のライン番号ｒｏｗを０に初期化し、ｒｏｗ＝０のときのリードアドレスを保存する。

ステップＳ３０４では、読み出す参照画素の領域の先頭ラインのメモリ番号Ｍｅｍを決定する。メモリ番号Ｍｅｍの決定は、上記のステップＳ２０４と同様の決定方法で行う。

ステップＳ３０５では、送信するライン数（ｎｕｍ＿ｌｏｏｐ）を決定べく、（現在の参照画素のライン番号ｒｏｗ＋メモリ数）がｒｏｗＳｉｚｅ以下であるか否かを判断する。この判断の結果、（現在の参照画素のライン番号ｒｏｗ＋メモリ数）がｒｏｗＳｉｚｅ以下であれば、処理はステップＳ３０６に進む。一方、（現在の参照画素のライン番号ｒｏｗ＋メモリ数）がｒｏｗＳｉｚｅよりも大きい場合には、処理はステップＳ３０７に進む。

ステップＳ３０６では、送信するライン数はメモリ数とする（ｎｕｍ＿ｌｏｏｐ＝メモリ数）。一方、ステップＳ３０７では、送信するライン数はｒｏｗＳｉｚｅ−ｒｏｗとする（ｎｕｍ＿ｌｏｏｐ＝ｒｏｗＳｉｚｅ−ｒｏｗ）。

ステップＳ３０８では、メモリからデータを読み出す。ここで、ステップＳ３０４で決定したメモリ番号が０のときは、メモリ０のリードアドレスＲＡ［０］＝ＲＡとなる。そして、ＲＡからｃｏｌｕｍｎＳｉｚｅバイトのデータを読み出し、該読み出したデータ（リードデータ）をｒｏｗのラインデータに設定する。さらにメモリ１のリードアドレスＲＡ［１］＝ＲＡ＋特徴面幅×ｋからｃｏｌｕｍｎＳｉｚｅバイトのデータを読み出し、該読み出したデータ（リードデータ）をｒｏｗ＋１のラインデータに設定する。一方、ステップＳ３０４で決定したメモリ番号が１のときは、メモリ１のリードアドレスＲＡ［１］＝ＲＡとなり、ＲＡからｃｏｌｕｍｎＳｉｚｅバイトのデータを読み出し、該読み出したデータ（リードデータ）をｒｏｗのラインデータに設定する。さらにメモリ０のリードアドレスＲＡ［０］＝ＲＡ＋特徴面幅×ｋからｃｏｌｕｍｎＳｉｚｅバイトのデータを読み出し、該読み出したデータ（リードデータ）をｒｏｗ＋１のラインデータに設定する。メモリ０に対する読み出しおよびメモリ１に対する読み出しは同時に行ってもよい。ステップＳ３０８の処理は、送信するライン数分行う。

ステップＳ３０９では、ｎｕｍ＿ｌｏｏｐラインのデータを送信し、次に、ステップＳ３１０では、次のラインの送信のためにＲＡを（ＲＡ＋特徴面幅×メモリ数）に更新する。

ステップＳ３１１では、全ての参照画素ラインを送信したかを、参照画素のライン番号ｒｏｗをから判断する。この判断の結果、全ての参照画素ラインを送信した場合には、処理はステップＳ３１２に進む。一方、未だ送信していない参照画素ラインが残っている場合には、全ての参照画素ラインの送信が完了するまで参照画素のライン番号ｒｏｗをインクリメントし、ステップＳ３０５〜ステップＳ３１０の処理を実行する。一度にメモリ数分のラインのデータを送信するので、参照画素のライン番号ｒｏｗもメモリ数ずつインクリメントする。

全ての参照画素ラインの送信が完了すると、次の特徴面の参照画素領域を送信する。ステップＳ３１２は、次の特徴面の参照画素領域の先頭メモリ番号ｎｅｘｔＭｅｍを決定する。次の特徴面の参照画素領域の先頭メモリ番号ｎｅｘｔＭｅｍは｛（Ｍｅｍ＋１）ｍｏｄメモリ数｝を計算することで得られる。

ステップＳ３１３では、ｎｅｘｔＭｅｍ＝０であるか否かを判断する。この判断の結果、ｎｅｘｔＭｅｍ＝０であれば、処理はステップＳ３１４に進み、ｎｅｘｔＭｅｍ≠０であれば、処理はステップＳ３１５に進む。

ステップＳ３１４では、ＲＡを、ステップＳ３０３でバックアップしたリードアドレスＡ＿ｂａｋ２にチャネルオフセットを加算した値に更新する。一方、ステップＳ３１５では、ＲＡを、ステップＳ３０３でバックアップしたリードアドレスＡ＿ｂａｋ２に戻す。

ステップＳ３１２〜ステップＳ３１５のアドレス更新方法によると、特徴面番号Ｎ、Ｎ＋１（Ｎは奇数）では、リードアドレスＲＡはまったく同一のアドレッシングを繰り返し、ステップＳ３０８により、異なるメモリ番号のアドレスにアクセスすることになる。つまり、特徴面番号Ｎ、Ｎ＋１の特徴面を１組とし、同じ組内の特徴面の同一座標のデータを、異なるメモリの同一アドレスから読み出す。

ステップＳ３１６では、特徴面番号が特徴面数に達しているか否かを判定する。この判定の結果、達している場合には、処理はステップＳ１３７に進む。一方、達していない場合には、達するまで特徴面番号をインクリメントし、ステップＳ３０３〜ステップＳ３１５を実行する。

ステップＳ３１７では、ＲＡを、ステップＳ３０２でバックアップしたリードアドレスＡ＿ｂａｋ１に１を加算したアドレスに更新する。

ステップＳ３１８では、ｘ座標が特徴面の幅に達しているか否かを判定する。この判定の結果、達している場合には、図３のフローチャートに従った処理は終了する。一方、達していない場合には、達するまでｘ座標をインクリメントし、ステップＳ３０２〜ステップＳ３１７の処理を実行する。

図３のフローチャートに従った処理によると、ステップＳ３０８に示す通り、同一特徴面の連続する２ラインは異なるメモリから同時に読み出す。また、アドレッシングは１つのリードアドレス（ＲＡ）のみ管理し、ＲＡ［０］、ＲＡ［１］はステップＳ３０４で算出したメモリ番号に応じ、ステップＳ３０８にてＲＡまたは（ＲＡ＋特徴面幅×ｋ）で決定するので、アドレッシング回路は１つでよい。

次に、図１の画像処理システムにおいて、図７の入力層である画像データに対してコンボリューション演算し、中間階層の特徴面７０３ａ〜ｄ、７０５ａ〜ｄ、７０７を生成するための動作について説明する。

ＣＮＮ処理部６０１の動作に関する処理について、図４のフローチャートに従って説明する。

先ず、ステップＳ４０１では、ＣＰＵ６０６は、ＣＮＮ処理部６０１の制御部１０５の動作設定レジスタにおけるレジスタ値を設定する。レジスタ値として、第１階層７０８の特徴面７０３ａ〜ｄの情報、第２階層７０９の特徴面７０５ａ〜ｄの情報、第３階層７１０の特徴面７０７の情報、階層間の結合の情報、は以下のように設定されているものとする。なお、以下に示すレジスタ値は一例であり、これらの値に限定することを意図したものではない。なお、特徴面を配置する中間バッファの先頭アドレスは、いつもメモリ０とする。

＜第１階層７０８＞
・特徴面の幅：２０
・特徴面数：４
・特徴面を配置する中間バッファの先頭アドレス：０ｘ０
・中間バッファのライン数：４ライン

＜第２階層７０９＞
・特徴面の幅：２０
・特徴面数：４
・特徴面を配置する中間バッファの先頭アドレス：０ｘａ０
・中間バッファのライン数：５ライン

＜第３階層７１０＞
・特徴面の幅：２０
・特徴面数：１
・特徴面を配置する中間バッファの先頭アドレス：０ｘａ０

＜第２階層演算に使用するコンボリューションカーネルサイズ＞
・４×４

＜第３階層演算に使用するコンボリューションカーネルサイズ＞
・５×５

次に、ステップＳ４０２では、ＣＰＵ６０６はＤＭＡＣ６０５を起動し、コンボリューション演算部１０１に重み係数を転送する。コンボリューション演算部１０１に転送する重み係数は、特徴面７０３ａ〜ｄ、特徴面７０５ａ〜ｄ、特徴面７０７の演算に使用する全てとする。

そしてステップＳ４０３では、ＣＰＵ６０６は、制御部１０５に対して処理開始を指示する。

ステップＳ４０４では、ＣＰＵ６０６はＤＭＡＣ６０５を使用し、コンボリューション演算部１０１に対して処理対象となる画像データを転送する。コンボリューション演算部１０１に入力される画像データは、使用するコンボリューションカーネルのサイズに応じた参照画素のブロック単位でコンボリューション演算部１０１に転送される。

ステップＳ４０５では、ステップＳ４０３にて処理開始の指示を受けた制御部１０５は、コンボリューション演算部１０１を画像入力モードに設定する。そしてコンボリューション演算部１０１は、転送された画像データと、コンボリューションカーネル７０２１ａ〜ｄの重み係数と、を用いて、特徴面７０３ａ〜ｄを１座標ずつ演算して出力する。

ステップＳ４０６では、ステップＳ４０３にて処理開始の指示を受けた制御部１０５は、メモリ書き込み制御部１０３に演算対象の階層の番号＝１とｙ座標＝０を渡し、処理開始を指示する。これに応じてメモリ書き込み制御部１０３は図２のフローチャートに従った処理を行うことで、特徴面７０３ａ〜ｄの１ライン分を格納する。

ここで、ステップＳ４０６でのメモリ書き込み処理における具体的なアドレッシングについて説明する。

ステップＳ２０１にて、階層番号＝１である第１階層７０８のレジスタ値が参照される。特徴面の幅２０、特徴面の数４、特徴面を配置する中間バッファの先頭アドレス０ｘ０、中間バッファのライン数４であるから、ｋ＝０、チャネルオフセットＣｏｆｓｔ＝０ｘ５０、ライトアドレスＷＡ＝０ｘ０、ｘ座標＝０が設定される。さらにステップＳ２０２にて特徴面番号には１が設定される。

そして、最初に特徴面７０３ａにおける座標（０、０）のデータを受信すると、ステップＳ２０４にて書き込むメモリのメモリ番号には０が選択され、ステップＳ２０５でメモリ０のアドレス０ｘ０に格納する。そしてステップＳ２０６にて次の特徴面のデータを書き込むメモリのメモリ番号は１となり、ライトアドレスは更新しない。そして、特徴面番号をインクリメントして、データを待つ。

次に、特徴面７０３ｂにおける座標（０、０）のデータを受信すると、ステップＳ２０４にて書き込むメモリのメモリ番号には１が選択され、ステップＳ２０５でメモリ１のアドレス０ｘ０に格納する。そしてステップＳ２０６にて次の特徴面のデータを書き込むメモリのメモリ番号は０となり、ステップＳ２０８にてライトアドレスはＣｏｆｓｔを加算した０ｘ５０に更新する。そして、特徴面番号をインクリメントし、データを待つ。

次に、特徴面７０３ｃにおける座標（０、０）のデータを受信すると、ステップＳ２０４にて書き込むメモリのメモリ番号には０が選択され、ステップＳ２０５でメモリ０のアドレス０ｘ５０に格納する。そしてステップＳ２０６にて次の特徴面のデータを書き込むメモリのメモリ番号は１となり、ライトアドレスは更新しない。そして、特徴面番号をインクリメントし、データを待つ。

次に受信する特徴面７０３ｄにおける座標（０、０）のデータも同様に、メモリ１のアドレス０ｘ５０に格納する。ここで特徴面番号は４であり、ステップＳ２１０にて「達している」と判定されるため、処理はステップＳ２１１に進み、ステップＳ２１１にてライトアドレスはステップＳ２０２にて保存したアドレス０ｘ０をインクリメントした０ｘ１に更新する。

続いて、特徴面７０３ａにおける座標（１、０）のデータ、特徴面７０３ｂにおける座標（１、０）のデータ、特徴面７０３ｃにおける座標（１、０）のデータ、特徴面７０３ｄにおける座標（１、０）のデータはそれぞれ、メモリ０のアドレス０ｘ１、メモリ１のアドレス０ｘ１、メモリ０のアドレス０ｘ５１、メモリ１のアドレス０ｘ５１に順次格納される。

そしてステップＳ２１２にてｘ座標が１９に達するまでｘ座標をインクリメントしながらデータ書き込みを行う。そしてｘ座標が１９に達すると、１ラインの格納が終わったので処理を終了する。この時点でのメモリ０およびメモリ１におけるデータ格納状態を図５Ａの５０１に示す。

メモリ領域７０３ａとメモリ領域７０３ｂとで同一座標のデータがメモリ０とメモリ１の同じアドレスに格納される。また、メモリ領域７０３ｃとメモリ領域７０３ｄとで同一座標のデータがメモリ０とメモリ１の同じアドレスに格納される。メモリ０とメモリ１のデータ格納量は同じである。

そしてステップＳ４０６にて１ラインの格納が終わると、ステップＳ４０７では制御部１０５は、次の階層の特徴面７０５ａ〜ｄが処理可能か否かを判定する。第１階層７０８と第２階層７０９のコンボリューションカーネルサイズは４×４であるため、４ラインが生成されるまでステップＳ４０４〜ステップＳ４０６の処理を繰り返し実行する。このとき、制御部１０５は、メモリ書き込み制御部１０３に演算対象の階層の階層番号＝１とｙ座標＝１、２、３を順次渡す。ステップＳ２０１にてライトアドレスＷＡ＝０ｘ１４、０ｘ２８、０ｘ３ｃ、特徴面番号１のときステップＳ２０４にて書き込むメモリ番号＝１、０、１となる。従って、メモリ１のアドレス０ｘ１４、メモリ０のアドレス０ｘ２８、メモリ１のアドレス０ｘ３ｃが特徴面番号１のラインの先頭アドレスとなる。４ラインの格納が終わった時点でのメモリ０およびメモリ１におけるデータ格納状態を図５Ａの５０２に示す。

メモリ領域７０３ａとメモリ領域７０３ｂとで同一座標のデータがメモリ０とメモリ１の同じアドレスに格納される。また、メモリ領域７０３ｃとメモリ領域７０３ｄとで同一座標のデータがメモリ０とメモリ１の同じアドレスに格納される。チャネルオフセットはメモリ０およびメモリ１ともに０ｘ５０である。

そしてステップＳ４０７にて処理可能と判定されると、処理はステップＳ４０８に進む。ステップＳ４０７にて処理可能と判定されると、特徴面７０５ａ〜ｄの１ラインを処理する。ステップＳ４０８にて制御部１０５がメモリ読み出し制御部１０４に演算対象の階層の階層番号＝２とｙ座標＝０を渡して処理開始指示を与える。すると、メモリ読み出し制御部１０４は図３のフローチャートに従って中間階層データを読み出し、コンボリューション演算部１０１に送信する。読み出した中間階層データは演算対象の前階層の番号である中間階層番号＝１となる。参照画素のブロックサイズは第２階層７０９の演算に使用するコンボリューションカーネルサイズ４×４で決定する。

ここで、ステップＳ４０８でのメモリ読み出し処理の具体的なアドレッシングについて説明する。ステップＳ３０１にて階層番号＝１である第１階層７０８のレジスタ値が参照される。特徴面の幅２０、特徴面の数４、特徴面を配置する中間バッファの先頭アドレス０ｘ０、中間バッファのライン数４であるので、ｋ＝０、Ｃｏｆｓｔ＝０ｘ５０、リードアドレスＲＡ＝０ｘ０、ｘ座標＝０が設定される。さらにステップＳ３０２にて特徴面番号は１、ステップＳ３０３にて参照画素のライン番号には０が設定される。

ステップＳ３０４にて、ｋ＝０、特徴面番号は１であるので読み出す領域の先頭メモリのメモリ番号には０が選択される。ステップＳ３０５にて、参照画素のライン番号は０、メモリ数は２、第２階層７０９の演算に使用するコンボリューションカーネルのｒｏｗＳｉｚｅは４であるから、処理はステップＳ３０６に進み、ｎｕｍ＿ｌｏｏｐ＝２となる。

ステップＳ３０８でメモリ０のアドレスＲＡ［０］＝０ｘ０から４バイトのデータを読み出し、該読み出したデータを参照画素１ライン目のデータに設定する。続いて、ＲＡ［１］＝０ｘ１４から４バイトのデータを読み出し、該読み出したデータを参照画素２ライン目のデータに設定し、ステップＳ３０９で２ラインのデータを送信する。

そしてステップＳ３１０にて読み出したアドレスに（特徴面の幅×２）を加算し、ＲＡ＝０ｘ２８に更新する。ステップＳ３１１では、ｒｏｗＳｉｚｅは４であるので、全ての参照画素ラインを送信していないと判定し、参照画素のライン番号ｒｏｗを２つインクリメントした２に更新し、データ読み出しを継続する。書き込みメモリのメモリ番号は０のままであるので、ステップＳ３０６にてメモリ０のアドレスＲＡ［０］＝０ｘ２８、メモリ１のアドレスＲＡ［１］＝０ｘ３ｃが設定される。参照画素のライン番号は２であるので、ステップＳ３０５で（現在の参照画素のライン番号ｒｏｗ＋メモリ数）がｒｏｗＳｉｚｅ以下と判定され、処理はステップＳ３０６に進み、ｎｕｍ＿ｌｏｏｐ＝２となる。

ステップＳ３０８でメモリ０のアドレス０ｘ２８、メモリ１のアドレス０ｘ３ｃから４バイトのデータを読み出す。メモリ０から読み出したデータを参照画素３ライン目のデータ、メモリ１から読み出したデータを参照画素４ライン目のデータに設定し、２ラインのデータを送信する。

全ての参照画素の送信が完了したので、ステップＳ３１２にて次に読み出す領域の先頭メモリのメモリ番号を決定する。ｋ＝０、特徴面番号は１であることから、メモリ番号は１に決定し、ステップＳ３１５にてリードアドレスは保存していた０ｘ０に更新する。特徴面番号＝１であるので、ステップＳ３１６にて偽と判定し、特徴面番号をインクリメントして、特徴面番号＝２とし、ステップＳ３０３に戻る。

次はステップＳ３０４にて、ｋ＝０、特徴面番号は２であるので読み出す領域の先頭メモリのメモリ番号には１が選択され、ステップＳ３１０にてメモリ１のアドレスＲＡ［１］＝０ｘ０、メモリ０のアドレスＲＡ［０］＝０ｘ１４が設定される。参照画素のライン番号は０であるので、ステップＳ３０８で、メモリ１のアドレス０ｘ０、メモリ０のアドレス０ｘ１４から４バイトのデータを読み出す。メモリ１から読み出したデータを参照画素１ライン目のデータ、メモリ０から読み出したデータを参照画素２ライン目のデータに設定し、２ラインのデータを送信する。

ステップＳ３１０にてリードアドレスに（特徴面の幅×２）を加算し、ＲＡ＝０ｘ２８に更新する。ｒｏｗＳｉｚｅは４であるので、ステップＳ３１１にて偽と判定され、参照画素のライン番号を２つインクリメントした２に更新し、データ読み出しを継続する。引き続きステップＳ３１８にてメモリ１のアドレス０ｘ２８、メモリ０のアドレス０ｘ３ｃから４バイトのデータを読み出す。メモリ１から読み出したデータを参照画素３ライン目のデータ、メモリ０から読み出したデータを参照画素４ライン目のデータに設定し、２ラインのデータを送信する。

全ての参照画素の送信が完了すると、ステップＳ３１２にて次に読み出す領域の先頭メモリのメモリ番号を決定する。ｋ＝０、特徴面番号は２であることから、メモリ番号は０に決定し、ステップＳ３１４にてリードアドレスは保存していた０ｘ０にＣｏｆｓｔを加算した０ｘ５０に更新する。特徴面番号＝２であるので、ステップＳ３１６にて偽と判定し、特徴面番号をインクリメントして特徴面番号＝３とし、ステップＳ３０３に戻る。

特徴面番号＝３の処理も同様に、メモリ０のアドレス０ｘ５０、メモリ１のアドレス０ｘ６４から４バイトのデータを読み出す。そして、メモリ０から読み出したデータを１ライン目のデータに、メモリ１から読み出したデータを２ライン目のデータに設定し、２ラインのデータを送信する。

特徴面番号＝４の処理も同様に、メモリ１のアドレス０ｘ５０、メモリ０のアドレス０ｘ６４から４バイトのデータを読み出す。そして、メモリ１から読み出したデータを１ライン目のデータに、メモリ０から読み出したデータを２ライン目のデータに設定し、２ラインのデータを送信する。

全ての特徴面の転送が終わるとステップＳ３１６にて真と判定し、ステップＳ３１７にてリードアドレスＲＡをステップＳ３０２で保存したアドレスに１を加算した０ｘ１に更新する。その後、ステップＳ３１８にてｘ座標が１９に達するまでｘ座標をインクリメントしながらデータ読み出し、送信を行う。ｘ座標が１９に達すると、１ラインの算出のために必要な参照画素の読み出しが終わったので処理を終了する。

一方、ステップＳ４０８にてメモリ読み出し制御部１０４がデータを読み出すと、ステップＳ４０９の処理が行われる。ステップＳ４０９ではコンボリューション演算部１０１は、転送された中間階層データと、コンボリューションカーネル７０４１ａ〜ｄ、７０４２ａ〜ｄ、７０４３ａ〜ｄ、７０４４ａ〜ｄの重み係数を使用して特徴面７０５ａ〜ｄを１座標ずつ演算して出力する。

ステップＳ４１０では、メモリ書き込み制御部１０３は、階層番号＝２とｙ座標＝０が引き渡され、図２のフローチャートに従った処理により、受信データ、特徴面７０５ａ〜ｄの１ライン分を格納する。

１ラインの格納が終わると、ステップＳ４１１にて制御部１０５は、次の階層の特徴面７０７が処理可能か否かを判定する。次の階層の特徴面７０７が処理可能ではないと判定された場合には、処理はステップＳ４０４に進む。一方、次の階層の特徴面７０７が処理可能であると判定された場合には、処理はステップＳ４１２に進む。

コンボリューションカーネルサイズ５×５を使用するので、５ラインが生成されるまでステップＳ４０４〜ステップＳ４１０の処理を繰り返し実行する。５ラインの格納が終わった時点でのメモリ０およびメモリ１の格納状態を図５Ｂの５０３に示す。

メモリ領域７０５ａとメモリ領域７０５ｂとで同一座標のデータがメモリ０とメモリ１の同じアドレスに格納される。また、メモリ領域７０５ｃとメモリ領域７０５ｄとで同一座標のデータがメモリ０とメモリ１の同じアドレスに格納される。メモリ０とメモリ１のデータ格納量は同じである。また、チャネルオフセットはいずれも０ｘ６４である。

ステップＳ４１２では、特徴面７０７の１ラインを処理する。制御部１０５がメモリ読み出し制御部１０４に演算対象の階層の階層番号＝３とｙ座標＝０とを渡し、処理開始指示を与えると、メモリ読み出し制御部１０４は図３のフローチャートに従った処理を行う。これによりメモリ読み出し制御部１０４は、中間階層データを読み出し、コンボリューション演算部１０１に送信する。読み出したデータは演算対象の前階層の階層番号＝２となる。参照画素は第３階層７１０の演算に使用するコンボリューションカーネルサイズ５×５で決定する。

ステップＳ４１３では、ステップＳ４１２にてメモリ読み出し制御部１０４がデータを読み出すと、コンボリューション演算部１０１は中間階層のデータを入力とし、特徴面７０７の１ラインを演算処理する。

ステップＳ４１４では、メモリ書き込み制御部１０３は、階層番号＝３とｙ座標＝０が引き渡され、図２のフローチャートに従った処理により、受信データ、特徴面７０７の１ライン分を格納する。ステップＳ４１４でのメモリ書き込み処理のアドレッシングでは、レジスタ値として第３階層７１０の特徴面の情報が参照される。

１ラインの格納が終わると、ステップＳ４１５にて制御部１０５は、最初の階層の特徴面７０３ａ〜ｄが第２階層７０８の演算に使用するコンボリューションカーネルサイズの高さ分生成されたか否かを判定する。この判定の結果、生成されていないと判定した場合には、処理はステップＳ４０４に進み、特徴面７０３ａ〜ｄ、７０５ａ〜ｄ、７０７をさらに１ライン生成する。一方、ステップＳ４１５の判定において、生成されたと判定した場合には、処理はステップＳ４１６に進む。

ステップＳ４１６では、制御部１０５は、第２階層７０９の特徴面７０５ａ〜ｄが第３階層７１０の演算に使用するコンボリューションカーネルサイズの高さ分生成されたか否かを判定する。この判定の結果、生成されていないと判定した場合には、処理はステップＳ４０８に進み、特徴面７０５ａ〜ｄ、７０７をさらに１ライン生成する。一方、ステップＳ４１６の判定において、生成されたと判定した場合には、処理はステップＳ４１７に進む。

ステップＳ４１７では、制御部１０５は、第３階層７１０の特徴面７０７が特徴面の高さ分生成されたか否かを判定する。この判定の結果、生成されていないと判定した場合には、処理はステップＳ４１２に進み、さらに１ライン生成する。一方、ステップＳ４１７における判定で生成されたと判定した場合には、図４のフローチャートに従った処理は終了する。

以上説明したように、本実施形態によれば、中間バッファを複数のメモリで構成するとき、同一特徴面の連続するラインを異なるメモリに格納し、複数の特徴面の同一座標のデータを、メモリ番号のみ変えた同じアドレスに格納する。これにより、コンボリューションカーネルサイズに依存するデータ格納量の偏りを解消し、高速な読み出しとメモリ利用効率の向上を、容易なアドレッシングで可能にする。このため、中間階層データの演算で発生する中間バッファからのメモリの読み出しサイクルを減らすことができ、パターン認識装置の処理性能を向上させつつ、中間バッファのメモリ量、及び、回路規模の削減が可能である。

［第２の実施形態］
以下では、第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。第１の実施形態では、特徴面が二次元のデータである例を説明したが、特徴面のデータの次元数は２に限らず、例えば、一次元や三次元であってもよい。

また、第１の実施形態では、データ保持部１０２が有する中間バッファとしてのメモリの数を２とし、４つの特徴面のデータをこの２つのメモリに配置する例を説明したが、メモリの数や特徴面の数はこれらの数に限らない。

特徴面の数Ｎ（Ｎ＞１）、メモリの数Ｍ（Ｍ＞１）の場合も、メモリ書き込み制御部１０３の動作として図２のフローチャートは適用可能である。ステップＳ２０４〜ステップＳ２０５に示す通り、同一特徴面の連続するラインは異なるＭ個のメモリに格納されるため、Ｍラインを同時に読み出すことが可能である。また、ステップＳ２０６〜ステップＳ２０９に示す通り、特徴面番号Ｎ、Ｎ＋１、… Ｎ＋（Ｍ−１）の同一座標のデータは、ライトアドレスは替えず、メモリ番号のみ変えた場所に格納される。然るに、ＮｍｏｄＭ＝０のとき、中間バッファのライン数に依らずＭ個のメモリには等しいデータ量が格納され、第１の実施形態と同様の効果を得ることができる。

また、メモリ読み出し制御部１０４のの動作として図３のフローチャートも適用可能であり、ステップＳ３０８に示す通り、同一特徴面の連続するＭラインは異なるメモリからＭライン同時に読み出す。また、アドレッシングは１つのリードアドレス（ＲＡ）のみ管理し、全てのメモリのアドレスはステップＳ３０４で算出したメモリ番号に応じ、ステップＳ３０８にてＲＡ＋特徴面幅×ｋ×ｉ（ｉ=０、１、・・・、メモリ数−１）で決定する。然るに、アドレッシング回路は１つでよく、第１の実施形態と同様の効果を得ることができる。

また、第１の実施形態では、画素単位で特徴面順に、その後、ラスタ順に演算処理する例を説明したが、これに限らず、先にラスタ順に、その後、特徴面順に演算処理してもよい。

先にラスタ順に演算処理する場合のメモリ書き込み制御部１０３の動作について、図１２のフローチャートに従って説明する。なお、ステップＳ１２０１〜ステップＳ１２０５はそれぞれ、上記のステップＳ２０１〜ステップＳ２０５と同様であるため、これらのステップに係る説明は省略する。

ステップＳ１２１１では、ステップＳ１２０５で受信データの書き込みが完了すると、次のデータはラスタ順に移動するため、ＷＡをインクリメントする。ステップＳ１２１２では、ｘ座標が特徴面の幅に達しているか否かを判定する。先にラスタ順に処理するときは、ステップＳ１２１０の特徴面番号が特徴面の数に達しているか判定するステップより先にくる。達するまでｘ座標をインクリメントし、ステップＳ１２０３〜ステップＳ１２０５、ステップＳ１２１１の処理を実行する。ｘ座標が特徴面の幅に達すると、処理はステップＳ１２０６に進む。

ステップＳ１２０６〜ステップＳ１２０７はそれぞれ、上記のステップＳ２０６〜ステップＳ２０７と同様であるため、これらのステップに係る説明は省略する。次の特徴面のデータを書き込むメモリのメモリ番号が０のとき、処理はステップＳ１２０８に進み、ライトアドレスはステップＳ１２０２にて保存したバックアップアドレスにチャネルオフセットを加算した値に更新する。メモリ番号が１のとき、処理はステップＳ１２０９に進み、ライトアドレスはステップＳ１２０２にて保存したバックアップアドレスに戻す。

ステップＳ１２１０では、特徴面番号が特徴面の数に達しているか否かを判定する。達するまで特徴面番号をインクリメントし、ステップＳ１２０２〜ステップＳ１２０９の処理を実行する。特徴面番号が特徴面の数に達すると処理を完了する。

図１２のフローチャートに従った処理によると、ラスタ順次に演算処理する場合も、ステップＳ１２０４〜ステップＳ１２０５に示す通り、同一特徴面の連続するラインは異なる２個のメモリに格納されるため、２ライン同時に読み出すことが可能である。また、ステップＳ１２０６〜ステップＳ１２０９に示す通り、特徴面番号Ｎ、Ｎ＋１（Ｎは奇数）の同一座標のデータは、ライトアドレスは替えず、メモリ番号のみ変えた場所に格納される。然るに、特徴面数が２の倍数のとき、中間バッファのライン数に依らず２個のメモリには等しいデータ量が格納される。

先にラスタ順に演算処理する場合のメモリ読み出し制御部１０４の動作について、図１３のフローチャートに従って説明する。ステップＳ１３０１〜ステップＳ１３１１はそれぞれ、上記のステップＳ３０１〜ステップＳ３１１と同様であるため、これらのステップに係る説明は省略する。

ステップＳ１３１７では、ステップＳ１３１１ですべての参照画素のラインの送信が完了すると、次のデータはラスタ順に移動するため、リードアドレスはステップＳ１３０３にて保存したバックアップアドレスをインクリメントした値に更新する。

ステップＳ１３１８では、ｘ座標が特徴面幅に達しているか否かを判定する。先にラスタ順に処理するときは、ステップＳ１３１６の特徴面番号が特徴面の数に達しているか判定するステップより先にくる。達するまでｘ座標をインクリメントし、ステップＳ１３０３〜ステップＳ１３１１、ステップＳ１３１７の処理を実行する。ｘ座標が特徴面幅に達すると、処理はステップＳ１３１２に進む。

ステップＳ１３１２〜ステップＳ１３１３はそれぞれ、上記のステップＳ３１２〜ステップＳ３１３と同様であるため、これらのステップに係る説明は省略する。次の特徴面のデータを読み出すメモリのメモリ番号が０のとき、処理はステップＳ１３１４に進み、リードアドレスはステップＳ１３０２にて保存したバックアップアドレスにチャネルオフセットを加算した値に更新する。メモリ番号が１のとき、処理はステップＳ１３１５に進み、リードアドレスはステップＳ１３０２にて保存したバックアップアドレスに戻す。

ステップＳ１３１６では、特徴面番号が特徴面の数に達しているか否かを判定する。達するまで特徴面番号をインクリメントし、ステップＳ１３０２〜ステップＳ１３１５の処理を実行する。特徴面番号が特徴面の数に達すると処理を完了する。

図１３のフローチャートに従った処理によると、ラスタ順に演算処理する場合も、ステップＳ１３０８に示す通り、同一特徴面の連続する２ラインは異なるメモリから２ライン同時に読み出す。また、アドレッシングは１つのリードアドレス（ＲＡ）のみ管理し、全てのメモリのアドレスはステップＳ１３０４で算出したメモリ番号に応じ、ステップＳ１３０８にてＲＡ＋特徴面幅×ｋ×ｉ（ｉ=０、１、・・・、メモリ数−１）で決定する。然るに、アドレッシング回路は１つでよく、第１の実施形態と同様の効果を得ることができる。

なお、上記の各実施形態では、図１に示した全ての機能部をハードウェアで実装したケースについて説明した。しかし、図１に示した機能部のうち一部の機能部（メモリ読み出し制御部１０４、メモリ書き込み制御部１０３、コンボリューション演算部１０１等）をソフトウェア（コンピュータプログラム）で実装しても良い。この場合、このコンピュータプログラムはＣＮＮ処理部６０１内のメモリやＲＡＭ６０８やＲＯＭ６０７などに格納され、ＣＰＵ６０６や制御部１０５がこのコンピュータプログラムを実行することで、対応する機能部の機能を実現させることができる。

なお、上記の説明において使用した具体的な数値は、具体的な説明を行うために使用したものであって、上記の各実施形態がこれらの数値に限定されることを意図したものではない。なお、以上説明した各実施形態の一部若しくは全部を適宜組み合わせても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に用いても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０１：コンボリューション演算部１０２：データ保持部１０３：メモリ書き込み制御部１０４：メモリ読み出し制御部１０５：制御部

Claims

入力された画像データに対して階層的にフィルタ演算処理を施して複数の特徴面を算出する演算処理装置であって、
コンボリューション演算を行う演算部と、
前記演算部の画像データと演算結果とを格納する複数のメモリで構成されるデータ保持部と、
前記演算部が出力する演算結果を受信し、該受信した演算結果のうち、同一特徴面の連続するラインのデータを前記複数のメモリのうち異なるメモリに書き込み、同じ階層の複数の特徴面の同一座標のデータを前記複数のメモリのうち異なるメモリに書き込むメモリ書き込み制御部と、
同一特徴面の連続するラインのデータを、前記データ保持部の異なるメモリから読み出し、同じ階層の異なる特徴面の同一座標のデータを、前記データ保持部の異なるメモリから読み出し、前記演算部へ送信するメモリ読み出し制御部と
を備えることを特徴とする演算処理装置。
前記フィルタ演算処理は、階層ごとにコンボリューションに使用するカーネルサイズを任意の値に設定することができることを特徴とする請求項１に記載の演算処理装置。
前記フィルタ演算処理は、階層ごとに前記データ保持部に格納する特徴面のライン数を任意の値に設定することができることを特徴とする請求項１に記載の演算処理装置。
前記メモリ書き込み制御部は、前記データ保持部を構成するメモリの数をＭ（Ｍ＞１）、階層における特徴面の数をＮ（Ｎ＞１）とすると、ＮｍｏｄＭ＝０のとき、Ｍ個の特徴面を１組とし、同じ組内の特徴面の同一座標のデータを、異なるメモリの同一アドレスに格納することを特徴とする請求項１記載の演算処理装置。
入力された画像データに対して階層的にフィルタ演算処理を施して複数の特徴面を算出する演算処理装置が行う演算処理方法であって、
前記演算処理装置の演算部が、コンボリューション演算を行う演算工程と、
前記演算処理装置のメモリ書き込み制御部が、前記演算部が出力する演算結果を受信し、該受信した演算結果のうち、同一特徴面の連続するラインのデータを、前記演算部の画像データと演算結果とを格納する複数のメモリのうち異なるメモリに書き込み、同じ階層の複数の特徴面の同一座標のデータを前記複数のメモリのうち異なるメモリに書き込むメモリ書き込み制御工程と、
前記演算処理装置のメモリ読み出し制御部が、同一特徴面の連続するラインのデータを、前記複数のメモリにおける異なるメモリから読み出し、同じ階層の異なる特徴面の同一座標のデータを、前記複数のメモリにおける異なるメモリから読み出し、前記演算部へ送信するメモリ読み出し制御工程と
を備えることを特徴とする演算処理方法。
入力された画像データに対して階層的にフィルタ演算処理を施して複数の特徴面を算出する演算処理装置のコンピュータに、請求項５に記載の演算処理方法の各工程を実行させるためのコンピュータプログラム。