JP7373751B2

JP7373751B2 - 演算処理システムおよび畳み込み演算方法

Info

Publication number: JP7373751B2
Application number: JP2020168368A
Authority: JP
Inventors: 宙輝林
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-03-31
Filing date: 2020-10-05
Publication date: 2023-11-06
Anticipated expiration: 2040-10-05
Also published as: JP2021163446A

Description

この開示は、ニューラルネットワークにおける畳み込み演算を実行する演算処理システムおよび畳み込み演算方法に関する。

従来、ニューラルネットワークにおける畳み込み演算を実行する演算処理システムが知られている。特許文献１には、演算を実行する演算装置と、演算装置に接続される外部メモリとを備える演算処理システムが開示されている。この演算処理システムでは、外部メモリから読み出されたデータに対して畳み込み演算が行われ、演算後のデータが外部メモリに書き込まれる。

特開２０１７－１２６２０３号公報

例えば、演算装置の内部に設けられた内部メモリの容量が小さいと、外部メモリから読み出したデータを内部メモリに保存し続けることができないので、演算処理を行うごとに外部メモリからデータを読み出す必要がある。そのため、演算装置と外部メモリとの間のデータ転送量が増加して、データ転送効率が低下するという問題がある。

本開示は上記問題を解決し、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる演算処理システム等を提供することを目的とする。

この開示の一態様に係る演算処理システムは、畳み込み演算を実行する演算処理システムであって、演算前の複数の入力特徴マップ、および、演算に用いられる複数のフィルタ係数を保存する外部メモリと、前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、を備え、前記演算装置は、少なくとも、１）前記入力特徴マップを構成する複数の分割マップのうちの第１の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第１の分割マップが前記外部メモリのアドレス上において隣り合うように演算後の複数の前記第１の分割マップを前記外部メモリに保存し、２）前記複数の分割マップのうちの第２の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第２の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第２の分割マップを前記外部メモリに保存する。
この開示の一態様に係る演算処理システムは、畳み込み演算を実行する演算処理システムであって、演算前の複数の入力特徴マップ、および、演算に用いられる複数のフィルタ係数を保存する外部メモリと、前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、を備え、前記演算装置は、少なくとも、１）前記入力特徴マップを構成する複数の分割マップのうちの第１の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第１の分割マップを前記外部メモリに保存し、２）前記複数の分割マップのうちの第２の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第２の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第２の分割マップを前記外部メモリに保存し、前記入力特徴マップの分割個数は、２以上の整数であり、前記分割個数をＤとし、前記複数の入力特徴マップのデータ量をｄ１とし、前記畳み込み演算が実行された後の複数の出力特徴マップのデータ量をｄ２とし、前記演算装置の内部外部メモリの容量をＢ１とした場合に、Ｄ≧（ｄ１＋ｄ２）／Ｂ１である。

この開示の一態様に係る演算処理システムは、畳み込み演算を実行する演算処理システムであって、演算前の複数の入力特徴マップ、および、演算に用いられる複数のフィルタ係数を保存する外部メモリと、前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、を備え、前記演算装置は、１）前記入力特徴マップを構成するｎ個（ｎは２以上の整数）の分割マップのうちの第１の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第１の分割マップが前記外部メモリのアドレス上において隣り合うように演算後の複数の前記第１の分割マップを前記外部メモリに保存し、２）前記ｎ個の分割マップのうちの第ｋ（ｋは２以上ｎ以下の整数）の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第ｋの分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第ｋの分割マップを前記外部メモリに保存する。

この開示の一態様に係る畳み込み演算方法は、複数の入力データに畳み込み演算を実行する畳み込み演算方法であって、前記入力データを構成する複数の部分データのうちの第１の部分データを、外部メモリに保存された前記複数の入力データのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の部分データに前記畳み込み演算を実行した後、演算後の複数の前記第１の部分データが前記外部メモリのアドレス上において隣り合うように演算後の複数の前記第１の部分データを前記外部メモリに保存する工程と、前記複数の部分データのうちの第２の部分データを、前記外部メモリに保存された前記複数の入力データのそれぞれから取得し、前記外部メモリから取得した複数の前記第２の部分データに前記畳み込み演算を実行した後、演算後の複数の前記第２の部分データを前記外部メモリに保存する工程と、を含む。

この開示の一態様に係る演算処理システムは、畳み込み演算を実行する演算処理システムであって、演算前の複数の入力特徴マップおよび演算に用いられる複数のフィルタ係数を保存する外部メモリと、前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、を備え、前記演算装置は、少なくとも、１）前記入力特徴マップを構成する複数の分割マップのうちの第１の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、２）前記外部メモリから取得した複数の前記第１の分割マップの圧縮データを伸長し、３）複数の前記第１の分割マップに前記畳み込み演算を実行し、４）演算後の複数の前記第１の分割マップをデータ圧縮して前記外部メモリに保存する際に、演算後の複数の前記第１の分割マップの圧縮データが前記外部メモリのアドレス上において隣り合うように前記外部メモリに保存する。

この開示の一態様に係る演算処理システムは、畳み込み演算を実行する演算処理システムであって、演算前の複数の入力特徴マップおよび演算に用いられる複数のフィルタ係数を保存する外部メモリと、前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、を備え、前記演算装置は、少なくとも、１）前記入力特徴マップを構成するｎ個（ｎは２以上の整数）の分割マップのうちの第１の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、２）前記外部メモリから取得した複数の前記第１の分割マップの圧縮データを伸長し、３）複数の前記第１の分割マップに前記畳み込み演算を実行し、４）演算後の複数の前記第１の分割マップをデータ圧縮して前記外部メモリに保存する際に、演算後の複数の前記第１の分割マップの圧縮データが前記外部メモリのアドレス上において隣り合うように前記外部メモリに保存し、５）前記ｎ個の分割マップのうちの第ｋ（ｋは２以上ｎ以下の整数）の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、６）前記外部メモリから取得した複数の前記第ｋの分割マップの圧縮データを伸長し、７）複数の前記第ｋの分割マップに前記畳み込み演算を実行し、８）演算後の複数の前記第ｋの分割マップをデータ圧縮して前記外部メモリに保存する。

この開示の一態様に係る畳み込み演算方法は、演算装置が前記演算装置の外部にある外部メモリを用いて複数の入力データに畳み込み演算を実行する畳み込み演算方法であって、前記入力データを構成する複数の部分データのうちの第１の部分データの圧縮データを、前記外部メモリに保存された前記複数の入力データのそれぞれから取得する工程と、前記外部メモリから取得した複数の前記第１の部分データの圧縮データを伸長する工程と、複数の前記第１の部分データに前記畳み込み演算を実行する工程と、演算後の複数の前記第１の部分データをデータ圧縮して前記外部メモリに保存する際に、演算後の複数の前記第１の部分データの圧縮データが前記外部メモリのアドレス上において隣り合うように前記外部メモリに保存する工程と、を含む。

本開示の一態様に係る演算処理システム等は、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なＣＤ－ＲＯＭ等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。

図１は、畳み込みニューラルネットワークを示す概略図である。図２は、比較例の演算処理システムを示す概略図である。図３は、比較例の演算処理システムの畳み込み演算処理の概要を示す図である。図４Ａは、実施の形態１に係る演算処理システムを示す概略図である。図４Ｂは、実施の形態１に係る演算処理システムの機能構成を示すブロック図である。図５は、実施の形態１に係る演算処理システムの畳み込み演算処理の概要を示す図である。図６は、実施の形態１に係る演算処理システムの処理動作を示す概略図である。図７は、実施の形態１の演算処理システムの外部メモリ内の分割マップの配置を示す概略図である。図８は、実施の形態２に係る演算処理システムの外部メモリ内の分割マップの配置を示す概略図である。図９は、実施の形態２の変形例１に係る演算処理システムの演算処理に用いられる分割マップを示す概略図である。図１０は、実施の形態２の変形例１の外部メモリに保存された分割マップを示す概略図である。図１１は、実施の形態２の変形例２に係る演算処理システムの演算処理に用いられる分割マップを示す概略図である。図１２は、実施の形態２の変形例２の外部メモリに保存された分割マップを示す概略図である。図１３は、実施の形態３に係る演算処理システムの演算処理を示す概略図である。図１４Ａは、実施の形態４に係る演算処理システムを示す概略図である。図１４Ｂは、実施の形態４に係る演算処理システムの機能構成を示すブロック図である。図１５は、実施の形態４に係る演算処理システムの畳み込み演算処理の概要を示す図である。図１６は、実施の形態４に係る演算処理システムの処理動作を示す概略図である。図１７は、実施の形態４の演算処理システムの外部メモリ内の分割マップの配置を示す概略図である。図１８は、実施の形態５に係る演算処理システムの外部メモリ内の分割マップの配置を示す概略図である。図１９は、実施の形態５の変形例１に係る演算処理システムの演算処理に用いられる分割マップを示す概略図である。図２０は、実施の形態５の変形例１の外部メモリに保存された分割マップを示す概略図である。図２１は、実施の形態５の変形例２に係る演算処理システムの演算処理に用いられる分割マップを示す概略図である。図２２は、実施の形態５の変形例２の外部メモリに保存された分割マップを示す概略図である。図２３は、実施の形態６に係る演算処理システムの演算処理を示す概略図である。

本開示の一態様に係る演算処理システムは、畳み込み演算を実行する演算処理システムであって、演算前の複数の入力特徴マップ、および、演算に用いられる複数のフィルタ係数を保存する外部メモリと、前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、を備える。

前記演算装置は、少なくとも、１）前記入力特徴マップを構成する複数の分割マップのうちの第１の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第１の分割マップを前記外部メモリに保存し、２）前記複数の分割マップのうちの第２の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第２の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第２の分割マップを前記外部メモリに保存する。

このように、演算装置が、外部メモリから分割マップを取得し、取得した分割マップに畳み込み演算を実行し、演算後の分割マップを外部メモリに保存することで、外部メモリから読み出す複数の入力特徴マップの読み出しデータ量を減らすことができる。これにより、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態１、２および３に記載されている。

また、前記演算装置は、前記畳み込み演算を実行する前に、前記複数のフィルタ係数の全てを前記外部メモリから取得してもよい。

このように、演算実行前に全てのフィルタ係数を外部メモリから取得することで、演算装置が、外部メモリから分割マップを取得する際に同時にフィルタ係数を取得する必要がなくなる。これにより、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態１、２および３に記載されている。

また、前記演算装置は、複数の前記第１の分割マップおよび複数の前記第２の分割マップのそれぞれに対し、同じ前記フィルタ係数を用いて前記畳み込み演算を実行してもよい。

これによれば、外部メモリから取得するフィルタ係数の数を減らすことができ、外部メ
モリから読み出すデータ量を減らすことができる。これにより、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態１、２および３に記載されている。

また、前記演算装置は、演算後の複数の前記第１の分割マップが前記外部メモリのアドレス上において隣り合うように前記外部メモリに保存してもよい。

これによれば、第１の分割マップのそれぞれを集約した状態で外部メモリに保存することができる。そのため、演算装置と外部メモリとの間で送受信される第１の分割マップを、離散の少ない連続するデータとすることができる。これにより、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態２に記載されている。

また、前記演算装置は、前記畳み込み演算および次の層の畳み込み演算にて用いられる前記複数の分割マップのうちの最大の分割個数に応じた数の前記複数の分割マップを前記外部メモリに保存してもよい。

これによれば、演算装置は、次の層の処理を行う際に、外部メモリから、上記最大の分割個数に合わせて集約された状態の複数の分割マップを取得することができる。これにより、演算装置と外部メモリとの間のデータ転送効率を効率化することができる。上記に関する内容は、実施の形態２に記載されている。

また、前記演算装置は、前記畳み込み演算の次の層の畳み込み演算にて用いられる入力特徴マップの分割個数に応じた数の前記複数の分割マップを前記外部メモリに保存してもよい。

これによれば、演算装置は、次の層の処理を行う際に、外部メモリから、上記入力特徴マップの分割個数に応じて集約された状態の複数の分割マップを取得することができる。これにより、演算装置と外部メモリとの間のデータ転送効率を効率化することができる。上記に関する内容は、実施の形態２に記載されている。

また、前記演算装置は、前記畳み込み演算にて用いられる前記複数の分割マップの境界および次の層の畳み込み演算にて用いられる前記複数の分割マップの境界の両方の境界を有する複数の分割マップを前記外部メモリに保存してもよい。

これによれば、演算装置は、次の層の処理を行う際に、外部メモリから、上記分割マップの境界に合わせて集約された状態の複数の分割マップを取得することができる。これにより、演算装置と外部メモリとの間のデータ転送効率を効率化することができる。上記に関する内容は、実施の形態２に記載されている。

また、前記入力特徴マップの分割個数は、２以上の整数であり、前記分割個数をＤとし、前記複数の入力特徴マップのデータ量をｄ１とし、前記畳み込み演算が実行された後の複数の出力特徴マップのデータ量をｄ２とし、前記演算装置の内部メモリの容量をＢ１とした場合に、Ｄ≧（ｄ１＋ｄ２）／Ｂ１であってもよい。

これによれば、入力特徴マップの分割個数を適切に定めることができ、演算装置と外部メモリとの間のデータ転送効率を適切に効率化することができる。上記に関する内容は、実施の形態１、２および３に記載されている。

前記演算装置は、１）前記入力特徴マップを構成するｎ個（ｎは２以上の整数）の分割マップのうちの第１の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第１の分割マップを前記外部メモリに保存し、２）前記ｎ個の分割マップのうちの第ｋ（ｋは２以上ｎ以下の整数）の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第ｋの分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第ｋの分割マップを前記外部メモリに保存する。

本開示の一態様に係る畳み込み演算方法は、複数の入力データに畳み込み演算を実行する畳み込み演算方法であって、前記入力データを構成する複数の部分データのうちの第１の部分データを、外部メモリに保存された前記複数の入力データのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の部分データに前記畳み込み演算を実行した後、演算後の複数の前記第１の部分データを前記外部メモリに保存する工程と、前記複数の部分データのうちの第２の部分データを、前記外部メモリに保存された前記複数の入力データのそれぞれから取得し、前記外部メモリから取得した複数の前記第２の部分データに前記畳み込み演算を実行した後、演算後の複数の前記第２の部分データを前記外部メモリに保存する工程と、を含む。

このように、外部メモリから部分データを取得し、取得した部分データに畳み込み演算を実行し、演算後の部分データを外部メモリに保存することで、外部メモリから読み出す複数の入力データの読み出しデータ量を減らすことができる。これにより、外部メモリから転送されるデータのデータ転送効率が低下することを抑制できる。

なお上記において、入力データは実施の形態１、２および３における入力特徴マップに相当し、部分データは実施の形態１、２および３における分割マップに相当し、第１の部分データは実施の形態１、２および３における第１の分割マップに相当し、第２の部分データは実施の形態１、２および３における第２の分割マップに相当する。

本開示の一態様に係る演算処理システムは、畳み込み演算を実行する演算処理システムであって、演算前の複数の入力特徴マップおよび演算に用いられる複数のフィルタ係数を保存する外部メモリと、前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、を備える。

前記演算装置は、少なくとも、１）前記入力特徴マップを構成する複数の分割マップのうちの第１の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、２）前記外部メモリから取得した複数の前記第１の分割マップの圧縮データを伸長し、３）複数の前記第１の分割マップに前記畳み込み演算を実行し、４）演算後の複数の前記第１の分割マップをデータ圧縮して前記外部メモリに保存する。

このように、演算装置が、外部メモリから第１の分割マップの圧縮データを取得して伸長し、伸長した第１の分割マップに畳み込み演算を実行し、演算後の第１の分割マップをデータ圧縮して外部メモリに保存することで、外部メモリから読み出すデータ量および外部メモリに書き込むデータ量を減らすことができる。これにより、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態４、５および６に記載されている。

また、前記演算装置は、さらに、５）前記複数の分割マップのうちの第２の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、６）前記外部メモリから取得した複数の前記第２の分割マップの圧縮データを伸長し、７）複数の前記第２の分割マップに前記畳み込み演算を実行し、８）演算後の複数の前記第２の分割マップをデータ圧縮して前記外部メモリに保存してもよい。

このように、演算装置が、外部メモリから第２の分割マップの圧縮データを取得して伸長し、伸長した第２の分割マップに畳み込み演算を実行し、演算後の第２の分割マップをデータ圧縮して外部メモリに保存することで、外部メモリから読み出すデータ量および外部メモリに書き込むデータ量を減らすことができる。これにより、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態４、５および６に記載されている。

また、前記演算装置は、複数の前記第１の分割マップの圧縮データを取得する前に、前記複数のフィルタ係数の圧縮データを前記外部メモリから取得してもよい。

このように、演算実行前に全てのフィルタ係数の圧縮データを外部メモリから取得することで、演算装置が、外部メモリから分割マップを取得する際に同時にフィルタ係数を取得する必要がなくなる。これにより、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態４、５および６に記載されている。

また、前記演算装置は、演算後の複数の前記第１の分割マップの圧縮データが前記外部メモリのアドレス上において隣り合うように前記外部メモリに保存してもよい。

これによれば、第１の分割マップのそれぞれを集約しかつ圧縮した状態で外部メモリに保存することができる。そのため、演算装置と外部メモリとの間で送受信される第１の分割マップを、離散の少ない連続するデータとすることができる。これにより、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態５に記載されている。

また、前記演算装置は、前記畳み込み演算および次の層の畳み込み演算にて用いられる前記複数の分割マップのうちの最大の分割個数に応じた数の前記複数の分割マップの圧縮データを前記外部メモリに保存してもよい。

これによれば、演算装置は、次の層の処理を行う際に、外部メモリから、上記最大の分割個数に合わせて集約されかつ圧縮された状態の複数の分割マップを取得することができる。これにより、演算装置と外部メモリとの間のデータ転送効率を効率化することができる。上記に関する内容は、実施の形態５に記載されている。

また、前記演算装置は、前記畳み込み演算の次の層の畳み込み演算にて用いられる入力特徴マップの分割個数に応じた数の前記複数の分割マップの圧縮データを前記外部メモリに保存してもよい。

これによれば、演算装置は、次の層の処理を行う際に、外部メモリから、上記入力特徴マップの分割個数に応じて集約されかつ圧縮された状態の複数の分割マップを取得することができる。これにより、演算装置と外部メモリとの間のデータ転送効率を効率化することができる。上記に関する内容は、実施の形態５に記載されている。

また、前記演算装置は、前記畳み込み演算にて用いられる前記複数の分割マップの境界および次の層の畳み込み演算にて用いられる前記複数の分割マップの境界の両方の境界を有する複数の分割マップの圧縮データを前記外部メモリに保存してもよい。

これによれば、演算装置は、次の層の処理を行う際に、外部メモリから、上記分割マップの境界に合わせて集約されかつ圧縮された状態の複数の分割マップを取得することができる。これにより、演算装置と外部メモリとの間のデータ転送効率を効率化することができる。上記に関する内容は、実施の形態５に記載されている。

前記演算装置は、少なくとも、１）前記入力特徴マップを構成するｎ個（ｎは２以上の整数）の分割マップのうちの第１の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、２）前記外部メモリから取得した複数の前記第１の分割マップの圧縮データを伸長し、３）複数の前記第１の分割マップに前記畳み込み演算を実行し、４）演算後の複数の前記第１の分割マップをデータ圧縮して前記外部メモリに保存し、５）前記ｎ個の分割マップのうちの第ｋ（ｋは２以上ｎ以下の整数）の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、６）前記外部メモリから取得した複数の前記第ｋの分割マップの圧縮データを伸長し、７）複数の前記第ｋの分割マップに前記畳み込み演算を実行し、８）演算後の複数の前記第ｋの分割マップをデータ圧縮して前記外部メモリに保存する。

このように、演算装置が、外部メモリから分割マップの圧縮データを取得して伸長し、伸長した分割マップに畳み込み演算を実行し、演算後の分割マップをデータ圧縮して外部メモリに保存することで、外部メモリから読み出すデータ量および外部メモリに書き込むデータ量を減らすことができる。これにより、演算装置と外部メモリとの間のデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態４、５および６に記載されている。

本開示の一態様に係る畳み込み演算方法は、複数の入力データに畳み込み演算を実行する畳み込み演算方法であって、前記入力データを構成する複数の部分データのうちの第１の部分データの圧縮データを、外部メモリに保存された前記複数の入力データのそれぞれから取得する工程と、前記外部メモリから取得した複数の前記第１の部分データの圧縮データを伸長する工程と、複数の前記第１の部分データに前記畳み込み演算を実行する工程と、演算後の複数の前記第１の部分データをデータ圧縮して前記外部メモリに保存する工程と、を含む。

このように、外部メモリから部分データを取得し、取得した部分データに畳み込み演算を実行し、演算後の部分データを外部メモリに保存することで、外部メモリから読み出すデータ量および外部メモリに書き込むデータ量を減らすことができる。これにより、外部メモリから転送されるデータのデータ転送効率が低下することを抑制できる。上記に関する内容は、実施の形態４、５および６に記載されている。

なお上記において、入力データは実施の形態４、５および６における入力特徴マップに相当し、部分データは実施の形態４、５および６における分割マップに相当し、第１の部分データは実施の形態４、５および６における第１の分割マップに相当する。

（本開示に至る経緯）
本開示に至る経緯について、図１～図３を参照しながら説明する。

図１は、畳み込みニューラルネットワーク５を示す概略図である。

図１に示す畳み込みニューラルネットワーク５は、ディープラーニングのネットワークの１つであり、複数の特徴量抽出層が階層的に接続された中間層と、中間層の後段に設けられた全結合層とによって構成されている。なお、畳み込みニューラルネットワークの構成によっては全結合層がない場合もあり、また、中間層の後段が全結合層以外の層で構成されることもあり得る。畳み込みニューラルネットワーク５は、例えば、画像データから所定の形状やパターンを画像認識する用途で用いられる。畳み込みニューラルネットワーク５が画像認識に用いられる場合、画像に対して畳み込み演算が行われて特徴マップ（畳み込み演算によって得られたテンソル）が生成され、さらに、生成された特徴マップに対して畳み込み演算が行われることで次の特徴マップが形成される。そしてこれらが繰り返されることで、画像の特徴が抽出される。畳み込みニューラルネットワーク５では、畳み込み演算のために多くの処理能力が費やされるため、畳み込み演算のための処理を効率化することが望まれる。

ここで比較例の演算処理システム１０１について説明する。

図２は、比較例の演算処理システム１０１を示す概略図である。図３は、比較例の演算処理システム１０１の畳み込み演算処理の概要を示す図である。

図２に示すように、比較例の演算処理システム１０１は、演算装置１１０と、外部メモリ１２０とによって構成されている。

演算装置１１０は、畳み込み演算を実行する演算部１１１と、演算装置１１０に入力されたデータおよび演算部１１１から出力されたデータを一時的に保存する内部メモリ１１３とを有している。外部メモリ１２０には、演算前の複数の入力特徴マップＭａと、演算後の複数の出力特徴マップＭｂと、演算に用いられる複数のフィルタ係数Ｆが保存される。図２では、チャネル数がｃ個の入力特徴マップＭａ、（ｃ×ｅ）個のフィルタ係数Ｆ、および、チャネル数がｅ個の出力特徴マップＭｂが、外部メモリ１２０に保存されている。

図３に示すように、演算処理システム１０１では、演算装置１１０が、外部メモリ１２０から複数の入力特徴マップＭａを取得し、複数（ｃ個）の入力特徴マップＭａのそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、演算後の出力特徴マップＭｂを外部メモリ１２０に保存する。演算装置１１０は、上記演算等を複数のフィルタ係数Ｆの数だけ繰り返し、フィルタ係数Ｆの数に応じた複数（ｅ個）の出力特徴マップＭｂを生成し、外部メモリ１２０に保存する。

なお、図２および図３は、ある１つの特徴量抽出層での畳み込み演算を行う場合を示しており、外部メモリ２０に保存されるデータは、その畳み込み演算に用いるデータのみを記載している。これ以降の説明では、特に断りがない場合は、ある１つの特徴量抽出層での畳み込み演算を行う場合を示す。

この演算処理システム１０１では、１つの出力特徴マップＭｂを生成するために全ての入力特徴マップＭａが必要であるが、通常は入力特徴マップＭａのデータ量が多く、全ての入力特徴マップＭａを内部メモリ１１３に保存し続けることができない。そのため、１つの出力特徴マップＭｂを生成するごとに全ての入力特徴マップＭａを外部メモリ１２０から取得する必要がある。その結果、演算装置１１０が外部メモリ１２０から入力特徴マップＭａを読み出す回数が多くなり、演算装置１１０と外部メモリ１２０との間のデータ転送量が増加して、データ転送効率が低下するという問題がある。

それに対し本開示の一態様に係る演算処理システムは、以下の構成を有することで、データ転送効率の低下を抑制している。

以下、実施の形態について、図面を参照しながら具体的に説明する。

以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。また、複数の実施の形態のうちの２つ以上の実施の形態を任意に組み合わせることで実現される形態も本開示に含まれる。

（実施の形態１）
実施の形態１に係る演算処理システム１について、図４Ａ～図６を参照しながら説明する。実施の形態１では、演算装置が入力特徴マップＭａを小分けにして取得する例について説明する。

図４Ａは、実施の形態１に係る演算処理システム１を示す概略図である。図４Ｂは、演算処理システム１の機能構成を示すブロック図である。

図４Ａおよび図４Ｂに示すように、演算処理システム１は、畳み込み演算を実行する演算装置１０と、演算装置１０に接続された外部メモリ２０とを備えている。

外部メモリ２０は、演算装置１０の外であって、演算処理システム１の中に設けられている。外部メモリ２０には、演算前の複数の入力特徴マップＭａ、演算後の複数の出力特徴マップＭｂ、および、演算に用いられる複数のフィルタ係数Ｆが保存される。外部メモリ２０は、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの読み出し書き込み可能な記録媒体である。

演算装置１０は、複数の入力特徴マップＭａおよび複数のフィルタ係数Ｆを用いて畳み込み演算を実行する装置である。図４Ｂに示すように、演算装置１０は、演算部１１と、演算部１１に接続された内部メモリ１３と、内部メモリ１３に接続されたＤＭＡ（ダイレクトメモリアクセス）１４とを備えている。なお、図４Ａでは、演算部１１およびＤＭＡ１４の図示を省略している。演算装置１０は、例えば、コンピュータ処理の高速化を支援するアクセラレータである。

演算部１１は、畳み込み処理を行う畳み込み処理部１１ａと、プーリング処理を行うプーリング処理部１１ｂとによって構成されている。内部メモリ１３は、外部メモリ２０からＤＭＡ１４を介して入力されたデータ、および、演算部１１から出力されたデータを一時的に保存する機能を有している。ＤＭＡ１４は、外部メモリ２０から読み出したデータを内部メモリ１３に出力し、また、内部メモリ１３に一時的に保存されたデータを外部メモリ２０に出力する機能を有している。なお、演算部１１には、少なくとも畳み込み処理部１１ａがあればよく、プーリング処理部１１ｂがなくともよいし、それ以外の処理部があってもよい。

図５は、実施の形態１に係る演算処理システム１の畳み込み演算処理の概要を示す図である。

図５には、チャネル数がｃ個の入力特徴マップＭａと、（ｃ×ｅ）個のフィルタ係数Ｆと、チャネル数がｅ個の出力特徴マップＭｂとが示されている。また、図５には、入力特徴マップＭａが、小分けされた複数の分割マップｍａで構成されている例が示されている。分割マップｍａは、入力特徴マップＭａの部分データである。また、図５には、出力特徴マップＭｂが、小分けされた複数の分割マップｍｂで構成されている例が示されている。分割マップｍｂは、出力特徴マップＭｂの部分データである。

また、図５には、入力特徴マップＭａを構成するｎ個（ｎは２以上の整数）の分割マップとして、第１の分割マップｍａ１、第２の分割マップｍａ２および第ｎの分割マップｍａｎが例示されている。

例えば、演算装置１０は、複数の分割マップｍａのうちの第１の分割マップｍａ１を、複数の入力特徴マップＭａのそれぞれから取得し、取得した複数（ｃ個）の第１の分割マップｍａ１のそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、演算後の第１の分割マップｍｂ１を生成する。演算装置１０は、上記演算等を複数のフィルタ係数Ｆの数だけ繰り返し、フィルタ係数Ｆの数に応じた複数（ｅ個）の演算後の第１の分割マップｍｂ１を生成する。

入力特徴マップＭａの分割個数は、２以上の整数であり、分割マップｍａ等が演算装置１０の内部メモリ１３に入りきるサイズ（データ量）となるように決定される。

具体的には、分割個数をＤとし、複数の入力特徴マップＭａの全てのデータ量をｄ１とし、畳み込み演算が実行された後の複数の出力特徴マップＭｂの全てのデータ量をｄ２とし、演算装置１０の内部メモリ１３の容量をＢ１とした場合に、以下の（式１）を満たすように決定される。

Ｄ≧（ｄ１＋ｄ２）／Ｂ１・・・（式１）

次に、演算処理システム１の処理動作について説明する。

図６は、演算処理システム１の処理動作を示す概略図である。図６の（ａ）～（ｄ）は、この順で処理実行される。

図６の（ａ）に示すように、演算装置１０は、畳み込み演算を実行する前に、外部メモリ２０から複数のフィルタ係数Ｆの全てを取得する。図６の（ａ）には、（ｃ×ｅ）個のフィルタ係数Ｆが、外部メモリ２０から演算装置１０の内部メモリ１３に出力されている例が示されている。

図６の（ｂ）に示すように、演算装置１０は、複数の分割マップｍａのうちの第１の分割マップｍａ１を、外部メモリ２０に保存された複数の入力特徴マップＭａのそれぞれから取得する。そして演算装置１０は、外部メモリ２０から取得した複数（ｃ個）の第１の分割マップｍａ１のそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、第１の分割マップｍｂ１を生成する。演算装置１０は、上記演算等を複数のフィルタ係数Ｆの数だけ繰り返し、フィルタ係数Ｆの数に応じた複数（ｅ個）の演算後の第１の分割マップｍｂ１を生成し、外部メモリ２０に保存する。なお、外部メモリ２０に保存された第１の分割マップｍｂ１は、次の層の畳み込み演算が実行される前に読み出される入力特徴マップの一部を構成する。

図６の（ｃ）に示すように、演算装置１０は、複数の分割マップｍａのうちの第２の分割マップｍａ２を、外部メモリ２０に保存された複数の入力特徴マップＭａのそれぞれから取得する。そして演算装置１０は、外部メモリ２０から取得した複数（ｃ個）の第２の分割マップｍａ２のそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、第２の分割マップｍｂ２を生成する。演算装置１０は、上記演算等を複数のフィルタ係数Ｆの数だけ繰り返し、フィルタ係数Ｆの数に応じた複数（ｅ個）の演算後の第２の分割マップｍｂ２を生成し、外部メモリ２０に保存する。なお、外部メモリ２０に保存された第２の分割マップｍｂ２は、次の層の畳み込み演算が実行される前に読み出される入力特徴マップの一部を構成する。

演算装置１０は、上記と同様の処理をｎ回繰り返す。具体的には、図６の（ｄ）に示すように、演算装置１０は、複数の分割マップｍａのうちの第ｎの分割マップｍａｎを、外部メモリ２０に保存された複数の入力特徴マップＭａのそれぞれから取得する。そして演算装置１０は、外部メモリ２０から取得した複数（ｃ個）の第ｎの分割マップｍａｎのそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、第ｎの分割マップｍｂｎを生成する。演算装置１０は、上記演算等を複数のフィルタ係数Ｆの数だけ繰り返し、フィルタ係数Ｆの数に応じた複数（ｅ個）の演算後の第ｎの分割マップｍｂｎを生成し、外部メモリ２０に保存する。

これにより、複数のフィルタ係数Ｆの数に対応した全ての出力特徴マップＭｂが生成され、特徴量抽出層の１層分の処理が終了する。１層目の特徴量抽出層の処理に続き２層目の特徴量抽出層の処理が行われ、さらに、予定された階層分の処理が終了することで、畳み込みニューラルネットワークの中間層における処理が終了する。

なお、フィルタ係数Ｆを内部メモリ１３に保存せずに畳み込み演算を行うこともでき、その場合は図６の（ａ）に示す処理は不要となり、図６の（ｂ）～（ｄ）に示す畳み込み演算では、フィルタ係数Ｆを内部メモリ１３ではなく、外部メモリ２０から取得して行う。これにより、内部メモリ１３にフィルタ係数Ｆを保存する必要がなくなり、内部メモリ１３のサイズを削減することが可能となる。

この演算処理システム１によれば、外部メモリ２０から読み出す複数の入力特徴マップＭａの読み出しデータ量（合計値）を減らすことができ、比較例の演算処理システム１０１に比べてデータ転送量を低減できる。これにより、演算装置１０と外部メモリ２０との間のデータ転送効率が低下することを抑制できる。

（実施の形態２）
実施の形態２に係る演算処理システム１Ａについて説明する。実施の形態２では、演算後の分割マップが、外部メモリ２０上において離散しておらず、適度に集約された状態で保存されている例について説明する。

ここで、実施の形態２との違いを明確にするため、実施の形態１の演算処理システム１の外部メモリ２０について説明する。

図７は、実施の形態１の演算処理システム１の外部メモリ２０に保存される分割マップを示す概略図である。外部メモリ２０には、入力特徴マップＭａおよび出力特徴マップＭｂがそれぞれ集約されて保存されており、さらにその中はチャネル１、チャネル２というチャネルの順番で１つのチャネルの特徴マップが集約されて保存されている。

そのため、実施の形態１のように畳み込み演算を分割マップごとに処理する場合、演算装置１０は、外部メモリ２０上の離散した位置（飛び飛びの位置）から複数の分割マップ（例えばｍａ１）を読み込み、また、外部メモリ２０上の離散した位置に複数の分割マップ（例えばｍｂ１）を書き込むことになる。一方、畳み込みニューラルネットワーク５は、後段の層ほどマップサイズが小さくチャネル数が多くなり（図１参照）、後段の層では、外部メモリ２０上において、小さなデータの分割マップが各チャネルに離散した状態となる。外部メモリ２０が例えばＤＲＡＭである場合、外部メモリ２０から演算装置１０へのデータ転送効率を上げるには、メモリ上において連続する大きいデータを転送することが望ましい。しかし、実施の形態１の外部メモリ２０では、後段の層ほど小さなデータが多くの箇所に離散した状態となり、データ転送効率が低下する。そこで、実施の形態２では、例えば演算後の複数の第１の分割マップｍｂ１が、外部メモリ２０のアドレス上において隣り合うように外部メモリ２０に保存される。

図８は、実施の形態２に係る演算処理システム１Ａの外部メモリ２０内の分割マップの配置を示す概略図である。図８には、演算後の複数の第１の分割マップｍｂ１が、外部メモリ２０のアドレス上において隣り合って配置されている状態が示されている。この外部メモリ２０には、複数の第１の分割マップｍｂ１だけでなく、複数の第２の分割マップｍｂ２、および、複数の第ｎの分割マップｍｂｎのそれぞれが、出力特徴マップＭｂ上において集約された状態で配置される。

出力特徴マップＭｂは、次の層の畳み込み演算の入力特徴マップＭａとして用いられるため、出力特徴マップＭｂの各分割マップが外部メモリ２０上において集約された状態で配置されることで、次の層の畳み込み演算が実行される際に用いられる入力特徴マップＭａの各分割マップも外部メモリ２０上において集約された状態で配置される。具体的には、複数の第１の分割マップｍａ１、複数の第２の分割マップｍａ２、および、複数の第ｎの分割マップｍａｎのそれぞれが、複数の入力特徴マップＭａ上において集約された状態で配置される。

このように、入力特徴マップの分割マップ（例えばｍａ１）および出力特徴マップの分割マップ（例えばｍｂ１）のそれぞれが集約された状態で外部メモリ２０上に配置されることで、演算装置１０と外部メモリ２０との間で送受信されるデータを、離散の少ない連続するデータとすることができる。これにより、演算装置１０と外部メモリ２０との間のデータ転送効率が低下することを抑制できる。

（実施の形態２の変形例１）
実施の形態２の変形例１の演算処理システム１Ａについて、図９および図１０を参照しながら説明する。変形例１では、外部メモリ２０に保存する分割マップｍｂのサイズを、現在処理している層の畳み込み演算または次の層の畳み込み演算で用いられる分割マップに応じて決定する例について説明する。

図９は、変形例１に係る演算処理システム１Ａの演算処理に用いられる分割マップｍａ、ｍｂを示す概略図である。図１０は、変形例１の外部メモリ２０に保存された分割マップｍｂ１～ｍｂ３を示す概略図である。

図９には、現在処理している層の畳み込み演算における分割マップｍａの分割個数が２であり、次の層の畳み込み演算における分割マップｍａの分割個数が３である例が示されている。この場合、演算装置１０は、次の層の畳み込み演算における分割マップｍａの分割個数と、現在処理している層の畳み込み演算における分割マップｍａの分割個数とを比較し、数が大きい分割個数を選択する。図９に示す例では、演算装置１０は、選択した分割個数３に応じて、出力特徴マップＭｂを３分割した分割マップｍｂのうちの各分割マップｍｂ１～ｍｂ３のそれぞれが集約された状態となるように外部メモリ２０に保存する。なお、演算装置１０は、入力特徴マップＭａを２分割した分割マップｍａのうちの分割マップｍａ１およびｍａ２に対して畳み込み演算を行い、その結果を外部メモリに保存する時に、各分割マップｍｂ１～ｍｂ３のそれぞれが集約されるように外部メモリ２０に保存する。その結果、図１０に示すように、外部メモリ２０には、複数の分割マップｍｂ１、複数の分割マップｍｂ２および複数の分割マップｍｂ３のそれぞれが、集約された状態で保存される。

このように変形例１では、演算装置１０が、現在処理している層の畳み込み演算および次の層の畳み込み演算にて用いられる複数の分割マップｍａのうちの最大の分割個数に合わせて複数の分割マップｍｂがそれぞれ集約されるように外部メモリ２０に保存する。これによれば、演算装置１０は、次の層の畳み込み演算を行う際に、外部メモリ２０から、集約された状態の複数の分割マップｍａを取得することが可能となる。これにより、演算装置１０と外部メモリ２０との間のデータ転送効率を効率化することができる。

なお、演算装置１０は、最大の分割個数に限られず、次の層の畳み込み演算にて用いられる分割マップｍａの分割個数、すなわち、次の層の畳み込み演算にて用いられる入力特徴マップＭａの分割個数に応じて分割した分割マップｍｂが、それぞれ集約されるように外部メモリ２０に保存してもよい。

また、演算装置１０は、現在処理している層の畳み込み演算に用いられる分割マップｍａを、次の層の畳み込み演算にて用いられる複数の分割マップｍａの分割個数と合わせて分割してもよい。図９に示す例では、現在処理している層の分割マップｍａの分割個数を３にすることに該当する。これにより、畳み込み演算に用いられる分割マップｍａの分割個数と、外部メモリに集約される分割マップｍｂの分割個数とが同じになり、その結果、畳み込み演算する場合の分割個数と外部メモリに集約する場合の分割個数とが同じになって、演算装置１０での演算処理の制御が容易となる。

なお、複数の分割マップｍｂ１～ｍｂ３が外部メモリ２０に保存される際、演算装置１０は、複数の分割マップｍｂ１～ｍｂ３の境界位置を示す情報を外部メモリ２０に出力してもよい。外部メモリ２０は、複数の分割マップｍｂ１～ｍｂ３と上記境界位置を示す情報との関係をテーブルデータとして保存してもよい。

（実施の形態２の変形例２）
実施の形態２の変形例２の演算処理システム１Ａについて、図１１および図１２を参照しながら説明する。変形例２では、外部メモリ２０に保存する分割マップｍｂを、現在処理している層の畳み込み演算および次の層の畳み込み演算の両方の分割境界を用いて生成する例について説明する。

図１１は、変形例２に係る演算処理システム１Ａにて演算処理される分割マップｍａ、ｍｂを示す概略図である。図１２は、変形例２の外部メモリ２０に保存された分割マップｍｂ１～ｍｂ４を示す概略図である。

図１１には、現在処理している層の畳み込み演算における分割マップｍａの分割個数が２であり、次の層の畳み込み演算における分割マップｍａの分割個数が３である例が示されている。この２つの例では、分割マップｍａの境界Ｌ１が互いに異なっている。そこで、変形例２では、現在処理している層の畳み込み演算にて用いられる複数の分割マップｍａの境界Ｌ１、および、次の層の畳み込み演算にて用いられる複数の分割マップｍａの境界Ｌ１の両方の境界を有する複数の分割マップｍｂについて、各分割マップｍｂ１～ｍｂ４がそれぞれ集約されるように外部メモリ２０に保存する。その結果、図１２に示すように、外部メモリ２０には、複数の分割マップｍｂ１、複数の分割マップｍｂ２、複数の分割マップｍｂ３および複数の分割マップｍｂ４のそれぞれが、集約された状態で保存される。

このように変形例２では、演算装置１０が、現在処理している層の畳み込み演算にて用いられる複数の分割マップの境界Ｌ１および次の層の畳み込み演算にて用いられる複数の分割マップの境界Ｌ１の両方の境界を有する複数の分割マップｍｂ（ｍｂ１～ｍｂ４）を外部メモリ２０に保存する。これによれば、演算装置１０は、次の層の畳み込み演算を行う際に、外部メモリ２０から、集約された状態の複数の分割マップｍａを取得することが可能となる。これにより、演算装置１０と外部メモリ２０との間のデータ転送効率を効率化することができる。

なお、演算装置１０は、現在処理している層の畳み込み演算における分割マップｍａを、次の層の畳み込み演算にて用いられる複数の分割マップｍａの分割個数と合わせて分割してもよい。図１２に示す例では、現在処理している層の畳み込み演算における分割マップｍａの分割個数を４にすることに該当する。

また、演算装置１０は、両方の境界Ｌ１を有する分割形態（図１１の例では４分割）となるように分割マップｍａを分割してもよい。これにより、畳み込み演算に用いられる分割マップｍａの分割個数と、外部メモリに集約される分割マップｍｂの分割個数とが同じになり、その結果、畳み込み演算する場合の分割個数と外部メモリに集約する場合の分割個数とが同じになって、演算装置１０での演算処理の制御が容易となる。

（実施の形態３）
実施の形態３に係る演算処理システム１Ｂについて説明する。実施の形態１では、全ての入力特徴マップＭａから１つ出力特徴マップＭｂを生成する例を示したが、実施の形態３では、複数の入力特徴マップＭａが複数のグループに分けられ、グループごとに出力特徴マップが生成される例について説明する。

図１３は、実施の形態３に係る演算処理システム１Ｂの演算処理を示す概略図である。

この演算処理システム１Ｂでは、１層の畳み込み演算が複数のグループ１、２、・・に分けられている。実施の形態３では、複数のグループ１、２、・・のそれぞれで畳み込み演算が実行され、グループ１、２、・・ごとに出力特徴マップＭｂが生成される。

例えば、演算装置１０は、複数の分割マップｍａのうちの第１の分割マップｍａ１を、複数の入力特徴マップＭａのそれぞれから取得し、取得した複数（ｃ個）の第１の分割マップｍａ１のそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、演算後の第１の分割マップｍｂ１を生成する。演算装置１０は、上記演算等をグループ１の複数のフィルタ係数Ｆの数だけ繰り返し、グループ１に関する複数の演算後の第１の分割マップｍｂ１を生成する。

各グループにおける入力特徴マップＭａの分割個数は、２以上の整数であり、分割マップｍａ等が演算装置１０の内部メモリ１３に入りきるサイズ（データ量）となるように決定される。

具体的には、分割個数をＤとし、グループ内の複数の入力特徴マップＭａの全てのデータ量をｄ１ａとし、畳み込み演算が実行された後のグループ内の複数の出力特徴マップＭｂの全てのデータ量をｄ２ａとし、演算装置１０の内部メモリ１３の容量をＢ１とした場合に、以下の（式２）を満たすように決定される。

Ｄ≧（ｄ１ａ＋ｄ２ａ）／Ｂ１・・・（式２）

演算装置１０は、グループ２以降についても同様に、上記の畳み込み演算を実行する。全てのグループの演算が終了することで、全ての出力特徴マップＭｂが生成され、特徴量抽出層の１層分の処理が終了する。

演算処理システム１Ｂのように、複数の入力特徴マップＭａが複数のグループに分けられ、グループごとに出力特徴マップが生成される場合であっても、演算装置１０と外部メモリとの間のデータ転送効率が低下することを抑制できる。

（実施の形態４）
実施の形態４に係る演算処理システム１Ｃについて、図１４Ａ～図１６を参照しながら説明する。実施の形態４では、演算装置が入力特徴マップＭａを小分けにし、かつ圧縮データで取得する例について説明する。

図１４Ａは、実施の形態４に係る演算処理システム１Ｃを示す概略図である。図１４Ｂは、演算処理システム１Ｃの機能構成を示すブロック図である。

図１４Ａおよび図１４Ｂに示すように、演算処理システム１Ｃは、畳み込み演算を実行する演算装置１０と、演算装置１０に接続された外部メモリ２０とを備えている。

外部メモリ２０は、演算装置１０の外であって、演算処理システム１Ｃの中に設けられている。外部メモリ２０には、演算前の複数の入力特徴マップＭａ、演算後の複数の出力特徴マップＭｂ、および、演算に用いられる複数のフィルタ係数Ｆが保存される。外部メモリ２０は、例えば、ＤＲＡＭなどの読み出し書き込み可能な記録媒体である。

演算装置１０は、複数の入力特徴マップＭａおよび複数のフィルタ係数Ｆを用いて畳み込み演算を実行する装置である。図１４Ｂに示すように、演算装置１０は、演算部１１と、演算部１１に接続された内部メモリ１３と、内部メモリ１３に接続されたＤＭＡ（ダイレクトメモリアクセス）１４と、データ伸縮部１５とを備えている。なお、図１４Ａでは、演算部１１およびＤＭＡ１４の図示を省略している。演算装置１０は、例えば、コンピュータ処理の高速化を支援するアクセラレータである。

演算部１１は、畳み込み処理を行う畳み込み処理部１１ａと、プーリング処理を行うプーリング処理部１１ｂとによって構成されている。内部メモリ１３は、外部メモリ２０からＤＭＡ１４およびデータ伸縮部１５を介して入力されたデータ、および、演算部１１から出力されたデータを一時的に保存する機能を有している。ＤＭＡ１４は、外部メモリ２０から読み出したデータをデータ伸縮部１５に出力し、また、データ伸縮部１５にて圧縮されたデータを外部メモリ２０に出力する機能を有している。なお、演算部１１には、少なくとも畳み込み処理部１１ａがあればよく、プーリング処理部１１ｂがなくともよいし、それ以外の処理部があってもよい。

データ伸縮部１５は、ＤＭＡ１４から取得した圧縮データを伸長（解凍）して内部メモリ１３に出力し、また、内部メモリ１３に一時的に保存されたデータを圧縮してＤＭＡ１４に出力する。データ圧縮の方式としては、例えば、ランレングス圧縮（Ｒｕｎ－ＬｅｎｇｔｈＣｏｍｐｒｅｓｓｉｏｎ）、または、０値圧縮（Ｚｅｒｏ－ＶａｌｕｅＣｏｍｐｒｅｓｓｉｏｎ）などの方式が採用される。ランレングス圧縮は、例えばデータが複数の０を含む数値等の配列で表される場合に、データ上における０の連続数と、０でない非ゼロの値とを順に出力することでデータ圧縮する方式である。０値圧縮は、例えばデータが複数の０を含む数値等の配列で表される場合に、０か非ゼロかを示す１ビットのマスクデータと非ゼロの値とを出力することでデータ圧縮する方式である。

なお、図１４Ｂではデータ伸縮部１５が演算装置１０に内蔵されているが、データ伸縮部１５は、演算装置１０の外であって、ＤＭＡ１４と外部メモリ２０との間に設けられていてもよい。この場合、データ伸縮部１５は、外部メモリ２０から取得した圧縮データを伸長（解凍）してＤＭＡ１４に出力し、また、ＤＭＡ１４から転送されたデータを圧縮して外部メモリ２０に出力する。

図１５は、実施の形態４に係る演算処理システム１Ｃの畳み込み演算処理の概要を示す図である。

図１５には、チャネル数がｃ個の入力特徴マップＭａと、（ｃ×ｅ）個のフィルタ係数Ｆと、チャネル数がｅ個の出力特徴マップＭｂとが示されている。また、図１５には、入力特徴マップＭａが、小分けされた複数の分割マップｍａで構成されている例が示されている。分割マップｍａは、入力特徴マップＭａの部分データである。また、図１５には、出力特徴マップＭｂが、小分けされた複数の分割マップｍｂで構成されている例が示されている。分割マップｍｂは、出力特徴マップＭｂの部分データである。

また、図１５には、入力特徴マップＭａを構成するｎ個（ｎは２以上の整数）の分割マップとして、第１の分割マップｍａ１、第２の分割マップｍａ２および第ｎの分割マップｍａｎが例示されている。

例えば、演算装置１０は、複数の分割マップｍａのうちの第１の分割マップｍａ１の圧縮データを、複数の入力特徴マップＭａのそれぞれから取得し、取得した複数の第１の分割マップｍａ１の圧縮データを伸長し、伸長後の複数（ｃ個）の第１の分割マップｍａ１のそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、演算後の第１の分割マップｍｂ１を生成する。演算装置１０は、上記演算等を複数のフィルタ係数Ｆの数だけ繰り返し、フィルタ係数Ｆの数に応じた複数（ｅ個）の演算後の第１の分割マップｍｂ１を生成する。さらに、演算装置１０は、複数の演算後の第１の分割マップｍｂ１のデータを圧縮して圧縮データを生成する。

Ｄ≧（ｄ１＋ｄ２）／Ｂ１・・・（式１）

次に、演算処理システム１Ｃの処理動作について説明する。

図１６は、演算処理システム１Ｃの処理動作を示す概略図である。図１６の（ａ）～（ｄ）は、この順で処理実行される。

図１６の（ａ）に示すように、演算装置１０は、畳み込み演算を実行する前に、外部メモリ２０から複数のフィルタ係数Ｆの圧縮データを取得する。図１６の（ａ）には、（ｃ×ｅ）個のフィルタ係数Ｆの圧縮データが、外部メモリ２０から演算装置１０の内部メモリ１３に出力されている例が示されている。

図１６の（ｂ）に示すように、演算装置１０は、複数の分割マップｍａのうちの第１の分割マップｍａ１の圧縮データを、外部メモリ２０に保存された複数の入力特徴マップＭａのそれぞれから取得する。なお上記圧縮データは、複数の第１の分割マップｍａ１の圧縮データである。次に演算装置１０は、外部メモリ２０から取得した複数の第１の分割マップｍａ１の圧縮データを伸長する。そして演算装置１０は、伸長後の複数（ｃ個）の第１の分割マップｍａ１のそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、第１の分割マップｍｂ１を生成する。演算装置１０は、上記演算等を複数のフィルタ係数Ｆの数だけ繰り返し、フィルタ係数Ｆの数に応じた複数（ｅ個）の演算後の第１の分割マップｍｂ１の圧縮データを生成し、外部メモリ２０に保存する。なお、外部メモリ２０に保存された第１の分割マップｍｂ１の圧縮データは、次の層の畳み込み演算が実行される前に読み出される入力特徴マップの一部を構成する。

図１６の（ｃ）に示すように、演算装置１０は、複数の分割マップｍａのうちの第２の分割マップｍａ２の圧縮データを、外部メモリ２０に保存された複数の入力特徴マップＭａのそれぞれから取得する。なお上記圧縮データは、複数の第２の分割マップｍａ２の圧縮データである。次に演算装置１０は、外部メモリ２０から取得した複数の第２の分割マップｍａ２の圧縮データを伸長する。そして演算装置１０は、伸長後の複数（ｃ個）の第２の分割マップｍａ２のそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、第２の分割マップｍｂ２を生成する。演算装置１０は、上記演算等を複数のフィルタ係数Ｆの数だけ繰り返し、フィルタ係数Ｆの数に応じた複数（ｅ個）の演算後の第２の分割マップｍｂ２の圧縮データを生成し、外部メモリ２０に保存する。なお、外部メモリ２０に保存された第２の分割マップｍｂ２の圧縮データは、次の層の畳み込み演算が実行される前に読み出される入力特徴マップの一部を構成する。

演算装置１０は、上記と同様の処理をｎ回繰り返す。具体的には、図１６の（ｄ）に示すように、演算装置１０は、複数の分割マップｍａのうちの第ｎの分割マップｍａｎの圧縮データを、外部メモリ２０に保存された複数の入力特徴マップＭａのそれぞれから取得する。なお上記圧縮データは、複数の第ｎの分割マップｍａｎの圧縮データである。次に演算装置１０は、外部メモリ２０から取得した複数の第ｎの分割マップｍａｎの圧縮データを伸長する。そして演算装置１０は、伸長後の複数（ｃ個）の第ｎの分割マップｍａｎのそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、第ｎの分割マップｍｂｎを生成する。演算装置１０は、上記演算等を複数のフィルタ係数Ｆの数だけ繰り返し、フィルタ係数Ｆの数に応じた複数（ｅ個）の演算後の第ｎの分割マップｍｂｎの圧縮データを生成し、外部メモリ２０に保存する。

なお、フィルタ係数Ｆを内部メモリ１３に保存せずに畳み込み演算を行うこともでき、その場合は図１６の（ａ）に示す処理は不要となり、図１６の（ｂ）～（ｄ）に示す畳み込み演算では、フィルタ係数Ｆを内部メモリ１３ではなく、外部メモリ２０から取得して行う。これにより、内部メモリ１３にフィルタ係数Ｆを保存する必要がなくなり、内部メモリ１３のサイズを削減することが可能となる。

この演算処理システム１Ｃによれば、外部メモリ２０から読み出す複数のフィルタ係数Ｆ、複数の入力特徴マップＭａの読み出しデータ量（合計値）、および、外部メモリ２０に書き込む出力特徴マップＭｂの書き込みデータ量（合計値）を減らすことができ、比較例の演算処理システム１０１に比べてデータ転送量を低減できる。これにより、演算装置１０と外部メモリ２０との間のデータ転送効率が低下することを抑制できる。

なお、データ圧縮が行われると圧縮後のデータのサイズが変化するので、外部メモリ２０に保存する出力特徴マップＭｂの複数の分割マップ（例えばｍｂ１、ｍｂ２）の境界が分からなくなることがある。そのため、演算装置１０が、次の層の処理を行う際に分割マップ（例えばｍａ１）を適切に取得できない場合がある。また、余裕をみて上記境界を跨いでデータ圧縮すると、直接処理に必要な分割マップ以外の不要データも含めて外部メモリ２０からデータを取得することになり、無駄なデータ転送が発生することもある。

そこで、実施の形態４の演算処理システム１Ｃでは、分割マップｍｂ１の境界位置が識別できるように情報の受け渡しが行われる。例えば、演算装置１０が、分割マップｍｂ１を外部メモリ２０に出力する時に、分割マップｍｂ１の境界位置のアドレスも外部メモリ２０に出力する。外部メモリ２０は、分割マップと上記アドレスとの関係をテーブルデータとして保存する。演算装置１０は、次の層の処理において、外部メモリ２０に保存された上記アドレスを使って、取得すべき分割マップｍａ１を外部メモリ２０から取得する。

なお、本実施の形態では、演算装置１０が境界位置のアドレスを外部メモリに出力・取得しているが、演算装置１０が次の層の処理において、境界位置のアドレスを用いることができれば、別の方法で行ってもよい。例えば、演算処理システム１Ｃの中に演算装置１０を制御する制御ＣＰＵがあって、制御ＣＰＵが演算装置１０から境界位置のアドレスを取得し、次の層を処理する前に演算装置１０にアドレスを設定する方法も考えられる。これによれば、演算装置１０は、複数の分割マップｍａを適切に取得し、演算処理を適切に実行することができる。

また、分割マップｍｂ１の境界位置のアドレスの代わりに、分割マップｍｂ１のデータサイズを外部メモリ２０に出力してもよい。この場合、次の層の処理において、外部メモリ２０に保存された上記データサイズを使って、取得すべき分割マップｍａ１を外部メモリ２０から取得する。

（実施の形態５）
実施の形態５に係る演算処理システム１Ｄについて説明する。実施の形態５では、演算後の分割マップが、外部メモリ２０上において離散しておらず、適度に集約された状態で保存されている例について説明する。

ここで、実施の形態５との違いを明確にするため、実施の形態４の演算処理システム１Ｃの外部メモリ２０について説明する。

図１７は、実施の形態４の演算処理システム１Ｃの外部メモリ２０に保存される分割マップを示す概略図である。外部メモリ２０には、入力特徴マップＭａおよび出力特徴マップＭｂがそれぞれ集約されて保存されており、さらにその中はチャネル１、チャネル２というチャネルの順番で１つのチャネルの特徴マップが集約されて保存されている。

そのため、実施の形態４のように畳み込み演算を分割マップごとに処理する場合、演算装置１０は、外部メモリ２０上の離散した位置（飛び飛びの位置）から複数の分割マップ（例えばｍａ１）を読み込み、また、外部メモリ２０上の離散した位置に複数の分割マップ（例えばｍｂ１）を書き込むことになる。一方、畳み込みニューラルネットワーク５は、後段の層ほどマップサイズが小さくチャネル数が多くなり（図１参照）、後段の層では、外部メモリ２０上において、小さなデータの分割マップが各チャネルに離散した状態となる。外部メモリ２０が例えばＤＲＡＭである場合、外部メモリ２０から演算装置１０へのデータ転送効率を上げるには、メモリ上において連続する大きいデータを転送することが望ましい。しかし、実施の形態４の外部メモリ２０では、後段の層ほど小さなデータが多くの箇所に離散した状態となり、データ転送効率が低下する。そこで、実施の形態５では、例えば演算後の複数の第１の分割マップｍｂ１が、外部メモリ２０のアドレス上において隣り合うように、かつデータ圧縮されて外部メモリ２０に保存される。

図１８は、実施の形態５に係る演算処理システム１Ｄの外部メモリ２０内の分割マップの配置を示す概略図である。図１８には、演算後の複数の第１の分割マップｍｂ１が、外部メモリ２０のアドレス上において隣り合って配置されている状態が示されている。この外部メモリ２０には、複数の第１の分割マップｍｂ１だけでなく、複数の第２の分割マップｍｂ２、および、複数の第ｎの分割マップｍｂｎのそれぞれが、出力特徴マップＭｂ上において集約されかつデータ圧縮された状態で配置される。

出力特徴マップＭｂは、次の層の畳み込み演算の入力特徴マップＭａとして用いられるため、出力特徴マップＭｂの各分割マップが外部メモリ２０上において集約されかつデータ圧縮された状態で配置されることで、次の層の畳み込み演算が実行される際に用いられる入力特徴マップＭａの各分割マップも外部メモリ２０上において集約されかつデータ圧縮された状態で配置される。具体的には、複数の第１の分割マップｍａ１、複数の第２の分割マップｍａ２、および、複数の第ｎの分割マップｍａｎのそれぞれが、複数の入力特徴マップＭａ上において集約されかつデータ圧縮された状態で配置される。

このように、入力特徴マップの分割マップ（例えばｍａ１）および出力特徴マップの分割マップ（例えばｍｂ１）のそれぞれが集約されかつデータ圧縮された状態で外部メモリ２０上に配置されることで、演算装置１０と外部メモリ２０との間で送受信されるデータを、離散の少ない連続するデータとすることができる。これにより、演算装置１０と外部メモリ２０との間のデータ転送効率が低下することを抑制できる。

なお、データ圧縮が行われると圧縮後のデータのサイズが変化するので、外部メモリ２０に保存する出力特徴マップＭｂの複数の分割マップ（例えばｍｂ１、ｍｂ２）の境界が分からなくなることがある。そこで、実施の形態４と同様に、実施の形態５の演算処理システム１Ｄでは、分割マップｍｂ１の境界位置が識別できるように情報の受け渡しが行われる。例えば、演算装置１０が、分割マップｍｂ１を外部メモリ２０に出力する時に、分割マップｍｂ１の境界位置のアドレスも外部メモリ２０に出力する。外部メモリ２０は、分割マップと上記アドレスとの関係をテーブルデータとして保存する。演算装置１０は、次の層の処理において、外部メモリ２０に保存された上記アドレスを使って、取得すべき分割マップｍａ１を外部メモリ２０から取得する。

なお、本実施の形態では、演算装置１０が境界位置のアドレスを外部メモリに出力・取得しているが、演算装置１０が次の層の処理において、境界位置のアドレスを用いることができれば、別の方法で行ってもよい。例えば、演算処理システム１Ｄの中に演算装置１０を制御する制御ＣＰＵがあって、制御ＣＰＵが演算装置１０から境界位置のアドレスを取得し、次の層を処理する前に演算装置１０にアドレスを設定する方法も考えられる。これによれば、演算装置１０は、複数の分割マップｍａを適切に取得し、演算処理を適切に実行することができる。

（実施の形態５の変形例１）
実施の形態５の変形例１の演算処理システム１Ｄについて、図１９および図２０を参照しながら説明する。変形例１では、外部メモリ２０に保存する分割マップｍｂのサイズを、現在処理している層の畳み込み演算または次の層の畳み込み演算で用いられる分割マップに応じて決定する例について説明する。

図１９は、変形例１に係る演算処理システム１Ｄの演算処理に用いられる分割マップｍａ、ｍｂを示す概略図である。図２０は、変形例１の外部メモリ２０に保存された分割マップｍｂ１～ｍｂ３を示す概略図である。

図１９には、現在処理している層の畳み込み演算における分割マップｍａの分割個数が２であり、次の層の畳み込み演算における分割マップｍａの分割個数が３である例が示されている。この場合、演算装置１０は、次の層の畳み込み演算の分割マップｍａの分割個数と、現在処理している層の畳み込み演算における分割マップｍａの分割個数とを比較し、数が大きい分割個数を選択する。図１９に示す例では、演算装置１０は、選択した分割個数３に応じて、出力特徴マップＭｂを３分割した分割マップｍｂのうちの各分割マップｍｂ１～ｍｂ３のそれぞれが集約された状態となるように外部メモリ２０に保存する。なお、演算装置１０は、入力特徴マップＭａを２分割した分割マップｍａのうちの分割マップｍａ１およびｍａ２に対して畳み込み演算を行い、その結果を外部メモリに保存する時に、各分割マップｍｂ１～ｍｂ３のそれぞれが集約されるように外部メモリ２０に保存する。その結果、図２０に示すように、外部メモリ２０には、複数の分割マップｍｂ１、複数の分割マップｍｂ２および複数の分割マップｍｂ３のそれぞれが、集約されかつ圧縮データの状態で保存される。

また、演算装置１０は、現在処理している層の畳み込み演算に用いられる分割マップｍａを、次の層の畳み込み演算にて用いられる複数の分割マップｍａの分割個数と合わせて分割してもよい。図１９に示す例では、現在処理している層の分割マップｍａの分割個数を３にすることに該当する。これにより、畳み込み演算に用いられる分割マップｍａの分割個数と、外部メモリに集約される分割マップｍｂの分割個数とが同じになり、その結果、畳み込み演算する場合の分割個数と外部メモリに集約する場合の分割個数とが同じになって、演算装置１０での演算処理の制御が容易となる。

（実施の形態５の変形例２）
実施の形態５の変形例２の演算処理システム１Ｄについて、図２１および図２２を参照しながら説明する。変形例２では、外部メモリ２０に保存する分割マップｍｂを、現在処理している層の畳み込み演算および次の層の畳み込み演算の両方の分割境界を用いて生成する例について説明する。

図２１は、変形例２に係る演算処理システム１Ｄにて演算処理される分割マップｍａ、ｍｂを示す概略図である。図２２は、変形例２の外部メモリ２０に保存された分割マップｍｂ１～ｍｂ４を示す概略図である。

図２１には、現在処理している層の畳み込み演算における分割マップｍａの分割個数が２であり、次の層の畳み込み演算における分割マップｍａの分割個数が３である例が示されている。この２つの例では、分割マップｍａの境界Ｌ１が互いに異なっている。そこで、変形例２では、現在処理している層の畳み込み演算にて用いられる複数の分割マップｍａの境界Ｌ１、および、次の層の畳み込み演算にて用いられる複数の分割マップｍａの境界Ｌ１の両方の境界を有する複数の分割マップｍｂについて、各分割マップｍｂ１～ｍｂ４がそれぞれ集約されるようにデータ圧縮して外部メモリ２０に保存する。その結果、図２２に示すように、外部メモリ２０には、複数の分割マップｍｂ１、複数の分割マップｍｂ２、複数の分割マップｍｂ３および複数の分割マップｍｂ４のそれぞれが、集約されかつ圧縮データの状態で保存される。また、外部メモリ２０には、複数の分割マップｍｂ１～ｍｂ４と上記アドレスとの関係がテーブルデータとして保存される。

このように変形例２では、演算装置１０が、現在処理している層の畳み込み演算にて用いられる複数の分割マップの境界Ｌ１および次の層の畳み込み演算にて用いられる複数の分割マップの境界Ｌ１の両方の境界を有する複数の分割マップｍｂ（ｍｂ１～ｍｂ４）をデータ圧縮して外部メモリ２０に保存する。これによれば、演算装置１０は、次の層の畳み込み演算を行う際に、外部メモリ２０から、集約された状態の複数の分割マップｍａを取得することが可能となる。これにより、演算装置１０と外部メモリ２０との間のデータ転送効率を効率化することができる。

なお、演算装置１０は、現在処理している層の畳み込み演算における分割マップｍａを、次の層の畳み込み演算にて用いられる複数の分割マップｍａの分割個数と合わせて分割してもよい。図２２に示す例では、現在処理している層の畳み込み演算における分割マップｍａの分割個数を４にすることに該当する。

また、演算装置１０は、両方の境界Ｌ１を有する分割形態（図２１の例では４分割）となるように分割マップｍａを分割してもよい。これにより、畳み込み演算に用いられる分割マップｍａの分割個数と、外部メモリに集約される分割マップｍｂの分割個数とが同じになり、その結果、畳み込み演算する場合の分割個数と外部メモリに集約する場合の分割個数とが同じになって、演算装置１０での演算処理の制御が容易となる。

（実施の形態６）
実施の形態６に係る演算処理システム１Ｅについて説明する。実施の形態４では、全ての入力特徴マップＭａから１つ出力特徴マップＭｂを生成する例を示したが、実施の形態６では、複数の入力特徴マップＭａが複数のグループに分けられ、グループごとに出力特徴マップが生成される例について説明する。

図２３は、実施の形態６に係る演算処理システム１Ｅの演算処理を示す概略図である。

この演算処理システム１Ｅでは、１層の畳み込み演算が複数のグループ１、２、・・に分けられている。実施の形態６では、複数のグループ１、２、・・のそれぞれで畳み込み演算が実行され、グループ１、２、・・ごとに出力特徴マップＭｂが生成される。

例えば、演算装置１０は、複数の分割マップｍａのうちの第１の分割マップｍａ１の圧縮データを、複数の入力特徴マップＭａのそれぞれから取得し、取得した複数の第１の分割マップｍａ１の圧縮データを伸長し、伸長後の複数の（ｃ個）の第１の分割マップｍａ１のそれぞれにフィルタ係数Ｆをかけることで畳み込み演算を実行し、演算後の第１の分割マップｍｂ１をデータ圧縮して生成する。演算装置１０は、上記演算等をグループ１の複数のフィルタ係数Ｆの数だけ繰り返し、グループ１に関する複数の演算後の第１の分割マップｍｂ１の圧縮データを生成する。

Ｄ≧（ｄ１ａ＋ｄ２ａ）／Ｂ１・・・（式２）

演算処理システム１Ｅのように、複数の入力特徴マップＭａが複数のグループに分けられ、グループごとに出力特徴マップが生成される場合であっても、演算装置１０と外部メモリとの間のデータ転送効率が低下することを抑制できる。

（その他の実施の形態）
以上、実施の形態１～６等について説明した。ただし以上の実施の形態等は、本質的に好ましい例示であって、この発明、その適用物、あるいはその用途の範囲を制限することを意図するものではない。

例えば、上記実施の形態では、演算装置１０が、畳み込み演算を実行する前に、複数のフィルタ係数Ｆの全てを外部メモリ２０から取得する例を示したが、それに限られない。演算装置１０は、全てのフィルタ係数Ｆのうち、分割マップに対して畳み込み演算を実行するのに必要なフィルタ係数Ｆのみを、その都度読み出してもよい。例えば、演算装置１０は、第１の分割マップに畳み込み演算を実行する場合、その演算前に、第１の分割マップの畳み込み演算に必要なフィルタ係数Ｆを外部メモリ２０から読み出し、第２の分割マップに畳み込み演算を実行する場合、その演算前に、第２の分割マップの畳み込み演算に必要なフィルタ係数Ｆを外部メモリ２０から読み出してもよい。

例えば、上記の実施の形態２では、外部メモリ２０に複数の第１の分割マップ等が集約された状態で保存される例を示したが、畳み込み演算を実行する全ての層の処理において、複数の第１の分割マップが集約された状態で保存される必要は無い。例えば、畳み込みニューラルネットワークにおいて、チャネル数の少ない前半の層（例えば１層目）では、複数の第１の分割マップが集約されていない状態で保存され、チャネル数の多い後半の層（例えばｎ層目）では、複数の第１の分割マップが集約された状態で保存されてもよい。

この開示は、畳み込みニューラルネットワークを実行する演算処理システムとして、画像処理技術などの分野に利用できる。

１、１Ａ、１Ｂ、１Ｃ、１Ｄ、１Ｅ演算処理システム
５畳み込みニューラルネットワーク
１０演算装置
１１演算部
１１ａ畳み込み処理部
１１ｂプーリング処理部
１３内部メモリ
１４ＤＭＡ
１５データ伸縮部
２０外部メモリ
Ｆフィルタ係数
Ｄ分割個数
Ｌ１境界
Ｍａ入力特徴マップ
Ｍｂ出力特徴マップ
ｍａ、ｍｂ分割マップ
ｍａ１、ｍｂ１第１の分割マップ
ｍａ２、ｍｂ２第２の分割マップ
ｍａ３、ｍｂ３第３の分割マップ
ｍａ４、ｍｂ４第４の分割マップ
ｍａｎ、ｍｂｎ第ｎの分割マップ

Claims

畳み込み演算を実行する演算処理システムであって、
演算前の複数の入力特徴マップ、および、演算に用いられる複数のフィルタ係数を保存する外部メモリと、
前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、
を備え、
前記演算装置は、少なくとも、
１）前記入力特徴マップを構成する複数の分割マップのうちの第１の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第１の分割マップが前記外部メモリのアドレス上において隣り合うように演算後の複数の前記第１の分割マップを前記外部メモリに保存し、
２）前記複数の分割マップのうちの第２の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第２の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第２の分割マップを前記外部メモリに保存する
演算処理システム。
前記演算装置は、前記畳み込み演算を実行する前に、前記複数のフィルタ係数の全てを前記外部メモリから取得する
請求項１に記載の演算処理システム。
前記演算装置は、複数の前記第１の分割マップおよび複数の前記第２の分割マップのそれぞれに対し、同じ前記フィルタ係数を用いて前記畳み込み演算を実行する
請求項２に記載の演算処理システム。
前記演算装置は、前記畳み込み演算および次の層の畳み込み演算にて用いられる前記複数の分割マップのうちの最大の分割個数に応じた数の前記複数の分割マップを前記外部メモリに保存する
請求項１～３のいずれか１項に記載の演算処理システム。
前記演算装置は、前記畳み込み演算の次の層の畳み込み演算にて用いられる入力特徴マップの分割個数に応じた数の前記複数の分割マップを前記外部メモリに保存する
請求項１～３のいずれか１項に記載の演算処理システム。
前記演算装置は、前記畳み込み演算にて用いられる前記複数の分割マップの境界および次の層の畳み込み演算にて用いられる前記複数の分割マップの境界の両方の境界を有する複数の分割マップを前記外部メモリに保存する
請求項１～３のいずれか１項に記載の演算処理システム。
畳み込み演算を実行する演算処理システムであって、
演算前の複数の入力特徴マップ、および、演算に用いられる複数のフィルタ係数を保存する外部メモリと、
前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、
を備え、
前記演算装置は、少なくとも、
１）前記入力特徴マップを構成する複数の分割マップのうちの第１の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第１の分割マップを前記外部メモリに保存し、
２）前記複数の分割マップのうちの第２の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第２の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第２の分割マップを前記外部メモリに保存し、
前記入力特徴マップの分割個数は、２以上の整数であり、
前記分割個数をＤとし、
前記複数の入力特徴マップのデータ量をｄ１とし、
前記畳み込み演算が実行された後の複数の出力特徴マップのデータ量をｄ２とし、
前記演算装置の内部メモリの容量をＢ１とした場合に、
Ｄ≧（ｄ１＋ｄ２）／Ｂ１である
演算処理システム。
畳み込み演算を実行する演算処理システムであって、
演算前の複数の入力特徴マップ、および、演算に用いられる複数のフィルタ係数を保存する外部メモリと、
前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、
を備え、
前記演算装置は、
１）前記入力特徴マップを構成するｎ個（ｎは２以上の整数）の分割マップのうちの第１の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第１の分割マップが前記外部メモリのアドレス上において隣り合うように演算後の複数の前記第１の分割マップを前記外部メモリに保存し、
２）前記ｎ個の分割マップのうちの第ｋ（ｋは２以上ｎ以下の整数）の分割マップを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、前記外部メモリから取得した複数の前記第ｋの分割マップに前記畳み込み演算を実行した後、演算後の複数の前記第ｋの分割マップを前記外部メモリに保存する
演算処理システム。
複数の入力データに畳み込み演算を実行する畳み込み演算方法であって、
前記入力データを構成する複数の部分データのうちの第１の部分データを、外部メモリに保存された前記複数の入力データのそれぞれから取得し、前記外部メモリから取得した複数の前記第１の部分データに前記畳み込み演算を実行した後、演算後の複数の前記第１の部分データが前記外部メモリのアドレス上において隣り合うように演算後の複数の前記第１の部分データを前記外部メモリに保存する工程と、
前記複数の部分データのうちの第２の部分データを、前記外部メモリに保存された前記複数の入力データのそれぞれから取得し、前記外部メモリから取得した複数の前記第２の部分データに前記畳み込み演算を実行した後、演算後の複数の前記第２の部分データを前記外部メモリに保存する工程と、
を含む畳み込み演算方法。
畳み込み演算を実行する演算処理システムであって、
演算前の複数の入力特徴マップおよび演算に用いられる複数のフィルタ係数を保存する外部メモリと、
前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、
を備え、
前記演算装置は、少なくとも、
１）前記入力特徴マップを構成する複数の分割マップのうちの第１の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、
２）前記外部メモリから取得した複数の前記第１の分割マップの圧縮データを伸長し、
３）複数の前記第１の分割マップに前記畳み込み演算を実行し、
４）演算後の複数の前記第１の分割マップをデータ圧縮して前記外部メモリに保存する際に、演算後の複数の前記第１の分割マップの圧縮データが前記外部メモリのアドレス上において隣り合うように前記外部メモリに保存する
演算処理システム。
前記演算装置は、さらに、
５）前記複数の分割マップのうちの第２の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、
６）前記外部メモリから取得した複数の前記第２の分割マップの圧縮データを伸長し、
７）複数の前記第２の分割マップに前記畳み込み演算を実行し、
８）演算後の複数の前記第２の分割マップをデータ圧縮して前記外部メモリに保存する
請求項１０に記載の演算処理システム。
前記演算装置は、複数の前記第１の分割マップの圧縮データを取得する前に、前記複数のフィルタ係数の圧縮データを前記外部メモリから取得する
請求項１０または１１に記載の演算処理システム。
前記演算装置は、前記畳み込み演算および次の層の畳み込み演算にて用いられる前記複数の分割マップのうちの最大の分割個数に応じた数の前記複数の分割マップの圧縮データを前記外部メモリに保存する
請求項１０～１２のいずれか１項に記載の演算処理システム。
前記演算装置は、前記畳み込み演算の次の層の畳み込み演算にて用いられる入力特徴マップの分割個数に応じた数の前記複数の分割マップの圧縮データを前記外部メモリに保存する
請求項１０～１２のいずれか１項に記載の演算処理システム。
前記演算装置は、前記畳み込み演算にて用いられる前記複数の分割マップの境界および次の層の畳み込み演算にて用いられる前記複数の分割マップの境界の両方の境界を有する複数の分割マップの圧縮データを前記外部メモリに保存する
請求項１０～１２のいずれか１項に記載の演算処理システム。
畳み込み演算を実行する演算処理システムであって、
演算前の複数の入力特徴マップおよび演算に用いられる複数のフィルタ係数を保存する外部メモリと、
前記複数の入力特徴マップおよび前記複数のフィルタ係数を用いて畳み込み演算を実行する演算装置と、
を備え、
前記演算装置は、少なくとも、
１）前記入力特徴マップを構成するｎ個（ｎは２以上の整数）の分割マップのうちの第１の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、
２）前記外部メモリから取得した複数の前記第１の分割マップの圧縮データを伸長し、
３）複数の前記第１の分割マップに前記畳み込み演算を実行し、
４）演算後の複数の前記第１の分割マップをデータ圧縮して前記外部メモリに保存する際に、演算後の複数の前記第１の分割マップの圧縮データが前記外部メモリのアドレス上において隣り合うように前記外部メモリに保存し、
５）前記ｎ個の分割マップのうちの第ｋ（ｋは２以上ｎ以下の整数）の分割マップの圧縮データを、前記外部メモリに保存された前記複数の入力特徴マップのそれぞれから取得し、
６）前記外部メモリから取得した複数の前記第ｋの分割マップの圧縮データを伸長し、
７）複数の前記第ｋの分割マップに前記畳み込み演算を実行し、
８）演算後の複数の前記第ｋの分割マップをデータ圧縮して前記外部メモリに保存する
演算処理システム。
演算装置が前記演算装置の外部にある外部メモリを用いて複数の入力データに畳み込み演算を実行する畳み込み演算方法であって、
前記入力データを構成する複数の部分データのうちの第１の部分データの圧縮データを、前記外部メモリに保存された前記複数の入力データのそれぞれから取得する工程と、
前記外部メモリから取得した複数の前記第１の部分データの圧縮データを伸長する工程と、
複数の前記第１の部分データに前記畳み込み演算を実行する工程と、
演算後の複数の前記第１の部分データをデータ圧縮して前記外部メモリに保存する際に、演算後の複数の前記第１の部分データの圧縮データが前記外部メモリのアドレス上において隣り合うように前記外部メモリに保存する工程と、
を含む畳み込み演算方法。