JP7419574B2

JP7419574B2 - 膨張畳み込み加速演算方法及び装置

Info

Publication number: JP7419574B2
Application number: JP2022580125A
Authority: JP
Inventors: 徐兵; 張楠▲ゲン▼
Original assignee: Canaan Bright Sight Co Ltd
Current assignee: Canaan Bright Sight Co Ltd
Priority date: 2020-07-08
Filing date: 2020-11-03
Publication date: 2024-01-22
Anticipated expiration: 2040-11-03
Also published as: US20230273829A1; CN113989169A; JP2023531070A; KR20230081697A; WO2022007265A1; EP4181024A4; EP4181024A1; US12056530B2

Description

発明の詳細な説明

〔技術分野〕
本発明は、深層学習分野に属するものであり、具体的に、膨張畳み込み加速演算方法及び装置に関する。

〔背景技術〕
本部分は、特許請求の範囲に記載の本発明の実施形態のために、背景又は上下文を提供することを意図したものである。ここでの記載は、本部分に含まれることが原因で従来技術として認められるものではない。

畳込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮと略称）は、深層フィードフォワード人工ニューラルネットワークであり、数多くの分野に既に応用されており、例えば、画像識別分野が挙げられる。畳み込みニューラルネットワークは、画像データの処理過程において、より複雑な演算（畳み込み演算、バッチ正規化演算、活性化演算などを主に含む）を行う。

ＣＣＮによる画像処理の場合、モデルの受容野を増やすために、通常、複数回もの畳み込みやプーリング操作を行う必要がある。プール化することで、画像のサイズを小さくすることができ、その上で、畳み込みカーネルを用いると、受容野を増やすことができる。また、畳込みやプール化が行われた特性図は小さくなったので、その場合、全接続ネットワークに伝送されて分類されてもよい。しかしながら、画像分割の場合、画素点毎に予測する必要があるので、予測する前に、サイズが小さくなった特性図をアップサンプリングする方式（例えば、ｄｅｃｏｎｖ逆畳込み）によって、元画像のサイズに戻しなければならない。ただし、その過程では、以下の問題点があった。（１）情報が紛失され、プーリング操作が逆転不可である点、例えば、特性図をアップサンプリングして元画像のサイズに戻す処理を行うとき、情報が紛失されてしまう恐れがある。（２）小さな物体の画像を再構成することができない点、例えば、４×４画素数の物体の場合、プーリング操作が４回行われた後、その物体の情報を再構成できなくなる。そのため、プーリング操作などによる受容野の拡大を回避するために、『ＭＵＬＴＩ－ＳＣＡＬＥＣＯＮＴＥＸＴＡＧＧＲＥＧＡＴＩＯＮＢＹＤＩＬＡＴＥＤＣＯＮＶＯＬＵＴＩＯＮＳ』では、膨張畳み込み（ｄｉｌａｔｅｄｃｏｎｖｏｌｕｔｉｏｎ）が提案されている。膨張畳み込み演算は、畳み込み中に畳み込みカーネルを所定のサイズまで拡張するとともに、元畳み込みカーネルにおける占用されていない領域をゼロで充填させる。

従来技術では、画像データに対する畳み込み演算を加速化して画像処理の結果を取得するために、Ｉｍ２ｃｏｌ関数を用いて畳み込み演算を最適化する方法をとることが一般的である。ＣＮＮ学習トレーニング過程において、通常、１枚の画像全体にわたる処理を一括して行うことではなく、画像を複数の小さなパッチ（ｐａｔｃｈ）に分割するとともに、パッチ毎にＩｍ２ｃｏｌ処理を行って新たに配列し、３次元のパッチを１次元ベクトルに展開させてから、さらに、畳み込み操作を２次元行列乗算に変換することとなっている。

上記方案では、膨張畳み込み演算を１回行うとき、複数の行と複数の列のデータへのアクセスが同時に行われる必要がある。図１に示すように、３×３サイズで、膨張率が２である膨張畳み込みを例にすると、１回の膨張畳み込みの演算に必要な９個の数字は、３行と３列に分布していることが求められる。理解すべきなのは、データの読取が連続したデータを対象にしないと、データの読取の帯域幅を確保できないことである。そのため、上記９個の数字へのアクセスを同時に実現させるには、内部メモリの配列を特別に設計しなければならない。例えば、内部メモリのセグメンテーションにより、メモリアクセスの並列度を高めることが挙げられる。しかしながら、ＮＰＵは通常、異なるサイズの畳み込みをサポートする必要があるので、異なる畳み込みカーネルに対する汎用性を実現するために、メモリを数多くの小さなパッチに分割しないと、種々の配置に対応できなくなる。そうすると、一方では、内部メモリの面積が大きくなってしまい、他方では、データへのアクセス上の論理的複雑度が高くなる。

そのため、高汎用性、低複雑度を有する膨張畳み込み加速演算方法の設計は、現在解決すべき技術的課題となっている。

〔発明の概要〕
従来技術における膨張畳み込み演算の実現汎用性が良くなく、複雑度が高い問題に対し、本発明の実施例では、膨張畳み込み加速演算方法及び装置を提供する。このような方法及び装置によれば、上記問題を解決することができる。

本発明の実施例では、以下の方案が提供される。

第１態様では、Ｒ×Ｓの膨張畳み込み演算を、Ｓ個のＲ×１のサブ膨張畳み込み演算に分解するステップであって、前記Ｒが畳み込みカーネルの高さであり、前記Ｓが畳み込みカーネルの幅であるステップ、Ｒ×１のサブ膨張畳み込み演算ごとに、複数の重み値を演算部行列における複数の演算部に並行してバッファするステップ、入力画像データから、前記複数の重み値の各々に対応する多重入力データストリームをそれぞれ、特定し、前記多重入力データストリームを前記複数の演算部に並行して入力するステップ、前記複数の演算部の各々の内部において、バッファされている重み値と受信された入力データストリームに基づいて、スライド操作と乗算操作を実行するとともに、前記複数の演算部の間に累積加算操作を実行して、前記サブ膨張畳み込み演算の中間結果を出力するステップ、および、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果を加算して、前記膨張畳み込み演算の畳み込み結果を取得するステップ、を含む、膨張畳み込み加速演算方法を提供する。

可能性のある一実施形態では、前記膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、入力画像データから、必要なデータを読み取ることで、前記重み値毎に対応する入力データストリームをスティッチングして構成する。

可能性のある一実施形態では、前記膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、前記入力画像データにおける複数行のデータを読み取ることで、前記重み値毎に対応する入力データストリームをスティッチングして構成する。

可能性のある一実施形態では、前記スライド操作のスライドステップサイズは、前記膨張畳み込み演算の前記畳み込みステップサイズによって決められる。

可能性のある一実施形態では、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果を加算する前記ステップは、前記Ｓ個のＲ×１のサブ膨張畳み込み演算において、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果をリアルタイムに加算すること、又は、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の実行が終了した後、複数の中間結果を加算すること、を含む。

第２態様では、論理制御部と、演算部行列と、を備え、前記論理制御部は、Ｒ×Ｓの膨張畳み込み演算を、Ｓ個のＲ×１のサブ膨張畳み込み演算に分解し、前記Ｒが畳み込みカーネルの高さであり、前記Ｓが畳み込みカーネルの幅であり、Ｒ×１のサブ膨張畳み込み演算ごとに、複数の重み値を前記演算部行列における複数の演算部に並行してバッファし、入力画像データから、前記複数の重み値の各々に対応する多重入力データストリームをそれぞれ、特定し、前記多重入力データストリームを前記複数の演算部に並行して入力するために配置されており、前記演算部行列は、前記複数の演算部の各々の内部において、バッファされている重み値と受信された入力データストリームに基づいて、スライド操作と乗算操作を実行するとともに、前記複数の演算部の間に累積加算操作を実行して、前記サブ膨張畳み込み演算の中間結果を出力し、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果を加算して、前記膨張畳み込み演算の畳み込み結果を取得するために配置されている、膨張畳み込み加速演算装置を提供する。

可能性のある一実施形態では、前記論理制御部は、前記膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、入力画像データから、必要なデータを読み取ることで、前記重み値毎に対応する入力データストリームをスティッチングして構成するために配置されている。

可能性のある一実施形態では、前記論理制御部は、前記膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、前記入力画像データにおける複数行のデータを読み取ることで、前記重み値毎に対応する入力データストリームをスティッチングして構成するために配置されている。

可能性のある一実施形態では、前記演算部行列は、前記Ｓ個のＲ×１のサブ膨張畳み込み演算において、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果をリアルタイムに加算する、又は、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の実行が終了した後、複数の中間結果を加算するために配置されている。

本願の実施例では、上記少なくとも１つの技術案によれば、以下の有益な効果が得られる。すなわち、Ｒ×Ｓの膨張畳み込み演算を、Ｓ個のＲ×１のサブ膨張畳み込み演算に分解し、分割して得られた複数の重み値を１列の演算部に並行してバッファし、各演算部がバッファされている重み値に基づいて入力データストリームにてスライド操作と乗算操作を行い、演算部の間に累積加算操作を行うことにより、膨張畳み込み演算を加速し、このような方案によれば、Ｉｍ２ｃｏｌの機能を個別に実現する必要がないので、複雑度が低減される。

理解すべきなのは、上記説明は、本発明の技術手段をより明瞭に理解してもらうための、本発明の技術案の概要に過ぎず、明細書の内容を基にして実施することが可能である。また、本発明の上記目的及び他の目的、特徴、及びメリットをさらに明瞭的で分かりやすくするために、以下は、特に、本発明の具体的な実施の形態を例示する。

〔図面の簡単な説明〕
以下の例示的な実施例の詳細を閲覧したうえで、当業者は、本明細書に記載の利点や有益な効果、および、他の利点や有益な効果を理解できるだろう。添付図面は、例示的な実施例の目的を示すためのものに過ぎず、本発明を制限するものとして見なされない。しかも、全ての添付図面において、同一の部材は同一の記号で示される。添付図面において、
図１は、従来技術におけるＩｍ２ｃｏｌに基づく膨張畳み込み演算の概略図である。

図２は、畳み込みニューラルネットワーク演算装置の構造概略図である。

図３は、本発明の一実施例に係る膨張畳み込み加速演算方法のフロー概略図である。

図４ａは、膨張畳み込み演算の概略図であり、図４ｂは、図４ａに示される膨張畳み込み演算の別の概略図である。

図５は、本発明の一実施例におけるＲ×Ｓの膨張畳み込み演算をＳ個のＲ×１のサブ膨張畳み込み演算に分解することの概略図である。

図６は、本発明の一実施例におけるＲ×Ｓの膨張畳み込み演算をＳ個のＲ×１のサブ膨張畳み込み演算に分解することの別の概略図である。

図７は、本発明の一実施例における重み値がバッファされている演算部（ＰＥ）を用いて膨張畳み込みを行うことの概略図である。

図８は、本発明の一実施例における重み値がバッファされている演算部（ＰＥ）を用いてスライド操作を行うことの概略図である。

図９は、本発明の一実施例に係る膨張畳み込み加速演算装置の構造概略図である。

添付図面において、同一又は対応な部分は、同一または対応な記号で示される。

〔具体的な実施の形態〕
以下は、添付図面を参照しながら、本開示の例示的な実施例をより詳しく説明する。添付図面には、本開示の例示的な実施例が示されたが、本開示は、種々な形式で実現することができ、ここに記載の実施例により限られたものではないと、理解すべきである。逆に、それらの実施例を提供する目的は、本開示をさらに明瞭に理解できるようにすることであって、本開示の範囲を当業者に完全に伝えることができることである。

本発明では、理解すべきなのは、例えば、「含む」や「備える」のような用語は、本発明により開示された特徴、数字、工程、行為、部材、部分又はそれらの組み合わせの存在を示すためのものであり、１つまたは複数の他の特徴、数字、工程、行為、部材、部分又はそれらの組み合わせの存在の可能性を排除することを意図しない。

なお、説明すべきなのは、衝突しない場合、本発明における実施例及び実施例に記載の特徴は互いに組み合わされてもよい。以下は、添付図面を参照しながら、実施例を組み合わせて本願発明を詳しく説明する。

図２は、膨張畳み込み加速演算装置の構造概略図２０を示す。膨張畳み込み加速演算装置は、演算プラットフォーム２１と、外部メモリ２２と、を含み、演算プラットフォーム２１は、少なくとも、膨張畳み込み演算を実行するための演算部（ＰＥ）行列２１１と内部メモリ２１２を含み、ここで、外部メモリ２２は、通常、低コストの記憶媒体が用いられ、そして、帯域幅が限られるとともに、読取り・書込み用の電力消耗が高いことも一般的である。内部メモリは、通常、アクセス速度が速い記憶媒体が用いられ、例えば、帯域幅が高く、読取り・書込みコストが低いＳＲＡＭが挙げられる。しかし、高コストのものなので、容量が限られたことが一般的である。

図３は、本発明の実施例に係る膨張畳み込み加速演算方法３００のフロー概略図を示す。以下は、図２に示される膨張畳み込み加速演算装置を組み合わせながら、図３中の膨張畳み込み加速演算方法３００の各方面を詳しく説明する。

図３に示されるように、該方法３００では、以下のステップを含んでもよい。

ステップ３０１：Ｒ×Ｓの膨張畳み込み演算を、Ｓ個のＲ×１のサブ膨張畳み込み演算に分解し、ここで、Ｒが畳み込みカーネルの高さであり、Ｓが畳み込みカーネルの幅であること、
ステップ３０２：Ｒ×１のサブ膨張畳み込み演算ごとに、複数の重み値を演算部行列における複数の演算部に並行してバッファすること、
ステップ３０３：入力画像データから、複数の重み値の各々に対応する多重入力データストリームをそれぞれ、特定し、多重入力データストリームを複数の演算部に並行して入力すること、
ステップ３０４：複数の演算部の各々の内部において、バッファされている重み値と受信された入力データストリームに基づいて、スライド操作と乗算操作を実行するとともに、複数の演算部の間に累積加算操作を実行して、サブ膨張畳み込み演算の中間結果を出力すること、および、
ステップ３０５：Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果を加算して、膨張畳み込み演算の畳み込み結果を取得すること。

図４ａと図４ｂは、膨張畳み込み演算の例示を示す。ここで、図４ａに示されるように、当該膨張畳み込み演算の入力画像データは、若干の画素値Ｄ_ａｂｃからなる行列データであり、ここで、下付き文字ａがチャネル番号を示すものであり、下付き文字ｂが行番号を示し、０、１、……、６から値をとったものであり、下付き文字ｃが列番号を示し、０、１、……、６から値をとったものであり、すなわち、サイズが７（列）×７（行）である。当該入力画像データは、ニューラルネットワークモデルに入力された真の画像から得られてもよく、通常、外部メモリ２２に行毎に、チャネル毎に順次に連続して記憶されている。当該膨張畳み込み層の畳み込みカーネルは、若干の重み値Ｗ_ｅｄｆからなるものであり、ここで、下付き文字ｅがチャネル番号を示すものであり、下付き文字ｄが行番号を示し、０、１、２から値をとったものであり、下付き文字ｆが列番号を示し、０、１、２から値をとったものであり、すなわち、畳み込みカーネルのサイズが３（列）×３（行）である。畳み込みカーネルは、若干の画像サンプルデータをトレーニングすることによって得られてもよく、通常、外部メモリ２２に記憶されている。図４ｂに示されるように、膨張畳み込みの結果は、畳み込みカーネルが入力画像データに対して膨張畳み込みを行うことによって得られた出力データであり、ここで、Ｐ_ｘｙについて、下付き文字ｘが行番号を示し、０、１、２から値をとったものであり、下付き文字ｙが列番号を示し、０、１、２から値をとったものであり、すなわち、そのサイズが３（列）×３（行）である。本実施例では、実現された膨張畳み込み演算は、すなわち、入力画像データと重み行列から、膨張畳み込みの結果をマッピングされる操作である。本実施例では、チャネル０の演算を例にして説明する。当業者であれば、チャネル０の演算論理に従って他のチャネルへの演算も可能であることを理解できるはずである。

図４ａと図４ｂに示された膨張畳み込み演算を例にして、本発明の実施例を詳しく説明する。

膨張畳み込み演算の膨張率λ＝２、畳み込みステップサイズｓ＝１と仮定する。まず、図４ａと図４ｂに示される３×３の膨張畳み込み演算を、３個の３×１のサブ膨張畳み込み演算に分解してもよい。例えば、図５に示されるように、３×３の畳み込みカーネルを、第１の畳み込みサブカーネル、第２の畳み込みサブカーネル、および、第３の畳み込みサブカーネルという３個の３×１の畳み込みサブカーネルに分割し、その後、図４ｂに示される膨張畳み込み演算を、図６に示される３組のサブ膨張畳み込み演算に分割する。

次は、３×１のサブ膨張畳み込み演算毎に、図７に示されるように、チャネル０の畳み込み演算を例にして説明すると、まず、３つの重み値（Ｗ_０００、Ｗ_０１０、Ｗ_０２０）を演算部行列における３つの演算部に並行してバッファする。続いて、入力画像データから、３つの重み値（Ｗ_０００、Ｗ_０１０、Ｗ_０２０）の各々に対応する３チャネル入力データストリームをそれぞれ、特定し、３チャネル入力データストリームを３つの演算部に並行して入力する。

可能性のある幾つかの実施形態では、当該膨張畳み込み演算の膨張率λ＝２と畳み込みステップサイズｓ＝１に基づき、入力画像データにおける複数行データを特定するとともに、複数行データから、必要なデータを順次に読み取ることで、重み値毎に対応する入力データストリームをスティッチングして構成してもよい。例えば、重み値Ｗ_０００がバッファされた計算部に入力されたデータストリームは、（Ｄ_０００、Ｄ_００１、Ｄ_００２、Ｄ_０１０、Ｄ_０１１、Ｄ_０１２、Ｄ_０２０、Ｄ_０２１、Ｄ_０２２）となってもよい。つまり、「Ｄ_０００、……、Ｄ_{００（ｗ－２λ－１）}、Ｄ_０１０、……、Ｄ_{０１（ｗ－２λ－１）}、Ｄ_{０（ｗ－２λ－１）０}、……、Ｄ_{０（Ｈ－２λ－１）（Ｗ－２λ－１）}」となる。ここで、Ｗが入力画像データの幅であり、Ｈが入力画像データの高さであり、Ｗ＝７、Ｈ＝７である。相応に、重み値Ｗ_０１０とＷ_０２０がバッファされた計算部に入力されたデータストリームは、順次に導き出されることができる。続いて、３つの演算部の各々の内部において、バッファされている重み値と受信された入力データストリームに基づいて、スライド操作と乗算操作を実行するとともに、複数の演算部の間に累積加算操作を実行して、サブ膨張畳み込み演算の中間結果を出力する。例えば、演算部の内部において、バッファされている重み値をスライドウィンドウとして入力データストリームに対してスライド操作を実行し、スライド操作毎にウィンドウ内のデータを乗算操作して乗算の結果を取得し、乗算操作が終了した度に、１列の演算部による乗算の結果を累積加算して、１画素位置に対応する中間結果を取得する。

可能性のある一実施形態では、Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果を加算する前記ステップは、前記Ｓ個のＲ×１のサブ膨張畳み込み演算において、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果をリアルタイムに加算すること、又は、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の実行が終了した後、複数の中間結果を加算すること、を含む。例えば、演算部行列によって、上記第１の中間結果、第２の中間結果、および、第３の中間結果が算出された後、バッファされている上記３個の３×１のサブ膨張畳み込み演算の中間結果を加算して、膨張畳み込み演算の畳み込み結果を取得する。選択的に、演算部による演算中に、リアルタイムに加算してもよい。例えば、第２の中間結果のＰ_００’’を算出した後、第１の中間結果のＰ_００’にリアルタイムに累積加算する。選択的に、オンチップバッファエリアの大きさによって、加算モードでは、演算中にリアルタイムに加算するように決められてもよく、又は、演算の実行が終了した後、複数の中間結果を加算するように決められてもよい。

可能性のある別の幾つかの実施形態では、データ読取論理をさらに簡素化するために、膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、入力画像データにおける複数行データを特定するとともに、複数行データに対して重み値毎に対応する入力データストリームをスティッチングして構成してもよい。例えば、膨張率λ＝２、畳み込みステップサイズｓ＝１、畳み込みカーネルのサイズが３×３であり、入力画像データのサイズが７×７の場合、重み値Ｗ_０００がバッファされた演算部に対して、当該入力画像データの１行目、２行目、および、３行目のデータをスティッチングして構成したものを直接に入力してもよい。つまり、（Ｄ_０００、……、Ｄ_００６、Ｄ_０１０、……、Ｄ_０１６、Ｄ_０２０、……、Ｄ_０２６）となり、また、演算部の内部において、スライド操作が行われるスライド領域を制御する。例えば、列番号が２未満であるデータストリームのみにて、スライド操作を行うとともに、列番号が２よりも大きいデータをスキップしてもよい。

図８に示されるように、上記３×３の膨張畳み込み演算を例にして、重み値Ｗ_０００がバッファされた演算部による演算部行列への操作を基にして説明する。ここで、タイミングＴ_１上にて、重み値Ｗ_０００が入力データストリームにてスライドして、Ｄ_０００に到達し、且つ、ウィンドウ内の重み値と入力データとに基づき、Ｗ_０００×Ｄ_０００という乗算操作を実行する。同時に、他の演算部（ＰＥ）もバッファされた重みセグメントを基にして対応する入力データストリームにて同期的にスライドするとともに、重み値とウィンドウ内のデータとに基づき、乗算操作を実行する。例えば、重み値Ｗ_００１がＤ_０２０までスライドし、重み値Ｗ_００２がＤ_０２０までスライドし、順次類推すると、各演算部（ＰＥ）のタイミングＴ_１上の乗算結果が得られるようになり、さらに、第１の畳み込みサブカーネルに対応する１列の演算部（ＰＥ）のタイミングＴ_１上の全ての乗算結果を加算して１つの出力値Ｐ_００’が得られる。タイミングＴ_２上にて、重み値Ｗ_０００は、畳み込みステップサイズに基づいて、入力データストリームにてスライドして、Ｄ_００１に到達し、順次類推すると、図６中の別の出力値Ｐ_０１’が得られるようになり、また、タイミングＴ_３上にて、図６中の別の出力値Ｐ_０２’が得られるようになる。最終的に、図６中の第１の中間結果としての各値を取得するとともに、その第１の中間結果をバッファしてもよい。

理解すべきなのは、第１の畳み込みサブカーネルに係る演算が終了した後、演算部行列におけるバッファ値を、第２の畳み込みサブカーネルの複数の重み値に更新するとともに、上記方法と同様な方法により、図６中の第２の中間結果としての各値を取得し、順次類推すると、サブ膨張畳み込み演算ごとに対応する中間結果を取得することができ、上記複数の中間結果を位置に応じて加算することで、膨張畳み込み操作による畳み込み結果が得られる。

別の実施例では、複数列演算部（ＰＥ）を用いて、複数の畳み込みカーネルの膨張畳み込み演算を同時で並行して実現させることができる。さらに、異なる畳み込みカーネルにおいて、同一の位置にある重み値が同一の入力データストリームに対応するため、異なる畳み込みカーネルにおける同一の位置にある重み値を演算部（ＰＥ）行列の同一行に配列してもよい。

可能性のある幾つかの実施形態では、前記ステップ３０４は、当該スライド操作のスライドステップサイズは、膨張畳み込み演算の畳み込みスステップサイズによって決められる。例えば、図８に示されるスライド操作では、スライドステップサイズは畳み込みステップサイズと同じである。

本実施例では、上記方法が用いられたことで、高汎用性、低複雑度を有する膨張畳み込み加速演算の実現には、外部メモリにおける単一の記憶方向に連続して記憶された入力画像データを同時に行または列を跨いで頻繁に読み取る必要がなく、内部メモリの配列を特別に設計する必要もない。また、演算プラットフォームにおいてＩｍ２ｃｏｌの機能を別途で実現する必要もないので、ハードウェアリソースや演算電力消耗が節約される。

同一または類似した技術的構想を基にして、本発明の実施例は、論理制御部９１と、演算部（ＰＥ）行列２１１と、を備え、
論理制御部は、Ｒ×Ｓの膨張畳み込み演算を、Ｓ個のＲ×１のサブ膨張畳み込み演算に分解し、Ｒが畳み込みカーネルの高さであり、Ｓが畳み込みカーネルの幅であり、Ｒ×１のサブ膨張畳み込み演算ごとに、複数の重み値を演算部行列における複数の演算部に並行してバッファし、複数の重み値の各々に対応する多重入力データストリームをそれぞれ、特定し、多重入力データストリームを前記複数の演算部に並行して入力するために配置されており、
演算部行列は、複数の演算部の各々の内部において、バッファされている重み値と受信された入力データストリームに基づいて、スライド操作と乗算操作を実行するとともに、複数の演算部の間に累積加算操作を実行して、サブ膨張畳み込み演算の中間結果を出力し、Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果を加算して、膨張畳み込み演算の畳み込み結果を取得するために配置されている、膨張畳み込み加速演算装置をさらに提供する。

可能性のある幾つかの実施形態では、論理制御部９１は、膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、入力画像データから、必要なデータを読み取ることで、重み値毎に対応する入力データストリームをスティッチングして構成するために配置されている。

可能性のある別の幾つかの実施形態では、論理制御部９１は、膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、入力画像データにおける複数行データを読み取ることで、重み値毎に対応する入力データストリームをスティッチングして構成するために配置されている。

可能性のある幾つかの実施形態では、スライド操作のスライドステップサイズは、膨張畳み込み演算の畳み込みスステップサイズによって決められる。

可能性のある一実施形態では、演算部行列は、Ｓ個のＲ×１のサブ膨張畳み込み演算において、Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果をリアルタイムに加算する、又は、Ｓ個のＲ×１のサブ膨張畳み込み演算の実行が終了した後、複数の中間結果を加算するために配置されている。

本願における各実施例は、漸進的な方式により記述されており、各実施例間における同一や類似した部分について、相互参照すればよく、各実施例では、他の実施例との相違点に重点を置いて説明されている。特に、装置について、それが方法実施例と基本的に同じなので、それに対する記述は簡素化され、関連部分について、方法実施例における一部の説明を参照すればよい。

本願の実施例で提供される装置は、方法と一対一で対応するものである。そのため、装置は、それに対応する方法と類似した有益な技術的効果を有するものである。以上は、方法による有益な技術的効果について詳しく説明されているので、ここでは、装置による有益な技術的効果の説明を省略する。

本発明の精神と原理は、若干の具体的な実施の形態を参照して説明されているが、理解すべきなのは、本発明は、開示されている具体的な実施の形態によって限定されず、各態様の分割は、単に説明の便宜のためのものに過ぎず、これらの態様の特徴を組み合わせて利益を得ることができないことを意味しない。本発明は、添付の請求項の精神や範囲に含まれる様々な修正や同等の構成を包含することが意図される。

従来技術におけるＩｍ２ｃｏｌに基づく膨張畳み込み演算の概略図である。畳み込みニューラルネットワーク演算装置の構造概略図である。本発明の一実施例に係る膨張畳み込み加速演算方法のフロー概略図である。膨張畳み込み演算の概略図である。図４ａに示される膨張畳み込み演算の別の概略図である。本発明の一実施例におけるＲ×Ｓの膨張畳み込み演算をＳ個のＲ×１のサブ膨張畳み込み演算に分解することの概略図である。本発明の一実施例におけるＲ×Ｓの膨張畳み込み演算をＳ個のＲ×１のサブ膨張畳み込み演算に分解することの別の概略図である。本発明の一実施例における重み値がバッファされている演算部（ＰＥ）を用いて膨張畳み込みを行うことの概略図である。本発明の一実施例における重み値がバッファされている演算部（ＰＥ）を用いてスライド操作を行うことの概略図である。本発明の一実施例に係る膨張畳み込み加速演算装置の構造概略図である。

Claims

Ｒ×Ｓの膨張畳み込み演算を、Ｓ個のＲ×１のサブ膨張畳み込み演算に分解するステップであって、前記Ｒが畳み込みカーネルの高さであり、前記Ｓが畳み込みカーネルの幅であるステップ、
Ｒ×１のサブ膨張畳み込み演算ごとに、複数の重み値を演算部行列における複数の演算部に並行してバッファするステップ、
入力画像データから、前記複数の重み値の各々に対応する多重入力データストリームをそれぞれ、特定し、前記多重入力データストリームを前記複数の演算部に並行して入力するステップ、
前記複数の演算部の各々の内部において、バッファされている重み値と受信された入力データストリームに基づいて、スライド操作と乗算操作を実行するとともに、前記複数の演算部の間に累積加算操作を実行して、前記サブ膨張畳み込み演算の中間結果を出力するステップ、および、
前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果を加算して、前記膨張畳み込み演算の畳み込み結果を取得するステップ、を含む、
ことを特徴とする膨張畳み込み加速演算方法。
前記膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、入力画像データから、必要なデータを読み取ることで、前記重み値毎に対応する入力データストリームをスティッチングして構成する、ことを特徴とする請求項１に記載の方法。
前記膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、前記入力画像データにおける複数行のデータを読み取ることで、前記重み値毎に対応する入力データストリームをスティッチングして構成する、ことを特徴とする請求項１に記載の方法。
前記スライド操作のスライドステップサイズは、前記膨張畳み込み演算の前記畳み込みステップサイズによって決められる、ことを特徴とする請求項１に記載の方法。
前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果を加算する前記ステップは、
前記Ｓ個のＲ×１のサブ膨張畳み込み演算において、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果をリアルタイムに加算すること、又は、
前記Ｓ個のＲ×１のサブ膨張畳み込み演算の実行が終了した後、複数の中間結果を加算すること、を含む、ことを特徴とする請求項１に記載の方法。
論理制御部と、演算部行列と、を備え、
前記論理制御部は、Ｒ×Ｓの膨張畳み込み演算を、Ｓ個のＲ×１のサブ膨張畳み込み演算に分解し、前記Ｒが畳み込みカーネルの高さであり、前記Ｓが畳み込みカーネルの幅であり、Ｒ×１のサブ膨張畳み込み演算ごとに、複数の重み値を前記演算部行列における複数の演算部に並行してバッファし、入力画像データから、前記複数の重み値の各々に対応する多重入力データストリームをそれぞれ、特定し、前記多重入力データストリームを前記複数の演算部に並行して入力するために配置されており、
前記演算部行列は、前記複数の演算部の各々の内部において、バッファされている重み値と受信された入力データストリームに基づいて、スライド操作と乗算操作を実行するとともに、前記複数の演算部の間に累積加算操作を実行して、前記サブ膨張畳み込み演算の中間結果を出力し、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果を加算して、前記膨張畳み込み演算の畳み込み結果を取得するために配置されている、
ことを特徴とする膨張畳み込み加速演算装置。
前記論理制御部は、
前記膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、入力画像データから、必要なデータを読み取ることで、前記重み値毎に対応する入力データストリームをスティッチングして構成するために配置されている、ことを特徴とする請求項６に記載の装置。
前記論理制御部は、
前記膨張畳み込み演算の膨張率と畳み込みステップサイズに基づき、前記入力画像データにおける複数行のデータを読み取ることで、前記重み値毎に対応する入力データストリームをスティッチングして構成するために配置されている、ことを特徴とする請求項６に記載の装置。
前記スライド操作のスライドステップサイズは、前記膨張畳み込み演算の前記畳み込みステップサイズによって決められる、ことを特徴とする請求項６に記載の装置。
前記演算部行列は、前記Ｓ個のＲ×１のサブ膨張畳み込み演算において、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の中間結果をリアルタイムに加算する、又は、前記Ｓ個のＲ×１のサブ膨張畳み込み演算の実行が終了した後、複数の中間結果を加算するために配置されている、ことを特徴とする請求項６に記載の装置。