JP7332722B2

JP7332722B2 - データ処理方法、装置、記憶媒体及び電子機器

Info

Publication number: JP7332722B2
Application number: JP2021569505A
Authority: JP
Inventors: 王洪; 徐科; 魯国寧; 甄徳根; 孔徳輝; 張暁
Original assignee: セインチップステクノロジーカンパニーリミテッド
Priority date: 2019-06-27
Filing date: 2020-04-20
Publication date: 2023-08-23
Anticipated expiration: 2040-04-20
Also published as: JP2022538735A; EP3958149A4; WO2020259031A1; CN112149047A; EP3958149A1; US20220253668A1

Description

関連出願の相互参照

本願は、２０１９年６月２７日に中国専利局に出願された、出願番号が２０１９１０５６９１１９．３である中国特許出願に基づく優先権を主張し、その開示全体は援用により本願に組み込まれるものとする。

本願は、コンピュータ分野に関し、例えば、データ処理方法、装置、記憶媒体及び電子機器に関する。

人工知能は活況を呈しているが、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）、画像処理装置（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）、現場でプログラム可能なゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）などのチップの基本的なアーキテクチャは、この人工知能の飛躍的進歩のずっと前から存在しており、人工知能のために特別に設計されるものではないため、人工知能を実現するタスクを完全に引き受けることができない。人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）アルゴリズムは依然として絶えず変化しており、ＡＩチップはエネルギー効率の高い汎用ディープラーニングエンジンになるように、全てのアルゴリズムに適応できる構造を見つける必要がある。

ディープラーニングアルゴリズムは、多層の大規模なニューラルネットワークに構築されるものであり、ニューラルネットワークは、本質的に行列積と畳み込み操作を含む計算量が大きな関数である。通常、まず、回帰問題の分散、分類時のクロスエントロピーを含むコスト関数を定義し、次に、データをバッチでネットワークに渡し、パラメータに基づいてコスト関数値を導出し、ネットワークモデル全体を更新する必要がある。これは通常、少なくとも数百万回の乗算処理を意味し、膨大な量の計算になる。一般的には、Ａ＊Ｂ＋Ｃの計算が数百万回含まれており、計算力の消費は膨大である。したがって、ディープラーニングアルゴリズムは、主に畳み込み部分を加速する必要があり、畳み込み部分の累積によって計算力を高める。従来の殆どのアルゴリズムと比べて、従来のアルゴリズムの計算の複雑さが高く、ディープラーニングの計算の複雑さとストレージの複雑さとの関係は逆であり、ストレージ部分による性能のボトルネック及び消費電力のボトルネックは計算部分よりも遥かに大きい。畳み込みアクセラレータを簡単に設計しても、ディープラーニングコンピューティングの性能を向上させることができない。

本願の実施例には、少なくとも、従来技術において人工知能における畳み込み部分を如何にして効率的に加速するかが存在しないという問題を解決するように、データ処理方法、装置、記憶媒体及び電子装置が提供される。

本願の一実施例によれば、データ処理方法が提供され、当該方法は、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取り、ここで、Ｍ＊Ｎの値と前記予め設定された数の値は、それぞれ予め設定されたＹ＊Ｙ重みによって決定されることと、読み取られた特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの乗算・加算アレイに入力して畳み込み計算を行うことであって、ここで、畳み込み計算の方法は、前記特徴マップデータまたは前記出力チャンネルの重みがゼロである場合に、前記畳み込み計算を行わず、複数の前記特徴マップデータの値が同じである場合に、複数の同じ値の中から１つを選択して前記畳み込み計算を行うことを含むことと、前記畳み込み計算の結果を出力することと、を含む。

本願の別の実施例によれば、データ処理装置がさらに提供され、当該装置は、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取るように設置された読み取りモジュールであって、ここで、Ｍ＊Ｎの値と前記予め設定された数の値は、それぞれ予め設定されたＹ＊Ｙ重みによって決定される読み取りモジュールと、読み取られた特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの乗算・加算アレイに入力して畳み込み計算を行うように設置された畳み込みモジュールであって、ここで、畳み込み計算の方法は、前記特徴マップデータまたは前記出力チャンネルの重みがゼロである場合に、前記畳み込み計算を行わず、複数の前記特徴マップデータの値が同じである場合に、複数の同じ値の中から１つを選択して前記畳み込み計算を行う畳み込みモジュールと、前記畳み込み計算の結果を出力するように設置された出力モジュールと、を備える。

本願の別の実施例によれば、実行される際に本願のいずれかの方法実施例を実行するように設置されたコンピュータプログラムが格納されている記憶媒体がされに提供される。

本願の別の実施例によれば、コンピュータプログラムが格納されているメモリと、本願のいずれかの方法実施例を実行するように、前記コンピュータプログラムを実行するように設置されたプロセッサと、を備える電子装置がさらに提供される。

図１は、本願の実施例に提供されるデータ処理方法の端末のハードウェア構成ブロック図である。図２は、本願の実施例に提供されるデータ処理方法のフローチャートである。図３は、本願の実施例に提供される全体設計を示す図である。図４は、本願の実施例に提供されるＡＩ処理アーキテクチャを示す図である。図５は、本願の代替実施例に提供されるステップＳ４０２０のデータストリームを示す図である。図６は、本願の代替実施例に提供されるステップＳ４０３０のデータストリームを示す図である。図７は、本願の代替実施例に提供されるステップＳ４０５０のデータストリームを示す図である。図８は、本願の代替実施例に提供される畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）の加速部分を示す図である。図９は、本願の実施例に提供される消費電力低減を示す図である。図１０は、本願の実施例に提供される別の消費電力低減を示す図である。図１１は、本願の実施例に提供されるデータ処理装置の構成を示す図である。

以下、図面を参照しながら、実施例を組み合わせて本願を説明する。

本願の明細書における「第１」、「第２」等の用語は、指定された順序又は優先順位を記載するのではなく、類似する対象を区分するために使用されている。

実施例１
本願の実施例１に提供された方法実施例は、端末、コンピュータ端末または類似する演算装置で実行されることができる。端末で実行することを例とすると、図１は、本願の実施例に提供されるデータ処理方法の端末のハードウェア構成ブロック図である。図１に示されるように、端末１０は、１つまたは複数（図１では、１つのみが示されている）のプロセッサ１０２（プロセッサ１０２は、マイクロプロセッサ（ＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＵｎｉｔ、ＭＣＵ）またはフィールドプログラマブルゲートアレイＦＰＧＡ等の処理装置を含むが、これらに限らない）と、データを格納するように設けられたメモリ１０４とを含むことができ、選択できるように、上記の端末は、通信機能を有するように設けられた伝送装置１０６と、入出力装置１０８とをさらに含むことができる。図１に示される構成は模式的なものだけであり、上記の端末の構成を限定するものではない。例えば、端末１０は、図１に示されるものよりも多くまたは少ない部品、或いは、図１に示されるものと異なる配置をさらに含んでもよい。

メモリ１０４は、コンピュータプログラム、例えば、本願の実施例におけるデータ処理方法に対応するコンピュータプログラムのような、アプリケーションソフトウェアのソフトウェアプログラム及びモジュールを格納するように設けられることができ、プロセッサ１０２は、メモリ１０４に格納されたコンピュータプログラムを実行することにより、複数の機能アプリケーション及びデータ処理を実行し、即ち、上記の方法を実現する。メモリ１０４は、高速ランダムアクセスメモリを含むことができ、不揮発性メモリ、例えば１つまたは複数の磁気記憶装置、フラッシュメモリ、またはその他の不揮発性ソリッドステートメモリをさらに含むことができる。幾つかの実例において、メモリ１０４は、プロセッサ１０２に対して遠隔的に設けられたメモリをさらに含むことができ、これらのリモートメモリは、ネットワークを介して端末１０に接続されることができる。上記のネットワークの実例は、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限らない。

伝送装置１０６は、１つのネットワークを介してデータを送受信するように設けられている。上記のネットワークの具体的な実例は、端末１０の通信プロバイダによって提供される無線ネットワークを含むことができる。１つの実例において、伝送装置１０６は、１つのネットワークインターフェースコントローラー（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ、ＮＩＣ）を備え、ＮＩＣは、基地局を介して他のネットワークデバイスと接続されてインターネットと通信可能である。１つの実例において、伝送装置１０６は、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦ）モジュールであってもよく、ワイヤレスでインターネットと通信するように設けられる。

本実施例には、上記の端末で実行されるデータ処理方法が提供され、図２は、本願の実施例に提供されるデータ処理方法のフローチャートであり、図２に示されるように、当該フローチャートには、以下のステップを含む。

ステップＳ２０２、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取り、ここで、Ｍ＊Ｎの値と予め設定された数の値は、それぞれ予め設定されたＹ＊Ｙ重みによって決定され、Ｍ、Ｎ及びＹはいずれも正の整数である。

予め設定されたＹ＊Ｙ重み（ｗｅｉｇｈｔｓ）が３＊３／１＊１である場合、Ｍ＊Ｎ＝（１５＋２）＊（９＋２）であり、ｗｅｉｇｈｔｓが５＊５である場合、Ｍ＊Ｎ＝（１５＋４）＊（２５＋４）であり、ｗｅｉｇｈｔｓが７＊７である場合、Ｍ＊Ｎ＝（１５＋６）＊（４９＋６）であり、ｗｅｉｇｈｔｓが１１＊１１である場合、Ｍ＊Ｎ＝（１５＋１０）＊（１２１＋１０）である。

予め設定されたＹ＊Ｙ重み（ｗｅｉｇｈｔｓ）が３＊３／１＊１である場合、ｏｃ＿ｎｕｍ（予め設定された数）＝１６であり、ｗｅｉｇｈｔｓが５＊５である場合、ｏｃ＿ｎｕｍ＝５であり、ｗｅｉｇｈｔｓが７＊７である場合、ｏｃ＿ｎｕｍ＝３であり、ｗｅｉｇｈｔｓが１１＊１１である場合、ｏｃ＿ｎｕｍ＝１である。

ステップＳ２０４、読み取られた特徴マップデータ及び出力チャンネルの重みを予め設定された数の出力チャンネルの乗算・加算アレイ（ｍｕｌｔｉｐｌｙａｄｄａｒｒａｙ）に入力して畳み込み計算を行い、ここで、畳み込み計算の方法は、特徴マップデータまたは出力チャンネルの重みがゼロである場合に、畳み込み計算を行わず、複数の特徴マップデータの値が同じである場合に、複数の同じ値の中から１つを選択して畳み込み計算を行うことを含む。

ステップＳ２０６、畳み込み計算の結果を出力する。

上記のステップＳ２０２～ステップＳ２０６によれば、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取った後、畳み込みを行う方法は、特徴マップデータまたは出力チャンネルの重みがゼロである場合に、畳み込み計算を行わず、複数の特徴マップデータの値が同じである場合に、複数の同じ値の中から１つを選択して畳み込み計算を行うことである。つまり、特徴マップデータと重みにはゼロの値があるため、これらの値の乗算の結果は必ず０であり、この場合、今回の乗算計算と累積計算を省いて消費電力を減少させることができ、また、特徴マップデータには複数の値が同じである場合、後の同じ特徴マップデータの値の場合に乗算計算を行う必要がなくなり、前回の計算結果を直接に使用して済み、消費電力も減少し、これによって、人工知能における畳み込み部分を如何にして効率的に加速するかが存在しないという問題を解決し、畳み込み部分を効率的に加速し、消費電力を低減するという効果が得られる。

本実施例の代替実施形態において、本実施例におけるステップＳ２０２に係る、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取るという方法、以下のことであってもよい。

ステップＳ２０２－１１０、全ての入力チャンネルのＭ＊Ｎの特徴マップデータを読み取ってメモリに格納する。

ステップＳ２０２－１２０、予め設定された数の出力チャンネルの重みを読み取ってメモリに格納する。

上記のステップＳ２０２は適用シナリオにおいて以下のことであってもよい。
全ての入力チャンネル（ｉｎｐｕｔｃｈａｎｎｅｌ）のＭ＊Ｎの特徴マップ（ｆｅａｔｕｒｅｍａｐ）データを読み取って内部スタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＳＲＡＭ）に格納する。ｏｃ＿ｎｕｍ個の出力チャンネル（ｏｕｔｐｕｔｃｈａｎｎｅｌ）のｗｅｉｇｈｔｓを読み取って内部ＳＲＡＭに格納する。

本実施例の代替実施形態において、本願のステップＳ２０４に係る、読み取られた特徴マップデータ及び出力チャンネルの重みを予め設定された数の出力チャンネルの乗算・加算アレイに入力して畳み込み計算を行うという方法は、以下のステップで実現できる。

ステップＳ１０、第１入力チャンネルのＭ＊１の特徴マップデータを予め設定された数の出力チャンネルの計算アレイに入力し、第１グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算計算を行って、Ｚ個の計算結果を取得し、ここで、Ｚは予め設定されたＹ＊Ｙ重みによって決定される。

ステップＳ２０、次のサイクルにおいて、次の行のＭ＊１の特徴マップデータを予め設定された数の出力チャンネルの計算アレイに順次入力し、読み取り操作を実行した後の第Ｙサイクルの後に、全ての特徴マップデータを全体で置換し、ここで、読み取り操作は、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取ることである。

ここで、このステップＳ２０は、以下のことを含む。

ステップＳ２１０、次のサイクルでは、第１入力チャンネルの次の行のＭ＊１の特徴マップデータを予め設定された数の出力チャンネルの計算アレイに入力し、第２グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算計算を行って、次の行のＺ個の点の中間結果を取得し、同じ出力点の全ての乗算・加算をいずれも同一の乗算・加算ユニットで実現するように、第１行の特徴マップデータを左に移動させる。

ステップＳ２２０、次の行のＭ＊１の特徴マップデータを継続して入力し、ステップＳ２１０と同様な処理を行う。

ステップＳ２３０、読み取り操作後の第Ｙサイクルの後に、次の行のＭ＊１の特徴マップデータを継続して入力し、ステップＳ２１０と同様な処理を行い、全ての特徴マップデータを全体で置換する。

ステップＳ３０、次の行のＭ＊１の特徴マップデータを予め設定された数の出力チャンネルの計算アレイに継続して入力し、次のグループのＺ＊１個の乗算・加算ユニットを順次利用して乗算・加算計算を行って、Ｚ個の計算結果を取得し、読み取り操作を実行し後の第Ｙ＊Ｙサイクルの後に、第１行のＺ個のデータの第１入力チャンネルにおける全ての乗算・加算計算はいずれも完了する。

ステップＳ４０、第１入力チャンネルの次の入力チャンネルの特徴マップデータを計算アレイに入力し、上記のステップＳ１０～Ｓ４０を繰り返して実行する。

ステップＳ５０、読み取り操作を実行した後のＹ＊Ｙ＊の予め設定された数のサイクルの後に、第１行のＺ個のデータの全ての乗算・加算計算はいずれも完了し、計算結果を出力する。

ステップＳ６０、全ての入力チャンネルの次のＭ＊Ｎの特徴マップデータを読み取り、全ての入力チャンネルの特徴マップデータの計算がいずれも完了するまで上記のステップＳ１０～ステップＳ５０を繰り返して実行する。

上記のステップＳ１０～ステップＳ６０は適用シナリオにおいて以下のことであってもよい。

ステップＳ３０１０、ｉｎｐｕｔｃｈａｎｎｅｌ０のＭ＊１のｆｅａｔｕｒｅｍａｐデータをｏｃ＿ｎｕｍ個のｏｕｔｐｕｔｃｈａｎｎｅｌの計算アレイに送り、第１グループの１５＊１個の乗算・加算ユニットを利用して、第１行の乗算・加算計算を行い、１５点の中間結果を得る。

ｗｅｉｇｈｔｓが３＊３／１＊１である場合、計算アレイには、１５＊９個の乗算・加算ユニットが含まれ、ｗｅｉｇｈｔｓが５＊５である場合、計算アレイには、１５＊２５個の乗算・加算ユニットが含まれ、ｗｅｉｇｈｔｓが７＊７である場合、計算アレイには、１５＊４９個の乗算・加算ユニットが含まれ、ｗｅｉｇｈｔｓが１１＊１１である場合、乗算・加算ユニットには、１５＊１２１個の乗算・加算ユニットが含まれる。

ステップＳ３０２０、次のサイクル（ｃｙｃｌｅ）では、ｉｎｐｕｔｃｈａｎｎｅｌ０の次の行のＭ＊１のｆｅａｔｕｒｅｍａｐデータをｏｃ＿ｎｕｍ個のｏｕｔｐｕｔｃｈａｎｎｅｌの計算アレイに送り、第２グループの１５＊１個の乗算・加算ユニットを利用して、第２行の乗算・加算計算を行い、次の行の１５点の中間結果を取得し、同時に、同じ出力点の全ての乗算・加算をいずれも同一の乗算・加算ユニットで実現するように、第１行のデータレジスタ０（ｄａｔａｒｅｇｉｓｔｅｒ０）０～２５を左に移動させる。

ステップＳ３０３０、次の行のＭ＊１のｆｅａｔｕｒｅｍａｐデータを継続して入力し、同様な処理を行う。

ステップＳ３０４０、ステップＳ２０２後のＫ個のｃｙｃｌｅの後に、次の行のＭ＊１のｆｅａｔｕｒｅｍａｐデータを継続して入力し、同様な処理を行う。そして、行データの多重化を実現するように、全てのｄａｔａｒｅｇｉｓｔｅｒを全体で置換し、ｄａｔａｒｅｇｉｓｔｅｒ１の値をｄａｔａｒｅｇｉｓｔｅｒ０に割り当て、ｄａｔａｒｅｇｉｓｔｅｒ２の値をｄａｔａｒｅｇｉｓｔｅｒ１に割り当てる……。

ステップＳ３０５０、次の行のＭ＊１のｆｅａｔｕｒｅｍａｐデータを継続して入力し、Ｓ３０３０と同様な処理を行う。

ステップＳ３０６０、ステップＳ２０２の後のＫ＊Ｋ個のサイクルの後（当該Ｋ＊Ｋは上記のＹ＊Ｙと一致し、即ち、ＫとＹは同じ意味を有し、下記のＫ及びＫ＊Ｋも同じである）に、第１行の１５のデータのｉｎｐｕｔｃｈａｎｎｅｌ０における全ての乗算・加算計算は既に完了した。ｉｎｐｕｔｃｈａｎｎｅｌ１のＭ＊１のｆｅａｔｕｒｅｍａｐデータを計算アレイに送り込み、ステップＳ３０１０～ステップＳ３０６０を繰り返す。

ステップＳ３０７０、ステップＳ２０２後のＫ＊Ｋ＊ｉｃ＿ｎｕｍ（ｉｎｐｕｔｃｈａｎｎｅｌの数）個のｃｙｃｌｅの後に、第１行の１５のデータの全ての乗算・加算計算は既に完了し、それをダブルデータレート同期ダイナミックランダムアクセスメモリ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＤＲＳＤＲＡＭ）に出力する。

ステップＳ３０８０、全てのｉｎｐｕｔｃｈａｎｎｅｌの次のＭ＊Ｎのｆｅａｔｕｒｅｍａｐデータを読み取り、全てのｉｎｐｕｔｃｈａｎｎｅｌデータの処理が完了するまで、ステップＳ３０１０～ステップＳ３０７０を繰り返す。

以下、本願の代替実施形態を組み合わせて本願を説明する。

本代替実施形態には、効率的なＡＩ処理方法が提供され、当該処理方法は、畳み込みアルゴリズムを分析することにより、図３に示されるように、Ｆ個のｉｎｐｕｔｃｈａｎｎｅｌ（入力チャンネル）のｆｅａｔｕｒｅｍａｐ（特徴マップ）を畳み込んで（Ｆ個のＫ＊ＫのＷｅｉｇｈｔｓに対応する）累積してから１つのｏｕｔｐｕｔｃｈａｎｎｅｌ（出力チャンネル）のｆｅａｔｕｒｅｍａｐを出力する。複数のｏｕｔｐｕｔｃｈａｎｎｅｌのｆｅａｔｕｒｅｍａｐを出力する必要がある場合に、同じＦ個のｉｎｐｕｔｃｈａｎｎｅｌのｆｅａｔｕｒｅｍａｐ（別のＦ個のＫ＊ＫのＷｅｉｇｈｔｓに対応する）を累積して得られる。そうすると、ｆｅａｔｕｒｅｍａｐのデータの繰り返し使用回数はｏｕｔｐｕｔｃｈａｎｎｅｌの数であるため、ＤＤＲＳＤＲＡＭによって読み取られた帯域幅及び消費電力の需要を低減するように、ｆｅａｔｕｒｅｍａｐデータをできる限り１回だけ読み取る。

乗算と加算の数（即ち、計算力）が固定されているため、１つのｃｙｃｌｅ内で算出できるｏｕｔｌｐｕｔｃｈａｎｎｅｌの数も決定されており、計算力を向上／低下させる場合、１回計算されたｏｕｔｐｕｔｃｈａｎｎｅｌの数を調整することで、計算力の拡張と削減を実現できる。つまり、ｆｅａｔｕｒｅｍａｐとｗｅｉｇｈｔｓには幾つかの０の値があり、これらの値の乗算結果は必ず０であるため、今回の乗算と累積計算を省いて電力消費を減少させることができる。固定点量子化の関係により、ｆｅａｔｕｒｅｍａｐには同じ数値が多数あり、後の同じｆｅａｔｕｒｅｍａｐ値の場合に、乗算は不要になり、前回の計算の結果を直接に使用して済む。

本実施形態を用いて、ＤＤＲＳＤＲＡＭに格納されたデータを１回だけ読み取る必要があるため、帯域幅の消費が減少する。計算の過程において、全てのデータはシフト（ｓｈｉｆｔ）によって多重化され、ＳＲＡＭによる複数回の読み取りの消費電力が低減される。

図４は、本願の実施例に提供されるＡＩ処理アーキテクチャを示す図であり、図４に基づいて、本代替実施形態の効率的なＡＩ処理方法は、以下のステップを含む。

ステップＳ４０１０、全てのｉｎｐｕｔｃｈａｎｎｅｌのＭ＊Ｎのｆｅａｔｕｒｅｍａｐデータを読み取って（ｗｅｉｇｈｔｓが３＊３／１＊１である場合、Ｍ＊Ｎ＝（１５＋２）＊（９＋２）であり、ｗｅｉｇｈｔｓが５＊５である場合、Ｍ＊Ｎ＝（１５＋４）＊（２５＋４）であり、ｗｅｉｇｈｔｓが７＊７である場合、Ｍ＊Ｎ＝（１５＋６）＊（４９＋６）であり、ｗｅｉｇｈｔｓが１１＊１１である場合、Ｍ＊Ｎ＝（１５＋１０）＊（１２１＋１０）である）内部ＳＲＡＭに格納する。ｏｃ＿ｎｕｍ（ｗｅｉｇｈｔｓが３＊３／１＊１である場合、ｏｃ＿ｎｕｍ＝１６であり、ｗｅｉｇｈｔｓが５＊５である場合、ｏｃ＿ｎｕｍ＝５であり、ｗｅｉｇｈｔｓが７＊７である場合、ｏｃ＿ｎｕｍ＝３であり、ｗｅｉｇｈｔｓが１１＊１１である場合、ｏｃ＿ｎｕｍ＝１である）個のｏｕｔｐｕｔｃｈａｎｎｅｌのｗｅｉｇｈｔｓを読み取って内部ＳＲＡＭに格納する。

ステップＳ４０２０、ｉｎｐｕｔｃｈａｎｎｅｌ０のＭ＊１のｆｅａｔｕｒｅｍａｐデータをｏｃ＿ｎｕｍ個のｏｕｔｐｕｔｃｈａｎｎｅｌの計算アレイに送り（ｗｅｉｇｈｔｓが３＊３／１＊１である場合、計算アレイには１５＊９個の乗算・加算ユニットが含まれ、ｗｅｉｇｈｔｓが５＊５である場合、計算アレイには１５＊２５個の乗算・加算ユニットが含まれ、ｗｅｉｇｈｔｓが７＊７である場合、計算アレイには１５＊４９個の乗算・加算ユニットが含まれ、ｗｅｉｇｈｔｓが１１＊１１である場合、計算アレイには１５＊１２１の乗算・加算ユニットが含まれる）、第１グループの１５＊１個の乗算・加算ユニットを使用して、第１行の乗算・加算を行い、１５点の中間結果を得る。

ステップＳ４０２０のデータストリームを図５に示す。

ステップＳ４０３０、次のｃｙｃｌｅでは、ｉｎｐｕｔｃｈａｎｎｅｌ０の次の行のＭ＊１のｆｅａｔｕｒｅｍａｐデータをｏｃ＿ｎｕｍ個のｏｕｔｐｕｔｃｈａｎｎｅｌの計算アレイに送り、第２グループの１５＊１個の乗算・加算ユニットを使用して、第２行の乗算・加算を行い、次の行の１５点の中間結果を得る。同時に、同じ出力点の全ての乗算・加算をいずれも同一の乗算・加算ユニットで実現するように、第１行のｄａｔａｒｅｇｉｓｔｅｒ００～２５を左に移動させる。

ステップＳ４０３０のデータストリームを図６に示す。

ステップＳ４０４０、次の行のＭ＊１のｆｅａｔｕｒｅｍａｐデータを継続して入力し、同様な処理を行う。

ステップＳ４０５０、ステップＳ４０１０のＫ個のｃｙｃｌｅの後に、次の行のＭ＊１のｆｅａｔｕｒｅｍａｐデータを継続して入力し、同様な処理を行う。そして、行データの多重化を実現するように、全てのｄａｔａｒｅｇｉｓｔｅｒを全体で置換し、ｄａｔａｒｅｇｉｓｔｅｒ１の値をｄａｔａｒｅｇｉｓｔｅｒ０に割り当て、ｄａｔａｒｅｇｉｓｔｅｒ２の値をｄａｔａｒｅｇｉｓｔｅｒ１に割り当てる……。

ステップＳ４０５０のデータストリームを図７に示す。

ステップＳ４０６０、次の行のＭ＊１のｆｅａｔｕｒｅｍａｐデータを継続して入力し、ステップＳ４０４０と同様な処理を行う。

ステップＳ４０７０、ステップＳ４０１０のＫ＊Ｋ個のｃｙｃｌｅの後に、第１行の１５のデータのｉｎｐｕｔｃｈａｎｎｅｌ０における全ての乗算・加算計算は既に完了した。ｉｎｐｕｔｃｈａｎｎｅｌ１のＭ＊１のｆｅａｔｕｒｅｍａｐデータを計算アレイに送り込み、ステップＳ４０２０～ステップＳ４０６０を繰り返す。

ステップＳ４０８０、ステップＳ４０１０のＫ＊Ｋ＊ｉｃ＿ｎｕｍ（ｉｎｐｕｔｃｈａｎｎｅｌの数）個のｃｙｃｌｅの後に、第１行の１５のデータの全ての乗算・加算計算は既に完了し、それをＤＤＲＳＤＲＡＭに出力する。

ステップＳ４０９０、全てのｉｎｐｕｔｃｈａｎｎｅｌの次のＭ＊Ｎのｆｅａｔｕｒｅｍａｐデータを読み取り、全てのｉｎｐｕｔｃｈａｎｎｅｌのデータの処理が完了するまでステップＳ４０１０～ステップＳ４０６０を繰り返す。

上記のステップＳ４０１０～ステップＳ４０９０を３つの部分に分けて、それぞれ３つのモジュールによって実行すると、当該３つのモジュールは、入力制御（ＩＮＰＵＴ＿ＣＴＲＬ）、畳み込み加速及び出力制御（ＯＵＴＰＵＴ＿ＣＴＲＬ）を含み、その機能説明及びステップは、次のように対応する。

Ａ．ＩＮＰＵＴ＿ＣＴＲＬ
上記のステップＳ４０１０に対応し、本モジュールは、後続の畳み込み加速、読み取りの使用のために、主に高度な拡張可能なインターフェイス（ＡｄｖａｎｃｅｄｅＸｔｅｎｓｉｂｌｅＩｎｔｅｒｆａｃｅ、ＡＸＩ）バスを介してＤＤＲＳＤＲＡＭからｆｅａｔｕｒｅｍａｐ及びｗｅｉｇｈｔｓを読み取って、ＳＲＡＭに格納する。ＳＲＡＭのスペースが限られているため、ｗｅｉｇｈｔｓのサイズに応じて、全てのｉｎｐｕｔｃｈａｎｎｅｌｆｅａｔｕｒｅｍａｐに対応する小さな範囲のデータを読み取ってＳＲＡＭに格納し、この範囲のデータの全てのｏｕｔｐｕｔｃｈａｎｎｅｌデータを算出してから解放し、全てのｉｎｐｕｔｃｈａｎｎｅｌｆｅａｔｕｒｅｍａｐの次の小さな範囲のデータを引き続き使用する。

Ｂ．畳み込み加速
上記のステップＳ４０２０～ステップＳ４０７０に対応し、本モジュールは、主に、ＣＮＮ畳み込みネットワークに対してハードウェア加速を行い、図８に示されるように、ＩＮＰＵＴ＿ＣＴＲＬによって送信されたデータを乗算・加算アレイに分散して畳み込み計算し、そして、計算結果をＯＵＴＰＵＴ＿ＣＴＲＬに戻させる。

計算の過程において、以下の２つの方法によって演算過程における電力消費を低減する。
１）方法１：図９に示されるように、ｆｅａｔｕｒｅｍａｐまたはｗｅｉｇｈｔｓが０である場合、乗算及び累積計算を行わない。
２）方法２：図１０に示されるように、ｆｅａｔｕｒｅｍａｐの複数のデータの値が同じである場合、１つのデータの乗算のみが行われ、他のデータの乗算を行わずに、１番目のデータの乗算の結果を直接に使用する。

Ｃ．ＯＵＴＰＵＴ＿ＣＴＲＬ
上記のステップＳ４０８０及びステップＳ４０９０に対応し、本モジュールは、次の層の畳み込み加速の使用のために、主にＡＸＩバスを介して畳み込み加速された全てのｏｕｔｐｕｔｃｈａｎｎｅｌｆｅａｔｕｒｅｍａｐデータをアービトレーション及びアドレス管理によって制御してからＤＤＲＳＤＲＡＭに書き込む。

以下に、２１６０個の乗算・加算リソース、ｋｅｒｎｅｌが３＊３であることを例とすると、本代替実施形態の効率的なＡＩ処理過程について例を挙げて説明し、当該処理過程のステップは、以下のとおりである。

ステップＳ５０１０、全てのｉｎｐｕｔｃｈａｎｎｅｌの１７＊１１のｆｅａｔｕｒｅｍａｐデータを読み取って内部ＳＲＡＭに格納する。１６のｏｕｔｐｕｔｃｈａｎｎｅｌのｗｅｉｇｈｔｓを読み取って内部ＳＲＡＭに格納する。

ステップＳ５０２０、ｉｎｐｕｔｃｈａｎｎｅｌ０の１７＊１のｆｅａｔｕｒｅｍａｐデータを１６のｏｕｔｐｕｔｃｈａｎｎｅｌの計算アレイに送り、第１グループの１５＊１個の乗算・加算ユニットを利用して第１行の乗算・加算計算を行い、１５点の中間結果を得る。

ステップＳ５０３０、次のｃｙｃｌｅでは、ｉｎｐｕｔｃｈａｎｎｅｌ０の次の行の１７＊１のｆｅａｔｕｒｅｍａｐデータを１６のｏｕｔｐｕｔｃｈａｎｎｅｌの計算アレイに送り、第２グループの１５＊１個の乗算・加算ユニットを利用して第２行の乗算・加算計算を行って、次の行の１５点の中間結果を得る。同時に、同じ出力点の全ての乗算・加算をいずれも同一の乗算・加算ユニットで実現するように、第１行のｄａｔａｒｅｇｉｓｔｅｒ００～２５を左に移動させる。

ステップＳ５０４０、次の行の１７＊１のｆｅａｔｕｒｅｍａｐデータを継続して入力し、同様な処理を行う。

ステップＳ５０５０、ステップＳ５０１０の３つのｃｙｃｌｅの後に、次の行の１７＊１のｆｅａｔｕｒｅｍａｐデータを継続して入力し、同様な処理を行う。そして、行データの多重化を実現するように、全てのｄａｔａｒｅｇｉｓｔｅｒを全体で置換し、ｄａｔａｒｅｇｉｓｔｅｒ１の値をｄａｔａｒｅｇｉｓｔｅｒ０に割り当て、ｄａｔａｒｅｇｉｓｔｅｒ２の値をｄａｔａｒｅｇｉｓｔｅｒ１に割り当てる……。

ステップＳ５０６０、次の行の１７＊１のｆｅａｔｕｒｅｍａｐデータを継続して入力し、ステップＳ５０４０と同様な処理を行う。

ステップＳ５０７０、ステップＳ５０１０の９つのｃｙｃｌｅの後に、第１行の１５のデータのｉｎｐｕｔｃｈａｎｎｅｌ０における全ての乗算・加算計算は既に完了した。ｉｎｐｕｔｃｈａｎｎｅｌ１の１７＊１のｆｅａｔｕｒｅｍａｐデータを計算アレイに送り込み、Ｓ５０２０～Ｓ５０６０を繰り返す。

ステップＳ５０８０、ステップＳ５０１０の２３０４（ｉｎｐｕｔｃｈａｎｎｅｌの数が２５６である場合）のｃｙｃｌｅの後に、第１行の１５のデータの全ての乗算・加算計算は既に完了し、それをＤＤＲＳＤＲＡＭに出力する。

ステップＳ５０９０、全てのｉｎｐｕｔｃｈａｎｎｅｌの次の１７＊１１のｆｅａｔｕｒｅｍａｐデータを読み取り、全てのｉｎｐｕｔｃｈａｎｎｅｌのデータの処理が完了するまでステップＳ５０１０～ステップＳ５０７０を繰り返す。

本代替実施形態により、ＤＤＲＳＤＲＡＭにデータを格納するには１回だけ読み取る必要があり、帯域幅の消費が減少する。計算の過程において、全てのデータはｓｈｉｆｔによって多重化され、ＳＲＡＭによる複数回の読み取りの消費電力が低減される。

以上の実施形態の説明から分かるように、上記の実施例に係る方法は、ソフトウェアと必要な汎用ハードウェアプラットフォームの組み合わせによって実現できてもよいし、ハードウェアによって実現してもよい。本願の技術考案は、ソフトウェア製品の形で具体化されることができ、当該コンピュータソフトウェア製品は、１つの記憶媒体（例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に格納され、１つの端末装置（携帯電話、コンピュータ、サーバ、またはネットワークデバイス等であってもよい）に本願の実施例に記載の方法を実行させるように複数の命令を含む。

実施例２
本実施例には、データ処理装置がさらに提供され、当該装置は、上記の実施例及び実施形態を実現するように設置され、説明した内容について再び説明しない。以下に使用されるように、「モジュール」という用語は所定の機能を有するソフトウェアおよび／またはハードウェアとの組み合わせを実現することができる。以下の実施例に記載の装置がソフトウェアで実現することができるが、ハードウェア、またはソフトウェアとハードウェアとの組み合わせによる実現も可能でありかつ予想できる。

図１１は、本願の実施例に提供されるデータ処理装置の構成ブロック図であり、図１１に示されるように、当該装置は、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取るように設置された読み取りモジュールであって、ここで、Ｍ＊Ｎの値と予め設定された数の値は、それぞれ予め設定されたＹ＊Ｙ重みによって決定され、Ｍ、Ｎ及びＹはいずれも正の整数である読み取りモジュール９２と、読み取られた特徴マップデータ及び出力チャンネルの重みを予め設定された数の出力チャンネルの乗算・加算アレイに入力して畳み込み計算を行うように設置され、読み取りモジュール９２と結合して接続される畳み込みモジュールであって、ここで、畳み込み計算の方法は、特徴マップデータまたは出力チャンネルの重みがゼロである場合に、畳み込み計算を行わず、複数の特徴マップデータの値が同じである場合に、複数の同じ値の中から１つを選択して畳み込み計算を行う畳み込みモジュール９４と、畳み込み計算の結果を出力するように設置され、畳み込みモジュール９４と結合して接続される出力モジュール９６と、を備える。

選択できるように、本願における読み取りモジュール９２は、全ての入力チャンネルのＭ＊Ｎの特徴マップデータを読み取ってメモリに格納するように設置された第１読み取りユニットと、予め設定された数の出力チャンネルの重みを読み取ってメモリに格納するように設置された第２読み取りユニットとを含むことができる。

選択できるように、本願における畳み込みモジュール９４は以下のステップを実行するように設置される。

ステップＳ１、第１入力チャンネルのＭ＊１の特徴マップデータを予め設定された数の出力チャンネルの計算アレイに入力し、第１グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算計算を行って、Ｚ個の計算結果を取得し、ここで、Ｚは予め設定されたＹ＊Ｙ重みによって決定される。ステップＳ２、次のサイクルにおいて、次の行のＭ＊１の特徴マップデータを予め設定された数の出力チャンネルの計算アレイに順次入力し、読み取り操作を実行した後の第Ｙサイクルの後に、全ての特徴マップデータを全体で置換し、ここで、読み取り操作は、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取ることである。ステップＳ３、次の行のＭ＊１の特徴マップデータを予め設定された数の出力チャンネルの計算アレイに継続して入力し、次のグループのＺ＊１個の乗算・加算ユニットを順次利用して乗算・加算計算を行って、Ｚ個の計算結果を取得し、読み取り操作を実行し後の第Ｙ＊Ｙサイクルの後に、第１行のＺ個のデータの第１入力チャンネルにおける全ての乗算・加算計算はいずれも完了する。ステップＳ４、第１入力チャンネルの次の入力チャンネルの特徴マップデータを計算アレイに入力し、上記のステップＳ１～Ｓ４を繰り返して実行する。ステップＳ５、読み取り操作を実行してからＹ＊Ｙ＊の予め設定された数のサイクルの後に、第１行のＺ個のデータの全ての乗算・加算計算はいずれも完了し、計算結果を出力する。ステップＳ６、全ての入力チャンネルの次のＭ＊Ｎの特徴マップデータを読み取り、全ての入力チャンネルの特徴マップデータの計算がいずれも完了するまで上記のステップＳ１～ステップＳ５を繰り返して実行する。

ステップＳ２は、以下のステップを含むことができる。

ステップＳ２１、次のサイクルでは、第１入力チャンネルの次の行のＭ＊１の特徴マップデータを予め設定された数の出力チャンネルの計算アレイに送り、第２グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算計算を行って、次の行のＺ個の点の中間結果を取得し、同じ出力点の全ての乗算・加算をいずれも同一の乗算・加算ユニットで実現するように、第１行の特徴マップデータを左に移動させる。ステップＳ２２、次の行のＭ＊１の特徴マップデータを継続して入力し、ステップＳ２１と同様な処理を行う。ステップＳ２３、読み取り操作の第Ｙサイクルの後に、次の行のＭ＊１の特徴マップデータを継続して入力し、ステップＳ２１と同様な処理を行い、全ての特徴マップデータを全体で置換する。

上記の複数のモジュールは、ソフトウェアまたはハードウェアによって実現でき、後者については、以下の方法によって実現できるが、これらに限定されない。
上記のモジュールはいずれも同じプロセッサ内に位置するか、または、上記の複数のモジュールは任意に組み合わせることでそれぞれ異なるプロセッサ内に位置する。

実施例３
本願の実施例には、実行される際に上記のいずれかの方法実施例におけるステップを実行するように設置されたコンピュータプログラムが格納されている記憶媒体がさらに提供される。

選択できるように、本実施例において、上記の記憶媒体は、以下のステップを実行するためのコンピュータプログラムを格納するように設置されることができる：
全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取り、ここで、Ｍ＊Ｎの値と予め設定された数の値は、それぞれ予め設定されたＹ＊Ｙ重みによって決定されるステップ、
読み取られた特徴マップデータ及び出力チャンネルの重みを予め設定された数の出力チャンネルの乗算・加算アレイに入力して畳み込み計算を行い、ここで、畳み込み計算の方法は、特徴マップデータまたは出力チャンネルの重みがゼロである場合に、畳み込み計算を行わず、複数の特徴マップデータの値が同じである場合に、複数の同じ値の中から１つを選択して畳み込み計算を行うことを含むステップ、
畳み込み計算の結果を出力するステップ。

選択できるように、本実施例において、上記の記憶媒体は、ＵＳＢメモリ、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、ポータブルハードディスク、磁気ディスク、または光ディスクなどの、コンピュータプログラムを格納可能である様々な媒体を含むが、これらに限定されない。

本願の実施例には、コンピュータプログラムが格納されているメモリと、上記のいずれかの方法実施例におけるステップを実行するように、コンピュータプログラムを実行するように設置されたプロセッサと、を備える電子装置がさらに提供される。

選択できるように、上記の電子装置は、上記のプロセッサに接続された伝送装置と、上記のプロセッサに接続された入出力装置とをさらに含むことができる。

選択できるように、本実施例において、上記のプロセッサは、コンピュータプログラムによって以下のステップを実行するように設置されることができる：
全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取り、ここで、Ｍ＊Ｎの値と予め設定された数の値は、それぞれ予め設定されたＹ＊Ｙ重みによって決定されるステップ、
読み取られた特徴マップデータ及び出力チャンネルの重みを予め設定された数の出力チャンネルの乗算・加算アレイに入力して畳み込み計算を行い、ここで、畳み込み計算の方法は、特徴マップデータまたは出力チャンネルの重みがゼロである場合に、畳み込み計算を行わず、複数の特徴マップデータの値が同じである場合に、複数の同じ値の中から１つを選択して畳み込み計算を行うことを含むステップ、
畳み込み計算の結果を出力するステップ。

選択できるように、本実施例における具体的な例は、上述した実施例及び代替実施形態に記載の例を参照することができ、本実施例では、ここで再び説明しない。

上記の本願の複数のモジュールまたは複数のステップは、汎用計算機によって実現でき、それらは単一の計算機に集中されるか、または複数の計算機からなるネットワークに分布されてもよく、選択できるように、それらは計算機によって実行可能なプログラムコードによって実現できるため、記憶装置に格納されて計算機によって実行されることができる。また、場合によっては、ここに示したり説明したりするステップをここと異なる順序で実行することができ、または、それらを、それぞれ複数の集積回路モジュールに作製したり、それらのうちの複数のモジュールまたはステップを単一の集積回路に作製したりすることで実現することができる。このように、本願は、任意に指定されたハードウェアとソフトウェアとの組み合わせに限定されない。

Claims

全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取り、ここで、Ｍ＊Ｎの値と前記予め設定された数の値は、それぞれ予め設定されたＹ＊Ｙ重みによって決定され、Ｍ、Ｎ及びＹはいずれも正の整数であることと、
読み取られた特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの乗算・加算アレイに入力して畳み込み計算を行うことであって、ここで、畳み込み計算の方法は、前記特徴マップデータまたは前記出力チャンネルの重みがゼロである場合に、前記畳み込み計算を行わず、複数の特徴マップデータの値が同じである場合に、複数の同じ値の中から１つを選択して前記畳み込み計算を行うことを含むことと、
前記畳み込み計算の結果を出力することと、を含み、
読み取られた特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの乗算・加算アレイに入力して畳み込み計算を行うことは、
第１サイクルにおいて、第１入力チャンネルの第１行のＭ＊１の特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの計算アレイに入力し、第１グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算を行って、Ｚ個の計算結果を取得し、ここで、Ｚは前記予め設定されたＹ＊Ｙ重みによって決定されることと、
第２サイクルにおいて、前記第１入力チャンネルの第２行のＭ＊１の特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの計算アレイに入力し、第２グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算計算を行って、次の行のＺ個の点の中間結果を取得し、同じ出力点の全ての乗算・加算計算をいずれも同一の乗算・加算ユニットで実現するように、前記第１行の特徴マップデータを左に移動させることと、
第３サイクルにおいて、第３行のＭ＊１の特徴マップデータを入力し、前のサイクルと同様な操作を実行することと、
前記読み取り操作を実行した後の第Ｙサイクルの乗算・加算計算の操作が完了した後に、第Ｙ＋１サイクルにおいて、第Ｙ＋１行のＭ＊１の特徴マップデータを入力し、前のサイクルと同様な操作を実行し、前記第１入力チャンネルのＭ＊Ｎの特徴マップデータを全体で置換し、ここで、前記読み取り操作は、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取る操作であることと、
第Ｙ＋２サイクルにおいて、第Ｙ＋２行のＭ＊１の特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの計算アレイに入力し、第Ｙ＋２グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算を行って、Ｚ個の計算結果を取得し、前記読み取り操作を実行し後の第Ｙ＊Ｙサイクルの後に、第１行のＺ個のデータの前記第１入力チャンネルにおける全ての乗算・加算計算はいずれも完了することと、
前記予め設定された数の入力チャンネルのＭ＊Ｎの特徴マップデータを前記計算アレイに順次入力し、入力チャンネルの特徴マップデータごとに、各行のＭ＊１の特徴マップデータの乗算・加算操作を順次実行し、前記読み取り操作を実行した後のＹ＊Ｙ＊の予め設定された数のサイクルの後に、第１行のＺ個のデータの全ての乗算・加算計算はいずれも完了し、計算結果を出力することと、
全ての入力チャンネルのＭ＊Ｎの特徴マップデータを順次読み取り、全ての入力チャンネルの特徴マップデータの計算がいずれも完了するまで第１行のＺ個のデータの全ての乗算・加算計算を完了することと同様な操作を繰り返して実行することと、を含む、
ことを特徴とするデータ処理方法。
全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取ることは、
全ての入力チャンネルのＭ＊Ｎの特徴マップデータを読み取ってメモリに格納することと、
予め設定された数の出力チャンネルの重みを読み取って前記メモリに格納することと、を含む、
ことを特徴とする請求項１に記載のデータ処理方法。
全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取るように設置された読み取りモジュールであって、ここで、Ｍ＊Ｎの値と前記予め設定された数の値は、それぞれ予め設定されたＹ＊Ｙ重みによって決定され、Ｍ、Ｎ及びＹはいずれも正の整数である読み取りモジュールと、
読み取られた特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの乗算・加算アレイに入力して畳み込み計算を行うように設置された畳み込みモジュールであって、ここで、畳み込み計算の方法は、前記特徴マップデータまたは前記出力チャンネルの重みがゼロである場合に、前記畳み込み計算を行わず、複数の特徴マップデータの値が同じである場合に、複数の同じ値の中から１つを選択して前記畳み込み計算を行う畳み込みモジュールと、
前記畳み込み計算の結果を出力するように設置された出力モジュールと、を備え、
前記畳み込みモジュールは、
第１サイクルにおいて、第１入力チャンネルの第１行のＭ＊１の特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの計算アレイに入力し、第１グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算を行って、Ｚ個の計算結果を取得し、ここで、Ｚは前記予め設定されたＹ＊Ｙ重みによって決定され、
第２サイクルにおいて、前記第１入力チャンネルの第２行のＭ＊１の特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの計算アレイに入力し、第２グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算計算を行って、次の行のＺ個の点の中間結果を取得し、同じ出力点の全ての乗算・加算計算をいずれも同一の乗算・加算ユニットで実現するように、前記第１行の特徴マップデータを左に移動させ、
第３サイクルにおいて、第３行のＭ＊１の特徴マップデータを入力し、前のサイクルと同様な操作を実行し、
前記読み取り操作を実行した後の第Ｙサイクルの乗算・加算計算の操作が完了した後に、第Ｙ＋１サイクルにおいて、第Ｙ＋１行のＭ＊１の特徴マップデータを入力し、前のサイクルと同様な操作を実行し、前記第１入力チャンネルのＭ＊Ｎの特徴マップデータを全体で置換し、ここで、前記読み取り操作は、全ての入力チャンネルのＭ＊Ｎの特徴マップデータ及び予め設定された数の出力チャンネルの重みを読み取る操作であり、
第Ｙ＋２サイクルにおいて、第Ｙ＋２行のＭ＊１の特徴マップデータ及び前記予め設定された数の出力チャンネルの重みを前記予め設定された数の出力チャンネルの計算アレイに入力し、第Ｙ＋２グループのＺ＊１個の乗算・加算ユニットを利用して乗算・加算を行って、Ｚ個の計算結果を取得し、前記読み取り操作を実行し後の第Ｙ＊Ｙサイクルの後に、第１行のＺ個のデータの前記第１入力チャンネルにおける全ての乗算・加算計算はいずれも完了し、
前記予め設定された数の入力チャンネルのＭ＊Ｎの特徴マップデータを前記計算アレイに順次入力し、入力チャンネルの特徴マップデータごとに、各行のＭ＊１の特徴マップデータの乗算・加算操作を順次実行し、前記読み取り操作を実行した後のＹ＊Ｙ＊の予め設定された数のサイクルの後に、第１行のＺ個のデータの全ての乗算・加算計算はいずれも完了し、計算結果を出力し、
全ての入力チャンネルのＭ＊Ｎの特徴マップデータを順次読み取り、全ての入力チャンネルの特徴マップデータの計算がいずれも完了するまで第１行のＺ個のデータの全ての乗算・加算計算を完了することと同様な操作を繰り返して実行する、ように設置された、
ことを特徴とするデータ処理装置。
前記読み取りモジュールは、
全ての入力チャンネルのＭ＊Ｎの特徴マップデータを読み取ってメモリに格納するように設置された第１読み取りユニットと、
予め設定された数の出力チャンネルの重みを読み取って前記メモリに格納するように設置された第２読み取りユニットと、を含む、
ことを特徴とする請求項３に記載のデータ処理装置。
実行される際に請求項１～２のいずれかに記載のデータ処理方法を実行するように設置されたコンピュータプログラムが格納されている、
ことを特徴とする記憶媒体。
コンピュータプログラムが格納されているメモリと、請求項１～２のいずれかに記載のデータ処理方法を実行するように、前記コンピュータプログラムを実行するように設置されたプロセッサと、を備える、
ことを特徴とする電子装置。