JP7114659B2

JP7114659B2 - ニューラルネットワーク方法及び装置

Info

Publication number: JP7114659B2
Application number: JP2020134566A
Authority: JP
Inventors: 辰雨孫; 昌用孫; 在炯柳; 曙炯李; 相一鄭; 彰仁崔; 在濬韓
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-08-13
Filing date: 2020-08-07
Publication date: 2022-08-08
Anticipated expiration: 2040-08-07
Also published as: CN112396085A; US20210049474A1; EP3789928A3; JP2021034039A; EP3789928A2

Description

実施形態は、ニューラルネットワーク方法及び装置に関する。

認識プロセスの技術的な自動化は、例えば、特殊な算出構造としてプロセッサで具現されたニューラルネットワークモデルを介して具現され、これは相当な訓練後に入力パターンと出力パターンとの間で算出上直観的なマッピングを提供することができる。このようなマッピングを生成する訓練された能力は、ニューラルネットワークの学習能力といえる。しかも、特化した訓練により、このように特化して訓練されたニューラルネットワークは、例えば、訓練していない入力パターンに対して比較的に正確な出力を生成する一般化能力を有し得る。

下記の実施形態は、ニューラルネットワークのためのデータ処理方法及び装置を提供することに目的がある。

一実施形態によれば、プロセッサ実施データ処理方法は、入力特徴マップの複数の入力平面のうち、第１入力チャネルに対応する第１入力平面を受信するステップと、ウェイトカーネルの複数のウェイト平面のうち、前記第１入力チャネルに対応する第１ウェイト平面を受信するステップと、前記第１入力平面内の第１入力エレメントの少なくとも一部と、前記第１ウェイト平面内の第１ウェイトエレメントの少なくとも一部との間の乗算演算から乗算結果を累積して第１累積データを生成するステップと、前記第１累積データに基づいて出力特徴マップの複数の出力平面のうち第１出力チャネルに対応する第１出力平面を生成するステップとを含み、前記複数の入力平面のそれぞれ、及び前記複数のウェイト平面のそれぞれは入力チャネルに各々対応し、前記複数の出力チャネルのそれぞれは、出力チャネルに各々対応する。

前記第１出力平面を生成するステップは、前記第１累積データを含んでいる各入力チャネルに関する各累積データの合計に基づいて前記第１出力平面を生成するステップを含むことができる。

前記データ処理方法は、前記入力平面のうち第２入力チャネルに対応する第２入力平面を受信するステップと、前記複数のウェイト平面のうち前記第２入力チャネルに対応する第２ウェイト平面を受信するステップと、前記第２入力平面内の第２入力エレメントの少なくとも一部と、前記第２ウェイト平面内の第２ウェイトエレメントの少なくとも一部との間の乗算結果を累積して第２累積データを生成するステップとをさらに含むことができる。前記第１出力平面を生成するステップは、前記第１累積データ及び前記第２累積データの合計に基づいて前記第１出力平面を生成するステップを含むことができる。

前記第１累積データを生成するステップは、前記第１入力エレメントベクトルと前記第１ウェイトエレメントの前記一部との間の乗算演算の乗算結果に対応する第１加重された入力エレメントベクトルを生成するステップと、前記第１加重された入力エレメントベクトルを累積して前記第１累積データを生成するステップとを含むことができる。

前記第１入力エレメントベクトルを抽出するステップは、前記第１ウェイトエレメントの前記一部のインデックスに基づいて、前記第１入力エレメントベクトルに対応するオフセットを決定するステップと、前記決定されたオフセットに基づいて、前記第１入力平面から前記第１入力エレメントベクトルを抽出するステップとを含むことができる。前記第１入力エレメントベクトルのサイズ及び前記第１加重された入力エレメントベクトルのサイズは、単一命令複数データ（ＳＩＭＤ：ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ）演算単位に対応し得る。

前記第１累積データが生成されるとき、前記第１ウェイトエレメントの前記一部のうち、０の値に対応するゼロウェイトエレメントと、前記第１入力エレメントの前記一部との間の乗算演算は省略されることができる。前記第１ウェイトエレメントのうち、０に対応しないノンゼロウェイトエレメントの数を決定するステップと、予め決定された方式の演算を行う複数の演算タイプのうち、前記決定されたノンゼロウェイトエレメントの数に対応する演算タイプを選択するステップとをさらに含むことができる。

前記第１累積データを生成するステップは、前記選択された演算タイプに基づいて前記第１入力エレメントの前記一部と、前記第１ウェイトエレメントの前記一部に対応する前記ノンゼロウェイトエレメントとの間の前記乗算演算の前記乗算結果を累積して前記第１累積データを生成するステップを含むことができる。前記第１累積データを生成するステップは、前記ノンゼロウェイトエレメントのインデックスに基づいて、前記第１入力平面から前記ノンゼロウェイトエレメントに対応する第１入力エレメントベクトルを抽出するステップと、前記第１入力エレメントベクトルと、前記第１ウェイトエレメントの前記一部に対応する前記ノンゼロウェイトエレメントとの間の乗算演算の乗算結果に対応する第１加重された入力エレメントベクトルを生成するステップと、前記第１加重された入力エレメントベクトルを累積して前記第１累積データを生成するステップとを含むことができる。

前記ウェイト平面それぞれのウェイトエレメントそれぞれに前記第１入力平面の複数のエレメントを個別的に乗算するステップをさらに含むことができる。

一実施形態によると、データ処理装置は、入力特徴マップの複数の入力平面のうち、第１入力チャネルに対応する第１入力平面を受信し、ウェイトカーネルの複数のウェイト平面のうち、前記第１入力チャネルに対応する第１ウェイト平面を受信し、前記第１入力平面内の第１入力エレメントの少なくとも一部と、前記第１ウェイト平面内の第１ウェイトエレメントの少なくとも一部との間の乗算演算から乗算結果を累積して第１累積データを生成し、前記第１累積データに基づいて出力特徴マップの複数の出力平面のうち、第１出力チャネルに対応する第１出力平面を生成する１つ以上のプロセッサを含み、前記複数の入力平面のそれぞれ、及び前記複数のウェイト平面のそれぞれは入力チャネルに各々対応し、前記複数の出力チャネルのそれぞれは、出力チャネルに各々対応する。

前記データ処理装置は、前記１つ以上のプロセッサによって実行されれば、前記１つ以上のプロセッサが前記第１入力平面の受信、前記第１ウェイト平面の受信、前記第１累積データの生成、及び前記第１出力平面の生成を行う命令語を格納するメモリをさらに含むことができる。

一実施形態によると、電子装置のプロセッサによって行われる、プロセッサ実施方法は、複数の入力エレメントを含むニューラルネットワークのレイヤの入力平面を受信するステップと、複数のウェイトエレメントを含み、前記レイヤの前記入力平面に対応するウェイト平面を受信するステップと、前記ウェイト平面の各ウェイトエレメントと、前記入力平面の前記複数の入力エレメントの対応入力エレメントとの間の乗算演算を行って取得された乗算結果エレメントを累積して出力平面を生成するステップとを含む。

前記複数のウェイトエレメントのうち、０の値に対応するゼロウェイトエレメントが存在する場合、前記ゼロウェイトエレメントと前記ゼロウェイトエレメントに対応する入力エレメントとの間の乗算演算が省略されることができる。前記ニューラルネットワークのレイヤに関する畳み込み演算は、ＳＩＭＤ（ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ）基盤で行われることができる。

前記入力平面及び前記ウェイト平面は１つの入力チャネルに対応し、前記出力平面は１つの出力チャネルに対応し得る。前記入力平面は、前記レイヤの入力特徴マップに対応する複数の入力平面のうちの１つであり、前記ウェイト平面は、前記レイヤのウェイトカーネルに対応する複数のウェイト平面のうちの１つであり、前記複数の入力平面から前記入力平面を除いた少なくとも１つの他の入力平面、及び前記複数のウェイト平面から前記ウェイト平面を除いた少なくとも１つの他のウェイト平面に基づいて生成された少なくとも１つの他の出力平面、及び前記出力平面に基づいて前記レイヤの出力特徴マップが決定されることができる。

一実施形態によると、プロセッサ実施方法は、複数の入力平面を含む入力特徴マップを受信するステップと、複数のウェイト平面を含むウェイトカーネルを受信するステップと、前記入力特徴マップと前記ウェイトカーネルとの間の累積畳み込み演算を行うステップと、前記累積畳み込み演算に基づいて出力平面を生成するステップとを含む。

前記方法は、前記複数の入力平面と前記複数のウェイト平面との間の積和（ＭＡＣ：ｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅ）演算を行って累積平面を生成するステップをさらに含むことができる。前記出力平面は、前記累積平面の出力を累積して生成されることができる。

本発明によると、ニューラルネットワークのためのデータ処理方法及び装置を提供することができる。

一実施形態に係るニューラルネットワークのためのデータを処理する処理装置を示す図である。一実施形態に係る畳み込み演算過程を示す図である。スライディングウィンドウ方式の畳み込み演算を示す図である。一実施形態に係る累積方式の畳み込み演算を介して１つの出力平面が生成される過程を示す図である。一実施形態に係る累積方式の畳み込み演算を介して１つの出力平面が生成される過程を示す図である。一実施形態に係る累積方式の畳み込み演算のための入力平面とウェイト平面との間のＭＡＣ（ｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅ）演算を示す図である。一実施形態に係る累積方式の畳み込み演算のための入力平面とウェイト平面との間のＭＡＣ（ｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅ）演算を示す図である。一実施形態に係るＳＩＭＤ（ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ）処理を用いた累積方式の畳み込み演算を示す図である。一実施形態に係るＳＩＭＤ（ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ）処理を用いた累積方式の畳み込み演算を示す図である。一実施形態に係るＳＩＭＤ（ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ）処理を用いた累積方式の畳み込み演算を示す図である。一実施形態に係る累積方式の畳み込み演算のゼロスキップ過程を示す図である。一実施形態に係る予め決定された演算タイプを用いてゼロスキップを行う過程を示す図である。一実施形態に係る累積方式の畳み込み演算過程を示したフローチャートである。一実施形態に係るニューラルネットワークのためのデータ処理方法を示す図である。一実施形態に係るニューラルネットワークのためのデータを処理する処理装置を示すブロック図である。一実施形態に係る電子装置を示す図である。

本明細書で開示されている特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示されたものであり、実施形態は様々な異なる形態で実施され、本明細書に説明された実施形態に限定されることはない。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義されない限り、技術的であるか又は科学的な用語を含む、本明細書で用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を添付する図面を参照しながら詳細に説明する。添付の図面を参照して説明することにおいて、図面符号に関係なく、同じ構成要素は同じ参照符号を付し、これに対する重複する説明は省略することにする。

図１は、一実施形態に係るニューラルネットワークのためのデータを処理する処理装置を示す図である。図１を参照すると、データ処理装置１００は、ニューラルネットワーク１１０を含んでもよく、ニューラルネットワーク１１０に関連する動作を処理する。例えば、ニューラルネットワーク１１０に関連する動作は、オブジェクト認識動作及びユーザ認証動作を含む。

ニューラルネットワーク１１０は、ディープラーニングに基づいて非線形関係にある入力データ及び出力データを互いにマッピングすることで、オブジェクト認識動作やユーザ認証動作を行う。ディープラーニングは、ビッグデータセットから映像又は音声認識のような問題を解決するための機械学習方式である。ディープラーニングは、準備されたトレーニングデータを用いてニューラルネットワーク１１０をトレーニングしながら、エネルギーが最小化される地点を訪ねて行く最適化された問題解説の過程として理解される。ディープラーニングの教師あり（ｓｕｐｅｒｖｉｓｅｄ）又は教師なし（ｕｎｓｕｐｅｒｖｉｓｅｄ）学習を介してニューラルネットワーク１１０の構造、あるいはモデルに対応する重みが求められ、このような重みを介して入力データ及び出力データが互いにマッピングされることができる。

ニューラルネットワーク１１０は、複数のレイヤを含むディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ：ＤＮＮ）に該当する。複数のレイヤは、入力層、少なくとも１つの隠れ層、及び出力層を含む。図１に示されている第１レイヤ１１０、第２レイヤ１２０、及び第ｎレイヤ１３０は、このような複数のレイヤのうち少なくとも一部であってもよい。ニューラルネットワーク１１０は、完全接続ネットワーク（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｎｅｔｗｏｒｋ）、畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：ＣＮＮ）、及びリカレントニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ：ＲＮＮ）のうち少なくとも１つを含む。例えば、ニューラルネットワーク１１０内の複数のレイヤのうち少なくとも一部はＣＮＮに該当し、他の一部は完全接続ネットワークに該当する。

ＣＮＮで各レイヤに入力されるデータは入力特徴マップと称され、各レイヤから出力されるデータは出力特徴マップと称されてもよい。入力特徴マップ及び出力特徴マップは、活性化データと称される。入力層で入力特徴マップは入力データに対応する。

ニューラルネットワーク１１０に関する動作を処理するために、データ処理装置１００は、各畳み込みレイヤに関して入力特徴マップとウェイトカーネル（ｗｅｉｇｈｔｋｅｒｎｅｌ）との間に畳み込み演算を行い、畳み込み演算の結果に基づいて出力特徴マップを生成する。ニューラルネットワーク１１０の幅と深度が十分に大きければ、任意の関数を実現できる程度の容量を有する。ニューラルネットワーク１１０が適切なトレーニング過程を介して十分に多い量のトレーニングデータを学習すれば、最適な性能を達成することができる。

ウェイトカーネルは、「予め」決定されたものと表現しているが、ここで、「予め」とは、ニューラルネットワーク１１０が「開始」される前を示す。ニューラルネットワーク１１０が「開始」されたことは、ニューラルネットワーク１１０が推論（ｉｎｆｅｒｅｎｃｅ）のための準備ができたことを意味する。例えば、ニューラルネットワーク１１０が「開始」されたことは、ニューラルネットワーク１１０がメモリにロードされたこと、あるいはニューラルネットワーク１１０がメモリにロードされた後、ニューラルネットワーク１１０に推論のための入力データが入力されたことを含む。

以下で再び詳説するが、実施形態に係る畳み込み演算は、畳み込み演算の中間結果を出力特徴マップに累積させる方式により行われ、ウェイトカーネルや入力特徴マップを畳み込みするために適切な形態に変形し、バッファに格納しているバッファリング動作は要求されない。言い換えれば、実施形態に係る畳み込み演算は、プランナー（ｐｌａｎａｒ）の形に格納されている入力特徴マップのデータをそのまま使用することができる。従って、畳み込みの演算を効率がよく行うことができる。また、実施形態に係る畳み込み演算でスカラーに該当する１つのウェイトエレメントと、マトリックスに該当する１つの入力平面を乗算することが１つの単位演算に該当する。従って、０の値を有するウェイトエレメントに関し、ソフトウェアを介してゼロスキップを効率よく処理することができる。

図２は、一実施形態に係る畳み込み演算過程を示す図である。図２を参照すると、ウェイトカーネル２１０と入力特徴マップ２２０との間の畳み込み演算により出力特徴マップ２３０が生成される。ウェイトカーネル２１０、入力特徴マップ２２０、及び出力特徴マップ２３０のデータがメモリ空間に格納される形態はそれぞれ平面に表現される。例えば、ウェイトカーネル１からウェイトカーネルＤのそれぞれは、Ｃ個のウェイト平面を含んでもよく、入力特徴マップ２２０はＣ個の入力平面を含んでもよく、出力特徴マップ２３０はＤ個の出力平面を含んでもよい。Ｃ個のウェイト平面及びＣ個の入力平面はそれぞれ入力チャネルに対応し、Ｄ個の出力平面はそれぞれ出力チャネルに対応する。また、Ｃは入力チャネルの数に対応し、Ｄは出力チャネルの数に対応する。

各平面は、予め決定されたビット幅のエレメントを含む。例えば、各ウェイト平面はＫ×Ｋのサイズを有し、各入力平面及び各出力平面はＷ×Ｈのサイズを有するが、ここで、Ｗ、Ｋ、及びＨは、それぞれエレメントの数を示す。ウェイト平面のエレメントはウェイトエレメントに称され、入力平面のエレメントは入力エレメントに称され、出力平面のエレメントは出力エレメントに称される。実施形態に係る畳み込み演算は、エレメント単位で行われる。

説明の便宜のために、ウェイト平面の幅及び高さはＫとして、同一なものと仮定し、入力平面出力平面のサイズはＷ×Ｈとして、同一なものと仮定する。但し、実施形態によりウェイト平面の幅及び高さはそれぞれ異なり、入力平面と出力平面のサイズはそれぞれ異なってもよい。

図３は、スライディングウィンドウ方式の畳み込み演算を示す図である。スライディングウィンドウ方式の畳み込み演算によれば、ウェイトカーネル３１０が入力特徴マップ３２０にスライドされて畳み込み演算が行われ、出力特徴マップ３３０が生成される。

スライディングウィンドウ方式は、畳み込み演算のために既存に一般的に使用されるもので、実施形態に係る累積方式とは区分される。例えば、スライディングウィンドウ方式の場合、列ベクトルを生成するために入力特徴マップ３２０に関するバッファリング動作が行われる。実施形態に係る累積方式の場合、畳み込み演算の中間結果を出力特徴マップ３３０に累積させる方式により行われているため、スライディングウィンドウ方式のようにバッファリング動作は要求されない。

スライディングウィンドウ方式の畳み込み演算によれば、ウェイトカーネル３１０が入力特徴マップ３２０にスライドされる過程で、ウェイトカーネル３１０は、入力特徴マップ３２０の非連続的なアドレスに格納されているデータと演算が行われるため、演算の処理速度を向上させるためには、入力特徴マップ３２０が適切な形態の連続したデータに変形され得る。例えば、図３に示すスライドストライド（ｓｌｉｄｉｎｇｓｔｒｉｄｅ）は１であり、入力特徴マップ３２０の横方向及び縦方向のそれぞれに二行のゼロエレメントベクトルを通したゼロパディング（ｚｅｒｏｐａｄｄｉｎｇ）が適用されることが仮定される。この場合、ウェイトカーネル３１０に対応するＫ^２×Ｃの行ベクトル（ｒｏｗｖｅｃｔｏｒ）が定義され、入力特徴マップ３２０はＫ^２×Ｃの列ベクトル（ｃｏｌｕｍｎｖｅｃｔｏｒ）に変形される。

列ベクトルは、プランナー構造（ｐｌａｎａｒｓｔｒｕｃｔｕｒｅ）又はインターリーブ構造（ｉｎｔｅｒｌｅａｖｅｄｓｔｒｕｃｔｕｒｅ）の入力特徴マップ３２０から列バッファにバッファリングされる。プランナー構造の場合、入力特徴マップ３２０が列ベクトルにバッファリングされる過程から１つの出力エレメントを決定するため、非連続の最多メモリアクセスがカーネルの高さＫと入力チャネルの数Ｃとの間の積だけ発生する可能性がある。インターリーブ構造の場合、入力特徴マップ３２０が列ベクトルにバッファリングされる過程において、１つの出力エレメントを決定するために非連続のメモリ最多アクセスがカーネルの高さＫだけ発生する可能性がある。

実施形態に係る累積方式の畳み込みの場合、畳み込み演算の中間結果を出力特徴マップ３３０に累積させる方式により行われるため、入力特徴マップ３２０をプランナー又はインターリーブのような構造に変形するための別途のバッファリング動作は要求されない。従って、累積方式の畳み込みは、メモリアクセスを最小化して畳み込み演算の処理速度を最大化することができる。

図４及び図５は、一実施形態に係る累積方式の畳み込み演算を介して１つの出力平面が生成される過程を示す図である。例えば、出力特徴マップは、Ｄ個の出力平面を含んでもよく、図４及び図５は、Ｄ個の出力平面のうちの１つが生成される過程に対応する。図４及び図５に示された過程が、Ｄ個の出力平面に関して繰り返されて出力特徴マップが生成される。

図４を参照すると、入力特徴マップ４１０とウェイトカーネル４２０との間の畳み込み演算により出力平面４３０が生成される。例えば、ウェイトカーネル４２０は、Ｄ個のウェイトカーネルのうちｄ番目に該当し、出力平面４３０は、Ｄ個の出力平面のうちｄ番目に該当する。入力特徴マップ４１０は、図５に示す入力平面５１０を含んでもよく、ウェイトカーネル４２０は、図５に示すウェイト平面５２０を含んでもよい。出力平面４３０は、図５に示す出力平面５４０に対応する。

図５を参照すると、入力平面５１１，５１２，５１３は、入力平面５１０に対応する。入力平面５１１，５１２，５１３の数は、入力チャネルの数Ｃに対応する。以下で入力チャネルの数Ｃは３と仮定する。但し、これは説明の便宜のためのもので、入力チャネルの数Ｃは、３以外の様々な値を有してもよい。ウェイト平面５２１，５２２，５２３はウェイト平面５２０に対応し、累積平面５３１，５３２，５３３は累積平面５３０に対応する。

入力平面５１１とウェイト平面５２１との間のＭＡＣ演算を介して累積平面５３１が生成され、入力平面５１２とウェイト平面５２２との間のＭＡＣ演算を介して累積平面５３２が生成され、入力平面５１３とウェイト平面５２３との間のＭＡＣ演算を介して累積平面５３３が生成される。ＭＡＣ演算過程は、後で詳しく説明する。累積平面５３１，５３２，５３３が生成されると、累積平面５３１，５３２，５３３に基づいて出力平面５４０が生成される。例えば、累積平面５３１，５３２，５３３の合計を介して出力平面５４０が生成される。

図６及び図７は、一実施形態に係る累積方式の畳み込み演算のための入力平面とウェイト平面との間のＭＡＣ（ｍｕｌｔｉｐｌｙａｎｄａｃｃｕｍｕｌａｔｅ）演算を示す図である。

図６を参照すると、入力平面６１０の各入力エレメントとウェイト平面６２０の各ウェイトエレメントとの間のＭＡＣ演算に基づいて累積平面６３０が生成される。ウェイト平面６２０は、ｗ_１～ｗ_９のウェイトエレメントを含む。ウェイト平面６２０は、３×３のサイズを有するものと説明しているが、これは説明の便宜のためのものであり、ウェイト平面６２０は、３×３以外の他の様々なサイズを有し得る。図６には省略されているが、入力平面６１０及び累積平面６３０もそれぞれ複数のエレメントを含んでもよく、エレメントの単位で畳み込み演算が行われてもよい。

図７を参照すると、入力平面７１１は図６に示す入力平面６１０に対応し、図７のウェイトエレメントｗ_１～ｗ_９は、図６に示すウェイト平面６２０のウェイトエレメントｗ_１～ｗ_９に対応し、累積平面７４０は図６に示す累積平面６３０に対応する。スライドストライドに基づいて、入力平面７１１に関するゼロパディングが行われて入力平面７１２が生成される。例えば、入力平面７１１のサイズがＷ×Ｈであり、スライドストライドが１である場合、入力平面７１２は（Ｗ＋２）×（Ｈ＋２のサイズを有する。

ウェイトエレメントｗ_１～ｗ_９を含むウェイト平面と入力平面７１２との間に、スライディングウィンドウ方式の畳み込み演算が実行されれば仮定すれば、入力平面７１２上に各ウェイトエレメントｗ_１～ｗ_９が反応する反応領域７２１～７２９が定義される。例えば、スライディングウィンドウ方式の畳み込み演算が実行されればき、反応領域７２１内の入力エレメントはウェイトエレメントｗ_１に反応し、反応領域７２２内の入力エレメントはウェイトエレメントｗ_２に反応し、反応領域７２９内の入力エレメントはウェイトエレメントｗ_９に反応する。

反応領域７２１～７２９のサイズは、入力平面７１１のサイズと同一であり、反応領域７２１～７２９のそれぞれのオフセットは、ウェイトエレメントｗ_１～ｗ_９それぞれのインデックスに基づいて決定される。例えば、入力平面７１１の幅がＷ＋２である場合、反応領域７２１～７２９それぞれのオフセットは（Ｗ＋２）×ａ＋ｂに定義される。オフセットは、入力平面（例えば、パディングが適用された入力平面の原点）を基準として決定される。ここで、ａは（ｉ－１）をＫで割った分を示し、ｂは（ｉ－１）をＫで割った余りを示す。ｉはウェイトエレメントｗ_１～ｗ_９のインデックスを示し、Ｋはウェイトカーネルの幅を示す。これによれば、反応領域７２１のオフセットは０、反応領域７２２のオフセットは１、反応領域７２９のオフセットは（Ｗ＋２）×２＋２である。

各反応領域７２１～７２９内の入力エレメントと、各ウェイトエレメントｗ_１～ｗ_９間の積によって乗算結果７３１～７３９が生成され、乗算結果７３１～７３９の累積により累積平面７４０が生成される。例えば、出力平面は、Ｃ個の累積平面の合計を介して生成され、図７は、Ｃ個の累積平面のうちの１つに該当する累積平面７４０が生成される過程に対応する。乗算結果７３１～７３９内の各エレメントは、乗算結果のエレメントと称される。図７に示された過程がＣ個の累積平面に関し、繰り返し出力平面が生成される。また、出力特徴マップがＤ個の出力平面を含んでいる場合、累積基盤で生成されたＤ個の出力平面を介して出力特徴マップが決定されることができる。

実施形態によれば、畳み込み演算の中間結果に該当する乗算結果７３１～７３９を累積して出力特徴マップが生成され、入力特徴マップを連続したデータに変形してバッファへの格納は要求されない。従って、入力特徴マップを連続したデータに変形してバッファに格納するために費やされる時間を削減することで、畳み込み演算の高速化を可能にし、変形されたデータを格納するためのメモリ空間を節約することができる。

図８～図１０は、一実施形態に係るＳＩＭＤ（ｓｉｎｇｌｅｉｎｓｔｒｕｃｔｉｏｎｍｕｌｔｉｐｌｅｄａｔａ）処理を用いた累積方式の畳み込み演算を示す図である。ＳＩＭＤは、１つの命令語で複数のデータを処理するプロセッサの演算処理方式を意味する。以下で詳説するが、実施形態に係る累積方式の畳み込み演算は、ＳＩＭＤに基づいて行われる。

図８を参照すると、ウェイト平面８１０が入力平面８２０のスライド領域８２１にスライドされてＭＡＣ演算が行われ、累積平面８３０の累積領域８３１が決定される。同様に、ウェイト平面８１０がスライド領域８２２にスライドされ、ＭＡＣ演算が行われて累積領域８３２が決定され、ウェイト平面８１０がスライド領域８２３にスライドされ、ＭＡＣ演算が行われて累積領域８３３が決定される。スライド領域８２１～８２３の高さは、ウェイト平面８１０の高さに対応し、累積領域８３１～８３３の高さは、１つのエレメントに対応する。このような方式でスライド領域と累積領域の間の関係が形成される。

図９を参照すると、入力平面９００内のスライド領域９１０は、ウェイトｗ_１～ｗ_９の反応領域９１１～９１９を含む。反応領域９１１～９１９それぞれのオフセットは、ウェイトエレメントｗ_１～ｗ_９それぞれのインデックスに基づいて決定される。例えば、図７を参照して説明したように、反応領域９１１～９１９それぞれのオフセットは（Ｗ＋２）×ａ＋ｂのように定義される。オフセットは、スライド領域（例えば、各スライド領域の原点）を基準として決定される。この場合、反応領域９１１～９１９それぞれのオフセットは、０、１、２、（Ｗ＋２）、（Ｗ＋２）＋１、（Ｗ＋２）＋２、（Ｗ＋２）×２、（Ｗ＋２）×２＋１、（Ｗ＋２）×２＋２になる。

反応領域９１１～９１９から入力エレメントベクトルが抽出されてレジスタｒ１～ｒ９に格納される。例えば、反応領域９１１の第１入力エレメントベクトルはレジスタｒ１に格納され、反応領域９１２の第２入力エレメントベクトルはレジスタｒ２に格納される。このように、入力エレメントベクトルはレジスタｒ１～ｒ９に順次格納される。

入力エレメントベクトルは、それぞれウェイトエレメントｗ_１～ｗ_９のうち、自分に対応するエレメントとエレメント単位で乗算され、これによって加重された入力エレメントベクトルが生成される。例えば、反応領域９１１の第１入力エレメントベクトルはレジスタｒ１に格納されてウェイトエレメントｗ_１と乗算され、これにより、第１加重された入力エレメントベクトルが生成される。反応領域９１２の第２入力エレメントベクトルはレジスタｒ２に格納されてウェイトエレメントｗ_２と乗算され、これにより、第２加重された入力エレメントベクトルが生成される。反応領域９１１～９１９、入力エレメントベクトル、及び加重された入力エレメントベクトルのサイズはＳＩＭＤ演算単位に対応する。

このような過程で生成された加重された入力エレメントベクトルが累積し、スライド領域９１０に対応する累積ベクトルが生成される。また、このような過程が各スライド領域について繰り返されることで、各スライド領域に対応する累積ベクトルが生成され、累積ベクトルが集まって累積平面を形成することができる。累積平面及び累積ベクトルは、互いに異なる形態の累積データを指し、累積データとして称されてもよい。

図１０を参照すると、出力平面１０１０内の出力領域１０１１で既存に格納されている累積ベクトル（以下、第１累積ベクトルと称される）がロードされてレジスタｒ１０）に格納される。レジスタｒ１～ｒ９を介して新しい累積ベクトル（以下、第２累積ベクトルと称される）が生成されれば、レジスタｒ１０で第１累積ベクトルと第２累積ベクトルが累積し、出力領域１０１１に格納される。

図１０は、出力領域１０１１に累積ベクトルが格納される過程が少なくとも一回実行されるものと仮定する。例えば、図１０は、それぞれ第１入力チャネルに対応する第１入力平面と第１ウェイト平面との間のＭＡＣ演算を介して第１累積ベクトルが生成され、出力領域１０１１に格納され、その後それぞれ第２入力チャネルに対応する第２入力平面と第２ウェイト平面との間のＭＡＣ演算を介して第２累積ベクトルが生成され、第１累積ベクトル及び第２累積ベクトルが累積して出力領域１０１１に格納される状況に対応する。もし、出力領域１０１１に初期値が格納されている場合、言い換えれば、累積ベクトルが初めて生成される場合、出力領域１０１１で累積ベクトルがロードされる過程は省略され、新しく生成された累積ベクトルが別途の累積動作を行うことなく、出力領域１０１１に格納されることができる。

出力領域１０１１に累積ベクトルが入力チャネルの数だけ繰り返して格納されれば（累積回数は、入力チャネルの数よりも１つ少ない）、出力領域１０１１に対応する出力エレメントベクトルが決定される。また、出力領域１０１１に関する過程が出力平面１０１０内の残りの出力領域についても実行されれば、出力平面１０１０が決定される。従って、ＳＩＭＤを介して実施形態に係る累積方式の畳み込み演算が実現されることができる。

図１１は、一実施形態に係る累積方式の畳み込み演算のゼロスキップ過程を示す図である。実施形態に係る畳み込み演算は、入力平面の単位（より詳しくは、入力平面内の反応領域の単位）で行われるため、ソフトウェアを介してゼロスキップを効率よく処理することができる。

図１１を参照すると、各反応領域１１２１～１１２３内の入力エレメントと、各ウェイトエレメントｗ_１～ｗ_９間の積によって乗算結果１１４１～１１４３が生成される。図１１に示す実施形態において、ウェイトエレメントｗ_３～ｗ_５、ｗ_８、ｗ_９は０に対応するものと仮定する。以下、０に対応するウェイトエレメントはゼロウェイトエレメントと称し、０に対応しないウェイトエレメントはノンゼロウェイトエレメントとして称する。この場合、ゼロウェイトエレメントに基づく乗算結果１１４３のような乗算結果は、累積平面や出力平面のデータに影響を与えないため、このような乗算結果に関する演算は省略される。

図１２は、一実施形態に係る予め決定された演算タイプを用いてゼロスキップを行う過程を示す図である。図１２を参照すると、ステップＳ１２１０において、ゼロエンコーディングが行われる。ゼロエンコーディングを介してウェイトエレメントに含まれているノンゼロウェイトエレメントの数が決定される。例えば、図１２において、ゼロエンコーディングの結果、ノンゼロウェイトエレメントの数は４に決定されてもよい。

ステップＳ１２２０において、演算タイプのうち、ノンゼロウェイトエレメントの数に対応する演算タイプが選択され、ノンゼロウェイトエレメントに対応するデータがレジスタにロードされる。図１２において、４のノンゼロウェイトエレメントの数に対応する演算タイプ４が選択される。演算タイプは、ノンゼロウェイトエレメントの数に応じてそれぞれ予め決定された方式の演算を行うように設定される。例えば、ウェイトエレメントにノンゼロウェイトエレメントが全く含まれていないケースから、ウェイトエレメント全体がノンゼロウェイトエレメントに該当するケースまで、それぞれのケースに関して演算タイプが設定される。演算タイプの数をＮ、ウェイトエレメントの数をＫ×Ｋとして定義すると、Ｎ＝Ｋ×Ｋ＋１であってもよい。図１２はＫ＝３であり、Ｎ＝１０であるケースを示す。

レジスタにロードされるデータは、入力平面の少なくとも一部に該当する。例えば、ノンゼロウェイトエレメントに対応する入力エレメントベクトルがレジスタにロードされる。ノンゼロウェイトエレメントのインデックスに基づいて、入力エレメントベクトルに対応するオフセットが決定され、決定されたオフセットを介して入力平面から入力エレメントベクトルが抽出され、レジスタに格納される。図１２において、ノンゼロウェイトエレメントに該当するｗ_１、ｗ_２、ｗ_６、ｗ_７に基づいて０、１、（Ｗ＋２）＋２、（Ｗ＋２）×２のオフセットが決定され、決定されたオフセットに対応する入力エレメントベクトルがｒｅｇ１、ｒｅｇ２、ｒｅｇ３、ｒｅｇ４のレジスタにロードされる。

予め決定された方式の演算は、ノンゼロウェイトエレメントとレジスタにロードされたデータと間のＭＡＣ演算を行って累積データを生成することを含む。ここで、データは、ノンゼロウェイトエレメントの数及びオフセットに基づいてレジスタにロードされる。例えば、ノンゼロウェイトエレメントとレジスタに格納された入力エレメントベクトルとの間のＭＡＣ演算が行われる。図１２において、ノンゼロウェイトエレメントｗ_１、ｗ_２、ｗ_６、ｗ_７及びレジスタｒｅｇ１、ｒｅｇ２、ｒｅｇ３、ｒｅｇ４に格納された入力エレメントベクトル間の乗算結果に対応する加重された入力エレメントベクトルが生成され、加重された入力エレメントベクトルの累積により累積データが生成される。

ステップＳ１２３０において、各演算タイプに対応するソースコードが行われる。例えば、演算タイプ０～演算タイプ９のそれぞれに対応するソースコードがメモリコード領域に格納され、選択された演算タイプに対応するソースコードがメモリコード領域からロードされて行われる。図１２では、演算タイプ４に該当するソースコードが行われる。このようなソースコードは小さいメモリ空間を占めているため、ソースコードの使用がメモリ効率を低下させない。

図１３は、一実施形態に係る累積方式の畳み込み演算過程を示したフローチャートである。図１３を参照すると、ステップＳ１３０１において、ウェイトカーネルｗ^ｄが取得される。ｄは出力チャネルのインデックスを示し、１～Ｄの自然数であってもよく、初期値は１であってもよい。ウェイトカーネルは、それぞれ出力チャネルに対応する。例えば、ウェイトカーネルｗ_１は第１出力チャネルに対応し、ウェイトカーネルｗ_２は第２出力チャネルに対応する。

ステップＳ１３０２において、入力平面ｉ_ｃが取得され、ステップＳ１３０３において、ウェイト平面

が取得される。ｃは入力チャネルのインデックスを示し、１～Ｃの自然数であってもよく、初期値は１であってもよい。入力平面及びウェイト平面はそれぞれ入力チャネルに対応する。例えば、入力平面ｉ_１及びウェイト平面

はそれぞれ第１入力チャネルに対応し、入力平面ｉ２及びウェイト平面

はそれぞれ第２入力チャネルに対応する。

ステップＳ１３０６において、ＭＡＣ演算が行われる。例えば、入力平面ｉ_ｃ内の入力エレメントの少なくとも一部とウェイト平面

内のウェイトエレメントの少なくとも一部との間の乗算結果を累積して累積データが生成される。例えば、入力平面ｉ_ｃにおいて、ウェイトエレメントの少なくとも一部に対応する入力エレメントベクトルが抽出され、入力エレメントベクトルとウェイトエレメントの少なくとも一部との間の乗算結果に対応する加重された入力エレメントベクトルが生成され、加重された入力エレメントベクトルを累積して累積データが生成される。ここで、ウェイトエレメントの少なくとも一部のインデックスに基づいて、入力エレメントベクトルに対応するオフセットが決定され、オフセットに基づいて入力平面から入力エレメントベクトルが抽出される。

一実施形態によれば、ステップＳ１３０４，Ｓ１３０５を介してゼロスキップが実現される。ステップＳ１３０４でゼロエンコーディングが行われ、ステップＳ１３０５で演算タイプが選択される。ゼロエンコーディングを介してノンゼロウェイトエレメントの数が決定されれば、ノンゼロウェイトエレメントの数に対応する演算タイプが選択され、ノンゼロウェイトエレメントに対応する入力エレメントがレジスタにロードされる。例えば、ノンゼロウェイトエレメントに対応する入力エレメントベクトルがレジスタにロードされる。

選択された演算タイプに応じて予め決定されたプロセスによる演算が行われる。例えば、演算はノンゼロウェイトエレメントとレジスタ内の入力エレメント（例えば、入力エレメントベクトル）との間の乗算を行い、乗算結果を累積して累積データ（例えば、累積ベクトル）を生成することを含む。従って、累積データが生成されるとき、ゼロウェイトエレメントと入力エレメントとの間の乗算演算が省略されてもよい。

ステップＳ１３０７において、出力が累積する。例えば、ＭＡＣ演算の出力に該当する累積データが累積する。一例として、ｃ＝１に該当する最初の繰り返しが行われる場合、入力平面ｉ_１が取得され、ウェイト平面

が取得され、入力平面ｉ_１内の第１入力エレメントの少なくとも一部と、ウェイト平面

内の第１ウェイトエレメントの少なくとも一部との間の乗算結果を累積して第１累積データが生成される。ｃ＝２に該当する、２番目の繰り返しが行われる場合、入力平面ｉ_２が取得され、ウェイト平面

が取得され、入力平面ｉ_２内の第２入力エレメントの少なくとも一部と、ウェイト平面

内の第２ウェイトエレメントの少なくとも一部との間の乗算結果を累積して第２累積データが生成される。ここで、第１累積データ及び前記第２累積データが累積する。ｃ＝Ｃに該当するＣ番目の繰り返しが行われる場合、各入力チャネルに関する各累積データの合計に基づいて出力平面が生成される。

ステップＳ１３０８において、ｃとＣが比較される。ｃとＣが異なる場合、例えば、ｃがＣよりも小さい場合にステップＳ１３０９でｃが１だけ増加し、ステップＳ１３０２が行われる。ｃとＣが同じ場合、ステップＳ１３０９において、ｄとＤが比較される。ｄとＤが異なる場合、例えば、ｄがＤよりも小さい場合にステップＳ１３１１でｄが１だけ増加し、ステップＳ１３０１が行われる。ステップＳ１３０８，Ｓ１３０９を介して出力チャネルが固定された状態で全ての入力チャネルについて畳み込みが行われ、ステップＳ１３１０，Ｓ１３１１を介して出力チャネルを変えながら全ての出力チャネルについて畳み込みが行われる。

図１４は、一実施形態に係るニューラルネットワークのためのデータ処理方法を示す図である。図１４を参照すると、処理装置は、入力チャネルに対応する入力特徴マップの入力平面のうち、第１入力チャネルに対応する第１入力平面を取得し（Ｓ１４１０）、それぞれ入力チャネルに対応するウェイトカーネルのウェイト平面のうち、第１入力チャネルに対応する第１ウェイト平面を取得し（Ｓ１４２０）、第１入力平面内の第１入力エレメントの少なくとも一部と、第１ウェイト平面内の第１ウェイトエレメントの少なくとも一部との間の乗算結果を累積して第１累積データを生成し（Ｓ１４３０）、第１累積データに基づいて、それぞれ出力チャネルに対応する出力特徴マップの出力平面のうち、第１出力チャネルに対応する第１出力平面を生成する（Ｓ１４４０）。その他に、ニューラルネットワークのためのデータ処理方法については、図１～図１３を参照して説明された内容が適用される。

図１５は、一実施形態に係るニューラルネットワークのためのデータを処理する処理装置を示すブロック図である。図１５を参照すると、データ処理装置１５００は入力データを受信し、入力データに関連するニューラルネットワークの動作を処理する。例えば、ニューラルネットワークの動作は、オブジェクト認識動作及びユーザ認証動作を含む。データ処理装置１５００は、ニューラルネットワークの処理と関連して本明細書に記述されるか又は示された１つ以上の動作を行うことができ、ニューラルネットワークの処理結果をユーザに提供することができる。データ処理装置１５００は、ニューラルネットワークの動作を処理する過程で累積方式の畳み込みを行う。

データ処理装置１５００は、１つ以上のプロセッサ１５１０及びメモリ１５２０を含む。メモリ１５２０はプロセッサ１５１０に接続され、プロセッサ１５１０によって実行可能な命令語、プロセッサ１５１０が演算するデータ、又はプロセッサ１５１０によって処理されたデータを格納する。メモリ１５２０は、非一時的なコンピュータで読み取り可能な記録媒体、例えば、高速ランダムアクセスメモリ及び／又は不揮発性コンピュータ読み取り可能な格納媒体（例えば、１つ以上のディスク記憶装置、フラッシュメモリ装置、又は、その他の不揮発性固体メモリ装置）を含む。

プロセッサ１５１０は、図１～図１４を参照して説明された１つ以上の動作を実行するための命令語を実行する。例えば、メモリ１５２０に格納された命令語がプロセッサ１５１０で実行されれば、プロセッサ１５１０は、それぞれ入力チャネルに対応する入力特徴マップの入力平面のうち、第１入力チャネルに対応する第１入力平面を取得し、それぞれ入力チャネルに対応するウェイトカーネルのウェイト平面のうち、第１入力チャネルに対応する第１ウェイト平面を取得し、第１入力平面内の第１入力エレメントの少なくとも一部と、第１ウェイト平面内の第１ウェイトエレメントの少なくとも一部との間の乗算結果を累積して第１累積データを生成し、第１累積データに基づいてそれぞれ出力チャネルに対応する出力特徴マップの出力平面のうち、第１出力チャネルに対応する第１出力平面を生成する。

図１６は、一実施形態に係る電子装置を示す図である。図１６を参照すると、電子装置１６００は入力データを受信し、入力データに関連するニューラルネットワークの動作を処理する。例えば、ニューラルネットワークの動作は、オブジェクト認識動作及びユーザ認証動作を含む。電子装置１６００は、ニューラルネットワークの動作を処理する過程で上述した累積方式の畳み込みを行う。電子装置１６００は、図１～図１５を参照して説明された処理装置を含むか、図１～図１５を参照して説明された処理装置の機能を行うことができる。

電子装置１６００は、プロセッサ１６１０、メモリ１６２０、カメラ１６３０、記憶装置１６４０、入力装置１６５０、出力装置１６６０、及びネットワークインターフェース１６７０を含む。プロセッサ１６１０、メモリ１６２０、カメラ１６３０、記憶装置１６４０、入力装置１６５０、出力装置１６６０、及びネットワークインターフェース１６７０は通信バス１６８０を介して通信する。

プロセッサ１６１０は、電子装置１６００内で実行するための機能及び命令語を実行する。例えば、プロセッサ１６１０は、メモリ１６２０又は記憶装置１６４０に格納された命令語を処理する。プロセッサ１６１０は、図１～図１５を参照して説明された１つ以上の動作を行う。

メモリ１６２０は、ニューラルネットワークの動作を処理するための情報を格納する。メモリ１６２０は、コンピュータ読み取り可能な格納媒体又はコンピュータ読み取り可能な記憶装置を含む。メモリ１６２０は、プロセッサ１６１０によって実行するための命令語を格納し、電子装置１６００によってソフトウェア又はアプリケーションが行われる間に関連情報を格納する。

カメラ１６３０は、静止画、ビデオ映像、又は、これらの全てを撮影する。カメラ１６３０は、ユーザが顔認証を試みるために入力する顔領域を撮影する。カメラ１６３０は、オブジェクトに関する深度情報を含む３Ｄ映像を提供することもできる。

記憶装置１６４０は、コンピュータ読み取り可能な格納媒体又はコンピュータ読み取り可能な記憶装置を含む。一実施形態によれば、記憶装置１６４０は、メモリ１６２０よりもさらに多くの量の情報を格納し、情報を長期間格納することができる。例えば、記憶装置１６４０は、磁気ハードディスク、光ディスク、フラッシュメモリ、フロッピーディスク又は当技術分野で知られた異なる形態の不揮発性メモリを含んでもよい。

入力装置１６５０は、キーボード及びマウスを通した伝統的な入力方式、及びタッチ入力、音声入力、及びイメージ入力のような新しい入力方式を介してユーザから入力を受信する。例えば、入力装置１６５０は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力を電子装置１６００に伝達できる任意の他の装置を含むことができる。

出力装置１６６０は、視覚的、聴覚的、又は触覚的なチャネルを介してユーザに電子装置１６００の出力を提供する。出力装置１６６０は、例えば、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置又はユーザに出力を提供できる任意の他の装置を含んでもよいむ。ネットワークインターフェース１６７０は、有線又は無線ネットワークを介して外部装置と通信し得る。

以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置に命令したりすることができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供したりするために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行されたりし得る。ソフトウェア及びデータは１つ以上のコンピュータで読み取り可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態を例として限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されてよく、かつ／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わされてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

Claims

プロセッサ実施データ処理方法において、
入力特徴マップの複数の入力平面のうち、第１入力チャネルに対応する第１入力平面を受信するステップと、
ウェイトカーネルの複数のウェイト平面のうち、前記第１入力チャネルに対応する第１ウェイト平面を受信するステップと、
前記第１入力平面内の第１入力エレメントの少なくとも一部と、前記第１ウェイト平面内の第１ウェイトエレメントの少なくとも一部との間の乗算演算から乗算結果を累積して第１累積データを生成するステップと、
前記第１累積データに基づいて出力特徴マップの複数の出力平面のうち第１出力チャネルに対応する第１出力平面を生成するステップと、
前記第１ウェイトエレメントのうち、０に対応しないノンゼロウェイトエレメントの数を決定するステップと、
予め決定された方式の演算を行う複数の演算タイプのうち、前記決定されたノンゼロウェイトエレメントの数に対応する演算タイプを選択するステップと、
を含み、
前記複数の入力平面のそれぞれ、及び前記複数のウェイト平面のそれぞれは入力チャネルに各々対応し、
前記複数の出力平面のそれぞれは、出力チャネルに各々対応する、データ処理方法。
前記第１出力平面を生成するステップは、前記第１累積データを含んでいる各入力チャネルに関する各累積データの合計に基づいて前記第１出力平面を生成するステップを含む、請求項１に記載のデータ処理方法。
前記入力平面のうち第２入力チャネルに対応する第２入力平面を受信するステップと、
前記複数のウェイト平面のうち前記第２入力チャネルに対応する第２ウェイト平面を受信するステップと、
前記第２入力平面内の第２入力エレメントの少なくとも一部と、前記第２ウェイト平面内の第２ウェイトエレメントの少なくとも一部との間の乗算結果を累積して第２累積データを生成するステップと、
をさらに含む、請求項１又は２に記載のデータ処理方法。
前記第１出力平面を生成するステップは、前記第１累積データと前記第２累積データの合計に基づいて前記第１出力平面を生成するステップを含む、請求項３に記載のデータ処理方法。
前記第１累積データを生成するステップは、
前記第１入力平面から前記第１ウェイトエレメントの前記一部に対応する第１入力エレメントベクトルを抽出するステップと、
前記第１入力エレメントベクトルと前記第１ウェイトエレメントの前記一部との間の乗算演算の乗算結果に対応する第１加重された入力エレメントベクトルを生成するステップと、
前記第１加重された入力エレメントベクトルを累積して前記第１累積データを生成するステップと、
を含む、請求項１乃至４のいずれか一項に記載のデータ処理方法。
前記第１入力エレメントベクトルを抽出するステップは、
前記第１ウェイトエレメントの前記一部のインデックスに基づいて、前記第１入力エレメントベクトルに対応するオフセットを決定するステップと、
前記決定されたオフセットに基づいて、前記第１入力平面から前記第１入力エレメントベクトルを抽出するステップと、
を含む、請求項５に記載のデータ処理方法。
前記第１入力エレメントベクトルのサイズ及び前記第１加重された入力エレメントベクトルのサイズは、ＳＩＭＤ演算単位に対応する、請求項５に記載のデータ処理方法。
前記第１累積データが生成されるとき、前記第１ウェイトエレメントの前記一部のうち、０の値に対応するゼロウェイトエレメントと、前記第１入力エレメントの前記一部との間の乗算演算は省略される、請求項１乃至７のいずれか一項に記載のデータ処理方法。
前記第１累積データを生成するステップは、前記選択された演算タイプに基づいて前記第１入力エレメントの前記一部と、前記第１ウェイトエレメントの前記一部に対応する前記ノンゼロウェイトエレメントとの間の前記乗算演算の前記乗算結果を累積して前記第１累積データを生成するステップを含む、請求項１に記載のデータ処理方法。
前記第１累積データを生成するステップは、
前記ノンゼロウェイトエレメントのインデックスに基づいて、前記第１入力平面から前記ノンゼロウェイトエレメントに対応する第１入力エレメントベクトルを抽出するステップと、
前記第１入力エレメントベクトルと、前記第１ウェイトエレメントの前記一部に対応する前記ノンゼロウェイトエレメントとの間の乗算演算の乗算結果に対応する第１加重された入力エレメントベクトルを生成するステップと、
前記第１加重された入力エレメントベクトルを累積して前記第１累積データを生成するステップと、
を含む、請求項１に記載のデータ処理方法。
前記ウェイト平面それぞれのウェイトエレメントそれぞれに前記第１入力平面の複数のエレメントを個別的に乗算するステップをさらに含む、請求項１乃至１０のいずれか一項に記載のデータ処理方法。
ハードウェアに請求項１乃至請求項１１のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
データ処理装置において、
入力特徴マップの複数の入力平面のうち、第１入力チャネルに対応する第１入力平面を受信し、ウェイトカーネルの複数のウェイト平面のうち、前記第１入力チャネルに対応する第１ウェイト平面を受信し、前記第１入力平面内の第１入力エレメントの少なくとも一部と、前記第１ウェイト平面内の第１ウェイトエレメントの少なくとも一部との間の乗算演算から乗算結果を累積して第１累積データを生成し、前記第１累積データに基づいて出力特徴マップの複数の出力平面のうち、第１出力チャネルに対応する第１出力平面を生成し、前記第１ウェイトエレメントのうち、０に対応しないノンゼロウェイトエレメントの数を決定し、予め決定された方式の演算を行う複数の演算タイプのうち、前記決定されたノンゼロウェイトエレメントの数に対応する演算タイプを選択する１つ以上のプロセッサを含み、
前記複数の入力平面のそれぞれ、及び前記複数のウェイト平面のそれぞれは入力チャネルに各々対応し、
前記複数の出力平面のそれぞれは、出力チャネルに各々対応する、
データ処理装置。
前記プロセッサは、前記第１累積データを含んでいる各入力チャネルに関する各累積データの合計に基づいて前記第１出力平面を生成する、請求項１３に記載のデータ処理装置。
前記プロセッサは、前記入力平面のうち第２入力チャネルに対応する第２入力平面を受信し、前記複数のウェイト平面のうち前記第２入力チャネルに対応する第２ウェイト平面を受信し、前記第２入力平面内の第２入力エレメントの少なくとも一部と、前記第２ウェイト平面内の第２ウェイトエレメントの少なくとも一部との間の乗算結果を累積して第２累積データを生成する、請求項１３または１４に記載のデータ処理装置。
前記プロセッサは、前記第１累積データ及び前記第２累積データの合計に基づいて前記第１出力平面を生成するステップを含む、請求項１５に記載のデータ処理装置。
前記プロセッサは、前記第１入力平面から前記第１ウェイトエレメントの前記一部に対応する第１入力エレメントベクトルを抽出し、前記第１入力エレメントベクトルと前記第１ウェイトエレメントの前記一部との間の乗算演算の乗算結果に対応する第１加重された入力エレメントベクトルを生成し、前記第１加重された入力エレメントベクトルを累積して前記第１累積データを生成する、請求項１３乃至１６のいずれか一項に記載のデータ処理装置。
前記プロセッサは、前記第１ウェイトエレメントの前記一部のインデックスに基づいて前記第１入力エレメントベクトルに対応するオフセットを決定し、前記決定されたオフセットに基づいて前記第１入力平面から前記第１入力エレメントベクトルを抽出する、請求項１７に記載のデータ処理装置。
前記第１入力エレメントベクトルのサイズ及び前記第１加重された入力エレメントベクトルのサイズは、ＳＩＭＤ演算単位に対応する、請求項１７に記載のデータ処理装置。
前記第１累積データが生成されるとき、前記第１ウェイトエレメントの前記一部のうち、０の値に対応するゼロウェイトエレメントと、前記第１入力エレメントの前記一部との間の乗算演算は省略される、請求項１３乃至１９のいずれか一項に記載のデータ処理装置。
前記プロセッサは、前記選択された演算タイプに基づいて前記第１入力エレメントの前記一部と、前記第１ウェイトエレメントの前記一部に対応する前記ノンゼロウェイトエレメントとの間の前記乗算演算の前記乗算結果を累積して前記第１累積データを生成する、請求項１３に記載のデータ処理装置。
前記プロセッサは、前記ノンゼロウェイトエレメントのインデックスに基づいて、前記第１入力平面で前記ノンゼロウェイトエレメントに対応する第１入力エレメントベクトルを抽出し、前記第１入力エレメントベクトルと、前記第１ウェイトエレメントの前記一部に対応する前記ノンゼロウェイトエレメントとの間の乗算演算の乗算結果に対応する第１加重された入力エレメントベクトルを生成し、前記第１加重された入力エレメントベクトルを累積して前記第１累積データを生成する、請求項１３に記載のデータ処理装置。
前記１つ以上のプロセッサによって実行されれば、前記１つ以上のプロセッサが前記第１入力平面の受信、前記第１ウェイト平面の受信、前記第１累積データの生成、及び前記第１出力平面の生成を行う命令語を格納するメモリをさらに含む、請求項１３乃至２２のいずれか一項に記載のデータ処理装置。
電子装置のプロセッサによって行われる、プロセッサ実施方法において、
複数の入力エレメントを含むニューラルネットワークのレイヤの入力平面を受信するステップと、
複数のウェイトエレメントを含み、前記レイヤの前記入力平面に対応するウェイト平面を受信するステップと、
前記ウェイト平面の各ウェイトエレメントと、前記入力平面の前記複数の入力エレメントの対応入力エレメントとの間の乗算演算を行って取得された乗算結果エレメントを累積して出力平面を生成するステップと、
前記ウェイトエレメントのうち、０に対応しないノンゼロウェイトエレメントの数を決定するステップと、
予め決定された方式の演算を行う複数の演算タイプのうち、前記決定されたノンゼロウェイトエレメントの数に対応する演算タイプを選択するステップと、
を含む方法。
前記複数のウェイトエレメントのうち、０の値に対応するゼロウェイトエレメントが存在する場合、前記ゼロウェイトエレメントと前記ゼロウェイトエレメントに対応する入力エレメントとの間の乗算演算が省略される、請求項２４に記載の方法。
前記ニューラルネットワークのレイヤに関する畳み込み演算は、ＳＩＭＤ基盤で行われる、請求項２４または２５に記載の方法。
前記入力平面及び前記ウェイト平面は１つの入力チャネルに対応し、
前記出力平面は１つの出力チャネルに対応する、請求項２４乃至２６のいずれか一項に記載の方法。
前記入力平面は、前記レイヤの入力特徴マップに対応する複数の入力平面のうちの１つであり、
前記ウェイト平面は、前記レイヤのウェイトカーネルに対応する複数のウェイト平面のうちの１つであり、
前記複数の入力平面から前記入力平面を除いた少なくとも１つの他の入力平面、及び前記複数のウェイト平面から前記ウェイト平面を除いた少なくとも１つの他のウェイト平面に基づいて生成された少なくとも１つの他の出力平面、及び前記出力平面に基づいて前記レイヤの出力特徴マップが決定される、請求項２４乃至２７のいずれか一項に記載の方法。