JP2021034024A

JP2021034024A - データを処理する方法及びその装置

Info

Publication number: JP2021034024A
Application number: JP2020109945A
Authority: JP
Inventors: ▲ひょん▼宣朴; HyunSun PARK; ▲ゆ▼珍金; Yoojin Kim; 炯碩兪; Hyeongseok Yu; 世煥李; Sehwan Lee; 準▲う▼ 張; Junwoo Jang
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-08-26
Filing date: 2020-06-25
Publication date: 2021-03-01
Anticipated expiration: 2040-06-25
Also published as: US11875255B2; CN112434803A; US20240095532A1; US20210064992A1; JP7234185B2; EP3789892A1; KR20210024865A

Abstract

【課題】データを処理する方法及びその装置を提供すること。【解決手段】一側面によるデータを処理する方法は、入力データに含まれた有効情報に基づいて、入力データのスパース性を確認する段階と、スパース性の形態に基づいて、入力データを再配列する段階と、再配列されたデータを処理し、出力データを生成する段階と、を含む。【選択図】図４

Description

本発明は、データを処理する方法及びその装置に関する。

ニューラルネットワーク（neural network）は、生物学的な脳をモデリングしたコンピュータ科学的アーキテクチャ（computational architecture）を参照する。最近の、ニューラルネットワーク技術の発展により、多種の電子システムにおいて、ニューラルネットワーク装置を使用して入力データを分析し、有効な情報を抽出している。

ニューラルネットワーク装置は、入力データに係わる多量の演算を行う。そのようなニューラルネットワーク演算を効率的に処理することができる技術が研究されている。

米国特許出願公開第２０１８／００４６８９８号明細書

本発明が解決しようとする課題は、データを処理する方法及びその装置を提供するところにある。

また、前記方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体を提供するところにある。

本発明で解決すべき技術的課題は、前述のような技術的課題に限定されるものではなく、他の技術的課題が存在するものである。

一側面によるデータを処理する方法は、入力データに含まれた有効情報に基づいて、前記入力データのスパース性（sparsity）を確認する段階と、前記スパース性の形態に基づいて、前記入力データを再配列（rearrangement）する段階と、前記再配列されたデータを処理し、出力データを生成する段階と、を含む。

他の側面による不揮発性記録媒体は、前述の方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体を含む。

さらに他の側面によるデータを処理する装置は、少なくとも１つのプログラムが保存されたメモリと、前記少なくとも１つのプログラムを実行するプロセッサと、を含み、前記プロセッサは、入力データに含まれた有効情報に基づいて、前記入力データのスパース性を確認し、前記スパース性の形態に基づいて、前記入力データを再配列し、前記再配列されたデータを処理し、出力データを生成する。

本発明によれば、データ処理装置は、コンボリューション演算が行われるロジック回路に入力される０の数が最小化されるように、入力フィーチャマップデータ及び／又はカーネルデータを再配列する。従って、データ処理装置は、不要な演算が行われる数を最小化させることができる。

ニューラルネットワークのアーキテクチャについて説明するための図面である。ニューラルネットワークのコンボリューション演算の例示について説明するための図面である。ニューラルネットワークのコンボリューション演算の例示について説明するための図面である。データ処理装置の一例を図示した構成図である。データを処理する方法の一例について説明するためのフローチャートである。プロセッサが入力データのスパース性を確認する一例について説明するための図面である。プロセッサが入力データのスパース性を確認する一例について説明するための図面である。プロセッサが入力データを再配列する一例について説明するための図面である。プロセッサが入力データを再配列する他の例について説明するための図面である。プロセッサが入力データを再配列するさらに他の例について説明するための図面である。プロセッサが入力データを再配列するさらに他の例について説明するための図面である。プロセッサが再配列されたデータを処理し、出力データを生成する例を図示したフローチャートである。プロセッサが再配列されたデータに、第２規則を適用する例について説明するための図面である。プロセッサが再配列されたデータに、第３規則を適用する例について説明するための図面である。

本発明の実施形態で使用される用語は、可能な限り、現在広く使用される一般的な用語を選択したが、それは、当技術分野における当業者の意図、判例、新たな技術の出現などによって異なり得る。また、特定の場合、出願人が任意に選定した用語もあり、その場合、当該説明部分で詳細にその意味を記載する。従って、明細書で使用される用語は、単純な用語の名称ではなく、その用語が有する意味と、明細書の全般にわたる内容とに基づいて定義されなければならない。

明細書全体において、ある部分がある構成要素を「含む」という場合には、特に明記されない限り、他の構成要素を排除するものではなく、他の構成要素をさらに含んでもよいということを意味する。また、明細書に記載された「…ユニット」、「…モジュール」というような用語は、少なくとも１つの機能や動作を処理する単位を意味し、それは、ハードウェアまたはソフトウェアによって具現されるか、あるいはハードウェアとソフトウェアとの結合によって具現されるものである。

以下では、添付図面を参照し、実施形態について詳細に説明する。しかし、本実施形態は、さまざまに異なる形態にも具現され、ここで説明する例に限定されるものではない。

以下では、図面を参照し、本実施形態について詳細に説明する。

図１は、ニューラルネットワークのアーキテクチャについて説明するための図面である。

図１を参照すれば、ニューラルネットワーク１は、ディープニューラルネットワーク（ＤＮＮ：deep neural network）、またはｎ階層ニューラルネットワーク（ｎ−layers neural networks）のアーキテクチャでもある。ＤＮＮまたはｎ階層ニューラルネットワークは、コンボリューションニューラルネットワーク（ＣＮＮ：convolution nalneural networks）、リカレントニューラルネットワーク（ＲＮＮ：recurrent neural networks）、Deep Belief Networks、Restricted Boltzman Machinesなどに該当する。例えば、ニューラルネットワーク１は、コンボリューションニューラルネットワーク（ＣＮＮ）としても具現されるが、それに限定されるものではない。図１においては、ニューラルネットワーク１の例示に該当するコンボリューションニューラルネットワークにおいて、一部のコンボリューションレイヤが図示されているが、該コンボリューションニューラルネットワークは、図示されたコンボリューションレイヤード以外にも、プーリングレイヤ（pooling layer）、フルコネクティッド（fully connected）レイヤなどをさらに含んでもよい。

ニューラルネットワーク１は、入力イメージ、フィーチャマップ（feature maps）及び出力を含む複数レイヤを有するアーキテクチャによっても具現される。ニューラルネットワーク１において、入力イメージは、カーネル（kernel）と呼ばれるフィルタとのコンボリューション演算が行われ、その結果、フィーチャマップが出力される。このときに生成された出力フィーチャマップは、入力フィーチャマップとして、さらにカーネルとのコンボリューション演算が行われ、新たなフィーチャマップが出力される。そのようなコンボリューション演算が反復的に行われた結果、最終的には、ニューラルネットワーク１を介した入力イメージの特徴に係わる認識結果が出力される。

例えば、図１のニューラルネットワーク１に、２４ｘ２４ピクセルサイズのイメージが入力された場合、入力イメージは、カーネルとのコンボリューション演算を介して、２０ｘ２０ピクセルサイズを有する４チャネルのフィーチャマップにも出力される。その後にも、２０ｘ２０フィーチャマップは、カーネルとの反復的なコンボリューション演算を介して大きさを小さくしながら、最終的には、１ｘ１ピクセルサイズの特徴が出力されもする。ニューラルネットワーク１は、さまざまなレイヤにおいて、コンボリューション演算及びサブサンプリング（または、プーリング）演算を反復的に行うことにより、入力イメージからイメージ全体を代表することができるロバストな特徴をフィルタリングして出力し、出力された最終特徴を介して、入力イメージの認識結果を導き出すことができる。

図２及び図３は、ニューラルネットワークのコンボリューション演算の例示について説明するための図面である。

図２を参照すれば、入力フィーチャマップ２１０は、６ｘ６ピクセルサイズであり、カーネル２２０は、３ｘ３ピクセルサイズであり、出力フィーチャマップ２３０は、４ｘ４ピクセルサイズであると仮定するが、それに限定されるものではない。ニューラルネットワークは、多様なサイズのフィーチャマップ及びカーネルによっても具現される。また、入力フィーチャマップ２１０、カーネル２２０及び出力フィーチャマップ２３０に定義された値は、いずれも単に例示的な値であり、本実施形態は、それに限定されるものではない。

カーネル２２０は、入力フィーチャマップ２１０において、３ｘ３ピクセルサイズの領域（または、タイル）単位でスライディングしながら、コンボリューション演算を行う。該コンボリューション演算は、入力フィーチャマップ２１０のある領域の各ピクセル値と対応するカーネル２２０のエレメントであるウェイト（weight）間の乗算が行われ、乗算によって獲得された値をいずれも合算し、出力フィーチャマップ２３０の各ピクセル値を求める演算を意味する。

まず、カーネル２２０は、入力フィーチャマップ２１０の第１領域２１１とコンボリューション演算を行う。すなわち、第１領域２１１のピクセル値１，２，３，４，５，６，７，８，９は、それぞれカーネル２２０のエレメントであるウェイト１，−３，＋４，＋７，−２，−１，−５，＋３，＋１とそれぞれ乗ぜられ、その結果として、−１，−６，１２，２８，−１０，−６，−３５，２４，９が獲得される。次に、獲得された値１，−６，１２，２８，−１０，−６，−３５，２４，９をいずれも加えた結果である１７が計算され、出力フィーチャマップ２３０の１行１列のピクセル値２３１は、１７に決定される。ここで、出力フィーチャマップ２３０の１行１列のピクセル値２３１は、第１領域２１１に対応する。

前述したのｔ同一方式で、入力フィーチャマップ２１０の第２領域２１２と、カーネル２２０とのコンボリューション演算が行われることにより、出力フィーチャマップ２３０の１行２列のピクセル値２３２である４が決定される。最終的に、入力フィーチャマップ２１０の最後のウィンドウである第１６領域２１３と、カーネル２２０とのコンボリューション演算が行われることにより、出力フィーチャマップ２３０の４行４列のピクセル値２３３である１１が決定される。

一方、図２においては、二次元コンボリューション演算について説明されたが、コンボリューション演算は、複数チャネルの入力フィーチャマップ、カーネル、出力フィーチャマップが存在する三次元コンボリューション演算にも該当する。それについては、図３を参照して説明する。

図３を参照すれば、入力フィーチャマップ２０１は、三次元サイズを有することができ、Ｘ個の入力チャネルが存在し、各入力チャネルの二次元入力フィーチャマップは、Ｈ行Ｗ列の大きさを有することができる（Ｘ、Ｗ、Ｈは、自然数である）。カーネル２０２は、四次元サイズを有することができ、Ｒ行Ｓ列の大きさを有する二次元のカーネルが、Ｘ個の入力チャネル、及びＹ個の出力チャネルほど存在することができる（Ｒ、Ｓ、Ｙは、自然数である）。言い換えれば、カーネル２０２は、入力フィーチャマップ２０１の入力チャネル数Ｘ、及び出力フィーチャマップ２０３の出力チャネル数Ｙに対応する個数のチャネルを有することができ、各チャネルの二次元カーネルは、Ｒ行Ｓ列の大きさを有することができる。出力フィーチャマップ２０３は、三次元入力フィーチャマップ２０１と４次元カーネル２０２との三次元コンボリューション演算を介して生成され、三次元コンボリューション演算結果により、Ｙ個のチャネルが存在することができる。

１つの二次元入力フィーチャマップと、１つの二次元カーネルとのコンボリューション演算を介して出力フィーチャマップが生成される過程は、図２を参照して説明した通りであり、図２で説明された二次元コンボリューション演算が、Ｘ個の入力チャネルの入力フィーチャマップ２０１と、Ｘ個の入力チャネル及びＹ個の出力チャネルのカーネル２０２との間で反復的に行われることにより、Ｙ個の出力チャネルの出力フィーチャマップ２０３が生成される。

図４は、データ処理装置の一例を図示した構成図である。

図４を参照すれば、データ処理装置４００は、メモリ４１０及びプロセッサ４２０を含む。また、図４には、図示されていないが、データ処理装置４００は、外部メモリとも連結されている。図４のデータ処理装置４００には、本実施形態と係わる構成要素だけが図示されている。従って、図４に図示された構成要素以外に、他の汎用的な構成要素がデータ処理装置４００にさらに含まれてもよいことが、当業者に自明であろう。

データ処理装置４００は、図１ないし図３を参照して説明したニューラルネットワークが具現された装置でもある。例えば、データ処理装置４００は、ＰＣ（personal computer）、サーバデバイス、モバイルデバイス、埋め込みデバイスのような多種のデバイスによっても具現される。具体的な例として、データ処理装置４００は、ニューラルネットワークを利用した音声認識、映像認識、映像分類などを行うスマートフォン、タブレットデバイス、ＡＲ（augmented reality）デバイス、ＩｏＴ（internet of things）デバイス、自律走行自動車、ロボティックス、医療機器などに含まれてもよいが、それらに限定されるものではない。また、データ処理装置４００は、前述のデバイスに搭載される専用ハードウェアアクセラレータ（ＨＷ accelerator）にも該当し、ニューラルネットワーク駆動のための専用モジュールであるＮＰＵ（neural processing unit）、ＴＰＵ（tensor processing unit）、Neural Engineのようなハードウェアアクセラレータでもある。

メモリ４１０は、データ処理装置４００内で処理される各種データを保存する。例えば、メモリ４１０は、データ処理装置４００で処理されたデータ及び処理されるデータを保存することができる。また、メモリ４１０は、データ処理装置４００によって駆動されるアプリケーション、ドライバなどを保存することができる。

例えば、メモリ４１０は、ＤＲＡＭ（dynamic random access memory）、ＳＲＡＭ（static random access memory）のようなＲＡＭ（random access memory）、ＲＯＭ（read-only memory）、ＥＥＰＲＯＭ（electrically erasable programmable read-only memory）、ＣＤ−ＲＯＭ（compact disc read only memory）、ブルーレイ（Blu-ray）、他の光学ディスクストレージ、；ＨＤＤ（hard disk drive）、ＳＳＤ（solid state drive）またはフラッシュメモリを含んでもよい。

プロセッサ４２０は、データ処理装置４００において、ニューラルネットワークを駆動するための全般的な機能を制御する役割を行う。例えば、プロセッサ４２０は、メモリ４１０に保存されたプログラムを実行することにより、データ処理装置４００を全般的に制御する。プロセッサ４２０は、データ処理装置４００内に具備されたＣＰＵ（central processing unit）、ＧＰＵ（graphics processing unit）、ＡＰ（application processor）などによっても具現される、それらに限定されるものではない。

プロセッサ４２０は、メモリ４１０から、データ（例えば、イメージデータ、フィーチャマップデータ、カーネルデータなど）をリード／ライト（read／write）し、リード／ライトされたデータを利用し、ニューラルネットワークを実行する。ニューラルネットワークが実行されるとき、プロセッサ４２０は、内部に含まれるプロセシングユニットを駆動させ、出力フィーチャマップに係わるデータを生成するための入力フィーチャマップとカーネルとのコンボリューション演算を反復的に行う。このとき、入力フィーチャマップのチャネル数、カーネルのチャネル数、入力フィーチャマップの大きさ、カーネルの大きさ、値の精度（precision）のような多様なファクタに依存し、コンボリューション演算の演算量が決定される。

例えば、プロセシングユニットは、コンボリューション演算のためのロジック回路を含んでもよい。具体的には、プロセシングユニットは、乗算器（multiplier）、加算器（adder）及び累算器（accumulator）の組み合わせによって具現された演算器を含んでもよい。また、該乗算器は、多数のサブ乗算器の組み合わせによっても具現され、該加算器も多数のサブ加算器の組み合わせによっても具現される。

プロセッサ４２０は、コンボリューション演算を処理するために、キャッシュ（cache）機能を担当するオンチップ（on-chip）メモリ、及び入力フィーチャマップのピクセル値、またはカーネルのウェイト値のような多様なオペランド（operand）をディスパッチするためのディスパッチャ（dispatcher）をさらに含んでもよい。例えば、該ディスパッチャは、メモリ４１０に保存されているデータから、プロセシングユニットが行う演算に必要なピクセル値及びウェイト値などのオペランドを、オンチップメモリにディスパッチする。そして、該ディスパッチャは、オンチップメモリにディスパッチされたオペランドを、コンボリューション演算のために、プロセシングユニットにさらにディスパッチする。

プロセッサ４２０が入力フィーチャマップデータとカーネルデータとのコンボリューション演算を行うために、演算の対象であるデータに有効ではない情報が含まれる場合、当該演算は、不要な演算になる。例えば、演算の対象であるデータが０である場合、当該データ間のコンボリューション演算は、０に出力されるので、そのような演算は、プロセッサ４２０の演算量を増加させるだけで不要である。

一方、入力フィーチャマップデータ及びカーネルデータは、Ｍ行Ｎ列のマトリックスによっても表現される（Ｍ、Ｎは、自然数である）。すなわち、入力フィーチャマップマトリックスとカーネルマトリックスは、複数のエレメントを含み、複数のエレメントにおいて、０が含まれる数と、不要な演算の回数は、比例する。

データ処理装置４００は、入力データ（例えば、入力フィーチャマップデータ及びカーネルデータ）に含まれる有効情報（例えば、０ではないデータ）に基づいて、入力データを再配列（rearrangement）する。ここで、入力データ再配列は、マトリックスに含まれる一部エレメントの位置を変更したり、マトリックスに含まれる一部行または一部列を省略（skip）したりするように、マトリックスの最初構成を変更する作業を意味する。

それにより、データ処理装置４００は、不要な演算を行わなくとも、有効な結果を出力することができるが、所望結果が出力されながらも、全体演算量が低減される。

以下、図５ないし図１３を参照して、データ処理装置４００が、入力データを再配列し、再配列されたデータを処理し、出力データを生成する例について説明する。

図５は、データを処理する方法の一例について説明するためのフローチャートである。

図５を参照すれば、データを処理する方法は、図４に図示されたデータ処理装置４００において、時系列的に処理される段階によって構成される。従って、以下で省略された内容であるとしても、図４に図示されたデータ処理装置４００について、前述の内容は、図５のデータを処理する方法にも適用されるということが分かる。

５１０段階において、プロセッサ４２０は、入力データに含まれた有効情報に基づいて、入力データのスパース性（sparsity）を確認する。

該入力データは、プロセッサ４２０がコンボリューション演算を行う対象を意味する。例えば、該入力データは、イメージデータ、フィーチャマップデータまたはカーネルデータが含まれてもよい。このとき、該フィーチャマップデータは、入力フィーチャマップデータまたは出力フィーチャマップデータでもある。プロセッサ４２０が複数のレイヤにおいて、コンボリューション演算を行い、以前レイヤでの出力フィーチャマップデータが、次のレイヤでの入力フィーチャマップデータになる。従って、５１０段階の入力データは、入力フィーチャマップデータでもあり、または出力フィーチャマップデータでもある。該入力データは、データがエレメントとして含まれたマトリックスにもなるということは、図４を参照して説明した通りである。

有効情報（valid information）は、意味の有るコンボリューション演算が行われるデータを意味する。一般的には、情報は、数字によって表現されるものであるために、有効情報は、０ではない数字であるデータを意味する。言い換えれば、無意味な情報は、そのデータが０であるによっても表現される。

プロセッサ４２０は、入力データのスパース性を確認する。ここで、スパース性とは、データに空白があるか否かということ、または空白が含まれたデータの状態を意味する。前述のとおり、有効情報は、０ではない数字であるデータによっても表現される。従って、０であるデータは、無意味な情報を意味し、それは、当該データが空白であること（すなわち、データがないこと）とも解釈される。従って、プロセッサ４２０が入力データのスパース性を確認することは、プロセッサ４２０が入力データ内の０分布を確認することと同一である。

以下、図６Ａ及び図６Ｂを参照し、プロセッサ４２０が入力データのスパース性を確認する例について説明する。

図６Ａ及び図６Ｂは、プロセッサが入力データのスパース性を確認する一例について説明するための図面である。

図６Ａ及び図６Ｂには、プロセッサ４２０が行うコンボリューション演算を図式化されている。プロセッサ４２０は、入力データ６１０，６２０，６３０，６４０間のコンボリューション演算を行い、出力データを生成する。例えば、入力データ６１０，６２０，６３０，６４０は、マトリックスによっても表現され、プロセッサ４２０は、マトリックスに含まれたチャネルのエレメント間の積の和（sum of product）を実行し、出力データを生成することができる。

図６Ａには、入力データとして、入力フィーチャマップデータ６１０とカーネルデータ６２０とが図示されており、図６Ｂには、入力データとして、入力フィーチャマップデータ６３０とカーネルデータ６４０が図示されている。以下では、説明の便宜のために、入力フィーチャマップデータ６１０，６３０に含まれるエレメントをアクティベーション（activation）と言い、カーネルデータ６２０，６４０に含まれたエレメントをウェイト（weight）と言う。

カーネルデータ６２０とカーネルデータ６４０とを比較すれば、カーネルデータ６４０の一部には、空白が含まれている。ここで、該空白は、ウェイトが０であるとも解釈される。すなわち、カーネルデータ６４０は、カーネルデータ６２０に比べ、スパース性が大きく、それは、カーネルデータ６２０に含まれたウェイトよりも、カーネルデータ６４０に含まれたウェイトに、０がさらに多いということを意味する。

一方、図６Ａ及び図６Ｂには、カーネルデータ６４０にだけ０が含まれているように図示されているが、それに限定されるものではない。言い換えれば、入力データ６１０，６２０，６３０，６４０のうち少なくとも一つには、０が含まれ、入力データ６１０，６２０，６３０，６４０に含まれる０の個数、及び０が分布される形態は、多様でもあってもよい。

プロセッサ４２０は、入力データ６１０，６２０，６３０，６４０に含まれた有効情報（例えば、０ではない数）に基づいて、入力データ６１０，６２０，６３０，６４０のスパース性を確認する。言い換えれば、プロセッサ４２０は、入力データ６１０，６２０，６３０，６４０内の０の分布を確認する。

再び、図５を参照すれば、５２０段階において、プロセッサ４２０は、入力データのスパース性の形態に基づいて、入力データを再配列する。

プロセッサ４２０は、入力データ内の０の分布に基づいて、入力データを再配列することができる。一例として、プロセッサ４２０は、入力データの複数行それぞれに含まれる０の個数に基づいて、複数行を再配列することができる。他の例として、プロセッサ４２０は、入力データの複数列それぞれのエレメントを、第１規則によって移動させることができる。他の例として、プロセッサ４２０は、入力データの複数列のうち、０のみを含む少なくとも１列に対する処理が省略されるように、複数列を再配列することができる。さらに他の例として、プロセッサ４２０は、入力データの第１列の最初のエレメントを、第１列と隣接した第２列の最後のエレメントの位置に移動させることができる。

プロセッサ４２０が入力データを再配列する例は、図７ないし図１０を参照して後述する。

図７は、プロセッサが入力データを再配列する一例について説明するための図面である。

図７には、入力データとして、入力フィーチャマップデータ７１０及びカーネルデータ７２０が図示されている。入力フィーチャマップデータ７１０は、６行６列のマトリックス、カーネルデータ７２０は、６行４列のマトリックスであるように図示されているが、それに限定されるものではない。

入力フィーチャマップデータ７１０の一部には、空白が含まれている。ここで、該空白は、有効情報がないとも解釈され、例えば、空白に対応するアクティベーションが０でもある。また、図７には、空白が入力フィーチャマップデータ７１０にだけ含まれているように図示されているが、それに限定されるものではない。言い換えれば、カーネルデータ７２０に含まれるウェイトのうち少なくとも一つにも、０が含まれる。

プロセッサ４２０は、入力フィーチャマップデータ７１０のスパース性の形態に基づいて、入力フィーチャマップ７１０を再配列することができる。例えば、プロセッサ４２０は、入力フィーチャマップデータ７１０に含まれた複数行row０〜５それぞれに含まれた空白の個数に基づいて、複数行row０〜５を再配列することができる。

例えば、フィーチャマップデータ７１０と、再配列されたフィーチャマップデータ７１１とを参照すれば、プロセッサ４２０は、入力フィーチャマップデータ７１０の複数行row０〜５において、空白が最も多く含まれる行row２と、空白が最も少なく含まれる行row０とを互いに隣接するように配列することができる。また、プロセッサ４２０は、入力フィーチャマップデータ７１０の複数行row０〜５において、空白が２番目に多く含まれる行row４と、空白が２番目に少なく含まれる行row３とを互いに隣接するように配列することができる。そのような方式で、プロセッサ４２０は、空白が含まれる個数を基準に、入力フィーチャマップデータ７１０の複数行row０〜５を再配列し、フィーチャマップデータ７１１を生成することができる。

再配列されたフィーチャマップデータ７１１により、プロセッサ４２０は、不要な演算遂行を最小化させることができる。例えば、カーネルデータ７２０とのコンボリューション演算のために、プロセッサ４２０は、再配列されたフィーチャマップデータ７１１を、部分別にロジック回路７３０に入力することができる。例えば、プロセッサ４２０は、再配列されたフィーチャマップデータ７１１において、ウィンドウ７４０内に含まれたアクティベーションを、ロジック回路７３０に入力することができる。

また、プロセッサ４２０は、カーネルデータ７２０にも、同一サイズのウィンドウ７５０を適用し、ウィンドウ７５０に含まれたウェイトを、ロジック回路７３０に入力することができる。このとき、プロセッサ４２０は、再配列されたフィーチャマップデータ７１１に対応するように、カーネルデータ７２０も再配列する。再配列されたフィーチャマップデータ７１１において、ロジック回路７３０に入力されるアクティベーションの順序と、入力フィーチャマップデータ７１０において、ロジック回路７３０に入力されるアクティベーションの順序は、互いに異なる。従って、カーネルデータ７２０の再配列なしに、ウェイトがロジック回路７３０に入力される場合は、不正確な演算結果が出力されてしまう。

プロセッサ４２０は、ロジック回路７３０に入力されたアクティベーションと演算されなければならないウェイトが、ロジック回路７３０に正確に入力されるように、カーネルデータ７２０を再配列する。そして、プロセッサ４２０は、再配列されたカーネルデータにより、ウェイトをロジック回路７３０に入力する。従って、再配列されたフィーチャマップデータ７１１によっても、ロジック回路７３０から正確な演算結果が出力されるのである。

もしカーネルデータ７２０が再配列される場合、プロセッサ４２０は、前述の方式と同様に、入力フィーチャマップデータ７１０を再配列し、ロジック回路７３０に入力する。

プロセッサ４２０は、ウィンドウ７４０内に含まれるアクティベーションの位置を調整し、不要なコンボリューション演算が行われることを防止することができる。プロセッサ４２０がウィンドウ７４０内に含まれるアクティベーションの位置を調整し、コンボリューション演算を行う例は、図１１ないし図１３を参照して後述する。

図８は、プロセッサが入力データを再配列する他の例について説明するための図面である。

図８には、入力データとして、入力フィーチャマップデータ８１０及びカーネルデータ８２０が図示されている。入力フィーチャマップデータ８１０の一部には、空白が含まれている。また、図８には、空白が入力フィーチャマップデータ８１０にだけ含まれているように図示されているが、それに限定されるものではない。言い換えれば、カーネルデータ８２０に含まれたウェイトのうち少なくとも一つにも、０が含まれる。

プロセッサ４２０は、入力フィーチャマップデータ８１０のスパース性の形態に基づいて、入力フィーチャマップ８１０を再配列することができる。例えば、プロセッサ４２０は、入力フィーチャマップデータ８１０に含まれる複数列ｃｏｌ０〜５それぞれのエレメントを、第１規則によって移動させることができる。

第１規則は、複数列ｃｏｌ０〜５それぞれのエレメントを、同一方向に所定サイズだけ移動させる規則でもある。ここで、該所定サイズは、入力フィーチャマップデータ８１０のスパース性の形態により、プロセッサ４２０が適応的に変更することができ、複数列ｃｏｌ０〜５それぞれに適用される移動の大きさは、いずれも異なってもよい。例えば、フィーチャマップデータ８１０と、再配列されたフィーチャマップデータ８１１とを参照すれば、プロセッサ４２０は、フィーチャマップデータ８１０の２番目列ｃｏｌ１に含まれるアクティベーションを１マスずつ移動させ、再配列されたフィーチャマップデータ８１１の２番目列ｃｏｌ１を生成することができる。また、プロセッサ４２０は、フィーチャマップデータ８１０の５番目列ｃｏｌ４に含まれるアクティベーションを２マスずつ移動させ、再配列されたフィーチャマップデータ８１１の５番目列ｃｏｌ４を生成することができる。また、フィーチャマップデータ８１０のスパース性の形態により、プロセッサ４２０は、フィーチャマップデータ８１０の他の列ｃｏｌ０，２，３，５については、アクティベーションを移動させない。

また、第１規則は、複数列ｃｏｌ０〜５について、周期的にも適用される。図８に図示されているように、プロセッサ４２０は、「０−１−０−０−２−０」の移動規則を、フィーチャマップデータ８１０の次に入力されるフィーチャマップデータに周期的に適用することができる。例えば、該周期は、カーネルデータ８２０の大きさと同一でもあるが、それに限定されるものではない。そのような過程を介して、プロセッサ４２０は、不要なコンボリューション演算が行われることを防止することができる。

また、プロセッサ４２０は、再配列されたフィーチャマップデータ８１１に対応するように、カーネルデータ８２０も再配列する。例えば、プロセッサ４２０は、ロジック回路に入力されたアクティベーションと演算されることを要するウェイトが、正確にロジック回路に入力されるように、カーネルデータ８２０を再配列する。そして、プロセッサ４２０は、再配列されたカーネルデータにより、ウェイトをロジック回路に入力する。従って、再配列されたフィーチャマップデータ８１１によっても、ロジック回路から正確な演算結果が出力されるのである。

もしカーネルデータ７２０が再配列される場合、プロセッサ４２０は、前述の方式と同一に、入力フィーチャマップデータ７１０を再配列し、ロジック回路７３０に入力する。

プロセッサ４２０が、再配列されたフィーチャマップデータ８１１とカーネルデータ８２０とを処理し、出力データを生成する例は、図１１ないし図１３を参照して後述する。

図９は、プロセッサが入力データを再配列するさらに他の例について説明するための図面である。

図９には、入力データとして、入力フィーチャマップデータ９１０及びカーネルデータ９２０が図示されている。入力フィーチャマップデータ９１０の一部には、空白が含まれている。また、図９には、空白が、入力フィーチャマップデータ９１０にだけ含まれているように図示されているが、それに限定されるものではない。言い換えれば、カーネルデータ９２０に含まれたウェイトのうち少なくとも一つにも、０が含まれる。

プロセッサ４２０は、入力フィーチャマップデータ９１０のスパース性の形態に基づいて、入力フィーチャマップデータ９１０を再配列することができる。例えば、プロセッサ４２０は、入力フィーチャマップデータ９１０に含まれる列ｃｏｌ１の最初のエレメント（アクティベーション）を、列ｃｏｌ１と隣接した列ｃｏｌ０の最後のエレメント（アクティベーション）の位置に移動させることができる。

具体的には、列ｃｏｌ１及び列ｃｏｌ０の最初の位置には、いずれも有効情報が含まれている。また、列ｃｏｌ０の最後の位置には、有効情報が含まれていない。その場合、プロセッサ４２０は、列ｃｏｌ１の最初の位置のエレメントを、列ｃｏｌ０の最後の位置に移動させることができる。そのような過程を介して、プロセッサ４２０は、不要なコンボリューション演算が行われることを防止することができる。同様に、プロセッサ４２０は、列ｃｏｌ１の２番目位置にあるエレメントを、列ｃｏｌ０の３番目位置に移動させ、列ｃｏｌ１の５番目位置にあるエレメントを、列ｃｏｌ０の５番目位置に移動させることができる。

一方、入力フィーチャマップデータ９１０が再配列される場合、カーネルデータ９２０も、再配列されるということは、図７及び図８を参照して説明した通りである。

図１０は、プロセッサが入力データを再配列するさらに他の例について説明するための図面である。

図１０には、入力フィーチャマップデータ１０１０が図示されている。入力フィーチャマップデータ１０１０の一部には、空白が含まれている。特に、入力フィーチャマップデータ１０１０の一部列ｃｏｌ１〜３は、いずれも空白だけによって構成されている。

プロセッサ４２０は、入力フィーチャマップデータ１０１０のスパース性の形態に基づいて、入力フィーチャマップ１０１０を再配列することができる。例えば、プロセッサ４２０は、入力フィーチャマップデータ１０１０に含まれる複数列ｃｏｌ０〜５において、０のみを含む列ｃｏｌ１〜３に対する処理が省略されるように、入力フィーチャマップデータ１０１０を再配列することができる。

例えば、プロセッサ４２０は、入力フィーチャマップデータ１０１０から列ｃｏｌ１〜３を省略し、残りの列ｃｏｌ０，４，５のみに再配列されたフィーチャマップデータ１０２０を生成することができる。そして、プロセッサ４２０は、列ｃｏｌ１〜３が省略されたことをメモリ４１０に記録する。そのような過程を介して、プロセッサ４２０は、不要なコンボリューション演算が行われることを防止することができる。

一方、入力フィーチャマップデータ１０１０が再配列される場合、カーネルデータも、再配列されるということは、図７及び図８を参照して説明した通りである。

再び図５を参照すれば、５３０段階において、プロセッサ４２０は、再配列されたデータを処理し、出力データを生成する。

例えば、プロセッサ４２０は、再配列されたデータを利用し、コンボリューション演算を行うことにより、出力データを生成することができる。ただし、プロセッサ４２０は、不要な演算を低減させるために、５２０段階の再配列されたデータに、追加して第２規則または第３規則を適用することができる。

以下、図１１ないし図１３を参照し、プロセッサ４２０が出力データを生成する例について説明する。

図１１は、プロセッサが再配列されたデータを処理し、出力データを生成する例を図示したフローチャートである。

１１１０段階において、プロセッサ４２０は、再配列されたデータに、第２規則および第３規則のうち少なくとも一つを適用する。

図７を参照して説明した通り、プロセッサ４２０は、再配列されたデータを順次にロジック回路に入力することができる。例えば、プロセッサ４２０は、再配列されたデータに、所定サイズを有するウィンドウを適用し、ウィンドウ内に含まれたエレメントをロジック回路に入力することができる。もしウィンドウ内に含まれたエレメントにおいて、一部に有効ではない情報（例えば、０）が含まれる場合、プロセッサ４２０は、第２規則または第３規則を適用し、ウィンドウ内に含まれるエレメントを再配列することができる。

１１２０段階において、プロセッサ４２０は、少なくとも１つの規則が適用されたデータと異なるデータのコンボリューション演算を行う。例えば、プロセッサ４２０は、ロジック回路に再配列されたアクティベーション、または再配列されたウェイトを入力することにより、コンボリューション演算を行うことができる。

以下、図１２を参照し、プロセッサ４２０が再配列されたデータに、第２規則を適用する例について説明し、図１３を参照し、プロセッサ４２０が再配列されたデータに、第３規則を適用する例について説明する。

図１２は、プロセッサが再配列されたデータに、第２規則を適用する例について説明するための図面である。

図１２には、フィーチャマップデータ１２１０及びカーネルデータ１２２０が図示されている。以下においては、フィーチャマップデータ１２１０は、５２０段階の再配列が行われたデータであると仮定する。

プロセッサ４２０は、フィーチャマップデータ１２１０のうち一部を、ロジック回路１２３０に入力する。例えば、プロセッサ４２０は、フィーチャマップデータ１２１０において、ウィンドウ１２４０内に含まれるアクティベーションを、ロジック回路１２３０に入力することができる。このとき、プロセッサ４２０は、ウィンドウ１２４０内に含まれるアクティベーションについて第２規則を適用し、ロジック回路１２３０に、最大のアクティベーションを入力することができる。言い換えれば、プロセッサ４２０は、ロジック回路１２３０の入力レイヤ１２３１において空白が最小化されるように、ウィンドウ１２４０内に含まれたアクティベーションについて第２規則を適用することができる。ここで、該第２規則は、列ｃｏｌ０，１のアクティベーションが、隣接した列と同一位置に移動する規則を意味する。

例えば、プロセッサ４２０は、ウィンドウ１２４０内の列ｃｏｌ０，１の空白を確認し、列ｃｏｌ１のアクティベーション、を列ｃｏｌ０の空白に割り当てることができる。図１２を参照すれば、列ｃｏｌ１のアクティベーション２及びアクティベーション４を列ｃｏｌ０と同一位置に移動することができる。

プロセッサ４２０は、第２規則が適用されたアクティベーションを、ロジック回路１２３０の入力レイヤ１２３１に入力する。列ｃｏｌ０及び入力レイヤ１２３１を比較すれば、列ｃｏｌ０の空白数よりも、入力レイヤ１２３１の空白数がさらに少ない。空白は、データ０が含まれるところと同一であるので、空白に対応するウェイトがいかなる値を有するかということを問わず、出力は、０になる。従って、入力レイヤ１２３１に含まれる空白の数が多いほど（すなわち、入力レイヤ１２３１に、０が多く含まれるほど）、不要な演算の数が増加する。

前述の通り、プロセッサ４２０は、第２規則を適用し、入力レイヤ１２３１に含まれる０の数を最小化させる。従って、プロセッサ４２０は、ロジック回路１２３０において、不要な演算が行われる回数を最小化させることができる。

図１３は、プロセッサが再配列されたデータに、第３規則を適用する例について説明するための図面である。

図１３には、フィーチャマップデータ１３１０及びカーネルデータ１３２０が図示されている。以下では、フィーチャマップデータ１３１０は、５２０段階の再配列が行われたデータであると仮定する。

プロセッサ４２０は、ウィンドウ１３４０内に含まれるアクティベーションについて第３規則を適用し、ロジック回路１３３０に最大のアクティベーションを入力することができる。ここで、第３規則は、列ｃｏｌ０，１のアクティベーションが、隣接した列を横切った位置に移動する規則を意味する。

例えば、プロセッサ４２０は、ウィンドウ１３４０内の列ｃｏｌ０，１の空白を確認し、列ｃｏｌ１のアクティベーションを、列ｃｏｌ０の空白に割り当てることができる。図１３を参照すれば、列ｃｏｌ１のアクティベーション０，１，及び３が、列ｃｏｌ０を横切った位置に移動することができる。

プロセッサ４２０は、第３規則が適用されたアクティベーションを、ロジック回路１３３０の入力レイヤ１３３１に入力する。列ｃｏｌ０及び入力レイヤ１３３１を比較すれば、列ｃｏｌ０には、空白が存在（具体的には、３つの空白が存在する）するが、入力レイヤ１３３１には、空白がない。従って、プロセッサ４２０は、ロジック回路１２３０において、不要な演算が行われる回数を最小化させることができる。

図１２及び図１３を参照して説明したところによれば、プロセッサ４２０が、第２規則と第３規則とを別途に適用するように図示されているが、それに限定されるものではない。プロセッサ４２０は、フィーチャマップデータ１２１０，１３１０及びカーネルデータ１２２０，１３２０のスパース性を確認し、適応的に、第２規則及び第３規則のうち少なくとも一つをフィーチャマップデータ１２１０，１３１０及び／又はカーネルデータ１２２０，１３２０に適用することができる。

前述のとおり、データ処理装置４００は、コンボリューション演算が行われるロジック回路に入力される０の数が最小化されるように、入力フィーチャマップデータ及び／又はカーネルデータを再配列する。従って、データ処理装置４００は、不要な演算が行われる数を最小化させることができる。

なお、前述の方法は、コンピュータで実行されるプログラムに作成可能であり、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータにおいても具現される。また、前述の方法で使用されたデータの構造は、コンピュータで読み取り可能な記録媒体に、さまざまな手段を介しても記録される。前記コンピュータで読み取り可能な記録媒体は、磁気記録媒体（例えば、ＲＯＭ、ＲＡＭ、ＵＳＢ（universal serial bus）、フロッピー（登録商標）ディスク、ハードディスクなど）、光学的読み取り媒体（例えば、ＣＤ−ＲＯＭ、ＤＶＤ（digital versatile disc）など）のような記録媒体を含む。

本実施形態と関連する技術分野における当業者であるならば、本発明は、前述の記載の本質的な特性から外れない範囲で変形された形態に具現されるということを理解することができるであろう。従って、開示された方法は、限定的な観点ではなく、説明的な観点から考慮されなければならず、権利範囲は、前述の説明ではなく、特許請求の範囲に示されており、それと均等な範囲内にある全ての差異を含むものであると解釈されなければならないのである。

４００データ処理装置
４１０メモリ
４２０プロセッサ

Claims

データを処理する方法であって、
入力データに含まれる有効情報に基づいて、前記入力データのスパース性を確認する段階と、
前記スパース性の形態に基づいて、前記入力データを再配列する段階と、
前記再配列されたデータを処理し、出力データを生成する段階と、
を含む、方法。
前記再配列する段階は、
前記入力データ内の無効値の分布に基づいて、前記入力データを再配列する、
ことを特徴とする請求項１に記載の方法。
前記再配列する段階は、
前記入力データに含まれる複数行それぞれに含まれた無効値の個数に基づいて、前記行を再配列することを特徴とする請求項１に記載の方法。
前記再配列する段階は、
前記複数行において、無効値が最も多く含まれた第１行と、前記複数行において無効値が最も少なく含まれた第２行とを互いに隣接するように、前記行を再配列する、
ことを特徴とする請求項３に記載の方法。
前記再配列する段階は、
前記入力データに含まれる複数列それぞれのエレメントを、第１規則によって移動させる、
ことを特徴とする請求項１乃至請求項４いずれか一項に記載の方法。
前記第１規則は、前記複数列それぞれのエレメントを同一方向に所定サイズだけ移動させる規則を含み、
前記第１規則は、前記複数列に対して周期的に適用される、
ことを特徴とする請求項５に記載の方法。
前記再配列する段階は、
前記入力データに含まれる複数列において、無効値だけを含む少なくとも１列に対する処理が省略されるように、前記複数列を再配列する、
ことを特徴とする請求項１に記載の方法。
前記再配列する段階は、
前記入力データに含まれる第１列の最初のエレメントを、前記第１列と隣接した第２列の最後のエレメントの位置に移動させる、
ことを特徴とする請求項１に記載の方法。
前記生成する段階は、
前記再配列されたデータに、第２規則及び第３規則のうち少なくとも一つを適用する段階と、
前記少なくとも１つの規則が適用されたデータと異なるデータのコンボリューション演算を行う段階と、を含む、
ことを特徴とする請求項１に記載の方法。
請求項１ないし９のうちいずれか１項に記載の方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な不揮発性の記憶媒体。
データを処理する装置において、
少なくとも１つのプログラムが保存されたメモリと、
前記少なくとも１つのプログラムを実行するプロセッサと、を含み、
前記プロセッサは、
入力データに含まれた有効情報に基づいて、前記入力データのスパース性を確認し、前記スパース性の形態に基づいて、前記入力データを再配列し、前記再配列されたデータを処理し、出力データを生成する、
装置。
前記プロセッサは、
前記入力データ内の無効値の分布に基づいて、前記入力データを再配列する、
ことを特徴とする請求項１１に記載の装置。
前記プロセッサは、
前記入力データに含まれる複数行それぞれに含まれる無効値の個数に基づいて、前記行を再配列する、
ことを特徴とする請求項１１に記載の装置。
前記プロセッサは、
前記複数行において、無効値が最も多く含まれる第１行と、前記複数行において無効値が最も少なく含まれる第２行とを互いに隣接するように、前記行を再配列する、
ことを特徴とする請求項１３に記載の装置。
前記プロセッサは、
前記入力データに含まれる複数列それぞれのエレメントを、第１規則によって移動させる、
ことを特徴とする請求項１１乃至請求項１４いずれか一項に記載の装置。
前記第１規則は、前記複数列それぞれのエレメントを同一方向に所定サイズだけ移動させる規則を含み、
前記第１規則は、前記複数列に対して周期的に適用される、
ことを特徴とする請求項１５に記載の装置。
前記プロセッサは、
前記入力データに含まれる複数列において、無効値だけを含む少なくとも１列に対する処理が省略されるように、前記複数列を再配列する、
ことを特徴とする請求項１１に記載の装置。
前記プロセッサは、
前記入力データに含まれる第１列の最初のエレメントを、前記第１列と隣接した第２列の最後のエレメントの位置に移動させる、
ことを特徴とする請求項１１に記載の装置。
前記プロセッサは、
前記再配列されたデータに、第２規則及び第３規則のうち少なくとも一つを適用し、前記少なくとも１つの規則が適用されたデータと異なるデータのコンボリューション演算を行う、
ことを特徴とする請求項１１に記載の装置。
前記装置は、ニューラルネットワーク装置を含む、
ことを特徴とする請求項１１に記載の装置。
少なくとも１つのプログラムを保存する少なくとも１つのメモリと、
前記少なくとも１つのプログラムを実行する少なくとも１つのプロセッサと、を含み、
前記プロセッサは、
無効値を含む入力データの位置を決定し、
前記無効値を含む入力データの位置を操作することにより、再配列されたデータを生成し、前記再配列されたデータに規則を適用する、
装置。
前記少なくとも１つのプロセッサは、
前記入力データに含まれる有効値を、前記無効値を含む前記入力データ内の位置に移動させることにより、前記再配列されたデータを生成する、
ことを特徴とする請求項２１に記載の装置。
前記少なくとも１つのプロセッサは、
前記無効値を、前記入力データの他の位置に移動させることにより、前記再配列されたデータを生成する、
ことを特徴とする請求項２１に記載の装置。
前記入力データの前記無効値を除去することにより、前記再配列されたデータを生成する、
ことを特徴とする請求項２１に記載の装置。
ロジック回路に入力されるウィンドウの入力レイヤに含まれる無効値の数を最小化させるために、前記再配列されたデータのウィンドウに含まれる有効値に、前記規則を適用する、
ことを特徴とする請求項２１に記載の装置。
前記規則は、前記入力レイヤに隣接した前記再配列されたデータのウィンドウのレイヤに含まれる少なくとも１つの有効値を、無効値を含む前記入力レイヤの対応する位置に移動させること、を含む、
ことを特徴とする請求項２５に記載の装置。
前記規則は、前記入力レイヤに隣接した前記再配列されたデータのウィンドウのレイヤに含まれる少なくとも１つの有効値を、無効値を含む前記入力レイヤの横切った位置に移動させること、を含む、
ことを特徴とする請求項２５に記載の装置。