JP2023128263A

JP2023128263A - 情報処理装置及び情報処理方法

Info

Publication number: JP2023128263A
Application number: JP2022032498A
Authority: JP
Inventors: 弘幸甲地; Hiroyuki Katchi
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-09-14
Also published as: WO2023167153A1

Abstract

【課題】ニューラルネットワークを用いた処理の分割化に適した技術を提供する。【解決手段】情報処理装置は、フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、フィルタ方向には自由度を有さない一方で他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データを生成する処理部、を備える。【選択図】図１

Description

本開示は、情報処理装置及び情報処理方法に関する。

ニューラルネットワークの係数マトリクスの圧縮に関するさまざまな技術が提案されている（例えば特許文献１を参照）。

特開２０２１－８２２８９号公報

例えばバッファサイズの小さい装置等では、ニューラルネットワークを用いた処理の分割化が考えられる。処理の分割化に適した技術を検討する余地がある。

本開示の一側面は、ニューラルネットワークを用いた処理の分割化に適した技術を提供する。

本開示の一側面に係る情報処理装置は、フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、フィルタ方向には自由度を有さない一方で他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データを生成する処理部、を備える。

本開示の一側面に係る情報処理装置は、フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、フィルタ方向には自由度を有さない一方で他方向に自由度を有する分割範囲で分割圧縮することによって生成された分割圧縮データを復元する処理部、を備える。

本開示の一側面に係る情報処理方法は、フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、フィルタ方向には自由度を有さない一方で他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データを生成する。

実施形態に係る情報処理装置１及び情報処理装置２の概略構成の例を示す図である。係数マトリクスｋｍの例を示す図である。圧縮の例を示す図である。分割圧縮の例を示す図である。分割範囲の形状の例を示す図である。分割範囲の形状の例を示す図である。分割圧縮データｄｃの例を示す図である。疎マトリクスの例を示す図である。係数マトリクスｋｍ及び分割圧縮データｄｃの具体例を示す図である。分割範囲の具体例を示す図である。分割圧縮データｄｃにおける分割範囲Δ１に対応する部分を示す図である。分割圧縮データｄｃにおける分割範囲Δ２に対応する部分を示す図である。分割圧縮データｄｃにおける分割範囲Δ３に対応する部分を示す図である。分割範囲の別の具体例を示す図である。分割圧縮データｄｃにおける分割範囲Δ１１～分割範囲Δ１４に対応する部分を示す図である。分割圧縮データｄｃにおける分割範囲Δ１１～分割範囲Δ１４に対応する部分を示す図である。分割圧縮データｄｃにおける分割範囲Δ１１～分割範囲Δ１４に対応する部分を示す図である。分割圧縮データｄｃにおける分割範囲Δ１１～分割範囲Δ１４に対応する部分を示す図である。分割範囲の別の具体例を示す図である。分割圧縮データｄｃにおける分割範囲Δ２１に対応する部分を示す図である。処理部２１による処理を模式的に示す図である。処理部２１による処理を模式的に示す図である。情報処理装置１及び情報処理装置２によって実行される処理（情報処理方法）の例を示すフローチャートである。装置のハードウェア構成の例を示すブロック図である。

以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の要素には同一の符号を付することにより重複する説明を省略する。

以下に示す項目順序に従って本開示を説明する。
０．序
１．実施形態
２．変形例
３．ハードウェア構成の例
４．効果の例

０．序
ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）等のニューラルネットワークは、近年のＡＩ技術の発展を先導する技術となっている。ニューラルネットワークは，その応用範囲の広さ，性能の高さ，ｅｎｄ－ｔｏ－ｅｎｄでデータから学習までができてしまうことなどが主な強みである。一方で、計算量や必要なメモリ量の多さが課題となっている。ニューラルネットワークの計算量やメモリ量を削減するための研究が数多くなされている。例えば、ニューラルネットワークの冗長性を取り除くＰｒｕｎｉｎｇという手法が知られている。

Ｐｒｕｎｉｎｇは、ニューラルネットワーク（のモデル）内の冗長な接続関係を取り除く手法であり、多くの係数を０に落とし込むことによって実現される。ニューラルネットワークを構成する多くの層、例えば畳み込み層（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）、全結合層（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）等は、積和演算によって処理が行われる。積和演算において、０との積和は演算をスキップした場合と結果が変わらない。Ｐｒｕｎｉｎｇよって重みに０が多く含まれるモデルは、演算をスキップすることで演算量を低減することが可能である。０が多いことを利用して、非ゼロ係数及びその位置を示す表現の組み合わせで重みを圧縮し、メモリ使用量を削減することが可能である。

ニューラルネットワークは、データの再利用性の活用や，命令の並列度を抽出することで処理を加速させやすいことから、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）ではなく、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やアクセラレータのような専用のハードウェアによって処理されることがある。通常、アクセラレータ等は、内部バッファ（バッファメモリ）を有し、内部バッファに読み込んだデータに対してニューラルネットワークを用いた処理を実行する。内部バッファとモデルの重みや入出力のサイズとの兼ね合いで、処理の分割が必要な場合がある。例えば、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）向けのように、マイコンレベルにリソースが制限された環境では、内部バッファのサイズがかなり小さくなり、ほぼ確実に処理の分割が発生する。分割処理に関して、例えば次に説明するような課題が存在する。

１つ目の課題は、Ｐｒｕｎｉｎｇされたニューラルネットワークの係数を分割処理できるように圧縮しなければならないことである。これは、圧縮前の係数の密度(全係数に占める非ゼロ係数の割合)が、処理する重みの位置によってばらつくため、前に利用した係数を再度読み込もうとしても、再度前から非ゼロ係数の数をカウントする等しない限り、非ゼロ係数が内部バッファ上のどこに配置されているかを見失ってしまうからである。

２つ目の課題は、ニューラルネットワークの構成要素や係数の形状のさまざまなバリエーションを効率よく表現する必要があることである。ニューラルネットワークの構成要素は多岐にわたっており、一口に畳み込み層といっても、１次元（１Ｄ）畳み込み層や２次元（２Ｄ）畳み込み層、ｄｅｐｔｈｗｉｓｅ畳み込み層、ｐｏｉｎｔｗｉｓｅ畳み込み層等の様々なデータパスが考えられる。同じ種類の畳み込み層でも、係数の形状が層によって異なり得る。

３つ目の課題は、圧縮されたデータを復元すること自体である。非ゼロ係数とゼロ係数を効率的に区別して非ゼロ係数を復元し、演算器に送ることが望ましい。

上述の課題の少なくとも一部が、開示される技術によって対処され得る。例えば、１つ目の課題に関して、内部バッファサイズに応じた分割範囲で、データが分割され圧縮される。２つ目の課題に関して、分割範囲がある程度の自由度を有するように設計される。３つ目の課題に関して、複合に用いられるデコーダにおいて、１サイクルに１つ以上の非ゼロ係数が見つけ出され、処理される。

１．実施形態
図１は、実施形態に係る情報処理装置１及び情報処理装置２の概略構成の例を示す図である。情報処理装置１は、係数マトリクスｋｍを圧縮し、分割圧縮データｄｃを生成する。情報処理装置２は、分割圧縮データｄｃを復元して用いる。圧縮の例は、エンコード等である。復元の例は、デコード等である。矛盾の無い範囲において、圧縮及び復元とエンコード及びデコードとは適宜読み替えられてよい。係数マトリクスｋｍについて、図２を参照して説明する。

図２は、係数マトリクスｋｍの例を示す図である。係数マトリクスｋｍは、ニューラルネットワークの係数を記述する多次元のマトリクスである。ニューラルネットワークの例は、ＤＮＮ等である。係数は、ニューラルネットワークの層の係数、例えば畳み込み層の係数を含んでよい。畳み込み層の例は、１次元畳み込み層、２次元畳み込み層、Ｄｅｐｔｈｗｉｓｅ畳み込み層、及び、ｐｏｉｎｔｗｉｓｅ畳み込み層等である。

係数マトリクスｋｍは、フィルタ方向の次元を有する。フィルタ方向は、ｏｕｔｐｕｔｃｈａｎｎｅｌ方向等とも称される。ｏｕｔｐｕｔｃｈａｎｎｅｌの数だけフィルタが存在する。ｏｕｔｐｕｔｃｈａｎｎｅｌは例えば色の種類に相当する。異なるフィルタについての畳み込み処理は、処理結果が互いに影響しないので独立に考える（扱う）ことができる。

係数マトリクスｋｍは、フィルタ方向以外の他方向の次元も有する。他方向の例は、奥行き方向、高さ方向及び幅方向である。これらの方向は、ｉｎｐｕｔｃｈａｎｎｅｌ方向、ｈｅｉｇｈｔ方向及びｗｉｄｔｈ方向等とも称される。

係数マトリクスｋｍは、ゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスであってよい。そのような調整には、例えば上述のＰｒｕｎｉｎｇの技術が用いられる。ゼロ係数を多く含むことで、係数マトリクスｋｍを効率良く圧縮できる。図３を参照して説明する。

図３は、圧縮の例を示す図である。マトリクスにおける１６個の係数部分が模式的に示される。この例では、各係数は８ビットで記述されるものとする。１６個の係数部分のデータ量は１２８（＝１６×８）ビットである。

圧縮後のデータを、圧縮データと称する。圧縮データは、非ゼロ係数データと、疎マトリクス（ｓｐａｒｓｅｍａｔｒｉｘ）とを含む。非ゼロ係数データは、圧縮前のマトリクス内の非ゼロ係数をそのままのビットで記述する。疎マトリクスは、圧縮前のマトリクス内のゼロ係数及び非ゼロ係数それぞれを１ビットで記述する。疎マトリクスから順番に（この例ではラスタスキャン順に）値を読み出したときに、値が１の位置に対応する係数の値が、非ゼロ係数データに順に格納されている。

この例では、非ゼロ係数データが５個の係数を含み、非ゼロ係数データのデータ量は４０（＝５×８＝４０）ビットである。疎マトリクス中の各値は１ビットで記述されるので、疎マトリクスのデータ量は１６（＝１６×１）ビットである。圧縮により、データ量が５６（＝４０＋１６）ビットまで低減される。

図１に戻り、情報処理装置１についてさらに説明する。情報処理装置１は、処理部１１と、記憶部１２とを含む。処理部１１は、１つ以上のプロセッサ（例えばＣＰＵ等）を含んで構成される。記憶部１２は、処理部１１による処理に必要な情報を記憶する。記憶部１２に記憶される情報として、プログラム１２１が例示される。プログラム１２１は、コンピュータを情報処理装置１として機能させるための情報処理プログラム（ソフトウェア）である。

処理部１１は、係数マトリクスｋｍを分割圧縮することにより、分割圧縮データｄｃを生成する。圧縮は、上述の圧縮原理をベースとして行われる。

図４は、分割圧縮の例を示す図である。分割範囲の一例がハッチングで図示される。分割範囲は、一度に圧縮される係数の範囲を規定する。すなわち、分割範囲内の係数がひとまとめにして圧縮（一度に圧縮）される。

異なるフィルタに対応する分割範囲の処理は、処理結果が互いに影響しないので、独立に扱うことができる。分割範囲は、フィルタ方向には自由度を有さない一方で、他方向には自由度を有するように任意に定められる。フィルタ方向における分割範囲は、圧縮表現に固有のフィルタ数に応じて決められる。他方向における分割範囲は、例えばフィルタの形状の影響を吸収するように任意に設定される。

分割範囲を規定するフィルタ方向のフィルタ数（データ数）を、フィルタ数Ｐと称し図示する。フィルタ数Ｐは、同時に圧縮可能なフィルタ数であり、例えば情報処理装置２のハードウェア構成に応じて決められる。図４に示される例では、フィルタ数Ｐは２である。

分割範囲を規定する奥行き方向のデータ数を、データ数Ｖｃと称し図示する。分割範囲を規定する高さ方向のデータ数を、データ数Ｖ_Ｈと称し図示する。分割範囲を規定する幅方向のデータ数を、データ数Ｖ_Ｗと称し図示する。これらのデータ数Ｖｃ、データ数Ｖ_Ｈ及びデータ数Ｖ_Ｗで規定される範囲のデータサイズの上限を、データサイズＶと称する。データサイズＶは、分割範囲におけるフィルタごとのデータサイズである。データ数Ｖｃ、データ数Ｖ_Ｈ及びデータ数Ｖ_Ｗを乗じたデータ数のデータサイズは、データサイズＶ以下に制限される。データサイズＶは、分割圧縮データｄｃを復元して利用する情報処理装置２の内部バッファサイズに応じたデータサイズである。換言すれば、フィルタごとの分割範囲のデータサイズが、情報処理装置２の内部バッファサイズに応じたデータサイズ以下になるように、分割範囲が定められる。このような条件を満たす限りにおいて、データ数Ｖ_Ｃ、データ数Ｖ_Ｈ及びデータ数Ｖ_Ｗを任意に設定することができる。分割範囲の形状のうち、奥行き方向、高さ方向及び幅方向の３次元で規定される形状を、フレキシブルに変更することができる。図５及び図６も参照して説明する。

図５及び図６は、分割範囲の形状の例を示す図である。図５に例示される分割範囲は、図４の分割範囲と比較して、高さ方向のデータ数Ｖ_Ｈが少なく幅方向のデータ数Ｖ_Ｗが多い形状を有する。図６に例示される分割範囲は、図４の分割範囲と比較して、高さ方向のデータ数Ｖ_Ｈが多く幅方向のデータ数Ｖ_Ｗが少ない形状を有する。

上記のように分割範囲が自由度を有することで、さまざまな形状を有する係数マトリクスｋｍを効率的に圧縮することができる。処理部１１は、係数マトリクスｋｍのすべての分割範囲にわたってデータを圧縮することで、分割圧縮データｄｃを生成する。生成される分割圧縮データｄｃについて、図７及び図８を参照して説明する。

図７は、分割圧縮データｄｃの例を示す図である。分割圧縮データｄｃは、分割範囲ごとに、アドレスと、疎マトリクスと、非ゼロ係数データとを含む。アドレスは、非ゼロ係数データの位置（例えば先頭位置）を特定するためのデータである。疎マトリクスは、フィルタごとの係数マトリクスｋｍ内のゼロ係数及び非ゼロ係数それぞれを１ビットで記述する。非ゼロ係数データは、フィルタごとの係数マトリクスｋｍ内の非ゼロ係数をそのままのビットで記述する。なお、アドレス及び疎マトリクスは、メタデータとも呼べる。

図８は、疎マトリクスの例を示す図である。疎マトリクスに割り当て可能なフィルタの最大の数（一度に圧縮可能なフィルタ数）は、フィルタ数Ｐと同じかフィルタ数Ｐよりもよりも多くてよい。疎マトリクスに割り当て可能なフィルタごとのデータサイズは、データサイズＶと同じかデータサイズＶよりも大きくてよい。

圧縮対象のフィルタ数をＮ、奥行き方向のデータ量をＣ、高さ方向のデータ量をＨ、幅方向のデータ量をＷとすると、最も圧縮率を高めた場合は、ｃｅｉｌ（Ｎ／Ｐ）×ｃｅｉｌ（（Ｃ×Ｈ×Ｗ）／Ｖ）個の分割範囲、すなわちアドレス、疎マトリクス及び非ゼロ係数データのセットが発生する。ｃｅｉｌは、天井関数を意味し、端数は切り上げて整数にする。

＜実施例＞
図９は、係数マトリクスｋｍ及び分割圧縮データｄｃの具体例を示す図である。図９の上側には、係数マトリクスｋｍが示される。各フィルタを、フィルタｆ０～フィルタｆＮ－１と称し図示する。例示される分割範囲は、フィルタｆ０～フィルタｆ３の４つのフィルタに対応する。

図９の下側には、上記の分割範囲に対応するアドレス、疎マトリクス及び非ゼロ係数データが示される。アドレス及び疎マトリクスのデータサイズは、１９２ビットで固定される。アドレスのデータサイズは、３２ビットである。疎マトリクスは、フィルタｆ０～フィルタｆ３に対応するデータを含む。各フィルタに対応するデータの最大データサイズは、４０ビットである。すなわち、疎マトリクスにおけるフィルタごとのデータサイズが４０ビット以下（データサイズＶ＝４０ビット）になるように、分割範囲が定められる。非ゼロ係数データは、フィルタｆ０～フィルタｆ３に対応するデータを含む。

図１０は、分割範囲の具体例を示す図である。例示される係数マトリクスｋｍは、２次元畳み込み処理に用いられる係数マトリクスであり、フィルタ方向、奥行き方向、高さ方向及び幅方向の４次元形状を有する。上述のように、分割範囲におけるフィルタ数Ｐは４である。疎マトリクスにおけるフィルタごとのデータサイズが４０ビット以下になるように、分割範囲が定められる。以下では、分割範囲を、分割範囲Δ（フィルタ数Ｐ、奥行き方向のデータ数、高さ方向のデータ数、幅方向のデータ数）として表す場合もある。図１０に示される例では、破線で示されるように、分割範囲Δ１（４、４、２、５）、分割範囲Δ２（４、４、２、５）及び分割範囲Δ３（４、４、１、５）の組合せによって、係数マトリクスｋｍが分割圧縮される。

図１１は、分割圧縮データｄｃにおける分割範囲Δ１に対応する部分を示す図である。理解を容易にするために、４０ビットに対応する０～３９をアドレスの上に記している。フィルタ方向（若い順）、奥行き方向、高さ方向及び幅方向の順に、係数がゼロ係数及び非ゼロ係数のいずれであるのかが確認される。非ゼロ係数の場合には、疎マトリクスの対応する位置に１が書き込まれる。ゼロ係数の場合には、疎マトリクスの対応する位置に０が書き込まれる。

例えば上述の図１０の最も左下に示される分割範囲Δ１で説明すると、非ゼロ係数、非ゼロ係数、ゼロ係数、ゼロ係数、ゼロ係数、ゼロ係数、非ゼロ係数、ゼロ係数、ゼロ係数、非ゼロ係数がこの順に確認される。図１１に示されるように、疎マトリクスにおけるフィルタｆ０に対応する部分に、１、１、０、０、０、０、１、０、０、１が順に書き込まれる。非ゼロ係数データには、非ゼロ係数がそのまま書き込まれる。同様の処理を奥行き方向について行うことで、フィルタｆ０に対応する分割範囲Δ１が圧縮される。同様にして、フィルタｆ１～フィルタｆ３それぞれに対応する分割範囲Δ１も圧縮される。図１１に示されるような分割圧縮データｄｃにおける分割範囲Δ１に対応する部分の圧縮が完了する。

図１１に示される例では、非ゼロ係数の数は３０である。仮に各係数のデータサイズが８ビットであるとすると、圧縮前のデータ量は、１２８０（＝４×４×２×５×８）ビットである。圧縮後のデータ量は、アドレス及び疎マトリクスの１９２ビットと、非ゼロ係数データの２４０（＝３０×８）ビットとの合計、すなわち４３２ビットである。データ量を約３分の１程度にまで圧縮することができる。

図１２は、分割圧縮データｄｃにおける分割範囲Δ２に対応する部分を示す図である。データの書き込みは上記と同様であるので説明は省略する。

図１３は、分割圧縮データｄｃにおける分割範囲Δ３に対応する部分を示す図である。データの書き込みは上記と同様であるので説明は省略する。なお、分割範囲Δ３は先の分割範囲Δ１や分割範囲Δ２よりも狭く設定されており、疎マトリクスにおけるフィルタごとのデータサイズは、２０ビットである。割り当てられた４０ビットのうち、前方の２０ビットだけが使用される。残りの部分は使用されず、すべて０が書き込まれる。

図１４は、分割範囲の別の具体例を示す図である。例示される係数マトリクスｋｍは、１次元畳み込み処理に用いられる係数マトリクスであり、フィルタ方向、奥行き方向及び幅方向の３次元形状を有する。この例では、分割範囲におけるフィルタ数Ｐは４であり、奥行き方向のデータ数は８であり、高さ方向のデータ数は１であり、幅方向のデータ数は２０である。

高さ方向の圧縮は不要であり、その分が、この例では幅方向に割り当てられる。破線で示されるように、同じ形状の分割範囲Δ１１～分割範囲Δ１４（４、２、１、２０）によって、係数マトリクスｋｍが分割圧縮される。

図１５～図１８は、分割圧縮データｄｃにおける分割範囲Δ１１～分割範囲Δ１４に対応する部分を示す図である。データの書き込みについては上記と同様であるので説明は省略する。

図１９は、分割範囲の別の具体例を示す図である。例示される係数マトリクスｋｍは、ｐｏｉｎｔｗｉｓｅ畳み込み処理に用いられる係数マトリクスであり、フィルタ方向及び奥行き方向の２次元形状を有する。この例では、分割範囲におけるフィルタ数Ｐは４であり、奥行き方向のデータ数は４０であり、高さ方向のデータ数は１であり、幅方向のデータ数は１である。

高さ方向及び幅方向の圧縮は不要であり、その分が、奥行き方向に割り当てられる。破線で示されるように、１つの分割範囲Δ２１（４、４０、１、１）によって、係数マトリクスｋｍが圧縮される。

図２０は、分割圧縮データｄｃにおける分割範囲Δ２１に対応する部分を示す図である。データの書き込みについてはこれまでと同様であるので説明は省略する。

例えば以上で説明したように、奥行き方向、高さ方向及び幅方向の分割範囲に自由度を持たせることで、さまざまな係数マトリクスｋｍの形状の相違を吸収し、それらを効率よく圧縮することができる。すなわち、奥行き方向のデータ数Ｃ、高さ方向のデータ数Ｈ及び幅方向のデータ数Ｗの割り当てを都度変更することで、高い圧縮率が実現可能である。

図１に戻り、情報処理装置２についてさらに説明する。情報処理装置２は、処理部２１と、記憶部２２とを含む。処理部２１は、分割圧縮データｄｃを復元し、ニューラルネットワークを用いた処理を実行する。処理部２１は、ＧＰＵ、アクセラレータ等の専用のハードウェアを含んで構成されてよい。記憶部２２に記憶される情報として、プログラム２２１、及び、情報処理装置１によって生成された分割圧縮データｄｃが例示される。プログラム２２１は、コンピュータを情報処理装置２として機能させるための情報処理プログラム（ソフトウェア）である。分割圧縮データｄｃの復元について、図２１及び図２２を参照して説明する。

図２１及び図２２は、処理部２１による処理を模式的に示す図である。図２１には、復元処理及び演算処理に関するいくつかの構成要素が例示される。図２２には、デコーダ２１３による処理が模式的に示される。この例では、先の具体例で説明したようなフィルタｆ０～フィルタｆ３に対応する疎マトリクスが処理される。便宜上、以下では、疎マトリクスにおけるフィルタｆ０～フィルタｆ３に対応するデータを、データブロックとも称する。処理に関連する要素として、内部バッファ２１１、複数のマルチプレクサ２１２、複数のデコーダ２１３、データセレクタ２１４、アービタ２１５及び演算器群２１６が符号付きで例示される。複数のマルチプレクサ２１２として、マルチプレクサ２１２－０及びマルチプレクサ２１２－１が例示される。複数のデコーダ２１３として、デコーダ２１３－０及びデコーダ２１３－１が例示される。

非ゼロ係数データは、先に説明したアドレスを参照することによって内部バッファに読み込まれる。この後で説明するデコードのタイミングでデータブロックを解釈することで、必要な非ゼロ係数が内部バッファの適切な位置から読み出される。処理部２１は、データブロックを複数のデコーダ２１３に排他的に割り当てる。各デコーダ２１３は、割り当てられたデータブロック内に記述される非ゼロ係数（すなわち値が１に対応する係数）をデコードする。複数のデコーダ２１３により、各データブロックが並列に処理される。

この例では、処理部２１は、未処理のデータブロックの先頭（の位置）をヘッドによって指定する。指定されたデータブロックは、選択ロジックが与えられたマルチプレクサ２１２を介して、アイドル状態のデコーダ２１３に割り当てられる。各データブロックの演算結果が互いに影響を及ぼさないので、複数のデコーダ２１３による並列処理が可能である。

各データブロックに含まれる１の数に起因して、データブロックの処理に要するサイクル数が異なり得る。各デコーダ２１３は、互いに同期することなく処理を進めることが可能である。処理部２１は、複数のデコーダ２１３のうち、対応するデータブロック内に記述されるすべての非ゼロ係数をデコードしたデコーダ２１３に、未割り当てのデータブロックを割り当てる。例えば、デコーダ２１３－０においてデータブロックの処理が完了していなくとも、デコーダ２１３－１においてデータブロックの処理が完了していれば、未割り当てのデータブロックがデコーダ２１３－１に割り当てられる。デコーダ２１３－１は、デコーダ２１３－０によるデータブロックの処理の完了を待つことなく、新たに割り当てられたデータブロックの処理を進める。デコーダ２１３の空転（他のデコーダ２１３の処理が完了するのを待つ状態）の発生を抑制することができる。

デコーダ２１３における処理等が、図２２に例示される。破線で囲まれた処理は、各フィルタについて実行される。一点鎖線で囲まれた処理は、各奥行き、各高さ、及び、各幅について実行される。二点鎖線で囲まれた処理は、各高さ、及び、各幅について実行される。一点鎖線で囲まれた処理における値（後述の重みｗ０等）は、対応する二点鎖線で囲まれた処理が完了するまで保持される。

データブロック中の１の位置がハッチングで図示される。複数の位置が検出され、対応する係数が格納される。係数として、重みｗ、より具体的には重みｗ０～重みｗ３が例示される。カウンタによるカウントに応じて、内部バッファ２１１内の重みｗ０～重みｗ３の位置を示すインデックスが計算される。処理サイクルを揃えるために、重みｗのインデックスにｒｅｇ（処理サイクルを揃えるために、重みｗのインデックスにフリップ・フロップ等）を挟んでもよい。計算されたインデックスに基づいて、重みｗ０～重みｗ３を用いた積和演算のための入力ｘ０～入力ｘ３及び出力ｏの組合せが計算される。

データセレクタ２１４（図２１）は、バッファに格納された入力ｘ、重みｗ及びバイアスｂを選択する。選択されたこれらのデータは、アービタ２１５を介して、演算器群２１６に送られる。

演算器群２１６は、複数の積和演算器ＭＡＣを含む。この例では、複数の積和演算器ＭＡＣは、デコーダ２１３－０に対応するグループ０及びデコーダ２１３－１に対応するグループ１に分けて用いられる。積和演算器ＭＡＣの接続の自由度を下げ、接続の複雑さを緩和することができる。各積和演算器ＭＡＣは、対応する重みｗ及び入力ｘ、より具体的には重みｗ０～重みｗ３及び入力ｘ０～入力ｘ３の積和演算を実行する。バイアスｂの演算も含まれてよい。演算によって得られた出力ｏは、アービタ２１５及びデータセレクタ２１４を介して内部バッファ２１１に送られる。

同じデータブロックを複数回デコードしないように、データブロック中に検出された係数が関与するすべての入力ｘ、バイアスｂ及び出力ｏに対して積和演算が行われる。この一連の処理が、データブロック内の未処理の１（デコード前の係数）がなくなるまで繰り返される。これにより、データブロック内の１の数に比例した処理サイクルだけでデコード処理が可能になる。

図２３は、情報処理装置１及び情報処理装置２によって実行される処理（情報処理方法）の例を示すフローチャートである。

ステップＳ１において、係数マトリクスｋｍが分割圧縮される。この処理は、例えば情報処理装置１の処理部１１によって実行される。処理部１１は、係数マトリクスｋｍを、フィルタ方向には自由度を有さない一方で他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データｄｃを生成する。詳細はこれまで説明したとおりであるので、説明は繰り返さない。

ステップＳ２において、係数マトリクスｋｍが復元され、ニューラルネットワークを用いた処理が実行される。この処理は、例えば情報処理装置２の処理部２１によって実行される。詳細についてはこれまで説明したとおりであるので、説明は繰り返さない。

２．変形例
開示される技術は、上記実施形態に限定されない。いくつかの変形例について述べる。

先に説明した図９～図２０の例では、フィルタ方向における分割範囲、すなわち一度に圧縮されるフィルタ数Ｐが４である場合を例に挙げて説明した。ただし、フィルタ数Ｐは４以外であってよい。フィルタ数Ｐは１であってもよいし、２以上の任意の整数であってもよい。

上記では、分割範囲におけるフィルタごとのデータサイズが４０ビットである場合を例に挙げて説明した。ただし、当該データサイズは４０ビット以外の任意のデータサイズであってよい。

アドレスは、対応する非ゼロ係数データの先頭の位置を特定できるものであればよい。アドレスは、絶対アドレスであってもよいし、相対アドレスであってもよい。

上記実施形態では、分割範囲が、奥行き方向のデータ数Ｖ_Ｃ、高さ方向のデータ数Ｖ_Ｈ及び幅方向のデータ数Ｖ_Ｗの積に対応するデータサイズの上限として、データサイズＶを定める場合を例に挙げて説明した。ただし、データ数Ｖ_Ｃ、データ数Ｖ_Ｈ及びデータ数Ｖ_Ｗそれぞれに個別に上限が定められてよい。少なくとも一部のデータ数が固定されてもよい。

上記実施形態では、係数マトリクスｋｍを圧縮する情報処理装置１と、係数マトリクスｋｍを復元する情報処理装置２とが異なる装置である場合を例に挙げて説明した。ただし、情報処理装置１及び情報処理装置２は同じ装置であってもよい。

上記実施形態では、フィルタ方向以外の他方向として、奥行き方向、高さ方向及び幅方向を例に挙げて説明した。ただし、他方向は、フィルタ方向以外の少なくとも１つの方向であってよい。奥行き方向、高さ方向及び幅方向以外の方向が、他方向に含まれてもよい。

３．ハードウェア構成の例
図２４は、装置のハードウェア構成の例を示すブロック図である。例えば図示されるような汎用のコンピュータを用いて、情報処理装置１や情報処理装置２が実現される。なお、例えば情報処理装置２の処理部２１に関しては、例えば先に説明したように、ＧＰＵ、アクセラレータ等の専用のハードウェアを含んで構成されてよい。

コンピュータにおいて、ＣＰＵ５０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子等よりなる。出力部５０７は、ディスプレイ、スピーカ等よりなる。記録部５０８は、ハードディスクや不揮発性のメモリ等よりなる。通信部５０９は、ネットワークインターフェース等よりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラム（例えば図１のプログラム１２１、プログラム２２１）を、入出力インターフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

４．効果の例
本開示によれば、ニューラルネットワークを用いた処理の分割化に適した技術が提供される。開示される技術の１つは、情報処理装置１である。図１～図８等を参照して説明したように、情報処理装置１は、フィルタ方向（ｏｕｔｐｕｔｃｈａｎｎｅｌ方向）の次元及び他方向（例えば奥行き方向、高さ方向、幅方向（ｉｎｐｕｔｃｈａｎｎｅｌ方向、ｈｅｉｇｈｔ方向、ｗｉｄｔｈ方向）の少なくとも１つ）の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスｋｍを、フィルタ方向には自由度を有さない一方で他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データｄｃを生成する処理部１１、を備える。

上記の情報処理装置１によれば、分割範囲がある程度の自由度を有するので、さまざまな形状の係数マトリクスｋｍを効率よく圧縮することができる。

図７及び図８等を参照して説明したように、分割圧縮データｄｃは、フィルタごとの係数マトリクスｋｍ内の非ゼロ係数をそのままのビットで記述する非ゼロ係数データ、フィルタごとの係数マトリクスｋｍ内のゼロ係数及び非ゼロ係数それぞれを１ビットで記述する疎マトリクス、及び、非ゼロ係数データの位置を特定するアドレスを含んでよい。例えばこのようにして非ゼロ係数データ及び疎マトリクスを含む分割圧縮データｄｃを生成することで、係数マトリクスｋｍを圧縮（エンコード）することができる。分割圧縮データｄｃにアドレスを含めることで、非ゼロ係数の位置を見失わないようにすることができる。

図１、図４～図８等を参照して説明したように、分割範囲は、疎マトリクスにおけるフィルタごとのデータサイズが、分割圧縮データｄｃを復元して利用する装置（情報処理装置２）の内部バッファサイズに応じたデータサイズ以下になるように定められてよい。これにより、情報処理装置２でのニューラルネットワークを用いた処理の分割化が行い易くなる。

図２及び図１０～図２０等を参照して説明したように、係数マトリクスｋｍは、ニューラルネットワークの畳み込み層の係数マトリクスを含み、畳み込み層は、１次元畳み込み層、２次元畳み込み層、Ｄｅｐｔｈｗｉｓｅ畳み込み層、及び、ｐｏｉｎｔｗｉｓｅ畳み込み層の少なくとも１つを含んでよい。例えばこのようなさまざまな畳み込み層の係数マトリクスｋｍを効率よく圧縮することができる。

図１～図８、図２１及び図２２等を参照して説明した情報処理装置２も、開示される技術の１つである。情報処理装置２は、フィルタ方向（ｏｕｔｐｕｔｃｈａｎｎｅｌ方向）の次元及び他方向（例えば奥行き方向、高さ方向、幅方向（ｉｎｐｕｔｃｈａｎｎｅｌ方向、ｈｅｉｇｈｔ方向、ｗｉｄｔｈ方向）の少なくとも１つ）の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスｋｍを、フィルタ方向には自由度を有さない一方で他方向に自由度を有する分割範囲で分割圧縮することによって生成された分割圧縮データｄｃを復元する処理部２１、を備える。これにより、情報処理装置２でのニューラルネットワークを用いた処理の分割化が行い易くなる。

図２１及び図２２等を参照して説明したように、処理部２１は、疎マトリクスにおけるフィルタごとのデータ（データブロック）を複数のデコーダ２１３に排他的に割り当て、デコーダ２１３は、割り当てられたデータ内に記述される非ゼロ係数をデコードし、処理部２１は、複数のデコーダ２１３のうち、対応するデータ内に記述されるすべての非ゼロ係数をデコードしたデコーダ２１３に、分割圧縮データｄｃ内のフィルタごとのデータのうち、未割り当てのデータを割り当ててよい。これにより、非ゼロ係数を効率的にデコードすることができる。

図２３等を参照して説明した情報処理方法も、開示される技術の１つである。情報処理方法は、フィルタ方向（ｏｕｔｐｕｔｃｈａｎｎｅｌ方向）の次元及び他方向（例えば奥行き方向、高さ方向、幅方向（ｉｎｐｕｔｃｈａｎｎｅｌ方向、ｈｅｉｇｈｔ方向、ｗｉｄｔｈ方向）の少なくとも１つ）の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスｋｍを、フィルタ方向には自由度を有さない一方で他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データｄｃを生成する（ステップＳ１）。このような情報処理方法によっても、これまで説明したように、さまざまな形状の係数マトリクスｋｍを効率よく圧縮することができる。

なお、本開示に記載された効果は、あくまで例示であって、開示された内容に限定されない。他の効果があってもよい。

以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

なお、本技術は以下のような構成も取ることができる。
（１）
フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、前記フィルタ方向には自由度を有さない一方で前記他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データを生成する処理部、
を備える、
情報処理装置。
（２）
前記分割圧縮データは、フィルタごとの前記係数マトリクス内の非ゼロ係数をそのままのビットで記述する非ゼロ係数データ、前記フィルタごとの前記係数マトリクス内のゼロ係数及び非ゼロ係数それぞれを１ビットで記述する疎マトリクス、及び、前記非ゼロ係数データの位置を特定するアドレスを含む、
（１）に記載の情報処理装置。
（３）
前記分割範囲は、前記疎マトリクスにおけるフィルタごとのデータサイズが、前記分割圧縮データを復元して利用する装置の内部バッファサイズに応じたデータサイズ以下になるように定められる、
（２）に記載の情報処理装置。
（４）
前記他方向は、奥行き方向、高さ方向、及び、幅方向の少なくとも１つを含む、
（１）～（３）のいずれかに記載の情報処理装置。
（５）
前記係数マトリクスは、前記ニューラルネットワークの畳み込み層の係数マトリクスを含み、
前記畳み込み層は、１次元畳み込み層、２次元畳み込み層、Ｄｅｐｔｈｗｉｓｅ畳み込み層、及び、ｐｏｉｎｔｗｉｓｅ畳み込み層の少なくとも１つを含む、
（１）～（４）のいずれかに記載の情報処理装置。
（６）
フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、前記フィルタ方向には自由度を有さない一方で前記他方向に自由度を有する分割範囲で分割圧縮することによって生成された分割圧縮データを復元する処理部、
を備える、
情報処理装置。
（７）
前記分割圧縮データは、フィルタごとの前記係数マトリクス内の非ゼロ係数をそのままのビットで記述する非ゼロ係数データ、前記フィルタごとの前記係数マトリクス内のゼロ係数及び非ゼロ係数それぞれを１ビットで記述する疎マトリクス、及び、前記非ゼロ係数データの位置を特定するアドレスを含み、
前記処理部は、前記疎マトリクスにおけるフィルタごとのデータを複数のデコーダに排他的に割り当て、
前記デコーダは、割り当てられた前記データ内に記述される非ゼロ係数をデコードし、
前記処理部は、前記複数のデコーダのうち、対応する前記データ内に記述されるすべての非ゼロ係数をデコードしたデコーダに、前記分割圧縮データ内のフィルタごとの前記データのうち、未割り当てのデータを割り当てる、
（６）に記載の情報処理装置。
（８）
前記分割範囲は、前記フィルタごとの前記疎マトリクスのデータサイズが、前記情報処理装置の内部バッファサイズに応じたデータサイズ以下になるように定められる、
（７）に記載の情報処理装置。
（９）
前記他方向は、奥行き方向、高さ方向、及び、幅方向の少なくとも１つを含む、
（６）～（８）のいずれかに記載の情報処理装置。
（１０）
前記係数マトリクスは、前記ニューラルネットワークの畳み込み層の係数マトリクスを含み、
前記畳み込み層は、１次元畳み込み層、２次元畳み込み層、Ｄｅｐｔｈｗｉｓｅ畳み込み層、及び、ｐｏｉｎｔｗｉｓｅ畳み込み層の少なくとも１つを含む、
（６）～（９）のいずれかに記載の情報処理装置。
（１１）
フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、前記フィルタ方向には自由度を有さない一方で前記他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データを生成する、
情報処理方法。

１情報処理装置
１１処理部
１２記憶部
１２１プログラム
２情報処理装置
２１処理部
２１１内部バッファ
２１２マルチプレクサ
２１３デコーダ
２１４データセレクタ
２１５アービタ
２１６演算器群
２２記憶部
２２１プログラム
ｄｃ分割圧縮データ
ｋｍ係数マトリクス
５０１ＣＰＵ
５０２ＲＯＭ
５０３ＲＡＭ
５０４バス
５０５入出力インターフェース
５０６入力部
５０７出力部
５０８記録部
５０９通信部
５１０ドライブ
５１１リムーバブル記録媒体

Claims

フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、前記フィルタ方向には自由度を有さない一方で前記他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データを生成する処理部、
を備える、
情報処理装置。
前記分割圧縮データは、フィルタごとの前記係数マトリクス内の非ゼロ係数をそのままのビットで記述する非ゼロ係数データ、前記フィルタごとの前記係数マトリクス内のゼロ係数及び非ゼロ係数それぞれを１ビットで記述する疎マトリクス、及び、前記非ゼロ係数データの位置を特定するアドレスを含む、
請求項１に記載の情報処理装置。
前記分割範囲は、前記疎マトリクスにおけるフィルタごとのデータサイズが、前記分割圧縮データを復元して利用する装置の内部バッファサイズに応じたデータサイズ以下になるように定められる、
請求項２に記載の情報処理装置。
前記他方向は、奥行き方向、高さ方向、及び、幅方向の少なくとも１つを含む、
請求項１に記載の情報処理装置。
前記係数マトリクスは、前記ニューラルネットワークの畳み込み層の係数マトリクスを含み、
前記畳み込み層は、１次元畳み込み層、２次元畳み込み層、Ｄｅｐｔｈｗｉｓｅ畳み込み層、及び、ｐｏｉｎｔｗｉｓｅ畳み込み層の少なくとも１つを含む、
請求項１に記載の情報処理装置。
フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、前記フィルタ方向には自由度を有さない一方で前記他方向に自由度を有する分割範囲で分割圧縮することによって生成された分割圧縮データを復元する処理部、
を備える、
情報処理装置。
前記分割圧縮データは、フィルタごとの前記係数マトリクス内の非ゼロ係数をそのままのビットで記述する非ゼロ係数データ、前記フィルタごとの前記係数マトリクス内のゼロ係数及び非ゼロ係数それぞれを１ビットで記述する疎マトリクス、及び、前記非ゼロ係数データの位置を特定するアドレスを含み、
前記処理部は、前記疎マトリクスにおけるフィルタごとのデータを複数のデコーダに排他的に割り当て、
前記デコーダは、割り当てられた前記データ内に記述される非ゼロ係数をデコードし、
前記処理部は、前記複数のデコーダのうち、対応する前記データ内に記述されるすべての非ゼロ係数をデコードしたデコーダに、前記分割圧縮データ内のフィルタごとの前記データのうち、未割り当てのデータを割り当てる、
請求項６に記載の情報処理装置。
前記分割範囲は、前記フィルタごとの前記疎マトリクスのデータサイズが、前記情報処理装置の内部バッファサイズに応じたデータサイズ以下になるように定められる、
請求項７に記載の情報処理装置。
前記他方向は、奥行き方向、高さ方向、及び、幅方向の少なくとも１つを含む、
請求項６に記載の情報処理装置。
前記係数マトリクスは、前記ニューラルネットワークの畳み込み層の係数マトリクスを含み、
前記畳み込み層は、１次元畳み込み層、２次元畳み込み層、Ｄｅｐｔｈｗｉｓｅ畳み込み層、及び、ｐｏｉｎｔｗｉｓｅ畳み込み層の少なくとも１つを含む、
請求項６に記載の情報処理装置。
フィルタ方向の次元及び他方向の次元を有しゼロ係数を多く含むように調整されたニューラルネットワークの係数マトリクスを、前記フィルタ方向には自由度を有さない一方で前記他方向に自由度を有する分割範囲で分割圧縮することにより、分割圧縮データを生成する、
情報処理方法。