JP2023129041A

JP2023129041A - 機械学習プログラム、機械学習方法、及び、情報処理装置

Info

Publication number: JP2023129041A
Application number: JP2022033798A
Authority: JP
Inventors: 靖文坂井; Yasubumi Sakai
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2023-09-14
Also published as: US20230281440A1; EP4239529A1; CN116702857A

Abstract

【課題】複数のレイヤ（層）を含むニューラルネットワークの軽量化を実現する。【解決手段】機械学習プログラムは、複数の層を含むニューラルネットワーク１７０の機械学習済モデルにおける、複数の層の各々の要素の削減割合を取得し、ニューラルネットワークが、前段層１６５からのテンソルと、前段層１６５よりも前から演算処理１６１にショートカット結合される１以上の層１６３からの１以上のテンソルとに対する所定の演算結果のテンソルを出力する演算処理１６１を含む場合、層１６３、１６５の各々と演算処理との間にゼロパディング処理を行なう第２の層１７１、１７２をそれぞれ挿入し、各削減割合に応じた要素削減後の層１６３、１６５から演算処理に入力される各テンソルの要素数が第１の数となるように、層１６３、１６５に対応付けられた各第２の層において１個以上のゼロ行列によるパディングを行なう、処理をコンピュータに実行させる。【選択図】図１８

Description

本発明は、機械学習プログラム、機械学習方法、及び、情報処理装置に関する。

画像処理等のＡＩ（Artificial Intelligence）タスクに利用されるＮＮ（Neural Network）は、その構成を複雑にすることで高い性能（例えば高い推論精度）を実現できる傾向にある。一方で、ＮＮの構成の複雑化により、計算機によるＮＮを実行における演算回数、及び、当該計算機がＮＮの実行に用いるメモリサイズが増加し得る。

当該演算回数の削減、換言すれば演算時間の短縮（高速化）、並びに、当該メモリサイズの削減、換言すればＮＮの機械学習モデルの軽量化を図るための手法として、「プルーニング」（枝刈り；Pruning）が知られている。

プルーニングは、ＮＮのエッジ（重み）、ノード、及び、チャネルの少なくともいずれか１種類の要素を削減する（刈り取る）ことで、機械学習モデルのデータサイズを小さくし、演算時間及び通信時間を削減する手法である。

過剰なプルーニングは、ＮＮの推論精度の劣化を引き起こす。このため、推論精度を維持したまま、又は、推論精度の低下量を所定の水準に留めたまま、ＮＮのプルーニングを行なうことが重要である。

例えば、プルーニングにおいて、ＮＮの推論精度に大きな影響を与えないレイヤ（層）を選択する手法が知られている。当該手法は、例えば、畳込み層に続くバッチノーマライゼーション（ＢＮ；Batch Normalization）層に用いられるパラメータに基づき、プルーニングを行なう畳込み層のチャネルを決定する手法である。

特開２０１９－４９９７７号公報

ＮＮの推論精度に大きな影響を与えないレイヤを選択する手法は、ＢＮ層が接続された畳込み層に対して適用されるが、それ以外のレイヤ、例えば、ＢＮ層が接続されていない畳込み層、及び、全結合層等への適用は想定されていない。

また、これらの複数のレイヤを含むＮＮには、２以上のレイヤからの入力を連結するconcatenate演算を行なう、concatenate演算部が含まれることがある。なお、以下、concatenate演算をｃｏｎｃａｔ演算と表記し、concatenate演算部をｃｏｎｃａｔ部と表記する場合がある。

ｃｏｎｃａｔ部は、或る層と、当該層よりも前段の１以上の層とから入力されるテンソルをショートカット結合し、１つのテンソルを出力する演算処理を実行する。例えば、ショートカット結合は、入力されるテンソルに対する演算、一例として、次元ごと及び要素ごとの加算を含む。

例えば、ＮＮの推論精度に大きな影響を与えないレイヤを選択する手法を、上述した複数のレイヤに適用できるようにした場合において、当該ＮＮがｃｏｎｃａｔ部を含む場合を考える。この場合、当該手法によりプルーニングを行なうと、ｃｏｎｃａｔ部にテンソルを入力する２以上のレイヤ間で、テンソルの次元（行列サイズ）が不一致になり、ｃｏｎｃａｔ部から正常な演算結果の出力が得られない可能性がある。

このため、ｃｏｎｃａｔ部にテンソルを入力する２以上のレイヤについては、プルーニング対象のレイヤから除外することが考えられる。しかし、この場合、機械学習モデル全体のプルーニング率は低下するため、プルーニングによる機械学習モデルのデータサイズの圧縮（軽量化）効果が低減する。

１つの側面では、本発明は、複数のレイヤ（層）を含むニューラルネットワークの軽量化を実現させることを目的の１つとする。

１つの側面では、機械学習プログラムは、コンピュータに、以下の処理を実行させてよい。前記処理は、複数の層を含むニューラルネットワークの機械学習済モデルにおける、前記複数の層の各々の要素の削減割合を取得する処理を含んでよい。また、前記処理は、前記ニューラルネットワークが、入力される複数のテンソルに対する所定の演算結果のテンソルを出力する演算処理を含む場合であって、前記演算処理に、前記演算処理の前段層からのテンソルと、前記前段層よりも前の層であって前記演算処理にショートカット結合される１以上の前記層からの１以上のテンソルとが入力される場合、前記前段層及び前記１以上の層である複数の第１の層の各々と前記演算処理との間に、ゼロパディング処理を行なう第２の層をそれぞれ挿入する処理を含んでよい。さらに、前記処理は、前記複数の第１の層の各々の削減割合に応じた要素削減後の前記複数の第１の層から前記演算処理に入力される複数のテンソルのそれぞれの要素数が、いずれも第１の数となるように、前記複数の第１の層に対応付けられた複数の前記第２の層のそれぞれにおいて１個以上のゼロ行列によるパディングを行なう処理を含んでよい。

１つの側面では、本発明は、複数のレイヤ（層）を含むニューラルネットワークの軽量化を実現できる。

プルーニングを行なう畳込み層のチャネルを決定する処理の一例を説明するための図である。Ｌ１正則化学習の一例を示す図である。ＮＮのレイヤにおける図１及び図２の手法の適用可否の一例を示す図である。一実施形態に係るサーバの機能構成例を示すブロック図である。精度保証できるプルーニング率の算出例を示す図である。プルーニング前後のモデルの精度の算出例を示す図である。プルーニング率の探索例を示す図である。閾値の導出手法の一例を説明する図である。閾値の上限と閾値との一例を示す図である。プルーニングするチャネルの決定手法の一例を説明する図である。プルーニング誤差の算出例を説明する図である。プルーニングするノードの決定手法の一例を説明する図である。プルーニング誤差の算出例を説明する図である。プルーニングする重みの決定手法の一例を説明する図である。プルーニング誤差の算出例を説明する図である。ｃｏｎｃａｔ部を含むＮＮの一例を示す図である。ｃｏｎｃａｔ部を含むＮＮに対する一実施形態に係る手法の適用前後のテンソルの一例を示す図である。モデルへのゼロパディング層の挿入例を説明するための図である。ｃｏｎｃａｔ部のｃｏｎｃａｔ直前レイヤに対するゼロパディング例を説明するための図である。ｃｏｎｃａｔ部のｃｏｎｃａｔ直前レイヤに対するゼロパディング例を説明するための図である。ｃｏｎｃａｔ部のｃｏｎｃａｔ直前レイヤに対するゼロパディング例を説明するための図である。ｃｏｎｃａｔ部のｃｏｎｃａｔ直前レイヤに対するゼロパディング例を説明するための図である。ｃｏｎｃａｔ部のｃｏｎｃａｔ直前レイヤに対するゼロパディング例を説明するための図である。ｃｏｎｃａｔ部のｃｏｎｃａｔ直前レイヤに対するゼロパディング例を説明するための図である。ゼロパディング処理の適用有無に応じた、ＮＮのプルーニング前後の精度、及び、データサイズの圧縮率の一例を示す図である。ゼロパディング処理の適用有無に応じた、ＮＮの各レイヤの出力チャネル数の一例を示す図である。一実施形態に係るサーバによる処理の動作例を説明するためのフローチャートである。一実施形態に係る手法における信頼半径の更新に応じたプルーニング誤差比較結果の一例を示す図である。第１変形例に係るサーバの機能構成例を示すブロック図である。信頼半径を増加させる場合の信頼半径更新処理の一例を説明する図である。信頼半径を減少させる場合の信頼半径更新処理の一例を説明する図である。第１変形例に係るサーバによる処理の動作例を説明するためのフローチャートである。第２変形例に係るサーバの機能構成例を示すブロック図である。信頼半径の初期値の設定例を説明する図である。第２変形例に係るサーバによる処理の動作例を説明するためのフローチャートである。コンピュータのハードウェア（ＨＷ）構成例を示すブロック図である。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔１〕一実施形態
図１は、プルーニングを行なう畳込み層のチャネルを決定する処理の一例を説明するための図であり、図２は、Ｌ１正則化学習の一例を示す図である。図１では、ＮＮの推論精度に大きな影響を与えないレイヤを選択する手法として、計算機が、畳込み層に続くＢＮ層１００で利用されるスケーリング係数γを用いて、プルーニングを行なう畳込み層のチャネルを決定する手法を説明する。なお、図１のチャネル１１１～１１３に示すグラフは、出力テンソルの分布を表す。

図１に示すように、計算機は、畳込み層からＢＮ層１００に入力される複数のチャネル１１１（＃１～＃ｎ；ｎは２以上の整数）のそれぞれに対して、正規化処理（normalization）１０１を実行する。例えば、計算機は、正規化処理１０１において、下記式（１）に従い、チャネル１１１ごとに平均値μ及び分散σ^２を算出することで、平均“0”、分散“1”の正規化された分布を表す複数のチャネル１１２（＃１～＃ｎ）を取得する。下記式（１）において、ｚ_ｉｎ及びｚ_ｍｉｄは、それぞれ、チャネル１１１及び１１２を示し、μ_Ｂ及びσ_Ｂ ^２は、それぞれ、現在のミニバッチＢにおける平均値及び分散を示す。

また、計算機は、複数のチャネル１１２（＃１～＃ｎ）に対してスケーリング（scaling）１０２を実行する。例えば、計算機は、スケーリング１０２において、複数のチャネル１１２のそれぞれに対して、下記式（２）に従い、スケーリング係数γを乗算し、乗算結果にバイアスβを加算することで、パラメータγ及びβによりスケールされた分布を表す複数のチャネル１１３（＃１～＃ｎ）を出力する。下記式（２）において、ｚ_ｏｕｔはチャネル１１３を示す。なお、パラメータγ及びβは、機械学習により最適化されてよい。

ここで、γが小さい場合におけるスケーリング１０２の結果となるチャネル１１３（図１の例ではチャネル＃ｎ）の出力は、ほぼ無くなる。これは、当該チャネルをプルーニングにより削除しても、ＮＮの推論精度に大きな影響を与えないことを意味する。そこで、計算機は、小さい（例えば“0”になる）γを探索することで、チャネル単位でのプルーニングの対象となるチャネルを判定する。

例えば、計算機は、Ｌ１正則化学習をγに適用することで、小さい（小さくなる）γを探索する。Ｌ１正則化学習は、ＮＮが出力で計算する損失関数に、Ｌ１の正則化項を追加して機械学習を行なうことで、学習対象のパラメータを「疎」にできることで知られている機械学習手法である。

図２に例示するように、計算機は、或るベクトル１２１に対して、損失関数１２２を用いたＬ１正則化学習を行なうことで、Ｌ１正則化が行なわれたベクトル１２３を取得する。損失関数１２２は、下記式（３）に示すように、クロスエントロピー等の元の損失関数（第１項）と、Ｌ１ノルム（Σg(γ)=Σ|γ|）を使用するＬ１正則化項（第２項）とを加算した関数Ｌであってよい。

Ｌ１正則化学習により、ベクトル１２３の各パラメータは、ベクトル１２１の各パラメータがゼロになるか、非ゼロになるかのいずれかを示すパラメータとなる（２分化される）。このようなＬ１正則化学習を利用することで、計算機は、γがゼロになる（ゼロに近くなる）チャネルをプルーニングの対象のチャネルとして特定することができる。

図１及び図２に示すＬ１正則化学習を利用したプルーニング対象の特定は、ＢＮ層が接続された畳込み層に対して適用されるが、それ以外のレイヤ、例えば、ＢＮ層が接続されていない畳込み層、及び、全結合層等への適用は想定されていない。

図３は、ＮＮ１３０の層（レイヤ）１３１～１３９における図１及び図２の手法の適用可否の一例を示す図である。図３に示すように、畳込み層１３１及び１３３並びにＢＮ層１３２及び１３４は、図１及び図２に示すＬ１正則化学習を適用可能な層であり、畳込み層１３５～１３７並びに全結合層１３８及び１３９は、図１及び図２に示すＬ１正則化学習を適用不可能な層である。

そこで、一実施形態では、レイヤの種類に依らずに、レイヤごとのプルーニング率を決定することで、ＮＮの軽量化を実現するための手法を説明する。

〔１－１〕一実施形態に係るサーバの機能構成例
図４は、一実施形態に係るサーバ１の機能構成例を示すブロック図である。サーバ１は、プルーニング率を出力する計算機、コンピュータ又は情報処理装置の一例である。図４に示すように、サーバ１は、例示的に、メモリ部１１、取得部１２、機械学習部１３、プルーニング率算出部（以下、単に「算出部」と表記する）１４、及び、出力部１５を備えてよい。取得部１２、機械学習部１３、算出部１４、及び、出力部１５は、制御部１６の一例である。

メモリ部１１は、記憶領域の一例であり、サーバ１が利用する種々のデータを記憶する。図４に示すように、メモリ部１１は、例示的に、未学習モデル１１ａ、機械学習用データ１１ｂ、機械学習済モデル１１ｃ、プルーニング率１１ｄ、及び、軽量化済モデル１１ｅを記憶可能であってよい。

取得部１２は、未学習モデル１１ａ及び機械学習用データ１１ｂを取得し、メモリ部１１に格納する。例えば、取得部１２は、未学習モデル１１ａ及び機械学習用データ１１ｂの一方又は双方を、サーバ１で生成してもよいし、図示しないネットワークを介してサーバ１の外部のコンピュータから受信してもよい。

未学習モデル１１ａは、未学習パラメータを含むＮＮの機械学習前のモデルであってよい。当該ＮＮは、種々のレイヤを含んでよく、例えばＤＮＮ（Deep NN）であってもよい。当該ＮＮは、例えば、ＢＮ層が接続されていない畳込み層、又は、全結合層を含んでもよいし、ＢＮ層が接続された畳込み層を含んでもよく、一例として、図３に例示するＮＮ１３０であってもよい。

機械学習用データ１１ｂは、例えば、未学習モデル１１ａの機械学習（訓練）に用いる訓練用のデータセットであってよい。一例として、画像処理を実現するためのＮＮの機械学習を行なう場合、機械学習用データ１１ｂには、例えば、画像データ等の訓練データと、当該訓練データに対する正解ラベルとを含む教師データのペアが複数含まれてよい。

機械学習部１３は、機械学習フェーズにおいて、機械学習用データ１１ｂに基づいて、未学習モデル１１ａを機械学習する機械学習処理を実行する。例えば、機械学習部１３は、未学習モデル１１ａの機械学習処理により、機械学習済モデル１１ｃを生成してよい。機械学習済モデル１１ｃは、機械学習済パラメータを含むＮＮモデルであってよい。

なお、機械学習済モデル１１ｃは、未学習モデル１１ａに含まれるパラメータの更新により得られてよく、例えば、機械学習処理を通じて、未学習モデル１１ａから機械学習済モデル１１ｃに変化した結果のモデルと捉えられてもよい。機械学習処理は、既知の種々の手法により実現されてよい。

算出部１４は、機械学習済モデル１１ｃに対するプルーニング率算出処理の実行によりプルーニング率１１ｄを算出し、メモリ部１１に格納する。

例えば、算出部１４は、プルーニング率候補のうちの１つを選択するための閾値を層ごとに算出する閾値算出部１４ａと、プルーニング率候補によりプルーニングしたモデルの推論精度に基づき、採用するプルーニング率１１ｄを決定する決定部１４ｂとを備えてよい。

出力部１５は、算出部１４により生成（取得）されたプルーニング率１１ｄに基づく出力データを出力する。出力データとしては、例えば、プルーニング率１１ｄそのもの、及び、軽量化済モデル１１ｅの一方又は双方を含んでよい。

軽量化済モデル１１ｅは、機械学習済モデル１１ｃに対してプルーニング率１１ｄに基づくプルーニングの実施により得られる、機械学習済モデル１１ｃを軽量化したモデルのデータである。例えば、出力部１５は、機械学習部１３と協働して、プルーニング率１１ｄを適用して機械学習済モデル１１ｃのプルーニング及び再学習を実行することで軽量化済モデル１１ｅを取得し、メモリ部１１に格納してもよい。なお、軽量化済モデル１１ｅは、例えば、機械学習済モデル１１ｃとは別に生成されてもよいし、プルーニング及び再学習を通じて、機械学習済モデル１１ｃを更新したデータであってもよい。

出力部１５は、出力データの出力において、例えば、出力データを図示しない他のコンピュータに送信（提供）してもよいし、出力データをメモリ部１１に蓄積してサーバ１又は他のコンピュータから取得可能に管理してもよい。或いは、出力部１５は、出力データの出力において、出力データを示す情報をサーバ１等の出力装置に画面出力してもよく、その他の種々の態様により出力データを出力してよい。

〔１－２〕プルーニング率算出処理の一例
次に、サーバ１の算出部１４によるプルーニング率算出処理の一例を説明する。以下の説明では、プルーニング率の算出対象が、レイヤのパラメータの一例である重み行列Ｗであるものとする。

算出部１４は、プルーニングにより発生する層ごとのテンソルの誤差を利用することで、層の種類に依らずに、プルーニング率を決定する。一例として、算出部１４は、下記の（ｉ）～（iii）の手順により、プルーニング率を算出してよい。

（ｉ）算出部１４（閾値算出部１４ａ）は、精度保証できるプルーニング率を、層ごとに決定（算出）する。

なお、「精度保証」とは、例えば、機械学習済モデル１１ｃに対するプルーニングにより得られる軽量化済モデル１１ｅを利用した推論の精度（推論精度）が所定の基準を超えることを保証することである。

図５は、精度保証できるプルーニング率の算出例を示す図である。図５に例示するように、閾値算出部１４ａは、（ｉ）において、プルーニング対象の機械学習済モデル１１ｃに含まれる各層の重み行列Ｗに適用するプルーニング率を、複数の層のそれぞれの重み行列Ｗごとに決定する。なお、図５では、層１３１～１３３に着目して説明するが、これに限定されるものではなく、図３に例示する層１３１～１３９のいずれにおいても図５の説明が適用されてよい。

ここで、プルーニング率は、層（レイヤ）の要素を削減する割合（削減割合）の一例であり、機械学習済モデル１１ｃにおけるプルーニング対象を「疎」にする割合を示し、図２の例では、ベクトル１２３において“0”にした箇所の数を意味する。

図５に例示するように、閾値算出部１４ａは、層１３１の重み行列Ｗ_１（層１３２に接続される重み行列Ｗ_１）、及び、層１３２の間の重み行列Ｗ_２（層１３３に接続される重み行列Ｗ_２）のそれぞれについて、複数のプルーニング率候補の中から１つのプルーニング率を選択する。プルーニング率候補は、削減割合候補の一例であり、例えば、０％～１００％の間の２つ以上の割合であってよく、複数の層で共通であってもよいし、層ごとに異なる割合であってもよく、これらの組み合わせであってもよい。図５の例では、プルーニング率候補は、０％、２０％、４０％、６０％であるものとする。

閾値算出部１４ａは、例えば、プルーニング率候補のそれぞれによりプルーニングを行なった場合のプルーニング前後のテンソルの誤差を求め、閾値Ｔ_Ｗよりも誤差が小さいプルーニング率候補のうちの最大のプルーニング率候補を決定する。図５の例では、閾値算出部１４ａは、Ｗ_１について、閾値Ｔ_ｗ１よりも誤差が小さい最大のプルーニング率候補を４０％と決定する（矢印１４１参照）。また、閾値算出部１４ａは、Ｗ_２について、閾値Ｔ_ｗ２よりも誤差が小さい最大のプルーニング率候補を２０％と決定する（矢印１４２参照）。

閾値Ｔ_ｗは、プルーニング前後のテンソルの誤差の閾値であり、精度保証できるプルーニング率の上限である。例えば、閾値算出部１４ａは、プルーニング対象をプルーニングした場合の損失関数を近似式、例えば１次テイラー展開することで、層ごとに閾値Ｔ_ｗを算出してよい。閾値Ｔ_ｗの算出手法の詳細は後述する。

なお、（ｉ）で算出されるプルーニング率は、（ii）及び（iii）の処理との関係で、「仮算出」されるプルーニング率と位置付けられてよい。

以上のように、閾値算出部１４ａは、複数の層を含むＮＮの機械学習済モデル１１ｃにおける、複数の層の各々の要素の削減前後のテンソルの誤差の閾値Ｔを算出する。また、閾値算出部１４ａは、複数の閾値Ｔと、複数の層の各々において複数の削減割合候補の各々により要素を削減する場合の削減前後のテンソルの誤差とに基づき、複数の層の各々に適用する削減割合候補を選択する。

（ii）算出部１４（決定部１４ｂ）は、（ｉ）で決定したプルーニング率を用いてプルーニング（軽量化）した機械学習モデルの精度と、プルーニング未実行の機械学習モデルの精度とに基づき、プルーニング率を決定する。

例えば、決定部１４ｂは、近似式（１次テイラー展開）による誤差を考慮し、（ｉ）で決定した各層のプルーニング率でプルーニングしたモデルの精度Ａｃｃ_ｐと精度マージンＡｃｃ_ｍとの和と、プルーニングしないモデルの精度Ａｃｃ_ｗｏとを比較する。精度マージンＡｃｃ_ｍは、推論精度の低下を許容できるマージンであり、設計者により設定されてよい。なお、マージンは“0”であってもよく、この場合、決定部１４ｂは、精度Ａｃｃ_ｐと、プルーニングしないモデルの精度Ａｃｃ_ｗｏとを比較すればよい。

図６は、プルーニング前後のモデルの精度の算出例を示す図である。例えば、決定部１４ｂは、全ての層（Ｗ_１、Ｗ_２、・・・）に対してプルーニングしないモデル（機械学習済モデル１１ｃ）の精度Ａｃｃ_ｗｏを算出する（矢印１４３参照）。プルーニングしないモデルは、各層のプルーニング率を０％としてプルーニングしたモデルと位置付けられてもよい。また、決定部１４ｂは、各層を（ｉ）で算出したプルーニング率（Ｗ_１＝４０％、Ｗ_２＝２０％、・・・）でプルーニングしたモデルの精度Ａｃｃ_ｐを算出する（矢印１４４参照）。

決定部１４ｂは、精度の和Ａｃｃ_ｐ＋Ａｃｃ_ｍが精度Ａｃｃ_ｗｏ以上である場合に、（ｉ）で決定したプルーニング率を採用すると決定する。例えば、決定部１４ｂは、（ｉ）で決定したプルーニング率をプルーニング率１１ｄとしてメモリ部１１に保存する。

一方、決定部１４ｂは、精度の和Ａｃｃ_ｐ＋Ａｃｃ_ｍが精度Ａｃｃ_ｗｏ未満である場合、（ｉ）で決定したプルーニング率を破棄すると決定する。例えば、決定部１４ｂは、（ｉ）で決定したプルーニング率を破棄して、直前の（ii）で決定した（或いは初期の）プルーニング率１１ｄを採用すると決定する。

（iii）算出部１４（決定部１４ｂ）は、（ｉ）及び（ii）を複数回に亘って繰り返し適用することで、精度保証できる最大のプルーニング率を探索する。

図７は、プルーニング率の探索例を示す図である。図７の例では、算出部１４が３つの層（１３１～１３３）のプルーニング率を３回に亘って実施する場合を示す。

図７に例示するように、１回目（符号１４５参照）の探索では、（ｉ）において、閾値算出部１４ａが、閾値Ｔ_ｗを算出し、閾値Ｔ_ｗに基づき、層１３１～１３３のプルーニング率を“０％，０％，０％”（初期値）から“４０％，２０％，４０％”に決定した場合を想定する。例えば、決定部１４ｂは、（ii）において、推論精度の比較でＡｃｃ_ｐ＋Ａｃｃ_ｍ＜Ａｃｃ_ｗｏと判定すると、（ｉ）で決定されたプルーニング率を破棄し、決定前の“０％，０％，０％”を採用する。

２回目（符号１４６参照）の探索では、（ｉ）において、閾値算出部１４ａが、閾値Ｔ_ｗを算出（更新）し、更新した閾値Ｔ_ｗに基づき、層１３１～１３３のプルーニング率を“０％，０％，０％”から“２０％，２０％，４０％”に決定した場合を想定する。例えば、決定部１４ｂは、（ii）において、推論精度の比較でＡｃｃ_ｐ＋Ａｃｃ_ｍ≧Ａｃｃ_ｗｏと判定すると、“２０％，２０％，４０％”を採用し、プルーニング率１１ｄとしてメモリ部１１に格納する。

３回目（符号１４７参照）の探索では、（ｉ）において、閾値算出部１４ａが、閾値Ｔ_ｗを算出（更新）し、更新した閾値Ｔ_ｗに基づき、層１３１～１３３のプルーニング率を“２０％，２０％，４０％”から“２０％，４０％，４０％”に決定した場合を想定する。例えば、決定部１４ｂは、（ii）において、推論精度の比較でＡｃｃ_ｐ＋Ａｃｃ_ｍ≧Ａｃｃ_ｗｏと判定すると、“２０％，４０％，４０％”を採用し、プルーニング率１１ｄとしてメモリ部１１に格納（更新）する。

決定部１４ｂは、例えば予め設定された回数等の所定の回数に亘って、プルーニング率の探索を行なってよい。

以上のように、決定部１４ｂは、機械学習済モデル１１ｃによる推論精度と、機械学習済モデル１１ｃにおける複数の層の各々の要素を、適用する削減割合候補に応じて削減して得られる削減済モデルの機械学習後の推論精度とに基づき、複数の層の各々に適用する削減割合を決定する。

次に、上述したプルーニング率算出処理の具体例を説明する。図８は、閾値の導出手法の一例を説明する図であり、図９は、閾値の上限と閾値との一例を示す図である。

閾値算出部１４ａは、プルーニングした場合の損失関数を１次テイラー展開することで、精度保証できるプルーニング率の閾値を層ごとに算出する。例えば、プルーニングにより発生する層ごとのテンソルの誤差をΔｗ、プルーニングした場合の損失関数をＬ（ｗ＋Δｗ）、プルーニング対象のモデルの損失関数をＬ（ｗ）、プルーニングしない場合の損失関数（Ｌ_{ｉｄｅａｌ}）をＬ_ｗｏ＋Ｌ_ｍとすると、精度保証できるプルーニング率の閾値は、下記式（４）により算出される。なお、Ｌ_ｗｏはプルーニングしない場合のモデルの損失関数であり、Ｌ_ｍは設計者が設定する損失関数のマージンである。

上記式（４）の左辺（図８の破線枠参照）は、プルーニングした場合の損失関数Ｌ（ｗ＋Δｗ）のテイラー展開であり、プルーニング対象のレイヤごとの重み勾配“∂L(W)/∂w”を含む。レイヤごとの勾配は、逆伝播により算出されてよい。また、上記式（４）の右辺（図８の一点鎖線枠参照）は、プルーニングをしても損失関数は理想値（例えばＦＰ３２の損失関数）よりも小さくなる、という制約である。

このように、閾値算出部１４ａは、複数の層の各々の要素を削減する際の機械学習済モデル１１ｃの損失関数の値と、複数の層の各々の重み勾配とに基づき閾値Ｔを算出する。

上記式（４）を整理すると、下記式（５）に示すように、プルーニングしたときの損失関数が理想損失関数よりも小さくなるという制約を満たす、「プルーニングの誤差」の条件を導出できる。換言すれば、精度（損失関数）を保証する、プルーニングによる誤差の上限（閾値）を導出できる。閾値算出部１４ａは、下記式（５）の右辺を閾値Ｔに設定する。

図９に例示するように、閾値算出部１４ａは、レイヤごとに設定される閾値Ｔと、プルーニングによるＬ１ノルムの誤差とを比較する。そして、閾値算出部１４ａは、閾値Ｔよりも誤差が小さくなるプルーニング率候補のうちの最大の値のプルーニング率候補（図９の例では４０％）を、（ｉ）の結果としてのプルーニング率に決定する。

一例として、閾値算出部１４ａは、下記式（６）に従い、プルーニング対象のレイヤごとに、プルーニング誤差（左辺）が閾値（右辺）以下となるプルーニング率を決定してよい。下記式（６）において、“||ΔW||₁”はプルーニング対象となった重みのＬ１ノルムであり、“n”はプルーニング対象のレイヤの重みの要素数である。

上記式（６）に示すように、閾値Ｔは、近似により導出したパラメータとなる。近似誤差によるプルーニング率の決定の誤りを防ぐために、閾値Ｔには、上限が設定されてよい（図９参照）。例えば、閾値算出部１４ａは、信頼領域法に基づき、「信頼半径」により閾値Ｔの大きさを制限してよい。信頼半径は、閾値上限の一例である。一例として、閾値算出部１４ａは、全層の閾値ＴのＬ２ノルムが、信頼半径以下となるように閾値Ｔをスケーリングしてよい。図９の例において、Ｔ_ｈは各層の閾値Ｔによるベクトルを示し、“||T_h||₂”は、全層の閾値ＴのＬ２ノルムを示す。

例えば、閾値算出部１４ａは、決定部１４ｂによる（ii）の処理での精度の比較結果に応じて、プルーニング率に加えて、信頼半径を（例えば定数倍等により）更新してもよい。なお、信頼半径の初期値は、例えば設計者等により設定されてよい。

一例として、閾値算出部１４ａは、精度の和Ａｃｃ_ｐ＋Ａｃｃ_ｍが精度Ａｃｃ_ｗｏ以上である場合に、信頼半径を定数Ｋ（“K>1.0”）倍し、精度の和Ａｃｃ_ｐ＋Ａｃｃ_ｍが精度Ａｃｃ_ｗｏ未満である場合、信頼半径を定数ｋ（“0<k<1.0”）倍してよい。

〔１－３〕プルーニング対象の種類に応じた説明
次に、プルーニング対象の種類に応じた、プルーニングの手法及びプルーニング誤差の算出手法の例を説明する。プルーニング対象の種類としては、例えば、チャネルプルーニング、ノードプルーニング、及び、重みプルーニング等が挙げられる。算出部１４は、プルーニング対象の種類に応じて、プルーニング対象に対応する重みを用いて、プルーニング対象及びプルーニング誤差を決定してよい。

〔１－３－１〕チャネルプルーニングの例
図１０は、プルーニングするチャネルの決定手法の一例を説明する図であり、図１１は、プルーニング誤差の算出例を説明する図である。

なお、図１０及び図１１では、畳込み演算の処理フローを示している。また、添字の付いたＨ及びＷは、入力データ、カーネル、出力データのサイズを示し、添字の付いたＣｈは、入力データ、カーネル、出力データのチャネル数を示す。以下、プルーニング対象の他の種類に係る説明においても同様である。

（プルーニングするチャネルの決定手法の一例）
プルーニング対象の種類がチャネルである場合、算出部１４は、出力データのチャネルに対応するカーネル単位でＬ１ノルムを算出（計算）する。例えば、算出部１４は、図１０の“pruning前”に示すように、プルーニング前のＣｈ_１個全てのカーネルについて、それぞれのＬ１ノルムを算出する。これにより、Ｃｈ_１個分のＬ１ノルムが算出される。

次いで、算出部１４は、図１０の“pruning後”に例示するように、算出したＬ１ノルムの小さい順に、設定されたプルーニング率に応じて、対応する出力データのチャネルをプルーニングする。

（プルーニング誤差の算出例）
図１１に例示するように、算出部１４は、プルーニング対象のカーネルのＬ１ノルムを算出する。プルーニング対象のカーネルのＬ１ノルムは、プルーニング前の全カーネルのＬ１ノルムから、プルーニング後の全カーネルのＬ１ノルムを減じたもの、すなわち、プルーニング前後のＬ１ノルムの差である。

算出部１４は、算出したＬ１ノルムを、プルーニング前の全カーネルの要素数で割ることで、プルーニング誤差を取得してよい。

〔１－３－２〕ノードプルーニングの例
図１２は、プルーニングするノードの決定手法の一例を説明する図であり、図１３は、プルーニング誤差の算出例を説明する図である。

（プルーニングするノードの決定手法の一例）
プルーニング対象の種類がノードである場合、算出部１４は、出力ノードに接続される重み単位で、Ｌ１ノルムを算出する。図１２の“pruning前”の例では、算出部１４は、実線、破線、一点鎖線の各単位でＬ１ノルムを算出する。

次いで、算出部１４は、図１２の“pruning後”に例示するように、算出したＬ１ノルムの小さい順に、設定されたプルーニング率に応じて、対応する出力ノードをプルーニングする。例えば、算出部１４は、Ｌ１ノルムが小さかった重み群に対応する出力ノードをプルーニング対象のノードに決定する。

（プルーニング誤差の算出例）
図１３に例示するように、算出部１４は、プルーニング対象の重み群のＬ１ノルムを算出する。プルーニング対象の重み群のＬ１ノルムは、プルーニング前の全重みのＬ１ノルムから、プルーニング後の全重みのＬ１ノルムを減じたものである。

算出部１４は、算出したＬ１ノルムを、プルーニング前の全重みの要素数で割ることで、プルーニング誤差を取得してよい。図１３の“pruning後”の例では、算出部１４は、二点鎖線の重み群のＬ１ノルムを算出し、プルーニング前の全重みの要素数（＝“6”；線の本数）でＬ１ノルムを除算する。

〔１－３－３〕重みプルーニングの例
図１４は、プルーニングする重みの決定手法の一例を説明する図であり、図１５は、プルーニング誤差の算出例を説明する図である。

（プルーニングする重みの決定手法の一例）
プルーニング対象の種類が重みである場合、算出部１４は、全ての重みについて、要素単位でＬ１ノルムを算出する。図１４の“pruning前”の例では、重みの要素数＝“6”であるため、算出部１４は、“6”個のＬ１ノルムを算出する。

次いで、算出部１４は、図１４の“pruning後”に例示するように、算出したＬ１ノルムの小さい順に、設定されたプルーニング率に応じて、対応する重みをプルーニングする。例えば、算出部１４は、Ｌ１ノルムが小さかった重みをプルーニング対象の重みに決定する。

（プルーニング誤差の算出例）
図１５に例示するように、算出部１４は、プルーニング対象の重みのＬ１ノルムを算出する。プルーニング対象の重みのＬ１ノルムは、プルーニング前の全重みのＬ１ノルムから、プルーニング後の全重みのＬ１ノルムを減じたものである。

算出部１４は、算出したＬ１ノルムを、プルーニング前の全重みの要素数で割ることで、プルーニング誤差を取得してよい。図１５の“pruning後”の例では、算出部１４は、破線の重みのＬ１ノルムを算出し、プルーニング前の全重みの要素数（＝“6”；線の本数）でＬ１ノルムを除算する。

〔１－４〕ｃｏｎｃａｔ部を含むＮＮのプルーニング処理の説明
図１６は、ｃｏｎｃａｔ部１５４を含むＮＮ１５０の一例を示す図であり、図１７は、ｃｏｎｃａｔ部１５４を含むＮＮ１５０に対する上述した一実施形態に係る手法の適用前後のテンソルの一例を示す図である。

図１６に例示するように、ＮＮ１５０は、レイヤ１５１～１５３、１５５（それぞれレイヤ１、３、２、４と表記）と、ｃｏｎｃａｔ部１５４とを含む。ｃｏｎｃａｔ部１５４は、レイヤ１及び２からのテンソルを入力とし、これらのテンソルの加算を行ない、加算した結果をレイヤ４に出力する。ｃｏｎｃａｔ演算は、レイヤ１からのテンソルとレイヤ２からのテンソルとに対する所定の演算結果のテンソルを出力する演算処理の一例である。なお、以下の説明では、ｃｏｎｃａｔ部１５４にテンソルを入力する入力レイヤが２つである場合を例に挙げるが、これに限定されるものではなく、入力レイヤは、３つ以上であってもよい。換言すれば、ｃｏｎｃａｔ部１５４には、ｃｏｎｃａｔ部１５４の前段に接続された前段層からのテンソルと、当該前段層よりも前の層であってｃｏｎｃａｔ部１５４にショートカット結合される１以上の層からの１以上のテンソルとが入力されてよい。

以下、簡単のために、プルーニング対象の要素がチャネルであり、レイヤ１及び２のそれぞれが３チャネル（要素数“3”）の１次元テンソルを出力する場合を例に挙げる。なお、要素としては、例えば、チャネルの他に、重み又はノードが挙げられる。

図１６の例では、ｃｏｎｃａｔ部１５４は、レイヤ１から出力されるテンソル［１０１］と、レイヤ２から出力されるテンソル［０１１］とをチャネルごとに加算し、加算結果のテンソル［１１２］をレイヤ４に出力する。なお、テンソル内の各列は、プルーニング対象の要素（例えばチャネル）に対応する。以下、テンソル内の各列を、[ch1,2]のように表記する場合がある。[ch1,2]は、レイヤ１のチャネル２を意味する。レイヤ内のチャネルの位置は、インデックスにより特定（指定）可能である。

ここで、図１６に示すＮＮ１５０に対して上述した一実施形態に係る手法を適用すると、レイヤ１～４のそれぞれのプルーニング率が個別に決定され、決定されたプルーニング率により各レイヤ１～４のプルーニングが行なわれる。

例えば、図１７に示すように、レイヤ１から出力されるテンソル：[Ch1,1]，[ch1,2]，[ch1,3]のうちの[ch1,3]がプルーニングされ、レイヤ２から出力されるテンソル：[Ch2,1]，[ch2,2]，[ch2,3]のうちの[ch2,2]，[ch2,3]がプルーニングされる場合を想定する。この場合、ｃｏｎｃａｔ部１５４は、レイヤ１及びレイヤ２からそれぞれ入力されるチャネル数、換言すればテンソルのチャネルの次元の要素数（サイズ）が“2”及び“1”で異なるため、ｃｏｎｃａｔ演算を行なうことが不可能である。図１７の例では、[ch1,2]の加算相手が存在しないためである。

ｃｏｎｃａｔ演算が不可能になることを回避するためには、例えば、ｃｏｎｃａｔ演算への入力となるテンソルを出力する全てのレイヤを一律に、プルーニング率の決定対象から除外することが考えられる。しかし、この場合、ＮＮに含まれるｃｏｎｃａｔ部１５４の数が増加するほど、ＮＮの機械学習モデル全体のプルーニング率が低下し、プルーニングによる機械学習モデルのデータサイズの圧縮（軽量化）効果が低減する。

そこで、一実施形態に係る算出部１４は、ゼロパディング層を、ｃｏｎｃａｔ部１５４への入力となる（ｃｏｎｃａｔ部１５４にテンソルを出力する）全てのレイヤ（以下、「ｃｏｎｃａｔ直前レイヤ」と表記する場合がある）の出力側に挿入する。

ゼロパディング層は、テンソルの所定の要素（例えばチャネル）を“0”（ゼロ）でパディングするためのレイヤである。パディングとは、テンソルにゼロ等の値を埋め込むことで、テンソルのサイズ（例えばチャネル数）を大きくする操作である。ｃｏｎｃａｔ直前レイヤは、複数の第１の層の一例であり、ゼロパディング層は、複数の第２の層の一例である。

例えば、算出部１４は、同一のｃｏｎｃａｔ部１５４にテンソルを入力する全てのｃｏｎｃａｔ直前レイヤのプルーニング後のテンソルの要素数（サイズ）、一例としてテンソルのチャネルの次元の数を、ゼロパディング層でのゼロパディングによって一致させてよい。例えば、算出部１４は、仮算出したプルーニング率に基づき、ｃｏｎｃａｔ直前レイヤのチャネル数を特定し、特定したチャネル数に応じて、ゼロパディングを行なうチャネル数を決定してよい。

図１８は、モデルへのゼロパディング層の挿入例を説明するための図である。

なお、ゼロパディング層を挿入する処理は、プルーニング対象であるＮＮにｃｏｎｃａｔ部１５４が含まれる場合に、プルーニング率候補を選択して実行されてよく、含まれない場合には当該処理の実行が抑止されてよい。例えば、算出部１４は、ＮＮにｃｏｎｃａｔ部１５４が含まれるか否かを、ＮＮの構成、例えば各レイヤ及びレイヤ間の接続関係等の構成を定義する構成情報（図示省略）を参照して判定してもよい。また、算出部１４は、構成情報に基づき、ｃｏｎｃａｔ部１５４ごとに、ｃｏｎｃａｔ直前レイヤを特定してよい。

また、図１８では、上述した（ｉ）において、算出部１４が出力データのチャネルに対応するカーネル単位でＬ１ノルムを算出（計算）し、Ｌ１正則化学習（図２参照）等によってプルーニング率を仮算出した場合を例に挙げる。図１７の例では、仮算出したプルーニング率が、レイヤ１は“33%”、レイヤ２が“66%”である場合、算出部１４は、レイヤ１の３つのチャネルのうちの１つをプルーニングし、レイヤ２の３つのチャネルのうちの２つをプルーニングする。

図１８に示すように、ゼロパディング層挿入前のモデル１６０は、ｃｏｎｃａｔ部１６１及び１６２と、複数のレイヤ１６３～１６７とを含む。ｃｏｎｃａｔ部１６１には、レイヤ１６３及び１６５からそれぞれ出力されるテンソルが入力され、ｃｏｎｃａｔ部１６２には、ｃｏｎｃａｔ部１６１及びレイヤ１６７からそれぞれ出力されるテンソルが入力される。

モデル１６０において、プルーニングにより、レイヤ１６３の出力チャネル数が“10”、レイヤ１６５の出力チャネル数が“6”となる場合、ｃｏｎｃａｔ部１６１への入力チャネル数が一致しない。また、仮にｃｏｎｃａｔ部１６１から出力チャネル数“10”のテンソルが出力される場合であっても、レイヤ１６７の出力チャネル数が“14”となる場合、ｃｏｎｃａｔ部１６２への入力チャネル数が一致しない。

そこで、算出部１４は、モデル１７０に示すように、ｃｏｎｃａｔ直前レイヤとなる、レイヤ１６３、１６５、ｃｏｎｃａｔ部１６２、レイヤ１６７のそれぞれの出力側に、ゼロパディング層１７１～１７４を挿入（配置）する。そして、算出部１４は、ｃｏｎｃａｔ部ごとに、各ｃｏｎｃａｔ部１６１及び１６２に入力されるテンソルのチャネル数が一致するように、ゼロパディングを行なう。

例えば、算出部１４は、ｃｏｎｃａｔ部１６１の全ｃｏｎｃａｔ直前レイヤの出力チャネル数が、最大値であるレイヤ１６３側の“10”で一致するように、ゼロパディング層１７２で、レイヤ１６５の出力テンソルに“4”チャネル分のゼロパディングを行なう。これにより、ｃｏｎｃａｔ部１６１は、入力チャネル数“10”のテンソルを用いて、出力チャネル数“10”のｃｏｎｃａｔ演算結果のテンソルを出力できる。

また、例えば、算出部１４は、ｃｏｎｃａｔ部１６２の全ｃｏｎｃａｔ直前レイヤの出力チャネル数が、最大値であるレイヤ１６７側の“14”で一致するように、ゼロパディング層１７３で、ｃｏｎｃａｔ部１６１の出力テンソルに“4”チャネル分のゼロパディングを行なう。これにより、ｃｏｎｃａｔ部１６２は、入力チャネル数“14”のテンソルを用いて、出力チャネル数“14”のｃｏｎｃａｔ演算結果のテンソルを出力できる。

図１９～図２４のそれぞれは、ｃｏｎｃａｔ部１５４のｃｏｎｃａｔ直前レイヤに対するゼロパディング例を説明するための図である。

図１９に例示するように、算出部１４は、ｃｏｎｃａｔ直前レイヤであるレイヤ１及び２のプルーニング後のチャネル数を比較し、チャネル数の最大値（レイヤ１の“2”）を取得する。そして、算出部１４は、最大値に満たないチャネル数“1”であるレイヤ２に対応するゼロパディング層に、足りないチャネル数（“2-1=1”）分のゼロパディングを行なう。これにより、ｃｏｎｃａｔ部１５４は、パディングによって追加されたゼロ行列を、[Ch1,2]の加算相手とすることができる。

算出部１４は、ゼロパディングを行なうチャネル数を、最大値に満たない（足りない）分のチャネル数としてよい。例えば、図２０に示すように、レイヤ１及び２のプルーニング後のチャネル数がそれぞれ“3”及び“1”である場合、算出部１４は、レイヤ２にチャネル数“2”つ分のゼロ行列を追加してよい。

このように、ｃｏｎｃａｔ直前レイヤでは、ｃｏｎｃａｔ直前レイヤの各々の削減割合に応じて要素が削減されている可能性があるため、ｃｏｎｃａｔ直前レイヤ間でテンソルの要素数（サイズ）が異なる。そこで、算出部１４は、ｃｏｎｃａｔ直前レイヤからｃｏｎｃａｔ部１５４に入力される複数のテンソルのそれぞれのサイズが、いずれも第１の数となるように、ゼロパディング層１７のそれぞれにおいて、１個以上のゼロ行列によるパディングを行なうのである。第１の数は、ｃｏｎｃａｔ直前レイヤ間のテンソルの要素数（サイズ）である。

なお、ｃｏｎｃａｔ部１５４は、ｃｏｎｃａｔ演算において、要素位置、例えばチャネルのインデックスの不一致を許容することができる。このため、算出部１４は、ゼロパディングにより、ｃｏｎｃａｔ部１５４に入力されるチャネルのインデックスの一致を考慮しなくてもよいし、インデックスを一致させてもよい。例えば、算出部１４は、インデックスの一致を考慮しない場合、及び、インデックスを一致させる場合のそれぞれにおいて、ゼロパディングによりｃｏｎｃａｔ直前レイヤ間のテンソルの要素数（サイズ）を一致させる数（第１の数）を変化させてよい。

（インデックスの一致を考慮しない場合）
図２１に例示するように、レイヤ２の[Ch2,2]がプルーニングされた場合、算出部１４は、インデックス順に、[Ch2,1]，[Ch2,3]，[zero]となるようにゼロ行列を挿入してよい。この場合、算出部１４は、レイヤ１に対して、０個のゼロ行列によるパディングを行ない、レイヤ２に対して、１個のゼロ行列によるパディングを行なうのである。なお、[zero]は、ゼロ行列を示す。ｃｏｎｃａｔ部１５４では、[Ch1,1]+[Ch2,1]、[Ch1,2]+[Ch2,3]、[Ch1,3]+[zero]のｃｏｎｃａｔ演算が行なわれる。

他の例として、図２２に示すように、レイヤ１の[Ch1,3]及びレイヤ２の[Ch2,2]がプルーニングされた場合、チャネルのインデックスは一致しないが、いずれのレイヤもチャネル数が最大値“2”となる。この場合、算出部１４は、ゼロパディングを抑制してよい。換言すれば、算出部１４は、レイヤ１及びレイヤ２のそれぞれにおいて、０個のゼロ行列によるパディングを行なうといえる。ｃｏｎｃａｔ部１５４では、[Ch1,1]+[Ch2,1]、[Ch1,2]+[Ch2,3]のｃｏｎｃａｔ演算が行なわれる。

このように、算出部１４は、インデックスの一致を考慮しない場合、第１の数として、要素削減後の複数のｃｏｎｃａｔ直前レイヤから出力される複数のテンソルのうちの、最大の要素数を用いる。最大の要素数は、図２１の例では３であり、図２２の例では２である。

また、算出部１４は、要素削減後の複数のｃｏｎｃａｔ直前レイヤのうちの、出力されるテンソルの要素数が第１の数である１以上の第１の層については、当該１以上の第１の層に対応付けられた１以上の第２の層のそれぞれにおけるゼロパディングの実行を抑制してよい。図２２の例では、算出部１４は、レイヤ１及びレイヤ２のそれぞれのチャネル数がいずれも最大値（第１の数）の“2”であるため、レイヤ１及びレイヤ２のそれぞれに対するゼロパディングを抑制する。

（インデックスを一致させる場合）
図２３に例示するように、レイヤ２の[Ch2,2]がプルーニングされた場合、算出部１４は、図２１の例とは異なり、プルーニングされた[Ch2,2]の位置にゼロ行列を挿入してもよい。この場合、算出部１４は、レイヤ１に対して、０個のゼロ行列によるパディングを行ない、レイヤ２に対して、１個のゼロ行列によるパディングを行なうのである。ｃｏｎｃａｔ部１５４では、[Ch1,1]+[Ch2,1]、[Ch1,2]+[zero]、[Ch1,3]+[Ch2,3]のｃｏｎｃａｔ演算が行なわれる。

他の例として、図２４に示すように、レイヤ１の[Ch1,1]，[Ch1,3]及びレイヤ２の[Ch2,1]，[Ch2,2]がプルーニングされた場合、算出部１４は、プルーニングされたレイヤ１の[Ch1,3]及びレイヤ２の[Ch2,2]の位置に、それぞれゼロ行列を挿入してもよい。このとき、算出部１４は、レイヤ１及びレイヤ２の全ての層で共通のインデックス（１）が削除対象となる要素（レイヤ１の[Ch1,1]及びレイヤ２の[Ch2,1]）については、ゼロパディングの対象から除外してよい。

図２４に示す例の場合、算出部１４は、レイヤ１及びレイヤ２のそれぞれにおいて、１個のゼロ行列によるパディングを行なうといえる。ｃｏｎｃａｔ部１５４では、[Ch1,2]+[zero]、[zero]+[Ch2,3]のｃｏｎｃａｔ演算が行なわれる。

このように、算出部１４は、インデックスを一致させる場合、第１の数として、複数のｃｏｎｃａｔ直前レイヤにおいて要素を削減しない場合の要素数（初期値）から、ｃｏｎｃａｔ直前レイヤにおいて削除対象となる要素のうちの、ｃｏｎｃａｔ直前レイヤ間で共通する第１のインデックスの要素の数、を減じた数を用いる。例えば、要素数（初期値）は、ｃｏｎｃａｔ直前レイヤ間で共通の数であり、図２３及び図２４の例ではいずれも３である。ｃｏｎｃａｔ直前レイヤにおいて削除対象となる要素のうちの、ｃｏｎｃａｔ直前レイヤ間で共通する第１のインデックスの要素の数は、図２３の例では０であり、図２４の例では１（インデックス１）である。従って、第１の数は、図２３の例では３であり、図２４の例では２である。

そして、算出部１４は、複数のｃｏｎｃａｔ直前レイヤのうちの少なくとも１つの第３の層で第２のインデックスが削除対象とならない場合に、複数のｃｏｎｃａｔ直前レイヤのうちの第３の層以外の第４の層の第２のインデックスにゼロ行列を挿入する。

図２３の例において、第３の層、第２のインデックス及び第４の層の組み合わせは、レイヤ１、インデックス（２）、レイヤ２である。図２４の例において、第３の層、第２のインデックス及び第４の層の組み合わせは、レイヤ１、インデックス（２）、レイヤ２の組み合わせ、並びに、レイヤ２、インデックス（３）、レイヤ１の組み合わせである。

これにより、算出部１４は、ｃｏｎｃａｔ直前レイヤの要素数を可能な範囲で削減しつつ、インデックスを揃えたテンソルをｃｏｎｃａｔ部１５４に入力することができる。

以上のように、ゼロパディング処理により、ｃｏｎｃａｔ部１５４ごとに、複数のｃｏｎｃａｔ直前レイヤから入力されるテンソルの要素数（サイズ）を同一にすることができる。従って、ｃｏｎｃａｔ直前レイヤについても、仮算出されたプルーニング率候補を用いてプルーニングすることが可能となり、ｃｏｎｃａｔ部１５４を含む機械学習モデルのデータサイズの圧縮率を向上させることができる。

なお、図１８～図２４を参照して説明した処理は、閾値算出部１４ａによる（ｉ）の処理の一部であってもよく、閾値算出部１４ａにより実行されてもよい。

また、図１８～図２４を参照して説明した処理の実行後における算出部１４の処理は、（ii）及び（iii）の処理と同様である。

上述したゼロパディング処理は、要素がチャネルである場合の実施に限定されるものではなく、要素が重みである場合、及び、要素がノードである場合、の一方又は双方の場合に実施されてもよい。

図２５は、ゼロパディング処理の適用有無に応じた、ＮＮのプルーニング前後の精度、及び、データサイズの圧縮率の一例を示す図である。なお、図２５において、ｃｏｎｃａｔ部１５４への入力レイヤをプルーニングしない場合とは、ゼロパディング処理を適用せずに、ｃｏｎｃａｔ部１５４のｃｏｎｃａｔ直前レイヤをプルーニングの対象外とした場合を意味する。

図２５に例示するように、ゼロパディング処理を適用する場合、Res32、Res56、Res110のいずれのモデルにおいても、ｃｏｎｃａｔ部１５４への入力レイヤをプルーニングしない場合と比較して、軽量化済モデル１１ｅのデータサイズの圧縮率を向上できる。また、精度を大きく劣化させることを抑制できている。

図２６は、ゼロパディング処理の適用有無に応じた、ＮＮの各レイヤの出力チャネル数の一例を示す図である。図２６では、モデルがcifar10, resnet32である場合を例に挙げる。図２６において、破線で囲ったレイヤ（太字）は、ｃｏｎｃａｔ部１５４への入力となるｃｏｎｃａｔ直前レイヤである。「pruning後（適用無し）」は、ｃｏｎｃａｔ部１５４への入力レイヤをプルーニングしない場合を示し、「pruning後（適用有り）」は、ゼロパディング処理を適用した場合を示す。

図２６に例示するように、ゼロパディング処理を適用する場合、ｃｏｎｃａｔ直前レイヤからの出力チャネル数が、ｃｏｎｃａｔ部１５４への入力レイヤをプルーニングしない場合と比較して減少している。すなわち、ゼロパディング処理の適用により、ｃｏｎｃａｔ直前レイヤが適切にプルーニングされていることがわかる。

〔１－５〕動作例
次に、図２７を参照して、一実施形態に係るサーバ１の動作例を説明する。図２７は、一実施形態に係るサーバ１による処理の動作例を説明するためのフローチャートである。

図２７に例示するように、機械学習部１３は、取得部１２が取得した未学習モデル１１ａの機械学習をプルーニングなしで実行する（ステップＳ１）。

算出部１４は、プルーニングしない場合の推論精度（認識率）Ａｃｃ_ｗｏを算出する（ステップＳ２）。

閾値算出部１４ａは、信頼半径の初期値を設定する（ステップＳ３）。

閾値算出部１４ａは、プルーニング率を設定するための、層ごとの閾値Ｔ、及び、層ごとのプルーニング誤差を算出し（ステップＳ４）、全層の閾値ＴのＬ２ノルムが信頼半径よりも大きいか否かを判定する（ステップＳ５）。全層の閾値ＴのＬ２ノルムが信頼半径以下である場合（ステップＳ５でＮＯ）、処理がステップＳ７に移行する。

全層の閾値ＴのＬ２ノルムが信頼半径よりも大きい場合（ステップＳ５でＹＥＳ）、閾値算出部１４ａは、全層の閾値ＴのＬ２ノルム＝信頼半径となるように閾値をスケール（更新）し（ステップＳ６）、処理がステップＳ７に移行する。

ステップＳ７において、閾値算出部１４ａは、層ごとのプルーニング率を仮算出する。例えば、閾値算出部１４ａは、層ごとに、設定されたプルーニング率候補からプルーニング率を仮設定する。

算出部１４は、プルーニング率を仮算出した層にｃｏｎｃａｔ直前レイヤが含まれるか否かを判定する（ステップＳ８）。プルーニング率を仮算出した層にｃｏｎｃａｔ直前レイヤが含まれない場合（ステップＳ８でＮＯ）、処理がステップＳ１１に移行する。

プルーニング率を仮算出した層にｃｏｎｃａｔ直前レイヤが含まれる場合（ステップＳ８でＹＥＳ）、算出部１４は、ｃｏｎｃａｔ直前レイヤの出力にゼロパディング層を挿入し（ステップＳ９）、ステップＳ１０の処理を実行して、処理がステップＳ１１に移行する。

ステップＳ１０では、算出部１４は、ｃｏｎｃａｔ部１５４ごとに、同一のｃｏｎｃａｔ部１５４にテンソルを入力する複数のｃｏｎｃａｔ直前レイヤを、構成情報等に基づき特定する。そして、算出部１４は、ｃｏｎｃａｔ直前レイヤから出力される要素数（例えばチャネル数）が一致するように、ゼロパディング層にゼロパディングを行なう。なお、ステップＳ４～Ｓ１０は、上記（ｉ）の処理の一例である。

機械学習部１３は、閾値算出部１４ａが仮算出したプルーニング率で機械学習済モデル１１ｃをプルーニングし、プルーニング後のモデルの再機械学習を実行する。算出部１４は、再機械学習後のモデルの推論精度Ａｃｃ_ｐを算出する（ステップＳ１１）。

決定部１４ｂは、推論精度Ａｃｃ_ｐ＋マージンＡｃｃ_ｍが推論精度Ａｃｃ_ｗｏ以上か否かを判定する（ステップＳ１２）。推論精度（認識率）の評価により、近似誤差によるプルーニング率選択の誤りを補償することできる。

推論精度Ａｃｃ_ｐ＋マージンＡｃｃ_ｍが推論精度Ａｃｃ_ｗｏ以上である場合（ステップＳ１２でＹＥＳ）、決定部１４ｂは、仮算出したプルーニング率で機械学習済モデル１１ｃをプルーニングすると決定し（ステップＳ１３）、仮算出したプルーニング率をプルーニング率１１ｄとしてメモリ部１１に格納する。また、閾値算出部１４ａは、信頼半径を定数倍して増加させ（ステップＳ１４）、処理がステップＳ１７に移行する。

一方、推論精度Ａｃｃ_ｐ＋マージンＡｃｃ_ｍが推論精度Ａｃｃ_ｗｏ未満である場合（ステップＳ１２でＮＯ）、決定部１４ｂは、仮算出したプルーニング率を破棄する（ステップＳ１５）。閾値算出部１４ａは、信頼半径を定数倍して減少させ（ステップＳ１６）、処理がステップＳ１７に移行する。なお、ステップＳ１０～Ｓ１６は、上記（ii）の処理の一例である。

ステップＳ１７において、決定部１４ｂは、所定回数に亘って探索（ステップＳ４～Ｓ１６の処理）を行なったか否か、換言すれば、閾値算出、プルーニング率候補選択及びプルーニング率決定の処理の実施回数が所定の条件を満たすか否かを判定する。所定回数に亘って探索を行なっていない場合（ステップＳ１７でＮＯ）、処理がステップＳ４に移行する。

所定回数に亘って探索を行なった場合（ステップＳ１７でＹＥＳ）、出力部１５は、決定したプルーニング率１１ｄを出力し（ステップＳ１８）、処理が終了する。なお、ステップＳ１７は、上記（iii）の処理の一例である。

以上のように、一実施形態に係るサーバ１は、閾値算出部１４ａにより、ＮＮに使用されるテンソルの、プルーニングより発生する誤差を算出し、損失関数の値と、ＮＮの逆伝播により得られる勾配とから、閾値を生成する。また、閾値算出部１４ａが、算出されたプルーニングの誤差と閾値とを比較し、プルーニング率を仮算出する。さらに、決定部１４ｂが、算出されたプルーニング率で再学習した後のモデルの推論精度と、プルーニングしない場合のモデルの推論精度とを比較し、レイヤごとにプルーニング率を決定する。このとき、閾値算出部１４ａは、プルーニングした場合の推論精度がプルーニングしない場合の推論精度よりも劣化したと判定された場合、閾値が小さくなるように閾値の上限を再設定し、再度プルーニング率の探索を行なう。

これにより、一実施形態に係るサーバ１によれば、層の種類に依らず、各層のプルーニング率を決定することができる。例えば、サーバ１は、ＢＮ層が接続されていない畳込み層、全結合層等を含む機械学習済モデル１１ｃに適用するプルーニング率を層ごとに決定することができる。

また、サーバ１によれば、ＮＮにｃｏｎｃａｔ部１５４が含まれる場合でも、ｃｏｎｃａｔ直前レイヤを適切にプルーニングでき、軽量化済モデル１１ｅのデータサイズの圧縮率を向上できる。

〔１－６〕変形例
次に、一実施形態に係る変形例を説明する。なお、以下の説明では、簡単のため、推論精度のマージンＡｃｃ_ｍが“0”である場合、換言すれば、推論精度の比較において、推論精度Ａｃｃ_ｐが推論精度Ａｃｃ_ｗｏ以上か否かが判定される場合を想定する。また、以下の説明では、ＮＮがｃｏｎｃａｔ部を含まない場合を例に挙げるが、図１６～図２６を参照して説明した処理は、以下の第１及び第２変形例のいずれにおいても同様に適用可能である。

〔１－６－１〕第１変形例
一実施形態に係る手法では、プルーニング率の探索回数（上記（iii）の処理の試行回数）が、例えば設計者により手動で（マニュアルで）設定されるハイパーパラメータである。このため、例えば、探索回数が少なく設定された場合、機械学習済モデル１１ｃが十分に軽量化されない可能性があり、探索回数が多く設定された場合、機械学習済モデル１１ｃは十分に軽量化されるものの、探索時間が長くなる可能性がある。

図２８は、一実施形態に係る手法における信頼半径の更新に応じたプルーニング誤差比較結果の一例を示す図である。

図２８に例示するように、ｍ（ｍは“1”以上の整数）回目の探索の誤差比較結果において、プルーニング率“10%”が算出（決定）された場合を想定する。この場合、信頼半径は、定数Ｋ倍により増加するように更新される。しかし、更新後の信頼半径が、ｍ回目で決定されたプルーニング率候補よりも１つ大きいプルーニング率候補による誤差未満である場合、ｍ＋１回目の探索の誤差比較結果においても、再びプルーニング率“10%”が算出される。

このように、信頼半径を定数Ｋ又は定数ｋ倍する場合、信頼半径によって閾値の更新量が制限されるため、複数の探索において同じプルーニング率候補が採用される場合がある。同じプルーニング率の組み合わせが複数回に亘って探索される状態は、モデルのプルーニングが十分に試行されないままプルーニング率の探索回数が増加することに繋がる。

そこで、第１変形例では、信頼半径の更新に着目し、ＮＮを軽量化するための適切なプルーニング率の探索時間（探索回数）を短縮（減少）させる手法を説明する。

図２９は、第１変形例に係るサーバ１Ａの機能構成例を示すブロック図である。図２９に例示するように、サーバ１Ａは、図４のサーバ１とは異なる算出部１４Ａを備えてよい。算出部１４Ａは、図４の算出部１４とは異なる閾値算出部１４ａ’及び決定部１４ｂ’を備えてよい。

算出部１４Ａは、探索ごとに、異なるプルーニング率の組み合わせを探索する。ここで、全てのレイヤのプルーニング率“0%”の組み合わせが選択された状態は、算出部１４Ａがこれ以上プルーニング率の探索を行なわないと判断した状態であるものとする。このような前提において、算出部１４Ａ（決定部１４ｂ’）は、全てのレイヤのプルーニング率が“0%”の組み合わせを選択した場合に、探索を打ち切る。

閾値算出部１４ａ’は、決定部１４ｂ’による推論精度の比較結果に応じて、レイヤｉ（ｉは１以上の整数）ごとに、探索したプルーニング率よりも１つ大きな値のプルーニング率の誤差又は探索したプルーニング率の誤差と、閾値との差分の絶対値“E_diff,i”を測定する。

例えば、閾値算出部１４ａ’は、推論精度Ａｃｃ_ｐが推論精度Ａｃｃ_ｗｏ以上である場合には、探索したプルーニング率よりも１つ大きな値のプルーニング率の誤差と、閾値との差分の絶対値“E_diff,i”を測定する。

一方、閾値算出部１４ａ’は、推論精度Ａｃｃ_ｐが推論精度Ａｃｃ_ｗｏ未満である場合、探索したプルーニング率の誤差と、閾値との差分の絶対値“E_diff,i”を測定する。

閾値算出部１４ａ’は、下記式（７）に例示するように、算出した全レイヤの差分の絶対値“E_diff,i”のうちの、最も小さな値（差分）“E_diff”を取得する。
E_diff= min(E_diff,1, E_diff,2, ..., E_diff,i) （７）

閾値算出部１４ａ’は、決定部１４ｂ’による推論精度の比較結果に応じて、信頼半径の定数倍、並びに、信頼半径と差分“E_diff”との和又は差、のうちの変動量が大きい方を採用して、信頼半径を更新する。

例えば、閾値算出部１４ａ’は、推論精度Ａｃｃ_ｐが推論精度Ａｃｃ_ｗｏ以上である場合には、信頼半径の定数Ｋ倍、並びに、信頼半径と差分“E_diff”との和、のうちの変動量が大きい方を採用して、信頼半径が増加するように更新する。

一方、閾値算出部１４ａ’は、推論精度Ａｃｃ_ｐが推論精度Ａｃｃ_ｗｏ未満である場合には、信頼半径の定数ｋ倍、並びに、信頼半径と差分“E_diff”との差、のうちの変動量が大きい方を採用して、信頼半径が減少するように更新する。

このように、閾値算出部１４ａ’は、複数の層のそれぞれのプルーニング率候補の組み合わせが、プルーニング率候補を選択する処理（換言すれば探索）の実行ごとに互いに異なる組み合わせとなるように、信頼半径を更新する。

図３０は、信頼半径を増加させる場合の信頼半径更新処理の一例を説明する図である。図３０に示すように、ｍ回目に探索されたプルーニング率が“(レイヤ1，レイヤ2)=(10%,0%)”である場合を想定する。閾値算出部１４ａ’は、レイヤ１のプルーニング率“20%”の誤差と信頼半径との差分の絶対値“E_diff,1”、及び、レイヤ２のプルーニング率“10%”の誤差と信頼半径との差分の絶対値“E_diff,2”を算出する。閾値算出部１４ａ’は、上記式（７）に従い、値の小さい差分“E_diff,2”を“E_diff”として取得する。

そして、閾値算出部１４ａ’は、ｍ＋１回目（次回）の信頼半径を、下記式（８）に従い決定（更新）する。
(m+1回目の信頼半径)
= max((m回目の信頼半径・定数K), (m回目の信頼半径 + E_diff)) （８）

これにより、ｍ＋１回目の信頼半径には、少なくとも「信頼半径と差分との和」以上の値が選択されるため、ｍ＋１回目では、プルーニング率としてｍ回目とは異なるビット幅が算出される。

図３０の例では、ｍ＋１回目の探索における信頼半径（閾値の上限）は、レイヤ２のプルーニング率“10%”の誤差と一致する。従って、ｍ＋１回目の探索では、前回と異なるプルーニング率の組み合わせである、プルーニング率“(レイヤ1，レイヤ2)=(10%,10%)”が探索される。

図３１は、信頼半径を減少させる場合の信頼半径更新処理の一例を説明する図である。図３１に示すように、ｍ回目に探索されたプルーニング率が“(レイヤ1，レイヤ2)=(10%,0%)”である場合を想定する。閾値算出部１４ａ’は、レイヤ１のプルーニング率“10%”の誤差と信頼半径との差分の絶対値“E_diff,1”、及び、レイヤ２のプルーニング率“0%”の誤差と信頼半径との差分の絶対値“E_diff,2”を算出する。閾値算出部１４ａ’は、上記式（７）に従い、値の小さい差分“E_diff,1”を“E_diff”として取得する。

そして、閾値算出部１４ａ’は、ｍ＋１回目（次回）の信頼半径を、下記式（９）に従い決定（更新）する。
(ｍ＋１回目の信頼半径)
= max((ｍ回目の信頼半径・定数), (ｍ回目の信頼半径 - E_diff)) （９）

これにより、ｍ＋１回目の信頼半径には、少なくとも「信頼半径と差分との差」以上の値が選択されるため、ｍ＋１回目では、プルーニング率としてｍ回目とは異なるビット幅が算出される。

図３１の例では、ｍ＋１回目の探索における信頼半径（閾値の上限）は、レイヤ１のプルーニング率“0%”の誤差と一致する。従って、ｍ＋１回目の探索では、前回と異なるプルーニング率の組み合わせである、プルーニング率“(レイヤ1，レイヤ2)=(0%,0%)”が探索される。

上記式（８）及び（９）を一般化すると、次回の信頼半径は、下記式（１０）により表現できる。
次回の信頼半径 = 今回の信頼半径 * max(定数, Qscale_min) （１０）

ここで、上記式（１０）において、定数はＫ又はｋであり、“Qscale_min”は、下記式（１１）で表される“Qscale”であり、“Qscale”は、下記式（１２）で表される。
Qscale_min = min(全ての量子化対象ベクトルで計算されたQscale) （１１）
Qscale = 1 + Qdiff / Qth （１２）

上記式（１２）において、“Qdiff”は、“仮算出されたビット幅（プルーニング率）よりも１つ狭いビット幅の量子化誤差と閾値との差分”であり、“Qth”は、閾値である。

次に、図３２を参照して、第１変形例に係るサーバ１Ａの動作例を説明する。図３２は、第１変形例に係るサーバ１Ａによる処理の動作例を説明するためのフローチャートである。図３２は、図２７に示すサーバ１に係るフローチャートにおけるステップＳ１４、Ｓ１６、Ｓ１７を、ステップＳ２１、Ｓ２２、Ｓ２３にそれぞれ置き換えたものである。なお、第１変形例においても、閾値算出部１４ａ’は、ステップＳ３において、信頼半径の初期値を設定する。

ステップＳ２１では、閾値算出部１４ａ’は、信頼半径を定数Ｋ倍、又は、「差分の和」のうちの大きい方で増加させ、処理がステップＳ２３に移行する。

ステップＳ２２では、閾値算出部１４ａ’は、信頼半径を定数ｋ倍、又は、「差分の差」のうちの大きい方で減少させ、処理がステップＳ２３に移行する。

ステップＳ２３では、決定部１４ｂ’は、全層のプルーニング率１１ｄが“0%”であるか否か、換言すれば、プルーニング率が所定の条件を満たすか否かを判定する。少なくとも１つの層のプルーニング率１１ｄが“0%”ではない場合（ステップＳ２３でＮＯ）、処理がステップＳ４に移行する。

全層のプルーニング率１１ｄが“0%”である場合（ステップＳ２３でＹＥＳ）、出力部１５は、決定したプルーニング率１１ｄを出力し（ステップＳ１８）、処理が終了する。

以上のように、第１変形例では、閾値算出部１４ａ’による信頼半径の更新手法、及び、決定部１４ｂ’による探索の終了判定の終了条件を、一実施形態とは異なるものとする。これにより、サーバ１Ａは、ＮＮを十分に軽量化するための適切なプルーニング率を、最短時間（最短回数）で探索することができる。また、設計者等による探索回数の設定（指定）を省略できる。

〔１－６－２〕第２変形例
一実施形態及び第１変形例に係る手法では、信頼半径の初期値が設計者等により設定されるハイパーパラメータである。

信頼半径の初期値が大きく設定される場合と小さく設定される場合とでは、同じ探索回数であってもモデルサイズが異なる場合がある。また、信頼半径の初期値が大きく設定される場合、信頼半径の初期値が小さく設定される場合と比較して、モデルサイズが十分に軽量化されるまでの探索回数が多くなる場合がある。

このように、信頼半径の初期値に応じて、最終的なモデルサイズ及びプルーニング率の探索回数が変動する、換言すれば、サーバ１及び１Ａの性能にばらつきが生じる可能性がある。

そこで、第２変形例では、サーバ１及び１Ａの性能のばらつきを抑える手法を説明する。

図３３は、第２変形例に係るサーバ１Ｂの機能構成例を示すブロック図である。図３３に例示するように、サーバ１Ｂは、図４のサーバ１とは異なる算出部１４Ｂを備えてよい。算出部１４Ｂは、図４の算出部１４とは異なる閾値算出部１４ａ”及び決定部１４ｂ”を備えてよい。

モデルのプルーニングでは、小さなプルーニング率を用いて徐々にモデルをプルーニングすることで、大きなプルーニング率で一気にプルーニングするよりも、精度を維持でき、且つ、高い圧縮率でモデルを圧縮できることが知られている。

また、上記式（５）に示すように、閾値Ｔは勾配の逆数に応じて設定されるため、閾値Ｔが大きい層は、勾配が小さい層であることを意味する。勾配が小さい層は、プルーニングしても精度への影響が小さい層であることを意味する。

そこで、サーバ１Ｂ（閾値算出部１４ａ”）は、例えば、信頼半径の初期値を、初回の探索でのプルーニング率が最も小さくなるような値に設定する。このために、閾値算出部１４ａ”は、例えば、信頼半径の初期値を、全層のうちの、閾値Ｔが最も大きい層がプルーニングされ、残りの層がプルーニングされない（プルーニング率“0%”となる）ような値に設定してよい。

サーバ１Ｂは、上述のように信頼半径の初期値を設定することで、信頼半径の初期値をマニュアルで例えば大きく設定した場合よりも、モデルサイズをより圧縮でき、又は、精度を維持することができる。

図３４は、信頼半径の初期値の設定例を説明する図である。なお、図３４の上段に示すように、信頼半径の初期値が設定されない場合、探索されるプルーニング率の組み合わせは、“(レイヤ1，レイヤ2)=(10%,20%)”である。

図３４に例示するように、閾値算出部１４ａ”は、プルーニング率の初回の探索において、全層のうち、最も閾値が大きな層の閾値（max(Th)）と、その層の最も小さな（“0%”を除く）プルーニング率による誤差（Error）とを測定する。

Ｔｈは、各層の閾値Ｔ_１、Ｔ_２、・・・によるベクトルを示し、図３４の例ではＴｈ＝［Ｔ_１、Ｔ_２］である。閾値（max(Th)）は、閾値が最も大きな層の閾値であり、図３４の例では、Ｔ_２である。誤差（Error）は、閾値が最も大きな層の最小プルーニング率の誤差であり、図３４の例では、レイヤ２のプルーニング率“10%”の誤差を測定する。

次いで、閾値算出部１４ａ”は、測定した閾値及び誤差を用いて、下記式（１３）に従い、信頼半径の初期値を設定する。下記式（１３）において、“||Th||₂”は、全層の閾値のＬ２ノルムである。

閾値算出部１４ａ”は、算出した信頼半径の初期値により、閾値が最も大きい層（レイヤ２）のプルーニング率として最小のプルーニング率“10%”が選択され、残りの層（レイヤ１）ではプルーニング率“0%”が選択されるように、閾値Ｔ_１、Ｔ_２を設定する。

これにより、図３４の下段に示すように、信頼半径の初期値が設定され、閾値Ｔ_１、Ｔ_２が設定されると、探索されるプルーニング率の組み合わせは、“(レイヤ1，レイヤ2)=(0%,10%)”となる。プルーニング対象の層（レイヤ２）は、閾値が最も大きい、換言すれば、勾配が最も小さい層であるため、プルーニングによる精度への影響を小さく抑えることができる。

なお、閾値算出部１４ａ”の信頼半径の初期値の設定処理以外の機能は、一実施形態に係る閾値算出部１４ａ、及び、第１変形例に係る閾値算出部１４ａ’の一方又は双方と同様であってよい。また、決定部１４ｂ”は、一実施形態に係る決定部１４ｂ、及び、第１変形例に係る決定部１４ｂ’の一方又は双方と同様であってよい。

すなわち、第２変形例に係る手法は、一実施形態及び第１変形例の一方又は双方との組み合わせにより実現されてよい。

次に、図３５を参照して、第２変形例に係るサーバ１Ｂの動作例を説明する。図３５は、第２変形例に係るサーバ１Ｂによる処理の動作例を説明するためのフローチャートである。図３５は、図２７に示すサーバ１に係るフローチャートにおけるステップＳ３を削除し、ステップＳ４とステップＳ５との間にステップＳ３１及びＳ３２を追加し、ステップＳ１４、Ｓ１６、Ｓ１７をステップＳ３３、Ｓ３４、Ｓ３５にそれぞれ置き換えたものである。

ステップＳ３１では、閾値算出部１４ａ”は、ステップＳ４で層ごとの閾値を算出後、初回の探索か否かを判定する。初回の探索ではない場合（ステップＳ３１でＮＯ）、処理がステップＳ５に移行する。

初回の探索である場合（ステップＳ３１でＹＥＳ）、閾値算出部１４ａ”は、閾値が最大の層の、閾値、及び、最小プルーニング率誤差に基づき、信頼半径の初期値を設定し（ステップＳ３２）、処理がステップＳ５に移行する。

ステップＳ３３、Ｓ３４、Ｓ３５は、それぞれ、図２７に示すステップＳ１４、Ｓ１６、Ｓ１７と、図３２に示すステップＳ２１、Ｓ２２、Ｓ２３と、のうちのいずれであってもよい。

以上のように、第２変形例では、閾値算出部１４ａ”による信頼半径の初期値の設定手法を、一実施形態及び第１変形例とは異なるものとする。これにより、サーバ１Ｂは、最終的なモデルサイズ及びプルーニング率の探索回数の変動を抑制でき、サーバ１及び１Ａの性能のばらつきを抑えることができる。

また、サーバ１Ｂは、設計者等による手動での信頼半径の初期値（ハイパーパラメータ）の設定を抑止し、機械学習済モデル１１ｃのレイヤに応じて動的に、信頼半径の初期値を設定することができる。従って、モデルごとに適切なプルーニング率を設定することができ、モデルに依らず、最終的なモデルサイズ及びプルーニング率の探索回数の変動を抑制できるため、サーバ１及び１Ａの性能のばらつきを抑えることができる。

〔１－７〕ハードウェア構成例
一実施形態並びに第１及び第２変形例に係るサーバ１、１Ａ及び１Ｂは、それぞれ、仮想マシン（ＶＭ；Virtual Machine）であってもよいし、物理マシンであってもよい。また、サーバ１、１Ａ及び１Ｂのそれぞれの機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、サーバ１、１Ａ及び１Ｂのそれぞれの機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷ（Hardware）リソース及びＮＷ（Network）リソースを用いて実現されてもよい。

図３６は、コンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。以下、サーバ１、１Ａ及び１Ｂのそれぞれの機能を実現するハードウェア（ＨＷ）として、コンピュータ１０を例に挙げて説明する。なお、サーバ１、１Ａ及び１Ｂのそれぞれの機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図３６に例示するＨＷ構成を備えてよい。

図３６に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、メモリ１０ｂ、記憶部１０ｃ、ＩＦ（Interface）部１０ｄ、ＩＯ（Input / Output）部１０ｅ、及び読取部１０ｆを備えてよい。

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｉで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；Integrated Circuit）が挙げられる。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphics Processing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

なお、プロセッサ１０ａとして、上述した集積回路の２以上の組み合わせが用いられてもよい。一例として、コンピュータ１０は、第１及び第２のプロセッサ１０ａを備えてもよい。第１のプロセッサ１０ａは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｇ（機械学習プログラム）を実行するＣＰＵの一例である。第１のプロセッサ１０ａは、例えば、プログラム１０ｇに基づき、サーバ１、１Ａ又は１Ｂ（図４、図２９又は図３３参照）の取得部１２、算出部１４、１４Ａ又は１４Ｂ、並びに、出力部１５の機能を実現してもよい。第２のプロセッサ１０ａは、行列演算等のＮＮの計算に用いられる演算処理を実行するアクセラレータの一例であり、例えば、サーバ１、１Ａ又は１Ｂ（図４、図２９又は図３３参照）の機械学習部１３の機能を実現してもよい。

メモリ１０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｂとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

記憶部１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

また、記憶部１０ｃは、プログラム１０ｇを格納してよい。例えば、サーバ１、１Ａ及び１Ｂのプロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、サーバ１、１Ａ及び１Ｂの制御部１６（図４、図２９又は図３３参照）としての機能を実現できる。

また、図４、図２９又は図３３に例示するメモリ部１１は、メモリ１０ｂ及び記憶部１０ｃの少なくとも１つが有する記憶領域により実現されてよい。

ＩＦ部１０ｄは、ネットワークとの間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｄは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、サーバ１、１Ａ及び１Ｂは、ＩＦ部１０ｄを介して、図示しないコンピュータと相互に通信可能に接続されてよい。図４、図２９又は図３３に例示する取得部１２及び出力部１５の一方又は双方の機能は、ＩＦ部１０ｄにより実現されてもよい。また、例えば、プログラム１０ｇは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｃに格納されてもよい。

ＩＯ部１０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。例えば、図４、図２９又は図３３に例示する出力部１５は、ＩＯ部１０ｅの出力装置にプルーニング率１１ｄを出力し表示させてもよい。

読取部１０ｆは、記録媒体１０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｆは、記録媒体１０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｈにはプログラム１０ｇが格納されてもよく、読取部１０ｆが記録媒体１０ｈからプログラム１０ｇを読み出して記憶部１０ｃに格納してもよい。

記録媒体１０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、サーバ１、１Ａ及び１Ｂにおいて、ＩＯ部１０ｅ及び読取部１０ｆの少なくとも一方は、省略されてもよい。

〔２〕その他
上述した実施形態並びに第１及び第２変形例に係る技術は、以下のように変形、変更して実施することができる。

例えば、図４、図２９又は図３３に示すサーバ１、１Ａ又は１Ｂが備える取得部１２、機械学習部１３、算出部１４、１４Ａ又は１４Ｂ、並びに、出力部１５は、併合してもよく、それぞれ分割してもよい。

また、例えば、図４、図２９又は図３３に示すサーバ１、１Ａ又は１Ｂは、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。一例として、サーバ１、１Ａ又は１Ｂにおいて、取得部１２及び出力部１５はＷｅｂサーバ及びアプリケーションサーバ、機械学習部１３及び算出部１４、１４Ａ又は１４Ｂはアプリケーションサーバ、メモリ部１１はＤＢサーバ、等であってもよい。この場合、Ｗｅｂサーバ、アプリケーションサーバ及びＤＢサーバが、ネットワークを介して互いに連携することにより、サーバ１、１Ａ又は１Ｂとしての処理機能を実現してもよい。

さらに、例えば、図１６～図２６を参照して説明した、ｃｏｎｃａｔ部１５４を含むＮＮに対するゼロパディング処理を適用する手法は、図４、図２９又は図３３に示すサーバ１、１Ａ又は１Ｂによるプルーニング処理への適用に限定されるものではない。例えば、ゼロパディング処理を適用する手法は、ＮＮのレイヤごとにプルーニング率を決定する種々の手法に適用されてもよい。

〔３〕付記
以上の実施形態並びに第１及び第２変形例に関し、さらに以下の付記を開示する。

（付記１）
複数の層を含むニューラルネットワークの機械学習済モデルにおける、前記複数の層の各々の要素の削減割合を取得し、
前記ニューラルネットワークが、入力される複数のテンソルに対する所定の演算結果のテンソルを出力する演算処理を含む場合であって、前記演算処理に、前記演算処理の前段層からのテンソルと、前記前段層よりも前の層であって前記演算処理にショートカット結合される１以上の前記層からの１以上のテンソルとが入力される場合、前記前段層及び前記１以上の層である複数の第１の層の各々と前記演算処理との間に、ゼロパディング処理を行なう第２の層をそれぞれ挿入し、
前記複数の第１の層の各々の削減割合に応じた要素削減後の前記複数の第１の層から前記演算処理に入力される複数のテンソルのそれぞれの要素数が、いずれも第１の数となるように、前記複数の第１の層に対応付けられた複数の前記第２の層のそれぞれにおいて１個以上のゼロ行列によるパディングを行なう、
処理をコンピュータに実行させる、機械学習プログラム。

（付記２）
前記第１の数は、前記要素削減後の前記複数の第１の層から出力される前記複数のテンソルのうちの、最大の要素数である、
付記１に記載の機械学習プログラム。

（付記３）
前記要素削減後の前記複数の第１の層のうちの、出力されるテンソルの要素数が前記第１の数である１以上の第１の層については、前記１以上の第１の層に対応付けられた１以上の第２の層のそれぞれにおける、前記パディングを行なう処理の実行を抑制する、
処理を前記コンピュータに実行させる、付記２に記載の機械学習プログラム。

（付記４）
前記第１の数は、前記複数の第１の層において要素を削減しない場合の要素数から、前記複数の第１の層において削除対象となる要素のうちの前記複数の第１の層の間で共通する第１のインデックスの要素の数、を減じた数であり、
前記パディングを行なう処理は、前記複数の第１の層のうちの少なくとも１つの第３の層で第２のインデックスの要素が削除対象とならない場合に、前記複数の第１の層のうちの前記第３の層以外の第４の層の前記第２のインデックスにゼロ行列を挿入する、処理を含む、
付記１に記載の機械学習プログラム。

（付記５）
前記演算処理は、concatenate演算であり、
前記複数の第１の層は、前記concatenate演算の直前の複数の層であり、
前記複数の第２の層は、ゼロパディング層である、
付記１～付記４のいずれか１項に記載の機械学習プログラム。

（付記６）
前記要素は、チャネル、重み、又は、ノードである、
付記１～付記５のいずれか１項に記載の機械学習プログラム。

（付記７）
複数の層を含むニューラルネットワークの機械学習済モデルにおける、前記複数の層の各々の要素の削減割合を取得し、
前記ニューラルネットワークが、入力される複数のテンソルに対する所定の演算結果のテンソルを出力する演算処理を含む場合であって、前記演算処理に、前記演算処理の前段層からのテンソルと、前記前段層よりも前の層であって前記演算処理にショートカット結合される１以上の前記層からの１以上のテンソルとが入力される場合、前記前段層及び前記１以上の層である複数の第１の層の各々と前記演算処理との間に、ゼロパディング処理を行なう第２の層をそれぞれ挿入し、
前記複数の第１の層の各々の削減割合に応じた要素削減後の前記複数の第１の層から前記演算処理に入力される複数のテンソルのそれぞれの要素数が、いずれも第１の数となるように、前記複数の第１の層に対応付けられた複数の前記第２の層のそれぞれにおいて１個以上のゼロ行列によるパディングを行なう、
処理をコンピュータが実行する、機械学習方法。

（付記８）
前記第１の数は、前記要素削減後の前記複数の第１の層から出力される前記複数のテンソルのうちの、最大の要素数である、
付記７に記載の機械学習方法。

（付記９）
前記要素削減後の前記複数の第１の層のうちの、出力されるテンソルの要素数が前記第１の数である１以上の第１の層については、前記１以上の第１の層に対応付けられた１以上の第２の層のそれぞれにおける、前記パディングを行なう処理の実行を抑制する、
処理を前記コンピュータが実行する、付記８に記載の機械学習方法。

（付記１０）
前記第１の数は、前記複数の第１の層において要素を削減しない場合の要素数から、前記複数の第１の層において削除対象となる要素のうちの前記複数の第１の層の間で共通する第１のインデックスの要素の数、を減じた数であり、
前記パディングを行なう処理は、前記複数の第１の層のうちの少なくとも１つの第３の層で第２のインデックスの要素が削除対象とならない場合に、前記複数の第１の層のうちの前記第３の層以外の第４の層の前記第２のインデックスにゼロ行列を挿入する、処理を含む、
付記７に記載の機械学習方法。

（付記１１）
前記演算処理は、concatenate演算であり、
前記複数の第１の層は、前記concatenate演算の直前の複数の層であり、
前記複数の第２の層は、ゼロパディング層である、
付記７～付記１０のいずれか１項に記載の機械学習方法。

（付記１２）
前記要素は、チャネル、重み、又は、ノードである、
付記７～付記１１のいずれか１項に記載の機械学習方法。

（付記１３）
複数の層を含むニューラルネットワークの機械学習済モデルにおける、前記複数の層の各々の要素の削減割合を取得し、
前記ニューラルネットワークが、入力される複数のテンソルに対する所定の演算結果のテンソルを出力する演算処理を含む場合であって、前記演算処理に、前記演算処理の前段層からのテンソルと、前記前段層よりも前の層であって前記演算処理にショートカット結合される１以上の前記層からの１以上のテンソルとが入力される場合、前記前段層及び前記１以上の層である複数の第１の層の各々と前記演算処理との間に、ゼロパディング処理を行なう第２の層をそれぞれ挿入し、
前記複数の第１の層の各々の削減割合に応じた要素削減後の前記複数の第１の層から前記演算処理に入力される複数のテンソルのそれぞれの要素数が、いずれも第１の数となるように、前記複数の第１の層に対応付けられた複数の前記第２の層のそれぞれにおいて１個以上のゼロ行列によるパディングを行なう、
制御部を備える、情報処理装置。

（付記１４）
前記第１の数は、前記要素削減後の前記複数の第１の層から出力される前記複数のテンソルのうちの、最大の要素数である、
付記１３に記載の情報処理装置。

（付記１５）
前記制御部は、前記要素削減後の前記複数の第１の層のうちの、出力されるテンソルの要素数が前記第１の数である１以上の第１の層については、前記１以上の第１の層に対応付けられた１以上の第２の層のそれぞれにおける、前記パディングを行なう処理の実行を抑制する、
付記１４に記載の情報処理装置。

（付記１６）
前記第１の数は、前記複数の第１の層において要素を削減しない場合の要素数から、前記複数の第１の層において削除対象となる要素のうちの前記複数の第１の層の間で共通する第１のインデックスの要素の数、を減じた数であり、
前記制御部は、前記パディングを行なう処理において、前記複数の第１の層のうちの少なくとも１つの第３の層で第２のインデックスの要素が削除対象とならない場合に、前記複数の第１の層のうちの前記第３の層以外の第４の層の前記第２のインデックスにゼロ行列を挿入する、
付記１３に記載の情報処理装置。

（付記１７）
前記演算処理は、concatenate演算であり、
前記複数の第１の層は、前記concatenate演算の直前の複数の層であり、
前記複数の第２の層は、ゼロパディング層である、
付記１３～付記１６のいずれか１項に記載の情報処理装置。

（付記１８）
前記要素は、チャネル、重み、又は、ノードである、
付記１３～付記１７のいずれか１項に記載の情報処理装置。

１、１Ａ、１Ｂサーバ
１０コンピュータ
１１メモリ部
１１ａ未学習モデル
１１ｂ機械学習用データ
１１ｃ機械学習済モデル
１１ｄプルーニング率
１１ｅ軽量化済モデル
１２取得部
１３機械学習部
１４、１４Ａ、１４Ｂプルーニング率算出部（算出部）
１４ａ、１４ａ’、１４ａ” 閾値算出部
１４ｂ、１４ｂ’、１４ｂ” 決定部
１５出力部
１６制御部

Claims

複数の層を含むニューラルネットワークの機械学習済モデルにおける、前記複数の層の各々の要素の削減割合を取得し、
前記ニューラルネットワークが、入力される複数のテンソルに対する所定の演算結果のテンソルを出力する演算処理を含む場合であって、前記演算処理に、前記演算処理の前段層からのテンソルと、前記前段層よりも前の層であって前記演算処理にショートカット結合される１以上の前記層からの１以上のテンソルとが入力される場合、前記前段層及び前記１以上の層である複数の第１の層の各々と前記演算処理との間に、ゼロパディング処理を行なう第２の層をそれぞれ挿入し、
前記複数の第１の層の各々の削減割合に応じた要素削減後の前記複数の第１の層から前記演算処理に入力される複数のテンソルのそれぞれの要素数が、いずれも第１の数となるように、前記複数の第１の層に対応付けられた複数の前記第２の層のそれぞれにおいて１個以上のゼロ行列によるパディングを行なう、
処理をコンピュータに実行させる、機械学習プログラム。
前記第１の数は、前記要素削減後の前記複数の第１の層から出力される前記複数のテンソルのうちの、最大の要素数である、
請求項１に記載の機械学習プログラム。
前記要素削減後の前記複数の第１の層のうちの、出力されるテンソルの要素数が前記第１の数である１以上の第１の層については、前記１以上の第１の層に対応付けられた１以上の第２の層のそれぞれにおける、前記パディングを行なう処理の実行を抑制する、
処理を前記コンピュータに実行させる、請求項２に記載の機械学習プログラム。
前記第１の数は、前記複数の第１の層において要素を削減しない場合の要素数から、前記複数の第１の層において削除対象となる要素のうちの前記複数の第１の層の間で共通する第１のインデックスの要素の数、を減じた数であり、
前記パディングを行なう処理は、前記複数の第１の層のうちの少なくとも１つの第３の層で第２のインデックスの要素が削除対象とならない場合に、前記複数の第１の層のうちの前記第３の層以外の第４の層の前記第２のインデックスにゼロ行列を挿入する、処理を含む、
請求項１に記載の機械学習プログラム。
前記演算処理は、concatenate演算であり、
前記複数の第１の層は、前記concatenate演算の直前の複数の層であり、
前記複数の第２の層は、ゼロパディング層である、
請求項１～請求項４のいずれか１項に記載の機械学習プログラム。
複数の層を含むニューラルネットワークの機械学習済モデルにおける、前記複数の層の各々の要素の削減割合を取得し、
前記ニューラルネットワークが、入力される複数のテンソルに対する所定の演算結果のテンソルを出力する演算処理を含む場合であって、前記演算処理に、前記演算処理の前段層からのテンソルと、前記前段層よりも前の層であって前記演算処理にショートカット結合される１以上の前記層からの１以上のテンソルとが入力される場合、前記前段層及び前記１以上の層である複数の第１の層の各々と前記演算処理との間に、ゼロパディング処理を行なう第２の層をそれぞれ挿入し、
前記複数の第１の層の各々の削減割合に応じた要素削減後の前記複数の第１の層から前記演算処理に入力される複数のテンソルのそれぞれの要素数が、いずれも第１の数となるように、前記複数の第１の層に対応付けられた複数の前記第２の層のそれぞれにおいて１個以上のゼロ行列によるパディングを行なう、
処理をコンピュータが実行する、機械学習方法。
複数の層を含むニューラルネットワークの機械学習済モデルにおける、前記複数の層の各々の要素の削減割合を取得し、
前記ニューラルネットワークが、入力される複数のテンソルに対する所定の演算結果のテンソルを出力する演算処理を含む場合であって、前記演算処理に、前記演算処理の前段層からのテンソルと、前記前段層よりも前の層であって前記演算処理にショートカット結合される１以上の前記層からの１以上のテンソルとが入力される場合、前記前段層及び前記１以上の層である複数の第１の層の各々と前記演算処理との間に、ゼロパディング処理を行なう第２の層をそれぞれ挿入し、
前記複数の第１の層の各々の削減割合に応じた要素削減後の前記複数の第１の層から前記演算処理に入力される複数のテンソルのそれぞれの要素数が、いずれも第１の数となるように、前記複数の第１の層に対応付けられた複数の前記第２の層のそれぞれにおいて１個以上のゼロ行列によるパディングを行なう、
制御部を備える、情報処理装置。