JP7008221B2

JP7008221B2 - ニューラルネットワーク最適化方法、ニューラルネットワーク最適化装置およびプログラム

Info

Publication number: JP7008221B2
Application number: JP2019238121A
Authority: JP
Inventors: 智石伏
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2022-01-25
Anticipated expiration: 2039-12-27
Also published as: JP2021105950A; US20210201141A1

Description

本開示は、ニューラルネットワークを最適化する方法、装置およびプログラムに関する。

画像認識に用いられる畳み込みニューラルネットワークでは、高い認識精度を達成するために、その畳み込みニューラルネットワークに含まれる各中間層に多量のフィルタデータを要する。しかし、サーバ以外の設備（例えば自動車など）にその畳み込みニューラルネットワークが組み込まれる組み込み環境では、その畳み込みニューラルネットワークに用いられる計算リソースが制限される。したがって、従来、畳み込みニューラルネットワークの認識精度を要求精度よりも落とすことなく、フィルタデータのビット幅を小さい幅に変更する畳み込みニューラルネットワークのパラメータ設定方法が提案されている（例えば、特許文献１参照）。つまり、このパラメータ設定方法では、ニューラルネットワークに含まれる層のビット精度を削減するよって、そのニューラルネットワークが組み込み環境に最適化される。したがって、このようなパラメータ設定方法は、ニューラルネットワーク最適化方法とも言える。

特開２０１８－１４２０４９号公報

しかしながら、上記特許文献１のパラメータ設定方法では、適切な層に対してビット精度の削減を行うことができず、ニューラルネットワークの最適解を見つけ出すことが難しいという課題がある。

そこで、本開示は、ニューラルネットワークの最適解を適切に見つけ出すことができるニューラルネットワーク最適化方法を提供する。

本開示の一態様に係るニューラルネットワーク最適化方法は、コンピュータによって実行されるニューラルネットワーク最適化方法であって、オブジェクトを示す評価用データの入力に対して前記オブジェクトの認識結果を出力する第１ニューラルネットワークに含まれる予め定められた複数の層のそれぞれについて、当該層を構成するパラメータのビット精度を削減する処理であるビット削減を行うことによって、当該層のビット削減が前記第１ニューラルネットワークの認識結果に与える影響度を導出する第１処理を行い、前記第１ニューラルネットワークに含まれる前記複数の層のうちの、前記複数の層のそれぞれの前記影響度に基づいて特定される少なくとも１つの層のそれぞれに対してビット削減を行うことによって、第２ニューラルネットワークを生成する第２処理を行い、前記第１処理では、前記第１ニューラルネットワークに含まれる前記複数の層のそれぞれに対してビット削減を行うことによって低精度ニューラルネットワークを生成し、前記低精度ニューラルネットワークに含まれる複数の層のそれぞれから出力される出力データを取得し、前記第１ニューラルネットワークに対して前記出力データを入力し、前記出力データの入力に対する前記第１ニューラルネットワークの順伝播によって得られる認識結果に基づいて、前記複数の層のそれぞれについての前記影響度を導出する。

なお、これらの包括的または具体的な態様は、システム、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。また、記録媒体は、非一時的な記録媒体であってもよい。

本開示のニューラルネットワーク最適化方法は、ニューラルネットワークの最適解を適切に見つけ出すことができるニューラルネットワーク最適化方法などを提供する。

本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および／または効果は、いくつかの実施の形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、１つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。

図１は、ニューラルネットワークの生成および変換を説明するための図である。図２は、ニューラルネットワークの変換の一例を示す図である。図３は、従来技術から想定されるニューラルネットワーク最適化方法の概要を示す図である。図４は、実施の形態におけるニューラルネットワーク最適化装置の構成例を示すブロック図である。図５は、実施の形態におけるビット精度の変換を説明するための図である。図６は、実施の形態におけるニューラルネットワーク最適化方法の概要を示す図である。図７は、実施の形態における低ＮＮ生成部の処理を説明するための図である。図８は、実施の形態における影響度導出部の処理の一例を説明するための図である。図９は、実施の形態における評価値の一例を示す図である。図１０は、実施の形態における影響度導出部の処理の具体例を説明するための図である。図１１は、実施の形態における影響度導出部によって導出された影響度の一例を示す図である。図１２は、実施の形態におけるニューラルネットワーク最適化装置による全体的な処理の一例を示すフローチャートである。図１３は、実施の形態における影響度導出部による処理の一例を示すフローチャートである。図１４は、実施の形態におけるビット削減層特定部による閾値利用特定処理の一例を模式的に示す図である。図１５は、実施の形態におけるビット削減層特定部による閾値利用特定処理の一例を示すフローチャートである。図１６は、実施の形態におけるビット削減層特定部による最小影響度特定処理の一例を模式的に示す図である。図１７は、実施の形態におけるビット削減層特定部による最小影響度特定処理の一例を示すフローチャートである。図１８は、実施の形態におけるビット削減層特定部による影響度更新特定処理の一例を模式的に示す図である。図１９は、実施の形態におけるニューラルネットワーク最適化装置による全体的な処理の他の例を示すフローチャートである。

（本開示の基礎となった知見）
一般的に、画像認識または物体検知などのタスクに利用されるニューラルネットワークは、高精度なビットフォーマットで生成される。しかし、計算リソースが少ない組み込み環境などにそのニューラルネットワークが実装される場合には、そのニューラルネットワークは、低精度なビットフォーマットに変換される。

図１は、ニューラルネットワークの生成および変換を説明するための図である。

高精度なビットフォーマットのニューラルネットワークは学習によって生成される。その学習では、学習用データ格納部に格納されている複数の画像データと、それらの画像データに映し出されているオブジェクトの種別とが、教師データとして用いられる。この学習によって、学習済みのニューラルネットワークが生成される。学習済みのニューラルネットワークは、画像データの入力に対して、その画像データに映し出されているオブジェクトの認識結果として認識率（スコアともいう）を出力する。

また、このような学習済みのニューラルネットワークは複数の層を含む。これらの層からの出力データＹは、Ｙ＝ｆ（ＸＷ＋ｂ）によって示される。つまり、１つの層からの出力データＹは、入力データＸと、重みＷと、バイアスｂとを用いた関数によって表現される。なお、入力データＸは、その１つの層よりも入力層側の隣にある層からの出力であり、出力データＹおよび入力データＸは、それぞれ中間データとも呼ばれる。重みＷおよびバイアスｂは、その１つの層におけるパラメータであって、学習によって設定される。

このような学習では、オブジェクトの高い認識精度を実現するために、例えば、Ｆｌｏａｔ型の３２ビットなどのビット精度が高いビットフォーマットが、上述のパラメータおよび中間データなどに用いられる。したがって、例えば、サーバが有するＧＰＵ（Graphics Processing Unit）などの高性能計算リソースを用いて、高いビット精度を有する学習済みのニューラルネットワーク（図１中の学習済みＮＮ）が生成される。

しかし、サーバ以外の高性能計算リソースを持たない設備（例えば自動車など）にニューラルネットワークが組み込まれる組み込み環境では、そのニューラルネットワークに用いられる計算リソースが制限される。そこで、その高いビット精度を有する学習済みのニューラルネットワークは、組み込み向け変換によって、低いビット精度のニューラルネットワーク（図１中の変換後ＮＮ）に変換される。

このような組み込み向け変換では、その学習済みのニューラルネットワークに含まれる各層を構成するパラメータおよび出力データＹのビット精度が変換される。つまり、パラメータおよび出力データＹのビット精度が削減される。例えば、Ｆｌｏａｔ型の３２ビットがＩｎｔ型の８ビットなどに変換される。このようなビット精度の変換が行われた各層からなるニューラルネットワークのビット精度は低い。したがって、その変換後のニューラルネットワークは、計算リソースが少なくても、画像データに映し出されているオブジェクトを高速に認識することができる。組み込み環境では、このような変換後の低精度のニューラルネットワークが実装される。例えば、自動車に実装された変換後のニューラルネットワークは、車載カメラによる撮影によって得られた画像データの入力に対して、その画像データに映し出されているオブジェクトの認識率を出力する。

しかし、高いビット精度を有する学習済みのニューラルネットワークに含まれる全ての層のビット精度を削減すれば、認識精度が大幅に低下してしまう可能性がある。そこで、例えば、その学習済みのニューラルネットワークに含まれる複数の層のそれぞれのビット精度を互いに異ならせることによって、認識精度の低下を抑えることができる。

図２は、ニューラルネットワークの変換の一例を示す図である。

例えば、高いビット精度を有する学習済みのニューラルネットワークに含まれる全ての層は、３２ビットのビット精度を有する。この学習済みのニューラルネットワークに対して上述の組み込み向け変換が行われる。つまり、ビット精度の変換が行われる。この変換では、その学習済みのニューラルネットワークは、それぞれのビット精度が異なる複数の層を含むニューラルネットワークに変換される。例えば、変換後のニューラルネットワークは、３２ビットのビット精度を有する層と、１６ビットのビット精度を有する層とを含む。

このような組み込み向け変換によって、ニューラルネットワークの認識精度の低下を抑えることができる。

しかし、例えば上記特許文献１のパラメータ設定方法から想定されるニューラルネットワーク最適化方法では、ビット削減される層が経験的に決定される。なお、ビット削減は、ビット精度を削減する処理であって、高いビット精度を低いビット精度に変換する処理である。言い換えれば、ビット削減は、量子化、またはビット幅を短くする処理である。

図３は、従来技術から想定されるニューラルネットワーク最適化方法の概要を示す図である。

このニューラルネットワーク最適化方法では、図３に示すように、まず、高いビット精度のニューラルネットワークが生成される。例えば、このニューラルネットワークに含まれる各層のビット精度は３２ビットである。そして、そのニューラルネットワークに含まれる各層に対してビット削減の優先度が経験的に決定される。その後、決定された優先度の順にしたがって各層に対するビット削減、すなわち量子化が行われる。例えば、まず、最も高い優先度の層に対してビット削減が行われ、そのビット削減によって生成されたニューラルネットワークの認識精度が評価される。そして、その認識精度が要求精度よりも高ければ、さらに、次に高い優先度の層に対してビット削減が行われ、そのビット削減によって生成されたニューラルネットワークの認識精度が評価される。このような、ビット削減と評価の繰り返しによって、ニューラルネットワークの最適化が行われる。

しかし、このニューラルネットワーク最適化方法では、経験的に選択される層に対してビット削減が行われるため、システマティックな最適化を行うことができない。その結果、高いビット精度のニューラルネットワークに含まれる層の数が多い場合には、最適解を見つけ出すことが難しい。

このような課題を解決するために、本開示の一態様に係るニューラルネットワーク最適化方法は、オブジェクトを示す評価用データの入力に対して前記オブジェクトの認識結果を出力する第１ニューラルネットワークに含まれる予め定められた複数の層のそれぞれについて、当該層を構成するパラメータのビット精度を削減する処理であるビット削減を行うことによって、当該層のビット削減が前記第１ニューラルネットワークの認識結果に与える影響度を導出する第１処理を行い、前記第１ニューラルネットワークに含まれる前記複数の層のうちの、前記複数の層のそれぞれの前記影響度に基づいて特定される少なくとも１つの層のそれぞれに対してビット削減を行うことによって、第２ニューラルネットワークを生成する第２処理を行う。例えば、前記第１処理では、前記第１ニューラルネットワークに含まれる前記複数の層のうちの１つの層である導出対象層の影響度を導出するときには、前記導出対象層に対してビット削減が行われていないときの認識結果に基づく第１評価値と、前記導出対象層に対してビット削減が行われているときの認識結果に基づく第２評価値との差分を算出することによって、前記導出対象層の前記影響度を導出してもよい。

これにより、第１ニューラルネットワーク（例えば、高精度ニューラルネットワーク）に含まれる複数の層のそれぞれの影響度が導出され、その影響度に基づいて特定される層に対してビット削減が行われる。したがって、経験的ではなく定量的に特定される層に対してビット削減を行うことができる。したがって、ニューラルネットワークの最適解を適切に見つけ出すことができる。つまり、認識精度の低下を抑えながらデータ量が削減されたニューラルネットワークであって、例えば組み込み環境に最適なニューラルネットワークを適切に見つけ出すことができる。

また、前記第１処理では、前記第１ニューラルネットワークに含まれる前記複数の層のそれぞれに対してビット削減を行うことによって低精度ニューラルネットワークを生成し、前記評価用データの入力に対する前記低精度ニューラルネットワークの順伝播によって、前記低精度ニューラルネットワークに含まれる複数の層のそれぞれから出力される出力データを取得し、前記第１ニューラルネットワークにおいて、前記導出対象層よりも入力側の隣に前隣層があり、前記導出対象層よりも出力側の隣に後隣層がある場合、前記低精度ニューラルネットワークに含まれる複数の層のうちの、前記前隣層に対応する低精度前隣層からの前記出力データを前隣層出力データとして、ビット削減が行われていない前記導出対象層に入力し、前記前隣層出力データの前記導出対象層への入力に対する前記第１ニューラルネットワークの順伝播によって得られる認識結果に基づいて、前記第１評価値を導出し、前記低精度ニューラルネットワークに含まれる前記複数の層のうちの、前記導出対象層に対応する低精度導出対象層からの前記出力データを導出対象層出力データとして、ビット削減が行われていない前記後隣層に入力し、前記導出対象層出力データの前記後隣層への入力に対する前記第１ニューラルネットワークの順伝播によって得られる認識結果に基づいて、前記第２評価値を導出してもよい。

これにより、第１ニューラルネットワークに含まれる入力層から前隣層までの各層のビット精度が低く、第１ニューラルネットワークに含まれる後隣層から出力層までの各層のビット精度が高い場合において、導出対象層の影響度が導出される。つまり、このような場合において、導出対象層に対してビット削減が行われていないときの第１評価値と、導出対象層に対してビット削減が行われているときの第２評価値との差分が、導出対象層の影響度として導出される。したがって、導出対象層に対してビット削減が行われるか否かによって、第１ニューラルネットワークの認識結果に与える影響度をより顕著に、かつ、より適切に導出することができる。その結果、ニューラルネットワークの最適解をより適切に見つけ出すことができる。

また、前記第２処理では、前記第１ニューラルネットワークに含まれる前記複数の層のうちの、それぞれ閾値以下の影響度を有する少なくとも１つの層を特定し、特定された前記少なくとも１つの層のそれぞれに対してビット削減を行ってもよい。

これにより、ビット削減の対象とされる少なくとも１つの層を容易に特定することができる。さらに、閾値の設定によって、複数の層を特定することができ、ニューラルネットワークの最適化を迅速に行うことができる。

また、前記ニューラルネットワーク最適化方法では、さらに、前記第２ニューラルネットワークへの前記評価用データの入力に対して出力される認識結果に基づく評価値であって、前記オブジェクトの認識精度が高いほど大きい値を示す第３評価値を導出する第３処理を行い、前記第３評価値が目標値よりも大きい場合には、前記閾値を大きくすることによって前記閾値を更新する第４処理を行い、前記第２ニューラルネットワークを新たな第１ニューラルネットワークとして用い、かつ、更新された前記閾値を用いて、前記第２処理、前記第３処理、および前記第４処理を繰り返し実行し、繰り返し実行される前記第２処理では、前記新たな第１ニューラルネットワークに含まれる前記複数の層のうちの、ビット削減が未だ行われていない少なくとも１つの層から、それぞれ更新された前記閾値以下の影響度を有する少なくとも１つの層を特定してもよい。

これにより、第３評価値が目標値よりも大きい限り、閾値が更新され、ビット削減が繰り返される。したがって、必要以上の認識精度を持つことのないニューラルネットワークを適切に見つけ出すことができる。

また、前記第２処理では、前記第１ニューラルネットワークに含まれる前記複数の層のうちの、最も小さい影響度を有する１つの層を特定し、特定された前記１つの層に対してビット削減を行ってもよい。

これにより、閾値の設定などの事前処理を行うことなく、ビット削減の対象とされる層を容易に特定することができる。

また、前記ニューラルネットワーク最適化方法では、さらに、前記第２ニューラルネットワークへの前記評価用データの入力に対して出力される認識結果に基づく評価値であって、前記オブジェクトの認識精度が高いほど大きい値を示す第３評価値を導出する第３処理を行い、前記第３評価値が目標値よりも大きい場合には、前記第２ニューラルネットワークを新たな第１ニューラルネットワークとして用いて、前記第２処理および前記第３処理を繰り返し実行し、繰り返し実行される前記第２処理では、前記新たな第１ニューラルネットワークに含まれる前記複数の層のうちの、ビット削減が未だ行われていない少なくとも１つの層から、最も小さい影響度を有する１つの層を特定してもよい。

これにより、第３評価値が目標値よりも大きい限り、複数の層に対するビット削減がそれらの層の影響度の小さい順に行われる。したがって、必要以上の認識精度を持つことのないニューラルネットワークを適切に見つけ出すことができる。

また、前記ニューラルネットワーク最適化方法では、さらに、前記第２ニューラルネットワークへの前記評価用データの入力に対して出力される認識結果に基づく評価値であって、前記オブジェクトの認識精度が高いほど大きい値を示す第３評価値を導出する第３処理を行い、前記第３評価値が目標値よりも大きい場合には、前記第２ニューラルネットワークを新たな第１ニューラルネットワークとして用いて、前記第１処理、前記第２処理および前記第３処理を繰り返し実行してもよい。

これにより、第２ニューラルネットワーク（例えば、ビット削減ニューラルネットワーク）が新たな第１ニューラルネットワークとして扱われ、その新たな第１ニューラルネットワークに含まれる複数の層のそれぞれの影響度が導出される。そして、それらの影響度を用いて、その新たな第１ニューラルネットワークに含まれる複数の層からビット削減される層が特定される。したがって、元の第１ニューラルネットワークに対して導出された古い影響度を用いることなく、新たな第１ニューラルネットワークに対して適切な影響度を用いることができる。その結果、ニューラルネットワークの最適解をより適切に見つけ出すことができる。

また、前記ニューラルネットワーク最適化方法では、さらに、前記第２処理および前記第３処理が繰り返し実行され、最後に実行された前記第３処理において導出された前記第３評価値が目標値よりも小さい場合には、最後の前記第２処理の直前に実行された前記第２処理によって生成された前記第２ニューラルネットワークを、最終的なニューラルネットワークとして出力してもよい。

これにより、最後の第２処理によって生成された第２ニューラルネットワークの第３評価値が目標値よりも小さくても、その直前の第２処理によって生成された第２ニューラルネットワークの第３評価値は目標値よりも大きい。このような目標値よりも大きい第３評価値が導出される第２ニューラルネットワークが、最終的なニューラルネットワークとして出力されるため、認識精度を一定以上に保ちながらデータ量が十分に削減されたニューラルネットワークをより適切に見つけ出すことができる。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。

（実施の形態）
図４は、本実施の形態におけるニューラルネットワーク最適化装置の構成例を示すブロック図である。

本実施の形態におけるニューラルネットワーク最適化装置１０は、ニューラルネットワークの最適解を適切に見つけ出すことができる装置であって、評価用データ格納部１１と、高ＮＮ生成部１２と、高ＮＮ格納部１３と、低ＮＮ生成部１４と、低ＮＮ格納部１５と、影響度導出部１６と、ビット削減層特定部１７とを備える。

評価用データ格納部１１は、ニューラルネットワークを評価するための複数の評価用データを格納している。例えば、これらの評価用データは、オブジェクトが映し出された画像を示すデータ、すなわち画像データである。

高ＮＮ生成部１２は、評価用データ格納部１１に格納されている複数の評価用データを用いたニューラルネットワークの学習を行うことによって、高いビット精度のニューラルネットワークを生成する。なお、その学習では、例えば、評価用データ格納部１１に格納されている複数の評価用データと、それらの評価用データに映し出されているオブジェクトの種別とが、教師データとして用いられる。以下、この高いビット精度のニューラルネットワークは、高精度ニューラルネットワークまたは第１ニューラルネットワークとも称される。そして、高ＮＮ生成部１２は、その生成された高精度ニューラルネットワークを高ＮＮ格納部１３に格納する。

低ＮＮ生成部１４は、高ＮＮ格納部１３に格納されている高精度ニューラルネットワークから低いビット精度のニューラルネットワークを生成する。以下、この低いビット精度のニューラルネットワークは、低精度ニューラルネットワークとも称される。そして、低ＮＮ生成部１４は、その低精度ニューラルネットワークを低ＮＮ格納部１５に格納する。

影響度導出部１６は、高ＮＮ格納部１３に格納されている高精度ニューラルネットワークに含まれる予め定められた複数の層のそれぞれの影響度を導出する。なお、その複数の層のそれぞれは、図１に示すように複数のパラメータから構成されている。

ビット削減層特定部１７は、影響度導出部１６によって導出された複数の層のそれぞれの影響度に基づいて、それらの層からビット削減の対象とされる層を特定する。そして、ビット削減層特定部１７は、高精度ニューラルネットワークに含まれる予め定められた複数の層のうち、その特定された層に対してビット削減を行うことによって、ビット削減ニューラルネットワークを生成する。なお、このビット削減ニューラルネットワークは、第２ニューラルネットワークとも称される。

また、本実施の形態における評価用データ格納部１１、高ＮＮ格納部１３、および低ＮＮ格納部１５は、ハードディスク、ＲＡＭ（Read Only Memory）、ＲＯＭ（Random Access Memory）、または半導体メモリなどである。なお、これらの格納部は、揮発性であっても不揮発性であってもよい。

図５は、本実施の形態におけるビット精度の変換を説明するための図である。

例えば、本実施の形態におけるニューラルネットワーク最適化装置１０は、図５の（ａ）に示すように、ニューラルネットワークに含まれる層を構成するパラメータのビット精度を高ビット精度から低ビット精度に変換する。このような変換は、ビット精度を削減する処理であって、ビット削減とも呼ばれる。例えば、Ｆｌｏａｔ型の３２ビットは、Ｉｎｔ型の１６ビットまたは８ビットに変換され、ｄｏｕｂｌｅ型の６４ビットは、Ｉｎｔ型の１６ビットまたは８ビットに変換される。また、Ｉｎｔ型の１６ビットは、Ｉｎｔ型の８ビットまたは４ビットに変換される。なお、このようなビット精度の変換、すなわちビット削減は、後述のように、低ＮＮ生成部１４、影響度導出部１６およびビット削減層特定部１７のそれぞれによって行われる。

また、このようなビット精度の変換は、パラメータの量子化によって実現される。図５の（ｂ）に示される２つのグラフのうちの一方（すなわち図５中の上側のグラフ）は、ニューラルネットワークの層に含まれる変換前の各パラメータによって示される値の分布を示すグラフである。例えば、これらの変換前のパラメータによって示される値は、Ｆｌｏａｔ型の３２ビットで表現される。このグラフの横軸は、各パラメータによって示される値を示し、縦軸は、その値を示すパラメータの出現頻度を示す。

例えば、これらのパラメータの量子化では、ニューラルネットワーク最適化装置１０は、まず、それらのパラメータによって示される値のうちの最大値と最小値とを抽出する。そして、ニューラルネットワーク最適化装置１０は、その最小値から最大値までの幅を、変換後のビット精度で表現し得る値の数で分割することによって、変換前のビット精度で示される値を、変換後のビット精度で示される値に変換する。

これにより、図５の（ｂ）に示される２つのグラフのうちの上側のグラフは、下側のグラフのように変換される。この図５の（ｂ）に示される下側のグラフは、ニューラルネットワークの層に含まれる変換後の各パラメータによって示される値の分布を示すグラフである。例えば、これらの変換後のパラメータによって示される値は、Ｉｎｔ型の８ビットで表現される。

図６は、本実施の形態におけるニューラルネットワーク最適化方法の概要を示す図である。

本実施の形態におけるニューラルネットワーク最適化装置１０の高ＮＮ生成部１２は、まず、図６に示すように、高精度ニューラルネットワークを学習によって生成する。例えば、この高精度ニューラルネットワークに含まれる各層のビット精度は３２ビットである。

そして、影響度導出部１６は、低ＮＮ生成部１４によって生成された低精度ニューラルネットワークを用いて、高精度ニューラルネットワークに含まれる各層に対して影響度を導出する。この影響度は、層に対するビット削減が高精度ニューラルネットワークの認識結果に与える影響の度合いを数値として示す。

つまり、本実施の形態における影響度導出部１６は、オブジェクトを示す評価用データの入力に対してそのオブジェクトの認識結果を出力する高精度ニューラルネットワークに含まれる予め定められた複数の層のそれぞれについて、その層を構成するパラメータのビット精度を削減する処理であるビット削減を行うことによって、その層のビット削減が高精度ニューラルネットワークの認識結果に与える影響度を導出する第１処理を行う。なお、本実施の形態における影響度導出部１６は、その第１処理を行う第１処理部として構成されていてもよく、影響度導出部１６および低ＮＮ生成部１４を含む構成要素群が、その第１処理を行う第１処理部として構成されていてもよい。

次に、ビット削減層特定部１７は、影響度導出部１６によって導出された各層の影響度に基づいてビット削減対象の層を選択し、その選択された層に対して、ビット精度の変換、すなわちビット削減を行う。つまり、本実施の形態におけるビット削減層特定部１７は、高精度ニューラルネットワークに含まれる複数の層のうちの、その複数の層のそれぞれの影響度に基づいて特定される少なくとも１つの層のそれぞれに対してビット削減を行うことによって、ビット削減ニューラルネットワークを生成する第２処理を行う。なお、本実施の形態におけるビット削減層特定部１７は、その第２処理を行う第２処理部として構成されていてもよい。

そして、ビット削減層特定部１７は、ビット削減ニューラルネットワークの認識結果を評価する。この認識結果に基づく評価値が目標値よりも大きければ、ビット削減層特定部１７は、さらに、影響度に基づいて特定される他の少なくとも１つの層のそれぞれに対してビット削減を行う。このような、ビット削減と評価の繰り返しによって、ニューラルネットワークの最適化が行われる。

これにより、本実施の形態におけるニューラルネットワーク最適化方法では、経験的ではなく定量的に選択または特定される層に対してビット削減が行われる。したがって、ニューラルネットワークの最適解を適切に見つけ出すことができる。つまり、認識精度の低下を抑えながらデータ量が削減されたニューラルネットワークであって、組み込み環境に最適なニューラルネットワークを適切に見つけ出すことができる。また、局所解に陥ることを抑制することができる。

図７は、本実施の形態における低ＮＮ生成部１４の処理を説明するための図である。

低ＮＮ生成部１４は、図７に示すように、高精度ニューラルネットワークＮＮ^Ｔを低精度ニューラルネットワークＮＮ^Ｓに変換する。つまり、低ＮＮ生成部１４は、高精度ニューラルネットワークＮＮ^Ｔに含まれる複数の層のそれぞれに対して、ビット精度の変換、すなわちビット削減を行うことによって、低精度ニューラルネットワークＮＮ^Ｓを生成する。例えば、高精度ニューラルネットワークＮＮ^Ｔに含まれる各層が有するＦｌｏａｔ型の３２ビットのビット精度は、Ｉｎｔ型の８ビットのビット精度に変換される。これにより、それぞれＩｎｔ型の８ビットのビット精度を有する複数の層を含む低精度ニューラルネットワークＮＮ^Ｓが生成される。低ＮＮ生成部１４は、その生成された低精度ニューラルネットワークＮＮ^Ｓを低ＮＮ格納部１５に格納する。

＜影響度導出部の処理＞
図８は、本実施の形態における影響度導出部１６の処理の一例を説明するための図である。なお、図８において、ドットのパターンで示される層は、低精度ニューラルネットワークＮＮ^Ｓに含まれる層であり、斜線のハッチングで示される層は、高精度ニューラルネットワークＮＮ^Ｔに含まれる層である。

影響度導出部１６は、上述のように、高精度ニューラルネットワークＮＮ^Ｔに含まれる予め定められた複数の層のそれぞれの影響度Ｉを導出する。予め定められた複数の層は、連続して配置されている複数の層であって、それぞれビット削減の候補とされる層である。例えば、影響度導出部１６は、その予め定められた複数の層のそれぞれを順に導出対象層として選択し、その導出対象層が選択されるごとに、その導出対象層の影響度Ｉを導出する。

具体的には、影響度導出部１６は、図８に示すように、高精度ニューラルネットワークＮＮ^Ｔに含まれる上述の複数の層のうちの１つの層である導出対象層（Ｎ－１）の影響度Ｉ_Ｎ－１を導出する。なお、Ｎは、ニューラルネットワークに含まれる複数の層のそれぞれを識別するために割り当てられるパラメータであって、入力層から出力層に向かって１ずつ増加する０以上の整数である。影響度導出部１６は、その影響度Ｉ_Ｎ－１を導出するために、図８の（ａ）および（ｂ）に示すように、まず、第１評価値である評価値Ｐ_Ｎ－１と、第２評価値である評価値Ｐ_Ｎとを導出する。評価値Ｐ_Ｎ－１は、導出対象層（Ｎ－１）に対してビット削減が行われていないときの認識結果に基づく評価値である。評価値Ｐ_Ｎは、導出対象層（Ｎ－１）に対してビット削減が行われているときの認識結果に基づく評価値である。そして、影響度導出部１６は、評価値Ｐ_Ｎ－１と評価値Ｐ_Ｎとの差分を算出することによって、導出対象層（Ｎ－１）の影響度Ｉ_Ｎ－１を導出する。

より具体的には、影響度導出部１６は、評価用データ格納部１１から評価用データを読み出し、低ＮＮ格納部１５から低精度ニューラルネットワークＮＮ^Ｓを読み出す。そして、影響度導出部１６は、評価用データの入力に対する低精度ニューラルネットワークＮＮ^Ｓの順伝播によって、低精度ニューラルネットワークＮＮ^Ｓに含まれる複数の層のそれぞれから出力される出力データを取得する。

ここで、高精度ニューラルネットワークＮＮ^Ｔには、導出対象層（Ｎ－１）よりも入力側の隣に前隣層（Ｎ－２）があり、導出対象層（Ｎ－１）よりも出力側の隣に後隣層Ｎがある。

影響度導出部１６は、低精度ニューラルネットワークＮＮ^Ｓに含まれる複数の層のうちの、上述の前隣層（Ｎ－２）に対応する低精度前隣層（Ｎ－２）からの出力データを、前隣層出力データとして、ビット削減が行われていない導出対象層（Ｎ－１）に入力する。そして、影響度導出部１６は、図８の（ａ）に示すように、前隣層出力データの導出対象層（Ｎ－１）への入力に対する高精度ニューラルネットワークＮＮ^Ｔの順伝播によって得られる認識結果に基づいて、評価値Ｐ_Ｎ－１を導出する。

つまり、影響度導出部１６は、低精度前隣層（Ｎ－２）からの出力データである前隣層出力データのビット精度を元のビット精度に変換する。例えば、図７に示すように、前隣層出力データのビット精度がＩｎｔ型の８ビットであれば、影響度導出部１６は、そのビット精度をＦｌｏａｔ型の３２ビットに変換する。そして、影響度導出部１６は、その元のビット精度に変換された前隣層出力データを、ビット削減が行われていない導出対象層（Ｎ－１）に入力する。その後、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔにおける導出対象層（Ｎ－１）から出力層までの範囲で順伝播を実行する。例えば、その順伝播では、導出対象層（Ｎ－１）からの出力データａ^Ｔ _Ｎ－１は、ａ^Ｔ _Ｎ－１＝ｆ（ａ^Ｓ _Ｎ－２Ｗ^Ｔ _Ｎ－１＋ｂ^Ｔ _Ｎ－１）によって算出される。ａ^Ｓ _Ｎ－２は、低精度前隣層（Ｎ－２）からの出力データ、すなわち前隣層出力データであり、Ｗ^Ｔ _Ｎ－１は、導出対象層（Ｎ－１）の重みであり、ｂ^Ｔ _Ｎ－１は、導出対象層（Ｎ－１）のバイアスである。このような順伝播によって得られる認識結果に基づいて、第１評価値として評価値Ｐ_Ｎ－１が導出される。

さらに、影響度導出部１６は、低精度ニューラルネットワークＮＮ^Ｓに含まれる複数の層のうちの、導出対象層（Ｎ－１）に対応する低精度導出対象層（Ｎ－１）からの出力データを導出対象層出力データとして、ビット削減が行われていない後隣層Ｎに入力する。そして、影響度導出部１６は、図８の（ｂ）に示すように、導出対象層出力データの後隣層Ｎへの入力に対する高精度ニューラルネットワークＮＮ^Ｔの順伝播によって得られる認識結果に基づいて、評価値Ｐ_Ｎを導出する。

つまり、影響度導出部１６は、低精度導出対象層（Ｎ－１）からの出力データである導出対象層出力データのビット精度を元のビット精度に変換する。例えば、図７に示すように、前隣層出力データのビット精度がＩｎｔ型の８ビットであれば、そのビット精度をＦｌｏａｔ型の３２ビットに変換する。そして、影響度導出部１６は、その元のビット精度に変換された導出対象層出力データを、ビット削減が行われていない後隣層Ｎに入力する。その後、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔにおける後隣層Ｎから出力層までの範囲で順伝播を実行する。例えば、その順伝播では、後隣層Ｎからの出力データａ^Ｔ _Ｎは、ａ^Ｔ _Ｎ＝ｆ（ａ^Ｓ _Ｎ－１Ｗ^Ｔ _Ｎ＋ｂ^Ｔ _Ｎ）によって算出される。ａ^Ｓ _Ｎ－１は、低精度導出対象層（Ｎ－１）からの出力データ、すなわち導出対象層出力データであり、Ｗ^Ｔ _Ｎは、後隣層Ｎの重みであり、ｂ^Ｔ _Ｎは、後隣層Ｎのバイアスである。このような順伝播によって得られる認識結果に基づいて、第２評価値として評価値Ｐ_Ｎが導出される。

このように、評価値Ｐ_Ｎ－１と評価値Ｐ_Ｎとが導出されると、影響度導出部１６は、導出対象層（Ｎ－１）の影響度Ｉ_Ｎ－１をＩ_Ｎ－１＝Ｐ_Ｎ－１－Ｐ_Ｎによって算出する。例えば、図８に示すように、Ｐ_Ｎ－１＝０．７であって、Ｐ_Ｎ＝０．４であれば、影響度導出部１６は、導出対象層（Ｎ－１）の影響度Ｉ_Ｎ－１＝０．３を算出する。

このように、本実施の形態では、高精度ニューラルネットワークＮＮ^Ｔに含まれる入力層から前隣層までの各層のビット精度が低く、高精度ニューラルネットワークＮＮ^Ｔに含まれる後隣層から出力層までの各層のビット精度が高い状況において、導出対象層の影響度が導出される。つまり、このような場合において、導出対象層に対してビット削減が行われていないときの第１評価値と、導出対象層に対してビット削減が行われているときの第２評価値との差分が、導出対象層の影響度として導出される。したがって、導出対象層に対してビット削減が行われるか否かによって、高精度ニューラルネットワークＮＮ^Ｔの認識結果に与える影響度をより顕著に、かつ、より適切に導出することができる。その結果、ニューラルネットワークの最適解をより適切に見つけ出すことができる。

図９は、本実施の形態における評価値の一例を示す図である。

例えば、評価値は、図９の（ａ）に示すように、ニューラルネットワークから認識結果として得られるスコアの平均または認識精度であってもよい。具体的な一例として、犬が映し出されている入力画像が評価用データとしてニューラルネットワークに入力され、そのニューラルネットワークから犬の認識結果「６０％」が出力される。同様に、そのニューラルネットワークから鳥の認識結果「８０％」、猫の認識結果「２０％」、および他の犬の認識結果「３０％」が出力される。このような場合、スコアの平均は、それらの認識結果の平均値である４７．５％である。また、認識結果の閾値が例えば５０％である場合、犬と猫に対しては正しい認識が行われ、鳥と他の犬に対しては間違った認識が行われている。したがって、認識が行われた回数のうち、正しい認識が行われた回数の割合である認識精度は、５０％である。したがって、評価値は、スコアの平均「４７．５％」であってもよく、認識精度「５０％」であってもよい。

または、評価値は、図９の（ｂ）に示すように、ニューラルネットワークの認識結果から得られる枠の重なり率（ＩｏＵともいう）であってもよい。具体的な一例として、車などのオブジェクトが映し出されている入力画像が評価用データとしてニューラルネットワークに入力され、そのニューラルネットワークから認識結果として、そのオブジェクトが映し出されている枠が出力される。上述の枠の重なり率は、認識結果面積と正解枠面積との和に対する重なり面積の比率である。認識結果面積は、認識結果として出力された枠によって囲まれている領域の面積であり、正解枠面積は正解枠によって囲まれている領域の面積である。そして、重なり面積は、それらの領域が重なっている部分の面積である。

または、評価値は、図９の（ｃ）に示すように、ニューラルネットワークの認識結果から得られるＡＰまたはｍＡＰであってもよい。具体的な一例として、犬が映し出されている入力画像が評価用データとしてニューラルネットワークに入力され、そのニューラルネットワークから犬の認識結果「７０％」が出力される。認識結果の閾値が例えば５０％である場合、その犬に対しては正しい認識が行われている。一方、他の犬が映し出されている入力画像が評価用データとしてニューラルネットワークに入力され、そのニューラルネットワークから他の犬の認識結果「２０％」が出力される。認識結果の閾値が例えば５０％である場合、その他の犬に対しては間違った認識が行われている。このような場合、犬に対して認識が行われた回数のうち、正しい認識が行われた回数の割合であるＡＰは、５０％である。同様に、猫に対して認識が行われた回数のうち、正しい認識が行われた回数の割合であるＡＰは、０％であり、鳥に対して認識が行われた回数のうち、正しい認識が行われた回数の割合であるＡＰは、１００％である。このような場合、これらのＡＰの平均であるｍＡＰは、５０％である。このように、ＡＰは、同じ種別のオブジェクト（すなわちクラス）に対する認識精度であり、ｍＡＰは、複数のＡＰの平均である。

このように、評価値は、複数の評価用データのそれぞれをニューラルネットワークに入力し、その複数の評価用データのそれぞれの入力に対してニューラルネットワークから出力される認識結果に基づいて導出される値である。

なお、本実施の形態におけるニューラルネットワークから得られる認識結果は、例えば、認識率またはスコアであるが、これに限定されるものではない。例えば、その認識結果は、認識スコアとオブジェクトの位置（つまり、入力画像における二次元座標位置）であってもよい。また、ニューラルネットワークが入力データを変換し、変換後のデータを出力する場合には、認識結果は、その変換後のデータであってもよい。変換後のデータは、具体的には、入力データに対してノイズが除去されたデータであってもよく、入力データに対して超解像化が行われたデータであってもよい。また、ニューラルネットワークがオブジェクトの将来の状態を予測（回帰）する場合には、認識結果は、その予測されたオブジェクトの将来の状態であってもよい。

図１０は、本実施の形態における影響度導出部１６の処理の具体例を説明するための図である。

影響度導出部１６は、低ＮＮ格納部１５に格納されている複数の評価用データのそれぞれを低精度ニューラルネットワークＮＮ^Ｓに入力する。そして、影響度導出部１６は、評価用データの入力ごとに、その評価用データの入力に対する低精度ニューラルネットワークＮＮ^Ｓの順伝播によって、低精度ニューラルネットワークＮＮ^Ｓに含まれる複数の層のそれぞれから出力される出力データを取得する。さらに、影響度導出部１６は、それらの出力データのビット精度を元のビット精度に変換する。例えば、それらの出力データのビット精度がＩｎｔ型の８ビットであれば、影響度導出部１６は、そのビット精度をＦｌｏａｔ型の３２ビットに変換する。つまり、出力データによってＩｎｔ型の８ビットで示される値は、Ｆｌｏａｔ型の３２ビットで表現される。

そして、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝２によって示される層に、低精度ニューラルネットワークＮＮ^Ｓに含まれるＮ＝１によって示される層から出力された上述の複数の出力データを入力する。なお、それらの出力データのビット精度は、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝２によって示される層と同じビット精度に変換されている。そして、影響度導出部１６は、その出力データの入力ごとに、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝２によって示される層から出力層までの順伝播を実行することによって、Ｎ＝２に対応する評価値として例えばＰ_２＝０．８０を導出する。

同様に、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝３によって示される層に、低精度ニューラルネットワークＮＮ^Ｓに含まれるＮ＝２によって示される層から出力された上述の複数の出力データを入力する。なお、それらの出力データのビット精度は、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝３によって示される層と同じビット精度に変換されている。そして、影響度導出部１６は、その出力データの入力ごとに、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝３によって示される層から出力層までの順伝播を実行することによって、Ｎ＝３に対応する評価値として例えばＰ_３＝０．７９を導出する。

同様に、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝４によって示される層に、低精度ニューラルネットワークＮＮ^Ｓに含まれるＮ＝３によって示される層から出力された上述の複数の出力データを入力する。なお、それらの出力データのビット精度は、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝４によって示される層と同じビット精度に変換されている。そして、影響度導出部１６は、その出力データの入力ごとに、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝４によって示される層から出力層までの順伝播を実行することによって、Ｎ＝４に対応する評価値として例えばＰ_４＝０．７３を導出する。

影響度導出部１６は、これらの評価値に基づいて、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝２によって示される層の影響度として、Ｉ_２＝Ｐ_２－Ｐ_３＝０．０１を算出する。さらに、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔに含まれるＮ＝３によって示される層の影響度として、Ｉ_３＝Ｐ_３－Ｐ_４＝０．０６を算出する。

図１１は、本実施の形態における影響度導出部１６によって導出された影響度の一例を示す図である。

例えば、図１１に示すように、高精度ニューラルネットワークＮＮ^Ｔに含まれる予め定められた複数の層のそれぞれに対して影響度が算出される。具体的には、Ｎ＝１の層の影響度として０．００１が算出され、Ｎ＝２の層の影響度として０．０１が算出され、Ｎ＝３の層の影響度として０．０６が算出され、Ｎ＝４の層の影響度として０．０９が算出される。

図１２は、本実施の形態におけるニューラルネットワーク最適化装置１０による全体的な処理の一例を示すフローチャートである。

まず、ニューラルネットワーク最適化装置１０の高ＮＮ生成部１２は、評価用データ格納部１１に格納されている複数の評価用データを用いた学習を行うことによって、高精度ニューラルネットワークＮＮ^Ｔを生成する（ステップＳ１１）。

次に、低ＮＮ生成部１４は、ステップＳ１１で生成された高精度ニューラルネットワークＮＮ^Ｔのビット精度を変換することによって、低精度ニューラルネットワークＮＮ^Ｓを生成する（ステップＳ１２）。

そして、影響度導出部１６は、ステップＳ１１で生成された高精度ニューラルネットワークＮＮ^Ｔと低精度ニューラルネットワークＮＮ^Ｓとを用いて、高精度ニューラルネットワークＮＮ^Ｔに含まれる予め定められた複数の層のそれぞれの影響度を導出する（ステップＳ１００）。

次に、ビット削減層特定部１７は、ステップＳ１００で導出された複数の層のそれぞれの影響度を用いて、最適化されたニューラルネットワークを生成する（ステップＳ２００）。

図１３は、本実施の形態における影響度導出部１６による処理の一例を示すフローチャートである。具体的には、図１３は、図１２のステップＳ１００の処理を詳細に示すフローチャートである。

まず、影響度導出部１６は、低精度ニューラルネットワークＮＮ^Ｓに複数の評価用データのそれぞれを入力し、それらの評価用データごとに、その低精度ニューラルネットワークＮＮ^Ｓの入力層から最終層（すなわち出力層）までの順伝播を実行する（ステップＳ１０１）。その順伝播による各層からの出力データは保存される。

次に、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔに含まれる全ての層からビット削減の対象範囲［Ｓ，Ｇ］を設定する（ステップＳ１０２）。なお、ＳおよびＧのそれぞれは０以上の整数であって、ＧはＳよりも大きい。つまり、上述の全ての層のうち、Ｎ＝Ｓによって示される層（すなわち層（Ｎ＝Ｓ））から、Ｎ＝Ｇによって示される層（すなわち層（Ｎ＝Ｇ））までの範囲が、ビット削減の対象範囲である。言い換えれば、その対象範囲に含まれる層は、ビット削減の候補とされる層である。また、上述の予め定められた複数の層は、層（Ｎ＝Ｓ）から層（Ｎ＝Ｇ）までの範囲に含まれる複数の層である。なお、対象範囲［Ｓ，Ｇ］は、高精度ニューラルネットワークＮＮ^Ｔに含まれる全ての層であってもよい。

次に、影響度導出部１６は、パラメータＮをＮ＝Ｓに設定する（ステップＳ１０３）。つまり、影響度導出部１６はＮを初期化する。そして、影響度導出部１６は、低精度ニューラルネットワークＮＮ^Ｓの中間層（Ｎ－１）からの出力データＸのビット精度を高ビット精度に変換する（ステップＳ１０４）。つまり、出力データＸのビット精度が元のビット精度に変換される。

次に、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔの層Ｎに、ステップＳ１０４でビット精度が変換された出力データＸを入力し、層Ｎから出力層までの順伝播を実行する（ステップＳ１０５）。そして、影響度導出部１６は、順伝播の結果に基づいて評価値Ｐ_Ｎを導出する（ステップＳ１０６）。ステップＳ１０４およびＳ１０５の処理は、複数の評価用データのそれぞれに対して、すなわち、複数の出力データのそれぞれに対して行われる。したがって、ステップＳ１０６では、その複数の評価用データのそれぞれから得られる順伝播の結果である評価結果に基づいて、評価値Ｐ_Ｎが導出される。

次に、影響度導出部１６は、ステップＳ１０６で導出された評価値Ｐ_Ｎを用いて、層（Ｎ－１）の影響度Ｉ_Ｎ－１を、Ｉ_Ｎ－１＝Ｐ_Ｎ－１－Ｐ_Ｎによって算出する（ステップＳ１０７）。ここで、Ｎ＝Ｓの場合には、評価値Ｐ_Ｓ－１は算出されていないため、層（Ｓ－１）の影響度Ｉ_Ｓ－１は算出されず、ステップＳ１０７の処理はスキップされる。

そして、影響度導出部１６は、ＮがＧよりも大きいか否かを判定し（ステップＳ１０８）、ＮがＧよりも大きくないと判定した場合には（ステップＳ１０８のＮｏ）、Ｎに対してインクリメントを行う（ステップＳ１０９）。一方、影響度導出部１６は、ＮがＧよりも大きいと判定した場合には（ステップＳ１０８のＹｅｓ）、影響度を導出する処理を終了する。

＜ビット削減層特定部の処理＞
本実施の形態におけるビット削減層特定部１７は、上述のように影響度導出部１６によって導出された複数の層のそれぞれの影響度を用いて、高精度ニューラルネットワークＮＮ^Ｔからビット削減される層を特定する。そして、ビット削減層特定部１７は、その特定された層に対してビット削減を行うことによって、ビット削減ニューラルネットワークを生成する。また、ビット削減層特定部１７は、そのビット削減ニューラルネットワークを評価する。その結果、ビット削減層特定部１７は、そのビット削減ニューラルネットワークが最適化されたニューラルネットワークでなければ、そのビット削減ニューラルネットワークを新たな高精度ニューラルネットワークＮＮ^Ｔとして扱う。そして、ビット削減層特定部１７は、新たな高精度ニューラルネットワークＮＮ^Ｔからビット削減ニューラルネットワークを生成する処理を、上述の影響度を用いて繰り返す。その結果、最適化されたニューラルネットワークが生成される。

ここで、ビット削減層特定部１７は、互いに異なる３つの特定処理のうちの何れか１つの処理を行うことによって、最適化されたニューラルネットワークを生成する。３つの特定処理は、閾値利用特定処理、最小影響度特定処理、および影響度更新特定処理である。

［閾値利用特定処理］
図１４は、ビット削減層特定部１７による閾値利用特定処理の一例を模式的に示す図である。

ビット削減層特定部１７は、高精度ニューラルネットワークＮＮ^Ｔの対象範囲［Ｓ，Ｇ］に含まれる複数の層のうち、それぞれ閾値Ｋ以下の影響度を有する少なくとも１つの層を特定し、その特定された少なくとも１つの層のそれぞれに対してビット削減を行う。その結果、ビット削減ニューラルネットワークが生成される。そして、ビット削減層特定部１７は、評価用データ格納部１１に格納されている評価用データを用いて、そのビット削減ニューラルネットワークの評価値を導出し、その評価値が目標値よりも大きいか否かを判定する。その結果、評価値が目標値よりも大きければ、ビット削減層特定部１７は、そのビット削減ニューラルネットワークを新たな高精度ニューラルネットワークＮＮ^Ｔとして扱い、閾値Ｋを変更する。具体的には、閾値Ｋは、より大きい値に変更される。そして、ビット削減層特定部１７は、新たな高精度ニューラルネットワークＮＮ^Ｔと、その変更された閾値Ｋとを用いて、ビット削減ニューラルネットワークの生成を繰り返す。その結果、最適化されたニューラルネットワークが生成される。

図１５は、ビット削減層特定部１７による閾値利用特定処理の一例を示すフローチャートである。

ビット削減層特定部１７は、まず、閾値Ｋを設定し（ステップＳ２０１）、ビット削減が行われる直前のニューラルネットワークＮＮ^＊として、高精度ニューラルネットワークＮＮ^Ｔを保持する（ステップＳ２０２）。

次に、ビット削減層特定部１７は、高精度ニューラルネットワークＮＮ^Ｔの対象範囲［Ｓ，Ｇ］から、閾値Ｋ以下の影響度を有する層を特定し、その特定された層に対してビット削減を行う（ステップＳ２０３）。なお、複数の層が特定されれば、その複数の層のそれぞれに対してビット削減が行われる。これにより、ビット削減ニューラルネットワークが生成される。つまり、上述の第２処理が行われる。そして、ビット削減層特定部１７は、そのビット削減ニューラルネットワーク、すなわちビット削減後の高精度ニューラルネットワークＮＮ^Ｔの評価値を導出する（ステップＳ２０４）。

次に、ビット削減層特定部１７は、ステップＳ２０４で導出された評価値が目標値よりも大きいか否かを判定し（ステップＳ２０５）、大きいと判定する場合には（ステップＳ２０５のＹｅｓ）、閾値Ｋを大きい値に変更する（ステップＳ２０６）。そして、ビット削減層特定部１７は、ビット削減ニューラルネットワークを新たな高精度ニューラルネットワークＮＮ^Ｔとして扱い、ステップＳ２０２からの処理を繰り返し実行する。したがって、ステップＳ２０２では、そのビット削減ニューラルネットワークである新たな高精度ニューラルネットワークＮＮ^Ｔが、次のステップＳ２０３でビット削減が行われる直前のニューラルネットワークＮＮ^＊として保持される。

一方、ビット削減層特定部１７は、ステップＳ２０５で評価値が目標値よりも小さいと判定する場合には（ステップＳ２０５のＮｏ）、最適化されたニューラルネットワークを決定する（ステップＳ２０７）。つまり、ステップＳ２０２で保持されているニューラルネットワークＮＮ^＊であって、最後にビット削減が行われる直前のニューラルネットワークが、最適化されたニューラルネットワークとして決定される。なお、ステップＳ２０５において、評価値が目標値と等しいと判定される場合には、ビット削減層特定部１７は、直前のステップＳ２０３によって生成されたビット削減ニューラルネットワークを、最適化されたニューラルネットワークとして決定する。

このように、本実施の形態におけるビット削減層特定部１７は、ステップＳ２０４の処理として第３処理を行う。この第３処理では、ビット削減層特定部１７は、ビット削減ニューラルネットワークへの評価用データの入力に対して出力される認識結果に基づく評価値であって、オブジェクトの認識精度が高いほど大きい値を示す第３評価値を導出する。そして、ビット削減層特定部１７は、ステップＳ２０６のように、その第３評価値が目標値よりも大きい場合には、閾値Ｋを大きくすることによってその閾値Ｋを更新する第４処理を行う。その後、ビット削減層特定部１７は、ビット削減ニューラルネットワークを新たな高精度ニューラルネットワークＮＮ^Ｔとして用い、かつ、更新された閾値Ｋを用いて、上述の第２処理、第３処理、および第４処理を繰り返し実行する。また、繰り返し実行される第２処理では、ビット削減層特定部１７は、新たな高精度ニューラルネットワークＮＮ^Ｔに含まれる対象範囲［Ｓ，Ｇ］内の複数の層のうちの、ビット削減が未だ行われていない少なくとも１つの層から、それぞれ更新された閾値Ｋ以下の影響度を有する少なくとも１つの層を特定する。

また、その第２処理および第３処理が繰り返し実行され、最後に実行された第３処理において導出された第３評価値が目標値よりも小さい場合には、ビット削減層特定部１７は、最後の第２処理の直前に実行された第２処理によって生成されたビット削減ニューラルネットワークを、最終的なニューラルネットワークとして出力する。つまり、ステップＳ２０２で保持されているニューラルネットワークＮＮ^＊が、最終的なニューラルネットワーク、すなわち最適化されたニューラルネットワークとして決定される。

このように閾値利用特定処理では、ステップＳ２０４で導出される評価値が目標値よりも大きい限り、閾値が更新され、ビット削減が繰り返される。したがって、必要以上の認識精度を持つことのないニューラルネットワークを適切に見つけ出すことができる。さらに、最後のステップＳ２０３の処理によって生成されたビット削減ニューラルネットワークの評価値が目標値よりも小さくても、その直前のステップＳ２０３の処理によって生成されたビット削減ニューラルネットワークの評価値は目標値よりも大きい。このような目標値よりも大きい評価値が導出されるビット削減ニューラルネットワークが、最終的なニューラルネットワークとして出力されるため、認識精度を一定以上に保ちながらデータ量が十分に削減されたニューラルネットワークをより適切に見つけ出すことができる。

［最小影響度特定処理］
図１６は、ビット削減層特定部１７による最小影響度特定処理の一例を模式的に示す図である。

ビット削減層特定部１７は、高精度ニューラルネットワークＮＮ^Ｔの対象範囲［Ｓ，Ｇ］に含まれる複数の層のうちの、最も小さい影響度を有する１つの層を特定し、特定されたその１つの層に対してビット削減を行う。その結果、ビット削減ニューラルネットワークが生成される。そして、ビット削減層特定部１７は、評価用データ格納部１１に格納されている評価用データを用いて、そのビット削減ニューラルネットワークの評価値を導出し、その評価値が目標値よりも大きいか否かを判定する。その結果、評価値が目標値よりも大きければ、ビット削減層特定部１７は、そのビット削減ニューラルネットワークを新たな高精度ニューラルネットワークＮＮ^Ｔとして扱う。そして、ビット削減層特定部１７は、その新たな高精度ニューラルネットワークＮＮ^Ｔからのビット削減ニューラルネットワークの生成を繰り返す。つまり、その新たな高精度ニューラルネットワークＮＮ^Ｔに含まれる、ビット削減が未だ行われていない少なくとも１つの層のうち、最も小さい影響度を有する１つの層に対してビット削減が行われることによって、ビット削減ニューラルネットワークが繰り返し生成される。つまり、影響度が小さい層から順に、その層に対してビット削減が行われる。その結果、最適化されたニューラルネットワークが生成される。

図１７は、ビット削減層特定部１７による最小影響度特定処理の一例を示すフローチャートである。

ビット削減層特定部１７は、まず、ビット削減が行われる直前のニューラルネットワークＮＮ^＊として、高精度ニューラルネットワークＮＮ^Ｔを保持する（ステップＳ２１１）。

次に、ビット削減層特定部１７は、高精度ニューラルネットワークＮＮ^Ｔの対象範囲［Ｓ，Ｇ］から、最も小さい影響度を有する層を特定し、その特定された層に対してビット削減を行う（ステップＳ２１２）。これにより、ビット削減ニューラルネットワークが生成される。つまり、上述の第２処理が行われる。そして、ビット削減層特定部１７は、そのビット削減ニューラルネットワーク、すなわちビット削減後の高精度ニューラルネットワークＮＮ^Ｔの評価値を導出する（ステップＳ２１３）。

次に、ビット削減層特定部１７は、ステップＳ２１３で導出された評価値が目標値よりも大きいか否かを判定する（ステップＳ２１４）。ここで、ビット削減層特定部１７は、評価値が大きいと判定する場合には（ステップＳ２１４のＹｅｓ）、ビット削減ニューラルネットワークを新たな高精度ニューラルネットワークＮＮ^Ｔとして扱い、ステップＳ２１１からの処理を繰り返し実行する。したがって、ステップＳ２１１では、そのビット削減ニューラルネットワークである新たな高精度ニューラルネットワークＮＮ^Ｔが、次のステップＳ２１２でビット削減が行われる直前のニューラルネットワークＮＮ^＊として保持される。

一方、ビット削減層特定部１７は、ステップＳ２１４で評価値が目標値よりも小さいと判定する場合には（ステップＳ２１４のＮｏ）、最適化されたニューラルネットワークを決定する（ステップＳ２１５）。つまり、ステップＳ２１１で保持されているニューラルネットワークＮＮ^＊であって、最後にビット削減が行われる直前のニューラルネットワークが、最適化されたニューラルネットワークとして決定される。なお、ステップＳ２１４において、評価値が目標値と等しいと判定される場合には、ビット削減層特定部１７は、直前のステップＳ２１２によって生成されたビット削減ニューラルネットワークを、最適化されたニューラルネットワークとして決定する。

このように、本実施の形態におけるビット削減層特定部１７は、ステップＳ２１３の処理として第３処理を行う。この第３処理では、ビット削減層特定部１７は、ビット削減ニューラルネットワークへの評価用データの入力に対して出力される認識結果に基づく評価値であって、オブジェクトの認識精度が高いほど大きい値を示す第３評価値を導出する。そして、ビット削減層特定部１７は、その第３評価値が目標値よりも大きい場合には、ビット削減ニューラルネットワークを新たな高精度ニューラルネットワークＮＮ^Ｔとして用いて、上述の第２処理および第３処理を繰り返し実行する。また、繰り返し実行される第２処理では、ビット削減層特定部１７は、新たな高精度ニューラルネットワークＮＮ^Ｔに含まれる対象範囲［Ｓ，Ｇ］内の複数の層のうちの、ビット削減が未だ行われていない少なくとも１つの層から、最も小さい影響度を有する１つの層を特定する。

このように最小影響度特定処理では、ステップＳ２１２で導出される評価値が目標値よりも大きい限り、複数の層に対するビット削減がそれらの層の影響度の小さい順に行われる。したがって、必要以上の認識精度を持つことのないニューラルネットワークを適切に見つけ出すことができる。さらに、最後のステップＳ２１２の処理によって生成されたビット削減ニューラルネットワークの評価値が目標値よりも小さくても、その直前のステップＳ２１２の処理によって生成されたビット削減ニューラルネットワークの評価値は目標値よりも大きい。このような目標値よりも大きい評価値が導出されるビット削減ニューラルネットワークが、最終的なニューラルネットワークとして出力されるため、認識精度を一定以上に保ちながらデータ量が十分に削減されたニューラルネットワークをより適切に見つけ出すことができる。

［影響度更新特定処理］
図１８は、ビット削減層特定部１７による影響度更新特定処理の一例を模式的に示す図である。

ビット削減層特定部１７は、最適化されたニューラルネットワークを影響度更新特定処理によって生成する場合には、低ＮＮ生成部１４および影響度導出部１６のそれぞれによる処理結果を利用する。例えば、上述のように高精度ニューラルネットワークＮＮ^Ｔの対象範囲［Ｓ，Ｇ］に含まれる複数の層のそれぞれの影響度が、影響度導出部１６によって導出される。ビット削減層特定部１７は、その複数の層のうちの、最も小さい影響度を有する１つの層を特定し、特定されたその１つの層に対してビット削減を行う。その結果、ビット削減ニューラルネットワークが生成される。そして、ビット削減層特定部１７は、評価用データ格納部１１に格納されている評価用データを用いて、そのビット削減ニューラルネットワークの評価値を導出し、その評価値が目標値よりも大きいか否かを判定する。その結果、評価値が目標値よりも大きければ、ビット削減層特定部１７は、そのビット削減ニューラルネットワークを新たな高精度ニューラルネットワークＮＮ^Ｔとして低ＮＮ生成部１４に出力する。これにより、低ＮＮ生成部１４による低精度ニューラルネットワークＮＮ^Ｓの生成と、影響度導出部１６によるその低精度ニューラルネットワークＮＮ^Ｓを用いた上述の複数の層のそれぞれの影響度の導出とが、繰り返し実行される。その結果、ビット削減ニューラルネットワークの生成が繰り返し実行されて、最適化されたニューラルネットワークが生成される。

図１９は、本実施の形態におけるニューラルネットワーク最適化装置１０による全体的な処理の他の例を示すフローチャートである。このフローチャートは、ビット削減層特定部１７による影響度更新特定処理として、ステップＳ２２、Ｓ１００、およびＳ２１１～Ｓ２１６を含む。

まず、低ＮＮ生成部１４は、最低ビット精度ｂｍを設定する（ステップＳ２１）。そして、高ＮＮ生成部１２は、評価用データ格納部１１に格納されている複数の評価用データを用いた学習を行うことによって、高精度ニューラルネットワークＮＮ^Ｔを生成する（ステップＳ１１）。

次に、低ＮＮ生成部１４は、ステップＳ１１で生成された高精度ニューラルネットワークＮＮ^Ｔのビット精度を変換することによって、低精度ニューラルネットワークＮＮ^Ｓを生成する（ステップＳ２２）。このとき、低ＮＮ生成部１４は、高精度ニューラルネットワークＮＮ^Ｔに含まれる複数の層のそれぞれのビット精度のうち、ステップＳ２１で設定された最低ビット精度ｂｍよりも高いビット精度を変換する。つまり、低ＮＮ生成部１４は、最低ビット精度ｂｍよりも高いビット精度を有する層に対してビット削減を行う。したがって、高精度ニューラルネットワークＮＮ^Ｔに含まれる全ての層のビット精度が最低ビット精度ｂｍよりも高ければ、低ＮＮ生成部１４は、図１２に示すステップＳ１２と同様の処理を行う。

そして、影響度導出部１６は、ステップＳ１１で生成された高精度ニューラルネットワークＮＮ^Ｔと、ステップＳ２２で生成された低精度ニューラルネットワークＮＮ^Ｓとを用いて、複数の層のそれぞれの影響度を導出する（ステップＳ１００）。つまり、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔの対象範囲［Ｓ，Ｇ］に含まれる複数の層のそれぞれの影響度を導出する。なお、ステップＳ２２およびステップＳ１００を含む処理は、上述の第１処理である。

次に、ビット削減層特定部１７は、図１７に示すフローチャートと同様、ステップＳ２１１～Ｓ２１４の処理を行う。つまり、ビット削減層特定部１７は、高精度ニューラルネットワークＮＮ^Ｔの対象範囲［Ｓ，Ｇ］から、最も小さい影響度を有する層を特定し、その特定された層に対してビット削減を行う（ステップＳ２１２）。これにより、ビット削減ニューラルネットワークが生成される。つまり、上述の第２処理が行われる。そして、ビット削減層特定部１７は、そのビット削減ニューラルネットワーク、すなわちビット削減後の高精度ニューラルネットワークＮＮ^Ｔの評価値を導出する（ステップＳ２１３）。次に、ビット削減層特定部１７は、ステップＳ２１３で導出された評価値が目標値よりも大きいか否かを判定する（ステップＳ２１４）。

ここで、評価値が目標値よりも大きいと判定されると（ステップＳ２１４のＹｅｓ）、低ＮＮ生成部１４は、上述の対象範囲［Ｓ，Ｇ］に含まれる全ての層のビット精度が最低ビット精度ｂｍであるか否かを判定する（ステップＳ２１６）。つまり、ステップＳ２１２で生成されたビット削減ニューラルネットワークの対象範囲［Ｓ，Ｇ］に含まれる全ての層のビット精度が最低ビット精度ｂｍであるか否かが判定される。そして、低ＮＮ生成部１４は、全ての層のビット精度が最低ビット精度ｂｍではないと判定すると（ステップＳ２１６のＮｏ）、ステップＳ２２からの処理を繰り返し実行する。ステップＳ２２からの処理が繰り返し実行される場合には、直前のステップＳ２１２で生成されたビット削減ニューラルネットワークが新たな高精度ニューラルネットワークＮＮ^Ｔとして扱われる。

一方、ステップＳ２１４で評価値が目標値よりも小さいと判定される場合には（ステップＳ２１４のＮｏ）、ビット削減層特定部１７は、最適化されたニューラルネットワークを決定する（ステップＳ２１５）。つまり、ステップＳ２１１で保持されているニューラルネットワークＮＮ^＊であって、最後にビット削減が行われる直前のニューラルネットワークが、最適化されたニューラルネットワークとして決定される。

また、ステップＳ２１６で全ての層のビット精度が最低ビット精度ｂｍであると判定されると（ステップＳ２１６のＹｅｓ）、ビット削減層特定部１７は、上述と同様に、最適化されたニューラルネットワークを決定する（ステップＳ２１５）。また、この場合には、ビット削減層特定部１７は、直前のステップＳ２１２で生成されたビット削減ニューラルネットワークを、最適化されたニューラルネットワークに決定してもよい。

このように、本実施の形態におけるビット削減層特定部１７は、ステップＳ２１２のように、高精度ニューラルネットワークＮＮ^Ｔの対象範囲［Ｓ，Ｇ］に含まれる複数の層のうちの、最も小さい影響度を有する１つの層を特定し、特定されたその１つの層に対してビット削減を行う。さらに、ビット削減層特定部１７は、ステップＳ２１３の処理として第３処理を行う。この第３処理では、ビット削減層特定部１７は、ビット削減ニューラルネットワークへの評価用データの入力に対して出力される認識結果に基づく評価値であって、オブジェクトの認識精度が高いほど大きい値を示す第３評価値を導出する。そして、ビット削減層特定部１７は、その第３評価値が目標値よりも大きい場合には、ビット削減ニューラルネットワークを新たな高精度ニューラルネットワークＮＮ^Ｔとして用いて、上述の第１処理、第２処理、および第３処理を繰り返し実行する。なお、その第１処理は、ステップＳ２２およびステップＳ１００を含む処理であり、第２処理は、ステップＳ２１２の処理であり、第３処理は、ステップＳ２１３の処理である。

このように影響度更新特定処理では、ビット削減ニューラルネットワークが新たな高精度ニューラルネットワークＮＮ^Ｔとして扱われ、その新たな高精度ニューラルネットワークＮＮ^Ｔに含まれる複数の層のそれぞれの影響度が導出される。そして、それらの影響度を用いて、その新たな高精度ニューラルネットワークＮＮ^Ｔに含まれる複数の層からビット削減される層が特定される。したがって、元の高精度ニューラルネットワークＮＮ^Ｔに対して導出された古い影響度を用いることなく、新たな高精度ニューラルネットワークＮＮ^Ｔに対して適切な影響度を用いることができる。その結果、ニューラルネットワークの最適解をより適切に見つけ出すことができる。さらに、最後のステップＳ２１２の処理によって生成されたビット削減ニューラルネットワークの評価値が目標値よりも小さくても、その直前のステップＳ２１２の処理によって生成されたビット削減ニューラルネットワークの評価値は目標値よりも大きい。このような目標値よりも大きい評価値が導出されるビット削減ニューラルネットワークが、最終的なニューラルネットワークとして出力されるため、認識精度を一定以上に保ちながらデータ量が十分に削減されたニューラルネットワークをより適切に見つけ出すことができる。

（変形例）
以上、一つまたは複数の態様に係るニューラルネットワーク最適化装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、他の構成要素を組み合わせて構築される形態も、本開示の範囲内に含まれてもよい。

例えば、上記実施の形態における影響度導出部１６は、図８などに示すように、高精度ニューラルネットワークＮＮ^Ｔに含まれる入力層から前隣層までの各層のビット精度が低く、高精度ニューラルネットワークＮＮ^Ｔに含まれる後隣層から出力層までの各層のビット精度が高い状況において、導出対象層の影響度を導出する。しかし、逆に、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔに含まれる入力層から前隣層までの各層のビット精度が高く、高精度ニューラルネットワークＮＮ^Ｔに含まれる後隣層から出力層までの各層のビット精度が低い状況において、導出対象層の影響度を導出してもよい。また、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔに含まれる入力層から前隣層までの各層のビット精度と、後隣層から出力層までの各層のビット精度とが高い状況において、導出対象層の影響度を導出してもよい。つまり、影響度導出部１６は、高精度ニューラルネットワークＮＮ^Ｔのうち、導出対象層のみに対してビット削減が行われているときの評価値と、何れの層にもビット削減が行われていないときの評価値との差分を、その導出対象層の影響度として導出してもよい。

また、上記実施の形態におけるビット削減層特定部１７は、図１５のステップＳ２０３および図１７のステップＳ２１２では、既にビット削減されている層に対しては、さらなるビット削減を行わない。しかし、ビット削減層特定部１７は、全ての層に対して既にビット削減されている場合には、さらに、それらの層の影響度に基づいてビット削減の対象とされる層を特定し、その層のビット精度を削減してもよい。

また、上記実施の形態におけるニューラルネットワークは、畳み込みニューラルネットワークでもよく、その他の種類のニューラルネットワークであってもよい。また、上記実施の形態における学習は、機械学習であればどのような学習であってもよく、例えばディープラーニングであってもよい。また、上記実施の形態では、層を構成するパラメータのビット精度が削減されるが、そのパラメータには、重みおよびバイアスだけでなく、出力データも含まれていてもよい。また、重み、バイアス、および出力データのうちの少なくとも１つのビット精度が削減されてもよい。

また、上記実施の形態におけるニューラルネットワーク最適化装置１０は、高ＮＮ生成部１２を備えているが、その高ＮＮ生成部１２を備えていなくてもよい。この場合には、ニューラルネットワーク最適化装置１０は、高精度ニューラルネットワークＮＮ^Ｔを、例えば通信ネットワークなどを介してサーバなどの他の装置から取得してもよく、ニューラルネットワーク最適化装置１０に接続されているメモリなどの記録媒体から取得してもよい。また、ニューラルネットワーク最適化装置１０は、評価用データ格納部１１、高ＮＮ格納部１３および低ＮＮ格納部１５などの格納部を備えているが、これらの格納部を備えていなくてもよい。この場合には、ニューラルネットワーク最適化装置１０は、外部の記録媒体などをそれらの格納部の代わりに用いてもよい。

なお、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ（Central Processing Unit）またはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態のニューラルネットワーク最適化装置などを実現するソフトウェアプログラムは、コンピュータに、図１２、図１３、図１５、図１７および図１９のうちの少なくとも１つのフローチャートによって示される処理を実行させる。

なお、以下のような場合も本開示に含まれる。

（１）上記の少なくとも１つの装置は、具体的には、マイクロプロセッサ、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。そのＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、上記の少なくとも１つの装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の少なくとも１つの装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（Large Scale Integration：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の少なくとも１つの装置を構成する構成要素の一部または全部は、その装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、コンピュータプログラムからなるデジタル信号であるとしてもよい。

また、本開示は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ（Compact Disc）－ＲＯＭ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Blu-ray（登録商標） Disc）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。

また、本開示は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

本開示は、例えば、画像認識に用いられる高ビット精度のニューラルネットワークを、車両などの組み込み環境に実装されるニューラルネットワークに最適化する装置などに利用可能である。

１０ニューラルネットワーク最適化装置
１１評価用データ格納部
１２高ＮＮ生成部
１３高ＮＮ格納部
１４低ＮＮ生成部
１５低ＮＮ格納部
１６影響度導出部
１７ビット削減層特定部

Claims

コンピュータによって実行されるニューラルネットワーク最適化方法であって、
オブジェクトを示す評価用データの入力に対して前記オブジェクトの認識結果を出力する第１ニューラルネットワークに含まれる予め定められた複数の層のそれぞれについて、当該層を構成するパラメータのビット精度を削減する処理であるビット削減を行うことによって、当該層のビット削減が前記第１ニューラルネットワークの認識結果に与える影響度を導出する第１処理を行い、
前記第１ニューラルネットワークに含まれる前記複数の層のうちの、前記複数の層のそれぞれの前記影響度に基づいて特定される少なくとも１つの層のそれぞれに対してビット削減を行うことによって、第２ニューラルネットワークを生成する第２処理を行い、
前記第１処理では、
前記第１ニューラルネットワークに含まれる前記複数の層のそれぞれに対してビット削減を行うことによって低精度ニューラルネットワークを生成し、
前記低精度ニューラルネットワークに含まれる複数の層のそれぞれから出力される出力データを取得し、
前記第１ニューラルネットワークに対して前記出力データを入力し、前記出力データの入力に対する前記第１ニューラルネットワークの順伝播によって得られる認識結果に基づいて、前記複数の層のそれぞれについての前記影響度を導出する、
ニューラルネットワーク最適化方法。
前記第１処理では、
前記第１ニューラルネットワークに含まれる前記複数の層のうちの１つの層である導出対象層の影響度を導出するときには、
前記導出対象層に対してビット削減が行われていないときの認識結果に基づく第１評価値と、前記導出対象層に対してビット削減が行われているときの認識結果に基づく第２評価値との差分を算出することによって、前記導出対象層の前記影響度を導出する、
請求項１に記載のニューラルネットワーク最適化方法。
前記第１処理では、

前記評価用データの入力に対する前記低精度ニューラルネットワークの順伝播によって、前記低精度ニューラルネットワークに含まれる複数の層のそれぞれから出力される出力データを取得し、
前記第１ニューラルネットワークにおいて、前記導出対象層よりも入力側の隣に前隣層があり、前記導出対象層よりも出力側の隣に後隣層がある場合、
前記低精度ニューラルネットワークに含まれる複数の層のうちの、前記前隣層に対応する低精度前隣層からの前記出力データを前隣層出力データとして、ビット削減が行われていない前記導出対象層に入力し、
前記前隣層出力データの前記導出対象層への入力に対する前記第１ニューラルネットワークの順伝播によって得られる認識結果に基づいて、前記第１評価値を導出し、
前記低精度ニューラルネットワークに含まれる前記複数の層のうちの、前記導出対象層に対応する低精度導出対象層からの前記出力データを導出対象層出力データとして、ビット削減が行われていない前記後隣層に入力し、
前記導出対象層出力データの前記後隣層への入力に対する前記第１ニューラルネットワークの順伝播によって得られる認識結果に基づいて、前記第２評価値を導出する、
請求項２に記載のニューラルネットワーク最適化方法。
前記第２処理では、
前記第１ニューラルネットワークに含まれる前記複数の層のうちの、それぞれ閾値以下の影響度を有する少なくとも１つの層を特定し、
特定された前記少なくとも１つの層のそれぞれに対してビット削減を行う、
請求項３に記載のニューラルネットワーク最適化方法。
前記ニューラルネットワーク最適化方法では、さらに、
前記第２ニューラルネットワークへの前記評価用データの入力に対して出力される認識結果に基づく評価値であって、前記オブジェクトの認識精度が高いほど大きい値を示す第３評価値を導出する第３処理を行い、
前記第３評価値が目標値よりも大きい場合には、前記閾値を大きくすることによって前記閾値を更新する第４処理を行い、
前記第２ニューラルネットワークを新たな第１ニューラルネットワークとして用い、かつ、更新された前記閾値を用いて、前記第２処理、前記第３処理、および前記第４処理を繰り返し実行し、
繰り返し実行される前記第２処理では、
前記新たな第１ニューラルネットワークに含まれる前記複数の層のうちの、ビット削減が未だ行われていない少なくとも１つの層から、それぞれ更新された前記閾値以下の影響度を有する少なくとも１つの層を特定する、
請求項４に記載のニューラルネットワーク最適化方法。
前記第２処理では、
前記第１ニューラルネットワークに含まれる前記複数の層のうちの、最も小さい影響度を有する１つの層を特定し、
特定された前記１つの層に対してビット削減を行う、
請求項３に記載のニューラルネットワーク最適化方法。
前記ニューラルネットワーク最適化方法では、さらに、
前記第２ニューラルネットワークへの前記評価用データの入力に対して出力される認識結果に基づく評価値であって、前記オブジェクトの認識精度が高いほど大きい値を示す第３評価値を導出する第３処理を行い、
前記第３評価値が目標値よりも大きい場合には、前記第２ニューラルネットワークを新たな第１ニューラルネットワークとして用いて、前記第２処理および前記第３処理を繰り返し実行し、
繰り返し実行される前記第２処理では、
前記新たな第１ニューラルネットワークに含まれる前記複数の層のうちの、ビット削減が未だ行われていない少なくとも１つの層から、最も小さい影響度を有する１つの層を特定する、
請求項６に記載のニューラルネットワーク最適化方法。
前記ニューラルネットワーク最適化方法では、さらに、
前記第２ニューラルネットワークへの前記評価用データの入力に対して出力される認識結果に基づく評価値であって、前記オブジェクトの認識精度が高いほど大きい値を示す第３評価値を導出する第３処理を行い、
前記第３評価値が目標値よりも大きい場合には、前記第２ニューラルネットワークを新たな第１ニューラルネットワークとして用いて、前記第１処理、前記第２処理および前記第３処理を繰り返し実行する、
請求項６に記載のニューラルネットワーク最適化方法。
前記ニューラルネットワーク最適化方法では、さらに、
前記第２処理および前記第３処理が繰り返し実行され、最後に実行された前記第３処理において導出された前記第３評価値が目標値よりも小さい場合には、
最後の前記第２処理の直前に実行された前記第２処理によって生成された前記第２ニューラルネットワークを、最終的なニューラルネットワークとして出力する、
請求項５、７または８に記載のニューラルネットワーク最適化方法。
オブジェクトを示す評価用データの入力に対して前記オブジェクトの認識結果を出力する第１ニューラルネットワークに含まれる予め定められた複数の層のそれぞれについて、当該層を構成するパラメータのビット精度を削減する処理であるビット削減を行うことによって、当該層のビット削減が前記第１ニューラルネットワークの認識結果に与える影響度を導出する第１処理部と、
前記第１ニューラルネットワークに含まれる前記複数の層のうちの、前記複数の層のそれぞれの前記影響度に基づいて特定される少なくとも１つの層のそれぞれに対してビット削減を行うことによって、第２ニューラルネットワークを生成する第２処理部とを備え、
前記第１処理部は、
前記第１ニューラルネットワークに含まれる前記複数の層のそれぞれに対してビット削減を行うことによって低精度ニューラルネットワークを生成し、
前記低精度ニューラルネットワークに含まれる複数の層のそれぞれから出力される出力データを取得し、
前記第１ニューラルネットワークに対して前記出力データを入力し、前記出力データの入力に対する前記第１ニューラルネットワークの順伝播によって得られる認識結果に基づいて、前記複数の層のそれぞれについての前記影響度を導出する、
ニューラルネットワーク最適化装置。
オブジェクトを示す評価用データの入力に対して前記オブジェクトの認識結果を出力する第１ニューラルネットワークに含まれる予め定められた複数の層のそれぞれについて、当該層を構成するパラメータのビット精度を削減する処理であるビット削減を行うことによって、当該層のビット削減が前記第１ニューラルネットワークの認識結果に与える影響度を導出する第１処理と、
前記第１ニューラルネットワークに含まれる前記複数の層のうちの、前記複数の層のそれぞれの前記影響度に基づいて特定される少なくとも１つの層のそれぞれに対してビット削減を行うことによって、第２ニューラルネットワークを生成する第２処理とを、コンピュータに実行させ、
前記第１処理では、
前記第１ニューラルネットワークに含まれる前記複数の層のそれぞれに対してビット削減を行うことによって低精度ニューラルネットワークを生成し、
前記低精度ニューラルネットワークに含まれる複数の層のそれぞれから出力される出力データを取得し、
前記第１ニューラルネットワークに対して前記出力データを入力し、前記出力データの入力に対する前記第１ニューラルネットワークの順伝播によって得られる認識結果に基づいて、前記複数の層のそれぞれについての前記影響度を導出する、
プログラム。