JP2023167633A

JP2023167633A - 情報処理装置、情報処理方法、プログラム、及び記憶媒体

Info

Publication number: JP2023167633A
Application number: JP2022078954A
Authority: JP
Inventors: 朝貴田港; Tomoki Taminato
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-11-24
Also published as: US20230368006A1

Abstract

【課題】量子化する演算を含むニューラルネットワークの中間層において、量子化パラメータを小さく設定しながら認識精度の劣化を抑える。【解決手段】中間層のデータを得るために、入力データに対する重み係数を用いた第１の演算及び第１の演算の結果を量子化する第２の演算を行うニューラルネットワークにおける、第１の演算による出力の大きさを示す情報を取得する。取得した情報と、量子化に用いる量子化パラメータと、に基づいて、出力の大きさを調節するように、ニューラルネットワークにおける第１の演算を制御する。【選択図】図４

Description

本発明は、情報処理装置、情報処理方法、プログラム、及び記憶媒体に関する。

近年、ニューラルネットワーク（ＮＮ）を用いた画像認識技術が研究開発されている。昨今のＮＮはレイヤ数が多く計算量が大きくなることがある一方で、計算資源が限られている場合もあり、効率のよい演算方法が求められている。

効率のよい演算方法として、ＮＮのデータを低精度の数値に量子化して演算する方法が知られており、この量子化により計算リソースの乏しい機器でもＮＮの動作を行いやすくすることができる。

非特許文献１では、高精度の数値で学習したＮＮについて、レイヤごとに大量のデータを使用して出力値の分布を求め、量子化後の分布の損失が最小となる量子化パラメータを選択する技術が開示されている。

８－ｂｉｔＩｎｆｅｒｅｎｃｅｗｉｔｈＴｅｎｓｏｒＲＴＳｚｙｍｏｎＭｉｇａｃｚ，ＮＶＩＤＩＡ，Ｍａｙ８, ２０１７．ＤｅｌｖｉｎｇＤｅｅｐｉｎｔｏＲｅｃｔｉｆｉｅｒｓ：ＳｕｒｐａｓｓｉｎｇＨｕｍａｎ－ＬｅｖｅｌＰｅｒｆｏｒｍａｎｃｅｏｎＩｍａｇｅＮｅｔＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＫａｉｍｉｎｇＨｅ，ＸｉａｎｇｙｕＺｈａｎｇ，ＳｈａｏｑｉｎｇＲｅｎ，ＪｉａｎＳｕｎ；ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ），２０１５，ｐｐ．１０２６－１０３４．

しかしながら、一般に、ＮＮの中間層の出力を量子化する際、量子化パラメータを小さくすると出力値の切り捨て又は丸めによりＮＮの認識精度が劣化しやすくなる。一方で、量子化パラメータを大きくすると出力値の分解能が下がるため、ＮＮの認識精度が劣化してしまう場合がある。さらに、各レイヤで個別の量子化パラメータを設定できると認識精度の劣化が抑制できるが、組み合わせ爆発が生じることも多い。

本発明は、量子化する演算を含むニューラルネットワークの中間層において、量子化パラメータを小さく設定しながら認識精度の劣化を抑えることを目的とする。

本発明の目的を達成するために、例えば、一実施形態に係る情報処理装置は以下の構成を備える。すなわち、中間層のデータを得るために、入力データに対する重み係数を用いた第１の演算及び前記第１の演算の結果を量子化する第２の演算を行うニューラルネットワークにおける、前記第１の演算による出力の大きさを示す情報を取得する取得手段と、前記情報と、前記量子化に用いる量子化パラメータと、に基づいて、前記出力の大きさを調節するように、前記ニューラルネットワークにおける前記第１の演算を制御する制御手段と、を備える。

量子化する演算を含むニューラルネットワークの中間層において、量子化パラメータを小さく設定しながら認識精度の劣化を抑える。

実施形態１に係る情報処理装置のハードウェア構成の一例を示す図。実施形態１に係る情報処理装置の機能構成の一例を示す図。実施形態１に係る出力分布の算出処理の一例を示すフローチャート。実施形態１に係る情報処理装置が有するＮＮのモデルの一例を示す図。実施形態１に係る重みの決定処理の一例を示すフローチャート。実施形態２に係る情報処理装置の機能構成の一例を示す図。実施形態２に係るＮＮのモデルの重み補正を説明するための図。実施形態３に係る情報処理装置の機能構成の一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

図１は、本実施形態に係る情報処理装置１のハードウェア構成の一例を示すブロック図である。本実施形態に係る情報処理装置１は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、記憶ぶ１４、入出力部１５、表示部１６、及び接続バス１７を含んでいる。

ＣＰＵ１１は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であり、ＲＯＭ１２及びＲＡＭ１３に格納された制御プログラムを実行することにより、以下に説明する情報処理装置１の機能部が行う各種制御を行う。また、ＣＰＵ１１は、ＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ，ＭｕｔｉｐｌｅＤａｔａ）命令を実行し、後述する推論処理において、８ビット整数型の演算をまとめて処理する。

ＲＯＭ１２は不揮発性メモリであり、制御プログラム及び各種パラメータを含むデータを格納する。ここでは、制御プログラムは、ＣＰＵ１１で実行され、各種制御処理を実現する。ＲＡＭ１３は揮発性メモリであり、画像、並びに制御プログラム及びその実行結果を一時的に格納する。

記憶部１４は、ハードディスク又はフラッシュメモリなどの書き換え可能な二次記憶装置であり、本実施形態に係る各処理に用いる様々なデータを格納する。記憶部１４は、例えば量子化パラメータの計算に用いる画像、並びに制御プログラム及びその処理結果などを格納することができる。これらの各種情報は、ＲＡＭ１３に出力され、ＣＰＵ１１がプログラムの実行に利用する。

入出力部１５は、外部とのインターフェースとして機能する。入出力部１５は、ユーザの入力を取得し、例えばマウス及びキーボード、又はタッチパネルなどであってもよい。表示部１６は、例えばモニタであり、プログラムの処理結果又は画像などを表示できる。表示部１６は、例えばタッチパネルとして、入出力部１５と同時に実装されてもよい。接続バス１７は、情報処理装置１が有する各機能部を通信可能に接続し、相互にデータの送受信を行う。

本実施形態においては、以下に説明する各処理が、ＣＰＵ１１を用いてソフトウェアで実現されるものとして説明を行うが、同様に処理が可能なのであれば、処理の一部又は全部がハードウェアで実現されてもかまわない。ハードウェアとしては、専用回路（ＡＳＩＣ）又はプロセッサ（リコンフィギュラブルプロセッサ、若しくはＤＳＰ）などが用いられてもよい。また、各処理を行うソフトウェアが、ネットワーク又は各種記憶媒体を介して取得され、パーソナルコンピュータなどの処理装置により実行されてもよい。

図２は、本実施形態に係る情報処理装置１の機能構成の一例を示すブロック図である。本実施形態に係る情報処理装置１は、ＮＮの中間層のデータを得るために、入力データに対する重み係数を用いた第１の演算及びその演算の結果を量子化する第２の演算を行うＮＮにおける、第１の演算による出力の大きさを示す情報（出力分布）を取得する。次いで、情報処理装置１は、取得した出力分布と、量子化に用いる量子化パラメータと、に基づいて、第１の演算による出力の大きさを調節するように、ＮＮにおける第１の演算を制御する。そのために、情報処理装置１は、データ取得部２０１、モデル取得部２０２、分布算出部２０３、重み決定部２０４、及び量子化部２０９を含んでいる。また、重み決定部２０４は、パラメータ取得部２０５、正則化項算出部２０６、教師取得部２０７、及び学習部２０８を含んでいる。さらに、正則化項算出部２０６は、係数算出部２１０、及び補正量算出部２１１を含んでいる。各機能部による処理の詳細な説明は後述する。

図４は、本実施形態において用いられるＮＮのモデルの一例を示す図であり、ＮＮの中間層を含む３つのレイヤ４０１～４０３が図示されている。図４に示されるレイヤは、ＣＮＮレイヤ、正規化レイヤ、ＲｅＬＵレイヤ、及びＦＣレイヤの組み合わせで構成されている。ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）は、畳み込み処理を行うＮＮの一種である。ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）は全結合レイヤと呼ばれるＮＮの一種である。ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）は活性化関数の一種である。各レイヤが行う処理は、基本的には一般的なＮＮにおいて行われるものと同様であるため、詳細な説明は省略する。

ここでは、ＮＮから活性化関数までの組をレイヤの１単位とする。例えば、レイヤ４０１はＣＮＮレイヤ４０４、正規化レイヤ４０５、及びＲｅＬＵレイヤ４０６を１単位のレイヤとして有している。レイヤ４０２はレイヤ４０１と同様の構成のレイヤを有する中間層である。また、レイヤ４０３は、ＦＣレイヤ４１０及びＲｅＬＵレイヤ４１１を１単位のレイヤとして有している。以下、レイヤ（中間層）の出力とは、これの１単位のレイヤの出力を指すものとする。また、以下において、レイヤｉ（１≦ｉ）と称する場合、ｉはレイヤの１単位のインデックスを指すものとする。図４の例では、レイヤ１はレイヤ４０１に、レイヤ２はレイヤ４０２、に、レイヤ３はレイヤ４０３に対応する。

レイヤ４０１は入力層であり、入力画像に対して畳み込み演算を行う。また、レイヤ４０３は出力層であり、入力画像上の特定の物体の尤度マップを出力するものとする。これは一例であり、レイヤの数が異なっていてもよく、また異なる処理を行うレイヤが含まれていてもよい。例えば、レイヤがプーリング層を含んでいてもよい。また、この例ではＮＮは学習済みのモデルを用いるものとするが、例えば非特許文献２に示されるような、公知のＮＮの重みの初期化手法を用いて初期化されたモデルを代わりに用いてもよい。

本実施形態に係る情報処理装置１は、ＮＮへ入力データを入力し、推論結果を出力する。ここで、分布算出部２０３は、ＮＮに入力データを入力した際に、各中間層における重み係数（以下、単純に重みと称する）を用いた演算を第１の演算として、出力分布を取得する。ここでは、出力分布Ｙ_ｉは、レイヤｉにおける出力の大きさを示す情報であり、例えばレイヤｉの出力の最大値であってもよく、レイヤｉの出力値を昇順に並べた上から９９．９％に対応する値であってもよい。また出力分布Ｙ_ｉは、出力値の平均μ_ｉと標準偏差σ_ｉを用いて、以下の式（１）で算出される値であってもよい。ここで、ｎは例えば４又は５など、所望の条件に応じて設定が可能である。このように、本実施形態においては、出力分布は、第１の演算による出力の分布に基づいて算出される情報であり、とくに、それらの出力の外れ値を除く上限を示す情報として算出されてもよい。本実施形態においては、入力データのミニバッチの数をＮ、レイヤの出力チャンネル数をＭとし、Ｎ×Ｍの出力値から出力分布が取得される。
Ｙ_ｉ＝μ_ｉ＋ｎσ_ｉ式（１）

本実施形態に係る情報処理装置１は、量子化パラメータを設定し、第１の演算の結果（レイヤの出力）を含むＮＮのデータを量子化する第２の演算を行うことができる。ここで、レイヤの出力を量子化する際に、その出力が量子化パラメータよりも大きい場合には、量子化の際に出力値の切り捨て又は丸めが多く発生してしまう場合が多く、ＮＮの認識精度が低下してしまう場合がある。そのような観点から、情報処理装置１は、出力分布と量子化パラメータとに基づいて、レイヤの出力の大きさを調整するように、第１の演算を制御する。特に、出力分布が量子化パラメータに対して小さくなるように（例えば、量子化パラメータ以下となるように）ＮＮの重みを調整することにより、量子化パラメータを大きくせず、量子化の際の認識精度の劣化を低減させることが可能となる。

本実施形態に係る情報処理装置１は、量子化パラメータに基づいて、出力分布が小さくなるように、ＮＮの学習を行う。以下、そのような例について説明を行う。

図３は、本実施形態に係る情報処理装置１が行う、出力分布を出力するまでの処理の一例を示すフローチャートである。Ｓ３０１でモデル取得部２０２は、ＮＮのモデルを取得する。

Ｓ３０２でデータ取得部２０１は、画像のミニバッチを取得する。ここでは、ミニバッチとは、１枚以上の画像で構成されるＮＮへの入力データであり、Ｓ３０１で取得したＮＮへ入力される入力画像のセットである。例えば、ミニバッチは３２枚の画像（ミニバッチに含まれる画像枚数をＮ（Ｎ＝３２）とする）のセットであるものとする。本実施形態においては、画像から認識対象を検出するモデルを用いるものとするが、ミニバッチに含まれる画像は認識対象を含んでいてもよく、含んでいなくてもよい。

Ｓ３０３で分布算出部２０３は、Ｓ３０２で取得したミニバッチの画像をＳ３０１で取得したモデルに入力し、推論処理を行う。ここでは、分布算出部２０３は、入力データに対する、ＮＮのレイヤにおける重み係数を用いた演算により、各レイヤから出力を行う。

Ｓ３０４で分布算出部２０３は、Ｓ３０３で行った推論処理について、レイヤごとに出力値を集計し、集計した出力値に基づいて出力分布Ｙ_ｉを取得する。Ｓ３０５で、分布算出部２０３は、各レイヤの出力分布の値の集合｛Ｙ_ｉ｝を出力する。

上述したように、本実施形態に係る情報処理装置１は、このような出力分布Ｙ_ｉが小さくなるよう、学習により（ＮＮの重みを決定することで）量子化による認識精度の劣化を低減する。すなわち、情報処理装置１は、出力分布が量子化パラメータを超える場合には損失が大きくなるように学習を行う。図５は、本実施形態に係る重み決定部２０４による、集合｛Ｙ_ｉ｝を用いた、一回の学習の際のＮＮの重みの決定処理の一例を示すフローチャートである。Ｓ５０１～Ｓ５１１について、基本的には公知のＮＮの学習方法を用いることができるため、詳細な説明は省略する。

Ｓ５０１で正則化項算出部２０６は、出力分布の値の集合｛Ｙ_ｉ｝を取得する。Ｓ５０２でパラメータ取得部２０５は、量子化パラメータｑを取得する。本実施形態においては、量子化パラメータｑは予め設定されており、以下においてはｑ＝４であるものとするが、他パラメータに応じて算出される値が量子化パラメータｑとして用いられても構わない。

図４の例では、各レイヤはＲｅＬＵレイヤを通して出力されるため、出力値は０以上となる。例えば、情報処理装置１は、ｑ＝４であることから、各レイヤにおける出力分布の上限を４以下としてもよい。この場合、単精度３２ｂｉｔのＮＮの各レイヤの出力範囲は［０，４］となる。ここで、精度を８ｂｉｔにすると、レイヤの出力値は（ビン幅）＝４／２５６＝０．０１５６２５で量子化される。例えば、単精度３２ｂｉｔのＮＮのレイヤの出力値が３．１であるとすると、８ｂｉｔに量子化された際の出力は３．０９３７５となる。この値を、［０，２５５］の８ｂｉｔの整数に換算すると、３．０９３７５×２５６／４＝１９８となる。

Ｓ５０３で係数算出部２１０は、取得したレイヤｉの出力分布Ｙ_ｉ及び量子化パラメータｑを用いて、レイヤｉにおける係数Ｃを算出する。ここで算出されるＣは、後述するＳ５０８における損失の算出処理で利用される。係数Ｃは、Ｙ_ｉの増加に伴い増加するような値であれば特に限定はされないが、例えば以下の式（２）又は式（３）によって算出されてもよく、式（２）及び式（３）においてＹ_ｉの代わりにＹ_ｉのべき乗が用いられてもよい。
Ｃ＝Ｙ_ｉ／ｑ式（２）
Ｃ＝ｅｘｐ（Ｙ_ｉ／ｑ）式（３）

Ｓ５０４で補正量算出部２１１は、出力分布Ｙ_ｉ及び量子化パラメータｑを用いて、正則化項を補正するための補正量Ｄを算出する。この補正量Ｄは、後述するＳ５０８の損失算出処理で利用される。補正量Ｄは、Ｙ_ｉが量子化パラメータｑを超えると大きくなるように、例えば以下の式（４）により定められる。

Ｓ５０５で学習部２０８は、モデル取得部２０２から学習を行うＮＮのモデルを取得する。Ｓ５０６で教師取得部２０７は、教師データに用いる、入力画像に対応するミニバッチを取得する。Ｓ５０７で教師取得部２０７は、Ｓ５０６で取得したミニバッチの正解データを取得し、それらを併せて教師データとする。正解データは、ミニバッチにおける、検出対象の領域を示す情報を含むデータである。なお、ここでは、Ｓ３０２で出力分布を算出するために使用されたミニバッチと同じ画像データが使用されるものとするが、特にこのように限定されるわけではなく、異なるミニバッチが用いられてもよい。

Ｓ５０８で学習部２０８は、Ｓ５０５で取得したモデルを用いて、Ｓ５０６で取得したミニバッチを入力とする推論処理を行い、その出力とＳ５０７で取得した正解データとの損失（目的関数）を算出する。ここで、ＮＮのタスクが領域を検出するタスクである場合、目的関数の損失関数は二乗誤差であってもよく、クロスエントロピー誤差であってもよい。ここでは、学習部２０８は、レイヤごとに正則化項を算出して損失に加算する。レイヤｉに対する正則化項は、レイヤｉの重みをｗ_ｉとした場合に、λ（ｗ_ｉ）^２として（Ｌ２正則化項として）与えられてもよい。なお、この正則化項はＬ１正則化項として与えられてもよく、これらの組み合わせにより与えられてもよい。λは正則化項にかかる係数であり、Ｓ５０３で算出した係数Ｃ、及びＳ５０４で算出した補正量Ｄに基づいて設定される。λは、例えば以下の式（５）として実装されてもよい。以下、単に「正則化項」と称する場合、このように、学習部２０８が用いる損失関数が含む正則化項を指すものとする。

ここで、α及びβは定数である。このような構成によれば、Ｙ_ｉがｑを超える場合、その超過値が大きいほど損失が大きくなるように学習を行うことで、レイヤの出力値が量子化パラメータを超えないようにＮＮの学習が進むため、量子化による認識精度の劣化を抑制することができる。

Ｓ５０９で学習部２０８は、Ｓ５０８で算出した損失を用いて、誤差逆伝播法を使って勾配を算出し、モデルの重みの更新量を算出する。Ｓ５１０で学習部２０８は、ＮＮの重みを更新する。Ｓ５１１でＳ５０１～Ｓ５１１について、基本的には公知のＮＮの学習方法を用いることができるため、詳細な説明は省略する。重みを更新したモデルを出力し、処理を終了する。このような学習処理を学習ロス又は認識精度が収束するまで（所望の精度まで）繰り返し適用することにより、ＮＮのモデルの重みを決定することができる。

このように、学習部２０８は、出力分布Ｙ_ｉが量子化パラメータｑに対して小さくなるようにＮＮの学習を行うことが可能である。なお、図５を参照して説明した処理は一例であり、Ｙ_ｉがｑを超える場合に損失が大きくなるように学習が行われるのであれば、損失の算出処理は特に限定はされない。

量子化部２０９は、重み決定部２０４で学習した、ＮＮの重みと出力を量子化する。ＮＮの量子化は公知の技術を使用可能であり、詳細な説明は省略する。本実施形態に係る量子化処理では、単精度浮動小数点の３２ｂｉｔでの値が整数の８ｂｉｔでの値に量子化されるものとするが、量子化を行うのであれば型及び値がこれらに限定されるわけではない。

このような構成によれば、情報処理装置１はまず、ＮＮの中間層における、入力データに対する重み係数を用いた第１の演算による出力の大きさを示す情報を取得する。次いで情報処理装置１は、取得した情報と、第１の演算の結果を含むＮＮの量子化に用いる量子化パラメータとに基づいて、上述の出力の大きさを調整するように第１の演算を制御することが可能となる。したがって、量子化パラメータを大きくせずに、中間層における演算の出力を小さくすることにより、量子化による認識精度の劣化を低減することができる。また、量子化パラメータをレイヤ間で共通の定数に設定することにより、各レイヤで個別の量子化パラメータを設定する場合と比べて処理の負荷を低減し、量子化パラメータが組み合わせ爆発を起こすことを防ぐことができる。

［実施形態２］
実施形態１においては、出力分布と量子化パラメータとに基づいて出力分布を調整するように、ＮＮの重みの学習を行う例について説明を行った。一方で、実施形態２に係る情報処理装置６は、出力分布と量子化パラメータとに基づいてＮＮの重みを補正することにより、出力分布の調整を行う。

図６は、本実施形態に係る情報処理装置６の機能構成の一例を示すブロック図である。情報処理装置６は、重み決定部２０４が重み補正部６０１を有することを除き、実施形態１の図２で説明したものと同様の構成を有し、同様の処理が可能であるため、重複する説明は省略する。なお、本実施形態においても量子化パラメータｑは４であるものとして以下の説明を行う。

図７は、本実施形態において用いられるＮＮのモデルの一例を示す図である、ＮＮに含まれる各レイヤからの出力分布、及びその出力分布を変換する処理を説明するために用いられる。図７においては、ＮＮの中間層を含む３つのレイヤ７０１～７０３が図示されているが、これらのレイヤはそれぞれ図４のレイヤ４０１～４０３と同様の構成を有しているため、重複する説明は省略する。

本実施形態においてはｑ＝４であるため、各レイヤで４を超える出力値は、量子化により４に丸められ認識精度が劣化してしまう。そのために、重み補正部６０１は、出力分布が量子化パラメータを超えないように、ＮＮの重みを（学習によらずに）補正する。

本実施形態に係る重み補正部６０１は、ＮＮの重みを、出力分布が量子化パラメータ以下になるように補正する。図７の例では、レイヤ７０１の出力分布の値が１５．３であり、量子化パラメータの４を超過している。この出力分布の値を量子化パラメータ以下にするために、重み補正部６０１は、ＮＮの重みを１／４倍となるように補正する。この補正倍率は、例えば、出力分布の値を１／１倍、１／２倍、１／３倍……と、順に１／Ｍ倍（Ｍは１以上の整数）していき、初めて出力分布が量子化パラメータ以下となったＭを探索することにより求めることができる。以下においては、

重み補正部６０１は、畳み込みレイヤ（７０４）の重みを補正してもよく、バッチ正規化レイヤ（７０５）の重みを補正してもよい。本実施形態においては、レイヤがバッチ正規化レイヤを含む場合にはバッチ正規化レイヤの重みを補正するものとする。本実施形態に係るバッチ正規化レイヤは、入力をｘ_ｉとした場合に、例えば下記の式（６）により出力ｙ_ｉを算出することができる。ここで、μ_Ｂ、σ_Ｂはそれぞれ入力値の平均値、分散値であり、学習時に移動平均を取って更新される値である。また、γ及びδは誤差逆伝播法で学習する重みパラメータである。

レイヤ７０１の出力を１／４倍したい場合には、式（６）における重みパラメータγ及びδをそれぞれ１／４倍すればよい。この場合、重み補正部６０１は、ＮＮ重みの補正としてγ及びβを１／４倍し、レイヤ７０１の重みとして出力する。

次いで重み補正部６０１は、レイヤ７０２などの以降のレイヤにおいても同様に、重みの補正を行う。図７の例では、レイヤ７０２の出力は７．４であるため出力分布の値を１／２倍にする必要がある。しかしながら、レイヤ７０１の出力値が１／４倍となっているため、重み補正部６０１は、バッチ正規化レイヤ７０８のμ_Ｂ及びσ_Ｂを１／４倍して入力のスケールを合わせる必要がある。重み補正部６０１は、β及びγについては、式（６）から値を１／２倍することにより、レイヤ７０２の出力値を１／２倍にすることができる。したがって、重み補正部６０１は、ＮＮの重みの補正として、μ_Ｂ及びσ_Ｂを１／４倍に、β及びγを１／２倍し、レイヤ７０２の重みとして出力する。

また、レイヤ７０３の出力は３．５であるため出力分布の値を変更する必要はない。ただし、レイヤ７０２で出力分布が１／２になっているため、出力値を維持するために歯、ＦＣレイヤの重みｗとバイアスｂをそれぞれ２倍する必要がある。したがって、重み補正部６０１は、ＮＮの重みの補正として、ＦＣレイヤの重みｗ及びバイアスｂをそれぞれ２倍して、レイヤ７０３の重みとして出力する。

量子化部２０９は、このように重みを補正したＮＮのモデルを量子化してもよく、正則化項算出部２０６と学習部２０８とによる学習を行ったＮＮのモデルを量子化してもよい。また、重み補正部６０１は、出力分布の値が所定の値（例えば、量子化パラメータ）を上回る場合に補正処理を行うようにしてもよい。さらに例えば、重み補正部６０１は、ＮＮのモデルが一定の学習回数を行った場合に、重みの補正処理を行うようにしてもよい。

なお、重み補正部６０１による重みの補正処理は、実施形態１のように出力分布の値が小さくなるように学習をしているものの、その学習による出力分布の低減が不十分であるＮＮに適用されてもよい。また、当該補正処理は、実施形態１の学習を適用していないＮＮに適用されてもよい。

このような処理によれば、ＮＮの重みを補正することにより、出力分布が量子化パラメータを超えないように調整することができる。したがって、量子化パラメータを大きくせずに、中間層における演算の出力を小さくすることにより、量子化による認識精度の劣化を低減することができる。

［実施形態３］
本実施形態に係る情報処理装置８は、ＮＮの重みを量子化し、量子化前後のそれぞれのＮＮの検出対象の認識精度に基づいて、重み決定部２０４が用いる正則化項の補正を行う。例えば、情報処理装置８は、ＮＮの量子化による認識精度の劣化具合を評価し、その劣化具合に応じて正則化項を補正することにより、学習時における正規化項の寄与度を調整することが可能である。

図８は、本実施形態に係る情報処理装置８の機能構成の一例を示すブロック図である。情報処理装置８は、実数推論部８０１、評価データ取得部８０２、第１の評価部８０３、量子化推論部８０４、第２の評価部８０５、及び正則化項補正部８０６を有することを除き、図２又は図６で説明した情報処理装置と同様の構成を有し、同様の処理が可能である。本実施形態に係る情報処理装置８は、実施形態１又は実施形態２の態様によりＮＮの学習が済んでいるものとして以下の説明を行うが、学習済みのＮＮを用いるのであれば特にこれに限定されるわけではない。

評価データ取得部８０２は、ＮＮによる検出対象の認識精度の評価を行うためのデータである評価データを取得する。ここでは、評価データは予め用意されており、実施形態１で用いた教師データと同様の、ミニバッチと正解データとのセットである。実数推論部８０１は、学習部２０８により学習を行ったＮＮのモデルを用いて、評価データに含まれるミニバッチを入力として推論処理（検出対象の認識）を行う。

第１の評価部８０３は、ＮＮによる、検出対象の認識精度を評価する。ここでは、第１の評価部８０３は、実数推論部８０１が行う推論処理により出力される損失（Ｅ１）の値を認識精度として評価するものとする。しかしながら、第１の評価部８０３は、例えば検出対象の認識の正解率又は尤度など、認識の成功率を示す異なる情報を認識精度として評価してもよい。以下、単に「認識精度」と記載する場合、検出対象の認識精度を指すものとする。

量子化推論部８０４は、量子化部２０９により重みが量子化された、（実数推論部８０１が推論に用いた）ＮＮのモデルを用いて評価データに含まれるミニバッチを入力として推論処理を行う。

第２の評価部８０５は、量子化推論部８０４が用いる、重みを量子化したＮＮによる検出対象の認識精度を評価する。第２の評価部８０５による認識精度の評価は第１の評価部８０３による評価と同様に行われ、ここでは推論により出力される損失Ｅ２が認識精度として評価されるものとする。

正則化項補正部８０６は、第１の評価部８０３による認識精度の評価と、第２の評価部８０５による認識精度の評価と、に基づいて、正則化項の補正を行う。ここでは、正則化項補正部８０６は、第１の評価部８０３による認識精度の評価と第２の評価部８０５による認識精度の評価とを用いて、重みの量子化によるＮＮの認識精度の劣化度合いを評価し、この評価を用いて正規化項を補正してもよい。

本実施形態においては、正則化項補正部８０６は、以下の式（７）を用いて、重みの量子化によるＮＮの認識精度の劣化度合いＦを評価する。Ｅ１及びＥ２は損失関数の値であるため、Ｆがよりも大きい場合量子化により認識精度が低下しており、Ｆが大きいほどこの劣化度合いが大きいことになる。
Ｆ＝Ｅ１／Ｅ２式（７）

正則化項補正部８０６は、例えば以下の式（８）に従い、この劣化度合いＦの値を正則化項の係数として補正後の正則化項λ´を算出することにより、劣化度合いを用いて正則化項を補正してもよい。このようにすることで、認識精度の劣化度合いに応じて、学習時の正則化項の寄与を補正することができる。すなわち、劣化度合いが小さい場合には学習時の正規化項の寄与度を弱め、劣化度合いが大きい場合には学習時の正規化項の寄与度を高めることができる。
λ´＝Ｆλ 式（８）

この正規化項の補正処理は、学習部２０８によるＮＮの重みの更新処理の度に行う必要はなく、例えば所定の学習回数ごとに行ってもよい。

このような構成によれば、ＮＮの量子化の前後での認識精度の変化に応じて、学習時の正則化項の補正を行うことができる。したがって、量子化によりＮＮの認識精度が劣化する度合いに応じて学習時の正則化項の寄与度を調整することができる。

本明細書の開示は、以下の情報処理装置、情報処理方法、及びプログラムを含む。

（項目１）
中間層のデータを得るために、入力データに対する重み係数を用いた第１の演算及び前記第１の演算の結果を量子化する第２の演算を行うニューラルネットワークにおける、前記第１の演算による出力の大きさを示す情報を取得する取得手段と、
前記情報と、前記量子化に用いる量子化パラメータと、に基づいて、前記出力の大きさを調節するように、前記ニューラルネットワークにおける前記第１の演算を制御する制御手段と、
を備えることを特徴とする情報処理装置。

（項目２）
前記出力の大きさを示す情報が、前記出力の値の分布に基づいて算出される情報であることを特徴とする、項目１に記載の情報処理装置。

（項目３）
前記出力の大きさを示す情報が、前記出力の外れ値を除く、上限を示す情報であることを特徴とする、項目２に記載の情報処理装置。

（項目４）
前記制御手段は、前記出力の大きさが前記量子化パラメータを超える場合に損失が大きくなるよう学習を行うことによって、前記ニューラルネットワークの重み係数を制御することにより、前記第１の演算を制御することを特徴とする、項目１乃至項目３の何れか１項目に記載の情報処理装置。

（項目５）
前記損失が、前記出力の大きさが前記量子化パラメータを超える場合に大きくなる正則化項を含む損失関数によって算出されることを特徴とする、項目４に記載の情報処理装置。

（項目６）
前記ニューラルネットワークによる検出対象の認識精度を評価する第１の評価手段と、
前記ニューラルネットワークの重み係数を量子化する量子化手段と、
前記重み係数を量子化した前記ニューラルネットワークによる前記検出対象の認識精度を評価する第２の評価手段と、
前記損失関数が含む正則化項を、前記第１の評価手段により評価される認識精度と前記第２の評価手段により評価される認識精度とに基づいて補正する補正手段と、
をさらに備えることを特徴とする、項目５に記載の情報処理装置。

（項目７）
前記第１の評価手段により評価される認識精度と前記第２の評価手段により評価される認識精度とを用いて、前記重み係数の量子化による前記ニューラルネットワークによる前記検出対象の認識精度の劣化度合いを評価する第３の評価手段をさらに備え、
前記補正手段は、前記正則化項を、前記劣化度合いを用いて補正することを特徴とする、項目６に記載の情報処理装置。

（項目８）
前記制御手段は、前記中間層の重み係数を補正することで、前記出力の大きさを調整することを特徴とする、項目１乃至７の何れか１項目に記載の情報処理装置。

（項目９）
前記制御手段は、前記出力の大きさが所定の値を上回る場合に、前記ニューラルネットワークにおける前記第１の演算の制御を実行することを特徴とする、項目８に記載の情報処理装置。

（項目１０）
中間層のデータを得るために、入力データに対する重み係数を用いた第１の演算及び前記第１の演算の結果を量子化する第２の演算を行うニューラルネットワークにおける、前記第１の演算による出力の大きさを示す情報を取得する工程と、
前記情報と、前記量子化に用いる量子化パラメータと、に基づいて、前記出力の大きさを調節するように、前記ニューラルネットワークにおける前記第１の演算を制御する工程と、
を備えることを特徴とする情報処理方法。

（項目１１）
コンピュータを、項目１乃至９の何れか一項に記載の情報処理装置の各手段として機能させるためのプログラム。

（項目１２）
項目１１に記載のプログラムを格納する記憶媒体。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１１：ＣＰＵ、１２：ＲＯＭ、１３：ＲＡＭ、１４：記憶部、１５：入出力部、１６：表示部

Claims

中間層のデータを得るために、入力データに対する重み係数を用いた第１の演算及び前記第１の演算の結果を量子化する第２の演算を行うニューラルネットワークにおける、前記第１の演算による出力の大きさを示す情報を取得する取得手段と、
前記情報と、前記量子化に用いる量子化パラメータと、に基づいて、前記出力の大きさを調節するように、前記ニューラルネットワークにおける前記第１の演算を制御する制御手段と、
を備えることを特徴とする情報処理装置。
前記出力の大きさを示す情報が、前記出力の値の分布に基づいて算出される情報であることを特徴とする、請求項１に記載の情報処理装置。
前記出力の大きさを示す情報が、前記出力の外れ値を除く、上限を示す情報であることを特徴とする、請求項２に記載の情報処理装置。
前記制御手段は、前記出力の大きさが前記量子化パラメータを超える場合に損失が大きくなるよう学習を行うことによって、前記ニューラルネットワークの重み係数を制御することにより、前記第１の演算を制御することを特徴とする、請求項１に記載の情報処理装置。
前記損失が、前記出力の大きさが前記量子化パラメータを超える場合に大きくなる正則化項を含む損失関数によって算出されることを特徴とする、請求項４に記載の情報処理装置。
前記ニューラルネットワークによる検出対象の認識精度を評価する第１の評価手段と、
前記ニューラルネットワークの重み係数を量子化する量子化手段と、
前記重み係数を量子化した前記ニューラルネットワークによる前記検出対象の認識精度を評価する第２の評価手段と、
前記損失関数が含む正則化項を、前記第１の評価手段により評価される認識精度と前記第２の評価手段により評価される認識精度とに基づいて補正する補正手段と、
をさらに備えることを特徴とする、請求項５に記載の情報処理装置。
前記第１の評価手段により評価される認識精度と前記第２の評価手段により評価される認識精度とを用いて、前記重み係数の量子化による前記ニューラルネットワークによる前記検出対象の認識精度の劣化度合いを評価する第３の評価手段をさらに備え、
前記補正手段は、前記正則化項を、前記劣化度合いを用いて補正することを特徴とする、請求項６に記載の情報処理装置。
前記制御手段は、前記中間層の重み係数を補正することで、前記出力の大きさを調整することを特徴とする、請求項１に記載の情報処理装置。
前記制御手段は、前記出力の大きさが所定の値を上回る場合に、前記ニューラルネットワークにおける前記第１の演算の制御を実行することを特徴とする、請求項８に記載の情報処理装置。
中間層のデータを得るために、入力データに対する重み係数を用いた第１の演算及び前記第１の演算の結果を量子化する第２の演算を行うニューラルネットワークにおける、前記第１の演算による出力の大きさを示す情報を取得する工程と、
前記情報と、前記量子化に用いる量子化パラメータと、に基づいて、前記出力の大きさを調節するように、前記ニューラルネットワークにおける前記第１の演算を制御する工程と、
を備えることを特徴とする情報処理方法。
コンピュータを、請求項１乃至９の何れか一項に記載の情報処理装置の各手段として機能させるためのプログラム。
請求項１１に記載のプログラムを格納する記憶媒体。