JP7384217B2

JP7384217B2 - 学習装置、学習方法、及び、プログラム

Info

Publication number: JP7384217B2
Application number: JP2021555705A
Authority: JP
Inventors: 遊哉石井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2023-11-21
Anticipated expiration: 2039-11-13
Also published as: JPWO2021095176A1; WO2021095176A1; US20220366678A1

Description

本発明は、物体検知に関する。

近年、深層学習を用いたニューラルネットワークによる物体検知技術が多く提案されている。物体検知とは、画像や動画に映る物体が何であるかを推定し、それと同時に物体に外接する矩形の位置を求めることで、物体の位置と大きさを推定することである。物体検出器は、物体の矩形位置と、その物体が各クラスである確率を示す信頼度を出力する。

非特許文献１は、元画像から特徴抽出により得た特徴マップ上にアンカーを規定し、注目すべきアンカーに重点を置いて学習を行う手法を記載している。また、非特許文献２は、さらに蒸留という手法を利用し、学習済みの教師モデルの出力を用いて生徒モデルの学習を行う手法を記載している。

Focal Loss for Dense Object Detection, Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollar, arXiv:1708.02002v2, 2018 Learning Efficient Detector with Semi-supervised Adaptive Distillation, Shitao Tang, Litong Feng, Wenqi Shao, Zhanghui Kuang, Wei Zhang, Yimin Chen, arXiv: 1901.00366v2, 2019

非特許文献２の手法は、主として以下の方針で生徒モデルの学習を行う。
・教師モデルが自信のないアンカーほど、教師モデルと生徒モデルとの出力の差を小さくする。
・教師モデルと生徒モデルの出力の差が大きいアンカーほど、教師モデルと生徒モデルとの出力の差を小さくする。

しかし、上記の方針によると、教師モデルの精度が低い場合に、誤った方向性で学習が行われることがある。即ち、１つ目の方針では、教師モデルが自信のないアンカーほど、生徒モデルも自信のない出力を行うように学習されてしまうことがある。また、２つ目の方針では、教師モデルの出力が不正解だと、仮に生徒モデルが正解していたとしても、生徒モデルは不正解を学習し直してしまう恐れがある。

本発明の１つの目的は、教師モデルの精度が特別高くない場合でも、それによる悪影響を受けずに、正しく学習を行うことが可能な学習方法を提供することにある。

本発明の一つの観点では、学習装置は、
学習データに対する推論結果を出力する教師モデルと、
前記学習データに対する推論結果を出力する生徒モデルと、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいてトータル損失を算出する損失算出手段と、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する更新手段と、
を備え、
前記損失算出手段は、
（１）前記教師モデルの出力の自信度が低いほど大きくなる第１の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第１の損失と、
（２）前記真値と前記教師モデルの出力との差が大きいほど大きくなる第２の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第２の損失と、
（３）前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第３の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第４の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第３の損失と、のうちの複数の損失の加重平均により前記トータル損失を算出する。

本発明の他の観点では、学習方法は、
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
（１）前記教師モデルの出力の自信度が低いほど大きくなる第１の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第１の損失と、
（２）前記真値と前記教師モデルの出力との差が大きいほど大きくなる第２の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第２の損失と、
（３）前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第３の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第４の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第３の損失と、のうちの複数の損失の加重平均によりトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する。

本発明の他の観点では、プログラムは、
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
（１）前記教師モデルの出力の自信度が低いほど大きくなる第１の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第１の損失と、
（２）前記真値と前記教師モデルの出力との差が大きいほど大きくなる第２の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第２の損失と、
（３）前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第３の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第４の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第３の損失と、のうちの複数の損失の加重平均によりトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する処理をコンピュータに実行させる。

本発明によれば、教師モデルの精度が特別高くない場合でも、それによる悪影響を受けずに、正しく学習を行うことができる。

ニューラルネットワークを用いた物体検知モデルの基本構成例を示す。蒸留を用いた物体検知モデルを示す。第１実施例に係る物体検知装置のハードウェア構成を示す。第１実施例に係る物体検知装置のクラス分類に関する機能構成を示す。Ｌ１計算部の構成を示す。Ｌ２計算部の構成を示す。ＦＬ計算部の構成を示す。第１実施例による物体検知装置の全体の機能構成を示す。第２実施例に係る物体検知装置のクラス分類に関する機能構成を示すＬ３計算部の構成を示す。Ｌ４計算部の構成を示す。第２実施例による物体検知装置の全体の機能構成を示す。本発明の第２実施形態に係る学習装置の機能構成を示す。第２実施形態による学習処理のフローチャートである。

以下、図面を参照して、本発明の好適な実施形態について説明する。
＜物体検知モデルの基本構成＞
図１は、ニューラルネットワークを用いた物体検知モデルの基本構成例を示す。なお、図１の例は、「ＲｅｔｉｎａＮｅｔ」と呼ばれるネットワークであるが、本発明は他に「ＳＳＤ」、「ＹＯＬＯ」、「ＦａｓｔｅｒＲＣＮＮ」などのネットワークにも適用可能である。学習モデル７０は、特徴抽出部７１と、クラス分類部７２と、矩形位置検出部７３とを備える。特徴抽出部７１は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などにより入力画像から特徴を抽出し、特徴マップを生成する。クラス分類部７２は、特徴マップに基づいて検出対象のクラス分類を行い、分類結果を出力する。図１の例では、検出対象は、「自転車」、「馬」、「犬」、「車」の４クラスであり、クラス分類部７２は分類結果として各クラスの信頼度（確率）を出力する。また、矩形位置検出部７３は、特徴マップに基づいて、各検出対象に外接する矩形位置の座標を出力する。

入力画像に対しては、あらかじめ正解データ（「真値（ｇｒｏｕｎｄｔｒｕｔｈ）」とも呼ぶ。）が用意されている。クラス分類部７２によるクラス分類結果と、クラス分類の正解データとに基づいてクラス分類の差分（以下、「分類ロス」とも呼ぶ。なお、「ロス」を「損失」とも呼ぶ。）Ｌｃｌｓが算出される。また、矩形位置検出部７３により検出された矩形位置の座標と、矩形位置の座標の正解データとの差分（以下、「回帰ロス」とも呼ぶ。）Ｌｒｅｇが算出される。なお、矩形位置の座標と矩形位置の座標の正解データの差分は、回帰以外の方法で算出することもできるが、本実施形態では回帰により算出するものとし、「回帰ロス」と呼ぶ。そして、以下に示す分類ロスＬｃｌｓと回帰ロスＬｒｅｇの合計（「トータルロス」とも呼ぶ。）Ｌを最小化するように、学習モデルの学習が行われる。

＜クラス分類器の学習＞
次に、クラス分類器の学習について説明する。
［フォーカルロス］
まず、「フォーカルロス（ＦｏｃａｌＬｏｓｓ：以下、「ＦＬ」とも記す。）」と呼ばれる手法について説明する。図１に示すＲｅｔｉｎａＮｅｔは、特徴抽出部７１により抽出された特徴マップ上に、その画素ごとに広がりを持つ「アンカー」を埋め込み、アンカーごとにクラス分類と矩形位置の検出を行う手法である。特に、フォーカルロスは、特徴マップに含まれる複数のアンカーのうち、注目すべきアンカーに重きをおいて学習を行う。例えば、特徴マップ上に設定された複数のアンカーのうち、背景に対応するアンカーよりも、検出対象が存在すると予測されるアンカーに注目する。具体的には、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）により予測が難しいアンカー、即ち、正解と予測との差が大きいアンカーほど注目度を高くする。フォーカルロスＦＬ（ｐ）は以下の式で表される。なお、「α」は、学習データのクラスバランスに基づき決定される定数である。

例えば、検出対象として犬と自転車が含まれるアンカーでは、「犬」と「自転車」については正解クラスの式を使用し、それ以外については不正解クラスの式を使用する。そして、前述の式（１）における分類ロスとして、Ｌｃｌｓの代わりに、ＦＬ（ｐ）を使用し、以下のトータルロスＬを用いてモデルの学習を行う。

［蒸留］
次に、蒸留（ＫｎｏｗｌｅｄｇｅＤｉｓｔｉｌｌａｔｉｏｎ）と呼ばれる手法について説明する。蒸留は、既に学習済みの教師モデルの出力を用いて生徒モデルの学習を行う手法である。図２は、蒸留を用いた物体検知モデルを示す。生徒モデル８０は、学習の対象となるモデルであり、特徴抽出部８１と、クラス分類部８２と、矩形位置検出部８３とを備える。特徴抽出部８１は入力画像から特徴マップを生成する。クラス分類部８２は特徴マップに基づいて検出対象のクラス分類結果を出力する。また、矩形位置検出部８３は、特徴マップに基づいて検出対象の矩形位置の座標を出力する。

一方、教師モデル９０は、多数の画像を用いて予め学習済みのモデルであり、特徴抽出部９１と、クラス分類部９２と、矩形位置検出部９３とを備える。入力画像は、教師モデル９０にも入力される。教師モデル９０では、特徴抽出部９１は入力画像から特徴マップを生成する。クラス分類部９２は特徴マップに基づいて検出対象のクラス分類結果を出力する。また、矩形位置検出部９３は、特徴マップに基づいて検出対象の矩形位置の座標を出力する。

生徒モデル８０が出力したクラス分類結果と、教師モデル９０が出力したクラス分類結果との差分が分類ロスＬｃｌｓとして算出され、生徒モデル８０が出力した矩形位置の座標と、教師モデル９０が出力した矩形位置の座標との差分が回帰ロスＬｒｅｇとして算出される。なお、回帰ロスＬｒｅｇとしては、生徒モデル８０が出力した矩形位置の座標と、真値との差分を用いてもよい。そして、上記の式（１）で示すトータルロスＬが最小となるように、生徒モデル８０の学習が行われる。

［ＡＤＬ］
次に、ＡＤＬ（ＡｄａｐｔｉｖｅＤｉｓｔｉｌｌａｔｉｏｎｋｎｏｗｌｅｄｇｅＬｏｓｓ）について説明する。ＡＤＬは、フォーカルロスの考え方を蒸留に適用した学習方法であり、以下の方針でモデルの学習を行う。
・教師モデルと生徒モデルの出力の差が大きいアンカーほど、教師モデルと生徒モデルの出力の差を小さくする。
・教師モデルが自信のないアンカーほど、教師モデルと生徒モデルの出力の差を小さくする。
上記の方針より、ＡＤＬは以下の式で示される。

・「ｑ」は教師モデルの出力であり、「ｐ」は生徒モデルの出力である。
・「ＫＬ」は、ＫＬＤｉｖｅｒｇｅｎｃｅであり、「ＫＬ距離」又は単に「距離」とも例えられる。ＫＬ（ｑ｜｜ｐ）は、ｑとｐの値の近さを測る関数であり、ｑ＝ｐのときに最小値「０」をとる。
・「Ｔ」はエントロピー関数であり、Ｔ（ｑ）＝－ｑｌｏｇ［ｑ］で与えられる。Ｔ（ｑ）は、上に凸の関数であり、ｑ＝０．５のときに最大となり、ｑ＝０，１のとき最小となる。ｑ＝０，１のときは、教師モデルのクラス分類結果の自信が大きいことを示す。一方、ｑ＝０．５のときは、教師モデルのクラス分類結果がどちらかわからず、自信がないことを示す。よって、Ｔ（ｑ）により教師モデルの出力の自信度を測ることができる。
・「β」、「γ」は、ハイパーパラメータである。

また、フォーカルロスの手法と、ＡＤＬの手法を組み合わせると、以下の方針が得られる。
・生徒モデルが間違えているアンカーほど、真値と生徒モデルの出力との差を小さくする。
この場合のトータルロスは、以下の式が用いられる。

以上より、下記の方針が得られる。
（Ａ）生徒が間違えているアンカーほど、真値と生徒の出力との差を小さくする。
（Ｂ）教師が自信のない（０．５を出力する）アンカーほど、教師モデルと生徒モデルの出力の差を小さくする。
（Ｃ）教師モデルと生徒モデルの出力の差が大きいアンカーほど、教師モデルと生徒モデルの出力の差を小さくする。

しかし、上記の方針（Ｂ）、（Ｃ）によると、教師モデルの精度が低い場合に、誤った方向性で学習が行われることがある。即ち、方針（Ｂ）では、教師モデルが自信のないアンカーほど、生徒モデルも自信のない出力を行うように学習されることがある。また、方針（Ｃ）では、教師モデルの出力が不正解だと、仮に生徒モデルが正解していたとしても、生徒モデルは不正解を学習し直してしまう恐れがある。

＜第１実施形態＞
［基本原理］
上記の観点から、本実施形態では以下の方針（１）～（４）を考慮する。
（１）教師モデルと生徒モデルの出力の差が大きいアンカーほど、教師モデルと生徒モデルの出力の差を小さくする。これは、上記の方針（Ｃ）と同一である。この方針で得られる教師モデルと生徒モデルのロス（損失）を「Ｌ１」とすると、Ｌ１は以下の式で得られる。なお、「γ_１」はハイパーパラメータである。

（２）教師モデルが自信のないアンカーほど、真値と生徒モデルの出力との差を小さくする。これにより、上記の方針（Ｂ）の不具合が解消できる。この方針で得られる教師モデルと生徒モデルのロスを「Ｌ２」とすると、Ｌ２は以下の式で得られる。なお、「γ_２」はハイパーパラメータである。

（３）真値と教師モデルの出力との差が大きいアンカーほど、真値と生徒モデルの出力との差を小さくする。この方針で得られる教師モデルと生徒モデルのロスを「Ｌ３」とすると、Ｌ３は以下の式で得られる。なお、「γ_２」はハイパーパラメータである。

（４）教師モデルと生徒モデルの出力の差が大きく、かつ、真値と教師モデルの出力との差が小さいアンカーほど、教師モデルと生徒モデルの出力の差を小さくする。これにより、上記の方針（Ｃ）の不具合が解消できる。この方針で得られる教師モデルと生徒モデルのロスを「Ｌ４」とすると、Ｌ４は以下の式で得られる。なお、「γ_１」はハイパーパラメータである。

ここで、ロスＬ４は方針（Ｃ）の不具合を解消するものであるので、上記のロスＬ１の代わりにロスＬ４を使用することが望ましい。よって、本実施形態では、上記のロスＬ２～Ｌ４の少なくとも１つ、即ち、いずれか１つ又は複数の組み合わせを「ｍｙＡＤＬ」とし、下記のトータルロスＬが小さくなるようにモデルの学習を行う。

これにより、上記の方針（Ｂ）、（Ｃ）により、教師モデルの精度が低い場合に、誤った方向性で学習が行われるという不具合を解消することができる。

以上より、本実施形態によれば、特別に精度の高い教師モデルを用いなくても、生徒モデルの精度を向上させることができる。また、教師モデルの出力を目標として生徒モデルの学習を行うので、生徒モデルの出力を真値に近づける場合と比較して、学習の収束を早めることができる。言い換えると、学習データが少なくても、十分な認識精度を得ることができる。なお、上記の説明ではロスＬ１～ロスＬ４を挙げて説明しているが、本発明においては、ロスＬ１は用いなくてもよく、ロスＬ２～Ｌ４のうちの少なくとも１つを用いればよい。

［第１実施例］
次に、第１実施形態の第１実施例について説明する。第１実施例は、上記のロスＬ１～Ｌ４のうち、ロスＬ１及びＬ２を使用するものである。

（ハードウェア構成）
図３は、第１実施例に係る物体検知装置のハードウェア構成を示すブロック図である。図示のように、物体検知装置１００は、入力インタフェース（ＩＦ）１２と、プロセッサ１３と、メモリ１４と、記録媒体１５と、データベース（ＤＢ）１６と、を備える。

入力ＩＦ１２は、物体検知に必要なデータを外部から入力するためのインタフェースである。具体的に、物体検知装置１００が学習時に使用する学習データや、学習後の実際の物体検知処理に使用する画像データなどが入力ＩＦ１２を介して入力される。

プロセッサ１３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）又はＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、物体検知装置１００の全体を制御する。具体的に、プロセッサ１３は、後述する物体検知モデルの学習を行う。

メモリ１４は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１４は、プロセッサ１３により実行される各種のプログラムを記憶する。また、メモリ１４は、プロセッサ１３による各種の処理の実行中に作業メモリとしても使用される。

記録媒体１５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体検知装置１００に対して着脱可能に構成される。記録媒体１５は、プロセッサ１３が実行する各種のプログラムを記録している。物体検知装置１００が各種の処理を実行する際には、記録媒体１５に記録されているプログラムがメモリ１４にロードされ、プロセッサ１３により実行される。

データベース１６は、入力ＩＦ１２を通じて外部装置から入力される画像データなどを記憶する。具体的には、物体検知装置１００の学習に使用される画像データが記憶される。なお、上記に加えて、物体検知装置１００は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力機器や、ユーザに物体検知の結果を提示する表示装置などを備えていても良い。

（機能構成）
前述のように、物体検知装置はクラス分類と矩形位置検出を行うが、説明の便宜上、まず、クラス分類に関する構成のみを先に説明する。図４は、第１実施例に係る物体検知装置１００のクラス分類に関する機能構成を示すブロック図である。なお、図４は、物体検知装置１００の学習のための構成を示す。

図示のように、物体検知装置１００は、教師モデル１１０と、生徒モデル１２０と、Ｌ１計算部１３０と、Ｌ２計算部１４０と、ＦＬ計算部１５０と、加重平均計算器１６１と、パラメータ更新量計算器１６２と、を備える。

学習のためのデータとしては、学習データＤ１と、それに対応する真値ｙとが用意される。学習データＤ１は、検知対象が写った画像を含む画像データである。真値ｙは、学習データに対するクラス分類の正解を示すデータである。学習データＤ１は、教師モデル１１０と、生徒モデル１２０に入力される。また、真値ｙは、Ｌ２計算部１４０及びＦＬ計算部１５０に入力される。

教師モデル１１０は、多数の学習データを用いて既に学習済みのモデルであり、学習データＤ１から物体を検出してそのクラス分類結果（以下、「教師モデル出力」とも呼ぶ。）ｑをＬ１計算部１３０及びＬ２計算部１４０に入力する。生徒モデル１２０は、学習の対象となるモデルであり、学習データＤ１から物体を検出してそのクラス分類結果（以下、「生徒モデル出力」とも呼ぶ。）ｐをＬ１計算部１３０、Ｌ２計算部１４０及びＦＬ計算部１５０に入力する。

Ｌ１計算部１３０は、教師モデル出力ｑと、生徒モデル出力ｐを用いて、前述のロスＬ１を算出する。図５は、Ｌ１計算部１３０の構成を示す。Ｌ１計算部１３０は、距離計算器１３１と、係数１計算器１３２と、Ｌ１計算器１３３とを備える。距離計算器１３１は、教師モデル出力ｑと生徒モデル出力ｐの距離ＫＬ（ｐ｜｜ｑ）を算出する。係数１計算器１３２は、上記の式（６）に基づき、以下の係数１を算出する。

そして、Ｌ１計算部１３３は、係数１と、距離ＫＬ（ｑ｜｜ｐ）に基づいて、式（６）によりロスＬ１を算出する。

Ｌ２計算部１４０は、教師モデル出力ｑと、生徒モデル出力ｐと、真値ｙとを用いて、ロスＬ２を算出する。図６は、Ｌ２計算部１４０の構成を示す。Ｌ２計算部１４０は、自信計算器１４１と、係数２計算器１４２と、距離計算器１４３と、Ｌ２計算器１４４とを備える。自信計算器１４１は、前述のエントロピー関数Ｔを用いて、教師モデル出力ｑの自信Ｔ（ｑ）を算出する。係数２計算器１４２は、上記の式（７）に基づき、以下の係数２を算出する。

この係数２は、教師モデル出力ｑの自信Ｔ（ｑ）が低いほど大きくなり、本発明の第１の重みに相当する。

一方、距離計算器１４３は、真値ｙと生徒モデル出力ｐとの距離ＫＬ（ｙ｜｜ｐ）を算出する。そして、Ｌ２計算器１４４は、係数２と、距離ＫＬ（ｙ｜｜ｐ）に基づいて、式（７）によりロスＬ１を算出する。

ＦＬ計算部１５０は、真値ｙと生徒モデル出力ｐを用いて、前述のフォーカルロスＦＬを算出する。図７は、ＦＬ計算部１５０の構成を示す。ＦＬ計算部１５０は、ＦＬ係数計算器１５１と、距離計算器１５２と、ＦＬ計算器１５３とを備える。ＦＬ係数計算器１５１は、真値ｙと生徒モデル出力ｐとを用いて上記の式（２）に基づき、下記のＦＬ係数を算出する。

また、距離計算器１５２は、真値ｙと生徒モデル出力ｐの距離ＫＬ（ｙ｜｜ｐ）を算出する。そして、ＦＬ計算器１５３は、ＦＬ係数と距離ＫＬ（ｙ｜｜ｐ）とに基づいて、上記の式（２）により係数ＦＬを算出する。

図４に戻り、加重平均計算器１６１は、所定の重みを用いて、Ｌ１計算部１３０から出力されるロスＬ１と、Ｌ２計算部１４０から出力されるロスＬ２と、ＦＬ計算部１５０から出力されるロスＦＬとの加重平均を算出し、ロスＬａとしてパラメータ更新量計算器１６２に入力する。パラメータ更新量計算器１６２は、ロスＬａが小さくなるように、生徒モデル１２０のパラメータを更新する。物体検知装置１００は、複数の学習データＤ１及びその真値ｙを用いて物体検知モデルの学習を行い、所定の終了条件が具備されたときに、学習を終了する。

次に、物体検知装置１００の全体構成について説明する。図８は、第１実施例による物体検知装置１００の全体の機能構成を示す。物体検知装置１００は、図４に示すクラス分類に関する部分に加えて、回帰ロス計算器１６３を備える。また、教師モデル１１０は、特徴抽出器１１１と、矩形位置計算器１１２と、分類計算器１１３とを備える。また、生徒モデル１２０は、特徴抽出器１２１と、分類計算器１２２と、矩形位置計算器１２３とを備える。

教師モデル１１０においては、特徴抽出器１１１は、学習データＤ１に対して特徴抽出を行い、特徴マップを矩形位置計算器１１２と分類計算器１１３に入力する。なお、本実施例では、矩形位置計算器１１２の計算結果は使用しない。分類計算器１１３は、特徴マップに基づいてクラス分類を行い、教師モデルのクラス分類結果ｑを出力する。

一方、生徒モデル１２０においては、特徴抽出器１２１は、学習データＤ１に対して特徴抽出を行い、特徴マップを分類計算器１２２と矩形位置計算器１２３に出力する。分類計算器１２２は、特徴マップに基づいてクラス分類を行い、生徒モデルのクラス分類結果ｐを出力する。矩形位置計算器１２３は、特徴マップに基づいて矩形位置ｃを算出し、回帰ロス計算器１６３に出力する。回帰ロス計算器１６３には、矩形位置の真値ｃｔが入力されており、回帰ロス計算器１６３は、矩形位置ｃとその真値ｃｔの差分を回帰ロスＬｒｅｇとして算出し、加重平均計算器１６１に出力する。

加重平均計算器１６１は、所定の重みを用いて、ロスＬ１と、ロスＬ２と、ロスＦＬと、回帰ロスＬｒｅｇとの加重平均を算出し、ロスＬａとしてパラメータ更新量計算器１６２に入力する。このロスＬａは、式（１０）に示すトータルロスＬに相当する。パラメータ更新量計算器１６２は、ロスＬａが小さくなるように、生徒モデル１２０のパラメータを更新する。こうして、物体検知モデルの学習が行われる。
［第２実施例］
次に、第１実施形態の第２実施例について説明する。第２実施例は、上記のロスＬ１～Ｌ４のうち、ロスＬ３及びＬ４を使用するものである。

（ハードウェア構成）
第２実施例に係る物体検知装置のハードウェア構成は、図３に示す第１実施例のものと同様であるので、説明を省略する。

（機能構成）
第２実施例においても、まず、クラス分類に関する構成のみを先に説明する。図９は、第２実施例に係る物体検知装置１００ｘのクラス分類に関する機能構成を示すブロック図である。なお、図９は、物体検知装置１００ｘの学習のための構成を示す。

図示のように、物体検知装置１００ｘは、教師モデル１１０と、生徒モデル１２０と、ＦＬ計算部１５０と、加重平均計算器１６１と、パラメータ更新量計算器１６２と、Ｌ３計算部１７０と、Ｌ４計算部１８０と、を備える。即ち、第２実施例の物体検知装置１００ｘは、第１実施例の物体検知装置１００におけるＬ１計算部１３０とＬ２計算部１４０の代わりに、Ｌ３計算部１７０とＬ４計算部１８０を設けたものであり、それ以外の点は第１実施例の物体検知装置１００と同様である。

Ｌ３計算部１７０は、教師モデル出力ｑと、生徒モデル出力ｐと、真値ｙとを用いて、前述のロスＬ３を算出する。図１０は、Ｌ３計算部１７０の構成を示す。Ｌ３計算部１７０は、距離計算器１７１及び１７２と、係数３計算器１７３と、Ｌ３計算器１７４とを備える。距離計算器１７１は、教師モデル出力ｑと真値ｙの距離ＫＬ（ｙ｜｜ｑ）を算出する。距離計算器１７２は、真値ｙと生徒モデル出力ｐとの距離ＫＬ（ｙ｜｜ｐ）を算出する。係数３計算器１７３は、上記の式（８）に基づき、以下の係数３を算出する。

この係数３は、真値ｙと教師モデル出力ｑとの差が大きいほど大きくなり、本発明における第２の重みに相当する。そして、Ｌ３計算器１７４は、係数３と、距離ＫＬ（ｙ｜｜ｐ）とに基づいて、上記の式（８）により、ロスＬ３を算出する。

Ｌ４計算部１８０は、教師モデル出力ｑと、生徒モデル出力ｐと、真値ｙとを用いて、前述のロスＬ４を算出する。図１１は、Ｌ４計算部１８０の構成を示す。Ｌ４計算部１８０は、距離計算器１８１及び１８２と、係数４計算器１８３と、係数５計算器１８４と、Ｌ４計算器１８５とを備える。距離計算器１８１は、教師モデル出力ｑと生徒モデル出力ｐの距離ＫＬ（ｑ｜｜ｐ）を算出する。距離計算器１８２は、真値ｙと教師モデル出力ｑとの距離ＫＬ（ｙ｜｜ｑ）を算出する。係数４計算器１８３は、上記の式（９）に基づき、以下の係数４を算出する。

この係数４は、教師モデル出力ｑと前記生徒モデル出力ｐとの差が大きいほど大きくなり、本発明における第３の重みに相当する。

また、係数５計算器１８４は、上記の式（９）に基づき、以下の係数５を算出する。

この係数５は、真値ｙと教師モデル出力ｑとの差が小さいほど大きくなり、本発明における第４の重みに相当する。そして、Ｌ４計算器１８５は、係数４と、係数５と、距離ＫＬ（ｑ｜｜ｐ）とに基づいて、式（９）によりロスＬ４を算出する。

図９に戻り、加重平均計算器１６１は、所定の重みを用いて、Ｌ３計算部１７０から出力されるロスＬ３と、Ｌ４計算部１８０から出力されるロスＬ４と、ＦＬ計算部１５０から出力されるロスＦＬとの加重平均を算出し、ロスＬａとしてパラメータ更新量計算器１６２に入力する。パラメータ更新量計算器１６２は、ロスＬａが小さくなるように、生徒モデル１２０のパラメータを更新する。物体検知装置１００は、複数の学習データＤ１及びその真値ｙを用いて物体検知モデルの学習を行い、所定の終了条件が具備されたときに、学習を終了する。

次に、物体検知装置１００ｘの全体構成について説明する。図１２は、第２実施例による物体検知装置１００ｘの全体の機能構成を示す。第２実施例による物体検知装置１００ｘは、図８に示す第１実施例の物体検知装置１００におけるＬ１計算部１３０とＬ２計算部１４０の代わりに、Ｌ３計算部１７０とＬ４計算部１８０を設けたものであり、それ以外の点は第１実施例の物体検知装置１００と同様である。

物体検知装置１００ｘでは、加重平均計算器１６１は、所定の重みを用いて、ロスＬ３と、ロスＬ４と、ロスＦＬと、回帰ロスＬｒｅｇとの加重平均を算出し、ロスＬａとしてパラメータ更新量計算器１６２に入力する。このロスＬａは、式（１０）に示すトータルロスＬに相当する。パラメータ更新量計算器１６２は、ロスＬａが小さくなるように、生徒モデル１２０のパラメータを更新する。こうして、物体検知モデルの学習が行われる。

［第２実施形態］
次に、第２実施形態について説明する。図１３は、本発明の第２実施形態に係る学習装置の機能構成を示す。なお、学習装置５０のハードウェア構成は基本的に図３と同様である。

図示のように、学習装置５０は、教師モデル５１と、生徒モデル５２と、損失算出部５３と、更新部５４とを備える。教師モデル５１は、入力された学習データに対する推論結果を損失算出部５３に出力する。生徒モデルは、入力された学習データに対する推論結果を損失算出部５３に出力する。損失算出部５３は、教師モデルの出力と、生徒モデルの出力と、学習データに対する真値とに基づいてトータル損失を算出する。

ここで、損失算出部５３は、
（１）教師モデル５１の出力の自信度が低いほど大きくなる第１の重みを、真値と生徒モデル５２の出力との差に乗算して得た第１の損失と、
（２）真値と教師モデル５１の出力との差が大きいほど大きくなる第２の重みを、真値と生徒モデル５２の出力との差に乗算して得た第２の損失と、
（３）教師モデル５１の出力と生徒モデル５２の出力との差が大きいほど大きくなる第３の重み、及び、真値と教師モデル５１の出力との差が小さいほど大きくなる第４の重みを、教師モデル５１の出力と生徒モデル５２の出力との差に乗算して得た第３の損失と、の少なくとも１つを用いてトータル損失を算出する。そして、更新部５４は、トータル損失に基づいて、生徒モデル５２のパラメータを更新する。

図１４は、学習装置５０による学習処理のフローチャートである。学習データ及びそれに対する真値が入力されると、教師モデル５１は、学習データの推論を行い、推論結果を出力する（ステップＳ１１）。次に、生徒モデル５２は、学習データの推論を行い、推論結果を出力する（ステップＳ１２）。次に、損失算出部５３は、上記の方法により、第１～第３の損失の少なくとも１つを用いてトータル損失を算出する（ステップＳ１３）。そして、更新部５４は、トータル損失に基づいて、生徒モデル５２のパラメータを更新する。

［変形例］
上記の実施形態では、教師モデル出力、生徒モデル出力及び真値の距離としてＫＬ距離を使用している。この場合、教師モデル出力ｑと生徒モデル出力ｐのＫＬ距離は以下の式で与えられる。

その代わりに、以下に示すユークリッド距離（「Ｌ２ノルム」とも呼ばれる。）を用いてもよい。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
学習データに対する推論結果を出力する教師モデルと、
前記学習データに対する推論結果を出力する生徒モデルと、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいてトータル損失を算出する損失算出部と、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する更新部と、
を備え、
前記損失算出部は、
（１）前記教師モデルの出力の自信度が低いほど大きくなる第１の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第１の損失と、
（２）前記真値と前記教師モデルの出力との差が大きいほど大きくなる第２の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第２の損失と、
（３）前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第３の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第４の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第３の損失と、の少なくとも１つを用いて前記トータル損失を算出する学習装置。

（付記２）
前記損失算出部は、前記真値と前記生徒モデルの出力との差、前記真値と前記教師モデルの出力との差、及び、前記教師モデルの出力と前記生徒モデルの出力との差を距離として計算する距離計算器を備える付記１に記載の学習装置。

（付記３）
前記損失算出部は、前記自信度をエントロピー関数により算出する付記１又は２に記載の学習装置。

（付記４）
前記損失算出部は、前記第１の損失、前記第２の損失及び前記第３の損失のうちの複数の損失の加重平均により前記トータル損失を算出する付記１乃至３のいずれか一項に記載の学習装置。

（付記５）
前記学習データは画像データであり、
前記画像データから特徴を抽出して特徴マップを生成する特徴抽出部を備え、
前記教師モデル及び前記生徒モデルは、前記特徴マップに対して規定したアンカー毎に前記推論結果を出力する付記１乃至４のいずれか一項に記載の学習装置。

（付記６）
前記教師モデル及び前記生徒モデルは、前記特徴抽出部が抽出した特徴マップに基づいて、前記画像データに含まれる対象物のクラス分類を行う付記５に記載の学習装置。

（付記７）
前記教師モデル及び前記生徒モデルは、前記特徴抽出部が抽出した特徴マップに基づいて、前記画像データに含まれる対象物の位置を検出する付記６に記載の学習装置。

（付記８）
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
（１）前記教師モデルの出力の自信度が低いほど大きくなる第１の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第１の損失と、
（２）前記真値と前記教師モデルの出力との差が大きいほど大きくなる第２の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第２の損失と、
（３）前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第３の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第４の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第３の損失と、の少なくとも１つを用いてトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する学習方法。

（付記９）
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
（１）前記教師モデルの出力の自信度が低いほど大きくなる第１の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第１の損失と、
（２）前記真値と前記教師モデルの出力との差が大きいほど大きくなる第２の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第２の損失と、
（３）前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第３の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第４の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第３の損失と、の少なくとも１つを用いてトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。

以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

５０学習装置
１００、１００ｘ物体検知装置
１１０教師モデル
１２０生徒モデル
１３０Ｌ１計算部
１４０Ｌ２計算部
１５０ＦＬ計算部
１７０Ｌ３計算部
１８０Ｌ４計算部
１６１加重平均計算器
１６２パラメータ更新量計算器

Claims

学習データに対する推論結果を出力する教師モデルと、
前記学習データに対する推論結果を出力する生徒モデルと、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいてトータル損失を算出する損失算出手段と、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する更新手段と、
を備え、
前記損失算出手段は、
（１）前記教師モデルの出力の自信度が低いほど大きくなる第１の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第１の損失と、
（２）前記真値と前記教師モデルの出力との差が大きいほど大きくなる第２の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第２の損失と、
（３）前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第３の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第４の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第３の損失と、のうちの複数の損失の加重平均により前記トータル損失を算出する学習装置。
前記損失算出手段は、前記真値と前記生徒モデルの出力との差、前記真値と前記教師モデルの出力との差、及び、前記教師モデルの出力と前記生徒モデルの出力との差を距離として計算する距離計算器を備える請求項１に記載の学習装置。
前記損失算出手段は、前記自信度をエントロピー関数により算出する請求項１又は２に記載の学習装置。
前記学習データは画像データであり、
前記画像データから特徴を抽出して特徴マップを生成する特徴抽出手段を備え、
前記教師モデル及び前記生徒モデルは、前記特徴マップに対して規定したアンカー毎に前記推論結果を出力する請求項１乃至３のいずれか一項に記載の学習装置。
前記教師モデル及び前記生徒モデルは、前記特徴抽出手段が抽出した特徴マップに基づいて、前記画像データに含まれる対象物のクラス分類を行う請求項４に記載の学習装置。
前記教師モデル及び前記生徒モデルは、前記特徴抽出手段が抽出した特徴マップに基づいて、前記画像データに含まれる対象物の位置を検出する請求項５に記載の学習装置。
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
（１）前記教師モデルの出力の自信度が低いほど大きくなる第１の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第１の損失と、
（２）前記真値と前記教師モデルの出力との差が大きいほど大きくなる第２の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第２の損失と、
（３）前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第３の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第４の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第３の損失と、のうちの複数の損失の加重平均によりトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する学習方法。
教師モデルを用いて、学習データに対する推論結果を出力し、
生徒モデルを用いて、前記学習データに対する推論結果を出力し、
前記教師モデルの出力と、前記生徒モデルの出力と、前記学習データに対する真値とに基づいて、
（１）前記教師モデルの出力の自信度が低いほど大きくなる第１の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第１の損失と、
（２）前記真値と前記教師モデルの出力との差が大きいほど大きくなる第２の重みを、前記真値と前記生徒モデルの出力との差に乗算して得た第２の損失と、
（３）前記教師モデルの出力と前記生徒モデルの出力との差が大きいほど大きくなる第３の重み、及び、前記真値と前記教師モデルの出力との差が小さいほど大きくなる第４の重みを、前記教師モデルの出力と前記生徒モデルの出力との差に乗算して得た第３の損失と、のうちの複数の損失の加重平均によりトータル損失を算出し、
前記トータル損失に基づいて、前記生徒モデルのパラメータを更新する処理をコンピュータに実行させるプログラム。