JP7447985B2

JP7447985B2 - 学習装置、学習方法、学習プログラム、推定装置、推定方法及び推定プログラム

Info

Publication number: JP7447985B2
Application number: JP2022504953A
Authority: JP
Inventors: 昇平榎本; 毅晴江田; 啓坂本; 旭史; 佳弘池田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2024-03-12
Anticipated expiration: 2040-03-06
Also published as: WO2021176734A1; JPWO2021176734A1; US20230112076A1; JP2024051136A

Description

本発明は、学習装置、学習方法、学習プログラム、推定装置、推定方法及び推定プログラムに関する。

昨今、ビデオ監視、音声アシスタント、自動運転といった、DNN（deep neural network）を使ったリアルタイムアプリケーションが登場している。このようなリアルタイムアプリケーションには、DNNの精度を保ちつつ限られたリソースで多量のクエリをリアルタイムに処理することが求められる。そこで、高速かつ低精度な軽量モデルと低速かつ高精度な高精度モデルを使って、精度劣化少なく推論処理を高速化可能なモデルカスケードという技術が提案されている。

モデルカスケードでは軽量モデル及び高精度モデルを含む複数のモデルが用いられる。モデルカスケードによる推論を行う際は、まず軽量モデルで推定を行い、その結果が信用できる場合にはその結果を採用して処理を終了する。一方、軽量モデルの推定結果が信用できない場合には、続けて高精度モデルで推論を行い、その結果を採用する。例えば、軽量モデルの推定結果を信用できるか否かを判定するためにIDK（I Don’t Know）分類器を導入したIDK Cascade（例えば、非特許文献１を参照）が知られている。

Wang, Xin, et al. "Idk cascades: Fast deep learning by learning not to overthink." arXiv preprint arXiv:1706.00885 (2017).

しかしながら、従来のモデルカスケードには、計算コスト及び計算リソースのオーバーヘッドが生じる場合があるという問題がある。例えば、非特許文献１の技術では、軽量分類器及び高精度分類器に加え、IDK分類器を設ける必要がある。このため、モデルが１つ増えることになり、計算コスト及び計算リソースのオーバーヘッドが生じる。

上述した課題を解決し、目的を達成するために、学習装置は、入力されたデータを基に推定結果を出力する第１のモデルに学習用データを入力し、第１の推定結果を取得する推定部と、前記第１の推定結果の正否及び確信度と、入力されたデータを基に推定結果を出力するモデルであって、前記第１のモデルよりも処理速度が遅い、又は前記第１のモデルよりも推定精度が高い第２のモデルに前記学習用データを入力して得られた第２の推定結果の正否と、を基に、前記第１のモデルと前記第２のモデルを含むモデルカスケードが最適化されるように、前記第１のモデルのパラメータを更新する更新部と、を有することを特徴とする。

本発明によれば、モデルカスケードの計算コスト及び計算リソースのオーバーヘッドを抑止することができる。

図１は、モデルカスケードについて説明する図である。図２は、第１の実施形態に係る学習装置の構成例を示す図である。図３は、ケースごとの損失の一例を示す図である。図４は、高精度モデルの学習処理の流れを示すフローチャートである。図５は、軽量モデルの学習処理の流れを示すフローチャートである。図６は、第２の実施形態に係る推定システムの構成例を示す図である。図７は、推定処理の流れを示すフローチャートである。図８は、実験結果を示す図である。図９は、実験結果を示す図である。図１０は、実験結果を示す図である。図１１は、実験結果を示す図である。図１２は、実験結果を示す図である。図１３は、第３の実施形態に係る推定装置の構成例を示す図である。図１４は、３つ以上のモデルを含むモデルカスケードについて説明する図である。図１５は、３つ以上のモデルの学習処理の流れを示すフローチャートである。図１６は、３つ以上のモデルによる推定処理の流れを示すフローチャートである。図１７は、学習プログラムを実行するコンピュータの一例を示す図である。

以下に、本願に係る学習装置、学習方法、学習プログラム、推定装置、推定方法及び推定プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態］
第１の実施形態に係る学習装置は、入力された学習用データを用いて、高精度モデル及び軽量モデルの学習を行う。そして、学習装置は、学習済みの高精度モデルに関する情報、及び学習済みの軽量モデルに関する情報を出力する。例えば、学習装置は、各モデルを構築するために必要なパラメータを出力する。

高精度モデル及び軽量モデルは、入力されたデータを基に推定結果を出力するモデルである。第１の実施形態において、高精度モデル及び軽量モデルは、画像を入力とし、当該画像に写る物体のクラスごとの確率を推定する多クラス分類モデルであるものとする。ただし、高精度モデル及び軽量モデルは、そのような多クラス分類モデルに限定されるものではなく、機械学習が適用可能なあらゆるモデルであってよい。

高精度モデルは、軽量モデルと比べて処理速度が遅く推定精度が高いものとする。なお、高精度モデルは、単に軽量モデルより処理速度が遅いことが既知のものであってもよい。この場合、高精度モデルの方が軽量モデルよりも推定精度が高いことが期待される。また、高精度モデルは、単に軽量モデルより推定精度が高いことが既知のものであってもよい。この場合、軽量モデルの方が高精度モデルよりも処理速度が速いことが期待される。

高精度モデル及び軽量モデルは、モデルカスケードを構成する。図１は、モデルカスケードについて説明する図である。説明のため、図１には２つの画像を表示しているが、いずれも同じ画像である。図１に示すように、軽量モデルは、入力された画像に写る物体について各クラスの確率を出力する。例えば、軽量モデルは、画像に写る物体がcatである確率を約0.5と出力する。また、軽量モデルは、画像に写る物体がdogである確率を約0.35と出力する。

ここで、軽量モデルの出力、すなわち推定結果が条件を満たす場合、当該推定結果が採用される。つまり、軽量モデルの推定結果が、モデルカスケードの最終的な推定結果として出力される。一方で、軽量モデルの推定結果が条件を満たさない場合、同一の画像を高精度モデルに入力して得られた推定結果が、モデルカスケードの最終的な推定結果として出力される。ただし、高精度モデルは、軽量モデルと同様に、入力された画像に写る物体について各クラスの確率を出力する。例えば、条件は、軽量モデルが出力した確率の最大値が閾値を超えていることである。

例えば、高精度モデルはResNet18であって、サーバ等で動作する。また、例えば、軽量モデルはMobileNetV2であって、IoT機器及び各種端末装置で動作する。なお、高精度モデル及び軽量モデルは、同一のコンピュータで動作するものであってもよい。

［第１の実施形態の構成］
図２は、第１の実施形態に係る学習装置の構成例を示す図である。図２に示すように、学習装置１０は、学習用データの入力を受け付け、学習済み高精度モデル情報及び学習済み軽量モデル情報を出力する。また、学習装置１０は、高精度モデル学習部１１及び軽量モデル学習部１２を有する。

高精度モデル学習部１１は、推定部１１１、損失計算部１１２、更新部１１３を有する。また、高精度モデル学習部１１は、高精度モデル情報１１４を記憶する。高精度モデル情報１１４は、高精度モデルを構築するためのパラメータ等の情報である。学習用データは、ラベルが既知のデータであるものとする。例えば、学習用データは、画像とラベル（正解のクラス）の組み合わせである。

推定部１１１は、高精度モデル情報１１４を基に構築された高精度モデルに学習用データを入力し、推定結果を取得する。推定部１１１は、学習用データの入力を受け付け、推定結果を出力する。

損失計算部１１２は、推定部１１１によって取得された推定結果を基に損失を計算する。損失計算部１１２は、推定結果及びラベルの入力を受け付け、損失を出力する。例えば、損失計算部１１２は、推定部１１１によって取得された推定結果において、ラベルに対する確信度が小さいほど大きくなるように損失を計算する。例えば、確信度は、推定結果が正解であることの確からしさの度合いである。例えば、確信度は、前述の多クラス分類モデルが出力した確率であってもよい。具体的には、損失計算部１１２は、後述するソフトマックスクロスエントロピーを損失として計算することができる。

更新部１１３は、損失が最適化されるように、高精度モデルのパラメータを更新する。例えば、高精度モデルがニューラルネットワークであれば、更新部１１３は、誤差逆伝播法等により高精度モデルのパラメータを更新する。具体的には、更新部１１３は、高精度モデル情報１１４を更新する。更新部１１３は、損失計算部１１２によって計算された損失の入力を受け付け、更新済みのモデルの情報を出力する。

軽量モデル学習部１２は、推定部１２１、損失計算部１２２、更新部１２３を有する。また、軽量モデル学習部１２は、軽量モデル情報１２４を記憶する。軽量モデル情報１２４は、軽量モデルを構築するためのパラメータ等の情報である。

推定部１２１は、軽量モデル情報１２４を基に構築された軽量モデルに学習用データを入力し、推定結果を取得する。推定部１２１は、学習用データの入力を受け付け、推定結果を出力する。

ここで、高精度モデル学習部１１は、高精度モデルの出力を基に、高精度モデルの学習を行うものであった。一方で、軽量モデル学習部１２は、高精度モデル及び軽量モデルの両方の出力を基に、軽量モデルの学習を行う。

損失計算部１２２は、推定部によって取得された推定結果を基に損失を計算する。損失計算部１２２は、高精度モデルによる推定結果、軽量モデルによる推定結果及びラベルの入力を受け付け、損失を出力する。高精度モデルによる推定結果は、高精度モデル学習部１１による学習が行われた後の高精度モデルに、さらに学習用データを入力して得られた推定結果であってよい。さらに具体的には、軽量モデル学習部１２は、高精度モデルによる推定結果が正解であったか否かの入力を受け付ける。例えば、高精度モデルが出力した確率が最大であったクラスがラベルと一致していれば、その推定結果は正解である。

損失計算部１２２は、軽量モデル単体での推定精度の最大化に加え、モデルカスケードを構成した場合の利益の最大化を目的として損失を計算する。ここで、利益は、推定精度が高いほど大きくなり、計算コストが小さいほど大きくなるものとする。

例えば、高精度モデルには、推定精度は高いが計算コストが大きいという特徴がある。また、また、例えば、軽量モデルには、推定精度は低いが計算コストが小さいという特徴がある。そこで、損失計算部１２２は、（１）式のように損失Lossを計算する。ただし、wは重みであり、事前に設定されるパラメータである。

ここで、L_classifierは、多クラス分類モデルにおけるソフトマックスエントロピーである。また、L_classifierは、軽量モデルによる推定結果における正解に対する確信度が小さいほど大きくなる第１の項の一例である。L_classifierは、（２）式のように表される。ただし、Nはサンプル数である。また、kはクラス数である。また、yは正解のクラスを表すラベルである。また、qは軽量モデルによって出力された確率である。iはサンプルを識別する番号である。また、jはクラスを識別する番号である。ラベルy_i,jは、i番目のサンプルにおいて、j番目のクラスが正解であれば1になり、不正解であれば0になる。

また、L_cascadeは、モデルカスケードを構成した場合の利益の最大化のための項である。L_cascadeは、各サンプルについて、軽量モデルの確信度に基づいて高精度モデル及び軽量モデルの推定結果を採用した場合の損失を表している。ここで、損失は、不適切な確信度へのペナルティと高精度モデルを用いるコストを含む。また、損失は高精度モデルの推定結果が正解か否かと、軽量モデルの推定結果が正解か否かとの組み合わせで４パターンに分けられる。詳細は後述するが、高精度モデルの推定が不正解、かつ軽量モデルの確信度が低い場合は、ペナルティは大きくなる。一方、軽量モデルの推定が正解、かつ軽量モデルの確信度が高い場合は、ペナルティは小さくなる。L_cascadeは、（３）式のように表される。

1_fastは、軽量モデルの推定結果が正解であれば0、軽量モデルの推定結果が不正解であれば1を返す指示関数である。また、1_accは、高精度モデルの推定結果が正解であれば0、高精度モデルの推定結果が不正解であれば1を返す指示関数である。COST_accは、高精度モデルによる推定を行うことにかかるコストであり、事前に設定されるパラメータである。

max_jq_i,jは、軽量モデルが出力する確率の最大値であり、確信度の一例である。推定結果が正解であれば、確信度が大きいほど推定精度は高いといえる。一方、推定結果が不正解であれば、確信度が大きいほど推定精度は低いといえる。

（３）式のmax_jq_i,j1_fastは、軽量モデルによる推定結果が不正解である場合に軽量モデルによる推定結果の確信度が大きいほど大きくなる第２の項の一例である。また、（３）式の(1-max_jq_i,j)1_accは、高精度モデルによる推定結果が不正解である場合に軽量モデルによる推定結果の確信度が小さいほど大きくなる第３の項の一例である。また、（３）式の(1-max_jq_i,j)COST_accは、軽量モデルによる推定結果の確信度が小さいほど大きくなる第４の項の一例である。この場合、更新部１２３による損失の最小化が、損失の最適化に相当する。

更新部１２３は、損失が最適化されるように、軽量モデルのパラメータを更新する。つまり、更新部１２３は、軽量モデルによる推定結果と、入力されたデータを基に推定結果を出力するモデルであって、軽量モデルよりも処理速度が遅く推定精度が高い高精度モデルに学習用データを入力して得られた推定結果と、を基に、軽量モデルと高精度モデルを含むモデルカスケードが最適化されるように、軽量モデルのパラメータを更新する。更新部１２３は、損失計算部１２２によって計算された損失の入力を受け付け、更新済みのモデルの情報を出力する。

図３は、ケースごとの損失の一例を示す図である。縦軸はL_cascadeの値である。また、横軸は、max_jq_i,jの値である。また、COST_acc=0.5とする。max_jq_i,jは、軽量モデルによる推定結果の確信度であり、ここでは単に確信度と呼ぶ。

図３の「□」は、軽量モデル及び高精度モデルの両方の推定結果が正解である場合の、確信度に対するL_cascadeの値である。この場合、確信度が大きいほどL_cascadeの値は小さくなる。これは、軽量モデルによる推定結果が正解であれば、確信度が大きいほど軽量モデルが採用されやすくなるためである。

図３の「◇」は、軽量モデルの推定結果が正解であり、高精度モデルの推定結果が不正解である場合の、確信度に対するL_cascadeの値である。この場合、確信度が大きいほどL_cascadeの値は小さくなる。また、「□」の場合と比べて、L_cascadeの最大値及び小さくなる度合いが大きい。これは、高精度モデルによる推定結果が不正解であって、軽量モデルによる推定結果が正解であれば、確信度が大きいほど軽量モデルが採用されやすくなる傾向がさらに大きくなるためである。

図３の「■」は、軽量モデルの推定結果が不正解であり、高精度モデルの推定結果が正解である場合の、確信度に対するL_cascadeの値である。この場合、確信度が大きいほどL_cascadeの値は大きくなる。これは、軽量モデルの推定結果が不正解である場合も、確信度が小さいほど推定結果が採用されにくくなるためである。

図３の「◆」は、軽量モデル及び高精度モデルの両方の推定結果が不正解である場合の、確信度に対するL_cascadeの値である。この場合、確信度が大きいほどL_cascadeの値は小さくなる。ただし、「□」の場合と比べて、L_cascadeの値は大きい。これは、両方のモデルの推定結果が不正解であることから常に損失が大きく、そのような状況では軽量モデルで正確な推定ができるようにすべきであるためである。

［第１の実施形態の処理］
図４は、高精度モデルの学習処理の流れを示すフローチャートである。図４に示すように、まず、推定部１１１は、高精度モデルを用いて学習用データのクラスを推定する（ステップＳ１０１）。

次に、損失計算部１１２は、高精度モデルの推定結果を基に損失を計算する（ステップＳ１０２）。そして、更新部１１３は、損失が最適化されるように高精度モデルのパラメータを更新する（ステップＳ１０３）。なお、学習装置１０は、終了条件が満たされるまで、ステップＳ１０１からステップＳ１０３までの処理を繰り返してもよい。終了条件は、既定の回数だけ処理が繰り返されたことであってもよいし、パラメータの更新幅が収束したことであってもよい。

図５は、軽量モデルの学習処理の流れを示すフローチャートである。図５に示すように、まず、推定部１２１は、軽量モデルを用いて学習用データのクラスを推定する（ステップＳ２０１）。

次に、損失計算部１２２は、軽量モデルの推定結果、及び高精度モデルの推定結果及び高精度モデルによる推定のコストを基に損失を計算する（ステップＳ２０２）。そして、更新部１２３は、損失が最適化されるように軽量モデルのパラメータを更新する（ステップＳ２０３）。なお、学習装置１０は、終了条件が満たされるまで、ステップＳ２０１からステップＳ２０３までの処理を繰り返してもよい。

［第１の実施形態の効果］
これまで説明してきたように、推定部１２１は、入力されたデータを基に推定結果を出力する軽量モデルに学習用データを入力し、第１の推定結果を取得する。また、更新部１２３は、第１の推定結果と、入力されたデータを基に推定結果を出力するモデルであって、軽量モデルよりも処理速度が遅く推定精度が高い高精度モデルに学習用データを入力して得られた第２の推定結果と、を基に、軽量モデルと高精度モデルを含むモデルカスケードが最適化されるように、軽量モデルのパラメータを更新する。このように、第１の実施形態では、軽量モデルと高精度モデルによって構成されるモデルカスケードにおいて、IDK分類器等のモデルを設けることなく、軽量モデルがモデルカスケードに適した推定を行えるようにすることで、モデルカスケードの性能を向上させることができる。その結果、第１の実施形態によれば、モデルカスケードの精度が向上するだけでなく、計算コスト及び計算リソースのオーバーヘッドを抑止することができる。さらに、第１の実施形態では、損失関数に変更を加えるものであるため、モデルアーキテクチャの変更が不要であり、適用するモデルや最適化手法に制限がない。

更新部１２３は、第１の推定結果における正解に対する確信度が小さいほど大きくなる第１の項と、第１の推定結果が不正解である場合に第１の推定結果の確信度が大きいほど大きくなる第２の項と、第２の推定結果が不正解である場合に第１の推定結果の確信度が小さいほど大きくなる第３の項と、第１の推定結果の確信度が小さいほど大きくなる第４の項と、を含む損失関数を基に計算される損失が最小化されるように、軽量モデルのパラメータを更新する。この結果、第１の実施形態では、軽量モデルと高精度モデルによって構成されるモデルカスケードにおいて、高精度モデルの推定結果を採用する場合のコストを考慮した上で、モデルカスケードの推定精度を向上させることができる。

［第２の実施形態］
［第２の実施形態の構成］
第２の実施形態では、学習済みの高精度モデル及び軽量モデルを使って推定を行う推定システムについて説明する。第２の実施形態の推定システムによれば、IDK分類器等を設けることなく、モデルカスケードによる推定を精度良く行うことができる。また、以降の実施形態の説明においては、説明済みの実施形態と同様の機能を有する部には同じ符号を付し、適宜説明を省略する。

図６に示すように、推定システム２は、高精度推定装置２０及び軽量推定装置３０を有する。また、高精度推定装置２０及び軽量推定装置３０は、ネットワークＮを介して接続される。ネットワークＮは、例えばインターネットである。その場合、高精度推定装置２０は、クラウド環境に設けられたサーバであってもよい。また、軽量推定装置３０は、IoT機器及び各種端末装置であってもよい。

図６に示すように、高精度推定装置２０は、高精度モデル情報２０１を記憶する。高精度モデル情報２０１は、学習済みの高精度モデルのパラメータ等の情報である。また、高精度推定装置２０は、推定部２０２を有する。

推定部２０２は、高精度モデル情報２０１を基に構築された高精度モデルに推定用データを入力し、推定結果を取得する。推定部２０２は、推定用データの入力を受け付け、推定結果を出力する。推定用データは、ラベルが未知のデータであるものとする。例えば、推定用データは、画像である。

ここで、高精度推定装置２０及び軽量推定装置３０は、モデルカスケードを構成する。このため、推定部２０２は、常に推定用データについての推定を行うわけではない。推定部２０２は、軽量モデルの推定結果を採用しないという判断がされた場合に、高精度モデルによる推定を行う。

軽量推定装置３０は、軽量モデル情報３０１を記憶する。軽量モデル情報３０１は、学習済みの軽量モデルのパラメータ等の情報である。また、軽量推定装置３０は、推定部３０２及び判定部３０３を有する。

推定部３０２は、入力されたデータを基に推定結果を出力する軽量モデルに学習用データを入力して得られた推定結果と、入力されたデータを基に推定結果を出力するモデルであって、軽量モデルよりも推定精度が高い高精度モデルに学習用データを入力して得られた推定結果と、を基に、軽量モデルと高精度モデルを含むモデルカスケードが最適化されるように予め学習されたパラメータが設定された軽量モデルに、推定用のデータを入力して推定結果を取得する。推定部３０２は、推定用データの入力を受け付け、推定結果を出力する。

また、判定部３０３は、軽量モデルによる推定結果が、推定精度に関する所定の条件を満たすか否かを判定する。例えば、判定部３０３は、確信度が閾値以上である場合に、軽量モデルによる推定結果が条件を満たすと判定する。その場合、推定システム２は、軽量モデルの推定結果を採用する。

また、高精度推定装置２０の推定部２０２は、判定部３０３によって、軽量モデルによる推定結果が条件を満たさないと判定された場合、高精度モデルに、推定用のデータを入力して推定結果を取得する。その場合、推定システム２は、高精度モデルの推定結果を採用する。

［第２の実施形態の処理］
図７は、図７は、推定処理の流れを示すフローチャートである。図７に示すように、まず、推定部３０２は、軽量モデルを用いて推定用データのクラスを推定する（ステップＳ３０１）。

ここで、判定部３０３は、推定結果が条件を満たすか否かを判定する（ステップＳ３０２）。推定結果が条件を満たす場合（ステップＳ３０２、Yes）、推定システム２は軽量モデルの推定結果を出力する（ステップＳ３０３）。

一方、推定結果が条件を満たさない場合（ステップＳ３０２、No）、推定部２０２は、高精度モデルを用いて推定用データのクラスを推定する（ステップＳ３０４）。そして、推定システム２は高精度モデルの推定結果を出力する（ステップＳ３０５）。

［第２の実施形態の効果］
これまで説明してきたように、推定部３０２は、入力されたデータを基に推定結果を出力する軽量モデルに学習用データを入力して得られた推定結果と、入力されたデータを基に推定結果を出力するモデルであって、軽量モデルよりも推定精度が高い高精度モデルに学習用データを入力して得られた推定結果と、を基に、軽量モデルと高精度モデルを含むモデルカスケードが最適化されるように予め学習されたパラメータが設定された軽量モデルに、推定用のデータを入力して推定結果を取得する。また、判定部３０３は、軽量モデルによる推定結果が、推定精度に関する所定の条件を満たすか否かを判定する。この結果、第２の実施形態では、軽量モデルと高精度モデルによって構成されるモデルカスケードにおいて、オーバーヘッドの発生を抑止しつつ高精度な推定を行うことができる。

推定部２０２は、判定部３０３によって、軽量モデルによる推定結果が条件を満たさないと判定された場合、高精度モデルに、推定用のデータを入力して推定結果を取得する。これにより、第２の実施形態によれば、軽量モデルによる推定結果が採用できない場合であっても、高精度の推定結果を得ることができる。

ここで、第２の実施形態に係る推定システム２は、以下のように表現することができる。すなわち、推定システム２は、高精度推定装置２０及び軽量推定装置３０を有する。軽量推定装置３０は、入力されたデータを基に推定結果を出力する軽量モデルに学習用データを入力して得られた推定結果と、入力されたデータを基に推定結果を出力するモデルであって、軽量モデルよりも処理速度が遅い、又は軽量のモデルよりも推定精度が高い高精度モデルに学習用データを入力して得られた推定結果と、を基に、軽量モデルと高精度モデルを含むモデルカスケードが最適化されるように予め学習されたパラメータが設定された軽量モデルに、推定用のデータを入力して第１の推定結果を取得する推定部３０２と、第１の推定結果が、推定精度に関する所定の条件を満たすか否かを判定する判定部３０３と、を有する。高精度推定装置２０は、判定部３０３によって、第１の推定結果が条件を満たさないと判定された場合、高精度モデルに、推定用のデータを入力して第２の推定結果を取得する推定部２０２を有する。また、高精度推定装置２０は、推定用データを軽量推定装置３０から取得してもよい。

推定部２０２は、軽量推定装置３０による推定の結果に応じて推定を行う。すなわち、推定部２０２は、入力されたデータを基に推定結果を出力する軽量モデルに学習用データを入力して得られた推定結果と、入力されたデータを基に推定結果を出力するモデルであって、軽量モデルよりも処理速度が遅い、又は軽量モデルよりも推定精度が高い高精度モデルに学習用データを入力して得られた推定結果と、を基に、軽量モデルと高精度モデルを含むモデルカスケードが最適化されるように予め学習されたパラメータが設定された軽量モデルに、軽量推定装置３０が推定用のデータを入力して取得する第１の推定結果に応じて、推定用のデータを高精度モデルに入力して第２の推定結果を取得する。

［実験］
ここで、実施形態の効果を確認するために行った実験とその結果について説明する。図８から図９は、実験結果を示す図である。実験では、第２の実施形態における判定部３０３が、確信度が閾値を超えているか否かを判定するものとする。実験における各設定は下記の通りである。
データセット:CIFAR100
train:45000, validation:5000, test:10000
軽量モデル:MobileNetV2
高精度モデル:ResNet18
モデルの学習方法
Momentum SGD
lr=0.01, momentum=0.9, weight decay=5e-4
lrは60,120,160エポックで0.2倍
batch size:128
比較手法（各5回ずつ実験）
・Base:クラス確率の最大値を利用
・IDK Cascades（非特許文献１を参照）
・ConfNet（参考文献１を参照）
・Temperature Scaling（参考文献２を参照）
・第２の実施形態
精度：モデルカスケード構成で推論を行った際の精度
オフロード数：高精度モデルで推論を行った回数
（参考文献１）Wan, Sheng, et al. "Confnet: Predict with Confidence." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
（参考文献２）Guo, Chuan, et al. "On calibration of modern neural networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.

上記のtestデータを用いて、第２の実施形態を含む各手法で実際に推定を行い、閾値を0から1まで0.01刻みで変化させた際のオフロード数と精度の関係を図８に示す。図８に示すように、実施形態の手法（proposed）は、他の手法と比べ、オフロード数が減った場合であっても高い精度を示した。

また、上記のvalidationデータで最も精度が高くなる閾値を採用して、testデータの推定を行った際のオフロード数と精度の関係を図９及び図１０に示す。これより、第２の実施形態によれば、高精度モデルの精度を維持しつつ最もオフロード数が削減されていることがわかる。

さらに、testデータで高精度モデルの精度を維持しつつ最もオフロードが少なかった際のオフロード数と精度の関係を図１１及び図１２に示す。これより、第２の実施形態によれば最もオフロード数が削減されていることがわかる。

［第３の実施形態］
第２の実施形態では、軽量モデルによる推定を行う装置と、高精度モデルによる推定を行う装置が別々である場合の例について説明した。一方で、軽量モデルによる推定と高精度モデルによる推定は同じ装置で行われてもよい。

図１３は、第３の実施形態に係る推定装置の構成例を示す図である。推定装置２ａは、第２の実施形態の推定システム２と同様の機能を有する。また、高精度推定部２０ａは、第２の実施形態の高精度推定装置２０と同様の機能を有する。また、軽量推定部３０ａは、第２の実施形態の軽量推定装置３０と同様の機能を有する。第２の実施形態と異なり、推定部２０２と判定部３０３は同じ装置内にあるため、推定処理において、ネットワークを介したデータのやり取りは発生しない。

［第４の実施形態］
これまで、モデルが軽量モデル及び高精度モデルの２つである場合の実施形態について説明した。一方で、これまでに説明した実施形態は、モデルが３つ以上の場合に拡張することができる。

図１４は、３つ以上のモデルを含むモデルカスケードについて説明する図である。ここでは、M個（M>3）のモデルがあるものとする。m+1番目（M-1≧m≧1）のモデルは、m番目のモデルよりも処理速度が遅い、又はm番目のモデルよりも推定精度が高いものとする。つまり、m+1番目のモデルとm番目のモデルとの関係は、高精度モデルと軽量モデルとの関係と同様である。さらに、M番目のモデルは最も高精度なモデルであり、1番目のモデルは最も軽量なモデルということができる。

第４の実施形態では、第２の実施形態で説明した推定システム２を使って、3つ以上のモデルによる推定処理を実現することができる。まず、推定システム２は、高精度モデル情報２０１を2番目のモデルの情報に置き換え、軽量モデル情報３０１を1番目のモデルの情報に置き換える。そして、推定システム２は、第２の実施形態と同様の推定処理を実行する。

その後、1番目のモデルの推定結果が条件と満たさず、かつ、2番目のモデルの推定結果が条件を満たさない場合、推定システム２は、高精度モデル情報２０１を3番目のモデルの情報に置き換え、軽量モデル情報３０１を2番目のモデルの情報に置き換えて推定処理をさらに実行する。推定システム２は、条件を満たす推定結果が得られるか、又はM番目のモデルによる推定処理が終わるまでこの処理を繰り返す。なお、同様の処理は、軽量モデル情報３０１を置き換えていくことにより、軽量推定装置３０のみでも実現可能である。

さらに、第４の実施形態では、第１の実施形態で説明した学習装置１０を使って、3つ以上のモデルの学習処理を実現することができる。学習装置１０は、M個のモデルから番号が連続する2つのモデルを抽出し、それらのモデルの情報を用いて学習処理を実行する。まず、学習装置１０は、高精度モデル情報１１４をM番目のモデルの情報に置き換え、軽量モデル情報１２４をM-1番目のモデルの情報に置き換える。そして、学習装置１０は、第１の実施形態と同様の学習処理を実行する。一般化すると、学習装置１０は、高精度モデル情報１１４をm番目のモデルの情報に置き換え、軽量モデル情報１２４をm-1番目のモデルの情報に置き換えた上で、第１の実施形態と同様の学習処理を実行する。

図１５は、３つ以上のモデルの学習処理の流れを示すフローチャートである。ここでは、第１の実施形態の学習装置１０が学習処理を行うものとする。図１５に示すように、まず、学習装置１０は、mの初期値としてMを設定する（ステップＳ４０１）。推定部１２１は、m-1番目のモデルを用いて学習用データのクラスを推定する（ステップＳ４０２）。

次に、損失計算部１２２は、m-1番目のモデルの推定結果、及びm番目のモデルの推定結果及びm番目のモデルによる推定のコストを基に損失を計算する（ステップＳ４０３）。そして、更新部１２３は、損失が最適化されるようにm-1番目のモデルのパラメータを更新する（ステップＳ４０４）。

ここで、学習装置１０は、mを1だけ減少させる（ステップＳ４０５）。mが1に達した場合（ステップＳ４０６、Yes）、学習装置１０は処理を終了する。一方、mが1に達していない場合（ステップＳ４０６、No）、学習装置１０はステップＳ４０２に戻り処理を繰り返す。

図１６は、３つ以上のモデルによる推定処理の流れを示すフローチャートである。ここでは、第２の実施形態の軽量推定装置３０が推定処理を行うものとする。図１６に示すように、まず、軽量推定装置３０は、mの初期値として1を設定する（ステップＳ５０１）。推定部３０２は、m番目のモデルを用いて推定用データのクラスを推定する（ステップＳ５０２）。

ここで、判定部３０３は、推定結果が条件を満たすか否か、及びmがMに達しているか否かを判定する（ステップＳ５０３）。推定結果が条件を満たすか、又はmがMに達している場合（ステップＳ５０３、Yes）、軽量推定装置３０はm番目のモデルの推定結果を出力する（ステップＳ５０４）。

一方、推定結果が条件を満たさず、かつmがMに達していない場合（ステップＳ５０３、No）、推定部３０２は、軽量推定装置３０は、mを1だけ増加させ（ステップＳ５０５）、ステップＳ５０２に戻り処理を繰り返す。

例えば、従来の技術では、モデルが増加するのに従いIDK分類器の数も増加し、計算コスト及び計算リソースのオーバーヘッドが拡大する。一方で、第４の実施形態によれば、モデルカスケードを構成するモデルの数が３つ以上に増加したとしても、そのようなオーバーヘッドが拡大する問題は生じない。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、学習装置１０及び軽量推定装置３０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は推定処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０又は軽量推定装置３０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal Handyphone System）等の移動体通信端末、さらには、PDA（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、学習装置１０及び軽量推定装置３０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理又は推定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、学習用のデータを入力とし、学習済みのモデルの情報を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１７は、学習プログラムを実行するコンピュータの一例を示す図である。なお、推定プログラムについても同様のコンピュータによって実行されてもよい。コンピュータ１０００は、例えば、メモリ１０１０、プロセッサ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ROM（Read Only Memory）１０１１及びRAM１０１２を含む。ROM１０１１は、例えば、BIOS（BASIC Input Output System）等のブートプログラムを記憶する。プロセッサ１０２０は、CPU１０２１及びGPU（Graphics Processing Unit）１０２２を含む。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSDにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、CPU１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して、上述した実施形態の処理を実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してCPU１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（LAN（Local Area Network）、WAN（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してCPU１０２０によって読み出されてもよい。

２推定システム
２ａ推定装置
１０学習装置
１１高精度モデル学習部
１２軽量モデル学習部
２０高精度推定装置
２０ａ高精度推定部
３０軽量推定装置
３０ａ軽量推定部
１１１、１２１、２０２、３０２推定部
１１２、１２２損失計算部
１１３、１２３更新部
１１４、２０１高精度モデル情報
１２４、３０１軽量モデル情報
３０３判定部

Claims

入力されたデータを基に推定結果を出力する第１のモデルに学習用データを入力し、第１の推定結果を取得する推定部と、
前記第１の推定結果と、前記第１の推定結果における正解に対する確信度が小さいほど大きくなる第１の項と、前記第１の推定結果が不正解である場合に前記第１の推定結果の確信度が大きいほど大きくなる第２の項と、入力されたデータを基に推定結果を出力するモデルであって、前記第１のモデルよりも処理速度が遅い、又は前記第１のモデルよりも推定精度が高い第２のモデルに前記学習用データを入力して得られた第２の推定結果が不正解である場合に前記第１の推定結果の確信度が小さいほど大きくなる第３の項と、前記第１の推定結果の確信度が小さいほど大きくなる第４の項と、を含む損失関数を基に計算される損失が最適化されるように、前記第１のモデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
学習装置によって実行される学習方法であって、
入力されたデータを基に推定結果を出力する第１のモデルに学習用データを入力し、第１の推定結果を取得する推定工程と、
前記第１の推定結果と、前記第１の推定結果における正解に対する確信度が小さいほど大きくなる第１の項と、前記第１の推定結果が不正解である場合に前記第１の推定結果の確信度が大きいほど大きくなる第２の項と、入力されたデータを基に推定結果を出力するモデルであって、前記第１のモデルよりも処理速度が遅い、又は前記第１のモデルよりも推定精度が高い第２のモデルに前記学習用データを入力して得られた第２の推定結果が不正解である場合に前記第１の推定結果の確信度が小さいほど大きくなる第３の項と、前記第１の推定結果の確信度が小さいほど大きくなる第４の項と、を含む損失関数を基に計算される損失が最適化されるように、前記第１のモデルのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
コンピュータを、請求項１に記載の学習装置として機能させるための学習プログラム。
入力されたデータを基に推定結果を出力する第１のモデルに学習用データを入力して得られた第１の推定結果と、前記第１の推定結果における正解に対する確信度が小さいほど大きくなる第１の項と、前記第１の推定結果が不正解である場合に前記第１の推定結果の確信度が大きいほど大きくなる第２の項と、入力されたデータを基に推定結果を出力するモデルであって、前記第１のモデルよりも処理速度が遅い、又は前記第１のモデルよりも推定精度が高い第２のモデルに前記学習用データを入力して得られた第２の推定結果が不正解である場合に前記第１の推定結果の確信度が小さいほど大きくなる第３の項と、前記第１の推定結果の確信度が小さいほど大きくなる第４の項と、を含む損失関数を基に計算される損失が最適化されるように予め学習されたパラメータが設定された前記第１のモデルに、推定用のデータを入力して第１の推定結果を取得する第１の推定部と、
前記第１の推定結果が、推定精度に関する所定の条件を満たすか否かを判定する判定部と、
を有することを特徴とする推定装置。
入力されたデータを基に推定結果を出力する第１のモデルに学習用データを入力して得られた第１の推定結果と、前記第１の推定結果における正解に対する確信度が小さいほど大きくなる第１の項と、前記第１の推定結果が不正解である場合に前記第１の推定結果の確信度が大きいほど大きくなる第２の項と、入力されたデータを基に推定結果を出力するモデルであって、前記第１のモデルよりも処理速度が遅い、又は前記第１のモデルよりも推定精度が高い第２のモデルに前記学習用データを入力して得られた第２の推定結果が不正解である場合に前記第１の推定結果の確信度が小さいほど大きくなる第３の項と、前記第１の推定結果の確信度が小さいほど大きくなる第４の項と、を含む損失関数を基に計算される損失が最適化されるように予め学習されたパラメータが設定された前記第１のモデルに、他の推定装置が推定用のデータを入力して取得する第１の推定結果に応じて、前記推定用のデータを前記第２のモデルに入力して第２の推定結果を取得する第２の推定部を有することを特徴とする推定装置。
推定装置によって実行される推定方法であって、
入力されたデータを基に推定結果を出力する第１のモデルに学習用データを入力して得られた第１の推定結果と、前記第１の推定結果における正解に対する確信度が小さいほど大きくなる第１の項と、前記第１の推定結果が不正解である場合に前記第１の推定結果の確信度が大きいほど大きくなる第２の項と、入力されたデータを基に推定結果を出力するモデルであって、前記第１のモデルよりも処理速度が遅い、又は前記第１のモデルよりも推定精度が高い第２のモデルに前記学習用データを入力して得られた第２の推定結果が不正解である場合に前記第１の推定結果の確信度が小さいほど大きくなる第３の項と、前記第１の推定結果の確信度が小さいほど大きくなる第４の項と、を含む損失関数を基に計算される損失が最適化されるように予め学習されたパラメータが設定された前記第１のモデルに、推定用のデータを入力して第１の推定結果を取得する第１の推定工程と、
前記第１の推定結果が、推定精度に関する所定の条件を満たすか否かを判定する判定工程と、
を含むことを特徴とする推定方法。
コンピュータを、請求項４又は５に記載の推定装置として機能させるための推定プログラム。