JP7306062B2

JP7306062B2 - ナレッジ・トランスファー方法、情報処理装置及び記憶媒体

Info

Publication number: JP7306062B2
Application number: JP2019099109A
Authority: JP
Inventors: ワン・モンジアオ; リィウ・ルゥジエ
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-06-13
Filing date: 2019-05-28
Publication date: 2023-07-11
Anticipated expiration: 2039-05-28
Also published as: CN110598840B; EP3582150A1; US20190385086A1; CN110598840A; US11586988B2; JP2019215861A

Description

本開示は、機械学習分野に関し、特に、ナレッジ・トランスファー（knowledge transfer）方法、マシン（例えば、コンピュータ）に該ナレッジ・トランスファー方法を実行させるための指令コード（コンピュータプログラムとも言う）を記憶した記憶媒体、及び該ナレッジ・トランスファー方法により得られたモデルを用いることができる情報処理装置に関する。

ナレッジ・トランスファーは、１つのネットワークモデルの教師信号（supervisory signal）を用いてもう１つのネットワークモデルを訓練する有効な方法である。ここで、前のネットワークモデルを“教師”モデルと称し、後のネットワークモデルを“学生”モデルと称する。一般的に言えば、ナレッジ・トランスファーは、“学生”ネットワークモデルに、“教師”ネットワークモデルと一致した結果を出力させることで、“教師”ネットワークモデル中のナレッジを“学生”ネットワークモデルにトランスファーすることにより、“学生”ネットワークモデルが“教師”ネットワークモデルの表現力を学習し得るようにさせる。

例えば、“教師”モデルは、大型ニューラルネットワークモデルであり、ナレッジ・トランスファーにより得られた“学生”モデルは、小型ニューラルネットワークモデルであっても良い。また、例えば、“教師”モデル及び“学生”モデルは、異なるデータを処理するモデルであっても良く、例えば、“教師”モデルは、顔画像データを処理し、ナレッジ・トランスファーにより得られた“学生”モデルは、指紋画像データを処理しても良い。異なるケースについて、ナレッジ・トランスファーにより、ネットワークモデルの加速化を実現し、既存のモデルを、異なるタスクを実現するために転用することができる。

機械学習技術の発展に伴い、より有効なナレッジ・トランスファー方法を実現する必要がある。

上記のようなニーズに鑑み、本開示の目的は、より有効なナレッジ・トランスファーを実現することができるナレッジ・トランスファー方法、マシンに該ナレッジ・トランスファー方法を実行させるための指令コードを記憶した記憶媒体、及び該ナレッジ・トランスファー方法により得られたモデルを用いることができる情報処理装置を提供することにある。

本開示の第一側面によれば、ナレッジ・トランスファー方法が提供され、それは、
所定タスクについて予め訓練された第一モデルを取得し；及び
総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させることを含み、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。

本開示の第二側面によれば、ナレッジ・トランスファー装置が提供され、それは、
第一ユニットであって、所定タスクについて予め訓練された第一モデルを取得するためのもの；及び
第二ユニットであって、総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させるためのものを含み、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。

本開示の他の側面によれば、情報処理装置が提供され、それは、処理器を含み、前記処理器は、処理待ちデータを、本開示の第一側面によるナレッジ・トランスファー方法により得られた第二モデルに入力し；及び、第二モデルの処理待ちデータに対しての処理結果を取得するように構成される。

本開示の他の側面によれば、コンピュータに上述のようなナレッジ・トランスファー方法を実現させるためのプログラムが提供される。

本開示の他の側面によれば、記憶媒体が提供され、それは、マシン可読指令コードを記憶しており、前記指令コードは、マシンにより読み取られて実行されるときに、マシンに、ナレッジ・トランスファー方法を実行させることができる。前記指令コードは、指令コード部を含み、それは、以下のような操作（処理）を行うように用いられ、即ち、
所定タスクについて予め訓練された第一モデルを取得し；及び
総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させることであり、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。

本開示の実施例の各側面によれば、少なくとも次のような利点を得ることができ、即ち、本開示によるナレッジ・トランスファー方法、ナレッジ・トランスファー装置、情報処理装置、及び記憶媒体を用いることで、“教師”モデル中の誤ったナレッジを“学生”モデルにトランスファーすることを避け、より有効で且つより正確なナレッジ・トランスファーを実現することができる。

本開示の実施例におけるナレッジ・トランスファー方法のフローチャートである。ユークリッド距離に基づく損失関数と、コサイン距離に基づく損失関数との間の相違を説明する図である。ユークリッド距離に基づく損失関数と、コサイン距離に基づく損失関数との間の相違を説明する図である。本開示の実施例におけるナレッジ・トランスファー装置の構成図である。本開示の実施例における情報処理方法及び装置を実現し得るハードウェアの構成を示す図である。

開示を実施するための形態

以下、添付した図面を参照しながら、本開示を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本開示を限定するものでない。

本開示の一側面によれば、ナレッジ・トランスファー方法が提供される。図1は、本開示の実施例におけるナレッジ・トランスファー方法100のフローチャートである。

図1に示すように、ナレッジ・トランスファー方法100は、以下のステップを含んでも良い。

第一モデル取得ステップS101：所定タスクについて予め訓練された第一モデルを取得し；
第二モデル訓練ステップS103：総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行う（第二モデルを訓練する）ことにより、第二モデルに第一モデルのナレッジを有させる。

第二モデル訓練ステップS103に用いられる総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重（重みづけ）された第一損失関数、及び第二損失関数に基づくものであり、そのうち、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違（差）を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表し、例えば、第二モデルの訓練サンプルに対しての所定タスクについての出力結果と、正確な結果との間の相違（差）を表しても良い。

本実施例のナレッジ・トランスファー方法では、ナレッジ・トランスファーに関連する、２つのモデルの間の相違を示す第一損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性（該正確性は、本文において、第一モデルの訓練サンプルに対しての信頼度（confidence）とも言う）を用いて加重されたものであり、即ち、第一損失関数は、“教師”モデルとしての第一モデルの訓練サンプルに対しての信頼度に基づいて加重されている。よって、“教師”モデルの訓練サンプルに対しての信頼度に関わらずにナレッジを“学生”モデルにトランスファーする従来技術に比べ、本発明は、“教師”モデル中の誤ったナレッジを“学生”モデルにトランスファーすることを避け、より有効で且つより正確なナレッジ・トランスファーを実現することができる。

好ましい実施例では、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、第一損失関数に係る重み（weight）が大きい。このときに、ナレッジ・トランスファーに関連する第一損失関数は、総合損失関数中でより大きな作用を発揮することができ、これは、“教師”モデルとしての第一モデルが訓練過程全体において主導し、且つ第一モデルの“正確な”ナレッジの第二モデルへのトランスファーに有利であることを意味する。逆に、第一モデルの訓練サンプルに対しての上述の正確性が低いほど、第一損失関数の重みが小さい。このときに、第二モデル自身の正確性に係る第二損失関数は、総合損失関数中でより大きな作用を発揮することができ、これは、“学生”モデルとしての第二モデル自身が訓練過程において主導し、第二モデルに、その自身の処理能力を向上させることができることを意味する。このような加重方式で、“教師”モデルのある訓練サンプルに対しての正確性がとても低いときに、ナレッジ・トランスファーに関連する第一損失関数は、総合損失関数中でほとんど作用を発揮せず、これにより、“教師”モデル中の誤ったナレッジの“学生”モデルへのトランスファーを避けることができる。

第二モデル訓練ステップS103の訓練過程では、例えば、上述の総合損失関数が期待値（例えば、最小値）に達することを目標として、第二モデルに対して反復（iteration）訓練を行い、総合損失関数が最小値を取り、総合損失関数の値に変化がなく、所定反復回数に達しており、又は、他の反復完了条件を満たしているときに訓練を終了し、これにより、有効なナレッジ・トランスファーを実現し得る第二モデルを取得することができる。なお、当業者が理解すべきは、形成された総合損失関数に基づいて、例えば、勾配降下法などの従来の任意の方法で第二モデルの訓練を行うことにより、該モデルの最適パラメータを取得しても良いが、ここでは、その詳しい説明を省略する。

一例として、第一モデル及び第二モデルは、ニューラルネットワークモデル、例えば、畳み込みニューラルネットワークモデル（CNN）であっても良い。例えば、第一モデルは、構造がより複雑であり、パラメータの規模がより大きいニューラルネットワークであっても良く、第二モデルは、小型のニューラルネットワークであっても良く、例えば、より少ない層及びより少ないパラメータを含んでも良い。このような場合、ナレッジ・トランスファーを行うことで取得された第二モデルは、処理速度を加速化することができ、且つ第一モデルよりも、処理資源が限られている移動装置又は組み込み装置に応用されやすい。

一例として、訓練サンプルは、画像サンプル、語音サンプル、又は文書（document）サンプルであっても良い。例えば、訓練サンプルは、顔画像サンプルを含んでも良く、例えば、異なるヒトの顔の正面、側面、又は異なる姿勢の顔画像などを含んでも良い。また、訓練サンプルは、さらに、指紋画像サンプルなどを含んでも良い。

一例として、所定タスクは、分類タスクを含んでも良い。例えば、所定タスクは、顔画像を異なる姿勢に分類し、又は、異なるヒトに属するように分類するタスク、例えば、顔認識タスクなどであっても良い。

前述のように、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表す。ここで用いられる用語“処理結果”は、例えば、第一モデル又は第二モデルの訓練サンプルに対しての所定タスクについての最終出力結果を含んでも良く、例えば、分類タスクの分類結果（例えば、訓練サンプルが各クラスに属する確率の形式で該分類結果を表す）である。また、“処理結果”は、さらに、第一モデル又は第二モデルを用いて訓練サンプルのうちから抽出された特徴を含んでも良い。例えば、第一モデル及び第二モデルがニューラルネットワークモデルである場合、処理結果は、訓練サンプルをニューラルネットワークモデルに入力した後の、ニューラルネットワークモデル中のある層の出力データを含んでも良い。

なお、以下、主に画像データに対して分類タスクを行うニューラルネットワークモデルを第一モデル及び第二モデルとすることを例として説明するが、当業者が理解すべきは、本開示の内容は、これに限定されず、任意のタスクを行い、任意の構造を有する第一モデル及び第二モデルに応用することができ、言い換えると、図1に示すフローチャートに適用することができれば良い。

一実施例では、ナレッジ・トランスファーに関連する第一損失関数は、第二モデルを用いて訓練サンプル中から抽出された所定特徴と、第一モデルを用いて訓練サンプル中から抽出された所定特徴との間の相違を示す第一サブ損失関数を含んでも良い。

上述の特徴の相違を表す第一サブ損失関数は、得られた第二モデルを特徴抽出器として用いるときに特に有益である。このようなサブ損失関数に基づいて第一損失関数を形成して総合損失関数に用いるときに、ナレッジ・トランスファーを実現した後に得られた第二モデルは、第一モデルのデータに対しての表現能力を取得しているため、第一モデルと同様に特徴の抽出に適用することができる。

発明者が次のようなことを発見した。即ち、後続の応用のニーズに応じて、ナレッジ・トランスファー過程で形成された上述の第一サブ損失関数を合理的に設置することができる。よって、好ましい実施例では、第一サブ損失関数は、第二モデルを用いて訓練サンプルから抽出された所定特徴と、第一モデルを用いて訓練サンプル中から抽出された所定特徴との間のコサイン距離に基づいても良い。コサイン距離は、コサイン類似度に基づいて定義され、ベクトル間の相違を表す手法の１つであり、そのうち、コサイン類似度は、２つのベクトルの内積空間の夾角のコサイン値として定義され、コサイン距離とコサイン類似度との和が1であり、即ち、コサイン距離＝1-コサイン類似度である。

この好ましい実施例では、後続の、ナレッジ・トランスファーを実現した後に得られた第二モデルを認識処理又は類似度計算タスク（例えば、認識待ち／処理待ちのサンプルと、登録／目標サンプルとがマッチングするかを比較するタスク）、例えば、顔の認識、話すヒトの認識、指紋の認識などの場合を考慮する。これらのタスクでは、一般に特徴間のコサイン類似度を使用して処理待ちデータ（認識待ちサンプル）と、目標データ（登録サンプル）との間の類似性を表す。よって、ユークリッド距離に基づく損失関数を採用してナレッジ・トランスファーを行う従来技術に比べ、上述のように第一モデル及び第二モデルの特徴間のコサイン距離に基づく第一サブ損失関数を形成し、第二モデルがコサイン類似度の計算の面おいて第一モデルと類似した特徴抽出能力を有するようにさせることで、認識処理の正確度の向上に有利である。

以下、図2A及び図2Bを参照して、ユークリッド距離に基づく損失関数と、コサイン距離に基づく損失関数との表現を対比する。図2A及び図2Bは、ユークリッド距離に基づく損失関数及びコサイン距離に基づく損失関数間の相違を説明するための図である。図2A及び図2Bでは、F_Tは、第一モデルを用いて所定訓練サンプル中から抽出した特徴（即ち、該特徴の特徴空間中の位置）を示し、F_Sは、最適化前の第二モデルを用いて所定訓練サンプル中から抽出した特徴を表す。図2A中のF'_Sは、ユークリッド距離に基づく損失関数の最適化後の第二モデルを用いて所定訓練サンプル中から抽出した特徴を示し、図2B中のF'_Sは、コサイン距離に基づく損失関数（例えば、上述のように形成された、コサイン距離に基づく第一サブ損失関数を含む損失関数）の最適化後の第二モデルを用いて所定訓練サンプル中から抽出した特徴を示す。ここで、例えば、ユークリッド距離又はコサイン距離に基づく、対応する損失関数が最小値になるようにさせることで第二モデルの最適化を実現する。

図2Aから分かるように、ユークリッド距離に基づく損失関数を用いて最適化した後に、第二モデルを利用して所定訓練サンプル中から抽出した特徴F'_Sと、第一モデルを利用して抽出した特徴F_Tとの間のユークリッド距離がLからL'に減少したときに、この２つの特徴間の夾角がθからθ'に増大している。これは、両者間のコサイン類似度cosθが減少したことを意味する。

これに対し、図2Bに示すように、コサイン距離に基づく損失関数を用いて最適化した後に、第二モデルを用いて所定訓練サンプルから抽出した特徴F'_Sと、第一モデルを用いて抽出した特徴F_Tとの間のユークリッド距離がLからL'に増大したが、この２つの特徴間の夾角がθからθ'に減少した。即ち、この２つの特徴間のコサイン類似度cosθが増加している。換言すると、コサイン距離に基づく損失関数は、最適化後の第二モデルを使用して得られた特徴F'_Sと、第一モデルを利用して得られた特徴F_Tとの間のコサイン類似度をできるだけ大きくすることができる。よって、この好ましい実施例では、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを利用して訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づく第一サブ損失関数は、特に、コサイン類似度を類似度とする認識類タスクに有益である。

また、図2Bに示す例において、最適化後の第二モデルを使用して得られた特徴F'_Sと、第一モデルを利用して得られた特徴F_Tとの間のコサイン類似度が増加するとともに、ユークリッド距離が増大する場合を示しているが、これは、例示に過ぎない。実際の応用では、この２つの特徴間のコサイン類似度が増加するとともに、ユークリッド距離が基本的に不変であり又は減少する場合も存在する。この好ましい実施例で注目する面について言えば、コサイン類似度が増加することを確保できれば良いため、ユークリッド距離の変化を注目しなくても良い。よって、ここでは、それについての更なる説明をしない。

好ましい実施例では、例えば、上述のコサイン距離に基づく第一サブ損失関数以外に、第一損失関数は、さらに、（オプションとして）第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違を表す第二サブ損失関数を含んでも良い。

例えば、次のような例を考慮する。第一モデル及び第二モデルが分類タスクを実現するニューラルネットワークモデルであり、クラスのラベルがc=1，2，...，Cであり、そのうち、Cは、自然数で且つ分類タスク中の総クラス数を示し、入力としての訓練サンプルが{xi，i=1，2，...，m}であり、そのうち、mは、自然数で且つ訓練サンプルの総数を表す。このときに、第一損失関数L₁は、以下のように示すことができる。

そのうち、A_iは、第一モデルの訓練サンプルx_iに対しての分類結果の正確性（又は、第一モデルの訓練サンプルx_iに対しての信頼度）であり；L_sub1iは、第一サブ損失関数であり、第二モデルを用いて訓練サンプルx_i中から抽出した所定特徴と、第一モデルを用いて訓練サンプルx_i中から抽出した所定特徴との間の相違を表し；L_sub2iは、第二サブ損失関数であり、第二モデル及び第一モデルの訓練サンプルx_iに対しての分類結果の間の相違を示す。

一例として、第一モデルの訓練サンプルx_iに対しての信頼度A_iは、以下のように計算することができる。

そのうち、y_i ^t(c)は、サンプルx_iがクラスcである確率を示し、x_i ^t(c)は、サンプルx_iが第一モデルによりクラスcに分類される確率を表し、1/2は、w_iの値を0～1の間に正規化するための係数である。w_iが0であるときに、第一モデルがサンプルx_iに対して正確に分類していることを示し、このときに、正確度A_iは、最大値を取る。

上述のように、第一サブ損失関数は、所定特徴間のコサイン距離に基づいても良い。例えば、第一サブ損失関数L_sub1iは、以下の公式（4）に示すように、コサイン距離L_Fiに基づくことができる。

そのうち、f_xi ^tは、第一モデルを用いて訓練サンプルx_i中から抽出した所定特徴であり；f_xi ^sは、第二モデルを用いて訓練サンプルxⁱ中から抽出した所定特徴である。また、λ_Fは、異なる（サブ）損失関数の影響のバランスを取るためにコサイン距離L_Fiについて設定した係数を示し、それは、実験又は応用のニーズに応じて合理的に設定することができる。

一例として、訓練サンプルx_iがニューラルネットワークモデルとしての第一モデルに入力された後に、該モデルの１つの層の出力データを所定特徴（特徴ベクトル）f_xi ^tとして抽出し、また、類似した方式で第二モデルを用いて所定特徴（特徴ベクトル）f_xi ^sを取得することができる。上述の１つの層は、ニューラルネットワークモデルの入力層及び出力層以外の層であっても良く、例えば、複数の隠れ層中の１つ層である。

オプションとして、もう１つの例では、第一サブ損失関数は、第二モデルを用いて訓練サンプルx_i中から抽出した所定特徴f_xi ^tと、第一モデルを用いて訓練サンプルx_i中から抽出した所定特徴f_xi ^sとの間のユークリッド距離に基づいても良い。例えば、第一サブ損失関数L_sub1iは、以下の公式（5）に示すように、ユークリッド距離L_Eiに基づいても良い。

公式（4）中のλ_Fと同様に、公式（5）中のλ_Eは、異なる（サブ）損失関数の影響のバランスを取るためにユークリッド距離について設定した係数であり、それは、実験又は応用のニーズに応じて合理的に設定することができる。

また、第二サブ損失関数L_sub2iは、第二モデルと第一モデルのサンプルx_iに対しての分類結果の間の相違を示すことができ、例えば、クロスエントロピーの形式、例えば、以下のKL発散L_Liを採用しても良い。

そのうち、x_i ^t(c)は、第一モデルがサンプルx_iを第c類に分類する確率を表し、x_i ^s(c)は、第二モデルがサンプルx_iを第c類に分類する確率を示す。

以上のことから、第一サブ損失関数L_sub1iが公式（4）中のコサイン距離L_Fiに基づくときに、第一損失関数は、以下の公式（7）の形式を採用することができる。

オプションとして、第一サブ損失関数L_sub1iが公式（5）中のユークリッド距離L_Eiに基づくときに、第一損失関数は、以下の公式（8）の形式を採用することができる。

なお、ここで第一サブ損失関数及び第二サブ損失関数の両者を含む第一損失関数を説明したが、当業者が理解すべきは、本実施例中の第一損失関数は、第一サブ損失関数のみを含んでも良く、例えば、公式（7）及び公式（8）中のλ_LL_Liに関連する項を省略した形式を採用しても良い。

また、一例として、この好ましい実施例では、第二損失関数L₂は、例えば、第二モデルのサンプルx_iに対しての分類結果と、正確な結果との間の相違を表すクロスエントロピーに基づく形式であって良く、例えば、以下のSoftmax損失関数L_siである。

そのうち、S_icは、例えば、第二モデルとしてのニューラルネットワークモデルの全結合層の後に接続されるSoftmax層中の出力ベクトルS_iの第c個目の値であり、それは、訓練サンプルx_iが第c類に属する確率を表し、y_icは、サンプルのラベルであり、且つクラスcと、サンプルx_iの真実のクラスの値とが一致しているときにのみ、y_icの値が1であり、そうでないときに、値が0である。

上述のSoftmax損失関数L_siに基づいて、以下のように第二損失関数L₂を形成することができる。

公式（4）、（5）中のλ_F、λ_Eと同様に、公式（10）中のλ_Sは、異なる損失関数の影響のバランスを取るためにSoftmax損失関数について設定した係数を示し、それは、実験又は応用のニーズに応じて合理的に設定することができる。

オプションとして、第一損失関数と類似しているが、“相補”的な方式で、第一モデルの訓練サンプルx_iに対しての分類結果の正確性A_iを以て加重された第二損失関数L’₂を形成することができる。

上述の公式（7）（第一損失関数は、コサイン距離に基づく第一サブ損失関数を用いている）及び公式（10）（第二損失関数は、加重されていない）を総合的に考慮して、この好ましい実施例中で採用する以下の総合損失関数を得ることができる。

オプションとして、上述の公式（7）（第一損失関数は、コサイン距離に基づく第一サブ損失関数を採用している）及び公式（11）（第二損失関数は、加重されている）を総合的に考慮して、この好ましい実施例中で採用するもう１つの形式の総合損失関数を得ることができる。

訓練過程では、上述の総合損失関数L_overall又はL’_overallが最小値を取ることを目標として、第二モデルについて反復訓練を行い、該総合損失関数が最小値を取ったときに、或いは、総合損失関数の値に変化がないときに訓練を終了し、これにより、有効なナレッジ・トランスファーを実現した第二モデルを得ることができる。なお、当業者が理解すべきは、形成された総合損失関数に基づいて、例えば、勾配降下法などの従来の任意の方式で第二モデルの訓練を行うことにより、該モデルの最適なパラメータを取得しても良いが、ここでは、その詳しい説明を省略する。

また、以上、コサイン距離損失関数、ユークリッド距離損失関数、Softmax損失関数などの具体的な形式を例として総合損失関数を形成する方法を説明したが、当業者は、本開示の内容をもとに、任意の適切な方法で、関連する第一、第二損失関数又は第一、第二サブ損失関数を形成し、総合損失関数を取得しても良く、それぞれ、本開示中の各自についての定義に合致（符合）すれば良い。

以上、図1に基づいて本開示の実施例におけるナレッジ・トランスファー方法を説明した。該ナレッジ・トランスファー方法を用いることで、“教師”モデル中の誤ったナレッジの“学生”モデル中へのトランスファーを避けることができ、これにより、効率がより高く、より正確なナレッジ・トランスファーを実現することができる。

本開示の第二側面によれば、ナレッジ・トランスファー装置が提供される。図3は、本開示の実施例におけるナレッジ・トランスファーの例示的な構成を示すブロック図である。

図3に示すように、ナレッジ・トランスファー装置300は、以下のようなものを含んでも良い。

第一ユニット301：所定タスクについて予め訓練された第一モデルを取得し；及び
第二ユニット302：総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させる。

第二ユニット202に用いられる総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づいても良く、そのうち、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。

上述のナレッジ・トランスファー装置及びその各ユニットは、例えば、以上に図1を参照して説明した本開示の第一側面におけるナレッジ・トランスファー方法及びその各ステップの操作及び／又は処理を行って類似した効果を実現することができるため、ここでは、重複説明を割愛する。

上述の第一側面又は第二側面によるナレッジ・トランスファー方法又はナレッジ・トランスファー装置により得られた第二モデルは、ナレッジ・トランスファーにより、第一モデルの処理能力を取得し、これにより、該第二モデルを利用してデータに対して処理を行うことができる。

よって、本開示の第三側面によれば、情報処理装置が提供され、それは、処理器を含み、該処理器は、次のように構成され、即ち、処理待ちデータを、本開示の第一側面におけるナレッジ・トランスファー方法により得られた第二モデルに入力し；及び、第二モデルの処理待ちデータに対しての処理結果を取得する。

一例として、情報処理装置が利用する第二モデル（及び該モデルを得るための第一モデル）は、ニューラルネットワークモデル、例えば、畳み込みニューラルネットワークモデル（CNN）であっても良い。また、一例として、処理待ちデータは、画像データ、語音データ、又は文書データを含んでも良い。例えば、処理待ちデータは、ヒトの顔データであっても良い。

一例として、第一モデルは、構造がより複雑であり、パラメータの規模がより大きいニューラルネットワークであっても良く、第二モデルは、小型のニューラルネットワークであっても良く、例えば、より少ない層及びより少ないパラメータを含んでも良い。このような場合、ナレッジ・トランスファーを行って取得した第二モデルは、処理速度を加速化することができるため、第二モデルを採用して処理を行う情報処理装置は、処理効率を向上させることができる。

本開示の第一側面におけるナレッジ・トランスファー方法の説明と同様に、第二モデルの処理待ちデータに対しての“処理結果”は、例えば、第二モデルの処理待ちデータに対しての所定タスクについての最終出力結果、例えば、分類タスクの分類結果を含んでも良い。即ち、情報処理装置は、直接、第二モデルを分類タスクのために用い、また、第二モデルの出力結果を分類結果とすることができる。

好ましい実施例では、第二モデルを得るためのナレッジ・トランスファー方法中で形成される総合損失関数について、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、該総合損失関数に含まれる、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数の重みが大きい。よって、このようなナレッジ・トランスファー方法で取得された第二モデルは、第一モデル中の誤ったナレッジの第二モデルへのトランスファーを避けることができ、これにより、情報処理装置の処理の正確性を向上させることができる。

また、本開示の第一側面におけるナレッジ・トランスファー方法についての説明と同様に、“処理結果”は、さらに、第二モデルを用いて処理待ちデータ中から抽出した特徴を含んでも良い。例えば、第二モデルがニューラルネットワークモデルである場合、処理結果は、処理待ちデータをニューラルネットワークモデルに入力した後の、ニューラルネットワークモデル中のある層の出力データを含んでも良い。

本開示の第一側面におけるナレッジ・トランスファーにより得られた第二モデルは、第一モデルの処理能力を得ることができ、例えば、第一モデルのサンプルの特徴に対しての表現能力を取得することができるため、該第二モデルをサンプルの所定特徴を抽出し得る特徴抽出器とすることができる。

好ましい実施例では、第二モデルを得るためのナレッジ・トランスファー方法中で形成される総合損失関数について、それに含まれるナレッジ・トランスファーに関連する第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間の相違を示す第一サブ損失関数を含んでも良い。また、該第一損失関数は、さらに、オプションとして、第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違に基づく第二サブ損失関数を含んでも良い。

上述の特徴の相違を表す第一サブ損失関数は、得られた第二モデルを特徴抽出器として利用するときに特に有益である。このようなサブ損失関数に基づいて第一損失関数を形成して総合損失関数に用いるときに、ナレッジ・トランスファーを実現した後に得られた第二モデルは、第一モデルのデータの特徴に対しての表現能力を取得している。よって、情報処理装置は、それを特徴抽出のために適用することができる。

よって、好ましい実施例では、第二モデルの所定タスクは、分類タスクを含んでも良く、且つナレッジ・トランスファー方法で形成される総合損失関数中の第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づいても良い。

例えば、第一損失関数は、上述の公式（4）に示す、コサイン距離に基づく第一サブ損失関数及びオプションとしての第二サブ損失関数を含んでも良く、また、上述の公式（7）の形式を採用しても良い。オプションとして、この好ましい実施例中の第一損失関数は、第二サブ損失関数を含まず、第一サブ損失関数のみを含んでもよく、例えば、公式（8）中のλ_LL_Li項が省略された形式を採用しても良い。

この好ましい実施例では、処理器は、次のように構成されても良く、即ち、第二モデルを用いて処理待ちデータ中から所定特徴を処理待ちデータに対しての処理結果として抽出し、且つさらに次のように構成されても良く、即ち、処理待ちデータ中から抽出した所定特徴と、第二モデルを用いて目標データ中から抽出した所定特徴との間のコサイン類似度を計算し、該コサイン類似度に基づいて処理待ちデータと目標データとの類似性を確定し、例えば、両者がマッチングするかを確定する。例えば、オプションとして、処理器は、さらに次のように構成されても良く、即ち、例えば、計算したコサイン類似度が予め確定された類似度閾値よりも大きいかに基づいて、処理待ちデータが目標データであるかを確定し、これにより、認識処理を完成することができる。

オプションとして、類似度計算時に第二モデルを用いて処理待ちデータ及び目標データ中から抽出した所定特徴は、ナレッジ・トランスファー方法中で総合損失関数の第一損失関数を形成するときに第二モデルを用いて訓練サンプル中から抽出した所定特徴に対応する。例えば、上述の特徴は、全て、ニューラルネットワークモデルとしての第二モデルの同一層からのものである。

図2をもとに説明したように、コサイン距離に基づく損失関数によりナレッジ・トランスファーを行って取得された第二モデルは、特に、類似度を比較する必要があるタスク、例えば、話すヒトの顔認識、話すヒトの認識、指紋の認識などのタスクに適する。１つの対照実験では、発明者がデータ集labelled faces in wild（LFW）中の顔画像に対して認識を行い、即ち、異なるモデルを用いてLFW中の処理待ち顔画像から抽出した特徴と、目標顔画像から抽出した特徴との間のコサイン類似度を計算し、両者がマッチングするかを判断する。実験では、予め取得した第一モデルを用いて特徴抽出を行うときに、得られた認識精度が97.73±0.62%であり、ユークリッド距離に基づく第一サブ損失関数を含む第一損失関数を使用して訓練された第二モデルを用いて特徴抽出を行うときに、得られた認識精度が96.90%±0.97%である。これの対し、この好ましい実施例のように、コサイン距離に基づく第一サブ損失関数を含む第一損失関数を用いて訓練された第二モデルを使用して特徴抽出を行うときに、得られた精度が97.85±0.60%である。従って、このような結果から分かるように、この好ましい実施例に用いられる、特徴間のコサイン距離に基づく損失関数は、認識タスクにとても有効である。

以上、本開示の実施例による情報処理装置が実現する操作（処理）を説明した。該情報処理装置を用いることで、第一モデルの“正確”なナレッジを有し、且つ処理速度がより速い第二モデルを採用してデータに対して処理を行うことができる。また、好ましい実施例では、認識処理に適する特徴抽出能力を有する第二モデルを特徴抽出器として用いることで、認識処理を行うこともできる。

図4は、本開示の実施例における情報処理装置及びナレッジ・トランスファー方法を実現し得るハードウェア構成400を示す図である。

図4では、中央処理装置(CPU)401は、ROM 402に記憶されているプログラム又は記憶部408からRAM 403にロードされているプログラムに基づいて各種の処理を行う。RAM 403では、さらに、CPU 401が各種の処理などを実行するときに必要なデータを記憶しても良い。CPU 401、ROM 402、及びRAM 403は、バス404により互いに接続される。入力／出力インターフェーズ405もバス404に接続される。

また、次のような部品は、入力／出力インターフェース405に接続され、即ち、入力部406（キーボード、マウスなどを含む）、出力部407（表示器、例えば、CRT、LCDなど、及びスピーカーなどを含む）、記憶部408（ハードディスクなどを含む）、及び通信部409（ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む）というような部品である。通信部409は、ネットワーク、例えば、インターネットを経由して通信処理を行う。なお、必要に応じて、ドライブ410を入力／出力インターフェース405に接続させても良い。取り外し可能な媒体411、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などは、必要に応じて、ドライブ410にセットされ、その中から読み出されたコンピュータプログラムが必要に応じて記憶部408にインスタールされるようにさせることができる。

また、本開示は、さらに、マシン可読指令コードを含むプログラムプロダクトを提供する。このような指令コードは、マシンにより読み取られて実行されるときに、上述の本開示の実施例におけるナレッジ・トランスファー方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー（carry）する、例えば、磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（CD-ROM及びDVDを含む）、光磁気ディスク（MD（登録商標）を含む）、及び半導体記憶器などの各種記憶媒体も、本開示に含まれる。

即ち、本開示は、さらに、記憶媒体を提供し、それは、マシン可読指令コード（プログラム）を記憶している。前記指令コードは、マシン（コンピュータ）により読み取られて実行されるときに、マシンに、ナレッジ・トランスファー方法を実行することができる。前記指令コードは、指令コード部を含み、それは、次のような操作（処理）を行うために用いられ、即ち、所定タスクについて予め訓練された第一モデルを取得し；及び、総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させ、そのうち、該総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、そのうち、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。

上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。

また、本開示の上述の方法の各操作（処理）は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。

また、以上の実施例などに関し、さらに以下のように付記を開示する。

（付記1）
ナレッジ・トランスファー方法であって、
所定タスクについて予め訓練された第一モデルを取得し；及び
総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させることを含み、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す、ナレッジ・トランスファー方法。

（付記2）
付記1に記載のナレッジ・トランスファー方法であって、
第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間の相違を表す第一サブ損失関数を含む、ナレッジ・トランスファー方法。

（付記3）
付記2に記載のナレッジ・トランスファー方法であって、
第一損失関数は、さらに、第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違を表す第二サブ損失関数を含む、ナレッジ・トランスファー方法。

（付記4）
付記2に記載のナレッジ・トランスファー方法であって、
訓練サンプルは、画像サンプル、語音サンプル、及び文書サンプルのうちの１つを含む、ナレッジ・トランスファー方法。

（付記5）
付記2に記載のナレッジ・トランスファー方法であって、
第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、第一損失関数の重みが大きい、ナレッジ・トランスファー方法。

（付記6）
付記2乃至5のうちの任意の1項に記載のナレッジ・トランスファー方法であって、
所定タスクは、分類タスクを含む、ナレッジ・トランスファー方法。

（付記7）
付記6に記載のナレッジ・トランスファー方法であって、
第一サブ損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づくものである、ナレッジ・トランスファー方法。

（付記8）
情報処理装置であって、
処理器を含み、
処理器は、処理待ちデータを、付記1に記載のナレッジ・トランスファー方法により得られた第二モデルに入力し；及び、第二モデルの処理待ちデータに対しての処理結果を取得するように構成される、情報処理装置。

（付記9）
付記8に記載の情報処理装置であって、
処理待ちデータは、画像データ、語音データ、及び文書データのうちの１つを含む、情報処理装置。

（付記10）
付記8に記載の情報処理装置であって、
第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間の相違を表す第一サブ損失関数を含む、情報処理装置。

（付記11）
付記9に記載の情報処理装置であって、
第一損失関数は、さらに、第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違に基づく第二損失関数を含む、情報処理装置。

（付記12）
付記8乃至11のうちの任意の1項に記載の情報処理装置であって、
第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、第一損失関数の重みが大きい、情報処理装置。

（付記13）
付記8乃至12のうちの任意の1項に記載の情報処理装置であって、
所定タスクは、分類タスクを含み、第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づくものであり、
処理器は、第二モデルを用いて処理待ちデータ中から所定特徴を処理待ちデータに対しての処理結果として抽出し、処理待ちデータ中から抽出した所定特徴と、第二モデルを用いて目標データ中から抽出した所定特徴との間のコサイン類似度を計算し、該コサイン類似度に基づいて処理待ちデータと目標データとの類似性を確定するように構成される、情報処理装置。

（付記14）
記憶媒体であって、
マシン可読指令コードが記憶されており、
前記指令コードは、マシンにより読み取られて実行されるときに、マシンに、ナレッジ・トランスファー方法を実行させることができ、
前記指令コードは、指令コード部を含み、
指令コード部は、
所定タスクについて予め訓練された第一モデルを取得し；及び
総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させることを行うために用いられ、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す、記憶媒体。

（付記15）
付記14に記載の記憶媒体であって、
第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間の相違を表す第一サブ損失関数を含む、記憶媒体。

（付記16）
付記15に記載の記憶媒体であって、
第一損失関数は、さらに、第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違を表す第二サブ損失関数を含む、記憶媒体。

（付記17）
付記15に記載の記憶媒体であって、
訓練サンプルは、画像サンプル、語音サンプル、及び文書サンプルのうちの１つを含む、記憶媒体。

（付記18）
付記15に記載の記憶媒体であって、
第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、第一損失関数の重みが大きい、記憶媒体。

（付記19）
付記15乃至18のうちの任意の1項に記載の記憶媒体であって、
所定タスクは、分類タスクを含む、記憶媒体。

（付記20）
付記19に記載の記憶媒体であって、
第一サブ損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づくものである。

以上、本開示の好ましい実施形態を説明したが、本開示はこの実施形態に限定されず、本開示の趣旨を離脱しない限り、本開示に対するあらゆる変更は、本開示の技術的範囲に属する。

Claims

情報処理装置に含まれる処理器が実行するナレッジ・トランスファー方法であって、
所定タスクについて予め訓練された第一モデルを取得し；及び
総合損失関数を用いて所定タスクについて第二モデルを訓練し、前記第二モデルに前記第一モデルのナレッジを有させることを含み、
前記総合損失関数は、前記第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
前記第一損失関数は、前記第二モデルと前記第一モデルとの訓練サンプルに対しての処理結果の間の差を表し、前記第二損失関数は、前記第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表し、
前記第一損失関数は、前記第二モデルを用いて訓練サンプルから抽出した所定特徴と、前記第一モデルを用いて訓練サンプルから抽出した所定特徴との間の差を表す第一サブ損失関数を含む、ナレッジ・トランスファー方法。
請求項１に記載のナレッジ・トランスファー方法であって、
前記第一損失関数は、前記第二モデルと前記第一モデルとの訓練サンプルに対しての所定タスクについての出力結果の間の差を表す第二サブ損失関数をさらに含む、ナレッジ・トランスファー方法。
請求項１に記載のナレッジ・トランスファー方法であって、
前記訓練サンプルは、画像サンプル、語音サンプル、及び文書サンプルのうちの１つを含む、ナレッジ・トランスファー方法。
請求項１に記載のナレッジ・トランスファー方法であって、
前記第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、前記第一損失関数の重みが大きい、ナレッジ・トランスファー方法。
請求項１～４のうちの任意の１項に記載のナレッジ・トランスファー方法であって、
前記所定タスクは、分類タスクを含む、ナレッジ・トランスファー方法。
請求項５に記載のナレッジ・トランスファー方法であって、
前記第一サブ損失関数は、前記第二モデルを用いて訓練サンプルから抽出した所定特徴と、前記第一モデルを用いて訓練サンプルから抽出した所定特徴との間のコサイン距離に基づくものである、ナレッジ・トランスファー方法。
処理器を含む情報処理装置であって、
前記処理器は、
処理待ちデータを、請求項１に記載のナレッジ・トランスファー方法により得られた前記第二モデルに入力し；及び
前記第二モデルの処理待ちデータに対しての処理結果を取得するように構成される、情報処理装置。
請求項７に記載の情報処理装置であって、
前記所定タスクは、分類タスクを含み、前記第一損失関数は、前記第二モデルを用いて訓練サンプルから抽出した所定特徴と、前記第一モデルを用いて訓練サンプルから抽出した所定特徴との間のコサイン距離に基づくものであり、
前記処理器は、
前記第二モデルを用いて前記処理待ちデータから所定特徴を前記処理待ちデータに対しての処理結果として抽出し、前記処理待ちデータから抽出した所定特徴と、前記第二モデルを用いて目標データから抽出した所定特徴との間のコサイン類似度を計算し、該コサイン類似度に基づいて前記処理待ちデータと前記目標データとの類似性を確定するように構成される、情報処理装置。
コンピュータに、請求項１～６のうちの任意の１項に記載のナレッジ・トランスファー方法を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。