JP7306062B2 - ナレッジ・トランスファー方法、情報処理装置及び記憶媒体 - Google Patents

ナレッジ・トランスファー方法、情報処理装置及び記憶媒体 Download PDF

Info

Publication number
JP7306062B2
JP7306062B2 JP2019099109A JP2019099109A JP7306062B2 JP 7306062 B2 JP7306062 B2 JP 7306062B2 JP 2019099109 A JP2019099109 A JP 2019099109A JP 2019099109 A JP2019099109 A JP 2019099109A JP 7306062 B2 JP7306062 B2 JP 7306062B2
Authority
JP
Japan
Prior art keywords
model
loss function
knowledge transfer
transfer method
training samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019099109A
Other languages
English (en)
Other versions
JP2019215861A (ja
Inventor
ワン・モンジアオ
リィウ・ルゥジエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2019215861A publication Critical patent/JP2019215861A/ja
Application granted granted Critical
Publication of JP7306062B2 publication Critical patent/JP7306062B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Description

本開示は、機械学習分野に関し、特に、ナレッジ・トランスファー(knowledge transfer)方法、マシン(例えば、コンピュータ)に該ナレッジ・トランスファー方法を実行させるための指令コード(コンピュータプログラムとも言う)を記憶した記憶媒体、及び該ナレッジ・トランスファー方法により得られたモデルを用いることができる情報処理装置に関する。
ナレッジ・トランスファーは、1つのネットワークモデルの教師信号(supervisory signal)を用いてもう1つのネットワークモデルを訓練する有効な方法である。ここで、前のネットワークモデルを“教師”モデルと称し、後のネットワークモデルを“学生”モデルと称する。一般的に言えば、ナレッジ・トランスファーは、“学生”ネットワークモデルに、“教師”ネットワークモデルと一致した結果を出力させることで、“教師”ネットワークモデル中のナレッジを“学生”ネットワークモデルにトランスファーすることにより、“学生”ネットワークモデルが“教師”ネットワークモデルの表現力を学習し得るようにさせる。
例えば、“教師”モデルは、大型ニューラルネットワークモデルであり、ナレッジ・トランスファーにより得られた“学生”モデルは、小型ニューラルネットワークモデルであっても良い。また、例えば、“教師”モデル及び“学生”モデルは、異なるデータを処理するモデルであっても良く、例えば、“教師”モデルは、顔画像データを処理し、ナレッジ・トランスファーにより得られた“学生”モデルは、指紋画像データを処理しても良い。異なるケースについて、ナレッジ・トランスファーにより、ネットワークモデルの加速化を実現し、既存のモデルを、異なるタスクを実現するために転用することができる。
機械学習技術の発展に伴い、より有効なナレッジ・トランスファー方法を実現する必要がある。
上記のようなニーズに鑑み、本開示の目的は、より有効なナレッジ・トランスファーを実現することができるナレッジ・トランスファー方法、マシンに該ナレッジ・トランスファー方法を実行させるための指令コードを記憶した記憶媒体、及び該ナレッジ・トランスファー方法により得られたモデルを用いることができる情報処理装置を提供することにある。
本開示の第一側面によれば、ナレッジ・トランスファー方法が提供され、それは、
所定タスクについて予め訓練された第一モデルを取得し;及び
総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させることを含み、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。
本開示の第二側面によれば、ナレッジ・トランスファー装置が提供され、それは、
第一ユニットであって、所定タスクについて予め訓練された第一モデルを取得するためのもの;及び
第二ユニットであって、総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させるためのものを含み、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。
本開示の他の側面によれば、情報処理装置が提供され、それは、処理器を含み、前記処理器は、処理待ちデータを、本開示の第一側面によるナレッジ・トランスファー方法により得られた第二モデルに入力し;及び、第二モデルの処理待ちデータに対しての処理結果を取得するように構成される。
本開示の他の側面によれば、コンピュータに上述のようなナレッジ・トランスファー方法を実現させるためのプログラムが提供される。
本開示の他の側面によれば、記憶媒体が提供され、それは、マシン可読指令コードを記憶しており、前記指令コードは、マシンにより読み取られて実行されるときに、マシンに、ナレッジ・トランスファー方法を実行させることができる。前記指令コードは、指令コード部を含み、それは、以下のような操作(処理)を行うように用いられ、即ち、
所定タスクについて予め訓練された第一モデルを取得し;及び
総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させることであり、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。
本開示の実施例の各側面によれば、少なくとも次のような利点を得ることができ、即ち、本開示によるナレッジ・トランスファー方法、ナレッジ・トランスファー装置、情報処理装置、及び記憶媒体を用いることで、“教師”モデル中の誤ったナレッジを“学生”モデルにトランスファーすることを避け、より有効で且つより正確なナレッジ・トランスファーを実現することができる。
本開示の実施例におけるナレッジ・トランスファー方法のフローチャートである。 ユークリッド距離に基づく損失関数と、コサイン距離に基づく損失関数との間の相違を説明する図である。 ユークリッド距離に基づく損失関数と、コサイン距離に基づく損失関数との間の相違を説明する図である。 本開示の実施例におけるナレッジ・トランスファー装置の構成図である。 本開示の実施例における情報処理方法及び装置を実現し得るハードウェアの構成を示す図である。
開示を実施するための形態
以下、添付した図面を参照しながら、本開示を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本開示を限定するものでない。
本開示の一側面によれば、ナレッジ・トランスファー方法が提供される。図1は、本開示の実施例におけるナレッジ・トランスファー方法100のフローチャートである。
図1に示すように、ナレッジ・トランスファー方法100は、以下のステップを含んでも良い。
第一モデル取得ステップS101:所定タスクについて予め訓練された第一モデルを取得し;
第二モデル訓練ステップS103:総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行う(第二モデルを訓練する)ことにより、第二モデルに第一モデルのナレッジを有させる。
第二モデル訓練ステップS103に用いられる総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重(重みづけ)された第一損失関数、及び第二損失関数に基づくものであり、そのうち、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違(差)を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表し、例えば、第二モデルの訓練サンプルに対しての所定タスクについての出力結果と、正確な結果との間の相違(差)を表しても良い。
本実施例のナレッジ・トランスファー方法では、ナレッジ・トランスファーに関連する、2つのモデルの間の相違を示す第一損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性(該正確性は、本文において、第一モデルの訓練サンプルに対しての信頼度(confidence)とも言う)を用いて加重されたものであり、即ち、第一損失関数は、“教師”モデルとしての第一モデルの訓練サンプルに対しての信頼度に基づいて加重されている。よって、“教師”モデルの訓練サンプルに対しての信頼度に関わらずにナレッジを“学生”モデルにトランスファーする従来技術に比べ、本発明は、“教師”モデル中の誤ったナレッジを“学生”モデルにトランスファーすることを避け、より有効で且つより正確なナレッジ・トランスファーを実現することができる。
好ましい実施例では、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、第一損失関数に係る重み(weight)が大きい。このときに、ナレッジ・トランスファーに関連する第一損失関数は、総合損失関数中でより大きな作用を発揮することができ、これは、“教師”モデルとしての第一モデルが訓練過程全体において主導し、且つ第一モデルの“正確な”ナレッジの第二モデルへのトランスファーに有利であることを意味する。逆に、第一モデルの訓練サンプルに対しての上述の正確性が低いほど、第一損失関数の重みが小さい。このときに、第二モデル自身の正確性に係る第二損失関数は、総合損失関数中でより大きな作用を発揮することができ、これは、“学生”モデルとしての第二モデル自身が訓練過程において主導し、第二モデルに、その自身の処理能力を向上させることができることを意味する。このような加重方式で、“教師”モデルのある訓練サンプルに対しての正確性がとても低いときに、ナレッジ・トランスファーに関連する第一損失関数は、総合損失関数中でほとんど作用を発揮せず、これにより、“教師”モデル中の誤ったナレッジの“学生”モデルへのトランスファーを避けることができる。
第二モデル訓練ステップS103の訓練過程では、例えば、上述の総合損失関数が期待値(例えば、最小値)に達することを目標として、第二モデルに対して反復(iteration)訓練を行い、総合損失関数が最小値を取り、総合損失関数の値に変化がなく、所定反復回数に達しており、又は、他の反復完了条件を満たしているときに訓練を終了し、これにより、有効なナレッジ・トランスファーを実現し得る第二モデルを取得することができる。なお、当業者が理解すべきは、形成された総合損失関数に基づいて、例えば、勾配降下法などの従来の任意の方法で第二モデルの訓練を行うことにより、該モデルの最適パラメータを取得しても良いが、ここでは、その詳しい説明を省略する。
一例として、第一モデル及び第二モデルは、ニューラルネットワークモデル、例えば、畳み込みニューラルネットワークモデル(CNN)であっても良い。例えば、第一モデルは、構造がより複雑であり、パラメータの規模がより大きいニューラルネットワークであっても良く、第二モデルは、小型のニューラルネットワークであっても良く、例えば、より少ない層及びより少ないパラメータを含んでも良い。このような場合、ナレッジ・トランスファーを行うことで取得された第二モデルは、処理速度を加速化することができ、且つ第一モデルよりも、処理資源が限られている移動装置又は組み込み装置に応用されやすい。
一例として、訓練サンプルは、画像サンプル、語音サンプル、又は文書(document)サンプルであっても良い。例えば、訓練サンプルは、顔画像サンプルを含んでも良く、例えば、異なるヒトの顔の正面、側面、又は異なる姿勢の顔画像などを含んでも良い。また、訓練サンプルは、さらに、指紋画像サンプルなどを含んでも良い。
一例として、所定タスクは、分類タスクを含んでも良い。例えば、所定タスクは、顔画像を異なる姿勢に分類し、又は、異なるヒトに属するように分類するタスク、例えば、顔認識タスクなどであっても良い。
前述のように、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表す。ここで用いられる用語“処理結果”は、例えば、第一モデル又は第二モデルの訓練サンプルに対しての所定タスクについての最終出力結果を含んでも良く、例えば、分類タスクの分類結果(例えば、訓練サンプルが各クラスに属する確率の形式で該分類結果を表す)である。また、“処理結果”は、さらに、第一モデル又は第二モデルを用いて訓練サンプルのうちから抽出された特徴を含んでも良い。例えば、第一モデル及び第二モデルがニューラルネットワークモデルである場合、処理結果は、訓練サンプルをニューラルネットワークモデルに入力した後の、ニューラルネットワークモデル中のある層の出力データを含んでも良い。
なお、以下、主に画像データに対して分類タスクを行うニューラルネットワークモデルを第一モデル及び第二モデルとすることを例として説明するが、当業者が理解すべきは、本開示の内容は、これに限定されず、任意のタスクを行い、任意の構造を有する第一モデル及び第二モデルに応用することができ、言い換えると、図1に示すフローチャートに適用することができれば良い。
一実施例では、ナレッジ・トランスファーに関連する第一損失関数は、第二モデルを用いて訓練サンプル中から抽出された所定特徴と、第一モデルを用いて訓練サンプル中から抽出された所定特徴との間の相違を示す第一サブ損失関数を含んでも良い。
上述の特徴の相違を表す第一サブ損失関数は、得られた第二モデルを特徴抽出器として用いるときに特に有益である。このようなサブ損失関数に基づいて第一損失関数を形成して総合損失関数に用いるときに、ナレッジ・トランスファーを実現した後に得られた第二モデルは、第一モデルのデータに対しての表現能力を取得しているため、第一モデルと同様に特徴の抽出に適用することができる。
発明者が次のようなことを発見した。即ち、後続の応用のニーズに応じて、ナレッジ・トランスファー過程で形成された上述の第一サブ損失関数を合理的に設置することができる。よって、好ましい実施例では、第一サブ損失関数は、第二モデルを用いて訓練サンプルから抽出された所定特徴と、第一モデルを用いて訓練サンプル中から抽出された所定特徴との間のコサイン距離に基づいても良い。コサイン距離は、コサイン類似度に基づいて定義され、ベクトル間の相違を表す手法の1つであり、そのうち、コサイン類似度は、2つのベクトルの内積空間の夾角のコサイン値として定義され、コサイン距離とコサイン類似度との和が1であり、即ち、コサイン距離=1-コサイン類似度である。
この好ましい実施例では、後続の、ナレッジ・トランスファーを実現した後に得られた第二モデルを認識処理又は類似度計算タスク(例えば、認識待ち/処理待ちのサンプルと、登録/目標サンプルとがマッチングするかを比較するタスク)、例えば、顔の認識、話すヒトの認識、指紋の認識などの場合を考慮する。これらのタスクでは、一般に特徴間のコサイン類似度を使用して処理待ちデータ(認識待ちサンプル)と、目標データ(登録サンプル)との間の類似性を表す。よって、ユークリッド距離に基づく損失関数を採用してナレッジ・トランスファーを行う従来技術に比べ、上述のように第一モデル及び第二モデルの特徴間のコサイン距離に基づく第一サブ損失関数を形成し、第二モデルがコサイン類似度の計算の面おいて第一モデルと類似した特徴抽出能力を有するようにさせることで、認識処理の正確度の向上に有利である。
以下、図2A及び図2Bを参照して、ユークリッド距離に基づく損失関数と、コサイン距離に基づく損失関数との表現を対比する。図2A及び図2Bは、ユークリッド距離に基づく損失関数及びコサイン距離に基づく損失関数間の相違を説明するための図である。図2A及び図2Bでは、FTは、第一モデルを用いて所定訓練サンプル中から抽出した特徴(即ち、該特徴の特徴空間中の位置)を示し、FSは、最適化前の第二モデルを用いて所定訓練サンプル中から抽出した特徴を表す。図2A中のF'Sは、ユークリッド距離に基づく損失関数の最適化後の第二モデルを用いて所定訓練サンプル中から抽出した特徴を示し、図2B中のF'Sは、コサイン距離に基づく損失関数(例えば、上述のように形成された、コサイン距離に基づく第一サブ損失関数を含む損失関数)の最適化後の第二モデルを用いて所定訓練サンプル中から抽出した特徴を示す。ここで、例えば、ユークリッド距離又はコサイン距離に基づく、対応する損失関数が最小値になるようにさせることで第二モデルの最適化を実現する。
図2Aから分かるように、ユークリッド距離に基づく損失関数を用いて最適化した後に、第二モデルを利用して所定訓練サンプル中から抽出した特徴F'Sと、第一モデルを利用して抽出した特徴FTとの間のユークリッド距離がLからL'に減少したときに、この2つの特徴間の夾角がθからθ'に増大している。これは、両者間のコサイン類似度cosθが減少したことを意味する。
これに対し、図2Bに示すように、コサイン距離に基づく損失関数を用いて最適化した後に、第二モデルを用いて所定訓練サンプルから抽出した特徴F'Sと、第一モデルを用いて抽出した特徴FTとの間のユークリッド距離がLからL'に増大したが、この2つの特徴間の夾角がθからθ'に減少した。即ち、この2つの特徴間のコサイン類似度cosθが増加している。換言すると、コサイン距離に基づく損失関数は、最適化後の第二モデルを使用して得られた特徴F'Sと、第一モデルを利用して得られた特徴FTとの間のコサイン類似度をできるだけ大きくすることができる。よって、この好ましい実施例では、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを利用して訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づく第一サブ損失関数は、特に、コサイン類似度を類似度とする認識類タスクに有益である。
また、図2Bに示す例において、最適化後の第二モデルを使用して得られた特徴F'Sと、第一モデルを利用して得られた特徴FTとの間のコサイン類似度が増加するとともに、ユークリッド距離が増大する場合を示しているが、これは、例示に過ぎない。実際の応用では、この2つの特徴間のコサイン類似度が増加するとともに、ユークリッド距離が基本的に不変であり又は減少する場合も存在する。この好ましい実施例で注目する面について言えば、コサイン類似度が増加することを確保できれば良いため、ユークリッド距離の変化を注目しなくても良い。よって、ここでは、それについての更なる説明をしない。
好ましい実施例では、例えば、上述のコサイン距離に基づく第一サブ損失関数以外に、第一損失関数は、さらに、(オプションとして)第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違を表す第二サブ損失関数を含んでも良い。
例えば、次のような例を考慮する。第一モデル及び第二モデルが分類タスクを実現するニューラルネットワークモデルであり、クラスのラベルがc=1,2,...,Cであり、そのうち、Cは、自然数で且つ分類タスク中の総クラス数を示し、入力としての訓練サンプルが{xi,i=1,2,...,m}であり、そのうち、mは、自然数で且つ訓練サンプルの総数を表す。このときに、第一損失関数L1は、以下のように示すことができる。
Figure 0007306062000001
そのうち、Aiは、第一モデルの訓練サンプルxiに対しての分類結果の正確性(又は、第一モデルの訓練サンプルxiに対しての信頼度)であり;Lsub1iは、第一サブ損失関数であり、第二モデルを用いて訓練サンプルxi中から抽出した所定特徴と、第一モデルを用いて訓練サンプルxi中から抽出した所定特徴との間の相違を表し;Lsub2iは、第二サブ損失関数であり、第二モデル及び第一モデルの訓練サンプルxiに対しての分類結果の間の相違を示す。
一例として、第一モデルの訓練サンプルxiに対しての信頼度Aiは、以下のように計算することができる。
Figure 0007306062000002
そのうち、yi t(c)は、サンプルxiがクラスcである確率を示し、xi t(c)は、サンプルxiが第一モデルによりクラスcに分類される確率を表し、1/2は、wiの値を0~1の間に正規化するための係数である。wiが0であるときに、第一モデルがサンプルxiに対して正確に分類していることを示し、このときに、正確度Aiは、最大値を取る。
上述のように、第一サブ損失関数は、所定特徴間のコサイン距離に基づいても良い。例えば、第一サブ損失関数Lsub1iは、以下の公式(4)に示すように、コサイン距離LFiに基づくことができる。
Figure 0007306062000003
そのうち、fxi tは、第一モデルを用いて訓練サンプルxi中から抽出した所定特徴であり;fxi sは、第二モデルを用いて訓練サンプルxi中から抽出した所定特徴である。また、λFは、異なる(サブ)損失関数の影響のバランスを取るためにコサイン距離LFiについて設定した係数を示し、それは、実験又は応用のニーズに応じて合理的に設定することができる。
一例として、訓練サンプルxiがニューラルネットワークモデルとしての第一モデルに入力された後に、該モデルの1つの層の出力データを所定特徴(特徴ベクトル)fxi tとして抽出し、また、類似した方式で第二モデルを用いて所定特徴(特徴ベクトル)fxi sを取得することができる。上述の1つの層は、ニューラルネットワークモデルの入力層及び出力層以外の層であっても良く、例えば、複数の隠れ層中の1つ層である。
オプションとして、もう1つの例では、第一サブ損失関数は、第二モデルを用いて訓練サンプルxi中から抽出した所定特徴fxi tと、第一モデルを用いて訓練サンプルxi中から抽出した所定特徴fxi sとの間のユークリッド距離に基づいても良い。例えば、第一サブ損失関数Lsub1iは、以下の公式(5)に示すように、ユークリッド距離LEiに基づいても良い。
Figure 0007306062000004
公式(4)中のλFと同様に、公式(5)中のλEは、異なる(サブ)損失関数の影響のバランスを取るためにユークリッド距離について設定した係数であり、それは、実験又は応用のニーズに応じて合理的に設定することができる。
また、第二サブ損失関数Lsub2iは、第二モデルと第一モデルのサンプルxiに対しての分類結果の間の相違を示すことができ、例えば、クロスエントロピーの形式、例えば、以下のKL発散LLiを採用しても良い。
Figure 0007306062000005
そのうち、xi t(c)は、第一モデルがサンプルxiを第c類に分類する確率を表し、xi s(c)は、第二モデルがサンプルxiを第c類に分類する確率を示す。
以上のことから、第一サブ損失関数Lsub1iが公式(4)中のコサイン距離LFiに基づくときに、第一損失関数は、以下の公式(7)の形式を採用することができる。
Figure 0007306062000006
オプションとして、第一サブ損失関数Lsub1iが公式(5)中のユークリッド距離LEiに基づくときに、第一損失関数は、以下の公式(8)の形式を採用することができる。
Figure 0007306062000007
なお、ここで第一サブ損失関数及び第二サブ損失関数の両者を含む第一損失関数を説明したが、当業者が理解すべきは、本実施例中の第一損失関数は、第一サブ損失関数のみを含んでも良く、例えば、公式(7)及び公式(8)中のλLLLiに関連する項を省略した形式を採用しても良い。
また、一例として、この好ましい実施例では、第二損失関数L2は、例えば、第二モデルのサンプルxiに対しての分類結果と、正確な結果との間の相違を表すクロスエントロピーに基づく形式であって良く、例えば、以下のSoftmax損失関数Lsiである。
Figure 0007306062000008
そのうち、Sicは、例えば、第二モデルとしてのニューラルネットワークモデルの全結合層の後に接続されるSoftmax層中の出力ベクトルSiの第c個目の値であり、それは、訓練サンプルxiが第c類に属する確率を表し、yicは、サンプルのラベルであり、且つクラスcと、サンプルxiの真実のクラスの値とが一致しているときにのみ、yicの値が1であり、そうでないときに、値が0である。
上述のSoftmax損失関数Lsiに基づいて、以下のように第二損失関数L2を形成することができる。
Figure 0007306062000009
公式(4)、(5)中のλF、λEと同様に、公式(10)中のλSは、異なる損失関数の影響のバランスを取るためにSoftmax損失関数について設定した係数を示し、それは、実験又は応用のニーズに応じて合理的に設定することができる。
オプションとして、第一損失関数と類似しているが、“相補”的な方式で、第一モデルの訓練サンプルxiに対しての分類結果の正確性Aiを以て加重された第二損失関数L’2を形成することができる。
Figure 0007306062000010
上述の公式(7)(第一損失関数は、コサイン距離に基づく第一サブ損失関数を用いている)及び公式(10)(第二損失関数は、加重されていない)を総合的に考慮して、この好ましい実施例中で採用する以下の総合損失関数を得ることができる。
Figure 0007306062000011
オプションとして、上述の公式(7)(第一損失関数は、コサイン距離に基づく第一サブ損失関数を採用している)及び公式(11)(第二損失関数は、加重されている)を総合的に考慮して、この好ましい実施例中で採用するもう1つの形式の総合損失関数を得ることができる。
Figure 0007306062000012
訓練過程では、上述の総合損失関数Loverall又はL’overallが最小値を取ることを目標として、第二モデルについて反復訓練を行い、該総合損失関数が最小値を取ったときに、或いは、総合損失関数の値に変化がないときに訓練を終了し、これにより、有効なナレッジ・トランスファーを実現した第二モデルを得ることができる。なお、当業者が理解すべきは、形成された総合損失関数に基づいて、例えば、勾配降下法などの従来の任意の方式で第二モデルの訓練を行うことにより、該モデルの最適なパラメータを取得しても良いが、ここでは、その詳しい説明を省略する。
また、以上、コサイン距離損失関数、ユークリッド距離損失関数、Softmax損失関数などの具体的な形式を例として総合損失関数を形成する方法を説明したが、当業者は、本開示の内容をもとに、任意の適切な方法で、関連する第一、第二損失関数又は第一、第二サブ損失関数を形成し、総合損失関数を取得しても良く、それぞれ、本開示中の各自についての定義に合致(符合)すれば良い。
以上、図1に基づいて本開示の実施例におけるナレッジ・トランスファー方法を説明した。該ナレッジ・トランスファー方法を用いることで、“教師”モデル中の誤ったナレッジの“学生”モデル中へのトランスファーを避けることができ、これにより、効率がより高く、より正確なナレッジ・トランスファーを実現することができる。
本開示の第二側面によれば、ナレッジ・トランスファー装置が提供される。図3は、本開示の実施例におけるナレッジ・トランスファーの例示的な構成を示すブロック図である。
図3に示すように、ナレッジ・トランスファー装置300は、以下のようなものを含んでも良い。
第一ユニット301:所定タスクについて予め訓練された第一モデルを取得し;及び
第二ユニット302:総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させる。
第二ユニット202に用いられる総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づいても良く、そのうち、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。
上述のナレッジ・トランスファー装置及びその各ユニットは、例えば、以上に図1を参照して説明した本開示の第一側面におけるナレッジ・トランスファー方法及びその各ステップの操作及び/又は処理を行って類似した効果を実現することができるため、ここでは、重複説明を割愛する。
上述の第一側面又は第二側面によるナレッジ・トランスファー方法又はナレッジ・トランスファー装置により得られた第二モデルは、ナレッジ・トランスファーにより、第一モデルの処理能力を取得し、これにより、該第二モデルを利用してデータに対して処理を行うことができる。
よって、本開示の第三側面によれば、情報処理装置が提供され、それは、処理器を含み、該処理器は、次のように構成され、即ち、処理待ちデータを、本開示の第一側面におけるナレッジ・トランスファー方法により得られた第二モデルに入力し;及び、第二モデルの処理待ちデータに対しての処理結果を取得する。
一例として、情報処理装置が利用する第二モデル(及び該モデルを得るための第一モデル)は、ニューラルネットワークモデル、例えば、畳み込みニューラルネットワークモデル(CNN)であっても良い。また、一例として、処理待ちデータは、画像データ、語音データ、又は文書データを含んでも良い。例えば、処理待ちデータは、ヒトの顔データであっても良い。
一例として、第一モデルは、構造がより複雑であり、パラメータの規模がより大きいニューラルネットワークであっても良く、第二モデルは、小型のニューラルネットワークであっても良く、例えば、より少ない層及びより少ないパラメータを含んでも良い。このような場合、ナレッジ・トランスファーを行って取得した第二モデルは、処理速度を加速化することができるため、第二モデルを採用して処理を行う情報処理装置は、処理効率を向上させることができる。
本開示の第一側面におけるナレッジ・トランスファー方法の説明と同様に、第二モデルの処理待ちデータに対しての“処理結果”は、例えば、第二モデルの処理待ちデータに対しての所定タスクについての最終出力結果、例えば、分類タスクの分類結果を含んでも良い。即ち、情報処理装置は、直接、第二モデルを分類タスクのために用い、また、第二モデルの出力結果を分類結果とすることができる。
好ましい実施例では、第二モデルを得るためのナレッジ・トランスファー方法中で形成される総合損失関数について、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、該総合損失関数に含まれる、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数の重みが大きい。よって、このようなナレッジ・トランスファー方法で取得された第二モデルは、第一モデル中の誤ったナレッジの第二モデルへのトランスファーを避けることができ、これにより、情報処理装置の処理の正確性を向上させることができる。
また、本開示の第一側面におけるナレッジ・トランスファー方法についての説明と同様に、“処理結果”は、さらに、第二モデルを用いて処理待ちデータ中から抽出した特徴を含んでも良い。例えば、第二モデルがニューラルネットワークモデルである場合、処理結果は、処理待ちデータをニューラルネットワークモデルに入力した後の、ニューラルネットワークモデル中のある層の出力データを含んでも良い。
本開示の第一側面におけるナレッジ・トランスファーにより得られた第二モデルは、第一モデルの処理能力を得ることができ、例えば、第一モデルのサンプルの特徴に対しての表現能力を取得することができるため、該第二モデルをサンプルの所定特徴を抽出し得る特徴抽出器とすることができる。
好ましい実施例では、第二モデルを得るためのナレッジ・トランスファー方法中で形成される総合損失関数について、それに含まれるナレッジ・トランスファーに関連する第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間の相違を示す第一サブ損失関数を含んでも良い。また、該第一損失関数は、さらに、オプションとして、第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違に基づく第二サブ損失関数を含んでも良い。
上述の特徴の相違を表す第一サブ損失関数は、得られた第二モデルを特徴抽出器として利用するときに特に有益である。このようなサブ損失関数に基づいて第一損失関数を形成して総合損失関数に用いるときに、ナレッジ・トランスファーを実現した後に得られた第二モデルは、第一モデルのデータの特徴に対しての表現能力を取得している。よって、情報処理装置は、それを特徴抽出のために適用することができる。
よって、好ましい実施例では、第二モデルの所定タスクは、分類タスクを含んでも良く、且つナレッジ・トランスファー方法で形成される総合損失関数中の第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づいても良い。
例えば、第一損失関数は、上述の公式(4)に示す、コサイン距離に基づく第一サブ損失関数及びオプションとしての第二サブ損失関数を含んでも良く、また、上述の公式(7)の形式を採用しても良い。オプションとして、この好ましい実施例中の第一損失関数は、第二サブ損失関数を含まず、第一サブ損失関数のみを含んでもよく、例えば、公式(8)中のλLLLi項が省略された形式を採用しても良い。
この好ましい実施例では、処理器は、次のように構成されても良く、即ち、第二モデルを用いて処理待ちデータ中から所定特徴を処理待ちデータに対しての処理結果として抽出し、且つさらに次のように構成されても良く、即ち、処理待ちデータ中から抽出した所定特徴と、第二モデルを用いて目標データ中から抽出した所定特徴との間のコサイン類似度を計算し、該コサイン類似度に基づいて処理待ちデータと目標データとの類似性を確定し、例えば、両者がマッチングするかを確定する。例えば、オプションとして、処理器は、さらに次のように構成されても良く、即ち、例えば、計算したコサイン類似度が予め確定された類似度閾値よりも大きいかに基づいて、処理待ちデータが目標データであるかを確定し、これにより、認識処理を完成することができる。
オプションとして、類似度計算時に第二モデルを用いて処理待ちデータ及び目標データ中から抽出した所定特徴は、ナレッジ・トランスファー方法中で総合損失関数の第一損失関数を形成するときに第二モデルを用いて訓練サンプル中から抽出した所定特徴に対応する。例えば、上述の特徴は、全て、ニューラルネットワークモデルとしての第二モデルの同一層からのものである。
図2をもとに説明したように、コサイン距離に基づく損失関数によりナレッジ・トランスファーを行って取得された第二モデルは、特に、類似度を比較する必要があるタスク、例えば、話すヒトの顔認識、話すヒトの認識、指紋の認識などのタスクに適する。1つの対照実験では、発明者がデータ集labelled faces in wild(LFW)中の顔画像に対して認識を行い、即ち、異なるモデルを用いてLFW中の処理待ち顔画像から抽出した特徴と、目標顔画像から抽出した特徴との間のコサイン類似度を計算し、両者がマッチングするかを判断する。実験では、予め取得した第一モデルを用いて特徴抽出を行うときに、得られた認識精度が97.73±0.62%であり、ユークリッド距離に基づく第一サブ損失関数を含む第一損失関数を使用して訓練された第二モデルを用いて特徴抽出を行うときに、得られた認識精度が96.90%±0.97%である。これの対し、この好ましい実施例のように、コサイン距離に基づく第一サブ損失関数を含む第一損失関数を用いて訓練された第二モデルを使用して特徴抽出を行うときに、得られた精度が97.85±0.60%である。従って、このような結果から分かるように、この好ましい実施例に用いられる、特徴間のコサイン距離に基づく損失関数は、認識タスクにとても有効である。
以上、本開示の実施例による情報処理装置が実現する操作(処理)を説明した。該情報処理装置を用いることで、第一モデルの“正確”なナレッジを有し、且つ処理速度がより速い第二モデルを採用してデータに対して処理を行うことができる。また、好ましい実施例では、認識処理に適する特徴抽出能力を有する第二モデルを特徴抽出器として用いることで、認識処理を行うこともできる。
図4は、本開示の実施例における情報処理装置及びナレッジ・トランスファー方法を実現し得るハードウェア構成400を示す図である。
図4では、中央処理装置(CPU)401は、ROM 402に記憶されているプログラム又は記憶部408からRAM 403にロードされているプログラムに基づいて各種の処理を行う。RAM 403では、さらに、CPU 401が各種の処理などを実行するときに必要なデータを記憶しても良い。CPU 401、ROM 402、及びRAM 403は、バス404により互いに接続される。入力/出力インターフェーズ405もバス404に接続される。
また、次のような部品は、入力/出力インターフェース405に接続され、即ち、入力部406(キーボード、マウスなどを含む)、出力部407(表示器、例えば、CRT、LCDなど、及びスピーカーなどを含む)、記憶部408(ハードディスクなどを含む)、及び通信部409(ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む)というような部品である。通信部409は、ネットワーク、例えば、インターネットを経由して通信処理を行う。なお、必要に応じて、ドライブ410を入力/出力インターフェース405に接続させても良い。取り外し可能な媒体411、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などは、必要に応じて、ドライブ410にセットされ、その中から読み出されたコンピュータプログラムが必要に応じて記憶部408にインスタールされるようにさせることができる。
また、本開示は、さらに、マシン可読指令コードを含むプログラムプロダクトを提供する。このような指令コードは、マシンにより読み取られて実行されるときに、上述の本開示の実施例におけるナレッジ・トランスファー方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本開示に含まれる。
即ち、本開示は、さらに、記憶媒体を提供し、それは、マシン可読指令コード(プログラム)を記憶している。前記指令コードは、マシン(コンピュータ)により読み取られて実行されるときに、マシンに、ナレッジ・トランスファー方法を実行することができる。前記指令コードは、指令コード部を含み、それは、次のような操作(処理)を行うために用いられ、即ち、所定タスクについて予め訓練された第一モデルを取得し;及び、総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させ、そのうち、該総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、そのうち、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す。
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
また、本開示の上述の方法の各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
また、以上の実施例などに関し、さらに以下のように付記を開示する。
(付記1)
ナレッジ・トランスファー方法であって、
所定タスクについて予め訓練された第一モデルを取得し;及び
総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させることを含み、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す、ナレッジ・トランスファー方法。
(付記2)
付記1に記載のナレッジ・トランスファー方法であって、
第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間の相違を表す第一サブ損失関数を含む、ナレッジ・トランスファー方法。
(付記3)
付記2に記載のナレッジ・トランスファー方法であって、
第一損失関数は、さらに、第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違を表す第二サブ損失関数を含む、ナレッジ・トランスファー方法。
(付記4)
付記2に記載のナレッジ・トランスファー方法であって、
訓練サンプルは、画像サンプル、語音サンプル、及び文書サンプルのうちの1つを含む、ナレッジ・トランスファー方法。
(付記5)
付記2に記載のナレッジ・トランスファー方法であって、
第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、第一損失関数の重みが大きい、ナレッジ・トランスファー方法。
(付記6)
付記2乃至5のうちの任意の1項に記載のナレッジ・トランスファー方法であって、
所定タスクは、分類タスクを含む、ナレッジ・トランスファー方法。
(付記7)
付記6に記載のナレッジ・トランスファー方法であって、
第一サブ損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づくものである、ナレッジ・トランスファー方法。
(付記8)
情報処理装置であって、
処理器を含み、
処理器は、処理待ちデータを、付記1に記載のナレッジ・トランスファー方法により得られた第二モデルに入力し;及び、第二モデルの処理待ちデータに対しての処理結果を取得するように構成される、情報処理装置。
(付記9)
付記8に記載の情報処理装置であって、
処理待ちデータは、画像データ、語音データ、及び文書データのうちの1つを含む、情報処理装置。
(付記10)
付記8に記載の情報処理装置であって、
第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間の相違を表す第一サブ損失関数を含む、情報処理装置。
(付記11)
付記9に記載の情報処理装置であって、
第一損失関数は、さらに、第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違に基づく第二損失関数を含む、情報処理装置。
(付記12)
付記8乃至11のうちの任意の1項に記載の情報処理装置であって、
第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、第一損失関数の重みが大きい、情報処理装置。
(付記13)
付記8乃至12のうちの任意の1項に記載の情報処理装置であって、
所定タスクは、分類タスクを含み、第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づくものであり、
処理器は、第二モデルを用いて処理待ちデータ中から所定特徴を処理待ちデータに対しての処理結果として抽出し、処理待ちデータ中から抽出した所定特徴と、第二モデルを用いて目標データ中から抽出した所定特徴との間のコサイン類似度を計算し、該コサイン類似度に基づいて処理待ちデータと目標データとの類似性を確定するように構成される、情報処理装置。
(付記14)
記憶媒体であって、
マシン可読指令コードが記憶されており、
前記指令コードは、マシンにより読み取られて実行されるときに、マシンに、ナレッジ・トランスファー方法を実行させることができ、
前記指令コードは、指令コード部を含み、
指令コード部は、
所定タスクについて予め訓練された第一モデルを取得し;及び
総合損失関数を用いて所定タスクについて第二モデルに対して訓練を行うことにより、第二モデルに第一モデルのナレッジを有させることを行うために用いられ、
総合損失関数は、第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
第一損失関数は、第二モデル及び第一モデルの訓練サンプルに対しての処理結果の間の相違を表し、第二損失関数は、第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表す、記憶媒体。
(付記15)
付記14に記載の記憶媒体であって、
第一損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間の相違を表す第一サブ損失関数を含む、記憶媒体。
(付記16)
付記15に記載の記憶媒体であって、
第一損失関数は、さらに、第二モデル及び第一モデルの訓練サンプルに対しての所定タスクについての出力結果の間の相違を表す第二サブ損失関数を含む、記憶媒体。
(付記17)
付記15に記載の記憶媒体であって、
訓練サンプルは、画像サンプル、語音サンプル、及び文書サンプルのうちの1つを含む、記憶媒体。
(付記18)
付記15に記載の記憶媒体であって、
第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、第一損失関数の重みが大きい、記憶媒体。
(付記19)
付記15乃至18のうちの任意の1項に記載の記憶媒体であって、
所定タスクは、分類タスクを含む、記憶媒体。
(付記20)
付記19に記載の記憶媒体であって、
第一サブ損失関数は、第二モデルを用いて訓練サンプル中から抽出した所定特徴と、第一モデルを用いて訓練サンプル中から抽出した所定特徴との間のコサイン距離に基づくものである。
以上、本開示の好ましい実施形態を説明したが、本開示はこの実施形態に限定されず、本開示の趣旨を離脱しない限り、本開示に対するあらゆる変更は、本開示の技術的範囲に属する。

Claims (9)

  1. 情報処理装置に含まれる処理器が実行するナレッジ・トランスファー方法であって、
    所定タスクについて予め訓練された第一モデルを取得し;及び
    総合損失関数を用いて所定タスクについて第二モデルを訓練し、前記第二モデルに前記第一モデルのナレッジを有させることを含み、
    前記総合損失関数は、前記第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を以て加重された第一損失関数、及び第二損失関数に基づくものであり、
    前記第一損失関数は、前記第二モデルと前記第一モデルとの訓練サンプルに対しての処理結果の間の差を表し、前記第二損失関数は、前記第二モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性を表し、
    前記第一損失関数は、前記第二モデルを用いて訓練サンプルから抽出した所定特徴と、前記第一モデルを用いて訓練サンプルから抽出した所定特徴との間の差を表す第一サブ損失関数を含む、ナレッジ・トランスファー方法。
  2. 請求項に記載のナレッジ・トランスファー方法であって、
    前記第一損失関数は、前記第二モデルと前記第一モデルとの訓練サンプルに対しての所定タスクについての出力結果の間の差を表す第二サブ損失関数をさらに含む、ナレッジ・トランスファー方法。
  3. 請求項に記載のナレッジ・トランスファー方法であって、
    前記訓練サンプルは、画像サンプル、語音サンプル、及び文書サンプルのうちの1つを含む、ナレッジ・トランスファー方法。
  4. 請求項に記載のナレッジ・トランスファー方法であって、
    前記第一モデルの訓練サンプルに対しての所定タスクについての出力結果の正確性が高いほど、前記第一損失関数の重みが大きい、ナレッジ・トランスファー方法。
  5. 請求項1~4のうちの任意の1項に記載のナレッジ・トランスファー方法であって、
    前記所定タスクは、分類タスクを含む、ナレッジ・トランスファー方法。
  6. 請求項に記載のナレッジ・トランスファー方法であって、
    前記第一サブ損失関数は、前記第二モデルを用いて訓練サンプルから抽出した所定特徴と、前記第一モデルを用いて訓練サンプルから抽出した所定特徴との間のコサイン距離に基づくものである、ナレッジ・トランスファー方法。
  7. 処理器を含む情報処理装置であって、
    前記処理器は、
    処理待ちデータを、請求項1に記載のナレッジ・トランスファー方法により得られた前記第二モデルに入力し;及び
    前記第二モデルの処理待ちデータに対しての処理結果を取得するように構成される、情報処理装置。
  8. 請求項に記載の情報処理装置であって、
    前記所定タスクは、分類タスクを含み、前記第一損失関数は、前記第二モデルを用いて訓練サンプルから抽出した所定特徴と、前記第一モデルを用いて訓練サンプルから抽出した所定特徴との間のコサイン距離に基づくものであり、
    前記処理器は、
    前記第二モデルを用いて前記処理待ちデータから所定特徴を前記処理待ちデータに対しての処理結果として抽出し、前記処理待ちデータから抽出した所定特徴と、前記第二モデルを用いて目標データから抽出した所定特徴との間のコサイン類似度を計算し、該コサイン類似度に基づいて前記処理待ちデータと前記目標データとの類似性を確定するように構成される、情報処理装置。
  9. コンピュータに、請求項1~6のうちの任意の1項に記載のナレッジ・トランスファー方法を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2019099109A 2018-06-13 2019-05-28 ナレッジ・トランスファー方法、情報処理装置及び記憶媒体 Active JP7306062B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810607041.5 2018-06-13
CN201810607041.5A CN110598840B (zh) 2018-06-13 2018-06-13 知识迁移方法、信息处理设备以及存储介质

Publications (2)

Publication Number Publication Date
JP2019215861A JP2019215861A (ja) 2019-12-19
JP7306062B2 true JP7306062B2 (ja) 2023-07-11

Family

ID=66690264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019099109A Active JP7306062B2 (ja) 2018-06-13 2019-05-28 ナレッジ・トランスファー方法、情報処理装置及び記憶媒体

Country Status (4)

Country Link
US (1) US11586988B2 (ja)
EP (1) EP3582150A1 (ja)
JP (1) JP7306062B2 (ja)
CN (1) CN110598840B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829849B (zh) * 2019-01-29 2023-01-31 达闼机器人股份有限公司 一种训练数据的生成方法、装置和终端
US20230119593A1 (en) * 2019-06-21 2023-04-20 One Connect Smart Technology Co., Ltd. Method and apparatus for training facial feature extraction model, method and apparatus for extracting facial features, device, and storage medium
WO2021095176A1 (ja) * 2019-11-13 2021-05-20 日本電気株式会社 学習装置、学習方法、及び、記録媒体
US11580390B2 (en) * 2020-01-22 2023-02-14 Canon Medical Systems Corporation Data processing apparatus and method
CN113537483A (zh) * 2020-04-14 2021-10-22 杭州海康威视数字技术股份有限公司 一种域适配方法、装置及电子设备
CN111639744B (zh) * 2020-04-15 2023-09-22 北京迈格威科技有限公司 学生模型的训练方法、装置及电子设备
CN111553429B (zh) * 2020-04-30 2023-11-03 中国银行股份有限公司 指纹识别模型迁移方法、装置及系统
US10970633B1 (en) 2020-05-13 2021-04-06 StradVision, Inc. Method for optimizing on-device neural network model by using sub-kernel searching module and device using the same
CN111680636B (zh) * 2020-06-09 2024-02-06 广州视源电子科技股份有限公司 模型训练方法及装置
CN111680631B (zh) * 2020-06-09 2023-12-22 广州视源电子科技股份有限公司 模型训练方法及装置
CN112101172B (zh) * 2020-09-08 2023-09-08 平安科技(深圳)有限公司 基于权重嫁接的模型融合的人脸识别方法及相关设备
CN112101551A (zh) * 2020-09-25 2020-12-18 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备以及存储介质
EP3982299A1 (en) * 2020-10-09 2022-04-13 Naver Corporation Superloss: a generic loss for robust curriculum learning
CN113159073B (zh) * 2021-04-23 2022-11-18 上海芯翌智能科技有限公司 知识蒸馏方法及装置、存储介质、终端
CN113408570A (zh) * 2021-05-08 2021-09-17 浙江智慧视频安防创新中心有限公司 一种基于模型蒸馏的图像类别识别方法、装置、存储介质及终端
CN113762585B (zh) * 2021-05-17 2023-08-01 腾讯科技(深圳)有限公司 数据的处理方法、账号类型的识别方法及装置
CN113378940B (zh) * 2021-06-15 2022-10-18 北京市商汤科技开发有限公司 神经网络训练方法、装置、计算机设备及存储介质
CN113627262A (zh) * 2021-07-13 2021-11-09 深圳力维智联技术有限公司 文字识别方法、装置及设备
CN114417294A (zh) * 2022-01-13 2022-04-29 中国银联股份有限公司 特征向量数据库的更新方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083829A1 (en) 2015-09-18 2017-03-23 Samsung Electronics Co., Ltd. Model training method and apparatus, and data recognizing method
JP2017123170A (ja) 2016-01-06 2017-07-13 三星電子株式会社Samsung Electronics Co.,Ltd. 心電図認証方法及び装置並びに学習方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9483728B2 (en) * 2013-12-06 2016-11-01 International Business Machines Corporation Systems and methods for combining stochastic average gradient and hessian-free optimization for sequence training of deep neural networks
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
US11210589B2 (en) * 2016-09-28 2021-12-28 D5Ai Llc Learning coach for machine learning system
JP2018060268A (ja) * 2016-10-03 2018-04-12 株式会社日立製作所 認識装置および学習システム
CN106529427A (zh) * 2016-10-24 2017-03-22 合肥华凌股份有限公司 图像中目标物体识别方法、冰箱内食品识别方法及系统
US10762891B2 (en) * 2017-02-10 2020-09-01 Synaptics Incorporated Binary and multi-class classification systems and methods using connectionist temporal classification
US11195093B2 (en) * 2017-05-18 2021-12-07 Samsung Electronics Co., Ltd Apparatus and method for student-teacher transfer learning network using knowledge bridge
CN107247989B (zh) * 2017-06-15 2020-11-24 北京图森智途科技有限公司 一种实时的计算机视觉处理方法及装置
CN107423690B (zh) * 2017-06-26 2020-11-13 广东工业大学 一种人脸识别方法及装置
CN107506702B (zh) * 2017-08-08 2020-09-11 江西高创保安服务技术有限公司 基于多角度的人脸识别模型训练及测试系统及方法
US10885900B2 (en) * 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
CN107766873A (zh) * 2017-09-06 2018-03-06 天津大学 基于排序学习的多标签零样本分类方法
CN107844784A (zh) * 2017-12-08 2018-03-27 广东美的智能机器人有限公司 人脸识别方法、装置、计算机设备和可读存储介质
CN108009528B (zh) * 2017-12-26 2020-04-07 广州广电运通金融电子股份有限公司 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质
CN108830288A (zh) * 2018-04-25 2018-11-16 北京市商汤科技开发有限公司 图像处理方法、神经网络的训练方法、装置、设备及介质
US10963748B1 (en) * 2018-08-31 2021-03-30 Snap Inc. Generative neural network distillation
CN110097130B (zh) * 2019-05-07 2022-12-13 深圳市腾讯计算机系统有限公司 分类任务模型的训练方法、装置、设备及存储介质
US11113518B2 (en) * 2019-06-28 2021-09-07 Eygs Llp Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal
US10970598B1 (en) * 2020-05-13 2021-04-06 StradVision, Inc. Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
US20220237513A1 (en) * 2021-01-28 2022-07-28 Samsung Electronics Co., Ltd. Method and apparatus with optimization for deep learning model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083829A1 (en) 2015-09-18 2017-03-23 Samsung Electronics Co., Ltd. Model training method and apparatus, and data recognizing method
JP2017123170A (ja) 2016-01-06 2017-07-13 三星電子株式会社Samsung Electronics Co.,Ltd. 心電図認証方法及び装置並びに学習方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Tan Y. K., et al.,Improved Recurrent Neural Networks for Session-based Recommendations,arXiv.org [online],2016年09月16日,[検索日 2022.11.28], インターネット:<URL:https://arxiv.org/pdf/1606.08117v2.pdf>,<DOI: 10.48550/arXiv.1606.08117>
木村 昭悟ほか,疑似訓練サンプル最適化によるニューラルネットワークの少数ショット学習,一般社団法人 人工知能学会 第32回全国大会論文集DVD [DVD-ROM] 2018年度 人工知能学会全国大会(第32回),2018年06月08日,p. 1-4

Also Published As

Publication number Publication date
CN110598840B (zh) 2023-04-18
EP3582150A1 (en) 2019-12-18
US20190385086A1 (en) 2019-12-19
CN110598840A (zh) 2019-12-20
US11586988B2 (en) 2023-02-21
JP2019215861A (ja) 2019-12-19

Similar Documents

Publication Publication Date Title
JP7306062B2 (ja) ナレッジ・トランスファー方法、情報処理装置及び記憶媒体
JP6781415B2 (ja) ニューラルネットワーク学習装置、方法、プログラム、およびパターン認識装置
JP6928371B2 (ja) 分類器、分類器の学習方法、分類器における分類方法
US10008209B1 (en) Computer-implemented systems and methods for speaker recognition using a neural network
CN108694443B (zh) 基于神经网络的语言模型训练方法和装置
CN111105008A (zh) 模型训练方法、数据识别方法和数据识别装置
KR20200128938A (ko) 모델 학습 방법 및 장치
JP2020177647A (ja) 画像処理装置及びその訓練装置と訓練方法
KR20200129639A (ko) 모델 학습 방법 및 장치
US20090204556A1 (en) Large Scale Manifold Transduction
WO2021174760A1 (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN113139664B (zh) 一种跨模态的迁移学习方法
JP2018194828A (ja) マルチビューベクトルの処理方法及び装置
JP2019096313A (ja) 情報処理方法及び情報処理装置
CN108898181B (zh) 一种图像分类模型的处理方法、装置及存储介质
US20220230648A1 (en) Method, system, and non-transitory computer readable record medium for speaker diarization combined with speaker identification
WO2023165102A1 (zh) 基于注意力的文本分类方法、装置及计算机可读介质
KR20200110064A (ko) 변환 모델을 이용한 인증 방법 및 장치
KR20210042696A (ko) 모델 학습 방법 및 장치
KR102469679B1 (ko) 인공지능 기반의 맞춤형 음식 추천 방법 및 장치
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
US10546246B2 (en) Enhanced kernel representation for processing multimodal data
KR102449840B1 (ko) 사용자 적응적인 음성 인식 방법 및 장치
JP6992725B2 (ja) パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
KR102542220B1 (ko) 자가 지식 증류법 기반 의미론적 영상 분할 방법 및 자가 지식 증류법 기반 의미론적 영상 분할 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230612

R150 Certificate of patent or registration of utility model

Ref document number: 7306062

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150