JP7225614B2 - ディープラーニング分類モデルの訓練装置及び方法 - Google Patents

ディープラーニング分類モデルの訓練装置及び方法 Download PDF

Info

Publication number
JP7225614B2
JP7225614B2 JP2018165140A JP2018165140A JP7225614B2 JP 7225614 B2 JP7225614 B2 JP 7225614B2 JP 2018165140 A JP2018165140 A JP 2018165140A JP 2018165140 A JP2018165140 A JP 2018165140A JP 7225614 B2 JP7225614 B2 JP 7225614B2
Authority
JP
Japan
Prior art keywords
training
data
similar
attribute
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018165140A
Other languages
English (en)
Other versions
JP2019049975A (ja
Inventor
リィウ・シアオチン
タヌ・ジミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2019049975A publication Critical patent/JP2019049975A/ja
Application granted granted Critical
Publication of JP7225614B2 publication Critical patent/JP7225614B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理技術に関し、特に、ディープラーニング(deep learning)分類モデルの訓練装置及び方法に関する。
機械学習方法の改良及び発展に伴い、ディープラーニング方法が重要視されている。ディープラーニングにより分類モデルを訓練する方法は、多くの技術分野に応用されており、画像認識、語音分析などの分野でのホットな研究テーマになっている。
一般的に言えば、分類モデル訓練時に、訓練データが多いほど、ディープラーニング訓練のパフォーマンスが高い。しかし、データの収集は時には非常に困難であり、訓練のための十分なデータがない場合もあり、これにより、過剰適合(over fitting)の問題を来す可能性がある。よって、如何に小さいデータ集合の場合にも過剰適合を抑えるかは、ディープラーニング分類モデルの訓練にとって重要な意義がある。
本発明の実施例は、ディープラーニング分類モデルの訓練装置及び方法を提供する。目標データの目標属性のために複数の関連属性を生成し、それに対応して複数の関連訓練分岐(branch)を増やし;前記目標データに基づいて類似データを生成し、それに対応して類似訓練分岐を増やし;訓練主幹(trunk)、前記類似訓練分岐、及び複数の前記関連訓練分岐に対してそれぞれ訓練を行い;及び、それぞれ訓練された結果に基づいて、特徴抽出及び/又は属性分類のパラメーターに対して調整を行う。これにより、小さいデータ集合の場合にも、ディープラーニング分類モデルの過剰適合の問題を解決することができる。
本発明の実施例の第一側面によれば、ディープラーニング分類モデルの訓練装置が提供され、それは、
目標データの目標属性に基づいて複数の関連属性を生成するための属性生成ユニットであって、前記目標データの目標属性は、訓練主幹に対応し、前記目標データの前記複数の関連属性は、複数の関連訓練分岐に対応する、属性生成ユニット;
前記目標データ及び訓練データ集合に基づいて類似データを生成するためのデータ生成ユニットであって、前記類似データの目標属性は、類似訓練分岐に対応する、データ生成ユニット;
前記訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を含む訓練を行うための訓練ユニット;及び
それぞれ訓練された結果に基づいて前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターに対して調整を行い、ネットワーク全体のモデルに対して訓練を行うためのパラメーター調整ユニットを含む。
本発明の実施例の第二側面によれば、ディープラーニング分類モデルの訓練方法が提供され、それは、
目標データの目標属性に基づいて複数の関連属性を生成し、そのうち、前記目標データの目標属性は、訓練主幹に対応し、前記目標データの前記複数の関連属性は、複数の関連訓練分岐に対応し;
前記目標データ及び訓練データ集合に基づいて類似データを生成し、そのうち、前記類似データの目標属性は、類似訓練分岐に対応し;
前記訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を含む訓練を行い;及び
それぞれ訓練された結果に基づいて前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターに対して調整を行い、ネットワーク全体のモデルに対して訓練を行うことを含む。
本発明の実施例の第三側面によれば、電子機器が提供され、前記電子機器は、第一側面に記載のディープラーニング分類モデルの訓練装置を含む。
本発明の実施例の有益な効果は、次の通りである。即ち、目標データの目標属性のために複数の関連属性を生成し、それに対応して複数の関連訓練分岐を増やし;前記目標データに基づいて類似データを生成し、それに対応して類似訓練分岐を増やし;訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、訓練を行い;及び、それぞれ訓練された結果に基づいて、特徴抽出のパラメーター及び/又は属性分類のパラメーターに対して調整を行う。これにより、小さいデータ集合の場合にも、ディープラーニング分類モデルの過剰適合の問題を回避することができる。
本発明の実施例におけるディープラーニング分類モデルの訓練方法を示す図である。 本発明の実施例におけるディープラーニング分類モデルの訓練方法を示す他の図である。 本発明の実施例における訓練モデルの一例を示す図である。 本発明の実施例におけるディープラーニング分類モデルの訓練装置を示す図である。 本発明の実施例におけるディープラーニング分類モデルの訓練装置を示す他の図である。 本発明の実施例における電子機器を示す図である。
以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。
本発明の実施例は、ディープラーニング分類モデルの訓練方法を提供する。図1は、本発明の実施例におけるディープラーニング分類モデルの訓練方法を示す図である。図1に示すように、訓練方法100は、次のようなステップを含む。
ステップ101:目標データの目標属性に基づいて複数の関連属性を生成し、そのうち、前記目標データの目標属性は、訓練主幹に対応し、前記目標データの前記複数の関連属性は、複数の関連訓練分岐に対応し;
ステップ102:前記目標データ及び訓練データ集合に基づいて類似データを生成し、そのうち、前記類似データの目標属性は、類似訓練分岐に対応し;
ステップ103:前記訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を含む訓練を行い;及び
ステップ104:それぞれ訓練された結果に基づいて前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターに対して調整を行い、ネットワーク全体のモデルに対して訓練を行う。
本実施例では、前記目標データにタグ(tag/annotation)を増加させることで、前記複数の関連属性を得ることができる。例えば、Sを用いて目標データを表し、Aを用いて、モデルが分類する必要がある目標属性を表し、また、増加後の複数の関連属性が、Biと表されるとし、ここで、i∈[1,……,n]であり、nは、1よりも大きい正の整数である。
例えば、画像分類を例とし、Aは、人物の服飾類型、例えば、シャツ、スーツなどであっても良く、B1は、人物のポーズ(pose)、例えば、立ち、座りなどであっても良く、B2は、人物撮影時の日照条件、例えば、曇り、晴れなどであっても良く、B3は、人物撮影時のカメラ視野角、例えば、正面、側面などであっても良い。
本実施例では、目標データの目標属性に対応する訓練過程又は経路を訓練主幹と称し、目標データの関連属性に対応する訓練過程又は経路を関連訓練分岐と称し、そのうち、各関連属性は、1つの関連訓練分岐に対応しても良い。
本実施例では、前記目標データS及び訓練データ集合(以下、Dで表す)に基づいて、類似データ(以下、S’で表す)を生成することができる。前記訓練データ集合Dのうちから複数のサンプルデータを選択することで、前記類似データS’を得ることができ、そのうち、前記類似データS’中の一部のサンプルデータの前記目標属性Aの値は、前記目標データS中の一部のサンプルデータの前記目標属性Aの値と同じである。
例えば、S=[S1,S2,……,Sm]であり、そのうち、Sjは、分類のためのサンプルデータであり,j∈[1,……,m]であり、mは、1よりも大きい正の整数である。S’=[S’1,S’2,……,S’m]であり、そのうち、S’kは、類似したサンプルデータであり、k∈[1,……,m]である。S’中のS’kについて、次のような制限条件があっても良い。
Figure 0007225614000001
例えば、k∈[1,……,m/2]について、S’kのAの値は、SkのAの値と同じである。
本実施例では、類似データの目標属性に対応する訓練過程又は経路を類似訓練分岐と称する。これにより、本発明の実施例では、目標データの目標属性に対応する訓練主幹の他に、さらに複数の関連訓練分岐及び少なくとも1つの類似訓練分岐を増やしも良く、このようにして、小さいデータ集合の場合にも、訓練データ量を増加させることができる。
なお、以上、関連属性及び類似データのみを例示的に説明したが、本発明の実施例は、これに限定されない。また、具体的にどのように関連属性及び/又は類似データを確定するかは、実際のシナリオに応じて関連方法を採用して実現しても良い。
本実施例では、前記訓練主幹、前記類似訓練分岐、及び複数の関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を含む訓練を行い、及び、それぞれ訓練された結果に基づいて、前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターに対して調整を行うことで、ネットワーク全体のモデルに対して訓練を行うことができる。これにより、複数の関連訓練分岐及び少なくとも1つの類似訓練分岐が増加した場合に、特徴抽出のパラメーター及び/又は前記属性分類のパラメーターを調整することで、分類モデルの訓練のパフォーマンスを保証することができる。
以下、如何に訓練を行うかを例示的に説明する。
図2は、本発明の実施例におけるディープラーニング分類モデルの訓練方法を示す他の図である。図2に示すように、訓練方法200は、次のようなステップを含む。
ステップ201:目標データの目標属性に基づいて複数の関連属性を生成し、そのうち、前記目標データの目標属性は、1つの訓練主幹に対応し、前記目標データの前記複数の関連属性は、複数の関連訓練分岐に対応し;
ステップ202:前記目標データ及び訓練データ集合に基づいて類似データを生成し、そのうち、前記類似データの目標属性は、1つの類似訓練分岐に対応し;
ステップ203:前記訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を含む訓練を行う。
本実施例では、前記訓練主幹、前記類似訓練分岐、及び各前記関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を行うことができる。例えば、前記訓練主幹、前記類似訓練分岐、及び前記関連訓練分岐のうちの各経路(過程)は、1つの特徴抽出器及び1つの属性分類器を含んでも良い。なお、特徴抽出及び属性分類の具体的な内容は、関連技術を参照することができるため、ここでは詳しい説明を省略する。
図2に示すように、前記訓練方法200は、さらに、次のようなステップを含んでも良い。
ステップ204:前記訓練主幹について主幹ラベル集合(以下、Label Aで表す)を生成し、複数の前記関連訓練分岐について複数の関連ラベル集合(以下、Label Biで表す)を生成し、及び、前記類似訓練分岐について類似ラベル集合(以下、Label Simで表す)を生成する。
類似ラベル集合を例とし、目標データS及び類似データS’中のサンプルデータの類似性に基づいて該Label Simを生成することができる。例えば、S’kのAの値がSkのAの値と同じであるとすれば、Label Sim中のラベルkの値が1と設定されても良く、そうでなければ、0と設定されても良い。
なお、以上、ラベル集合について例示的に説明したが、本発明の実施例は、これに限られない。また、具体的にどうやってラベル集合を確定するかは、実際のシナリオに応じて関連方法を採用して実現しても良い。
本実施例では、前記訓練主幹、前記類似訓練分岐、及び前記関連訓練分岐について、複数の前記特徴抽出は、予め訓練された1つ又は複数の初期(initial)パラメーターを共有して使用しても良い。また、前記訓練主幹及び前記類似訓練分岐は、特徴抽出及び属性分類のための初期パラメーターを共有しても良い。
例えば、予め設定された大きいデータ集合に基づいて訓練主幹に対してプレトレーニングを行い、訓練主幹に対応する特徴抽出のための複数の初期パラメーターを取得し、その後、これらの初期パラメーターを、前記類似訓練分岐及び前記関連訓練分岐中の全ての特徴抽出器に共有させても良い。
図2に示すように、前記訓練方法200は、さらに、次のようなステップを含んでも良い。
ステップ205:前記類似訓練分岐中の前記属性分類の結果及び前記訓練主幹中の前記属性分類の結果に基づいて、前記目標データ及び前記類似データの、前記目標属性に関する類似度(以下、Simで表す)を計算する。
図2に示すように、前記訓練方法200は、さらに、次のようなステップを含んでも良い。
ステップ206:前記類似度(Sim)及び前記類似ラベル集合(Label Sim)に基づいて、前記類似訓練分岐に対応する類似分岐損失(以下、Loss Simで表す)を計算し、前記訓練主幹中の前記属性分類の結果及び前記主幹ラベル集合(Label A)に基づいて、前記訓練主幹に対応する主幹損失(以下、Loss Aで表す)を計算し、前記関連訓練分岐中の前記属性分類の結果及び前記関連ラベル集合(Label Bi)に基づいて、前記関連訓練分岐に対応する関連分岐損失(以、Loss Biで表す)を計算する。
本実施例では、訓練収斂(収束)の場合に、前記訓練主幹、前記類似訓練分岐、及び前記関連訓練分岐のうちの各経路(過程)について、それぞれ、損失を計算しても良い。具体的に如何に損失を計算するかは、関連技術を参照することができるため、ここでは詳しい説明を省略する。
図2に示すように、前記訓練方法200は、さらに、次のようなステップを含んでも良い。
ステップ207:前記類似分岐損失(Loss Sim)、前記主幹損失(Loss A)、及び複数の前記関連分岐損失(Loss Bi)に基づいて、加重(weighting)後の損失値(以下、Lossで表す)を計算する。
例えば、次のような公式で計算を行っても良い。
Loss=Loss A+Loss Sim+β1×Loss B1+……+βn×Loss Bn
そのうち、βiは、Loss Biの加重係数であり、例えば、βi=Loss Bi/(Loss B1+……+Loss Bn)である。
図2に示すように、前記訓練方法200は、さらに、次のようなステップを含んでも良い。
ステップ208:前記加重後の損失値(Loss)に基づいて、前記訓練主幹、複数の前記関連訓練分岐、及び前記類似訓練分岐における前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターを更新する。なお、具体的に如何に損失値に基づいてパラメーターを更新するかは、関連技術を参照することができるため、ここでは詳しい説明を省略する。
本実施例では、特徴抽出のパラメーター及び/又は属性分類のパラメーターを更新した後に、さらに、ネットワーク全体に対して訓練を行っても良い。なお、具体的にどのように分類モデルの訓練を行うかは、関連技術を参照することができるため、ここでは詳しい説明を省略する。
これにより、複数の関連訓練分岐及び少なくとも1つの類似訓練分岐が増加した場合に、加重後の損失値に基づいて特徴抽出のパラメーター及び/又は前記属性分類のパラメーターを調整することで、分類モデルの訓練のパフォーマンスを保証することができる。
なお、以上、図2をもとに本発明の実施例を例示的に説明したが、本発明の実施例は、これに限定されない。例えば、各ステップ間の実行順序を適切に調整しても良く、又は、さらに幾つかのステップを増減しても良い。即ち、当業者は、図2の記載に限られず、上述の内容に基づいて適切に変更しても良い。
本実施例では、さらに、前記訓練主幹の前記属性分類の結果に基づいて、前記目標属性を有するサンプルデータの間の特徴距離を計算し、及び、前記特徴距離に基づいて、類似度閾値(以下、Mで表す)を設定し、且つ前記類似度閾値(M)に基づいて、前記目標データ及び前記類似データの、前記目標属性についての類似度(Sim)を更新することができる。
例えば、目標属性Aについて、独立して属性分類器に対して訓練を行った後に、全てのサンプルデータの、目標属性Aについての分類結果を計算し、その後、同じ目標属性Aを有するサンプルデータの間の特徴距離を計算することができ、また、これらの特徴距離の中央値を該類似度閾値としても良く、即ち、M=median(distances)である。そのうち、medianは、中央値計算を表し、distancesは、これらの特徴距離を表す。
本実施例では、さらに、異なる前記類似度閾値に基づいて、反復(iteration)により、前記ネットワーク全体のモデルに対して訓練を行っても良い。例えば、損失値に基づいてパラメーターを更新した後に、モデル収斂の場合に、該類似度閾値を調整し、その後、再びネットワーク全体のモデルに対して訓練を行っても良い。
これにより、複数の関連訓練分岐及び少なくとも1つの類似訓練分岐が増加した場合に、類似度閾値を調整し、反復により、ネットワーク全体のモデルに対して訓練を行い、これにより、分類モデルの訓練のパフォーマンスをさらに保証することができる。
図3は、本発明の実施例における訓練モデルの一例を示す図である。図3に示すように、目標データSの目標属性Aのために複数の関連属性Biを生成することで、複数の関連訓練分岐を増やすことができ、また、さらに目標データSのために類似データS’を生成することで、少なくとも1つの類似訓練分岐を増加させても良い。
図3に示すように、訓練主幹の属性分類結果及び類似訓練分岐の属性分類結果に基づいて、目標データS及び類似データS’の、目標属性Aについての類似度Simを計算することができる。また、訓練主幹について主幹ラベル集合Label Aを生成し、類似訓練分岐について類似ラベル集合Label Simを生成し、各関連訓練分岐について関連ラベル集合Label Biを生成することができる。
また、訓練主幹について主幹損失Loss Aを生成し、類似訓練分岐について類似損失Loss Simを生成し、各関連訓練分岐について関連損失Loss Biを生成することができる。これにより、複数の訓練経路の損失に基づいて、特徴抽出のパラメーター及び/又は前記属性分類のパラメーターに対して調整を行うことができる。
なお、以上、図3をもとに本発明の実施例を例示的に説明したが、本発明の実施例は、これに限定されない。例えば、各ステップ間の実行順序を適切に調整しても良く、又は、さらに幾つかのステップを増減しても良い。即ち、当業者は、図3の記載に限られず、上述の内容に基づいて適切に変更しても良い。
上述の実施例から分かるように、目標データの目標属性のために複数の関連属性を生成し、それに対応して複数の関連訓練分岐を増やし;前記目標データに基づいて類似データを生成し、それに対応して類似訓練分岐を増やし;訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、訓練を行い;及び、それぞれ訓練された結果に基づいて、特徴抽出のパラメーター及び/又は属性分類のパラメーターに対して調整を行う。これにより、小さいデータ集合の場合にも、ディープラーニング分類モデルの過剰適合の問題を避けることができる。
本発明の実施例は、ディープラーニング分類モデルの訓練装置を提供し、該訓練装置は、電子機器に構成されても良く、該電子機器のある部品とされても良い。本発明の実施例は、実施例1のディープラーニング分類モデルの訓練方法に対応し、同じ内容は、省略される。
図4は、本発明の実施例におけるディープラーニング分類モデルの訓練装置を示す図である。図4に示すように、訓練装置400は、次のようなものを含む。
属性生成ユニット401:目標データの目標属性に基づいて複数の関連属性を生成し、そのうち、前記目標データの目標属性は、1つの訓練主幹に対応し、前記目標データの前記複数の関連属性は、複数の関連訓練分岐に対応し;
データ生成ユニット402:前記目標データ及び訓練データ集合に基づいて類似データを生成し、そのうち、前記類似データの目標属性は、1つの類似訓練分岐に対応し;
訓練ユニット403:前記訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を含む訓練を行い;及び
パラメーター調整ユニット404:それぞれ訓練された結果に基づいて、前記特徴抽出及び/又は前記属性分類のパラメーターに対して調整を行い、ネットワーク全体のモデルに対して訓練を行う。
本実施例では、属性生成ユニット401は、前記目標データにタグを増加させることで、前記複数の関連属性を得ることができ、データ生成ユニット402は、前記訓練データ集合のうちから複数のサンプルデータを選択して前記類似データを得ることができ、そのうち、前記類似データ中の一部のサンプルデータの前記目標属性の値は、前記目標データ中の一部のサンプルデータの前記目標属性の値と同じである。
図5は、本発明の実施例におけるディープラーニング分類モデルの訓練装置を示す他の図である。図5に示すように、訓練装置500は、属性生成ユニット401、データ生成ユニット402、訓練ユニット403、及びパラメーター調整ユニット404を上記のように含む。
図5に示すように、訓練装置500は、さらに、次のようなものを含んでも良い。
ラベル集合生成ユニット501:前記訓練主幹について主幹ラベル集合を生成し、複数の前記関連訓練分岐について複数の関連ラベル集合を生成し、及び、前記類似訓練分岐について類似ラベル集合を生成する。
本実施例では、前記訓練主幹、前記類似訓練分岐、及び前記関連訓練分岐において、複数の前記特徴抽出は、予め訓練された1つ又は複数の初期パラメーターを共有して使用しても良い。
図5に示すように、訓練装置500は、さらに、次のようなものを含んでも良い。
類似度計算ユニット502:前記類似訓練分岐中の前記属性分類の結果及び前記訓練主幹中の前記属性分類の結果に基づいて、前記目標データと前記類似データとの、前記目標属性についての類似度を計算する。
図5に示すように、訓練装置500は、さらに、次のようなものを含んでも良い。
損失計算ユニット503:前記類似度及び前記類似ラベル集合に基づいて、前記類似訓練分岐に対応する類似分岐損失を計算し、前記訓練主幹中の前記属性分類の結果及び前記主幹ラベル集合に基づいて、前記訓練主幹に対応する主幹損失を計算し、前記関連訓練分岐中の前記属性分類の結果及び前記関連ラベル集合に基づいて、前記関連訓練分岐に対応する関連分岐損失を計算する。
図5に示すように、訓練装置500は、さらに、次のようなものを含んでも良い。
加重計算ユニット504:前記類似分岐損失、前記主幹損失、及び複数の前記関連分岐損失に基づいて、加重後の損失値を計算する。
前記パラメーター調整ユニット404は、さらに、前記加重後の損失値に基づいて、それぞれ、前記訓練主幹、複数の前記関連訓練分岐、及び前記類似訓練分岐中の前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターを更新する。
本実施例では、訓練装置500は、さらに、次のようなものを含んでも良い。
距離計算ユニット(図5に示されていない):前記訓練主幹の前記属性分類の結果に基づいて、前記目標属性を有するサンプルデータの間の特徴距離を計算し;及び
閾値設定ユニット(図5に示されていない):前記特徴距離に基づいて類似度閾値を設定する。
前記類似度計算ユニット502は、さらに、前記類似度閾値に基づいて、前記目標データと前記類似データとの、前記目標属性に関する類似度を更新しても良い。
本実施例では、前記訓練ユニット403は、さらに、異なる前記類似度閾値に基づいて、反復により、前記ネットワーク全体のモデルに対して訓練を行う。
なお、以上、本発明の実施例に関連する各部品又はモジュールのみを説明したが、本発明の実施例は、これに限定されず、ディープラーニング分類モデルの訓練装置の他の部件又はモジュールについては、関連技術を参照することができる。
上述の実施例から分かるように、目標データの目標属性のために複数の関連属性を生成し、それに対応して複数の関連訓練分岐を増やし;前記目標データに基づいて類似データを生成し、それに対応して類似訓練分岐を増やし;訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、訓練を行い;及び、それぞれ訓練された結果に基づいて、特徴抽出のパラメーター及び/又は属性分類のパラメーターに対して調整を行う。これにより、小さいデータ集合の場合にも、ディープラーニング分類モデルの過剰適合の問題を回避することができる。
本発明の実施例は、さらに、電子機器を提供し、それは、実施例2に記載のディープラーニング分類モデルの訓練装置を含み、また、その内容は、ここに合併される。該電子機器は、例えば、コンピュータ、サーバー、ワークステーション、ラップトップコンピュータ、スマートフォンなどであっても良いが、本発明の実施例は、これに限定されない。
図6は、本発明の実施例における電子機器を示す図である。図6に示すように、電子機器600は、処理器(例えば、中央処理装置CPU)610及び記憶器620を含み、記憶器620は、中央処理装置610に接続される。そのうち、該記憶器620は、各種のデータを記憶することができ、また、さらに情報処理用プログラム621を記憶し、且つ処理器610の制御下で該プログラムを実行することができる。
1つの実施方式では、ディープラーニング分類モデルの訓練装置400又は500の機能は、処理器610に統合することができる。そのうち、処理器610は、実施例1に記載のディープラーニング分類モデルの訓練方法を実現するように構成されても良い。
もう1つの実施方式では、ディープラーニング分類モデルの訓練装置400又は500は、処理器610と別々で配置されても良く、例えば、ディープラーニング分類モデルの訓練装置400又は500を、処理器610に接続されるチップとして構成し、また、処理器610の制御により、ディープラーニング分類モデルの訓練装置400又は500の機能を実現しても良い。
例えば、処理器610は、次のよな制御を行うように構成されても良く、即ち、目標データの目標属性に基づいて複数の関連属性を生成し、そのうち、前記目標データの目標属性は、1つの訓練主幹に対応し、前記目標データの前記複数の関連属性は、複数の関連訓練分岐に対応し;前記目標データ及び訓練データ集合に基づいて類似データを生成し、そのうち、前記類似データの目標属性は、1つの類似訓練分岐に対応し;前記訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を含む訓練を行い;及び、それぞれ訓練された結果に基づいて、前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターに対して調整を行い、ネットワーク全体のモデルに対して訓練を行う。
1つの実施方式では、前記目標データにタグを増加させることで、前記複数の関連属性をえ得ることができ、前記訓練データ集合のうちから複数のサンプルデータを選択することで、前記類似データを得ることができ、そのうち、前記類似データ中の一部のサンプルデータの前記目標属性の値は、前記目標データ中の一部のサンプルデータの前記目標属性の値と同じである。
1つの実施方式では、処理器610は、さらに、次のような制御を行うように構成されても良く、即ち、前記訓練主幹について主幹ラベル集合を生成し、複数の前記関連訓練分岐について複数の関連ラベル集合を生成し、及び、前記類似訓練分岐について類似ラベル集合を生成する。
1つの実施方式では、前記訓練主幹、前記類似訓練分岐、及び前記関連訓練分岐において、複数の前記特徴抽出は、予め訓練された1つ又は複数の初期パラメーターを共有して使用する。
1つの実施方式では、処理器610は、さらに、次のような制御を行うように構成されても良く、即ち、前記類似訓練分岐中の前記属性分類の結果及び前記訓練主幹中の前記属性分類の結果に基づいて、前記目標データ及び前記類似データの、前記目標属性についての類似度を計算する。
1つの実施方式では、処理器610は、さらに、次のような制御を行うように構成されても良く、即ち、前記類似度及び前記類似ラベル集合に基づいて前記類似訓練分岐に対応する類似分岐損失を計算し、前記訓練主幹中の前記属性分類の結果及び前記主幹ラベル集合に基づいて前記訓練主幹に対応する主幹損失を計算し、前記関連訓練分岐中の前記属性分類の結果及び前記関連ラベル集合に基づいて前記関連訓練分岐に対応する関連分岐損失を計算する。
1つの実施方式では、処理器610は、さらに、次のような制御を行うように構成されても良く、前記類似分岐損失、前記主幹損失、及び複数の前記関連分岐損失に基づいて、加重後の損失値を計算し、且つ、前記加重後の損失値に基づいて、それぞれ、前記訓練主幹、複数の前記関連訓練分岐、及び前記類似訓練分岐における前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターを更新する。
1つの実施方式では、処理器610は、さらに、次のような制御を行うように構成されても良く、即ち、前記訓練主幹の前記属性分類の結果に基づいて、前記目標属性を有するサンプルデータの間の特徴距離を計算し、及び、前記特徴距離に基づいて類似度閾値を設定し、且つ、前記類似度閾値に基づいて、前記目標データ及び前記類似データの、前記目標属性についての類似度を更新する。
1つの実施方式では、処理器610は、さらに、次のような制御を行うように構成されても良く、即ち、異なる前記類似度閾値に基づいて、反復により、前記ネットワーク全体のモデルに対して訓練を行う。
また、図6に示すように、電子機器600は、さらに、入力出力(I/O)装置630、表示器640などを含んでも良く、そのうち、これらの部品の機能は、従来技術に類似したので、ここでは詳しい説明を省略する。なお、電子機器600は、必ずしも図6中の全てのものを含む必要がない。また、電子機器600は、さらに、図6に無いものを含んでも良く、これについては、従来技術を参照することができる。
本発明の実施例は、さらに、コンピュータ可読プログラムを提供し、そのうち、画像処理装置中で前記プログラムを実行する時に、前記プログラムは、コンピュータに、前記電子機器中で実施例1に記載のディープラーニング分類モデルの訓練方法を実行させる。
本発明の実施例は、さらに、コンピュータ可読プログラムを記憶した記憶媒体を提供し、そのうち、前記コンピュータ可読プログラムは、コンピュータに、電子機器中で実施例1に記載のディープラーニング分類モデルの訓練方法を実行させる。
また、本発明の実施例による装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。また、本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行される時に、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶するための記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims (9)

  1. ディープラーニング分類モデルの訓練装置であって、
    目標データの目標属性に基づいて複数の関連属性を生成する属性生成ユニットであって、前記目標データの目標属性は、1つの訓練主幹に対応し、前記目標データの前記複数の関連属性は、複数の関連訓練分岐に対応する、属性生成ユニット;
    前記目標データ及び訓練データ集合に基づいて類似データを生成するデータ生成ユニットであって、前記類似データの目標属性は、1つの類似訓練分岐に対応する、データ生成ユニット;
    前記訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を含む訓練を行う訓練ユニット;及び
    前記訓練ユニットの訓練結果に基づいて、前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターに対して調整を行い、ネットワーク全体のモデルに対して訓練を行うパラメーター調整ユニットを含み、
    前記属性生成ユニットは、前記目標データにタグを増加させることで、前記複数の関連属性を取得し、
    前記データ生成ユニットは、前記訓練データ集合のうちから複数のサンプルデータを選択することで、前記類似データを取得し、前記類似データ中の一部のサンプルデータの前記目標属性の値は、前記目標データ中の一部のサンプルデータの前記目標属性の値と同じである、訓練装置。
  2. 請求項1に記載の訓練装置であって、
    前記訓練主幹について主幹ラベル集合を生成し、複数の前記関連訓練分岐について複数の関連ラベル集合を生成し、また、前記類似訓練分岐について類似ラベル集合を生成するラベル集合生成ユニットをさらに含む、訓練装置。
  3. 請求項に記載の訓練装置であって、
    前記訓練主幹、前記類似訓練分岐、及び前記関連訓練分岐において、複数の前記特徴抽出は、予め訓練された1つ又は複数の初期パラメーターを共有して使用する、訓練装置。
  4. 請求項に記載の訓練装置であって、
    前記類似訓練分岐中の前記属性分類の結果及び前記訓練主幹中の前記属性分類の結果に基づいて、前記目標データと前記類似データとの、前記目標属性についての類似度を計算する類似度計算ユニットをさらに含む、訓練装置。
  5. 請求項に記載の訓練装置であって、
    前記類似度及び前記類似ラベル集合に基づいて前記類似訓練分岐に対応する類似分岐損失を計算し、前記訓練主幹中の前記属性分類の結果及び前記主幹ラベル集合に基づいて前記訓練主幹に対応する主幹損失を計算し、また、前記関連訓練分岐中の前記属性分類の結果及び前記関連ラベル集合に基づいて前記関連訓練分岐に対応する関連分岐損失を計算する損失計算ユニットをさらに含む、訓練装置。
  6. 請求項に記載の訓練装置であって、
    前記類似分岐損失、前記主幹損失、及び複数の前記関連分岐損失に基づいて、加重後の損失値を計算する加重計算ユニットをさらに含み、
    前記パラメーター調整ユニットは、さらに、前記加重後の損失値に基づいて、前記訓練主幹、複数の前記関連訓練分岐、及び前記類似訓練分岐中の前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターを更新する、訓練装置。
  7. 請求項に記載の訓練装置であって、
    前記訓練主幹の前記属性分類の結果に基づいて、前記目標属性を有するサンプルデータの間の特徴距離を計算する距離計算ユニット;及び
    前記特徴距離に基づいて類似度閾値を設定する閾値設定ユニットをさらに含み、
    前記類似度計算ユニットは、さらに、前記類似度閾値に基づいて、前記目標データと前記類似データとの、前記目標属性についての類似度を更新する、訓練装置。
  8. 請求項に記載の訓練装置であって、
    前記訓練ユニットは、さらに、異なる前記類似度閾値に基づいて、反復(iteration)により、前記ネットワーク全体のモデルに対して訓練を行う、訓練装置。
  9. ディープラーニング分類モデルの訓練方法であって、
    目標データの目標属性に基づいて複数の関連属性を生成し、前記目標データの目標属性は、1つの訓練主幹に対応し、前記目標データの前記複数の関連属性は、複数の関連訓練分岐に対応し;
    前記目標データ及び訓練データ集合に基づいて類似データを生成し、前記類似データの目標属性は、1つの類似訓練分岐に対応し;
    前記訓練主幹、前記類似訓練分岐、及び複数の前記関連訓練分岐に対して、それぞれ、特徴抽出及び属性分類を含む訓練を行い;及び
    前記訓練の結果に基づいて、前記特徴抽出のパラメーター及び/又は前記属性分類のパラメーターに対して調整を行い、ネットワーク全体のモデルに対して訓練を行うことを含み、
    前記目標データの目標属性に基づいて前記複数の関連属性を生成することは、前記目標データにタグを増加させることで、前記複数の関連属性を取得し、
    前記目標データ及び前記訓練データ集合に基づいて前記類似データを生成することは、前記訓練データ集合のうちから複数のサンプルデータを選択することで、前記類似データを取得し、前記類似データ中の一部のサンプルデータの前記目標属性の値は、前記目標データ中の一部のサンプルデータの前記目標属性の値と同じである、訓練方法。
JP2018165140A 2017-09-07 2018-09-04 ディープラーニング分類モデルの訓練装置及び方法 Active JP7225614B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710798596.8 2017-09-07
CN201710798596.8A CN109472274B (zh) 2017-09-07 2017-09-07 深度学习分类模型的训练装置和方法

Publications (2)

Publication Number Publication Date
JP2019049975A JP2019049975A (ja) 2019-03-28
JP7225614B2 true JP7225614B2 (ja) 2023-02-21

Family

ID=65657599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018165140A Active JP7225614B2 (ja) 2017-09-07 2018-09-04 ディープラーニング分類モデルの訓練装置及び方法

Country Status (2)

Country Link
JP (1) JP7225614B2 (ja)
CN (1) CN109472274B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814514A (zh) * 2019-04-11 2020-10-23 富士通株式会社 号码识别装置、方法以及电子设备
CN110232403B (zh) * 2019-05-15 2024-02-27 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质
CN110866118B (zh) * 2019-10-31 2022-02-18 杭州电子科技大学 一种深度学习模型的超参数调优方法
CN111222553B (zh) * 2019-12-30 2023-08-29 广州方硅信息技术有限公司 机器学习模型的训练数据处理方法、装置和计算机设备
CN111222454B (zh) * 2020-01-03 2023-04-07 暗物智能科技(广州)有限公司 训练多任务目标检测模型、多任务目标检测的方法及系统
CN113143223A (zh) * 2021-01-05 2021-07-23 长春理工大学 一种边缘人工智能婴幼儿监测方法
JP2023068859A (ja) * 2021-11-04 2023-05-18 株式会社日立製作所 計算機システム及び装置条件の探索支援方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015186278A1 (ja) 2014-06-03 2015-12-10 日本電気株式会社 属性列挙システム、属性列挙方法および属性列挙プログラム
US20170032035A1 (en) 2015-07-28 2017-02-02 Microsoft Technology Licensing, Llc Representation Learning Using Multi-Task Deep Neural Networks
US20170132510A1 (en) 2015-11-05 2017-05-11 Facebook, Inc. Identifying Content Items Using a Deep-Learning Model

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679190B (zh) * 2012-09-20 2019-03-01 富士通株式会社 分类装置、分类方法以及电子设备
CN104699685B (zh) * 2013-12-04 2018-02-09 富士通株式会社 模型更新装置及方法、数据处理装置及方法、程序
CN106687993B (zh) * 2014-09-03 2018-07-27 北京市商汤科技开发有限公司 用于图像数据分类的设备和方法
EP3166025A1 (en) * 2015-11-05 2017-05-10 Facebook, Inc. Identifying content items using a deep-learning model
CN106355248A (zh) * 2016-08-26 2017-01-25 深圳先进技术研究院 一种深度卷积神经网络训练方法及装置
CN106503055B (zh) * 2016-09-27 2019-06-04 天津大学 一种从结构化文本到图像描述的生成方法
CN106502988B (zh) * 2016-11-02 2019-06-07 广东惠禾科技发展有限公司 一种目标属性抽取的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015186278A1 (ja) 2014-06-03 2015-12-10 日本電気株式会社 属性列挙システム、属性列挙方法および属性列挙プログラム
US20170032035A1 (en) 2015-07-28 2017-02-02 Microsoft Technology Licensing, Llc Representation Learning Using Multi-Task Deep Neural Networks
US20170132510A1 (en) 2015-11-05 2017-05-11 Facebook, Inc. Identifying Content Items Using a Deep-Learning Model

Also Published As

Publication number Publication date
CN109472274A (zh) 2019-03-15
JP2019049975A (ja) 2019-03-28
CN109472274B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
JP7225614B2 (ja) ディープラーニング分類モデルの訓練装置及び方法
Cheng et al. Cspn++: Learning context and resource aware convolutional spatial propagation networks for depth completion
Li et al. Cross-modal attentional context learning for RGB-D object detection
Lu et al. Rating image aesthetics using deep learning
Liang et al. Deep human parsing with active template regression
CN111133453B (zh) 人工神经网络
WO2019222401A2 (en) Gradient adversarial training of neural networks
WO2021103761A1 (zh) 化合物的性质分析方法、模型训练方法、装置及存储介质
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN109271958B (zh) 人脸年龄识别方法及装置
WO2019091402A1 (zh) 年龄预估方法和装置
CN110298926A (zh) 深度几何模型拟合
CN109034080A (zh) 多源域自适应的人脸识别方法
KR102046113B1 (ko) 신경망 학습 방법 및 그 장치
WO2022166797A1 (zh) 图像生成模型的训练方法、生成方法、装置及设备
WO2023088174A1 (zh) 目标检测方法及装置
CN115860091B (zh) 一种基于正交约束的深度特征描述符学习方法
CN116868206A (zh) 跨域自适应学习
Xie et al. Learning cycle-consistent cooperative networks via alternating MCMC teaching for unsupervised cross-domain translation
CN113361329B (zh) 一种基于实例特征感知的鲁棒单目标跟踪方法
US20220101122A1 (en) Energy-based variational autoencoders
Dornier et al. Scaf: Skip-connections in auto-encoder for face alignment with few annotated data
WO2022262337A1 (zh) 视频标注方法、装置、计算设备和计算机可读存储介质
Fu et al. Sign spotting via multi-modal fusion and testing time transferring
CN110647927A (zh) 一种基于acgan图像半监督分类算法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230123

R150 Certificate of patent or registration of utility model

Ref document number: 7225614

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150