JP2022063250A - SuperLoss:堅牢なカリキュラム学習のための一般的な損失 - Google Patents

SuperLoss:堅牢なカリキュラム学習のための一般的な損失 Download PDF

Info

Publication number
JP2022063250A
JP2022063250A JP2021165902A JP2021165902A JP2022063250A JP 2022063250 A JP2022063250 A JP 2022063250A JP 2021165902 A JP2021165902 A JP 2021165902A JP 2021165902 A JP2021165902 A JP 2021165902A JP 2022063250 A JP2022063250 A JP 2022063250A
Authority
JP
Japan
Prior art keywords
loss
task
computer
data sample
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021165902A
Other languages
English (en)
Other versions
JP7345530B2 (ja
Inventor
バインザエペル フィリップ
Weinzaepfel Philippe
ルボー ジェロム
Revaud Jerome
カステル ティボー
Castells Thibault
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022063250A publication Critical patent/JP2022063250A/ja
Application granted granted Critical
Publication of JP7345530B2 publication Critical patent/JP7345530B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 データプロセシングのタスクを遂行するように、神経網を訓練するためのコンピュータ具現方法400が提供される。【解決手段】 コンピュータ具現方法は、ラベル付けのデータサンプルのセットの各々のデータサンプルに対して、データプロセシングのタスクに対する第1の損失関数を用いて、データサンプルに対するタスク損失を算出するステップ430;タスク損失を第2の損失関数に入力して、データサンプルに対する第2の損失を算出するステップ440(第2の損失関数は、データサンプルに対して算出されたタスク損失に基づき、前記データサンプルの加重値を自動で算出して、神経網により予測されたデータサンプルのラベルの信頼度を推定する);及び、第2の損失を用いて、神経網の少なくとも一部の学習可能なパラメータをアップデートするステップ450を含む。【選択図】図1

Description

本開示は、カリキュラム(curriculum)学習を用いて神経網を訓練するための損失関数に関する。特に、本開示は、タスクと関連した損失に追加されるタスク-不特定的(task-agnostic)な損失関数を用いて、イメージプロセシングのようなタスクを遂行するように、神経網を訓練するための方法に関する。
カリキュラム学習は、人間や動物の学習過程からインスピレーションを得た技術である。核心になるアイディアは、人間がより複雑な概念の以前により単純な概念から自然に習得するように、難易度を増加させる順序で学習者(神経網)に訓練サンプルを提供することである。機械学習に適用される場合、カリキュラム学習は、本質的により難しいサンプルの以前に易しいサンプルをモデルに提示するようなサンプリング戦略(カリキュラム)を設計することになる。一般的に言えば、易しいサンプルは少数の訓練段階の後に神経網が良好な予測を行うサンプルであり、難しいサンプルは少数の訓練段階の後に神経網が不良な予測を行うサンプルである。付与されたサンプルの難易度を先験的に推定することは一般的に複雑であるが、最近の研究ではカリキュラム学習が自己教師あり方式(self-supervised manner)により動的に公式化できることが分かる。核心になるアイディアは、易しいサンプル及び難しいサンプルが異なるように挙動して分離可能であるという観察に基づき、訓練中に直接的に各々のサンプルの重要度(又は加重値)を何れかの方式により推定することである。
カリキュラム学習は、非特許文献1[Basu S.et al.(“Teaching Classification Boundaries to Humans”、AAAI、2013)]、非特許文献2[Bengio Y.et al.(“Curriculum Learning”、ICML、2009)]、非特許文献3[Hacohen G.et al.(“On the power of curriculum learning in deep networks”、ICML、2019)]、非特許文献4[Kahn F.et al.(“How do humans teach:On curriculum learning and teaching dimension”、NIPS、2011)]及び非特許文献6[Sheng G.et al.、“Curriculumnet:Weakly-supervised learning for large-scale web images”、ECCV、2018)]に係る初期研究等から、モデル性能及びその一般化能力を向上させるのに効果的であることが分かる。しかしながら、このような初期研究等では、順序が訓練前に決定されることで、固定式カリキュラム及び学習されるモデル間に潜在的な不一致が発生する恐れがある。
これを解決するために、非特許文献6[Kumar M.P.et al.(“Self-paced learning for latent variable models”、NIPS、2010)]は、学習者のペース(pace)に適応するように、カリキュラムが動的な方式により教師なしに構成されるSPL(self-paced learning)の概念を提案した。これは、易しいサンプル及び難しいサンプルが、訓練中に各々の損失側面から異なるように挙動して、何れかの方式によっても識別できるからである。これに関連して、カリキュラム学習は、訓練初期段階らにおいて、易しいサンプルにはより大きい加重値が付与され、難しいサンプルにはより小さい加重値が付与されるように、各々の訓練の繰り返しで各々のサンプルの容易性を加重値形態で予測することにより達成される。モデル一般化を改善する以外にも、このような類型の接近方式のもう一つの利点は、ノイズに対する抵抗性である。これが利点になる理由は、ノイズのあるサンプル(すなわち、エラーラベルのあるサンプル)がモデル化し難しくなる傾向により、訓練の全般にわたってより小さい加重値を受けて效果的に捨てられるからである。そのような副作用にも拘わらず、ノイズのあるデータが広く利用可能かつ低廉である一方で、クリーン(clean)な注釈付けのデータが高価である場合、このような方法が特に効果的である。
ところで、自動カリキュラム学習のための既存の接近方式等は、その適用可能性を大きく制限する2つの重要な短所を持つ。第一に、現在の方法等は、前述した原理らが一般的かつ潜在的に他のタスクに適用され得るにも拘わらず、分類のタスクに圧倒的に集中及び専門化している点である。第二に、当該方法等は、全部訓練手順の重要な変更を必要とし、度々特別な準備期間があったりなかったりするマルチステージ訓練、追加の学習可能なパラメータ及びレイヤー又はデータのクリーンなサブセット(subset)が含まれた専用訓練計画を必要とする点である。
本明細書において、信頼度-認識(confidence-aware)損失関数として称する一種の損失関数等が、最近に多様なタスク及び背景に導入された。データセット
Figure 2022063250000002
を考慮するが、ここで、サンプルxはラベルyを有し、f()を経験的リスク最小化と関連して最適化するための訓練可能な予測変数とする。損失l(f(x),y)の形式の既存損失関数等と比較した時、信頼度-認識損失関数等は、サンプル信頼度
Figure 2022063250000003
を示す追加の学習可能なパラメータを入力として用いる。したがって、信頼度-認識損失関数等は
Figure 2022063250000004
のように表される。
信頼度-学習属性は信頼度-認識損失関数の形状のみに依存し、これは2つの属性に要約される:(a)正確に予測されたサンプルは高信頼度を持つように造成され、不正確に予測されたサンプルは低信頼度を持つように造成され、(b)低信頼度での損失はほぼ一定である。換言すれば、信頼度-認識損失関数は、各々のサンプルの損失をその信頼パラメータと関連して調節する。このような属性は動的カリキュラム学習と関連して特に興味深いが、その理由は、それらが学習手順の追加の修正なしに逆伝播を通じて各々のサンプルの信頼度、すなわち加重値を自動で学習させるからである。
これは、修正された信頼度-認識交差-エントロピー(cross-entropy)損失を用いた分類のタスクに関する非特許文献7[Saxena S.et al.(“Data parameters:a new family of parameters for learning a differentiable curriculum”、NeurIPS、2019)]により最近わかった所である。結果として、標準確率的勾配降下法(standard stochastic gradient descent)により、網パラメータ及び信頼パラメータを共同で最小化すれば、信頼パラメータを通して各々の予測の信頼度(reliability)、すなわち各々のサンプルの難易度を正確に推定できる。修正された交差-エントロピー損失は、分類のために、交差-エントロピー損失の緩和されたバージョンを導入し、ここでサンプル従属温度がソフトマックスを計算する前にロジット(logit)をスケーリングする。
Figure 2022063250000005
ここで、
Figure 2022063250000006
は付与されたサンプルに対するロジットら(Cはクラスの数)、
Figure 2022063250000007
はその正解(ground-truth)クラス、及び、
Figure 2022063250000008
はその信頼度(すなわち、温度の逆数)である。興味深いことに、その損失は信頼度が無限大になる傾向がある場合に堅牢な0-1損失(すなわち、階段関数)に変換される。
Figure 2022063250000009
σが爆発することを防止するために、λlog(σ)と同一の正規化項が損失に追加される。修正された交差-エントロピー損失は、分類の場合はよく処理するが、以前に提案された信頼度-認識損失等のように他のタスク等に一般化し難い。
また他の信頼度-認識損失関数として、異なるクラスインスタンス間のキーポイントマッチングと関連して導入された、自己反省損失(introspection loss)がある(非特許文献8[Novotny D.et al.、“Self-supervised learning of geometrically stable features through probabilistic introspection”、CVPR、2018])。これは、最初の公式から以下のようにより簡潔な形式に再度表される。
Figure 2022063250000010
ここで、
Figure 2022063250000011
はそれらの表現間のドット積(dot-product)で算出された2つのキーポイント間の類似性点数であり、
Figure 2022063250000012

はそのペア(pair)に関する正解ラベルであり、σ>0は2つのキーポイントの信頼度に対する入力従属的予測である。その損失は、二進ラベルを用いて[0、1]範囲の類似性点数を処理するように特別に設計されたので、他のタスク等に一般化し難いことに留意する。
R2D2の信頼度損失(非特許文献9[Revaud J.et al.、“R2D2:Reliable and repeatable detector and descriptor”、NeurIPS、2019])が、堅牢なパッチ検出及び説明と関連して導入された。R2D2の信頼度損失は、網の入力従属的出力であったその信頼度(すなわち、表現の品質に対する信頼点数)と共に、パッチ表現を共同で学習する役割を果たす。これは以下のように公式化する。
Figure 2022063250000013
ここで、zはパッチ記述子、yはそのラベル及び
Figure 2022063250000014

はその信頼度を表す。パッチに対する点数は、微分可能な平均-精密度(Average-Precision、AP)の側面から損失として算出される。しかしながら、このような信頼度-認識損失関数の公式は2つの短所を持つ。第一に、信頼度σが制約のない変数ではないので(0及び1間で境界付けられる)、実際に回帰し難い点である。第二に、正規化の欠如により、最適の信頼度は実際にAP(z、y)<0.5の成立可否によって0又は1である点である。換言すれば、付与された固定のAP(z、y)<0.5に対してσ=0に設定することにより損失が最小化し、その反対も同様であるが、つまり、これは信頼度が極限値を受取るようにだけ助長する。
マルチタスク損失(非特許文献10[Kendall A.et al.、“Multi-task learning using uncertainty to weigh losses for scene geometry and semantics”、CVPR、2018])は、マルチタスクに関連して各々の損失の相対的な加重値を自動で学習するためのスキーム(scheme)である。直観的に、網予測を網出力及び制御されない等分散不確実性に依存する確率関数としてモデリングする。次いで、最大尤度推論(maximum likelihood inference)のように、モデルの対数尤度(log likelihood)が最大化する。これは、関連した不確実性{σ1,...,σ}(すなわち、逆信頼度)及びいくつかのタスク損失{l1,...、l}によって定義された以下のような最小化目的につながる。
Figure 2022063250000015
実際に、信頼度はσ>0を保証するように、指数マッピングs=logσにより学習される。このような接近方式は、タスク損失(task loss)がポジティブ(positive)であり、最小値
Figure 2022063250000016

を持つという暗示的な仮定をするが、これは一般的に保証されないことに留意する。タスク損失の一つがネガティブ(negative)である場合、何も実際にマルチタスク損失が-∞まで増加するのを防止することができない。
ノイズのあるデータに対する学習は、ノイズのあるサンプルの固有の困難によって前記技術と密接に関連したことである。これに関連してカリキュラム学習は、難易度に基づいてサンプルの加重値を自動で低下させてノイズのあるサンプルを效果的に捨てるため、最適であると判明された。例えば、非特許文献11[Lyu Y.et al.(“Curriculum loss:Robust learning and generalization against label corruption”、ICLR、2020)]のカリキュラム損失は、より大きい損失を持つノイズのあるサンプルを回避しながら、モデル訓練のためのサンプルを適応的に選択する。
カリキュラム損失と厳密に関連のないが、類似の原理を活用した一連のタスクが提案された。O2U-Net(非特許文献12[Jinchi H.et al.、“O2U-Net:A simple noisy label detection approach for deep neural networks”、ICCV、2019])は、学習率を変化させながらそれらの損失をモニターリングして、正しいサンプルをノイズのあるサンプルから区別する。非特許文献13[Arazo E.et al.(“Unsupervised label noise modeling and loss correction”、ICML、2019)]及び非特許文献14[Li J.et al.(“Dividemix:Learning with noisy labels as semi-supervised learning”、ICLR、2020)]は、訓練データをクリーンセット及びノイズのあるセットに動的に分類するのに用いられる二重モード混合モデルを用いて、サンプル当たり損失分布をモデリングする。ノイズのあるサンプルのメモリ化を防止するために、アンサンブル方法が人気がある。例えば、SELF(非特許文献15[Nguyen Duc T.et al.、“SELF:learning to filter noisy labels with self-ensembling”、ICLR、2019])は、各々のエポック(epoch)ごとにサンプルを易しいものから難しいものに逐次フィルターリングし、これはカリキュラム学習と認められる。Co-teaching(非特許文献16[Han B.et al.、“Co-teaching:Robust training of deep neural networks with extremely noisy labels”、ICCV、2019])及び類似の方法等は、メモリ化を回避するために、ノイズのあるサンプルに関する情報を交換する2つの半独立的網を訓練する。しかしながら、このような接近方式は、付与されたタスク(例えば、分類)のために特別に開発され、他のタスクに一般化し難い。また、これらは面倒になるかも知れない専用訓練手順が必要である。
したがって、従来技術の接近方式等は、一般に特定のタスク(例えば、分類)に制限され、追加データ注釈、レイヤー又はパラメータだけでなく、専用訓練手順を必要とする。
従来技術の短所を克服するシンプルで一般的な損失関数を提供することが望ましい。特に、神経網により予測されたデータサンプルラベルの信頼度を推定するために損失関数を提供することが望ましく、損失関数は、任意の損失に応じて任意のタスクに適用でき、任意の数のサンプルにスケールアップ(scale-up)でき、学習手順の修正が不要であり、追加データパラメータに対する必要性がない。
国際公開番号WO2019/099305
Basu S.et al.("Teaching Classification Boundaries to Humans"、AAAI、2013) Bengio Y.et al.("Curriculum Learning"、ICML、2009) Hacohen G.et al.("On the power of curriculum learning in deep networks"、ICML、2019) Kahn F.et al.("How do humans teach:On curriculum learning and teaching dimension"、NIPS、2011) Sheng G.et al.、"Curriculumnet:Weakly-supervised learning for large-scale web images"、ECCV、2018) Kumar M.P.et al.("Self-paced learning for latent variable models"、NIPS、2010) Saxena S.et al.("Data parameters:a new family of parameters for learning a differentiable curriculum"、NeurIPS、2019) Novotny D.et al.、"Self-supervised learning of geometrically stable features through probabilistic introspection"、CVPR、2018 Revaud J.et al.、"R2D2:Reliable and repeatable detector and descriptor"、NeurIPS、2019 Kendall A.et al.、"Multi-task learning using uncertainty to weigh losses for scene geometry and semantics"、CVPR、2018 Lyu Y.et al.("Curriculum loss:Robust learning and generalization against label corruption"、ICLR、2020) Jinchi H.et al.、"O2U-Net:A simple noisy label detection approach for deep neural networks"、ICCV、2019 Arazo E.et al.("Unsupervised label noise modeling and loss correction"、ICML、2019) Li J.et al.("Dividemix:Learning with noisy labels as semi-supervised learning"、ICLR、2020) Nguyen Duc T.et al.、"SELF:learning to filter noisy labels with self-ensembling"、ICLR、2019 Han B.et al.、"Co-teaching:Robust training of deep neural networks with extremely noisy labels"、ICCV、2019
本明細書では、学習手順での任意の変更なしに多様な損失及びタスクに適用できるシンプルで一般的な方法が記述される。
これは、任意の既存のタスク損失に加えて、一般の損失関数を追加することからなるので、その名称をSuperLoss(スーパーロス)とする。SuperLossの主要な効果は、損失の大きいサンプル(すなわち、難しいサンプル)の寄与度に対し、自動で加重値を低下させてカリキュラム学習の核心原則を效果的に摸倣することである。SuperLossは、ノイズのあるサンプルのメモリ化を防止するので、非堅牢な損失関数を用いてもノイズのあるデータから訓練できる。
SuperLossは、特に、訓練データがノイズによって損傷された場合、より良い性能を発揮する訓練モデルを許容する。これは、大規模のデータセットを構築するのに必要であり、以前には高性能に到達するために不可避であると考えられた莫大な注釈付けの努力を考慮する時に非常に有利である。大規模のデータセットに注釈を付けることは、財政的な側面及びそれに従う所要時間により、新たな事業への進入において実質的な障壁になり得る。対照的に、ノイズのあるデータセットは、少ない費用で大規模でウェブから自動で収集できる。
一実施例において、データプロセシングのタスクを遂行するように、神経網を訓練させるためのコンピュータ具現方法が提供される。方法は、ラベル付けのデータサンプルのセットの各々のデータサンプルに対して、データプロセシングのタスクに対する第1の損失関数を用いて、データサンプルに対するタスク損失を算出するステップ;タスク損失を第2の損失関数に入力して、データサンプルに対する第2の損失を算出するステップ(第2の損失関数は、データサンプルに対して算出されたタスク損失に基づき、データサンプルの加重値を自動で算出して、神経網により予測されたデータサンプルのラベルの信頼度を推定する);及び、第2の損失を用いて、神経網の少なくとも一部の学習可能なパラメータをアップデートするステップを含む。データサンプルは、イメージサンプル、ビデオサンプル、テキストコンテンツサンプル及びオーディオサンプルの一つであり得る。
データサンプルのタスク損失に基づいてデータサンプルに対するデータサンプルの加重値が自動で決定されるため、方法は、信頼パラメータが収束するまで待機する必要がないという利点を提供するが、これは、訓練方法がより速く収束するということを意味する。
一態様によれば、データサンプルに対して算出されたタスク損失に基づき、データサンプルの加重値を自動で算出するステップは、タスク損失が閾値未満の場合、データサンプルの加重値を増加させるステップ、及び、タスク損失が閾値超過の場合、データサンプルの加重値を減少させるステップを含むことができる。
一態様によれば、閾値は、タスク損失の移動平均又は固定の平滑化パラメータを持つタスク損失の指数移動平均を用いて算出される。
一態様によれば、第2の損失関数は、タスク損失及び閾値の差に基づいた損失増幅項を含むことができる。
一態様によれば、第2の損失関数は、min{l-τ、λ(l-τ)}で表され、ここで0<λ<1であり、lはタスク損失であり、τは閾値であり、λは第2の損失関数のハイパーパラメータ(Hyperparameter)である。
一態様によれば、方法は、タスク損失に基づいてデータサンプルの信頼値を算出するステップをさらに含むことができる。タスク損失に基づいてデータサンプルの信頼値を算出するステップは、タスク損失に対する第2の損失関数を最小化する信頼パラメータの値を決定するステップを含むことができる。信頼値は、
Figure 2022063250000017
によって変化することができ、ここでlはタスク損失であり、τは閾値であり、λは第2の損失関数の正規化ハイパーパラメータである。損失増幅項は、σ(l-τ)σで表され、ここでσは信頼値である。
したがって、信頼値は、効率的な閉形式解(closed form solution)を用いて、各々のデータサンプルに対して決定されるので、方法は、非常に簡単であり、より効率的である。
一態様によれば、第2の損失関数は、λ(logσで表される正規化項を含み、ここでσは信頼値である。
一態様によれば、第2の損失関数は、
Figure 2022063250000018
で表され、ここでσは信頼パラメータであり、lはタスク損失であり、τは閾値であり、λは第2の損失関数のハイパーパラメータである。
一態様によれば、第2の損失関数は、タスク損失に対して単調に増加する凹関数であり得る。
一態様によれば、第2の損失関数は同次関数であり得る。
一様態によれば、データプロセシングのタスクを遂行するために、前記方法によって訓練される神経網が提供される。データプロセシングのタスクは、イメージプロセシングのタスクであり得る。イメージプロセシングのタスクは、分類、回帰、物体検出及びイメージ検索の一つであり得る。
一態様によれば、一つ以上のプロセッサにより実行される際、前記方法を遂行するコンピュータ実行可能な命令語が保存されるコンピュータ読み取り可能な記憶媒体が提供される。
一態様によれば、プロセシング回路を含む装置が提供され、プロセシング回路は前記方法を遂行するように構成される。
添付図面は、実施例の原理を説明するために本明細書に統合されてその一部を形成する。図面は、それらがどのように示されて使用されるかに対する例示及び記述された実施例のみで制限するものと解析してはならない。追加の特徴及び利点は、添付図面に例示されたように、以下の実施例の説明及びより具体的な部分で明白になる。
本発明に係る技術を用いて訓練される神経網を例示するブロック図である。 訓練の間に易しいサンプル及び難しいサンプルにより生成された損失を示すプロットである。 訓練の間に易しいサンプル及び難しいサンプルにより生成された損失を示すプロットである。 正規化した入力損失の関数としてSuperLossを示すプロットである。 SuperLoss関数を用いて神経網を訓練する方法を示すフローチャートである。 MNISTデータセットに対する数字回帰及びUTKFaceデータセットに対する人間年齢回帰に対する回帰のタスクの平均絶対誤差を示すプロットである。 訓練の間に正規化した信頼値の変化を示すプロットである。 ノイズ比率の関数としてCIFAR-10及びCIFAR-100のデータセットに対する損失関数の正確度を示すプロットである。 異なるノイズ比率に対する正規化パラメータの影響を示すプロットである。 Faster R-CNNと共に物体検出のためにSuperLossを使用する場合のPascal VOCにおいてAP50を示すプロットである。 RetinaNetと共に物体検出のためにSuperLossを使用する場合のPascal VOCにおいてAP50を示すプロットである。 ノイズのあるランドマーク-フル(Landmarks-full)データセットに対して訓練する間のモデル収束を示すプロットである。 開示の方法等が遂行できるアーキテクチャーの例を示す図である。
本明細書では、カリキュラム学習を用いて神経網を訓練するための技術について記述する。特に、任意のタスクに容易に適用可能な一般化した損失関数であるSuperLoss関数が記述される。説明を目的とし、記述された実施例等の完全な理解を提供するために多くの例及び特定の詳細事項が提示される。請求の範囲により定義されたような実施例等は、これらの例の特徴の一部又は全部を単独に、或いは、後述する他の特徴と組み合わせて含むことができ、本明細書に記述された特徴や概念の修正及び同等物をさらに含むことができる。例示された実施例等は、類似の要素及び構造が類似の参照番号で表示される図面を参照して記述される。また、実施例が方法である場合、方法の段階及び要素は並列又は順次実行で組合わせることができる。これらが矛盾しない限り、以下で記述される全ての実施例は互いに組合わせることができる。
図1は、SuperLossを用いた神経網の訓練を例示するブロック図である。神経網はラベル付けのデータサンプルのセット
Figure 2022063250000019

を入力として受信するように構成され、ここで、サンプルxはラベルyを有し、神経網に入力される。ラベル付けのデータサンプルのセットは、ラベル付けのサンプルイメージのセット、ラベル付けのテキスト文書のセット、及びラベル付けのオーディオコンテンツのセットの一つであり得る。
神経網は、各々のデータサンプルをプロセスして、各々のデータサンプルに対する予測を生成するように構成される。神経網が遂行するように訓練されたタスクに対応する損失関数(本明細書において第1の損失関数とも称する)は、網により出力された予測及びデータサンプルに対する目標値間の誤差を示す。例えば、教師あり学習(supervised learning)において、神経網はデータサンプルのラベルに対する予測を生成する。次いで、各々のデータサンプルに対して予測されたラベルは、データサンプルの正解ラベルと比較される。正解ラベル及び予測されたラベル間の差は、神経網により出力されたタスク損失である。
公知の神経網等において、タスク損失は、逆伝播を用いて神経網の学習可能なパラメータの少なくとも一部をアップデートするのに使用される。しかしながら、図1に示すように、第2の損失関数(本明細書においてSuperLoss関数とも称する)は、神経網のタスク損失に追加される。SuperLoss関数の役割は、訓練中に各々のデータサンプルのタスク損失をモニターリングし、カリキュラム学習の核心原理を適用してサンプル寄与度を動的に自動で決定することである。SuperLoss関数は、易しいサンプル(小さいタスク損失を持つサンプル)の加重値を増加させ、難しいサンプル(大きいタスク損失を持つサンプル)の加重値を減少させなければならない。すなわち、SuperLoss関数は、データサンプルに対して算出されたタスク損失に基づいてデータサンプルの加重値を算出して、神経網により予測されたデータサンプルのラベルの信頼度を推定する。
SuperLoss関数はタスク-不特定的であり、これは訓練手順において何の変更なしにタスク損失に適用され得ることを意味する。したがって、神経網は、データサンプルをプロセシングするのに適合した対応の損失関数を有する任意の類型の神経網であり得る。例えば、神経網は、イメージ分類、回帰、物体検出及びイメージ検索などのようなイメージプロセシングのタスクを遂行するように訓練できる。神経網は、自然言語プロセシングやコンテンツ推薦などのように、モデルを訓練するために機械学習に依存する他の領域でタスクを遂行するのに適合することができる。
SuperLoss関数は、実用的かつ一般的な考慮事項に基づいて定義される。小さい損失を持つサンプルの加重値は増加し、大きい損失を持つサンプルの加重値は減少しなければならない。
より具体的に、SuperLoss関数に対する要求事項は、SuperLoss関数が、難しいサンプル(予測損失が閾値超過である)に対する損失を強力に平坦化する一方で、易しいサンプル(予測損失が閾値未満である)に対する補償(すなわち、ネガティブ損失)を増幅する、単調に増加する凹関数のことである。すなわち、l≧lの場合、SL(l)≧SL(l)である。単調に増加する属性は、l≧lの場合、数学的にSL(l)≧SL(l)で表される。より大きい入力損失を持つサンプルよりも、より小さい損失を持つサンプルを強調するという事実は、l≧lの場合、SL*’(l)≦SL*’(l)のように表され、ここでSL*’は導関数である。
選択的に、SuperLoss関数は同次関数であり得、これは、それが任意の付与された範囲の入力損失を処理することで、任意の種類のタスクが処理できることを意味する。より具体的に、これは、入力損失及び正規化パラメータの全部が同一の因子γでスケーリングされる場合、SuperLossの形態が一定のスケーリング因子γ>0まで正確に同様に維持されることを意味する。すなわち、任意の付与された振幅の入力損失を受容するように、正規化パラメータ及び学習率をそれによってスケーリングすることで充分である。
一実施例によれば、SuperLoss関数は、一つの入力、神経網のタスク損失を受取る。これは、サンプル信頼度を示す追加の学習可能なパラメータを入力として受取る従来技術の信頼度-認識損失関数等と対照される。各々のサンプルデータ項目に対して、SuperLoss関数は、データサンプルに対するタスク損失によってデータサンプルの加重値を算出する。SuperLoss関数は、神経網の少なくとも一部の学習可能なパラメータをアップデートするために、逆伝播に用いられる損失(本明細書において第2の損失及びSuperLossとも称する)を出力する。
SuperLossは、ハイパーパラメータλ≧0により制御される損失増幅項及び正規化項からなり、以下のように表される。
Figure 2022063250000020
ここで、lは神経網のタスク損失であり、τはそれらの各々の損失に基づいて易しいサンプル及び難しいサンプルを区分する閾値であり、λは正規化ハイパーパラメータである。閾値τは、タスクに対する事前知識に基づいて固定されるか、或いは、各々のデータサンプルに対して算出される。例えば、閾値は、入力損失の移動平均又は固定の平滑化パラメータを持つタスク損失の指数移動平均を用いて決定され得る。
一部の実施例において、SuperLoss関数は、各々のデータサンプルと関連した信頼値を考慮する。二つの入力、すなわちタスク損失l(f(x)、y)及びサンプル信頼度を示す信頼パラメータσを受取る信頼度-認識損失関数は、以下のように表される。
Figure 2022063250000021
しかしながら、SuperLossにおいて、従来技術の信頼度-認識損失関数等と対照的に、信頼パラメータσは学習されず、代わりにサンプルの各タスク損失から各々のサンプルに対して自動で推論される。したがって、信頼パラメータσの収束を待機する代わりに、SuperLossは、タスク損失lのみに依存する収束の値
Figure 2022063250000022
を直接利用する。その結果、信頼パラメータσがサンプル状態に対して最適化及び最新状態である必要がなくなり、SuperLossが全的にタスク損失に依存することになる。
Figure 2022063250000023
最適の信頼度σ(l)は、付与されたタスク損失lに対するSL(l、σ)を最小化する信頼値σ(l)を検索して算出された閉形式解を有する。結果として、SuperLossは、任意の範囲(又は振幅)のタスク損失が処理できることを意味し、すなわち、λを適切に設定しさえすればよい。
したがって、各々の訓練サンプルに対してSuperLossが付与される。
Figure 2022063250000024
ここで、タスク損失l及び信頼度σは、個別訓練サンプルに対応する。σ>0を保証するために指数マッピングσ=eが利用される。信頼度のための指数マッピングを用いて、式が以下のように再度表される。
Figure 2022063250000025
ここで、
Figure 2022063250000026
であり、σ=eである。
最小化する関数は、二つの凸関数の和であるから、β≧0の場合に大域的な最小値を許容する。そうでないと、ネガティブ指数項によりx→+∞のとき、-∞に向けて発散する。しかしながら、β0<β<0であり、
Figure 2022063250000027
のとき、関数は
Figure 2022063250000028
(以下を参照)に位置した単一ローカル最小値を許容し、これは初期にσ=1(x=0)から開始して極小変位らにより継続移動すると仮定するとき、信頼度が収束する値に対応する。それが存在する場合(すなわち、β<βのとき)、最小値の位置は導関数を解いて付与される。
Figure 2022063250000029
これは、形式z=yeの数式であり(このとき、
Figure 2022063250000030
解に対してy=W(z)を有する公知の問題であって、ここで、WはランベルトW関数(Lambert W function)を意味する。β<βの場合、xに対する閉形式によって一般的に以下のように表される。
Figure 2022063250000031
ランベルトW関数が単調に増加することで、最小値は、β≧0の場合に
Figure 2022063250000032
に位置し、β<β<0の場合に
Figure 2022063250000033

に位置する。ランベルトW関数は、初等関数らで表現できないが、大部分の現代数学ライブラリーらで具現される(例えば、パイソン(python)においてscipy.special.lambertwで利用可能である)。例えば、関数の予め計算された区分的近似(piece-wise approximation)が用いられ、これは、grid_sample()関数を用いてPyTorchのGPUで容易に具現できる。β≦βの場合に、最適の信頼度は
Figure 2022063250000034
で制限される。要約すれば、以下の通りである。
Figure 2022063250000035
したがって、最適の信頼度σ(l)は、比率
Figure 2022063250000036
のみに依存する閉形式解を有する。
SuperLossは、λが無限大になるとき、本来の入力損失と同一になる。数34の結果により以下のように表される。
Figure 2022063250000037
したがって、
Figure 2022063250000038
τは常数と見なされるため、SuperLossは、極限での入力損失lと同一である。
σが比率
Figure 2022063250000039
(数34を参照)のみに依存するという事実、及び、τがlの移動平均で計算されるため、lに比例すると仮定すれば、以下の通りである。
Figure 2022063250000040
自然に以下がつながる。
Figure 2022063250000041

すなわち、SuperLossは同次関数、すなわち、
Figure 2022063250000042
である。
前述したように、予測損失から各々のサンプルの信頼度を自動で推論することは、逆伝播を通じて各々のサンプルの信頼度を学習することよりも、多くの利点を提供する。第一に、サンプル当たり追加の学習可能なパラメータが不要になるが、これは、SuperLossはサンプルの数がほとんど無限であり得るタスク等に対してスケーリングできることを意味する。第二に、信頼度を学習すれば自然に遅延(すなわち、時間収束)が発生し、サンプルの実際状態及び各々の信頼度間に潜在的な不一致が発生する。これは、(a)SL(l、σ)(点線等)を用いて逆伝播を通じて学習されるときにそれらの各々の信頼度、及び、(b)それらの最適の信頼度σ(一般線)を示す図2aと、訓練の間に易しいサンプル及び難しいサンプルにより生成された典型的な損失を示す図2bとにより例示される。最適の信頼度の利用とは対照的に、信頼度の学習は、サンプルが容易になる瞬間(その損失がτ以下に通過する)と、その信頼度が1より大きくなる瞬間との間に相当な遅延を誘発する。第三に、学習率及び加重値の減衰のような専用最適化のための基準線接近方式上に多様なハイパーパラメータを追加する。
図3は、正規化した入力損失l-τの関数であって、SuperLoss
Figure 2022063250000043
を例示し、この公式が前述した要求事項を充足させることを示す。各々の曲線は、正規化ハイパーパラメータλの異なる値に対応する。
信頼度が公式に介入する方式に関係なく、SuperLoss関数の主要な属性は、網パラメータに対する損失勾配が信頼度と共に単調に増加しなければならず、他の全てのパラメータは固定で維持されなければならないことである。例えば、スケールパラメータに対する対数正規分布(log-normal prior)として作用する数23の(logσ
Figure 2022063250000044
項は異なる分布に代替できる。また他の可能性は、本来の損失が一つの混合成分の対数尤度であり、第2の成分がノイズを(例えば、ラベルに対する均一な分布として)モデリングする、混合モデルを使用することである。
前述したように、SuperLoss及び従来技術のカリキュラム損失間には、いくつかの重要な差異点がある。第一に、SuperLossは、最も低い水準の各々のサンプルに対して個別的に適用される。第二に、SuperLossには、SuperLossが訓練セット内の異なる振幅及び異なる水準のノイズの損失が処理できるようにする追加の正規化項λが含まれる。最後に、SuperLossは、損失の範囲及び最小値を仮定しないので、動的閾値及び正規化に対する信頼度の二乗対数が導入できる。信頼度は、SuperLossにおいてサンプル損失の加重値に直接的に対応するので、容易に解析できる。しかしながら、信頼度及びサンプル加重値間の関係は、従来技術の信頼度-認識損失に対して必ずしも明白ではない。
図4は、前述したSuperLoss関数を用いて神経網を訓練する方法400を示すフローチャートである。ステップ410、420において、神経網によりプロセスされるデータサンプルのバッチ(batch)が獲得され、バッチはランダムに選択された多数のデータサンプルを含む。
次いで、ステップ430において、神経網は、神経網により遂行されるタスクに対応する第1の損失関数を用いてタスク損失を算出する。タスク損失は、バッチの各々のデータサンプルに対する予測誤差に対応する。神経網はタスク損失を出力し、次いで、第2の損失関数(SuperLoss関数)に入力される。タスク損失に基づき、SuperLoss関数は、バッチの各々のデータサンプルに対する第2の損失(SuperLoss)を計算する(ステップ440)。SuperLoss関数は、各々のデータサンプルと関連したタスク損失に基づいて各々のデータサンプルの加重値を算出する。具体的に、前述したように、タスク損失が閾値未満の場合にデータサンプルの加重値が増加し、タスク損失が閾値超過の場合にデータサンプルの加重値が減少する。
一部の実施例において、前述したように、SuperLoss関数を算出することは、各々のデータサンプルに対するタスク損失に基づいて信頼パラメータσの値を算出することを含むことができる。信頼パラメータの値を計算することは、データサンプルと関連したタスク損失に対するSuperLoss関数を最小化する信頼パラメータの値を決定することを含む。
バッチ内に非選択のデータサンプルがないと決定される場合、SuperLoss関数により第2の損失が出力される。ステップ450において、第2の損失は、神経網の学習可能なパラメータの少なくとも一部をアップデートするのに用いられる。
ステップ460において、神経網によりプロセスされるデータサンプルのより多くのバッチがあるかに対する決定が行われる。データサンプルの非選択のバッチが残っている場合、方法は他のバッチが獲得されるステップ420に帰る。ラベル付けのデータサンプルのセットは、固定されたエポックNでプロセスされ、セットのデータサンプルの各々は各々のエポックで一回ずつ選択及びプロセスされる。データサンプルの全てのバッチがプロセスされた場合、ステップ470において、N回のエポックが遂行されたか否かに対する決定が行われる。N回未満のエポックが遂行された場合、方法はステップ420に帰る。N回のエポックが遂行された場合、ステップ480において訓練が終了される。
このようなステップにおいて、神経網が訓練され、訓練された神経網はテストされることができ、一般的な方式では見えないデータをプロセスするのに用いられる。
アプリケーション等
前述したように、SuperLoss関数は、多様なタスクを遂行するように神経網を訓練するのに用いられるタスク-不特定的な損失関数である。一部の実施例において、神経網は、分類、回帰、物体検出及びイメージ検索のようなイメージプロセシングのタスクを遂行するように訓練される。
分類:交差-エントロピー損失(CE)は、SuperLoss
Figure 2022063250000045

に直接プラグイン(plug in)が可能である。閾値τは固定され、τ=ぉgCに設定でき(ここで、Cはクラスの数)、均一な予測の交差-エントロピーを示すので、正確な予測及び不正確な予測間の自然な境界を示す。
回帰:smooth-LI損失(smooth-l)又はMSE(Mean-Square-Error)損失lのような回帰損失lregはSuperLossにプラグインが可能である。回帰損失に対する値の範囲はCE損失のものと大きく異なるが、λにより制御される正規化項のおかげでSuperLossの場合に問題とならない。
物体検出:SuperLossは、2つの物体検出フレームワーク、Faster R-CNN(文献[Shaoquing R.et al.、“Faster R-CNN:Towards real-time object detection with region proposal networks”、NIPS、2015])及びRetinaNet(文献[Lin、T.Y.et al.、“Focal Loss for dense object detection”、ICCV、2017])の箱分類成分に適用される。Faster R-CNN分類損失は、SuperLossがSL CEにプラグされた標準交差-エントロピー損失lCEである。RetinaNet分類損失は、クラス均衡焦点損失(FL)、
Figure 2022063250000046
であり、ここでpはロジットz=f(x)に対するソフトマックスから得た各々の箱に対して網により予測された確率等である。分類と対照的に、物体検出は、一般的に莫大な数のネガティブ検出を処理するが、このために個別信頼度を保存又は学習することが実行不可能である。サンプル当たり別途の加重値を学習する接近方式等と対照的に、本明細書における方法は、それらの損失でだけ直ちにポジティブ及びネガティブの検出の信頼度を推定する。
検索/メトリック学習:SuperLossは、対照損失を用いたイメージ検索に適用される(文献[Hadsell R.et al.、“Dimensionality reduction by learning an invariant mapping”、CVPR、2006])。この場合、訓練セット
Figure 2022063250000047
は、ポジティブ的(yij=1)又はネガティブ的(yij=0)にラベル付けのサンプルのペアからなる。目標は、ポジティブペアが近くある一方で、ネガティブペアが遠くあるような潜在表現を学習することである。対照損失は、2つの損失、ポジティブペアyij=1に対する
Figure 2022063250000048
及びネガティブペアyij=0に対する
Figure 2022063250000049

からなり、ここでm>0はマージンである。ポジティブペアに対するヌル(null)マージンは、一般的に仮定される(文献[Radenovic F.et al.、“Fine tuning cnn image retrieval with no human annotation”、IEEE trans.PAMI、2018]、ここで[]はポジティブ成分を示す)。SuperLossは、2つの損失の各々に加えて適用され、すなわち、2つの独立的な閾値τがあるが、単純性のために相変らず同一の正規化パラメータλを共有する。
Figure 2022063250000050
トリプレット(triplet)損失のような他のメトリック学習損失にも同様の戦略が適用される(文献[Weinberger K.Q.et al.、“Distance metric learning for large margin nearest neighbor classification”、JMLR、2009])。物体検出の場合、各々のサンプルの重要性を明示的に学習又は推定する従来技術の接近方式等はメトリック学習に適用できないが、その理由は、(a)潜在的なペア又はトリプレットの数が大き過ぎてメモリにそれらの加重値を保存し難しくなり;(b)各々のエポックでそれらの中で小さな部分だけが見え、これは充分な証拠の蓄積を妨害するためである。
実験結果等
前述された接近方式が、クリーンデータセット及びノイズのあるデータセットに適用される際に、一貫した利得が得られるという経験的証拠が以下に提示される。結果等が数3に表されるSuperLoss関数に対して示されている。特に、ノイズのあるデータ(ウェブから自動で収集される大規模のデータセットの一般的な場合)から訓練する場合、大きい利得らが観察される。
実験プロトコル
本来のタスク損失で訓練された神経網モデルを基準線として称する。プロトコルは、まず基準線を訓練し、各々のノイズ水準に対するヘルド-アウト検証(held-out validation)を用いてハイパーパラメータ(例えば、学習率や加重値の減衰等)を調整することである。基準線及びSuperLoss間の公正な比較のために、モデルは同一のハイパーパラメータを持つSuperLossで訓練される。大部分の従来技術等と異なり、特別なウォーミングアップ期間やその他のトリックが不要である。SuperLossに特定のハイパーパラメータ(正規化λ及び損失閾値τ)は、ヘルド-アウト検証又は交差検証を用いて固定又は調整される。より具体的に、τに対する3つのオプション、(1)当面のタスクに関する事前知識により付与された固定値;(2)「Avg」で表示された、現在まで損失の全域平均、;または(3)「ExpAvg」で表示された、固定平滑パラメータ(α=0.9)を持つ指数移動平均、がある。SELF(文献[Nguyen Duc T.et al.、“SELF:learning to filter noisy labels with self-ensembling”、ICLR、2019])と同様に、SuperLossに入力された個別サンプル損失は訓練をより安定的に作るため、α’=0.9で指数平均を用いて数3で平滑化する。このような戦略は、制限されたサイズのデータセットのみに適用可能であり;メトリック学習又は物体検出には使用されない。
回帰に対するSuperLossの評価
SuperLossは、堅牢な損失smooth-lと非堅牢な損失lの全部及び異なるノイズ水準らを用いて、MNISTの数字回帰(文献[LeCun Y.et al.、“MNIST handwritten digit database”、ICPR、2010])、及び、UTKFaceの人間年齢回帰(文献[Zhang Z.et al.、“Age progression/regression by conditional adversarial autoencoder”、CVPR、2017])に対して評価される。
数字回帰:本来の数字分類問題を回帰問題として考慮し、MNISTでトイ回帰実験(toy regression experiment)が遂行される。具体的に、LeNetの出力次元は10でない1に設定され、SGD(Stochastic Gradient Descent)を用いて20回のエポックの間に回帰損失を用いて訓練される。基準線のハイパーパラメータは、各々の損失及びノイズ水準に対して交差検証される。一般に、lはsmooth-lに比べて低い学習率を好む。SuperLossの場合、固定閾値τ=0.5が正しい整数を回帰するのに許容可能な限界であるから、これが実験に使用される。
年齢回帰:23,705個の整列及びクロップされた顔イメージからなるより大きいUTKFaceデータセットが実験に使用され、ランダムに訓練用90%及びテスト用10%に分離した。人種、性別及び年齢(1才から116才の間)は、非常に多様で不均衡な比率で現れるので、年齢回帰のタスクが難しくなる。ResNet-18モデル(単一出力を持つ)が使用され、ImageNetで予測子として初期化され、SGDを用いて100回のエポックの間に訓練される。ハイパーパラメータは、各々の損失及びノイズ水準に対して交差検証される。このタスクに対して最適の固定閾値が何であるか不明であるから、固定閾値はSuperLossで使用されない。
結果:訓練時にノイズの影響を評価するために、数字の場合に1から10の間、年齢の場合に1才から116才の間の均一な分布を用いて、人為的にノイズが生成される。図5は、堅牢な損失smooth-lと非堅牢な損失lに対し、ノイズ比率の関数として数字回帰及び人間年齢回帰に対する平均絶対誤差MAEを例示する。MAEは、両方のデータセット及び両方の損失に対し、ノイズ比率を変更しながら5回にかけて集計される。SuperLossを用いて訓練されたモデルらは、ノイズ水準や閾値τに関係なく持続的に基準線より相当なマージンで優れた性能を持つ。これは、網が非堅牢な損失lで訓練される時に特に事実的であり、SuperLossが非堅牢な損失をより堅牢にするということを示唆する。基準線が堅牢な損失smooth-lを用いて訓練された場合にも、SuperLossは相変らず誤差を非常に(例えば、80%ノイズでUTKFaceの17.56±0.33から13.09±0.05に)減少させる。両方の損失は、タスクによって大きく異なる振幅らの範囲を持つ(例えば、年齢回帰に対するlは、一般に範囲が[0、10000]である一方で、数字回帰に対するsmooth-lは範囲が[0、10]である)。
ハイパーパラメータの交差検証を行う間に、堅牢な誤差メトリックを用いて最上のパラメータを選択することが重要である。そうでないと、ノイズのある予測らが結果らに相当な影響を及ぼすことになる。したがって、切断された絶対誤差
Figure 2022063250000051

が使用され、ここでy及び
Figure 2022063250000052
は各々真値及び予測であり、τはMNISTの場合は1に、UTKFaceの場合は10に設定された閾値である。
表1は、MNISTデータセットの数字回帰のタスクに対し、5回の実行にかけて集計された平均絶対誤差MAE(平均±標準偏差)の側面において、数字回帰に対する詳細な実験結果を提供する。
Figure 2022063250000053
表2は、UTKFaceデータセットの数字回帰のタスクに対し、5回の実行にかけて集計された平均絶対誤差MAE(平均±標準偏差)の側面において、年齢回帰に対する詳細な実験結果を提供する。
Figure 2022063250000054
イメージ分類に対するSuperLossの評価
CIFAR-10及びCIFAR-100(文献[Krizhevsky A.、“Learning multiple layers of features from tiny images”、https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf、2009])は、各々C=10及びC=100のクラスらに属する50K訓練及び10Kテストイメージからなる。WideResNet-28-10モデルが、比較のために文献[Saxena S.et al.(“Data parameters:a new family of parameters for learning a differentiable curriculum”、NeurIPS、2019)]の実験設定及びプロトコルを厳しく遵守してSuperLossで訓練される。ここで、正規化パラメータをCIFAR-10に対してλ=1に設定し、CIFAR-100に対してλ=0.25に設定した。
図6は、易しいサンプル、難しいサンプル及びノイズのあるサンプルに対する訓練(中央値及び25乃至75%百分位数)の間における数3の信頼度変化σを例示する。難しいサンプルは、訓練の最初20回のエポック内で高信頼度に到達できない正しいサンプルとして任意に定義される。訓練の進行によってノイズがあって難しいサンプルがより明確に分離される。
図7は、SuperLoss及び最新技術に対してノイズ比率の関数としてCIFAR-10及びCIFAR-100の正確度のプロットを示す。結果ら(5回の実行に対する平均)は、多様な比率の損傷されたラベルに対して報告される。τに関係なく(logCに固定されたり自動平均化を使用したり)非常に類似の性能が観察される。クリーンデータセットらにおいて、SuperLossは性能が相当な飽和状態にも拘わらず、基準線より(例えば、CIFAR-10において95.8%±0.1から96.0%±0.1に)若干向上される。対称ノイズがある場合、SuperLossは一般に最近接近方式等に比べてより良い性能を持つ。特に、SuperLoss方法は、Saxena S.et al.により提案された信頼度-認識損失と同等に遂行されることで、信頼パラメータが実際に学習される必要が無いことを確認することができる。最後に、SuperLoss方法は、分類に具体的な対象がなく、特別な訓練手順もなく、網に変化が無いにも関わらず、一層複雑かつ専門的な方法よりも性能が優れることに留意する。
Webvision(文献[Li W.et al.、“Webvision database:Visual learningand understanding from web data”、arXiv:1708.02862、2017])は、クラス名を用いて検索エンジンらに質問してウェブから自動で収集されたC=1000クラスを持つ240万イメージの大規模のデータセットである。したがって、本質的に相当な水準のノイズを含む。文献[Saxena S.et al.(“Data parameters:a new family of parameters for learning a differentiable curriculum”、NeurIPS、2019)]により、ResNet-18モデルは、120エポックに対するSGDを用いて訓練され、このとき、加重値減衰は10-4であり、初期学習率は0.1であり、30、60及び90エポックから10で除算する。SuperLossに対する正規化パラメータはλ=0.25に設定され、τ=log(C)に対する固定閾値が使用される。最終の正確度は66.7%±0.1であり、これは基準線(65.5%±0.1)と比較して、+1.2%(4回の実行にかけて集計される)の一貫した利得を示す。訓練時間やエンジニアリング努力等の側面において、SuperLossに任意の変更が不要であるから、その利得はただで与えられるものである。
CIFAR-10及びCIFAR-100のデータセットに対する実験等において、SuperLossを異なる比率らの損傷されたラベルに対して最新技術と比較してみた。より詳しくは、一般に対称ノイズとして定義されるものを使用したが、すなわち、訓練ラベルの特定の比率を均一な分布から得られた他のラベルに代替する。次の2つの場合に対する詳細な結果らが表3及び表4に提供される:(a)新しい(ノイズがある)ラベルは、本来(実際)のラベルと同様に維持でき;(b)新しいラベルは、実際のラベルを除いた均一な分布から得られる。前記表等において、SuperLoss(SL)に対し、以下を含む従来発明の接近方式等と比較する。Self-paced(文献[Kumar P.M.et al.、“Self-paced learning for latent variable models”、NIPS、2010])、Focal Loss(文献[Lin T.Y.et al.、“Focal loss for dense object detection”、ICCV、2017])、MentorNet DD(文献[Jiang、L.et al.、“Mentornet:Learning data-driven curriculum for very deep neural networks on corrupted labels”、ICML、2018])、Forgetting(文献[Arpit D.et al.、“A closer look at memorization in deep networks”、ICML、2017])、Co-teaching(文献[Han B.et al.、“Co-teaching:Robust training of deep neural networks with extremely noisy labels”、NeurIPS、2018])、L and Trunc L(文献[Zhang Z.et al.、“Generalized cross entropy loss for training deep neural networks with noisy labels”、NeurIPS、2018])、Reweight(文献[Ren M.et al.、“Learning to reweight examples for robust deep learning、ICML、2018])、D2L(文献[Ma X.et al.、“Dimensionality-driven learning with noisy labels”、ICML、2018])、Forward
Figure 2022063250000055
(文献[Quin Z.et al.、“Making deep neural networks robust to label noise:Cross-training with a novel loss function”、IEEE access、2019])、SELF(文献[Nguyen Duc T.et al.、“Self:learning to filter noisy labels with self-ensembling”、ICLR、2019])、Abstention(文献[Thulasidasan S.et al.、“Combating label noise in deep learning using abstention”、ICML、2019])、CurriculumNet(文献[Sheng et al.、“Curriculumnet:Weakly-supervised learning for large-scale web images”、ECCV、2018])、O2U-net(50) and O2UNet(10)(文献[Jinchi H.et al.、“O2U-Net:A simple noisy label detection approach for deep neural networks”、ICCV、2019])、DivideMix(文献[Li J.et al.、“Dividemix:Learning with noisy labels as semi-supervised learning”、ICLR、2020])、CurriculumLoss(文献[Lyu Y.et al.、“Curriculumloss:Robust learning and generalization against label corruption”、ICLR、2020])、Bootstrap(文献[Reed S.et al.、“Training deep neural networks on noisy labels with bootstrapping”、ICLR、2015])、F-correction(文献[Patrini G.et al.、“Making deep neural networks robust to label noise:A loss correction approach”、CVPR、2017])、Mixup(文献[Zhang H.et al.、“Mixup:Beyond empirical risk minimization”、ICLR、2018])、C-teaching(文献[Yu X.et al.、“How does disagreement help generalization against label corruption?”、ICML、2019])、P-Correction(文献[Yi K.et al.、“Probabilistic end-to-end noise correction for learning with noisy labels”、CVPR、2019])、Meta-Learning(文献[Li J.et al.、“Learning to learn from noisy labeled data”、CVPR、2019])、Data Parameters(文献[Saxena S.et al.、“Data parameters:A new family of parameters for learning a differentiable curriculum”、NeurIPS、2019])。
表3及び表4に示すように、SuperLoss(SL*)は、分類のために特別に設計され、専用訓練手順が必要な接近方式を含む大部分の最新の接近方式よりも同等又はより良い性能を持つ。にも拘わらず、SELF及びDivideMixは、SuperLossより性能が優れる。しかしながら、両方ともメモリ化に強力に抵抗するために網のアンサンブルに依存するため、前述した制約を共有する。対照的に、SuperLoss接近方式は、任意の特別なトリックなしに基準線手順で訓練された単一網を使用する。
Figure 2022063250000056
Figure 2022063250000057
図8は、多様な比率のラベル損傷に対し、CIFAR-10及びCIFAR-100に対する正規化パラメータλの影響を示す。
Figure 2022063250000058
が使用された。全般的に、正規化は、分類性能に中間程度の影響を及ぼす。非常に高い水準のノイズ(80%)の以外は、比較的広い範囲の正規化値らに対して性能が安定に維持される。重要なことは、λの最適値が全てのノイズ水準に対して概略的に同一であるという点であり、これは、私たちの方法が実際使用事例らで訓練セットらの潜在的な変動によく対処できることを示す。
物体検出に対するSuperLossの評価
Pascal VOC(文献[Everingham M.et al.、“The Pascal visual objection classes(VOC)challenge、IJCV、2010])及びインスタンスらの20%、40%または60%に対称ラベルノイズが適用されるそのノイズバージョン(文献[Junnan L.et al.、“Towards noise-resistant objection detection with noisy annotations”、arXiv:2003.01285、2020])に関する物体検出のタスクに対する実験を遂行した。detectron2(https://github.com/facebookresearch/detectrons2)からの2つの物体検出フレームワーク、Faster R-CNN(文献[Shaoquing R.et al.、“Faster R-CNN:Towards real-time object detection with region proposal networks”、NIPS、2015])及びRetinaNet(文献[Tsung-Yi、L.et al.、“Focal loss for dense object detection”、ICCV、2017])を使用する。
図9a及び図9bは、SuperLossを用いて多様な水準のノイズに対する標準AP50メトリックを示すものであり、ここで標準箱分類損失が基準線として使用される。3回の実行にかけた平均及び標準偏差が示される。基準線に対して、detectron2からのデフォルトパラメータが使用された。SuperLossの場合、全ての実験においてFaster R-CNNとRetinaNetともに対し、クリーンデータに対して
Figure 2022063250000059
、任意の他の水準のノイズに対してλ=0.25が使用された。基準線及びSuperLossは、クリーンデータにおいて同等であるが、ノイズのある場合にSuperLossが基準線よりも非常に優れた性能を持つ。例えば、性能低下(ラベルノイズの60%及びクリーンデータの間)が、Faster R-CNNの場合は12%から8%に、RetinaNetの場合は29%から20%に減少する。τの場合、私たちはFaster R-CNNを持つτ=log(C)に対して若干のエッジを観察する。同一の固定閾値は、交差-エントロピー損失に依存しないため、RetinaNetに対して意味がないが、全域及び指数平均化は同様に遂行されるものと観察された。
表5は、SuperLossをいくつかの最新のノイズ-堅牢な接近方式等と比較したものである:Co-teaching(文献[Han B.et al.、“Co-teaching:Robust training of deep neural networks with extremely noisy labels”、NeurIPS、2018])、SD-LocNet(文献[Xiaopeng Z.et al.、“Learning to localize objects with noisy label instances”、AAAI、2019])、Note-RCNNN(文献[Gao J.et al.、“Note-RCNNN:Noise tolerant ensemble RCNNN for semi-supervised object detection”、ICCV、2re019])及びCA-BBC(文献[Li J.et al.、“Towards noise-resistant object detection with noisy annotations”、ArXiv:2003.01285、2020])。
Figure 2022063250000060
さらに、シンプルで一般的なSuperLossが、ノイズのあるサンプルを識別及び/又は修正するために、複雑な戦略らを活用する他の接近方式らよりも優れた性能を持つ。
表6、表7及び表8は、Pascal VOCにおいてAP、AP50及びAP75メトリックを用いた物体検出に対する基準線及び最新技術とSuperLossとの比較を示すものである。前記表等は、また、AP75メトリック(すなわち、0.5の代わりに0.75のより高いIoU(intersection-over-union)閾値における均精密度(mean average precision;mAP)だけでなく、多様なIoU閾値でmAP平均であるAPメトリックを示す。基準線及びSuperLossの場合、3回の実行で平均と標準偏差とも報告される。Faster R-CNN及びRetinaNet物体検出フレームワークを使用すれば、SuperLossが全てのメトリックに対するノイズがある状態で基準線の性能を大きく増加させることができることが観察された。興味深いことに、SuperLossは、また、特にRetinaNetでノイズがある場合に非常に高いモデルの分散を相当に減少させる。
Figure 2022063250000061
Figure 2022063250000062
Figure 2022063250000063
イメージ検索に対するSuperLossの評価
SuperLossは、Revisited Oxford and Paris benchmark(文献[Radenoviic F.et al.、“Revisiting Oxford and Paris:Large-scale image retrieval benchmarking”、CVPR、2018])を用いて、イメージ検索のタスクに対して評価した。これは、各々5,063個及び6,392個の高解像度イメージからなる2個のデータセット、Oxford及びParisからなる。各々のデータセットは、11個のランドマークから得られた70個のクエリ(query)を含む。各々のクエリに対してポジティブイメージは、易しいポジティブ又は難しいポジティブでラベル付けされる。各々のデータセットは、各々の全てのポジティブイメージ又は難しいイメージのみを考慮して(すなわち、易しいイメージは無視)構成された中間(M)及び難しい(H)プロトコルを用いて、平均精密度(mAP、mean Average-Precision)として評価される。
訓練のために、検索エンジンを用いて半自動的に収集された約200Kイメージ(訓練/検証のために160K/40Kに分割される)からなる大規模のランドマークデータセット(文献[Babenko A.et al.、“Neural codes for image retrieval”、ECCV、2014])を選択した。同一のデータセットのクリーン化したバージョン(文献[Gordo A.et al.、“Deep image retrieval:Learning global representations for image search”、ECCV、2016]に発表される)が約4倍少ないイメージを含むという事実は、これが莫大な量のノイズを含むということ、及び、標準損失関数を用いてこのデータをレバレッジするのに従う困難があることを予想することができる。意味のある比較を構築するために、42K訓練イメージ及び6K検証イメージを含むクリーン化したデータセットも使用される。Gordo A.et al.により、このようなデータセットをランドマーク-フル及びランドマーク-クリーンとして称する。検索モデルとして、ResNet-50を一般平均(Generalized-Mean、GeM)プーリング及び対照損失と共に使用する(https://gitub.com/filipradenovic/cnnimageretrieval-pytorch)。ランドマーククリーンに対して訓練する際に、オプティマイザ及びハードネガティブマイニング(hard negative mining)手順に対するRadenovic F.et al.の基本ハイパーパラメータ(100回のエポック、exp(-1/100)の指数的減衰を持つ10-6の学習率、エポック当たり2000個のクエリ及び20Kネガティブプールサイズ)が優れた結果を提供する。対照的に、ランドマーク-フルで訓練する時に性能が低下される。したがって、ランドマーク-フルの検証セットに関する基準線に対するハイパーパラメータが再調整され、ハードネガティブマイニングのハイパーパラメータを減少させることが重要であることがわかる(200個のクエリ及び500個のネガティブプールサイズ)。全ての場合において、SuperLossは、τに対する全域平均を用いて基準線に比べて同一の設定らで訓練された。テスト時に、Radenovic F.et al.に従い、多数のスケール及び記述子ホワイトニング(descriptor whitening)を使用した。
異なる訓練セットら及び損失に対する平均精密度mAPが以下の表9に示されている。Hard-negは、ハードネガティブマイニングに使用される(クエリサイズやプールサイズ)を示す。クリーンデータでのSuperLossの影響は小さい。しかしながら、ノイズのあるデータ(ランドマーク-フル)に対する印象的な性能向上を可能とし、クリーンデータを用いて訓練された基準線よりも全般的に優れた性能を持つ。また、表9の下部には同一のコードで訓練及び評価された最新結果が含まれている。SuperLossは、RParisにおいてResNet-101+GeMに比べて、より深いバックボーンにも拘らず、そして、これが収集するのに複雑かつ高価の手順が必要な類似のサイズのクリーンデータセットであるSfM-120kに対して訓練されるという事実にも拘らず、若干良い性能を持つ。
Figure 2022063250000064
ランドマーククリーンに対して訓練する際、Radenovic F.et al.からの基本ハイパーパラメータは、オプティマイザ及びハードネガティブマイニングに使用された。具体的に、学習率及び加重値の減衰を全部1e-6に設定したアAdamオプティマイザを用いて、100回のエポックの間に訓練を遂行した。学習率は、全体的にexp(-1)により指数的に減衰する。各々のエポックで2000個のタプル(tuple)が5個のタプルのバッチで網に供給される。各々のタプルは1個のクエリ、1個のポジティブ及び5個のネガティブ(すなわち、20Kハードネガティブサンプルのプールからマイニングされた1個のポジティブペア及び5個のネガティブペア)からなる。
図10はノイズのあるランドマーク-フルのデータセットに対して訓練する間のモデル収束を示すプロットである。図に示すように、ノイズの多いランドマーク-フルのデータセットに対して同一の設定らを用いて訓練する際に、基準線は収束するのに問題があって性能がよくない。これは、システム的にハードネガティブマイニングは、モデルが正しく学習できなくするエラーラベル付けのネガティブペアを検索するからである。かかる理由により、ランドマーク-プールの検証セットに対する基準線のハードネガティブマイニングパラメータ及び学習率は調整が必要である。ネガティブプールのサイズを減少させると、ノイズのあるネガティブイメージが発見される可能性が低減するため、実際に状況が改善される。新しい学習率、タプルの数及びネガティブフルのサイズは、各々1e-5、200及び500である。網は、エポック当たりより少ないタプル(したがって、より少ないペア)を見るため、学習率の同一の全体指数減衰に2倍より長い(100回の代わりに200回のエポック)訓練が遂行される。SuperLossの場合、全域平均を用いてτを計算して検証セットでλ=0.05を検証する。再調整された基準線及びSuperLossの収束が図10に示されている。基準線が大きく改善され、これから適切に収束されるが、訓練の全ての段階においてSuperLossが相変らず大きいマージンで優れた性能を持つ。
一部の特定の実施例が詳細に前述されたが、実施例等の意図的な範囲から逸脱することなく、前述の教示に基づき、そして添付の特許請求の範囲等の内容内において、実施例の多様な修正、変更及び改善が可能であることは当業者に明白である。また、当業者に慣れている分野等は、本明細書で説明された実施例等を不要に曖昧にしないように本明細書で説明しなかった。したがって、実施例等は、特定の例示的な実施例により限定されるものでなく、添付の特許請求の範囲の範囲のみによって限定されることを理解すべきである。
前記実施例等が方法段階の脈絡から説明されたが、それらは、また、対応する装置又はシステムの対応するコンポーネント、モジュール又は特徴の説明を示す。
方法段階等の一部又は全部は、プロセッサ、マイクロプロセッサ、電子回路又はプロセシング回路部により(或いは、それを用いて)実行されるという点においてコンピュータにより具現可能である。
前述した実施例等は、ハードウェアやソフトウェアで具現可能である。具現は、コンピュータ読み取り可能な記憶媒体、例えば、フロッピー(登録商標)ディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM及びフラッシュメモリのような非一時的な記憶媒体を用いて遂行できる。そのようなコンピュータ読み取り可能な媒体は、汎用又は特殊の目的のコンピュータシステムによりアクセスできる任意の利用可能な媒体であり得る。
一般に、実施例等は、プログラムコード又はコンピュータ実行可能な命令語を持つコンピュータプログラム製品として具現でき、プログラムコード又はコンピュータ実行可能な命令語らは、コンピュータプログラム製品がコンピュータで実行される際に、方法らの一つを遂行するように作動可能である。プログラムコード又はコンピュータ実行可能な命令語らは、例えば、コンピュータ読み取り可能な記憶媒体に保存できる。
一実施例において、記憶媒体(又はデータキャリアやコンピュータ読み取り可能な媒体)は、プロセッサにより遂行される際に、本明細書で記述された方法らの一つを遂行するためのコンピュータプログラム又はコンピュータ実行可能な命令語を保存する。追加の実施例において、装置は、一つ以上のプロセッサ及び前述した記憶媒体を含む。
追加の実施例において、装置は、例えば、メモリと通信するプロセッサのようなプロセシング回路部のような手段を含み、この手段は、本明細書で記述された方法らの一つを遂行するように構成又は適応される。
追加の実施例は、本明細書で記述された方法らの一つを遂行するためのコンピュータプログラム又は命令語らが設置されたコンピュータを含む。
前述した方法等及び実施例等は、データ交換のためのインターネットのようなネットワーク1104(無線及び/又は有線であり得る)を介して通信するサーバ1100及び一つ以上のクライアントデバイス1102を含む図11に例示されたようなアーキテクチャー内で具現できる。サーバ1100及びクライアントデバイス1102は、データプロセッサ1112及びハードディスクのようなメモリ1113を含む。クライアントデバイス1102は、自動運転車1102b、ロボット1102c、コンピュータ1102d、または携帯電話1302eを含む、サーバ1100と通信する任意のデバイスであり得る。
より正確には、一実施例において、本明細書で記述された実施例等による技術は、サーバ1100で遂行できる。他の実施例等において、本明細書で記述された実施例等による技術は、クライアントデバイス1102で遂行できる。また他の実施例等において、前記実施例等で説明された技術等は、分散方式により異なるサーバ又は複数のサーバで遂行できる。

Claims (15)

  1. データプロセシングのタスクを遂行するように、神経網を訓練するためのコンピュータ具現方法であって、
    ラベル付けのデータサンプルのセットの各々のデータサンプルに対して、
    前記データプロセシングのタスクに対する第1の損失関数を用いて、前記データサンプルに対するタスク損失を算出するステップ;
    前記タスク損失を第2の損失関数に入力して、前記データサンプルに対する第2の損失を算出するステップ(前記第2の損失関数は、前記データサンプルに対して算出された前記タスク損失に基づき、前記データサンプルの加重値を自動で算出して、前記神経網により予測された前記データサンプルのラベルの信頼度を推定する);及び、
    前記第2の損失を用いて、前記神経網の少なくとも一部の学習可能なパラメータをアップデートするステップを含む、コンピュータ具現方法。
  2. 前記データサンプルに対して算出された前記タスク損失に基づき、前記データサンプルの加重値を自動で算出するステップは、
    前記タスク損失が閾値未満の場合、前記データサンプルの前記加重値を増加させるステップ、及び、前記タスク損失が閾値超過の場合、前記データサンプルの前記加重値を減少させるステップを含む、請求項1に記載のコンピュータ具現方法。
  3. 前記閾値は、前記タスク損失の移動平均又は固定の平滑化パラメータを持つ前記タスク損失の指数移動平均を用いて算出される、請求項2に記載のコンピュータ具現方法。
  4. 前記第2の損失関数は、前記タスク損失及び前記閾値の差に基づいた損失増幅項を含む、請求項2又は3に記載のコンピュータ具現方法。
  5. 前記第2の損失関数は、
    Figure 2022063250000065
    で表され、ここで0<λ<1であり、lは前記タスク損失であり、τは前記閾値であり、λは前記第2の損失関数のハイパーパラメータである、請求項2乃至4の何れか一項に記載のコンピュータ具現方法。
  6. 前記タスク損失に基づいて前記データサンプルの信頼値を算出するステップをさらに含む、請求項2乃至4の何れか一項に記載のコンピュータ具現方法。
  7. 前記タスク損失に基づいて前記データサンプルの信頼値を算出するステップは、前記タスク損失に対する前記第2の損失関数を最小化する信頼パラメータの値を決定するステップを含む、請求項6に記載のコンピュータ具現方法。
  8. 前記信頼値は、
    Figure 2022063250000066
    によって変化することができ、ここでlは前記タスク損失であり、τは前記閾値であり、λは前記第2の損失関数の正規化ハイパーパラメータである、請求項6又は7に記載のコンピュータ具現方法。
  9. 前記損失増幅項は、σ(l―τ)で表され、ここでσは前記信頼値である、請求項4を引用する請求項6乃至8の何れか一項に記載のコンピュータ具現方法。
  10. 前記第2の損失関数は、λ(logσで表される正規化項を含み、ここでσは前記信頼値である、請求項6乃至9の何れか一項に記載のコンピュータ具現方法。
  11. 第2の損失関数は、
    Figure 2022063250000067
    で表され、ここでσは前記信頼パラメータであり、lは前記タスク損失であり、τは前記閾値であり、λは前記第2の損失関数のハイパーパラメータである、請求項7又は請求項7を引用する請求項8乃至10の何れか一項に記載のコンピュータ具現方法。
  12. 前記第2の損失関数は、前記タスク損失に対して単調に増加する凹関数であり、選択的に前記第2の損失関数は同次関数である、請求項1乃至3の何れか一項に記載のコンピュータ具現方法。
  13. イメージプロセシングのタスクを遂行するように、請求項1乃至12の何れか一項に記載のコンピュータ具現方法によって訓練される神経網。
  14. 一つ以上のプロセッサにより実行される際、請求項1乃至12の何れか一項に記載のコンピュータ具現方法を遂行するコンピュータ実行可能な命令語らが保存されるコンピュータ読み取り可能な記憶媒体。
  15. 請求項1乃至12の何れか一項に記載のコンピュータ具現方法を遂行するように構成されるプロセシング回路を含む装置。
JP2021165902A 2020-10-09 2021-10-08 SuperLoss:堅牢なカリキュラム学習のための一般的な損失 Active JP7345530B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP20306187.4A EP3982299A1 (en) 2020-10-09 2020-10-09 Superloss: a generic loss for robust curriculum learning
EP20306187.4 2020-10-09

Publications (2)

Publication Number Publication Date
JP2022063250A true JP2022063250A (ja) 2022-04-21
JP7345530B2 JP7345530B2 (ja) 2023-09-15

Family

ID=74103892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021165902A Active JP7345530B2 (ja) 2020-10-09 2021-10-08 SuperLoss:堅牢なカリキュラム学習のための一般的な損失

Country Status (4)

Country Link
US (1) US20220114444A1 (ja)
EP (1) EP3982299A1 (ja)
JP (1) JP7345530B2 (ja)
KR (1) KR20220047534A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI816078B (zh) * 2021-01-05 2023-09-21 財團法人工業技術研究院 樣本分群探勘方法
US11755208B2 (en) * 2021-10-12 2023-09-12 Western Digital Technologies, Inc. Hybrid memory management of non-volatile memory (NVM) devices for use with recurrent neural networks
CN115049851B (zh) * 2022-08-15 2023-01-17 深圳市爱深盈通信息技术有限公司 基于YOLOv5网络的目标检测方法、装置和设备终端
KR102655393B1 (ko) * 2022-08-17 2024-04-05 국방과학연구소 적대적 강인성을 위한 신경망모델의 학습방법 및 이를 위한 장치
CN115551105B (zh) * 2022-09-15 2023-08-25 公诚管理咨询有限公司 基于5g网络边缘计算的任务调度方法、装置和存储介质
CN116894985B (zh) * 2023-09-08 2023-12-15 吉林大学 半监督图像分类方法及半监督图像分类系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019102797A1 (ja) * 2017-11-21 2019-05-31 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
WO2020070834A1 (ja) * 2018-10-03 2020-04-09 株式会社島津製作所 学習済みモデルの製造方法、輝度調整方法および画像処理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598840B (zh) * 2018-06-13 2023-04-18 富士通株式会社 知识迁移方法、信息处理设备以及存储介质
WO2020163970A1 (en) * 2019-02-15 2020-08-20 Surgical Safety Technologies Inc. System and method for adverse event detection or severity estimation from surgical data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019102797A1 (ja) * 2017-11-21 2019-05-31 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
WO2020070834A1 (ja) * 2018-10-03 2020-04-09 株式会社島津製作所 学習済みモデルの製造方法、輝度調整方法および画像処理装置

Also Published As

Publication number Publication date
EP3982299A1 (en) 2022-04-13
US20220114444A1 (en) 2022-04-14
JP7345530B2 (ja) 2023-09-15
KR20220047534A (ko) 2022-04-18

Similar Documents

Publication Publication Date Title
JP7345530B2 (ja) SuperLoss:堅牢なカリキュラム学習のための一般的な損失
Tian et al. Contrastive representation distillation
US9990558B2 (en) Generating image features based on robust feature-learning
WO2021008328A1 (zh) 图像处理方法、装置、终端及存储介质
Dehghani et al. Fidelity-weighted learning
Blundell et al. Weight uncertainty in neural network
US11270124B1 (en) Temporal bottleneck attention architecture for video action recognition
US10510021B1 (en) Systems and methods for evaluating a loss function or a gradient of a loss function via dual decomposition
WO2022077646A1 (zh) 一种用于图像处理的学生模型的训练方法及装置
US11551026B2 (en) Dynamic reconfiguration training computer architecture
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN116261731A (zh) 基于多跳注意力图神经网络的关系学习方法与系统
US20210056127A1 (en) Method for multi-modal retrieval and clustering using deep cca and active pairwise queries
Yang et al. Margin optimization based pruning for random forest
EP4287144A1 (en) Video behavior recognition method and apparatus, and computer device and storage medium
Zhou et al. Discriminative active learning for domain adaptation
Wu et al. Quantifying the knowledge in gnns for reliable distillation into mlps
CN110992198A (zh) 作物病害防治方案推荐方法及装置、系统、设备和介质
Roy et al. L3DMC: Lifelong Learning using Distillation via Mixed-Curvature Space
US11948387B2 (en) Optimized policy-based active learning for content detection
CN117591547A (zh) 数据库的查询方法、装置、终端设备以及存储介质
Kang et al. Self-paced principal component analysis
Aimen et al. Leveraging task variability in meta-learning
Zhang et al. Learning from noisy labels with coarse-to-fine sample credibility modeling
Dornier et al. Scaf: Skip-connections in auto-encoder for face alignment with few annotated data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230905

R150 Certificate of patent or registration of utility model

Ref document number: 7345530

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150