JP2022063250A

JP2022063250A - ＳｕｐｅｒＬｏｓｓ：堅牢なカリキュラム学習のための一般的な損失

Info

Publication number: JP2022063250A
Application number: JP2021165902A
Authority: JP
Inventors: バインザエペルフィリップ; Weinzaepfel Philippe; ルボージェロム; Revaud Jerome; カステルティボー; Castells Thibault
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-10-09
Filing date: 2021-10-08
Publication date: 2022-04-21
Anticipated expiration: 2041-10-08
Also published as: EP3982299A1; US20220114444A1; JP7345530B2; KR20220047534A

Abstract

【課題】データプロセシングのタスクを遂行するように、神経網を訓練するためのコンピュータ具現方法４００が提供される。【解決手段】コンピュータ具現方法は、ラベル付けのデータサンプルのセットの各々のデータサンプルに対して、データプロセシングのタスクに対する第１の損失関数を用いて、データサンプルに対するタスク損失を算出するステップ４３０；タスク損失を第２の損失関数に入力して、データサンプルに対する第２の損失を算出するステップ４４０（第２の損失関数は、データサンプルに対して算出されたタスク損失に基づき、前記データサンプルの加重値を自動で算出して、神経網により予測されたデータサンプルのラベルの信頼度を推定する）；及び、第２の損失を用いて、神経網の少なくとも一部の学習可能なパラメータをアップデートするステップ４５０を含む。【選択図】図１

Description

本開示は、カリキュラム（curriculum）学習を用いて神経網を訓練するための損失関数に関する。特に、本開示は、タスクと関連した損失に追加されるタスク－不特定的（task-agnostic）な損失関数を用いて、イメージプロセシングのようなタスクを遂行するように、神経網を訓練するための方法に関する。

カリキュラム学習は、人間や動物の学習過程からインスピレーションを得た技術である。核心になるアイディアは、人間がより複雑な概念の以前により単純な概念から自然に習得するように、難易度を増加させる順序で学習者（神経網）に訓練サンプルを提供することである。機械学習に適用される場合、カリキュラム学習は、本質的により難しいサンプルの以前に易しいサンプルをモデルに提示するようなサンプリング戦略（カリキュラム）を設計することになる。一般的に言えば、易しいサンプルは少数の訓練段階の後に神経網が良好な予測を行うサンプルであり、難しいサンプルは少数の訓練段階の後に神経網が不良な予測を行うサンプルである。付与されたサンプルの難易度を先験的に推定することは一般的に複雑であるが、最近の研究ではカリキュラム学習が自己教師あり方式（self-supervised manner）により動的に公式化できることが分かる。核心になるアイディアは、易しいサンプル及び難しいサンプルが異なるように挙動して分離可能であるという観察に基づき、訓練中に直接的に各々のサンプルの重要度（又は加重値）を何れかの方式により推定することである。

カリキュラム学習は、非特許文献１［Basu S．et al．(“Teaching Classification Boundaries to Humans”、AAAI、2013)］、非特許文献２［Bengio Y．et al．(“Curriculum Learning”、ICML、2009)］、非特許文献３［Hacohen G．et al．(“On the power of curriculum learning in deep networks”、ICML、2019)］、非特許文献４［Kahn F．et al．(“How do humans teach：On curriculum learning and teaching dimension”、NIPS、2011)］及び非特許文献６［Sheng G．et al．、“Curriculumnet：Weakly-supervised learning for large-scale web images”、ECCV、2018)］に係る初期研究等から、モデル性能及びその一般化能力を向上させるのに効果的であることが分かる。しかしながら、このような初期研究等では、順序が訓練前に決定されることで、固定式カリキュラム及び学習されるモデル間に潜在的な不一致が発生する恐れがある。

これを解決するために、非特許文献６［Kumar M．P．et al．（“Self-paced learning for latent variable models”、NIPS、2010)］は、学習者のペース(pace)に適応するように、カリキュラムが動的な方式により教師なしに構成されるＳＰＬ（self-paced learning）の概念を提案した。これは、易しいサンプル及び難しいサンプルが、訓練中に各々の損失側面から異なるように挙動して、何れかの方式によっても識別できるからである。これに関連して、カリキュラム学習は、訓練初期段階らにおいて、易しいサンプルにはより大きい加重値が付与され、難しいサンプルにはより小さい加重値が付与されるように、各々の訓練の繰り返しで各々のサンプルの容易性を加重値形態で予測することにより達成される。モデル一般化を改善する以外にも、このような類型の接近方式のもう一つの利点は、ノイズに対する抵抗性である。これが利点になる理由は、ノイズのあるサンプル（すなわち、エラーラベルのあるサンプル）がモデル化し難しくなる傾向により、訓練の全般にわたってより小さい加重値を受けて效果的に捨てられるからである。そのような副作用にも拘わらず、ノイズのあるデータが広く利用可能かつ低廉である一方で、クリーン(clean)な注釈付けのデータが高価である場合、このような方法が特に効果的である。

ところで、自動カリキュラム学習のための既存の接近方式等は、その適用可能性を大きく制限する２つの重要な短所を持つ。第一に、現在の方法等は、前述した原理らが一般的かつ潜在的に他のタスクに適用され得るにも拘わらず、分類のタスクに圧倒的に集中及び専門化している点である。第二に、当該方法等は、全部訓練手順の重要な変更を必要とし、度々特別な準備期間があったりなかったりするマルチステージ訓練、追加の学習可能なパラメータ及びレイヤー又はデータのクリーンなサブセット（subset）が含まれた専用訓練計画を必要とする点である。

本明細書において、信頼度－認識（confidence-aware）損失関数として称する一種の損失関数等が、最近に多様なタスク及び背景に導入された。データセット

を考慮するが、ここで、サンプルｘ^ｉはラベルｙ^ｉを有し、ｆ（）を経験的リスク最小化と関連して最適化するための訓練可能な予測変数とする。損失ｌ（ｆ（ｘ^ｉ），ｙ^ｉ）の形式の既存損失関数等と比較した時、信頼度－認識損失関数等は、サンプル信頼度

を示す追加の学習可能なパラメータを入力として用いる。したがって、信頼度－認識損失関数等は

のように表される。

信頼度－学習属性は信頼度－認識損失関数の形状のみに依存し、これは２つの属性に要約される：（ａ）正確に予測されたサンプルは高信頼度を持つように造成され、不正確に予測されたサンプルは低信頼度を持つように造成され、（ｂ）低信頼度での損失はほぼ一定である。換言すれば、信頼度－認識損失関数は、各々のサンプルの損失をその信頼パラメータと関連して調節する。このような属性は動的カリキュラム学習と関連して特に興味深いが、その理由は、それらが学習手順の追加の修正なしに逆伝播を通じて各々のサンプルの信頼度、すなわち加重値を自動で学習させるからである。

これは、修正された信頼度－認識交差－エントロピー(cross-entropy)損失を用いた分類のタスクに関する非特許文献７［Saxena S．et al．(“Data parameters：a new family of parameters for learning a differentiable curriculum”、NeurIPS、2019)］により最近わかった所である。結果として、標準確率的勾配降下法（standard stochastic gradient descent)により、網パラメータ及び信頼パラメータを共同で最小化すれば、信頼パラメータを通して各々の予測の信頼度(reliability)、すなわち各々のサンプルの難易度を正確に推定できる。修正された交差－エントロピー損失は、分類のために、交差－エントロピー損失の緩和されたバージョンを導入し、ここでサンプル従属温度がソフトマックスを計算する前にロジット（logit）をスケーリングする。

ここで、

は付与されたサンプルに対するロジットら（Ｃはクラスの数）、

はその正解(ground-truth)クラス、及び、

はその信頼度（すなわち、温度の逆数）である。興味深いことに、その損失は信頼度が無限大になる傾向がある場合に堅牢な０－１損失（すなわち、階段関数）に変換される。

σが爆発することを防止するために、λｌｏｇ（σ）^２と同一の正規化項が損失に追加される。修正された交差－エントロピー損失は、分類の場合はよく処理するが、以前に提案された信頼度－認識損失等のように他のタスク等に一般化し難い。

また他の信頼度－認識損失関数として、異なるクラスインスタンス間のキーポイントマッチングと関連して導入された、自己反省損失（introspection loss）がある（非特許文献８［Novotny D．et al．、“Self-supervised learning of geometrically stable features through probabilistic introspection”、CVPR、2018］）。これは、最初の公式から以下のようにより簡潔な形式に再度表される。

ここで、

はそれらの表現間のドット積（dot-product）で算出された２つのキーポイント間の類似性点数であり、

はそのペア（pair）に関する正解ラベルであり、σ＞０は２つのキーポイントの信頼度に対する入力従属的予測である。その損失は、二進ラベルを用いて［０、１］範囲の類似性点数を処理するように特別に設計されたので、他のタスク等に一般化し難いことに留意する。

Ｒ２Ｄ２の信頼度損失（非特許文献９［Revaud J．et al．、“R2D2：Reliable and repeatable detector and descriptor”、NeurIPS、2019］）が、堅牢なパッチ検出及び説明と関連して導入された。Ｒ２Ｄ２の信頼度損失は、網の入力従属的出力であったその信頼度（すなわち、表現の品質に対する信頼点数）と共に、パッチ表現を共同で学習する役割を果たす。これは以下のように公式化する。

ここで、zはパッチ記述子、yはそのラベル及び

はその信頼度を表す。パッチに対する点数は、微分可能な平均－精密度（Average-Precision、AP）の側面から損失として算出される。しかしながら、このような信頼度－認識損失関数の公式は２つの短所を持つ。第一に、信頼度σが制約のない変数ではないので（０及び１間で境界付けられる）、実際に回帰し難い点である。第二に、正規化の欠如により、最適の信頼度は実際にＡＰ（ｚ、ｙ）＜０．５の成立可否によって０又は１である点である。換言すれば、付与された固定のＡＰ（ｚ、ｙ）＜０．５に対してσ＝０に設定することにより損失が最小化し、その反対も同様であるが、つまり、これは信頼度が極限値を受取るようにだけ助長する。

マルチタスク損失（非特許文献１０［Kendall A．et al．、“Multi-task learning using uncertainty to weigh losses for scene geometry and semantics”、CVPR、2018］）は、マルチタスクに関連して各々の損失の相対的な加重値を自動で学習するためのスキーム（scheme）である。直観的に、網予測を網出力及び制御されない等分散不確実性に依存する確率関数としてモデリングする。次いで、最大尤度推論（maximum likelihood inference）のように、モデルの対数尤度（log likelihood）が最大化する。これは、関連した不確実性{σ₁，．．．，σ_ｎ}（すなわち、逆信頼度）及びいくつかのタスク損失｛ｌ１，．．．、ｌ_ｎ｝によって定義された以下のような最小化目的につながる。

実際に、信頼度はσ＞０を保証するように、指数マッピングｓ＝ｌｏｇσ^２により学習される。このような接近方式は、タスク損失（task loss）がポジティブ（positive）であり、最小値

を持つという暗示的な仮定をするが、これは一般的に保証されないことに留意する。タスク損失の一つがネガティブ（negative）である場合、何も実際にマルチタスク損失が－∞まで増加するのを防止することができない。

ノイズのあるデータに対する学習は、ノイズのあるサンプルの固有の困難によって前記技術と密接に関連したことである。これに関連してカリキュラム学習は、難易度に基づいてサンプルの加重値を自動で低下させてノイズのあるサンプルを效果的に捨てるため、最適であると判明された。例えば、非特許文献１１［Lyu Y．et al．（“Curriculum loss：Robust learning and generalization against label corruption”、ICLR、2020）］のカリキュラム損失は、より大きい損失を持つノイズのあるサンプルを回避しながら、モデル訓練のためのサンプルを適応的に選択する。

カリキュラム損失と厳密に関連のないが、類似の原理を活用した一連のタスクが提案された。Ｏ２Ｕ－Ｎｅｔ（非特許文献１２［Jinchi H．et al．、“O2U-Net：A simple noisy label detection approach for deep neural networks”、ICCV、2019］）は、学習率を変化させながらそれらの損失をモニターリングして、正しいサンプルをノイズのあるサンプルから区別する。非特許文献１３［Arazo E．et al．（“Unsupervised label noise modeling and loss correction”、ICML、2019）］及び非特許文献１４［Li J．et al．（“Dividemix：Learning with noisy labels as semi-supervised learning”、ICLR、2020）］は、訓練データをクリーンセット及びノイズのあるセットに動的に分類するのに用いられる二重モード混合モデルを用いて、サンプル当たり損失分布をモデリングする。ノイズのあるサンプルのメモリ化を防止するために、アンサンブル方法が人気がある。例えば、ＳＥＬＦ（非特許文献１５［Nguyen Duc T．et al．、“SELF：learning to filter noisy labels with self-ensembling”、ICLR、2019］）は、各々のエポック（epoch）ごとにサンプルを易しいものから難しいものに逐次フィルターリングし、これはカリキュラム学習と認められる。Ｃｏ－ｔｅａｃｈｉｎｇ（非特許文献１６［Han B．et al．、“Co-teaching：Robust training of deep neural networks with extremely noisy labels”、ICCV、2019］）及び類似の方法等は、メモリ化を回避するために、ノイズのあるサンプルに関する情報を交換する２つの半独立的網を訓練する。しかしながら、このような接近方式は、付与されたタスク（例えば、分類）のために特別に開発され、他のタスクに一般化し難い。また、これらは面倒になるかも知れない専用訓練手順が必要である。

したがって、従来技術の接近方式等は、一般に特定のタスク（例えば、分類）に制限され、追加データ注釈、レイヤー又はパラメータだけでなく、専用訓練手順を必要とする。

従来技術の短所を克服するシンプルで一般的な損失関数を提供することが望ましい。特に、神経網により予測されたデータサンプルラベルの信頼度を推定するために損失関数を提供することが望ましく、損失関数は、任意の損失に応じて任意のタスクに適用でき、任意の数のサンプルにスケールアップ(scale-up)でき、学習手順の修正が不要であり、追加データパラメータに対する必要性がない。

国際公開番号ＷＯ２０１９／０９９３０５

Basu S．et al．("Teaching Classification Boundaries to Humans"、AAAI、2013) Bengio Y．et al．("Curriculum Learning"、ICML、2009) Hacohen G．et al．("On the power of curriculum learning in deep networks"、ICML、2019) Kahn F．et al．("How do humans teach：On curriculum learning and teaching dimension"、NIPS、2011) Sheng G．et al．、"Curriculumnet：Weakly-supervised learning for large-scale web images"、ECCV、2018) Kumar M．P．et al．（"Self-paced learning for latent variable models"、NIPS、2010) Saxena S．et al．("Data parameters：a new family of parameters for learning a differentiable curriculum"、NeurIPS、2019) Novotny D．et al．、"Self-supervised learning of geometrically stable features through probabilistic introspection"、CVPR、2018 Revaud J．et al．、"R2D2：Reliable and repeatable detector and descriptor"、NeurIPS、2019 Kendall A．et al．、"Multi-task learning using uncertainty to weigh losses for scene geometry and semantics"、CVPR、2018 Lyu Y．et al．（"Curriculum loss：Robust learning and generalization against label corruption"、ICLR、2020） Jinchi H．et al．、"O2U-Net：A simple noisy label detection approach for deep neural networks"、ICCV、2019 Arazo E．et al．（"Unsupervised label noise modeling and loss correction"、ICML、2019） Li J．et al．（"Dividemix：Learning with noisy labels as semi-supervised learning"、ICLR、2020） Nguyen Duc T．et al．、"SELF：learning to filter noisy labels with self-ensembling"、ICLR、2019 Han B．et al．、"Co-teaching：Robust training of deep neural networks with extremely noisy labels"、ICCV、2019

本明細書では、学習手順での任意の変更なしに多様な損失及びタスクに適用できるシンプルで一般的な方法が記述される。

これは、任意の既存のタスク損失に加えて、一般の損失関数を追加することからなるので、その名称をＳｕｐｅｒＬｏｓｓ（スーパーロス）とする。ＳｕｐｅｒＬｏｓｓの主要な効果は、損失の大きいサンプル（すなわち、難しいサンプル）の寄与度に対し、自動で加重値を低下させてカリキュラム学習の核心原則を效果的に摸倣することである。ＳｕｐｅｒＬｏｓｓは、ノイズのあるサンプルのメモリ化を防止するので、非堅牢な損失関数を用いてもノイズのあるデータから訓練できる。

ＳｕｐｅｒＬｏｓｓは、特に、訓練データがノイズによって損傷された場合、より良い性能を発揮する訓練モデルを許容する。これは、大規模のデータセットを構築するのに必要であり、以前には高性能に到達するために不可避であると考えられた莫大な注釈付けの努力を考慮する時に非常に有利である。大規模のデータセットに注釈を付けることは、財政的な側面及びそれに従う所要時間により、新たな事業への進入において実質的な障壁になり得る。対照的に、ノイズのあるデータセットは、少ない費用で大規模でウェブから自動で収集できる。

一実施例において、データプロセシングのタスクを遂行するように、神経網を訓練させるためのコンピュータ具現方法が提供される。方法は、ラベル付けのデータサンプルのセットの各々のデータサンプルに対して、データプロセシングのタスクに対する第１の損失関数を用いて、データサンプルに対するタスク損失を算出するステップ；タスク損失を第２の損失関数に入力して、データサンプルに対する第２の損失を算出するステップ（第２の損失関数は、データサンプルに対して算出されたタスク損失に基づき、データサンプルの加重値を自動で算出して、神経網により予測されたデータサンプルのラベルの信頼度を推定する）；及び、第２の損失を用いて、神経網の少なくとも一部の学習可能なパラメータをアップデートするステップを含む。データサンプルは、イメージサンプル、ビデオサンプル、テキストコンテンツサンプル及びオーディオサンプルの一つであり得る。

データサンプルのタスク損失に基づいてデータサンプルに対するデータサンプルの加重値が自動で決定されるため、方法は、信頼パラメータが収束するまで待機する必要がないという利点を提供するが、これは、訓練方法がより速く収束するということを意味する。

一態様によれば、データサンプルに対して算出されたタスク損失に基づき、データサンプルの加重値を自動で算出するステップは、タスク損失が閾値未満の場合、データサンプルの加重値を増加させるステップ、及び、タスク損失が閾値超過の場合、データサンプルの加重値を減少させるステップを含むことができる。

一態様によれば、閾値は、タスク損失の移動平均又は固定の平滑化パラメータを持つタスク損失の指数移動平均を用いて算出される。

一態様によれば、第２の損失関数は、タスク損失及び閾値の差に基づいた損失増幅項を含むことができる。

一態様によれば、第２の損失関数は、ｍｉｎ｛ｌ－τ、λ（ｌ－τ）｝で表され、ここで０＜λ＜１であり、ｌはタスク損失であり、τは閾値であり、λは第２の損失関数のハイパーパラメータ（Hyperparameter）である。

一態様によれば、方法は、タスク損失に基づいてデータサンプルの信頼値を算出するステップをさらに含むことができる。タスク損失に基づいてデータサンプルの信頼値を算出するステップは、タスク損失に対する第２の損失関数を最小化する信頼パラメータの値を決定するステップを含むことができる。信頼値は、

によって変化することができ、ここでｌはタスク損失であり、τは閾値であり、λは第２の損失関数の正規化ハイパーパラメータである。損失増幅項は、σ^＊（ｌ－τ）σで表され、ここでσ^＊は信頼値である。

したがって、信頼値は、効率的な閉形式解（closed form solution）を用いて、各々のデータサンプルに対して決定されるので、方法は、非常に簡単であり、より効率的である。

一態様によれば、第２の損失関数は、λ（ｌｏｇσ^＊）^２で表される正規化項を含み、ここでσ^＊は信頼値である。

一態様によれば、第２の損失関数は、

で表され、ここでσは信頼パラメータであり、ｌはタスク損失であり、τは閾値であり、λは第２の損失関数のハイパーパラメータである。

一態様によれば、第２の損失関数は、タスク損失に対して単調に増加する凹関数であり得る。

一態様によれば、第２の損失関数は同次関数であり得る。

一様態によれば、データプロセシングのタスクを遂行するために、前記方法によって訓練される神経網が提供される。データプロセシングのタスクは、イメージプロセシングのタスクであり得る。イメージプロセシングのタスクは、分類、回帰、物体検出及びイメージ検索の一つであり得る。

一態様によれば、一つ以上のプロセッサにより実行される際、前記方法を遂行するコンピュータ実行可能な命令語が保存されるコンピュータ読み取り可能な記憶媒体が提供される。

一態様によれば、プロセシング回路を含む装置が提供され、プロセシング回路は前記方法を遂行するように構成される。

添付図面は、実施例の原理を説明するために本明細書に統合されてその一部を形成する。図面は、それらがどのように示されて使用されるかに対する例示及び記述された実施例のみで制限するものと解析してはならない。追加の特徴及び利点は、添付図面に例示されたように、以下の実施例の説明及びより具体的な部分で明白になる。
本発明に係る技術を用いて訓練される神経網を例示するブロック図である。訓練の間に易しいサンプル及び難しいサンプルにより生成された損失を示すプロットである。訓練の間に易しいサンプル及び難しいサンプルにより生成された損失を示すプロットである。正規化した入力損失の関数としてＳｕｐｅｒＬｏｓｓを示すプロットである。ＳｕｐｅｒＬｏｓｓ関数を用いて神経網を訓練する方法を示すフローチャートである。ＭＮＩＳＴデータセットに対する数字回帰及びＵＴＫＦａｃｅデータセットに対する人間年齢回帰に対する回帰のタスクの平均絶対誤差を示すプロットである。訓練の間に正規化した信頼値の変化を示すプロットである。ノイズ比率の関数としてＣＩＦＡＲ－１０及びＣＩＦＡＲ－１００のデータセットに対する損失関数の正確度を示すプロットである。異なるノイズ比率に対する正規化パラメータの影響を示すプロットである。ＦａｓｔｅｒＲ－ＣＮＮと共に物体検出のためにＳｕｐｅｒＬｏｓｓを使用する場合のＰａｓｃａｌＶＯＣにおいてＡＰ５０を示すプロットである。ＲｅｔｉｎａＮｅｔと共に物体検出のためにＳｕｐｅｒＬｏｓｓを使用する場合のＰａｓｃａｌＶＯＣにおいてＡＰ５０を示すプロットである。ノイズのあるランドマーク－フル（Landmarks-full）データセットに対して訓練する間のモデル収束を示すプロットである。開示の方法等が遂行できるアーキテクチャーの例を示す図である。

本明細書では、カリキュラム学習を用いて神経網を訓練するための技術について記述する。特に、任意のタスクに容易に適用可能な一般化した損失関数であるＳｕｐｅｒＬｏｓｓ関数が記述される。説明を目的とし、記述された実施例等の完全な理解を提供するために多くの例及び特定の詳細事項が提示される。請求の範囲により定義されたような実施例等は、これらの例の特徴の一部又は全部を単独に、或いは、後述する他の特徴と組み合わせて含むことができ、本明細書に記述された特徴や概念の修正及び同等物をさらに含むことができる。例示された実施例等は、類似の要素及び構造が類似の参照番号で表示される図面を参照して記述される。また、実施例が方法である場合、方法の段階及び要素は並列又は順次実行で組合わせることができる。これらが矛盾しない限り、以下で記述される全ての実施例は互いに組合わせることができる。

図１は、ＳｕｐｅｒＬｏｓｓを用いた神経網の訓練を例示するブロック図である。神経網はラベル付けのデータサンプルのセット

を入力として受信するように構成され、ここで、サンプルｘ^ｉはラベルｙ^ｉを有し、神経網に入力される。ラベル付けのデータサンプルのセットは、ラベル付けのサンプルイメージのセット、ラベル付けのテキスト文書のセット、及びラベル付けのオーディオコンテンツのセットの一つであり得る。

神経網は、各々のデータサンプルをプロセスして、各々のデータサンプルに対する予測を生成するように構成される。神経網が遂行するように訓練されたタスクに対応する損失関数（本明細書において第１の損失関数とも称する）は、網により出力された予測及びデータサンプルに対する目標値間の誤差を示す。例えば、教師あり学習（supervised learning）において、神経網はデータサンプルのラベルに対する予測を生成する。次いで、各々のデータサンプルに対して予測されたラベルは、データサンプルの正解ラベルと比較される。正解ラベル及び予測されたラベル間の差は、神経網により出力されたタスク損失である。

公知の神経網等において、タスク損失は、逆伝播を用いて神経網の学習可能なパラメータの少なくとも一部をアップデートするのに使用される。しかしながら、図１に示すように、第２の損失関数（本明細書においてＳｕｐｅｒＬｏｓｓ関数とも称する）は、神経網のタスク損失に追加される。ＳｕｐｅｒＬｏｓｓ関数の役割は、訓練中に各々のデータサンプルのタスク損失をモニターリングし、カリキュラム学習の核心原理を適用してサンプル寄与度を動的に自動で決定することである。ＳｕｐｅｒＬｏｓｓ関数は、易しいサンプル（小さいタスク損失を持つサンプル）の加重値を増加させ、難しいサンプル（大きいタスク損失を持つサンプル）の加重値を減少させなければならない。すなわち、ＳｕｐｅｒＬｏｓｓ関数は、データサンプルに対して算出されたタスク損失に基づいてデータサンプルの加重値を算出して、神経網により予測されたデータサンプルのラベルの信頼度を推定する。

ＳｕｐｅｒＬｏｓｓ関数はタスク－不特定的であり、これは訓練手順において何の変更なしにタスク損失に適用され得ることを意味する。したがって、神経網は、データサンプルをプロセシングするのに適合した対応の損失関数を有する任意の類型の神経網であり得る。例えば、神経網は、イメージ分類、回帰、物体検出及びイメージ検索などのようなイメージプロセシングのタスクを遂行するように訓練できる。神経網は、自然言語プロセシングやコンテンツ推薦などのように、モデルを訓練するために機械学習に依存する他の領域でタスクを遂行するのに適合することができる。

ＳｕｐｅｒＬｏｓｓ関数は、実用的かつ一般的な考慮事項に基づいて定義される。小さい損失を持つサンプルの加重値は増加し、大きい損失を持つサンプルの加重値は減少しなければならない。

より具体的に、ＳｕｐｅｒＬｏｓｓ関数に対する要求事項は、ＳｕｐｅｒＬｏｓｓ関数が、難しいサンプル（予測損失が閾値超過である）に対する損失を強力に平坦化する一方で、易しいサンプル（予測損失が閾値未満である）に対する補償（すなわち、ネガティブ損失）を増幅する、単調に増加する凹関数のことである。すなわち、ｌ_２≧ｌ_１の場合、ＳＬ^＊（ｌ_２）≧ＳＬ^＊（ｌ_１）である。単調に増加する属性は、ｌ_２≧ｌ_１の場合、数学的にＳＬ^＊（ｌ_２）≧ＳＬ^＊（ｌ_１）で表される。より大きい入力損失を持つサンプルよりも、より小さい損失を持つサンプルを強調するという事実は、ｌ_２≧ｌ_１の場合、ＳＬ^＊’（ｌ_２）≦ＳＬ^＊’（ｌ_１）のように表され、ここでＳＬ^＊’は導関数である。

選択的に、ＳｕｐｅｒＬｏｓｓ関数は同次関数であり得、これは、それが任意の付与された範囲の入力損失を処理することで、任意の種類のタスクが処理できることを意味する。より具体的に、これは、入力損失及び正規化パラメータの全部が同一の因子γでスケーリングされる場合、ＳｕｐｅｒＬｏｓｓの形態が一定のスケーリング因子γ＞０まで正確に同様に維持されることを意味する。すなわち、任意の付与された振幅の入力損失を受容するように、正規化パラメータ及び学習率をそれによってスケーリングすることで充分である。

一実施例によれば、ＳｕｐｅｒＬｏｓｓ関数は、一つの入力、神経網のタスク損失を受取る。これは、サンプル信頼度を示す追加の学習可能なパラメータを入力として受取る従来技術の信頼度－認識損失関数等と対照される。各々のサンプルデータ項目に対して、ＳｕｐｅｒＬｏｓｓ関数は、データサンプルに対するタスク損失によってデータサンプルの加重値を算出する。ＳｕｐｅｒＬｏｓｓ関数は、神経網の少なくとも一部の学習可能なパラメータをアップデートするために、逆伝播に用いられる損失（本明細書において第２の損失及びＳｕｐｅｒＬｏｓｓとも称する）を出力する。

ＳｕｐｅｒＬｏｓｓは、ハイパーパラメータλ≧０により制御される損失増幅項及び正規化項からなり、以下のように表される。

ここで、ｌは神経網のタスク損失であり、τはそれらの各々の損失に基づいて易しいサンプル及び難しいサンプルを区分する閾値であり、λは正規化ハイパーパラメータである。閾値τは、タスクに対する事前知識に基づいて固定されるか、或いは、各々のデータサンプルに対して算出される。例えば、閾値は、入力損失の移動平均又は固定の平滑化パラメータを持つタスク損失の指数移動平均を用いて決定され得る。

一部の実施例において、ＳｕｐｅｒＬｏｓｓ関数は、各々のデータサンプルと関連した信頼値を考慮する。二つの入力、すなわちタスク損失ｌ（ｆ（ｘ^ｉ）、ｙ^ｉ）及びサンプル信頼度を示す信頼パラメータσ^ｉを受取る信頼度－認識損失関数は、以下のように表される。

しかしながら、ＳｕｐｅｒＬｏｓｓにおいて、従来技術の信頼度－認識損失関数等と対照的に、信頼パラメータσ^ｉは学習されず、代わりにサンプルの各タスク損失から各々のサンプルに対して自動で推論される。したがって、信頼パラメータσ^ｉの収束を待機する代わりに、ＳｕｐｅｒＬｏｓｓは、タスク損失ｌのみに依存する収束の値

を直接利用する。その結果、信頼パラメータσ^ｉがサンプル状態に対して最適化及び最新状態である必要がなくなり、ＳｕｐｅｒＬｏｓｓが全的にタスク損失に依存することになる。

最適の信頼度σ^＊（ｌ）は、付与されたタスク損失ｌに対するＳＬ（ｌ、σ）を最小化する信頼値σ^＊（ｌ）を検索して算出された閉形式解を有する。結果として、ＳｕｐｅｒＬｏｓｓは、任意の範囲（又は振幅）のタスク損失が処理できることを意味し、すなわち、λを適切に設定しさえすればよい。

したがって、各々の訓練サンプルに対してＳｕｐｅｒＬｏｓｓが付与される。

ここで、タスク損失ｌ及び信頼度σは、個別訓練サンプルに対応する。σ＞０を保証するために指数マッピングσ＝ｅ^ｃが利用される。信頼度のための指数マッピングを用いて、式が以下のように再度表される。

ここで、

であり、σ＝ｅ^ｘである。

最小化する関数は、二つの凸関数の和であるから、β≧０の場合に大域的な最小値を許容する。そうでないと、ネガティブ指数項によりｘ→＋∞のとき、－∞に向けて発散する。しかしながら、β０＜β＜０であり、

のとき、関数は

（以下を参照）に位置した単一ローカル最小値を許容し、これは初期にσ＝１（ｘ＝０）から開始して極小変位らにより継続移動すると仮定するとき、信頼度が収束する値に対応する。それが存在する場合（すなわち、β_０＜βのとき）、最小値の位置は導関数を解いて付与される。

これは、形式ｚ＝ｙｅ^ｙの数式であり（このとき、

解に対してｙ＝Ｗ（ｚ）を有する公知の問題であって、ここで、ＷはランベルトＷ関数（Lambert W function）を意味する。β_０＜βの場合、ｘに対する閉形式によって一般的に以下のように表される。

ランベルトＷ関数が単調に増加することで、最小値は、β≧０の場合に

に位置し、β_０＜β＜０の場合に

に位置する。ランベルトＷ関数は、初等関数らで表現できないが、大部分の現代数学ライブラリーらで具現される（例えば、パイソン（python）においてｓｃｉｐｙ．ｓｐｅｃｉａｌ．ｌａｍｂｅｒｔｗで利用可能である）。例えば、関数の予め計算された区分的近似（piece-wise approximation）が用いられ、これは、ｇｒｉｄ＿ｓａｍｐｌｅ()関数を用いてＰｙＴｏｒｃｈのＧＰＵで容易に具現できる。β≦β_０の場合に、最適の信頼度は

で制限される。要約すれば、以下の通りである。

したがって、最適の信頼度σ^＊（ｌ）は、比率

のみに依存する閉形式解を有する。

ＳｕｐｅｒＬｏｓｓは、λが無限大になるとき、本来の入力損失と同一になる。数３４の結果により以下のように表される。

したがって、

τは常数と見なされるため、ＳｕｐｅｒＬｏｓｓは、極限での入力損失ｌと同一である。

σ^＊が比率

（数３４を参照）のみに依存するという事実、及び、τがｌの移動平均で計算されるため、ｌに比例すると仮定すれば、以下の通りである。

自然に以下がつながる。

すなわち、ＳｕｐｅｒＬｏｓｓは同次関数、すなわち、

である。

前述したように、予測損失から各々のサンプルの信頼度を自動で推論することは、逆伝播を通じて各々のサンプルの信頼度を学習することよりも、多くの利点を提供する。第一に、サンプル当たり追加の学習可能なパラメータが不要になるが、これは、ＳｕｐｅｒＬｏｓｓはサンプルの数がほとんど無限であり得るタスク等に対してスケーリングできることを意味する。第二に、信頼度を学習すれば自然に遅延（すなわち、時間収束）が発生し、サンプルの実際状態及び各々の信頼度間に潜在的な不一致が発生する。これは、(ａ)ＳＬ(ｌ、σ)（点線等）を用いて逆伝播を通じて学習されるときにそれらの各々の信頼度、及び、（ｂ）それらの最適の信頼度σ^＊（一般線）を示す図２ａと、訓練の間に易しいサンプル及び難しいサンプルにより生成された典型的な損失を示す図２ｂとにより例示される。最適の信頼度の利用とは対照的に、信頼度の学習は、サンプルが容易になる瞬間（その損失がτ以下に通過する）と、その信頼度が１より大きくなる瞬間との間に相当な遅延を誘発する。第三に、学習率及び加重値の減衰のような専用最適化のための基準線接近方式上に多様なハイパーパラメータを追加する。

図３は、正規化した入力損失ｌ－τの関数であって、ＳｕｐｅｒＬｏｓｓ

を例示し、この公式が前述した要求事項を充足させることを示す。各々の曲線は、正規化ハイパーパラメータλの異なる値に対応する。

信頼度が公式に介入する方式に関係なく、ＳｕｐｅｒＬｏｓｓ関数の主要な属性は、網パラメータに対する損失勾配が信頼度と共に単調に増加しなければならず、他の全てのパラメータは固定で維持されなければならないことである。例えば、スケールパラメータに対する対数正規分布（log-normal prior）として作用する数２３の（ｌｏｇσ^ｉ）^２

項は異なる分布に代替できる。また他の可能性は、本来の損失が一つの混合成分の対数尤度であり、第２の成分がノイズを（例えば、ラベルに対する均一な分布として）モデリングする、混合モデルを使用することである。

前述したように、ＳｕｐｅｒＬｏｓｓ及び従来技術のカリキュラム損失間には、いくつかの重要な差異点がある。第一に、ＳｕｐｅｒＬｏｓｓは、最も低い水準の各々のサンプルに対して個別的に適用される。第二に、ＳｕｐｅｒＬｏｓｓには、ＳｕｐｅｒＬｏｓｓが訓練セット内の異なる振幅及び異なる水準のノイズの損失が処理できるようにする追加の正規化項λが含まれる。最後に、ＳｕｐｅｒＬｏｓｓは、損失の範囲及び最小値を仮定しないので、動的閾値及び正規化に対する信頼度の二乗対数が導入できる。信頼度は、ＳｕｐｅｒＬｏｓｓにおいてサンプル損失の加重値に直接的に対応するので、容易に解析できる。しかしながら、信頼度及びサンプル加重値間の関係は、従来技術の信頼度－認識損失に対して必ずしも明白ではない。

図４は、前述したＳｕｐｅｒＬｏｓｓ関数を用いて神経網を訓練する方法４００を示すフローチャートである。ステップ４１０、４２０において、神経網によりプロセスされるデータサンプルのバッチ（batch）が獲得され、バッチはランダムに選択された多数のデータサンプルを含む。

次いで、ステップ４３０において、神経網は、神経網により遂行されるタスクに対応する第１の損失関数を用いてタスク損失を算出する。タスク損失は、バッチの各々のデータサンプルに対する予測誤差に対応する。神経網はタスク損失を出力し、次いで、第２の損失関数（ＳｕｐｅｒＬｏｓｓ関数）に入力される。タスク損失に基づき、ＳｕｐｅｒＬｏｓｓ関数は、バッチの各々のデータサンプルに対する第２の損失（ＳｕｐｅｒＬｏｓｓ）を計算する（ステップ４４０）。ＳｕｐｅｒＬｏｓｓ関数は、各々のデータサンプルと関連したタスク損失に基づいて各々のデータサンプルの加重値を算出する。具体的に、前述したように、タスク損失が閾値未満の場合にデータサンプルの加重値が増加し、タスク損失が閾値超過の場合にデータサンプルの加重値が減少する。

一部の実施例において、前述したように、ＳｕｐｅｒＬｏｓｓ関数を算出することは、各々のデータサンプルに対するタスク損失に基づいて信頼パラメータσ^＊の値を算出することを含むことができる。信頼パラメータの値を計算することは、データサンプルと関連したタスク損失に対するＳｕｐｅｒＬｏｓｓ関数を最小化する信頼パラメータの値を決定することを含む。

バッチ内に非選択のデータサンプルがないと決定される場合、ＳｕｐｅｒＬｏｓｓ関数により第２の損失が出力される。ステップ４５０において、第２の損失は、神経網の学習可能なパラメータの少なくとも一部をアップデートするのに用いられる。

ステップ４６０において、神経網によりプロセスされるデータサンプルのより多くのバッチがあるかに対する決定が行われる。データサンプルの非選択のバッチが残っている場合、方法は他のバッチが獲得されるステップ４２０に帰る。ラベル付けのデータサンプルのセットは、固定されたエポックＮでプロセスされ、セットのデータサンプルの各々は各々のエポックで一回ずつ選択及びプロセスされる。データサンプルの全てのバッチがプロセスされた場合、ステップ４７０において、Ｎ回のエポックが遂行されたか否かに対する決定が行われる。Ｎ回未満のエポックが遂行された場合、方法はステップ４２０に帰る。Ｎ回のエポックが遂行された場合、ステップ４８０において訓練が終了される。

このようなステップにおいて、神経網が訓練され、訓練された神経網はテストされることができ、一般的な方式では見えないデータをプロセスするのに用いられる。

アプリケーション等
前述したように、ＳｕｐｅｒＬｏｓｓ関数は、多様なタスクを遂行するように神経網を訓練するのに用いられるタスク－不特定的な損失関数である。一部の実施例において、神経網は、分類、回帰、物体検出及びイメージ検索のようなイメージプロセシングのタスクを遂行するように訓練される。

分類：交差－エントロピー損失（ＣＥ）は、ＳｕｐｅｒＬｏｓｓ

に直接プラグイン（plug in）が可能である。閾値τは固定され、τ＝ぉｇＣに設定でき（ここで、Ｃはクラスの数）、均一な予測の交差－エントロピーを示すので、正確な予測及び不正確な予測間の自然な境界を示す。

回帰：ｓｍｏｏｔｈ－ＬＩ損失（ｓｍｏｏｔｈ－ｌ_１）又はＭＳＥ（Mean-Square-Error）損失ｌ_２のような回帰損失ｌ_ｒｅｇはＳｕｐｅｒＬｏｓｓにプラグインが可能である。回帰損失に対する値の範囲はＣＥ損失のものと大きく異なるが、λにより制御される正規化項のおかげでＳｕｐｅｒＬｏｓｓの場合に問題とならない。

物体検出：ＳｕｐｅｒＬｏｓｓは、２つの物体検出フレームワーク、ＦａｓｔｅｒＲ－ＣＮＮ（文献［Shaoquing R．et al．、“Faster R-CNN：Towards real-time object detection with region proposal networks”、NIPS、2015］）及びＲｅｔｉｎａＮｅｔ（文献［Lin、T．Y．et al．、“Focal Loss for dense object detection”、ICCV、2017］）の箱分類成分に適用される。ＦａｓｔｅｒＲ－ＣＮＮ分類損失は、ＳｕｐｅｒＬｏｓｓがＳＬ^＊ _ＣＥにプラグされた標準交差－エントロピー損失ｌ_ＣＥである。ＲｅｔｉｎａＮｅｔ分類損失は、クラス均衡焦点損失（ＦＬ）、

であり、ここでｐ^ｉはロジットｚ^ｉ＝ｆ（ｘ^ｉ）に対するソフトマックスから得た各々の箱に対して網により予測された確率等である。分類と対照的に、物体検出は、一般的に莫大な数のネガティブ検出を処理するが、このために個別信頼度を保存又は学習することが実行不可能である。サンプル当たり別途の加重値を学習する接近方式等と対照的に、本明細書における方法は、それらの損失でだけ直ちにポジティブ及びネガティブの検出の信頼度を推定する。

検索／メトリック学習：ＳｕｐｅｒＬｏｓｓは、対照損失を用いたイメージ検索に適用される（文献［Hadsell R．et al．、“Dimensionality reduction by learning an invariant mapping”、CVPR、2006］)。この場合、訓練セット

は、ポジティブ的（ｙ^ｉｊ＝１）又はネガティブ的（ｙ^ｉｊ＝０）にラベル付けのサンプルのペアからなる。目標は、ポジティブペアが近くある一方で、ネガティブペアが遠くあるような潜在表現を学習することである。対照損失は、２つの損失、ポジティブペアｙ^ｉｊ＝１に対する

及びネガティブペアｙ^ｉｊ＝０に対する

からなり、ここでｍ＞０はマージンである。ポジティブペアに対するヌル（null）マージンは、一般的に仮定される（文献［Radenovic F．et al．、“Fine tuning cnn image retrieval with no human annotation”、IEEE trans．PAMI、2018］、ここで［］_＋はポジティブ成分を示す）。ＳｕｐｅｒＬｏｓｓは、２つの損失の各々に加えて適用され、すなわち、２つの独立的な閾値τがあるが、単純性のために相変らず同一の正規化パラメータλを共有する。

トリプレット（triplet）損失のような他のメトリック学習損失にも同様の戦略が適用される（文献［Weinberger K．Q．et al．、“Distance metric learning for large margin nearest neighbor classification”、JMLR、2009］)。物体検出の場合、各々のサンプルの重要性を明示的に学習又は推定する従来技術の接近方式等はメトリック学習に適用できないが、その理由は、（ａ）潜在的なペア又はトリプレットの数が大き過ぎてメモリにそれらの加重値を保存し難しくなり；（ｂ）各々のエポックでそれらの中で小さな部分だけが見え、これは充分な証拠の蓄積を妨害するためである。

実験結果等
前述された接近方式が、クリーンデータセット及びノイズのあるデータセットに適用される際に、一貫した利得が得られるという経験的証拠が以下に提示される。結果等が数３に表されるＳｕｐｅｒＬｏｓｓ関数に対して示されている。特に、ノイズのあるデータ（ウェブから自動で収集される大規模のデータセットの一般的な場合）から訓練する場合、大きい利得らが観察される。

実験プロトコル
本来のタスク損失で訓練された神経網モデルを基準線として称する。プロトコルは、まず基準線を訓練し、各々のノイズ水準に対するヘルド－アウト検証（held-out validation）を用いてハイパーパラメータ（例えば、学習率や加重値の減衰等）を調整することである。基準線及びＳｕｐｅｒＬｏｓｓ間の公正な比較のために、モデルは同一のハイパーパラメータを持つＳｕｐｅｒＬｏｓｓで訓練される。大部分の従来技術等と異なり、特別なウォーミングアップ期間やその他のトリックが不要である。ＳｕｐｅｒＬｏｓｓに特定のハイパーパラメータ（正規化λ及び損失閾値τ）は、ヘルド－アウト検証又は交差検証を用いて固定又は調整される。より具体的に、τに対する３つのオプション、（１）当面のタスクに関する事前知識により付与された固定値；（２）「Ａｖｇ」で表示された、現在まで損失の全域平均、；または（３）「ＥｘｐＡｖｇ」で表示された、固定平滑パラメータ（α＝０．９）を持つ指数移動平均、がある。ＳＥＬＦ（文献［Nguyen Duc T．et al．、“SELF：learning to filter noisy labels with self-ensembling”、ICLR、2019］)と同様に、ＳｕｐｅｒＬｏｓｓに入力された個別サンプル損失は訓練をより安定的に作るため、α’＝０．９で指数平均を用いて数３で平滑化する。このような戦略は、制限されたサイズのデータセットのみに適用可能であり；メトリック学習又は物体検出には使用されない。

回帰に対するＳｕｐｅｒＬｏｓｓの評価
ＳｕｐｅｒＬｏｓｓは、堅牢な損失ｓｍｏｏｔｈ－ｌ_１と非堅牢な損失ｌ_２の全部及び異なるノイズ水準らを用いて、ＭＮＩＳＴの数字回帰（文献［LeCun Y．et al．、“MNIST handwritten digit database”、ICPR、2010］）、及び、ＵＴＫＦａｃｅの人間年齢回帰（文献［Zhang Z．et al．、“Age progression/regression by conditional adversarial autoencoder”、CVPR、2017］）に対して評価される。

数字回帰：本来の数字分類問題を回帰問題として考慮し、ＭＮＩＳＴでトイ回帰実験（toy regression experiment）が遂行される。具体的に、ＬｅＮｅｔの出力次元は１０でない１に設定され、ＳＧＤ（Stochastic Gradient Descent）を用いて２０回のエポックの間に回帰損失を用いて訓練される。基準線のハイパーパラメータは、各々の損失及びノイズ水準に対して交差検証される。一般に、ｌ_２はｓｍｏｏｔｈ－ｌ_１に比べて低い学習率を好む。ＳｕｐｅｒＬｏｓｓの場合、固定閾値τ＝０．５が正しい整数を回帰するのに許容可能な限界であるから、これが実験に使用される。

年齢回帰：２３，７０５個の整列及びクロップされた顔イメージからなるより大きいＵＴＫＦａｃｅデータセットが実験に使用され、ランダムに訓練用９０％及びテスト用１０％に分離した。人種、性別及び年齢（１才から１１６才の間）は、非常に多様で不均衡な比率で現れるので、年齢回帰のタスクが難しくなる。ＲｅｓＮｅｔ－１８モデル（単一出力を持つ）が使用され、ＩｍａｇｅＮｅｔで予測子として初期化され、ＳＧＤを用いて１００回のエポックの間に訓練される。ハイパーパラメータは、各々の損失及びノイズ水準に対して交差検証される。このタスクに対して最適の固定閾値が何であるか不明であるから、固定閾値はＳｕｐｅｒＬｏｓｓで使用されない。

結果：訓練時にノイズの影響を評価するために、数字の場合に１から１０の間、年齢の場合に１才から１１６才の間の均一な分布を用いて、人為的にノイズが生成される。図５は、堅牢な損失ｓｍｏｏｔｈ－ｌ_１と非堅牢な損失ｌ_２に対し、ノイズ比率の関数として数字回帰及び人間年齢回帰に対する平均絶対誤差ＭＡＥを例示する。ＭＡＥは、両方のデータセット及び両方の損失に対し、ノイズ比率を変更しながら５回にかけて集計される。ＳｕｐｅｒＬｏｓｓを用いて訓練されたモデルらは、ノイズ水準や閾値τに関係なく持続的に基準線より相当なマージンで優れた性能を持つ。これは、網が非堅牢な損失ｌ_２で訓練される時に特に事実的であり、ＳｕｐｅｒＬｏｓｓが非堅牢な損失をより堅牢にするということを示唆する。基準線が堅牢な損失ｓｍｏｏｔｈ－ｌ_１を用いて訓練された場合にも、ＳｕｐｅｒＬｏｓｓは相変らず誤差を非常に（例えば、８０％ノイズでＵＴＫＦａｃｅの１７.５６±０.３３から１３.０９±０.０５に）減少させる。両方の損失は、タスクによって大きく異なる振幅らの範囲を持つ（例えば、年齢回帰に対するｌ_２は、一般に範囲が［０、１００００］である一方で、数字回帰に対するｓｍｏｏｔｈ－ｌ_１は範囲が［０、１０］である）。

ハイパーパラメータの交差検証を行う間に、堅牢な誤差メトリックを用いて最上のパラメータを選択することが重要である。そうでないと、ノイズのある予測らが結果らに相当な影響を及ぼすことになる。したがって、切断された絶対誤差

が使用され、ここでｙ及び

は各々真値及び予測であり、τはＭＮＩＳＴの場合は１に、ＵＴＫＦａｃｅの場合は１０に設定された閾値である。

表１は、ＭＮＩＳＴデータセットの数字回帰のタスクに対し、５回の実行にかけて集計された平均絶対誤差ＭＡＥ（平均±標準偏差）の側面において、数字回帰に対する詳細な実験結果を提供する。

表２は、ＵＴＫＦａｃｅデータセットの数字回帰のタスクに対し、５回の実行にかけて集計された平均絶対誤差ＭＡＥ（平均±標準偏差）の側面において、年齢回帰に対する詳細な実験結果を提供する。

イメージ分類に対するＳｕｐｅｒＬｏｓｓの評価
ＣＩＦＡＲ－１０及びＣＩＦＡＲ－１００（文献［Krizhevsky A．、“Learning multiple layers of features from tiny images”、https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf、2009］）は、各々Ｃ＝１０及びＣ＝１００のクラスらに属する５０Ｋ訓練及び１０Ｋテストイメージからなる。ＷｉｄｅＲｅｓＮｅｔ－２８－１０モデルが、比較のために文献［Saxena S．et al．(“Data parameters：a new family of parameters for learning a differentiable curriculum”、NeurIPS、2019)］の実験設定及びプロトコルを厳しく遵守してＳｕｐｅｒＬｏｓｓで訓練される。ここで、正規化パラメータをＣＩＦＡＲ－１０に対してλ＝１に設定し、ＣＩＦＡＲ－１００に対してλ＝０．２５に設定した。

図６は、易しいサンプル、難しいサンプル及びノイズのあるサンプルに対する訓練（中央値及び２５乃至７５％百分位数）の間における数３の信頼度変化σ^＊を例示する。難しいサンプルは、訓練の最初２０回のエポック内で高信頼度に到達できない正しいサンプルとして任意に定義される。訓練の進行によってノイズがあって難しいサンプルがより明確に分離される。

図７は、ＳｕｐｅｒＬｏｓｓ及び最新技術に対してノイズ比率の関数としてＣＩＦＡＲ－１０及びＣＩＦＡＲ－１００の正確度のプロットを示す。結果ら（５回の実行に対する平均）は、多様な比率の損傷されたラベルに対して報告される。τに関係なく（ｌｏｇＣに固定されたり自動平均化を使用したり）非常に類似の性能が観察される。クリーンデータセットらにおいて、ＳｕｐｅｒＬｏｓｓは性能が相当な飽和状態にも拘わらず、基準線より（例えば、ＣＩＦＡＲ－１０において９５.８％±０.１から９６.０％±０.１に）若干向上される。対称ノイズがある場合、ＳｕｐｅｒＬｏｓｓは一般に最近接近方式等に比べてより良い性能を持つ。特に、ＳｕｐｅｒＬｏｓｓ方法は、Saxena S．et al．により提案された信頼度－認識損失と同等に遂行されることで、信頼パラメータが実際に学習される必要が無いことを確認することができる。最後に、ＳｕｐｅｒＬｏｓｓ方法は、分類に具体的な対象がなく、特別な訓練手順もなく、網に変化が無いにも関わらず、一層複雑かつ専門的な方法よりも性能が優れることに留意する。

Ｗｅｂｖｉｓｉｏｎ（文献［Li W．et al．、“Webvision database：Visual learningand understanding from web data”、arXiv：1708．02862、2017］）は、クラス名を用いて検索エンジンらに質問してウェブから自動で収集されたＣ＝１０００クラスを持つ２４０万イメージの大規模のデータセットである。したがって、本質的に相当な水準のノイズを含む。文献［Saxena S．et al．(“Data parameters：a new family of parameters for learning a differentiable curriculum”、NeurIPS、2019)］により、ＲｅｓＮｅｔ－１８モデルは、１２０エポックに対するＳＧＤを用いて訓練され、このとき、加重値減衰は１０^－４であり、初期学習率は０.１であり、３０、６０及び９０エポックから１０で除算する。ＳｕｐｅｒＬｏｓｓに対する正規化パラメータはλ＝０．２５に設定され、τ＝ｌｏｇ（Ｃ）に対する固定閾値が使用される。最終の正確度は６６.７％±０.１であり、これは基準線（６５.５％±０.１）と比較して、＋１.２％（４回の実行にかけて集計される）の一貫した利得を示す。訓練時間やエンジニアリング努力等の側面において、ＳｕｐｅｒＬｏｓｓに任意の変更が不要であるから、その利得はただで与えられるものである。

ＣＩＦＡＲ－１０及びＣＩＦＡＲ－１００のデータセットに対する実験等において、ＳｕｐｅｒＬｏｓｓを異なる比率らの損傷されたラベルに対して最新技術と比較してみた。より詳しくは、一般に対称ノイズとして定義されるものを使用したが、すなわち、訓練ラベルの特定の比率を均一な分布から得られた他のラベルに代替する。次の２つの場合に対する詳細な結果らが表３及び表４に提供される：（ａ）新しい（ノイズがある）ラベルは、本来（実際）のラベルと同様に維持でき；（ｂ）新しいラベルは、実際のラベルを除いた均一な分布から得られる。前記表等において、ＳｕｐｅｒＬｏｓｓ（ＳＬ）に対し、以下を含む従来発明の接近方式等と比較する。Ｓｅｌｆ－ｐａｃｅｄ（文献［Kumar P．M．et al．、“Self-paced learning for latent variable models”、NIPS、2010］）、ＦｏｃａｌＬｏｓｓ（文献［Lin T．Y．et al．、“Focal loss for dense object detection”、ICCV、2017］）、ＭｅｎｔｏｒＮｅｔＤＤ（文献［Jiang、L．et al．、“Mentornet：Learning data-driven curriculum for very deep neural networks on corrupted labels”、ICML、2018］）、Ｆｏｒｇｅｔｔｉｎｇ（文献［Arpit D．et al．、“A closer look at memorization in deep networks”、ICML、2017］）、Ｃｏ－ｔｅａｃｈｉｎｇ（文献［Han B．et al．、“Co-teaching：Robust training of deep neural networks with extremely noisy labels”、NeurIPS、2018］）、Ｌ_ｑａｎｄＴｒｕｎｃＬ_ｑ（文献［Zhang Z．et al．、“Generalized cross entropy loss for training deep neural networks with noisy labels”、NeurIPS、2018］）、Ｒｅｗｅｉｇｈｔ（文献［Ren M．et al．、“Learning to reweight examples for robust deep learning、ICML、2018］）、Ｄ２Ｌ（文献［Ma X．et al．、“Dimensionality-driven learning with noisy labels”、ICML、2018］）、Ｆｏｒｗａｒｄ

（文献［Quin Z．et al．、“Making deep neural networks robust to label noise：Cross-training with a novel loss function”、IEEE access、2019］）、ＳＥＬＦ（文献［Nguyen Duc T．et al．、“Self：learning to filter noisy labels with self-ensembling”、ICLR、2019］）、Ａｂｓｔｅｎｔｉｏｎ（文献［Thulasidasan S．et al．、“Combating label noise in deep learning using abstention”、ICML、2019］）、ＣｕｒｒｉｃｕｌｕｍＮｅｔ（文献［Sheng et al．、“Curriculumnet：Weakly-supervised learning for large-scale web images”、ECCV、2018］）、Ｏ２Ｕ－ｎｅｔ(５０) and Ｏ２ＵＮｅｔ(１０)（文献［Jinchi H．et al．、“O2U-Net：A simple noisy label detection approach for deep neural networks”、ICCV、2019］）、ＤｉｖｉｄｅＭｉｘ（文献［Li J．et al．、“Dividemix：Learning with noisy labels as semi-supervised learning”、ICLR、2020］）、ＣｕｒｒｉｃｕｌｕｍＬｏｓｓ（文献［Lyu Y．et al．、“Curriculumloss：Robust learning and generalization against label corruption”、ICLR、2020］）、Ｂｏｏｔｓｔｒａｐ（文献［Reed S．et al．、“Training deep neural networks on noisy labels with bootstrapping”、ICLR、2015］）、Ｆ－ｃｏｒｒｅｃｔｉｏｎ（文献［Patrini G．et al．、“Making deep neural networks robust to label noise：A loss correction approach”、CVPR、2017］）、Ｍｉｘｕｐ（文献［Zhang H．et al．、“Mixup：Beyond empirical risk minimization”、ICLR、2018］）、Ｃ－ｔｅａｃｈｉｎｇ^＋（文献［Yu X．et al．、“How does disagreement help generalization against label corruption?”、ICML、2019］）、Ｐ－Ｃｏｒｒｅｃｔｉｏｎ（文献［Yi K．et al．、“Probabilistic end-to-end noise correction for learning with noisy labels”、CVPR、2019］）、Ｍｅｔａ－Ｌｅａｒｎｉｎｇ（文献［Li J．et al．、“Learning to learn from noisy labeled data”、CVPR、2019］）、ＤａｔａＰａｒａｍｅｔｅｒｓ（文献［Saxena S．et al．、“Data parameters：A new family of parameters for learning a differentiable curriculum”、NeurIPS、2019］）。

表３及び表４に示すように、ＳｕｐｅｒＬｏｓｓ（ＳＬ＊）は、分類のために特別に設計され、専用訓練手順が必要な接近方式を含む大部分の最新の接近方式よりも同等又はより良い性能を持つ。にも拘わらず、ＳＥＬＦ及びＤｉｖｉｄｅＭｉｘは、ＳｕｐｅｒＬｏｓｓより性能が優れる。しかしながら、両方ともメモリ化に強力に抵抗するために網のアンサンブルに依存するため、前述した制約を共有する。対照的に、ＳｕｐｅｒＬｏｓｓ接近方式は、任意の特別なトリックなしに基準線手順で訓練された単一網を使用する。

図８は、多様な比率のラベル損傷に対し、ＣＩＦＡＲ－１０及びＣＩＦＡＲ－１００に対する正規化パラメータλの影響を示す。

が使用された。全般的に、正規化は、分類性能に中間程度の影響を及ぼす。非常に高い水準のノイズ（８０％）の以外は、比較的広い範囲の正規化値らに対して性能が安定に維持される。重要なことは、λの最適値が全てのノイズ水準に対して概略的に同一であるという点であり、これは、私たちの方法が実際使用事例らで訓練セットらの潜在的な変動によく対処できることを示す。

物体検出に対するＳｕｐｅｒＬｏｓｓの評価
ＰａｓｃａｌＶＯＣ（文献［Everingham M．et al．、“The Pascal visual objection classes(VOC)challenge、IJCV、2010］）及びインスタンスらの２０％、４０％または６０％に対称ラベルノイズが適用されるそのノイズバージョン（文献［Junnan L．et al．、“Towards noise-resistant objection detection with noisy annotations”、arXiv：2003．01285、2020］）に関する物体検出のタスクに対する実験を遂行した。ｄｅｔｅｃｔｒｏｎ２（https://github.com/facebookresearch/detectrons2）からの２つの物体検出フレームワーク、ＦａｓｔｅｒＲ－ＣＮＮ（文献［Shaoquing R．et al．、“Faster R-CNN：Towards real-time object detection with region proposal networks”、NIPS、2015］）及びＲｅｔｉｎａＮｅｔ（文献［Tsung-Yi、L．et al．、“Focal loss for dense object detection”、ICCV、2017］）を使用する。

図９ａ及び図９ｂは、ＳｕｐｅｒＬｏｓｓを用いて多様な水準のノイズに対する標準ＡＰ５０メトリックを示すものであり、ここで標準箱分類損失が基準線として使用される。３回の実行にかけた平均及び標準偏差が示される。基準線に対して、ｄｅｔｅｃｔｒｏｎ２からのデフォルトパラメータが使用された。ＳｕｐｅｒＬｏｓｓの場合、全ての実験においてＦａｓｔｅｒＲ－ＣＮＮとＲｅｔｉｎａＮｅｔともに対し、クリーンデータに対して

、任意の他の水準のノイズに対してλ＝０．２５が使用された。基準線及びＳｕｐｅｒＬｏｓｓは、クリーンデータにおいて同等であるが、ノイズのある場合にＳｕｐｅｒＬｏｓｓが基準線よりも非常に優れた性能を持つ。例えば、性能低下（ラベルノイズの６０％及びクリーンデータの間）が、ＦａｓｔｅｒＲ－ＣＮＮの場合は１２％から８％に、ＲｅｔｉｎａＮｅｔの場合は２９％から２０％に減少する。τの場合、私たちはＦａｓｔｅｒＲ－ＣＮＮを持つτ＝ｌｏｇ（Ｃ）に対して若干のエッジを観察する。同一の固定閾値は、交差－エントロピー損失に依存しないため、ＲｅｔｉｎａＮｅｔに対して意味がないが、全域及び指数平均化は同様に遂行されるものと観察された。

表５は、ＳｕｐｅｒＬｏｓｓをいくつかの最新のノイズ－堅牢な接近方式等と比較したものである：Ｃｏ－ｔｅａｃｈｉｎｇ（文献［Han B．et al．、“Co-teaching：Robust training of deep neural networks with extremely noisy labels”、NeurIPS、2018］）、ＳＤ－ＬｏｃＮｅｔ（文献［Xiaopeng Z．et al．、“Learning to localize objects with noisy label instances”、AAAI、2019］）、Ｎｏｔｅ－ＲＣＮＮＮ（文献［Gao J．et al．、“Note-RCNNN：Noise tolerant ensemble RCNNN for semi-supervised object detection”、ICCV、2re019］）及びＣＡ－ＢＢＣ（文献［Li J．et al．、“Towards noise-resistant object detection with noisy annotations”、ArXiv：2003．01285、2020］）。

さらに、シンプルで一般的なＳｕｐｅｒＬｏｓｓが、ノイズのあるサンプルを識別及び／又は修正するために、複雑な戦略らを活用する他の接近方式らよりも優れた性能を持つ。

表６、表７及び表８は、ＰａｓｃａｌＶＯＣにおいてＡＰ、ＡＰ５０及びＡＰ７５メトリックを用いた物体検出に対する基準線及び最新技術とＳｕｐｅｒＬｏｓｓとの比較を示すものである。前記表等は、また、ＡＰ７５メトリック（すなわち、０.５の代わりに０.７５のより高いＩｏＵ（intersection-over-union）閾値における均精密度（mean average precision；ｍＡＰ）だけでなく、多様なＩｏＵ閾値でｍＡＰ平均であるＡＰメトリックを示す。基準線及びＳｕｐｅｒＬｏｓｓの場合、３回の実行で平均と標準偏差とも報告される。ＦａｓｔｅｒＲ－ＣＮＮ及びＲｅｔｉｎａＮｅｔ物体検出フレームワークを使用すれば、ＳｕｐｅｒＬｏｓｓが全てのメトリックに対するノイズがある状態で基準線の性能を大きく増加させることができることが観察された。興味深いことに、ＳｕｐｅｒＬｏｓｓは、また、特にＲｅｔｉｎａＮｅｔでノイズがある場合に非常に高いモデルの分散を相当に減少させる。

イメージ検索に対するＳｕｐｅｒＬｏｓｓの評価
ＳｕｐｅｒＬｏｓｓは、ＲｅｖｉｓｉｔｅｄＯｘｆｏｒｄａｎｄＰａｒｉｓｂｅｎｃｈｍａｒｋ（文献［Radenoviic F．et al．、“Revisiting Oxford and Paris：Large-scale image retrieval benchmarking”、CVPR、2018］）を用いて、イメージ検索のタスクに対して評価した。これは、各々５，０６３個及び６，３９２個の高解像度イメージからなる２個のデータセット、Ｏｘｆｏｒｄ及びＰａｒｉｓからなる。各々のデータセットは、１１個のランドマークから得られた７０個のクエリ（query）を含む。各々のクエリに対してポジティブイメージは、易しいポジティブ又は難しいポジティブでラベル付けされる。各々のデータセットは、各々の全てのポジティブイメージ又は難しいイメージのみを考慮して（すなわち、易しいイメージは無視）構成された中間（Ｍ）及び難しい（Ｈ）プロトコルを用いて、平均精密度（mAP、mean Average-Precision）として評価される。

訓練のために、検索エンジンを用いて半自動的に収集された約２００Ｋイメージ（訓練／検証のために１６０Ｋ／４０Ｋに分割される）からなる大規模のランドマークデータセット（文献［Babenko A．et al．、“Neural codes for image retrieval”、ECCV、2014］）を選択した。同一のデータセットのクリーン化したバージョン（文献［Gordo A．et al．、“Deep image retrieval：Learning global representations for image search”、ECCV、2016］に発表される）が約４倍少ないイメージを含むという事実は、これが莫大な量のノイズを含むということ、及び、標準損失関数を用いてこのデータをレバレッジするのに従う困難があることを予想することができる。意味のある比較を構築するために、４２Ｋ訓練イメージ及び６Ｋ検証イメージを含むクリーン化したデータセットも使用される。Gordo A．et al．により、このようなデータセットをランドマーク－フル及びランドマーク－クリーンとして称する。検索モデルとして、ＲｅｓＮｅｔ－５０を一般平均（Generalized-Mean、GeM）プーリング及び対照損失と共に使用する（https://gitub.com/filipradenovic/cnnimageretrieval-pytorch）。ランドマーククリーンに対して訓練する際に、オプティマイザ及びハードネガティブマイニング（hard negative mining）手順に対するRadenovic F．et al．の基本ハイパーパラメータ（１００回のエポック、ｅｘｐ（－１／１００）の指数的減衰を持つ１０^－６の学習率、エポック当たり２０００個のクエリ及び２０Ｋネガティブプールサイズ）が優れた結果を提供する。対照的に、ランドマーク－フルで訓練する時に性能が低下される。したがって、ランドマーク－フルの検証セットに関する基準線に対するハイパーパラメータが再調整され、ハードネガティブマイニングのハイパーパラメータを減少させることが重要であることがわかる（２００個のクエリ及び５００個のネガティブプールサイズ）。全ての場合において、ＳｕｐｅｒＬｏｓｓは、τに対する全域平均を用いて基準線に比べて同一の設定らで訓練された。テスト時に、Radenovic F．et al．に従い、多数のスケール及び記述子ホワイトニング(descriptor whitening）を使用した。

異なる訓練セットら及び損失に対する平均精密度ｍＡＰが以下の表９に示されている。Ｈａｒｄ－ｎｅｇは、ハードネガティブマイニングに使用される（クエリサイズやプールサイズ）を示す。クリーンデータでのＳｕｐｅｒＬｏｓｓの影響は小さい。しかしながら、ノイズのあるデータ（ランドマーク－フル）に対する印象的な性能向上を可能とし、クリーンデータを用いて訓練された基準線よりも全般的に優れた性能を持つ。また、表９の下部には同一のコードで訓練及び評価された最新結果が含まれている。ＳｕｐｅｒＬｏｓｓは、ＲＰａｒｉｓにおいてＲｅｓＮｅｔ－１０１＋ＧｅＭに比べて、より深いバックボーンにも拘らず、そして、これが収集するのに複雑かつ高価の手順が必要な類似のサイズのクリーンデータセットであるＳｆＭ－１２０ｋに対して訓練されるという事実にも拘らず、若干良い性能を持つ。

ランドマーククリーンに対して訓練する際、Radenovic F．et al．からの基本ハイパーパラメータは、オプティマイザ及びハードネガティブマイニングに使用された。具体的に、学習率及び加重値の減衰を全部１ｅ－６に設定したアＡｄａｍオプティマイザを用いて、１００回のエポックの間に訓練を遂行した。学習率は、全体的にｅｘｐ（－１）により指数的に減衰する。各々のエポックで２０００個のタプル（tuple）が５個のタプルのバッチで網に供給される。各々のタプルは１個のクエリ、１個のポジティブ及び５個のネガティブ（すなわち、２０Ｋハードネガティブサンプルのプールからマイニングされた１個のポジティブペア及び５個のネガティブペア）からなる。

図１０はノイズのあるランドマーク－フルのデータセットに対して訓練する間のモデル収束を示すプロットである。図に示すように、ノイズの多いランドマーク－フルのデータセットに対して同一の設定らを用いて訓練する際に、基準線は収束するのに問題があって性能がよくない。これは、システム的にハードネガティブマイニングは、モデルが正しく学習できなくするエラーラベル付けのネガティブペアを検索するからである。かかる理由により、ランドマーク－プールの検証セットに対する基準線のハードネガティブマイニングパラメータ及び学習率は調整が必要である。ネガティブプールのサイズを減少させると、ノイズのあるネガティブイメージが発見される可能性が低減するため、実際に状況が改善される。新しい学習率、タプルの数及びネガティブフルのサイズは、各々１ｅ－５、２００及び５００である。網は、エポック当たりより少ないタプル（したがって、より少ないペア）を見るため、学習率の同一の全体指数減衰に２倍より長い（１００回の代わりに２００回のエポック）訓練が遂行される。ＳｕｐｅｒＬｏｓｓの場合、全域平均を用いてτを計算して検証セットでλ＝０．０５を検証する。再調整された基準線及びＳｕｐｅｒＬｏｓｓの収束が図１０に示されている。基準線が大きく改善され、これから適切に収束されるが、訓練の全ての段階においてＳｕｐｅｒＬｏｓｓが相変らず大きいマージンで優れた性能を持つ。

一部の特定の実施例が詳細に前述されたが、実施例等の意図的な範囲から逸脱することなく、前述の教示に基づき、そして添付の特許請求の範囲等の内容内において、実施例の多様な修正、変更及び改善が可能であることは当業者に明白である。また、当業者に慣れている分野等は、本明細書で説明された実施例等を不要に曖昧にしないように本明細書で説明しなかった。したがって、実施例等は、特定の例示的な実施例により限定されるものでなく、添付の特許請求の範囲の範囲のみによって限定されることを理解すべきである。

前記実施例等が方法段階の脈絡から説明されたが、それらは、また、対応する装置又はシステムの対応するコンポーネント、モジュール又は特徴の説明を示す。

方法段階等の一部又は全部は、プロセッサ、マイクロプロセッサ、電子回路又はプロセシング回路部により（或いは、それを用いて）実行されるという点においてコンピュータにより具現可能である。

前述した実施例等は、ハードウェアやソフトウェアで具現可能である。具現は、コンピュータ読み取り可能な記憶媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、Ｂｌｕ－Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ及びフラッシュメモリのような非一時的な記憶媒体を用いて遂行できる。そのようなコンピュータ読み取り可能な媒体は、汎用又は特殊の目的のコンピュータシステムによりアクセスできる任意の利用可能な媒体であり得る。

一般に、実施例等は、プログラムコード又はコンピュータ実行可能な命令語を持つコンピュータプログラム製品として具現でき、プログラムコード又はコンピュータ実行可能な命令語らは、コンピュータプログラム製品がコンピュータで実行される際に、方法らの一つを遂行するように作動可能である。プログラムコード又はコンピュータ実行可能な命令語らは、例えば、コンピュータ読み取り可能な記憶媒体に保存できる。

一実施例において、記憶媒体（又はデータキャリアやコンピュータ読み取り可能な媒体）は、プロセッサにより遂行される際に、本明細書で記述された方法らの一つを遂行するためのコンピュータプログラム又はコンピュータ実行可能な命令語を保存する。追加の実施例において、装置は、一つ以上のプロセッサ及び前述した記憶媒体を含む。

追加の実施例において、装置は、例えば、メモリと通信するプロセッサのようなプロセシング回路部のような手段を含み、この手段は、本明細書で記述された方法らの一つを遂行するように構成又は適応される。

追加の実施例は、本明細書で記述された方法らの一つを遂行するためのコンピュータプログラム又は命令語らが設置されたコンピュータを含む。

前述した方法等及び実施例等は、データ交換のためのインターネットのようなネットワーク１１０４（無線及び／又は有線であり得る）を介して通信するサーバ１１００及び一つ以上のクライアントデバイス１１０２を含む図１１に例示されたようなアーキテクチャー内で具現できる。サーバ１１００及びクライアントデバイス１１０２は、データプロセッサ１１１２及びハードディスクのようなメモリ１１１３を含む。クライアントデバイス１１０２は、自動運転車１１０２ｂ、ロボット１１０２ｃ、コンピュータ１１０２ｄ、または携帯電話１３０２ｅを含む、サーバ１１００と通信する任意のデバイスであり得る。

より正確には、一実施例において、本明細書で記述された実施例等による技術は、サーバ１１００で遂行できる。他の実施例等において、本明細書で記述された実施例等による技術は、クライアントデバイス１１０２で遂行できる。また他の実施例等において、前記実施例等で説明された技術等は、分散方式により異なるサーバ又は複数のサーバで遂行できる。

Claims

データプロセシングのタスクを遂行するように、神経網を訓練するためのコンピュータ具現方法であって、
ラベル付けのデータサンプルのセットの各々のデータサンプルに対して、
前記データプロセシングのタスクに対する第１の損失関数を用いて、前記データサンプルに対するタスク損失を算出するステップ；
前記タスク損失を第２の損失関数に入力して、前記データサンプルに対する第２の損失を算出するステップ（前記第２の損失関数は、前記データサンプルに対して算出された前記タスク損失に基づき、前記データサンプルの加重値を自動で算出して、前記神経網により予測された前記データサンプルのラベルの信頼度を推定する）；及び、
前記第２の損失を用いて、前記神経網の少なくとも一部の学習可能なパラメータをアップデートするステップを含む、コンピュータ具現方法。
前記データサンプルに対して算出された前記タスク損失に基づき、前記データサンプルの加重値を自動で算出するステップは、
前記タスク損失が閾値未満の場合、前記データサンプルの前記加重値を増加させるステップ、及び、前記タスク損失が閾値超過の場合、前記データサンプルの前記加重値を減少させるステップを含む、請求項１に記載のコンピュータ具現方法。
前記閾値は、前記タスク損失の移動平均又は固定の平滑化パラメータを持つ前記タスク損失の指数移動平均を用いて算出される、請求項２に記載のコンピュータ具現方法。
前記第２の損失関数は、前記タスク損失及び前記閾値の差に基づいた損失増幅項を含む、請求項２又は３に記載のコンピュータ具現方法。
前記第２の損失関数は、

で表され、ここで０＜λ＜１であり、ｌは前記タスク損失であり、τは前記閾値であり、λは前記第２の損失関数のハイパーパラメータである、請求項２乃至４の何れか一項に記載のコンピュータ具現方法。
前記タスク損失に基づいて前記データサンプルの信頼値を算出するステップをさらに含む、請求項２乃至４の何れか一項に記載のコンピュータ具現方法。
前記タスク損失に基づいて前記データサンプルの信頼値を算出するステップは、前記タスク損失に対する前記第２の損失関数を最小化する信頼パラメータの値を決定するステップを含む、請求項６に記載のコンピュータ具現方法。
前記信頼値は、

によって変化することができ、ここでｌは前記タスク損失であり、τは前記閾値であり、λは前記第２の損失関数の正規化ハイパーパラメータである、請求項６又は７に記載のコンピュータ具現方法。
前記損失増幅項は、σ^＊（ｌ―τ）で表され、ここでσ^＊は前記信頼値である、請求項４を引用する請求項６乃至８の何れか一項に記載のコンピュータ具現方法。
前記第２の損失関数は、λ（ｌｏｇσ^＊）^２で表される正規化項を含み、ここでσ^＊は前記信頼値である、請求項６乃至９の何れか一項に記載のコンピュータ具現方法。
第２の損失関数は、

で表され、ここでσは前記信頼パラメータであり、ｌは前記タスク損失であり、τは前記閾値であり、λは前記第２の損失関数のハイパーパラメータである、請求項７又は請求項７を引用する請求項８乃至１０の何れか一項に記載のコンピュータ具現方法。
前記第２の損失関数は、前記タスク損失に対して単調に増加する凹関数であり、選択的に前記第２の損失関数は同次関数である、請求項１乃至３の何れか一項に記載のコンピュータ具現方法。
イメージプロセシングのタスクを遂行するように、請求項１乃至１２の何れか一項に記載のコンピュータ具現方法によって訓練される神経網。
一つ以上のプロセッサにより実行される際、請求項１乃至１２の何れか一項に記載のコンピュータ具現方法を遂行するコンピュータ実行可能な命令語らが保存されるコンピュータ読み取り可能な記憶媒体。
請求項１乃至１２の何れか一項に記載のコンピュータ具現方法を遂行するように構成されるプロセシング回路を含む装置。