JP2019509551A - Nペア損失による距離計量学習の改善 - Google Patents

Nペア損失による距離計量学習の改善 Download PDF

Info

Publication number
JP2019509551A
JP2019509551A JP2018540162A JP2018540162A JP2019509551A JP 2019509551 A JP2019509551 A JP 2019509551A JP 2018540162 A JP2018540162 A JP 2018540162A JP 2018540162 A JP2018540162 A JP 2018540162A JP 2019509551 A JP2019509551 A JP 2019509551A
Authority
JP
Japan
Prior art keywords
pairs
classes
training
cases
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018540162A
Other languages
English (en)
Inventor
キーユク ソン
キーユク ソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2019509551A publication Critical patent/JP2019509551A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

方法は、訓練事例のN個のペアと、そのためのクラスラベルとを受信することを含む。各ペアは、それぞれのアンカー事例と、ポジティブまたはネガティブ訓練事例となり得る、それぞれの非アンカー事例とを含む。該方法は、DH−CNNを適用することにより、該ペアの特徴を抽出することと、該特徴に基づき各ペアに関してアンカー事例と非アンカー事例との間の類似性尺度をそれぞれ算出することをさらに含む。加えて、該方法は、各ペアに関して、それぞれの類似性尺度に基づいて類似性スコアを算出することを含む。該スコアは、該ペアにおける全てのアンカー点とネガティブ訓練事例との間の類似性に対する、該ペアにおける全てのアンカー点とポジティブ訓練事例との間の類似性を表している。該方法は、同じクラスからの複数の訓練事例を共にプルし、異なるクラスからの複数の訓練事例を別々にプッシュするように、各ペアに関するアンカー事例の類似性スコアをそれぞれ最大化することをさらに含む。

Description

この出願は、2016年2月4日に出願された米国仮特許出願第62/291025号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、コンピュータ学習に関し、特にNペア損失による距離計量学習(distance metric learning)の改善に関する。
深層計量学習は、多くの方法で取り組まれてきたが、中でもコントラスティブ損失(contrastive loss)及びトリプレット損失(triplet loss)が深層学習の訓練対象のために用いられてきた。過去のアプローチは、2つの異なるクラス間のペアワイズ関係を考慮したものであり、不十分な局所最小値への遅い収束に難点があった。そのため、計量学習の改善が求められている。
本発明の態様によれば、コンピュータ実施方法が提供される。本方法は、プロセッサにより、訓練事例のN個のペアと複数のクラスに対応する該訓練事例のクラスラベルとを受信することを含む。N個の各ペアはそれぞれのアンカー事例を含み、ポジティブ訓練事例またはネガティブ訓練事例となり得る、それぞれの非アンカー事例をさらに含む。本方法は、プロセッサにより、N個のペア及びクラスラベルに深層畳み込みニューラルネットワークを適用することで該N個のペアの特徴を抽出することをさらに含む。本方法は、さらにプロセッサにより、該特徴に基づきN個の各ペアに関して、それぞれのアンカー事例とそれぞれの非アンカー事例との間の類似性尺度(similarly measure)をそれぞれ算出することを含む。本方法は、加えてプロセッサにより、N個の各ペアに関して、それぞれの類似性尺度に基づいて類似性スコアを算出することを含む。類似性スコアは、N個のペアにおける全てのアンカー点と全てのネガティブ訓練事例との間の1つまたは複数の類似性に対する、該N個のペアにおける全てのアンカー点と全てのポジティブ訓練事例の間の1つまたは複数の類似性を表している。本方法は、プロセッサにより、分布空間における複数のクラスのうちの同じクラスからの複数の訓練事例を共にプルし(pull together)、該分布空間における複数のクラスのうちの異なるクラスからの複数の訓練事例を別々にプッシュ(push apart)するようにN個の各ペアに関するアンカー事例の類似性スコアをそれぞれ最大化することをさらに含む。
本発明の他の態様によれば、システムが提供される。本システムは、プロセッサを含む。プロセッサは、訓練事例のN個のペアと、複数のクラスに対応する訓練事例のクラスラベルとを受信するように構成されている。N個のペアの各々は、それぞれのアンカー事例を含み、ポジティブ訓練事例またはネガティブ訓練事例となり得る、それぞれの非アンカー事例をさらに含む。プロセッサは、さらにN個のペア及びクラスラベルに深層畳み込みニューラルネットワークを適用することで該N個のペアの特徴を抽出するように構成されている。プロセッサは、さらに該特徴に基づきN個のペアの各々に関して、それぞれのアンカー事例とそれぞれの非アンカー事例との間の、それぞれの類似性尺度を算出するように構成されている。加えて、プロセッサは、N個のペアの各々に関して、それぞれの類似性尺度に基づいて類似性スコアを算出するように構成されている。類似性スコアは、N個のペアにおける全てのアンカー点と全てのネガティブ訓練事例との間の1つまたは複数の類似性に対する、該N個のペアにおける全てのアンカー点と全てのポジティブ訓練事例との間の1つまたは複数の類似性を表している。プロセッサは、さらに分布空間における複数のクラスのうちの同じクラスからの複数の訓練事例を共にプルし、該分布空間における複数のクラスのうちの異なるクラスからの複数の訓練事例を別々にプッシュするようにN個の各ペアに関するアンカー事例の類似性スコアをそれぞれ最大化するように構成されている。
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
図1は、本発明の一実施形態による、本発明を適用できる典型的な処理システム100のブロック図を示している。
図2は、本発明の一実施形態による、本発明を適用できる典型的な環境200を示している。
図3は、本発明の一実施形態による、Nペア損失による深層計量学習のための典型的なシステム/方法300の高レベルブロック/フロー図を示している。
図4は、本発明の一実施形態による、図3の方法300のステップ310をさらに示している。特に、図4は、本発明の一実施形態による、Nペア損失400による距離計量学習をさらに示している。
図5は、先行技術による従来のトリプレット損失599に対する、本発明の一実施形態による、図4のNペア損失400をグラフィカルに示した図である。
図6は、本発明の一実施形態による、Nペア損失による深層計量学習のための方法600のフロー図を示している。 図7は、本発明の一実施形態による、Nペア損失による深層計量学習のための方法600のフロー図を示している。 図8は、本発明の一実施形態による、Nペア損失による深層計量学習のための方法600のフロー図を示している。
本発明は、Nペア損失による距離計量学習の改善を対象とする。
本発明は、深層学習を用いた、出力クラスの数が極端に多い、出力クラスの総数が未知である、または出力クラスの分布が経時的に変動しやすいときの、距離計量学習の根本的な機械学習問題を解決する。
一実施形態において、従来技術手法とは対照的に、本発明はN個の異なるクラスからの事例のN個のペアを一度に(at once)考慮する。
一実施形態において、本発明は深層計量学習のための新しい目的関数を導入する。本目的関数によって、よりよい局所最適解(local optimum)に対するより速い収束が可能となる。
本発明は、深層計量学習のためのNペア損失を提供する。本発明では、同じクラスからの複数の事例を共にプルし、異なるクラスからの複数のものを別々にプッシュするように、深層ニューラルネットワークを訓練させる。本発明は、各更新時における1つのネガティブ事例だけでなく、全ての異なるクラスからのN−1個のネガティブ事例を、参照事例との相対的な距離に基づいてプッシュする。
図1は、本発明の一実施形態による、本発明の原理を適用できる典型的な処理システム100を示している。処理システム100は、システムバス102を介して他の構成要素が動作可能に接続された、少なくとも1つのプロセッサ(CPU)104を含む。システムバス102には、キャッシュ106、リードオンリメモリ(ROM)108、ランダムアクセスメモリ(RAM)110、入力/出力(I/O)アダプタ120、サウンドアダプタ130、ネットワークアダプタ140、ユーザインターフェースアダプタ150及びディスプレイアダプタ160が動作可能に接続されている。
第1の記憶デバイス122及び第2の記憶デバイス124は、I/Oアダプタ120によってシステムバス102に動作可能に接続されている。記憶デバイス122及び124は、ディスク記憶デバイス(例えば、磁気または光ディスク記憶デバイス)、固体磁気デバイス等のうちのいずれであってもよい。記憶デバイス122及び124は、同じタイプの記憶デバイスであってもよく、異なるタイプの記憶デバイスであってもよい。
スピーカ132は、サウンドアダプタ130によってシステムバス102に動作可能に接続されている。トランシーバ142は、ネットワークアダプタ140によってシステムバス102に動作可能に接続されている。ディスプレイデバイス162は、ディスプレイアダプタ160によってシステムバス102に動作可能に接続されている。
第1のユーザ入力デバイス152、第2のユーザ入力デバイス154及び第3のユーザ入力デバイス156は、ユーザインタフェースアダプタ150によってシステムバス102に動作可能に接続されている。ユーザ入力デバイス152、154及び156は、キーボード、マウス、キーパッド、イメージキャプチャデバイス、モーション感知デバイス、マイクロホン、あるいはこれらの装置のうちの少なくとも2つのデバイスの機能を組み込んだデバイス等のいずれであってもよい。もちろん、本発明の原理の趣旨を維持する限りにおいて、他のタイプの入力デバイスを使用することも可能である。ユーザ入力デバイス152、154及び156は、同じタイプのユーザ入力デバイスであってもよく、異なるタイプのユーザ入力デバイスであってもよい。ユーザ入力デバイス152、154及び156は、システム100に情報を入力し、システム100から情報を出力するために使用される。
もちろん、処理システム100は、当業者であれば容易に思いつくような他の要素(不図示)を含んでいてもよく、特定の要素を除いてもよい。例えば、当業者であれば容易に理解できるが、処理システム100には、その詳細な実装に応じて他の様々な入力デバイス及び/または出力デバイスを含むことができる。例えば、無線及び/または有線による種々の入力デバイス及び/または出力デバイスを使用できる。さらに、当業者であれば容易に理解できるが、様々な構成において追加のプロセッサ、コントローラ、メモリ等を用いることも可能である。処理システム100の上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
加えて、図2に関連して後述する環境200は、本発明のそれぞれの実施形態を実現するための環境であるということを理解されたい。処理システム100の一部または全ては、環境200の要素の1つまたは複数において実現されてもよい。
さらに、処理システム100は、例えば、図3の方法300の少なくとも一部、及び/または図4の方法400の少なくとも一部、及び/または図6−8の方法600の少なくとも一部を含む、本明細書で説明する方法の少なくとも一部を実施してもよいことを理解されたい。同様に、環境200の一部または全ては、図3の方法300の少なくとも一部、及び/または図4の方法400の少なくとも一部、及び/または図6〜8の方法600の少なくとも一部を実施するために使用されてもよい。
図2は、本発明の一実施形態による、本発明を適用できる典型的な環境200を示している。該環境200は、本発明を適用できるコンピュータネットワークの代表例である。図2に示されている要素は、説明のために記載されている。しかしながら、本発明は、本明細書で提供される、本発明の教示が与えられた当業者によって容易に理解できるが、本発明の趣旨を維持する限りにおいて、他のネットワーク構成が適用できることを理解されたい。
環境200は、少なくともコンピュータ処理システム210のセットを含む。コンピュータ処理システム210は、サーバ、デスクトップ、ラップトップ、タブレット、スマートフォン、メディア再生デバイス等を含むが、それらに限定されるものではなく、任意のタイプのコンピュータ処理システムであってもよい。説明のために、コンピュータ処理システム210は、サーバ210A、サーバ210B及びサーバ210Cを含む。
一実施形態において、本発明はNペア損失により距離計量学習を改善する。本発明は、いずれかのコンピュータ処理システム210を用いて、本明細書で説明する深層学習による距離計量学習を実施できる。一実施形態において、コンピュータ処理システム210の1つは他のコンピュータ処理システムで受信した情報を分類してもよい。
図2に示されている実施形態において、その複数の要素はネットワーク201によって相互に接続されている。しかしながら、他の実施形態では、他のタイプのコネクションを用いることもできる。さらに、図2における1つまたは複数の要素は、限定されるものではないが、デジタル信号処理(DSP)回路、プログラマブルプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、複合プログラマブル論理デバイス(CPLD)等を含む、様々なデバイスに実装されてもよい。環境200の要素のこれらの変形例及び他の変形例は、本発明の趣旨を維持する限りにおいて、本明細書において提供される本発明の教示が与えられた当業者によって容易に見出される。
図3は、本発明の一実施形態による、Nペア損失による深層計量学習のための典型的なシステム/方法300の高レベルブロック/フロー図を示している。
ステップ310において、深層学習による距離計量学習を実行する。
一実施形態において、ステップ310は、ステップ310A、310B及び310Cを含む。
ステップ310Aにおいて、深層畳み込みニューラルネットワーク350に画像を提供する。該画像には、N個の異なるクラスからのN個のペアの事例を一度に含む。
ステップ310Bにおいて、該画像から特徴を抽出する。
ステップ310Cにおいて、該特徴に基づきNペア損失による距離計量学習を実施し、分類器370を形成する。
ステップ320において、該システムを画像検証に基づいてテストする。
一実施形態において、ステップ320は、ステップ320A、320B、320C、320D、320E及び320Fを含む。
ステップ320Aにおいて、第1の画像(画像1)を受信する。
ステップ320Bにおいて、第2の画像(画像2)を受信する。
ステップ320Cにおいて、訓練された深層畳み込みニューラルネットワーク350Aを用いて特徴を抽出する。深層畳み込みニューラルネットワーク350は、訓練された深層畳み込みニューラルネットワーク350Aとなるために訓練される。
ステップ320Dにおいて、第1の特徴(特徴1)を出力する。
ステップ320Eにおいて、第2の特徴(特徴2)を出力する。
ステップ320Fにおいて、該特徴(特徴1及び特徴2)を分類器370に入力する。
分類器370は、特定のアクションが行えることに基づき予測を生成するために用いることができる(例えば、図6を参照)。
ステップ310に関して、その処理は、少なくともN個の異なるクラスからの事例のN個のペアを一度に用いることにおいて、従来のアプローチとは異なることを理解されたい。
ステップ320に関して、Nペア損失は近傍成分分析(neighborhood component analysis)の形態とみなせることを理解されたい。
図4は、本発明の一実施形態による、図3の方法300のステップ310をさらに示している。特に、図4は、本発明の一実施形態による、Nペア損失400による距離計量学習をさらに示している。
深層畳み込みニューラルネットワーク350は、N個の異なるクラスからのN個のペアの画像421を一度に受信する。図4では、符号401がNペア損失による訓練前の特徴を示し、符号402がNペア損失による訓練後の特徴を示している。
図4において、以下の表記が適用される。
x:入力画像、
f:出力特徴、
:第iのペアからの事例、
:第iのペアからのポジティブ事例、
複数のfは異なるクラスラベルを有する。
一実施形態において、Nペア損失は以下のように定義できる。
図5は、先行技術による従来のトリプレット損失599に対する、本発明の一実施形態による図4のNペア損失400をグラフィカルに示した図である。
従来のトリプレット損失599は、2ペア損失と等価である。
2ペア損失は、N>2におけるNペア損失の一般化である。
以下の式が適用される。
図6〜8は、本発明の一実施形態による、Nペア損失による深層計量学習のための方法600のフロー図を示している。
ステップ610において、訓練事例のN個のペアと、複数のクラスに対応する該訓練事例のクラスラベルとを受信する。N個の各ペアは、それぞれのアンカー事例を含み、ポジティブ訓練事例またはネガティブ訓練事例となり得る、それぞれの非アンカー事例をさらに含む。一実施形態において、訓練事例のN個の各ペアは複数のクラスのうちの異なるクラスに対応できる。一実施形態において、複数のクラスは、複数のクラスと1つまたは複数の他のクラスとを含む、クラスのセットからサブセットとしてランダムに選択されてもよい。一実施形態において、複数のクラスの総数は、(i)経時的に変化する、(ii)しきい値量よりも多い、及び(iii)未知である、のうちの少なくとも1つである。
ステップ620において、N個のペア及びクラスラベルに深層畳み込みニューラルネットワークを適用することで該N個のペアの特徴を抽出する。
ステップ630において、該特徴に基づきN個の各ペアにおける、それぞれのアンカー事例とそれぞれの非アンカー事例との間の類似性尺度をそれぞれ算出する。
ステップ640において、N個の各ペアに関して、それぞれの類似性尺度に基づいて類似性スコアを算出する。類似性スコアは、N個のペアにおける全てのアンカー点と全てのネガティブ訓練事例との間の1つまたは複数の類似性に対する、該N個のペアにおける全てのアンカー点と全てのポジティブ訓練事例との間の1つまたは複数の類似性を表している。
一実施形態において、ステップ640は、ステップ640A、640B及び640Cのうちの1つまたは複数を含む。
ステップ640Aにおいて、下限及び上限のうちの少なくとも1つにより、訓練事例のN個の各ペアの類似性スコアをそれぞれ算出するために用いる変数(p)の境界を定める。該変数は、アンカー点とネガティブ訓練事例に対するアンカー点とポジティブ訓練事例との間の相対的な類似性を示している。
ステップ640Bにおいて、類似性スコアの対数の勾配を計算する。
ステップ640Cにおいて、深層計量学習のための目的関数を最大化する。
一実施形態において、ステップ640Cは、ステップ640C1を含む。
ステップ640C1において、アンカー点に関連するオブジェクション関数の一部を最大化する。目的関数には、アンカー点に関する一部と非アンカー点に関する少なくとも1つの他の部分とを含む。
ステップ650において、分布空間において、複数のクラスのうちの同じクラスからの複数の訓練事例を共にプルし、該分布空間における該複数のクラスのうちの異なるクラスからの複数の訓練事例を別々にプッシュするように、該N個の各ペアに関する各アンカー事例の類似性スコアを最大化する。一実施形態において、ステップ650では、分布空間において、訓練事例のN個のペアの中から、N−1個の事例を単一の参照サンプルから離れるように同時にプッシュできる。一実施形態において、ステップ650では、分布空間において、訓練事例のN個のペアの中から、N−1個の事例を単一の参照サンプルの方に同時にプッシュできる。
ステップ660において、深層畳み込みニューラルネットワークを用いて予測を生成する。例えば、顔認識予測、音声認識予測、話者認識予測等を生成する。
ステップ670において、該予測に応じてアクションを実施する。当業者によって理解されるように、とり得るアクションは実施形態に応じたものである。例えば、デバイス、システムまたは設備を含む、それらに限定されるものではないが、エンティティへのアクセスを該予測に応じて付与できる。前述したアクションは単なる説明的なものであり、当業者によって容易に理解されるように、本発明の趣旨を維持する限りにおいて、他のアクションも実施できることを理解されたい。
一実施形態において、ステップ670はステップ670Aを含む。
ステップ670Aにおいて、ユーザを照合し、予測に基づいて該ユーザにエンティティへのアクセスを提供する。
次に本発明の実施形態による教師あり深層計量学習に関して説明する。
教師あり深層計量学習に関する説明は、コントラスティブ及びトリプレット損失に関する説明で始まる。
教師あり深層計量学習は、同じクラスからの複数事例間の距離を小さくし、異なるクラスからのものでは大きくすることを維持する、深層ニューラルネットワークを用いるデータの埋め込みベクトル表現を学習することを意図している。コントラスティブ損失及びトリプレット損失関数は、深層埋め込みネットワークを訓練するために用いられてきた。
Figure 2019509551
ここで、
Figure 2019509551
は、深層ニューラルネットワークで定義される埋め込みカーネルであり、y∈{1,…,L}は、データx∈χのラベルである。本明細書では、x及びxを、xのポジティブ事例及びネガティブ事例を表すために用いる。すなわち、y=y及びy≠yである。[d]=max{0;d}及びm>0は、マージン用のチューニングパラメータである。簡略化のために、f=f(x)は、全ての上付き文字及び下付き文字がある場合は継承しながら、xの埋め込みベクトル表現を示すために使用される。2つの目的関数は、それらの両方が埋め込み空間に対するラベル空間における複数事例間の距離を維持するために埋め込みカーネルを最適化するという意味で似ているが、トリプレット損失は、ポジティブペアとネガティブペアとの間の距離の相対的なマージンにのみ関心があり、それらの距離の絶対値には関心がないため、トリプレット損失はコントラスティブ損失の緩和(relaxation)と考えることができる。損失関数はカーネルパラメータθに関して微分可能であるため、損失関数は深層ニューラルネットワークを訓練するための目的関数として用いることができる。
簡単そうに思われるが、上記損失関数のマージン制約は、訓練のわずかなエポック後の訓練ペアまたはトリプレットの大部分に関して容易に成立させることができるため、非常に特徴的な埋め込みベクトルをもたらす、深層ニューラルネットワークを訓練するためにコントラスティブ損失またはトリプレット損失関数を適用することは自明ではない。不適切な局所最小値を避けるために、数千の事例を含む各ミニバッチ(mini-batch)のうちの全てのポジティブ事例を除いた(セミ)ハードネガティブ事例を選択するオンライントリプレット選択アルゴリズム等の異なるデータ選択方法が研究されてきた。データ選択ステップは不可欠であるが、各データサンプルは距離を計算するために深層ニューラルネットワークのフォワードパスを経由するため、深層計量学習にとってより非効率となる。
次に本発明の実施形態による深層計量学習のためのNペア損失に関して説明する。また、なぜNペア損失が深層計量学習に関する他の既存の損失関数よりも優れているかに関する理論的洞察を、トリプレット損失及びソフトマックス損失等の損失関数との関係を示すことで提供する。
まずNペア損失に関して説明する。訓練事例のN個のペア
Figure 2019509551
及びラベル
Figure 2019509551
を考える。定義によれば、
Figure 2019509551
であり、事例のペアのどれも同じクラスからのものではない、すなわちy≠y、∀i≠jであると仮定する。アンカー点xとポジティブまたはネガティブ点
Figure 2019509551
との間の類似性尺度は、以下のように定義され、
Figure 2019509551
スコア
Figure 2019509551
は、正規化された自己類似性である、すなわち、
Figure 2019509551
である。
は(0,1)によって境界が定められており、それはアンカー点とネガティブ点との類似性に対するアンカー点とポジティブ点との間の相対的な類似性を表していることに留意されたい。図4で説明したように、Nペア訓練サブセット内の全てのアンカー点のスコアを最大化することは、同じクラスからの複数の事例を共にプルし、同時にそれは異なるクラスからの複数の事例を、それらの事例の相対的な非類似性に基づいて離れるようにプッシュするものである。すなわち、アンカー点と近いネガティブ事例は、既に十分遠いものよりも離れるようにプッシュされることになる。結局、Nペア損失は以下のように定義される。
Figure 2019509551

Figure 2019509551
、fに関するlogpの勾配は以下で導かれる。
Figure 2019509551
また、θに関する勾配は連鎖律(chain-rule)によって計算できる。
表1は、深層計量学習のための損失関数の比較表を示している。2ペア損失は、∈収束基準下におけるトリプレット損失と等価であり、その2ペア損失のスコア関数は、N>2におけるNペア損失のスコア関数に対する近似である。
Figure 2019509551
次にトリプレット損失とNペア損失の比較に関して説明する。
本発明を説明するために、トリプレット損失及びソフトマックス損失に対するNペア損失について説明する。
トリプレット損失とNペア損失の比較に関して、トリプレット損失及び2ペア損失を例にして説明する。
複数の損失関数の関係は、(2つの損失関数のための埋め込みカーネルの最適なセットは等価であるが)各損失関数に関する、最適な埋め込みカーネルの2つのセット間の等価性を示すことで明示できる。損失関数の最適性条件は以下のように定義される。
Figure 2019509551
ここで、
Figure 2019509551
であり、埋め込みカーネルfは、2ペア損失及びトリプレット損失の両方に関して単位l2ノルムを持つように制約される。以下では、
Figure 2019509551
のときに、
Figure 2019509551
及び
Figure 2019509551
が、等価であることが示されている。
Figure 2019509551
であるとし、任意の有効2ペアサンプル
Figure 2019509551
を考える。
Figure 2019509551
は有効トリプレットサンプルを形成するため、以下が得られる。
Figure 2019509551
これは、
Figure 2019509551
であることを示している。
Figure 2019509551
:同様に、
Figure 2019509551
であるとし、任意の有効トリプレットサンプル
Figure 2019509551
を考える。
Figure 2019509551
における任意のxに関して、以下を満たす2ペアサンプル
Figure 2019509551
を形成できる。
Figure 2019509551
ここで、式(15)の詳細は、式(11)-(14)を後方へ繰り返すために省略されている。これは、最終的に
Figure 2019509551
であることを示している。
次にソフトマックス損失からの洞察に関して説明する。
L個のクラスによるソフトマックス損失は、以下のように書き表される。
Figure 2019509551
ここで、
Figure 2019509551
は、クラスlに関する重みベクトルまたはテンプレートである。Lが非常に大きい場合、訓練で厳密な分配関数
Figure 2019509551
を計算することは、しばしば非効率的または非実用的である。そのようなケースにおいて、厳密な分配関数は、以下のようにグラウンドトルーステンプレート(ground-truth template)を含むN個のテンプレートの小さいサブセットをランダムに選択することで近似できる。
Figure 2019509551
ここで、S⊂{1,…,L}、|S|=Nであり、y∈Sである。局所分配関数Z(x)は、任意のSに関してZ(x)よりも小さく、近似値はNが大きくなると共により正確になる(重点サンプリング及びハッシング等の高度なサブセットサンプリング法を、小さいNによる近似誤差を低減するために用いてもよいことに留意されたい)。2ペア損失の自己類似性スコアはNペア損失の自己類似性スコアと近似とみなすことができるため、このことはNペア損失を2ペア損失(またはM<NにおけるMペア損失)と比較したときに価値のある洞察をもたらす。すなわち、Nペア損失の任意の自己類似性スコアは2ペア損失の自己類似性スコアによって近似できるが、いずれも厳密ではない。
Figure 2019509551
∀j∈{1,…,N}\{i}。このことは、2ペア損失で訓練されるとき、Nペア損失の実際のスコアはモデルの過大評価されたスコアの背後に隠される可能性があり、該モデルはおそらく準最適であることを示唆している。2ペア損失は、N>2であるNペア損失モデル、またはソフトマックス損失モデルと比べて訓練データに対して著しくアンダーフィットするという結論が出されている。
次に様々な関係に関する本発明の意義について説明する。
これらの関係の意義を下記に要約する。
1.2ペア損失及びトリプレット損失に関する埋め込みカーネルの最適なセットは等価であり、これらの損失関数で訓練される複数のモデルの性能は類似する。
2.Mペア損失は、M<NにおけるNペア損失の近似である。
次にL2ノルム正則化に関して説明する。
式(4)におけるスコア関数は、埋め込みベクトルのノルムに対して不変であるようには設計されていないことに留意されたい。すなわち、スコア関数は、埋め込みベクトルをリスケーリングすることで、1または0へ近くなるように任意に作ることができる。このことは、自己類似性スコア関数は、正しい方向を見出すよりも、むしろ埋め込みベクトルのノルムを増加させることで最大化することが可能であり、トリプレット損失を計算するために、そのような状況、例えば埋め込みベクトルのl2正規化を避けるために、該埋め込みベクトルのノルムを正則化することが重要であることを示唆している。しかしながら、自己類似性スコアは、
Figure 2019509551
によって上方境界が定められるため(例えば、上方境界は、N=2のときは0.88であるが、N=64のときは0.105に減少する)、Nペア損失に関して、l2正規化を適用することで最適化することは非常に難しい。本願では、代わりに埋め込みベクトルのl2ノルムが小さくなることを促進させる以下のペナルティ項
Figure 2019509551
を目的関数に追加することで正則化する。
次に本発明によって達成される解決策の競争力の高い/商業的な価値に関して説明する。
本発明は、(1)ハードネガティブデータマイニングを除去すること、(2)計算的にかつパラメータの重いソフトマックス層を除去すること、(3)過去の深層計量学習アプローチよりも速く収束すること、によって効率的な訓練が可能となる。
本発明は、出力クラス(例えば、識別情報)の数が極端に大きい、顔認識等の技術に関して効果的である。
本発明は、出力クラスの数が未知である、または経時的に変化する、オンライン学習に関して効果的である。
事例の2つのペアをハードネガティブマイニングで用いるよりも、むしろ事例のN個のペアは、異なるクラスの事例を素早く別々にプッシュできるクラスのランダムサブセットから用いられる。
本明細書に記載した実施形態は、ハードウェアで実現してもよく、ソフトウェアで実現してもよく、ハードウェアとソフトウェアの両方の要素を含んでいてもよい。好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されないソフトウェアでも実現可能である。
実施形態には、コンピュータもしくは任意の命令実行システムによって使用される、または関連して使用されるプログラムコードを提供する、コンピュータで利用可能な、またはコンピュータで読み取り可能な媒体からアクセスできる、コンピュータプログラム製品を含んでもよい。コンピュータで利用可能な、またはコンピュータで読み取り可能な媒体には、命令実行システム、機器、もしくは装置によって使用される、または関連して使用されるプログラムを格納、伝達、伝搬または転送する任意の機器を含んでもよい。該媒体は、磁気媒体、光学媒体、電子媒体、電磁気媒体、赤外線媒体、または半導体システム(または機器もしくは装置)、あるいは伝搬媒体であってよい。該媒体には、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク及び光ディスク等のコンピュータで読み取り可能な媒体を含んでもよい。
各コンピュータプログラムは、汎用または特別な目的を持つプログラム可能なコンピュータで読み取ることができる、機械で読み取り可能なストレージメディアまたは装置(例えば、プログラムメモリまたは磁気ディスク)に格納される。該コンピュータプログラムは、ストレージメディアまたは装置から本明細書に記載された手順を実行するコンピュータで読み出される、該コンピュータの設定及び制御動作のためのものである。本発明のシステムには、本明細書に記載した機能を実行する、特定の及び事前に定義された方法でコンピュータに動作させるように構成されたコンピュータプログラムを含む、コンピュータで読み取り可能なストレージメディアも考慮される。
プログラムコードを記憶及び/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に接続された少なくとも1つのプロセッサを備えていてもよい。このメモリ要素には、処理の実行中にバルク記憶装置からコードが検索される回数を減らすために、プログラムコードの実際の実行中に用いられるローカルメモリ、バルク記憶装置及び少なくともいくつかのプログラムコードを一時的に記憶するキャッシュメモリを備えていてもよい。入出力またはI/O装置(限定されるものではないが、キーボード、ディスプレイ、ポインティング装置等を含む)は、直接またはI/Oコントローラを介してシステムに接続されてもよい。
ネットワークアダプタは、データ処理システムが、プライベートネットワークまたは公衆ネットワークを介して、他のデータ処理システムまたは遠隔プリンタもしくは記憶装置に接続されることを可能にするために、上記システムと接続されていてもよい。モデム、ケーブルモデム及びイーサネット(登録商標)カードは、現在利用可能なタイプのネットワークアダプタのほんの一握りのものである。
本明細書で、本発明の「1つの実施形態」または「実施形態」だけでなく、それらの他のバリエーションに言及することは、該実施形態と共に説明する、個別の特徴、構造、特性等々が、本発明の少なくとも1つの実施形態に含まれることを意味する。そのため、「1つの実施形態において」または「一実施形態において」という語句、任意の他のバリエーションの記載は、本明細書の全体を通して様々な場所で現れるが、それらは必ずしも全てが同じ実施形態に言及しているわけではない。
例えば、「A/B」、「A及び/またはB」、並びに「A及びBのうちの少なくとも1つ」の場合における「/」、「及び/または」、並びに「うちの少なくとも1つ」のうちのいずれかの使用は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、または両方の選択肢(A及びB)の選択を含むことを意図したものと理解すべきである。さらに例を挙げれば、「A、B及び/またはC」、並びに「A、B及びCのうちの少なくとも1つ」の場合、このような表現法は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、第3に挙げた選択肢(C)のみの選択、第1及び第2に挙げた選択肢(A及びB)のみの選択、第1及び第3に挙げた選択肢(A及びC)のみの選択、第2及び第3に挙げた選択肢(B及びC)のみの選択、または3つの選択肢全て(A及びB及びC)の選択を含むことを意図したものである。上述した例は、当業者に容易に明らかとなるように、列挙される多数の項目に応じて拡大適用される。
上記は、あらゆる観点において説明的(illustrative)かつ典型的(exemplary)であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims (20)

  1. プロセッサにより、訓練事例のN個のペアと複数のクラスに対応する前記訓練事例に関するクラスラベルとを受信することであって、前記N個の各ペアは、それぞれのアンカー事例を含み、ポジティブ訓練事例またはネガティブ訓練事例となり得る、それぞれの非アンカー事例をさらに含むことと、
    前記プロセッサにより、前記N個のペア及び前記クラスラベルに深層畳み込みニューラルネットワークを適用することで前記N個のペアの特徴を抽出することと、
    前記プロセッサにより、前記特徴に基づき前記N個の各ペアに関して、前記アンカー事例と前記非アンカー事例との間の類似性尺度をそれぞれ算出することと、
    前記プロセッサにより、前記N個の各ペアに関して、それぞれの前記類似性尺度に基づいて類似性スコアを算出することであって、前記類似性スコアは、前記N個のペアにおける全ての前記アンカー点と全てのネガティブ訓練事例との間の1つまたは複数の類似性に対する、前記N個のペアにおける全ての前記アンカー点と全てのポジティブ訓練事例の間の1つまたは複数の類似性を表すことと、
    前記プロセッサにより、分布空間における複数のクラスのうちの同じクラスからの複数の前記訓練事例を共にプルし、前記分布空間における複数のクラスのうちの異なるクラスからの複数の前記訓練事例を別々にプッシュするように、前記N個の各ペアに関する前記アンカー事例の前記類似性スコアをそれぞれ最大化することと、
    を有する、コンピュータ実施方法。
  2. 前記訓練事例のN個の各ペアは、前記複数のクラスのうちの異なるクラスに対応する、請求項1に記載のコンピュータ実施方法。
  3. 前記複数のクラスは、クラスのセットからサブセットとしてランダムに選択され、前記クラスのセットは、前記複数のクラスと1つまたは複数の他のクラスとを含む、請求項2に記載のコンピュータ実施方法。
  4. 前記最大化するステップは、前記分布空間において、前記訓練事例のN個のペアの中から、N−1個の事例を単一の参照サンプルから離れるように同時にプッシュできる、請求項1に記載のコンピュータ実施方法。
  5. 前記最大化するステップは、前記分布空間において、前記訓練事例のN個のペアの中から、N−1個の事例を単一の参照サンプルの方に同時にプッシュできる、請求項1に記載のコンピュータ実施方法。
  6. 前記深層畳み込みニューラルネットワークは、損失関数のセットにおける各損失関数に関する制約のセットを満たすために訓練される埋め込みベクトルを含むように構成され、前記深層畳み込みニューラルネットワークは、損失関数の前記セットを用いて訓練される、請求項1に記載のコンピュータ実施方法。
  7. 前記最大化するステップは、前記類似性スコアの対数の勾配を計算することを有する、請求項1に記載のコンピュータ実施方法。
  8. 前記最大化するステップは、深層計量学習のための目的関数を最大化する、請求項1に記載のコンピュータ実施方法。
  9. 前記複数のクラスの総数は、(i)経時的に変化する、(ii)しきい値量よりも多い、及び(iii)未知である、のうちの少なくとも1つである、請求項1に記載のコンピュータ実施方法。
  10. 前記深層畳み込みニューラルネットワークを用いて生成される予測に基づいてユーザを照合し、前記ユーザにエンティティへのアクセスを提供することをさらに有する、請求項1に記載のコンピュータ実施方法。
  11. 実行時に請求項1に記載のステップをコンピュータに実施させる、コンピュータで読み取り可能なプログラムを実体として包含する、非一時的製造品。
  12. 訓練事例のN個のペアと複数のクラスに対応する前記訓練事例に関するクラスラベルとを受信することであって、前記N個の各ペアは、それぞれのアンカー事例を含み、ポジティブ訓練事例またはネガティブ訓練事例となり得る、それぞれの非アンカー事例をさらに含むことと、
    前記N個のペア及び前記クラスラベルに深層畳み込みニューラルネットワークを適用することで前記N個のペアの特徴を抽出することと、
    前記特徴に基づき前記N個の各ペアに関して、前記アンカー事例と前記非アンカー事例との間の類似性尺度をそれぞれ算出することと、
    前記N個の各ペアに関して、それぞれの前記類似性尺度に基づいて類似性スコアを算出することであって、前記類似性スコアは、前記N個のペアにおける全ての前記アンカー点と全てのネガティブ訓練事例との間の1つまたは複数の類似性に対する、前記N個のペアにおける全ての前記アンカー点と全てのポジティブ訓練事例の間の1つまたは複数の類似性を表すことと、
    分布空間における複数のクラスのうちの同じクラスからの複数の前記訓練事例を共にプルし、前記分布空間における複数のクラスのうちの異なるクラスからの複数の前記訓練事例を別々にプッシュするように、前記N個の各ペアに関する前記アンカー事例の前記類似性スコアをそれぞれ最大化することと、
    を実行するように構成されたプロセッサを有する、システム。
  13. 前記訓練事例のN個の各ペアは、前記複数のクラスのうちの異なるクラスに対応する、請求項12に記載のシステム。
  14. 前記プロセッサは、前記複数のクラスをクラスのセットからサブセットとしてランダムに選択するように構成され、前記クラスのセットは、前記複数のクラスと1つまたは複数の他のクラスとを含む、請求項13に記載のシステム。
  15. 前記プロセッサは、前記類似性スコアの最大化に応答して、前記分布空間において、前記訓練事例のN個のペアの中から、N−1個の事例を単一の参照サンプルから離れるように同時にプッシュするように構成されている、請求項12に記載のシステム。
  16. 前記プロセッサは、前記類似性スコアの最大化に応答して、前記分布空間において、前記訓練事例のN個のペアの中から、N−1個の事例を単一の参照サンプルの方に同時にプッシュするように構成されている、請求項12に記載のシステム。
  17. 前記深層畳み込みニューラルネットワークは、損失関数のセットにおける各損失関数に関する制約のセットを満たすために訓練される埋め込みベクトルを含むように構成され、前記深層畳み込みニューラルネットワークは、損失関数の前記セットを用いて訓練される、請求項12に記載のシステム。
  18. 前記プロセッサは、前記類似性スコアの対数の勾配を計算することで、前記類似性スコアを最大化するように構成されている、請求項12に記載のシステム。
  19. 前記複数のクラスの総数は、(i)経時的に変化する、(ii)しきい値量よりも多い、及び(iii)未知である、のうちの少なくとも1つである、請求項12に記載のコンピュータ実施方法。
  20. 前記プロセッサは、前記深層畳み込みニューラルネットワークを用いて生成される予測に基づいてユーザを照合し、前記ユーザにエンティティへのアクセスを提供するようにさらに構成されている、請求項12に記載のシステム。
JP2018540162A 2016-02-04 2016-12-21 Nペア損失による距離計量学習の改善 Pending JP2019509551A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662291025P 2016-02-04 2016-02-04
US62/291,025 2016-02-04
US15/385,283 2016-12-20
US15/385,283 US10565496B2 (en) 2016-02-04 2016-12-20 Distance metric learning with N-pair loss
PCT/US2016/067946 WO2017136060A1 (en) 2016-02-04 2016-12-21 Improving distance metric learning with n-pair loss

Publications (1)

Publication Number Publication Date
JP2019509551A true JP2019509551A (ja) 2019-04-04

Family

ID=59497846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018540162A Pending JP2019509551A (ja) 2016-02-04 2016-12-21 Nペア損失による距離計量学習の改善

Country Status (4)

Country Link
US (1) US10565496B2 (ja)
JP (1) JP2019509551A (ja)
DE (1) DE112016006360T5 (ja)
WO (1) WO2017136060A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325223A (zh) * 2018-12-13 2020-06-23 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
KR20200135730A (ko) * 2019-05-22 2020-12-03 한국전자통신연구원 이미지 딥러닝 모델 학습 방법 및 장치
JP2023007367A (ja) * 2021-06-30 2023-01-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
US11720790B2 (en) 2019-05-22 2023-08-08 Electronics And Telecommunications Research Institute Method of training image deep learning model and device thereof
JP7425445B2 (ja) 2020-07-17 2024-01-31 日本電信電話株式会社 特徴学習装置、特徴抽出装置、特徴学習方法及びプログラム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10649970B1 (en) 2013-03-14 2020-05-12 Invincea, Inc. Methods and apparatus for detection of functionality
US9690938B1 (en) 2015-08-05 2017-06-27 Invincea, Inc. Methods and apparatus for machine learning based malware detection
US10115032B2 (en) * 2015-11-04 2018-10-30 Nec Corporation Universal correspondence network
US10318735B2 (en) 2016-06-22 2019-06-11 Invincea, Inc. Methods and apparatus for detecting whether a string of characters represents malicious activity using machine learning
KR102648770B1 (ko) * 2016-07-14 2024-03-15 매직 립, 인코포레이티드 홍채 식별을 위한 딥 뉴럴 네트워크
GB2555192B (en) * 2016-08-02 2021-11-24 Invincea Inc Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
US10474883B2 (en) * 2016-11-08 2019-11-12 Nec Corporation Siamese reconstruction convolutional neural network for pose-invariant face recognition
US10540961B2 (en) * 2017-03-13 2020-01-21 Baidu Usa Llc Convolutional recurrent neural networks for small-footprint keyword spotting
US10387749B2 (en) * 2017-08-30 2019-08-20 Google Llc Distance metric learning using proxies
CN111433843B (zh) * 2017-10-27 2024-05-28 谷歌有限责任公司 语义音频表示的无监督学习
KR102535411B1 (ko) * 2017-11-16 2023-05-23 삼성전자주식회사 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
CN109815971B (zh) * 2017-11-20 2023-03-10 富士通株式会社 信息处理方法和信息处理装置
CN108922542B (zh) * 2018-06-01 2023-04-28 平安科技(深圳)有限公司 样例三元组的获取方法、装置、计算机设备以及存储介质
CN109256139A (zh) * 2018-07-26 2019-01-22 广东工业大学 一种基于Triplet-Loss的说话人识别方法
US11537872B2 (en) 2018-07-30 2022-12-27 International Business Machines Corporation Imitation learning by action shaping with antagonist reinforcement learning
US11501157B2 (en) 2018-07-30 2022-11-15 International Business Machines Corporation Action shaping from demonstration for fast reinforcement learning
US11734575B2 (en) 2018-07-30 2023-08-22 International Business Machines Corporation Sequential learning of constraints for hierarchical reinforcement learning
US11636123B2 (en) * 2018-10-05 2023-04-25 Accenture Global Solutions Limited Density-based computation for information discovery in knowledge graphs
CN110032645B (zh) * 2019-04-17 2021-02-09 携程旅游信息技术(上海)有限公司 文本情感识别方法、系统、设备以及介质
JP7262290B2 (ja) * 2019-04-26 2023-04-21 株式会社日立製作所 特徴ベクトルを生成するシステム
CN110532880B (zh) * 2019-07-29 2022-11-22 深圳大学 样本筛选及表情识别方法、神经网络、设备及存储介质
KR102635606B1 (ko) * 2019-11-21 2024-02-13 고려대학교 산학협력단 거리 학습을 이용한 사용자간 유사도 반영 특징 추출 기반의 사용자 독립적 뇌-컴퓨터 인터페이스 장치 및 이를 이용한 태스크 분류 방법
CN111339891A (zh) * 2020-02-20 2020-06-26 苏州浪潮智能科技有限公司 一种图像数据的目标检测方法及相关装置
CN111400591B (zh) * 2020-03-11 2023-04-07 深圳市雅阅科技有限公司 资讯信息推荐方法、装置、电子设备及存储介质
CN111667050B (zh) * 2020-04-21 2021-11-30 佳都科技集团股份有限公司 度量学习方法、装置、设备及存储介质
CN113742288A (zh) * 2020-05-29 2021-12-03 伊姆西Ip控股有限责任公司 用于数据索引的方法、电子设备和计算机程序产品
US20210374553A1 (en) * 2020-06-02 2021-12-02 Salesforce.Com, Inc. Systems and methods for noise-robust contrastive learning
CN112329833B (zh) * 2020-10-28 2022-08-12 浙江大学 一种基于球面嵌入的图像度量学习方法
KR102577342B1 (ko) * 2021-01-20 2023-09-11 네이버 주식회사 거리 지표 학습을 위해 메모리 기반의 가상 클래스로 학습하는 컴퓨터 시스템 및 그의 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706402A (en) * 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US8027977B2 (en) * 2007-06-20 2011-09-27 Microsoft Corporation Recommending content using discriminatively trained document similarity
US9183173B2 (en) 2010-03-02 2015-11-10 Microsoft Technology Licensing, Llc Learning element weighting for similarity measures
US20120323968A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Learning Discriminative Projections for Text Similarity Measures
US10229190B2 (en) 2013-12-31 2019-03-12 Samsung Electronics Co., Ltd. Latent semantic indexing in application classification
US10115032B2 (en) * 2015-11-04 2018-10-30 Nec Corporation Universal correspondence network

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325223A (zh) * 2018-12-13 2020-06-23 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
CN111325223B (zh) * 2018-12-13 2023-10-24 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
KR20200135730A (ko) * 2019-05-22 2020-12-03 한국전자통신연구원 이미지 딥러닝 모델 학습 방법 및 장치
KR102522894B1 (ko) 2019-05-22 2023-04-18 한국전자통신연구원 이미지 딥러닝 모델 학습 방법 및 장치
US11720790B2 (en) 2019-05-22 2023-08-08 Electronics And Telecommunications Research Institute Method of training image deep learning model and device thereof
JP7425445B2 (ja) 2020-07-17 2024-01-31 日本電信電話株式会社 特徴学習装置、特徴抽出装置、特徴学習方法及びプログラム
JP2023007367A (ja) * 2021-06-30 2023-01-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
JP7358698B2 (ja) 2021-06-30 2023-10-11 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体

Also Published As

Publication number Publication date
WO2017136060A1 (en) 2017-08-10
US20170228641A1 (en) 2017-08-10
US10565496B2 (en) 2020-02-18
DE112016006360T5 (de) 2018-10-11

Similar Documents

Publication Publication Date Title
JP2019509551A (ja) Nペア損失による距離計量学習の改善
Iscen et al. Label propagation for deep semi-supervised learning
Wang et al. Video representation learning using discriminative pooling
Qiu et al. Deep quantization: Encoding convolutional activations with deep generative model
CN105631398B (zh) 识别对象的方法和设备以及训练识别器的方法和设备
Ding et al. Audio and face video emotion recognition in the wild using deep neural networks and small datasets
WO2016037350A1 (en) Learning student dnn via output distribution
US8266083B2 (en) Large scale manifold transduction that predicts class labels with a neural network and uses a mean of the class labels
US11954572B2 (en) Optimizing training data for image classification
US8620837B2 (en) Determination of a basis for a new domain model based on a plurality of learned models
Xu et al. Enhancing semantic image retrieval with limited labeled examples via deep learning
CN116868206A (zh) 跨域自适应学习
JP2014228995A (ja) 画像特徴学習装置、画像特徴学習方法及びプログラム
Bin et al. Combining multi-representation for multimedia event detection using co-training
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
Kächele et al. Fusion mappings for multimodal affect recognition
JP2004046621A (ja) テキストの多重トピックス抽出方法および装置、テキストの多重トピックス抽出プログラム、ならびに該プログラムを記録した記録媒体
JP7270839B2 (ja) 顔認識のための汎用特徴表現学習
CN116997908A (zh) 用于分类类型任务的连续学习神经网络系统训练
Demirdjian et al. Recognizing events with temporal random forests
Bouguila A model-based discriminative framework for sets of positive vectors classification: Application to object categorization
Milchevski et al. Multimodal affective analysis combining regularized linear regression and boosted regression trees
CN111860556A (zh) 一种模型的处理方法、装置及存储介质
Wang et al. Action representation using classifier decision boundaries
Li et al. Foundation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190927

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191203