JP7289012B2 - ラベル付けされていない顔データにわたるクラスタリングに基づく深層顔認識 - Google Patents

ラベル付けされていない顔データにわたるクラスタリングに基づく深層顔認識 Download PDF

Info

Publication number
JP7289012B2
JP7289012B2 JP2022513896A JP2022513896A JP7289012B2 JP 7289012 B2 JP7289012 B2 JP 7289012B2 JP 2022513896 A JP2022513896 A JP 2022513896A JP 2022513896 A JP2022513896 A JP 2022513896A JP 7289012 B2 JP7289012 B2 JP 7289012B2
Authority
JP
Japan
Prior art keywords
labeled
face
unlabeled
clustering
face data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022513896A
Other languages
English (en)
Other versions
JP2022547003A (ja
Inventor
シアン ユ、
マンモハン チャンドラカー、
キヒョク ソン、
アルニ ロイチョウデュリー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022547003A publication Critical patent/JP2022547003A/ja
Application granted granted Critical
Publication of JP7289012B2 publication Critical patent/JP7289012B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Description

関連出願情報
本出願は、2019年11月13日に出願された仮出願第62/934,617号、および2020年11月6日に出願された米国特許出願第17/091,066号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
本発明は、人工知能および機械学習に関し、より詳細には、深層顔認識に関する。
関連技術の説明
深層顔認識のような顔認識は、小さな識別内距離および大きな識別間距離を有する特徴空間に入力画像をマッピングしようとする。深層顔認識は、高性能を達成し、大規模なラベル付けされたデータから恩恵を受けている。顔認識性能に対するさらなる改善は、ラベル付けされたデータセットボリュームをさらに拡大することを必要とする注釈努力の増加を介して達成することができ、これは、非実用的であり、労働集約的であり得る。
本発明の一態様によれば、顔認識を実施するためにコンピュータで実施する方法が提供される。コンピュータ実装方法は、ラベル付けされた顔データ上で訓練された顔認識モデルを取得することと、確率分布の混合を使用して、ラベル付けされていない顔データに対応する複数のラベル付けされていない顔を、前記ラベル付けされた顔データ内のものと重複するアイデンティティを含む1つまたは複数の重複するラベル付けされていない顔のセットと、前記ラベル付けされた顔データ内のものと互いに素なアイデンティティを含む1つまたは複数の互いに素なラベル付けされていない顔のセットとに分離することと、1つまたは複数の擬似ラベル付けされたサンプルを取得するためにクラスタ割り当てに対応する擬似ラベルを前記1つまたは複数の互いに素なラベル付けされていない顔のそれぞれに割り当てることを含む、グラフ畳み込みネットワークを使用して1つまたは複数のクラスタ割り当てを生成するために前記1つまたは複数の互いに素なラベル付けされていない顔をクラスタリングすることと、前記1つまたは複数のクラスタ割り当てに関連するクラスタリング不確実性を生成することと、前記クラスタリング不確実性を組み込むことによって顔認識性能を改善するために、前記ラベル付けされた顔データおよび前記ラベル付けされていない顔データ上で前記顔認識モデルを再訓練することとを含む。
本発明の別の態様によれば、顔認識を実施するためのシステムが提供される。システムは、プログラムコードを記憶するメモリ装置と、メモリ装置と動作可能に結合された少なくとも1つのプロセッサ装置とを含む。少なくとも1つのプロセッサ装置は、ラベル付けされた顔データ上で訓練された顔認識モデルを取得し、確率分布の混合を使用して、ラベル付けされていない顔データに対応する複数のラベル付けされていない顔を、前記ラベル付けされた顔データ内のものと重複するアイデンティティを含む1つまたは複数の重複するラベル付けされていない顔のセットと、前記ラベル付けされた顔データ内のものと互いに素なアイデンティティを含む1つまたは複数の互いに素なラベル付けされていない顔のセットとに分離し、1つまたは複数の擬似ラベル付けされたサンプルを取得するためにクラスタ割り当てに対応する擬似ラベルを前記1つまたは複数の互いに素なラベル付けされていない顔のそれぞれに割り当てることによって、グラフ畳み込みネットワークを使用して1つまたは複数のクラスタ割り当てを生成するために前記1つまたは複数の互いに素なラベル付けされていない顔をクラスタリングし、前記1つまたは複数のクラスタ割り当てに関連するクラスタリング不確実性を生成し、前記クラスタリング不確実性を組み込むことによって顔認識性能を改善するために、前記ラベル付けされた顔データおよび前記ラベル付けされていない顔データ上で前記顔認識モデルを再訓練するように構成される。
これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
本発明の一実施形態による、顔認識フレームワークの高レベルの概念を示す図である。
本発明の一実施形態による、図1の顔認識フレームワークの再訓練構成要素を示す図である。
本発明の一実施形態による、ラベル付けされていない顔データに基づいて顔認識を実施するための例示的な環境を示すブロック/フロー図である。
本発明の一実施形態による、顔認識を実施するためのシステム/方法を示すブロック/フロー図である。
本発明の一実施形態による、コンピュータシステムを示すブロック/フロー図である。
本発明の実施形態によれば、ラベル付けされていない顔データにわたるクラスタリングに基づいた深層顔認識のためのシステムおよび方法が提供される。より具体的には、ラベル付けされた顔(例えば、大規模なラベル付けされたデータセット)上で訓練された深層顔認識モデルが与えられると、本明細書で説明される実施形態は、さらなる訓練サンプルのためのラベル付けされていない顔データ上のクラスタリングを利用して、深層顔認識性能をさらに改善することができる。本明細書で説明される実施形態は、例えば、ラベル付けされたデータとラベル付けされていないデータとの間の重なり合うアイデンティティ、ならびに擬似ラベル付けされたデータに対する訓練時のノイズの多いラベルの影響を減衰させることなどの現実世界の課題に対処することができる。例えば、重複するアイデンティティは、Weibull分布の混合でパラメータ化された分布外検出問題として問題を定式化することによって、極値理論に基づく問題として扱うことができる。クラスタリング手順によって導入されたラベルノイズを補償するために、クラスタ割り当ての不確実性をモデル化し、深層顔認識ネットワークの再訓練に組み込むことができる。
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネット(登録商標)カードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。
本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、1つまたは複数のアプリケーション専用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはプログラマブルロジックアレイ(PLA)を含むことができる。
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
ここで、同一の数字が同一または類似の要素を表し、最初に図1を参照すると、顔認識フレームワーク100の一例を示す高レベルのブロック/フロー図が提供される。以下でさらに詳細に説明するように、フレームワーク100は、ラベル付けされていない顔画像をクラスタリングし、追加のラベル付けされていないデータ上の擬似ラベルとしてクラスタ割当てを使用してラベル付けされた顔画像とラベル付けされていない顔画像との両方に対して再訓練することによって、教師あり顔認識モデルの訓練および性能を改善するように構成される。
図示のように、フレームワーク100は、ラベル付けされた顔訓練器110と、ラベル付けされていない顔分離器120と、ラベル付けされていない顔クラスタリング構成要素130と、クラスタリング不確実性推定器140と、再訓練構成要素150とを含む複数の構成要素を含む。
ラベル付けされた顔訓練器110は、1組のラベル付けされた顔画像112を受信し、訓練損失(「損失」)116を生成するニューラルネットワーク(NN)114を訓練するように構成される。一実施形態では、NN114は、深層ニューラルネットワークとすることができる。この実施形態では、NN114は、ラベル付けされた顔画像112のセット上で、ベースラインとして全教師あり方式で訓練することができる。例えば、ラベル付けされた顔画像112のセットは、大規模なラベル付けされたデータセットを含むことができる。一実施形態では、ラベル付けされた顔画像112のセットは、人間の顔画像を含むことができる。しかしながら、そのような実施形態は、限定的であると考えられるべきではなく、本明細書で説明される実施形態は、任意の適切な顔画像に関して顔認識訓練を実行するために適用され得る。したがって、ラベル付けされた顔訓練器110によって実行される訓練は、半教師あり顔認識訓練とすることができる。
一般に、ラベル付けされていないデータの収集に対する制御はないため、ラベル付けされたデータ(したがって、ベースライン顔認識エンジンが訓練されるクラス)およびラベル付けされていないデータ内に同じ被写体Sが存在することがある。すなわち、ラベル付けされていない顔画像は、ラベル付けされた顔画像112のセット内に既に存在するアイデンティティ(ID)を含んでもよい。以下にさらに詳細に説明するように、ラベル付けされていない顔画像はクラスタ化することができ、クラスタ割り当ては、ラベル付けされていない顔画像のそれぞれの1つに「擬似ラベル」として割り当てられる。デフォルトでは、クラスタリングは、ラベル付けされていないデータ内の被写体Sの画像を新しいカテゴリとして割り当てることができる。この場合、追加の擬似ラベル付けされたデータを用いて再訓練すると、ネットワークは、被写体Sの画像を2つのカテゴリに分類することを誤って学習する可能性がある。これは、重複する被写体が、インターネットから収集された、または受動的に取り付けられた画像キャプチャ装置(例えば、カメラ)を介して記録されたデータセットにおいて自然に発生し得るので、重要な考慮事項である。
少なくともこれらの問題に対処するために、ラベル付けされていない顔画像分離器120は、ラベル付けされていない顔画像122のセットを、ラベル付けされた顔画像とラベル付けされていない顔画像(「重複するID」)124との間の重複するIDまたはクラスを持つ顔画像と、ラベル付けされた顔画像とラベル付けされていない顔画像(「互いに素なID」)126との間の互いに素なIDまたはクラスを持つ顔画像のセットとに分離するように構成される。
ラベル付けされていない顔画像分離器120によって解決される分離問題は、「分布外検出問題」とみなすことができ、重複するアイデンティティを有するラベル付けされていない顔画像は、同じラベル付けされたデータが顔認識エンジンを訓練するために使用されるため、顔認識エンジンから高い信頼スコアを有することになるという直観を伴う。数千カテゴリにわたるソフトマックス操作は、正規化のために小さな値をもたらすことができるため、各ラベル付けされていない顔画像の最大ロジット(「max-logit」)を、その対応する信頼スコアとして使用することができる。したがって、互いに素なIDと重複するIDとを分離することができる信頼スコアのしきい値が探索される。多数のクラスにわたる最大値を扱うことができるため、極値理論(EVT)からの結果を利用することができる。Fisher-Tippetの定理は、極値定理とも呼ばれ、独立で同一分布に従う(i.i.d.)確率変数の極大値の極限分布が、Gumbel分布、Frechet分布、またはWeibull分布のいずれかに対応する極値分布に収束することを提供する。極値分布の混合(例えば、Weibull分布)を使用して、ラベル付けされていない顔画像122のセットから、重複するID124のセットおよび互いに素なID126のセットのオンザフライ分離を実行することができる。
例示的な例として、最大ロジットは、以下のようにWeibull分布を使用してモデル化することができる。
Figure 0007289012000001
ここで、κ>0は形状パラメータを示し、λ>0はスケールパラメータを示す。最大ロジットスコアの分布に関する初期閾値を得ることができる。例えば、Otsuの方法は、最大ロジットスコアの分布に関する初期閾値を得るために、自動画像閾値化を実行するために使用され得る。しかしながら、本明細書に記載の実施形態によれば、任意の適切な画像閾値化方法を使用することができる。それから、Weibull分布の2成分混合を適合させ、分布の上部と下部に初期化し、それによって重複クラスと互いに素なクラスとをそれぞれモデル化することができる。各Weibullモデルの下で95%信頼度に対応する値を選択することにより、2つのしきい値、すなわち、1つは互いに素なサンプル用であり、1つは重複サンプル用であり、別々に高い信頼度である閾値が提供される。次に、この間隔外にあるサンプルは拒絶される。このアプローチは、いかなるハイパーパラメータを先験的に設定することも必要とせず、いかなる新しいラベル付けされていないデータセットにも適用することができる。
ラベル付けされていない顔画像122のセットの画像が分離されたため、ラベル付けされていない顔画像クラスタリング構成要素130は、それぞれのクラスタ割り当てを有するクラスタ化された(ラベル付けされていない)顔画像132のセットを生成するために、互いに素なID126のセットのラベル付けされていない顔画像をクラスタ化するように構成される。クラスタ割り当ては、ラベル付けされていない顔画像に割り当てられた「擬似ラベル」または「擬似ID」と見なすことができる。以下でさらに詳細に説明するように、追加のラベル付けされていない顔画像に対応するクラスタ割り当て/擬似ラベルは、顔認識ネットワークの再訓練中に組み込まれる。
一実施形態では、ラベル付けされていない顔画像クラスタリング構成要素130は、ラベル付けされていない顔画像をクラスタリングするためにグラフ畳み込みネットワーク(GCN)を実装するように構成することができる。より具体的には、クラスタリングは、擬似ラベルを使用する大規模顔クラスタリングのためにGCNを活用することができる。例えば、ラベル付けされていない顔画像クラスタリング構成要素130は、Face-GCNを実装するように構成することができる。事前訓練された顔認識エンジンから抽出された特徴に基づいて、Face-GCNは、親和性測度としてEuclidean距離を使用することができる、全サンプルにわたる最近傍グラフを構築することができる。このグラフのエッジ重みに様々な閾値を設定することによって、1組の連結成分またはクラスタ提案が生成される。訓練中、目的は、単一のグラウンドトゥルースアイデンティティから生じる提案の正確さおよび想起を回帰させることである。提案は、ラベル付けされた顔画像に基づいて生成されるため、Face-GCNは、完全な教師ありの方法で訓練することができる。これは、通常、各ノードまたは入力グラフ全体のいずれかの分類損失で訓練されるGCNの通常の訓練とは異なる。テスト中、オブジェクト検出における非最大抑圧に類似した「重複排除」手順は、ラベル付けされていないデータセットをクラスタのセットに分割するために、提案のための予測GCNスコアを使用することができる。
ノイズの多い訓練ラベルは、ラベル付けされていない顔画像クラスタリング構成要素130によって生成された不正確なクラスタリング割り当てから生じる可能性がある。例えば、ジョージ・H・W・ブッシュ元米国大統領の写真は、彼の息子とジョージ・H・ブッシュ元米国大統領との顔写真のクラスタに誤って割り当てられることがある。このようなラベルノイズは、顔認識性能劣化の源となり得る。
クラスタリング手順によって導入されたラベルノイズを補償し、従って顔認識性能を改善するために、クラスタリング不確実性推定器140は、教師なしラベルノイズ推定に対応するクラスタリング不確実性(「クラスタリング不確実性」)142の推定値を生成するために、不正確なクラスタ割り当てを推定するように構成される。クラスタリング不確実性142は、ノイズの多いラベル付けされたデータによって引き起こされる誤った勾配の影響を低減するために訓練損失を重み付けすることによって、顔認識ネットワークの再訓練に組み込まれる。クラスタリング不確定性142は、訓練カリキュラムを学習するためにクリーンなラベル付けされたデータセットを必要とせず、したがって、すぐに適用することができる。
再訓練構成要素150は、ラベル付けされた顔画像112のセット、クラスタ化された顔画像132のセットに対応する擬似ラベル付けされた顔画像、およびクラスタリング不確実性142に基づいて、顔認識モデルを再訓練するように構成される。ラベル付けされたおよび擬似ラベル付けされたデータを再訓練するとき、擬似ラベル付けされた顔画像が正しくラベル付けされたかどうかの不確実性を組み込むことができる。
再訓練構成要素150に関するさらなる詳細を、図2を参照して以下に説明する。
ここで図2を参照すると、例示的な再訓練構成要素200を示すブロック/フロー図が提供されている。例えば、再訓練構成要素200は、図1の再訓練構成要素150として実施することができる。
図示のように、ラベル付けされた顔画像210のセットおよびクラスタ化された顔画像220のセットは、ニューラルネットワーク(NN)230に供給される。これらは、図1のラベル付けされた顔画像112のセット、クラスタ化された顔画像12のセット、およびNN114にそれぞれ類似する。ラベル付けされた顔画像210のセットとクラスタ化された顔画像220のセットの擬似ラベル付けされた顔画像との和集合上で元の顔認識モデルを再訓練することにより、顔認識性能を改善することができる。
クラスタリング不確実性240(図1のクラスタリング不確実性142と同様)を使用することによって訓練を減衰させることができる場合、ノイズの多いラベルの影響に関連する訓練損失は、重み付き損失250を生成する。具体的には、重み付き損失250は、重み付き訓練損失に対応する。したがって、クラスタリング不確実性240を組み込むことにより、再訓練手順を円滑にすることができ、したがって、顔認識性能をさらに改善することができる。
図1および図2を参照して上述したフレームワークの例示的な例として、
Figure 0007289012000002
のように、xiを、ラベル付けされていない顔画像のセット、データセットXUから描かれたラベル付けされていない顔画像とする。ベースライン教師ありモデルを使用するラベル付けされていない顔画像xiの特徴表現は、Φ(xi)として示される。XU上で得られたクラスタ割り当てをK個のクラスタについて{C1,C2,...,CK}とする。ロジスティック回帰モデルを訓練して、確率分布
Figure 0007289012000003
を推定することができる。ここで、k=1,2,...Kである。例えば、
Figure 0007289012000004
ここでωkは、k番目のクラスまたはクラスタのロジスティック回帰重みである。直観的には、判別的な顔記述子の上にある単純な線形分類子がクラスタ割当てにどの程度良く適合できるかを決定することが望ましい。
ロジスティック回帰出力についての以下の3つの不確実性メトリックを比較することができる:(1)K個のクラス/クラスタにわたる事後のエントロピー(例えば、
Figure 0007289012000005
である。)(2)最大ロジット、またはK個のクラス/クラスタにわたる最大ロジット値であって、互いに素なIDと重複したIDとを分離するために上記で使用されたものと同様のもの。(3)分類マージンは、最大ロジットと第2の最大ロジットとの間の差であり、サンプルが2つのクラスタ間でラベルをどの程度容易に切り替えることができるかを測定する。
以下は、(1)そのアイデンティティがクラスタのアイデンティティに属さない外れ値、および(2)同様IDからのサンプルがいくつかのクラスタにわたって拡散される分割IDを考慮することができる、適合率と再現率の概念に対応する、クラスタリングからの2種類の不正確な擬似ラベルである。クラスタ化された顔画像のグランドトゥルースIDが既知である制御された設定において、ロジスティック回帰モデルからの不確実性の尺度が正しいクラスタ割り当てと正しくないクラスタ割り当てとを区別することができるという仮説を検証することができる。スプリットIDは、不正確にクラスタ化されたサンプルの大部分を構成することが観察され得る(例えば、外れ値は、不正確にクラスタ化されたサンプルの約10%を含み得る)。
直感的に、大きな分類マージンを有さないサンプルは、誤った疑似ラベルである可能性が高い。クラスタ割り当てが正しいことと相関する不確実性の尺度が与えられると、2モード分布分離が予想され得る(例えば、雑音のあるラベル付けされたサンプルは、1つのモードにあり、他のモードでは正しくラベル付けされたサンプルになる)。これは、上述した重複するIDと互いに素なIDとを分離する分配問題と同様に、別の分配分離問題である。従って、極値分布(例えば、Weibull分布)は、2つのモードを分離する初期閾値が得られる(例えば、Otsuの方法を使用する)2つのモードのクラスマージン分布の下部に適合させることができる。p-(xi)がサンプルxiが不正確にクラスタ化される確率(または不正確なラベリング確率)を示す場合、p-(xi)は以下のように推定することができる。
Figure 0007289012000006
ここで、
Figure 0007289012000007
は、学習された極値(例えば、Weibull)分布のパラメータであり、g(・)は、不確実性の尺度(例えば、クラスマージン)を示す。極値分布フィッティングのどの時点においても、グラウンドトゥルースラベルへのアクセスが必要ではないことに留意されたい。
上記の不確実性は、確率的顔認識損失を設定するために、クラスタ化/擬似ラベル付きサンプルと関連付けられることができる。例えば、以下の余弦損失を用いることができる。
Figure 0007289012000008
ここで、xiはi番目の訓練サンプルであり、ωjはj番目のクラスに対する学習された分類器重みであり、mはj番目のクラス境界を絞るための損失余裕であり、αは収束のために調整された温度である。
Figure 0007289012000009
について、不正確なラベル付けされた確率p-(xi)は、以下のようにペナルティを補償するために関連付けることができる。
Figure 0007289012000010
ここで、γは、極値分布(例えば、Weibull)の下での可能性に応じて各擬似ラベル付きサンプルに割り当てられる重要度重みに対応するパラメータであり、これは、べき乗則に従って重み付け曲線の形状を制御する。パラメータγは、損失に対する重み付けを制御し、重み付けの重要度を調整するために使用することができる。すなわち、不確実性p-(xi)が高い場合、γを小さく調整して、全体損失LP(xi)に対するサンプル損失L(xi)を防止することができる。例えば、p-(xi)=0.1の場合、(l-p-(xi))γ=(1-0.1)γ=(0.9)γとなる。γを大きく設定すると、重み(0.9)γを小さくすることができるので、現在のサンプルxiの全体損失項は小さくなる。γを小さく設定すると、現在のサンプルxiの損失項が大きくなる。
図1および図2を参照して上述した実施形態に従って訓練された顔認識モデルは、任意の環境内で顔認識を実行するように実装することができる。
例えば、ここで図3を参照すると、顔認識を実施するための例示的な環境300が示されている。より具体的には、環境300は、ユーザ310と、計算システムまたはデバイス320とを含む。計算システム320は、ユーザ310の顔の分析に基づいて、ユーザ310に計算システム320へのアクセスを許可または拒否する生体認証システムを実装することができる。例えば、この例示的な実施形態では、計算システム320は、カメラを含むスマートフォンである。この実施形態は、純粋に例示的なものであり、顔認識モデルは、任意の適切な環境内で顔認識タスクを実行するために使用することができる。
さらに示されるように、環境300は、少なくとも1つのプロセッサ装置330をさらに含むことができる。プロセッサ装置330は、本明細書に記載する顔認識モデルを再訓練するためのシステム/方法を実現するように構成することができる。処理装置330は、計算システム320とは別個の実体であるものとして示されているが、プロセッサ装置300は、代替的に、計算システム320のサブ構成要素であってもよく、または、計算システム320は、プロセッサ装置330のサブ構成要素であってもよい。
次に図4を参照すると、ラベル付けされていない顔データに基づいて顔認識を実施するためのシステム/方法400を示すブロック/フロー図が提供されている。システム/方法400は、ラベル付けされていない顔画像をクラスタリングし、追加のラベル付けされていないデータ上の擬似ラベルとしてクラスタ割り当てを使用して、ラベル付けされた顔画像とラベル付けされていない顔画像との両方を再訓練することによって、教師あり顔認識モデルの性能を改善することができる。
ブロック410において、ラベル付けされた顔データについて訓練された顔認識モデルが得られる。例えば、ラベル付けされた顔データは、大規模なラベル付けされたデータセットを含むラベル付けされた顔画像のセットとすることができる。一実施形態では、ラベル付けされた顔データは、1つまたは複数の人間の顔画像を含むことができる。しかしながら、そのような実施形態は、限定的であると考えられるべきではなく、本明細書で説明される実施形態は、任意の適切な顔画像に関して顔認識訓練を実行するために適用され得る。
一実施形態では、顔認識モデルを取得することは、訓練損失を取得するために、深層ニューラルネットワークを使用して顔認識モデルを訓練することを含む。この実施形態では、ニューラルネットワークを訓練することは、ベースラインとして完全な教師ありの様式で、ラベル付けされた顔画像のセット上でニューラルネットワークを訓練することを含むことができる。したがって、ブロック420で実行される訓練は、半教師あり顔認識訓練であってもよい。
ブロック420において、ラベル付けされていない顔データに対応する複数のラベル付けされていない顔が、確率分布の混合を使用して、ラベル付けされた顔データ内のものと重複するアイデンティティを含む1つまたは複数の重複するラベル付けされていない顔のセットと、ラベル付けされた顔データ内のものと互いに素なアイデンティティを含む1つまたは複数の互いに素なラベル付けされていない顔のセットとに分離される。より具体的には、極値分布の混合を使用して、オンザフライで実行することができる。一実施形態では、極値分布の混合は、Weibull分布の混合を含む。
ブロック420で解決される分離問題は、「分布外検出問題」とみなすことができ、重複するアイデンティティを有するラベル付けされていない顔画像は、同じラベル付けされたデータが顔認識エンジンを訓練するために使用されるため、顔認識エンジンから高い信頼スコアを有することになるという直観を伴う。数千カテゴリにわたるsoftmax操作は、正規化のために小さな値をもたらすことができるため、各ラベル付けされていない顔画像の最大ロジット(「max-logit」)を、その対応する信頼性スコアとして使用することができる。したがって、互いに素なIDと重複するIDとを分離することができる信頼性スコアのしきい値が探索される。多数のクラスにわたる最大値を扱うことができるため、極値理論(EVT)からの結果を利用することができる。Fisher-Tippetの定理は、極値定理とも呼ばれ、独立で同一分布に従う(i.i.d.)確率変数の極大値の極限分布が、Gumbel分布、Frechet分布、またはWeibull分布のいずれかに対応する極値分布に収束することを提供する。
ブロック430で、1つまたは複数のばらばらのラベル付けされていない顔は、グラフ畳み込みネットワークを使用してクラスタ化されて、1つまたは複数のクラスタ割当てを生成する。これは、1つまたは複数の互いに素なラベル付けされていない顔のそれぞれにクラスタ割当てに対応する擬似ラベルを割り当てて、1つまたは複数の擬似ラベル付けされたサンプルを取得することを含む。以下でさらに詳細に説明するように、追加のラベル付けされていない顔画像に対応するクラスタ割り当て/擬似ラベルは、顔認識ネットワークの再訓練中に組み込まれる。より具体的には、クラスタリングは、擬似ラベルを使用する大規模顔クラスタリングのためにグラフ畳み込みネットワークを活用することができる。
一実施形態では、GCNはFace-GCNである。事前訓練された顔認識エンジンから抽出された特徴に基づいて、Face-GCNは、親和性測度としてEuclidean距離を使用することができる、全サンプルにわたる最近傍グラフを構築することができる。このグラフのエッジ重みに様々な閾値を設定することによって、1組の連結成分またはクラスタ提案が生成される。訓練中、目的は、単一のグラウンドトゥルースアイデンティティから生じる提案の正確さおよび想起を回帰させることである。提案は、ラベル付けされた顔画像に基づいて生成されるので、Face-GCNは、完全な教師ありの方法で訓練することができる。これは、通常、各ノードまたは入力グラフ全体のいずれかの分類損失で訓練されるGCNの通常の訓練とは異なる。テスト中、オブジェクト検出における非最大抑圧に類似した「重複排除」手順は、ラベル付けされていないデータセットをクラスタのセットに分割するために、提案のための予測GCNスコアを使用することができる。
ブロック440で、1つまたは複数のクラスタ割り当てに関連するクラスタリング不確実性が生成される。クラスタリング不確実性は、クラスタ化された顔画像のセット内の不正確なクラスタリング割り当ての推定に対応する。クラスタリング不確実性は、クラスタリング手順によって導入されたラベルノイズを補償し、従って顔認識性能を改善するために生成される。より具体的には、クラスタリング不確実性は、ノイズの多いラベル付けされたデータによって引き起こされる誤った勾配の影響を低減するために訓練損失を重み付けすることによって、顔認識ネットワークの再訓練に組み込まれる。クラスタリング不確実性は、訓練カリキュラムを学習するためにクリーンなラベル付けされたデータセットを必要とせず、したがって、すぐに適用することができる。
ブロック450では、クラスタリング不確実性を使用して1つまたは複数の擬似ラベル付けされたサンプルの訓練損失を減衰させることを含むクラスタリング不確実性を組み込むことによって、ラベル付けされた顔データおよびラベル付けされていない顔データに対して顔認識モデルが再訓練される。すなわち、再訓練は、擬似ラベル付けされた顔画像が正しくラベル付けされたかどうかのクラスタリング不確実性を組み込む。したがって、ラベル付けされた顔画像のセットとクラスタ化された顔画像のセットとの和集合に元の顔認識モデルを再訓練することにより、顔認識性能を改善することができる。
より具体的には、顔認識モデルを再訓練することは、ブロック452において、ラベル付けされた顔データと1つまたは複数の擬似ラベル付けされたサンプルとをニューラルネットワークに供給することと、ブロック454において、クラスタリング不確実性とニューラルネットワークの出力とを使用することによって、1つまたは複数の擬似ラベル付けされたサンプルの訓練損失を減らして、重み付けされた訓練損失を得ることとを含むことができる。
ブロック460において、顔認識モデルは、顔認識タスクを実行するために実装され得る。一実施形態では、顔認識モデルは、ユーザの顔の分析に基づいて、ユーザに計算システムまたは装置へのアクセスを提供する生体認証システム内で実現することができる。しかしながら、顔認識モデルは、任意の適切な環境内で顔認識タスクを実行するために使用することができる。上述のように、顔認識タスクの性能は、本明細書に記載の実施形態に従って顔認識モデルを再訓練することによって改善することができる。
ブロック410~470に関するさらなる詳細は、図1~3を参照して上述される。
次に図5を参照すると、本発明の一実施形態による、サーバまたはネットワークデバイスを表すことができる例示的なコンピュータシステム500が示されている。コンピュータシステム500は、システムバス502を介して他の構成要素に動作可能に結合された少なくとも1つのプロセッサ(CPU)505を含む。キャッシュ506、リードオンリーメモリ(ROM)508、ランダムアクセスメモリ(RAM)510、入力/出力(I/O)アダプタ520、音声アダプタ530、ネットワークアダプタ590、ユーザインタフェースアダプタ550、およびディスプレイアダプタ560は、システムバス502に動作可能に結合される。
第1の記憶装置522および第2の記憶装置529は、I/Oアダプタ520によってシステムバス502に動作可能に結合される。記憶装置522および529は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、ソリッドステート磁気装置などのいずれであってもよい。記憶装置522および529は、同じタイプの記憶装置または異なるタイプの記憶装置とすることができる。
スピーカ532は、音声アダプタ530によってシステムバス502に動作可能に結合することができる。トランシーバ595は、ネットワークアダプタ590によってシステムバス502に動作可能に結合される。ディスプレイ装置562は、ディスプレイアダプタ560によってシステムバス502に動作可能に結合される。
第1のユーザ入力装置552、第2のユーザ入力装置559、および第3のユーザ入力装置556は、ユーザインタフェースアダプタ550によってシステムバス502に動作可能に結合される。ユーザ入力装置552,559,556は、センサ、キーボード、マウス、キーパッド、ジョイスティック、画像捕捉装置、動き感知装置、電力測定装置、マイクロフォン、前述の装置のうちの少なくとも2つの機能を組み込んだ装置などのいずれかとすることができる。もちろん、本発明の精神を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置552,559,556は、同じタイプのユーザ入力装置または異なるタイプのユーザ入力装置とすることができる。ユーザ入力装置552,559,556は、システム500との間で情報を入出力するために使用される。
顔認識(FR)構成要素570は、システムバス502に動作可能に結合されてもよい。FR構成要素570は、上述の動作のうちの1つまたは複数を実行するように構成される。FR構成要素570は、スタンドアロンの特殊目的のハードウェア装置として実施することも、記憶装置に記憶されたソフトウェアとして実施することもできる。FR構成要素570がソフトウェアウェア実装される実施形態では、コンピュータシステム500の別個の構成要素として示されているが、FR構成要素570は、例えば、第1の記憶装置522および/または第2の記憶装置529に格納することができる。代替的に、FR構成要素570は、別個の記憶装置(図示せず)に記憶され得る。
もちろん、コンピュータシステム500は、当業者によって容易に企図されるように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、当業者によって容易に理解されるように、他の様々な入力装置および/または出力装置を、その特定の実装に応じて、コンピュータシステム500に含めることができる。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなども、当業者には容易に理解されるように利用することができる。コンピュータシステム1200のこれらおよび他の変形は、本明細書で提供される本発明の教示を与えられれば、当業者によって容易に企図される。
本明細書において、本発明の「一実施形態」又は「一実施形態」とは、その他の変形例と同様に、その実施形態に関連して説明した特定の特徴、構造、特性等が、本発明の少なくとも一実施形態に含まれることを意味するものであり、「一実施形態において」又は「一実施形態において」の語句の出現、並びに本明細書全体の様々な箇所に出現する他の変形例は、必ずしも全て同一の実施形態を意味するものではない。しかしながら、本明細書で提供される本発明の教示を前提として、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
以下の「/」、「および/または」、および「少なくとも1つ」、例えば、「A/B」、「Aおよび/またはB」、および「AおよびBの少なくとも1つ」のいずれかの使用は、第1のリストされた実施例(A)のみの選択、または第2のリストされた実施例(B)のみの選択、または両方の実施例(AおよびB)の選択を包含することが意図されることを理解されたい。さらなる例として、「A、B、および/またはC」、および「A、B、およびCの少なくとも1つ」の場合、このような句は、第1のリストされた実施例(A)のみの選択、または第2のリストされた実施例(B)のみの選択、または第3のリストされた実施例(C)のみの選択、または第1および第2のリストされた実施例(AおよびB)のみの選択、または 第1および第3のリストされた実施例(AおよびC)のみの選択、または第2および第3のリストされた実施例(BおよびC)のみの選択、または3つすべての実施例(AおよびBおよびC)の選択を包含することを意図する。これは、列挙された項目の数だけ拡張することができる。
上記は、あらゆる点で例示的かつ例示的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。

Claims (20)

  1. 顔認識を実施するためにコンピュータで実施する方法であって、
    ラベル付けされた顔データ上で訓練された顔認識モデルを取得すること(410)と、
    確率分布の混合を使用して、ラベル付けされていない顔データに対応する複数のラベル付けされていない顔を、前記ラベル付けされた顔データ内のものと重複するアイデンティティを含む1つまたは複数の重複するラベル付けされていない顔のセットと、前記ラベル付けされた顔データ内のものと互いに素なアイデンティティを含む1つまたは複数の互いに素なラベル付けされていない顔のセットとに分離すること(420)と、
    1つまたは複数の擬似ラベル付けされたサンプルを取得するためにクラスタ割り当てに対応する擬似ラベルを前記1つまたは複数の互いに素なラベル付けされていない顔のそれぞれに割り当てることを含む、グラフ畳み込みネットワークを使用して1つまたは複数のクラスタ割り当てを生成するために前記1つまたは複数の互いに素なラベル付けされていない顔をクラスタリングすること(430)と、
    前記1つまたは複数のクラスタ割り当てに関連するクラスタリング不確実性を生成すること(440)と、
    前記クラスタリング不確実性を組み込むことによって顔認識性能を改善するために、前記ラベル付けされた顔データおよび前記ラベル付けされていない顔データ上で前記顔認識モデルを再訓練すること(450)とを含む、方法。
  2. 前記ラベル付けされた顔データ上で訓練された顔認識モデルを取得するために使用される深層ニューラルネットワークは、完全な教師ありの様式で、ラベル付けされた顔上で訓練される、請求項1に記載の方法。
  3. 前記確率分布の混合は、Weibull分布の混合を含む、請求項1に記載の方法。
  4. 推定された前記クラスタリング不確実性を取得することは、不正確なクラスタ割り当ての可能性の教師なしモデルを学習することをさらに含む、請求項1に記載の方法。
  5. 前記顔認識モデルを再訓練することは、さらに、
    前記ラベル付けされた顔データおよび前記1つまたは複数の擬似ラベル付けされたサンプルをニューラルネットワークに供給することと、
    前記クラスタリング不確実性と前記ニューラルネットワークの出力とを使用することによって、重み付けされた訓練損失を得るために前記1つまたは複数の擬似ラベル付けされたサンプルの訓練損失を減らすこととを含む、請求項1に記載の方法。
  6. 顔認識タスクを実行するために前記顔認識モデルを実施することをさらに含む、請求項1に記載の方法。
  7. 前記顔認識モデルは、計算システムまたは装置へのユーザのアクセスを前記ユーザの顔の分析に基づいて提供するバイオメトリックシステム内に実装される、請求項6に記載の方法。
  8. コンピュータに顔認識を実現する方法を実行させるために前記コンピュータによって実行可能なプログラム命令を有する、一時的でないコンピュータ読み取り可能な記憶媒体を備えるコンピュータプログラム製品であって、前記コンピュータによって実行される方法は、
    ラベル付けされた顔データ上で訓練された顔認識モデルを取得すること(410)と、
    確率分布の混合を使用して、ラベル付けされていない顔データに対応する複数のラベル付けされていない顔を、前記ラベル付けされた顔データ内のものと重複するアイデンティティを含む1つまたは複数の重複するラベル付けされていない顔のセットと、前記ラベル付けされた顔データ内のものと互いに素なアイデンティティを含む1つまたは複数の互いに素なラベル付けされていない顔のセットとに分離すること(420)と、
    1つまたは複数の擬似ラベル付けされたサンプルを取得するためにクラスタ割り当てに対応する擬似ラベルを前記1つまたは複数の互いに素なラベル付けされていない顔のそれぞれに割り当てることを含む、グラフ畳み込みネットワークを使用して1つまたは複数のクラスタ割り当てを生成するために前記1つまたは複数の互いに素なラベル付けされていない顔をクラスタリングすること(430)と、
    前記1つまたは複数のクラスタ割り当てに関連するクラスタリング不確実性を生成すること(440)と、
    前記クラスタリング不確実性を組み込むことによって顔認識性能を改善するために、前記ラベル付けされた顔データおよび前記ラベル付けされていない顔データ上で前記顔認識モデルを再訓練すること(450)とを含む、コンピュータプログラム製品。
  9. 前記ラベル付けされた顔データ上で訓練された顔認識モデルを取得するために使用される深層ニューラルネットワークは、完全な教師ありの様式で、ラベル付けされた顔上で訓練される、請求項8に記載のコンピュータプログラム製品。
  10. 前記確率分布の混合は、Weibull分布の混合を含む、請求項8に記載のコンピュータプログラム製品。
  11. 推定された前記クラスタリング不確実性を取得することは、不正確なクラスタ割り当ての可能性の教師なしモデルを学習することをさらに含む、請求項8に記載のコンピュータプログラム製品。
  12. 前記顔認識モデルを再訓練することは、さらに、
    前記ラベル付けされた顔データおよび前記1つまたは複数の擬似ラベル付けされたサンプルをニューラルネットワークに供給することと、
    前記クラスタリング不確実性と前記ニューラルネットワークの出力とを使用することによって、重み付けされた訓練損失を得るために前記1つまたは複数の擬似ラベル付けされたサンプルの訓練損失を減らすこととを含む、請求項8に記載のコンピュータプログラム製品。
  13. 前記方法は、顔認識タスクを実行するために前記顔認識モデルを実施することをさらに含む、請求項8に記載のコンピュータプログラム製品。
  14. 前記顔認識モデルは、計算システムまたは装置へのユーザのアクセスを前記ユーザの顔の分析に基づいて提供するバイオメトリックシステム内に実装される、請求項13に記載のコンピュータプログラム製品。
  15. 顔認識を実施するためのシステムであって、
    プログラムコードを格納するメモリ装置と、
    前記メモリ装置と動作可能に結合され、前記メモリ装置に記憶されたプログラムコードを実行するように構成された少なくとも1つのプロセッサ装置とを有し、前記プロセッサ装置は、
    ラベル付けされた顔データ上で訓練された顔認識モデルを取得し(410)、
    確率分布の混合を使用して、ラベル付けされていない顔データに対応する複数のラベル付けされていない顔を、前記ラベル付けされた顔データ内のものと重複するアイデンティティを含む1つまたは複数の重複するラベル付けされていない顔のセットと、前記ラベル付けされた顔データ内のものと互いに素なアイデンティティを含む1つまたは複数の互いに素なラベル付けされていない顔のセットとに分離し(420)、
    1つまたは複数の擬似ラベル付けされたサンプルを取得するためにクラスタ割り当てに対応する擬似ラベルを前記1つまたは複数の互いに素なラベル付けされていない顔のそれぞれに割り当てることによって、グラフ畳み込みネットワークを使用して1つまたは複数のクラスタ割り当てを生成するために前記1つまたは複数の互いに素なラベル付けされていない顔をクラスタリングし(430)、
    前記1つまたは複数のクラスタ割り当てに関連するクラスタリング不確実性を生成し(440)、
    前記クラスタリング不確実性を組み込むことによって顔認識性能を改善するために、前記ラベル付けされた顔データおよび前記ラベル付けされていない顔データ上で前記顔認識モデルを再訓練する(450)、システム。
  16. 前記ラベル付けされた顔データ上で訓練された顔認識モデルを取得するために使用される深層ニューラルネットワークは、完全な教師ありの様式で、ラベル付けされた顔上で訓練される、請求項15に記載のシステム。
  17. 前記確率分布の混合は、Weibull分布の混合を含む、請求項15に記載のシステム。
  18. 前記少なくとも1つのプロセッサ装置は、不正確なクラスタ割り当ての可能性の教師なしモデルを学習することによって、前記クラスタリング不確実性を生成するようにさらに構成される、請求項15に記載のシステム。
  19. 前記少なくとも1つのプロセッサ装置は、
    前記ラベル付けされた顔データおよび前記1つまたは複数の擬似ラベル付けされたサンプルをニューラルネットワークに供給し、
    前記クラスタリング不確実性と前記ニューラルネットワークの出力とを使用することによって、重み付けされた訓練損失を得るために前記1つまたは複数の擬似ラベル付けされたサンプルの訓練損失を減らすことによって、前記顔認識モデルを再訓練するようにさらに構成される、請求項15に記載のシステム。
  20. 前記少なくとも1つのプロセッサ装置は、顔認識タスクを実行するために前記顔認識モデルを実装するために前記メモリ装置上に格納されたプログラムコードを実行するようにさらに構成され、前記顔認識モデルは、計算システムまたは装置へのユーザのアクセスを前記ユーザの顔の分析に基づいて提供するバイオメトリックシステム内に実装される、請求項15に記載のシステム。
JP2022513896A 2019-11-13 2020-11-09 ラベル付けされていない顔データにわたるクラスタリングに基づく深層顔認識 Active JP7289012B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962934617P 2019-11-13 2019-11-13
US62/934,617 2019-11-13
US17/091,066 2020-11-06
US17/091,066 US11600113B2 (en) 2019-11-13 2020-11-06 Deep face recognition based on clustering over unlabeled face data
PCT/US2020/059651 WO2021096799A1 (en) 2019-11-13 2020-11-09 Deep face recognition based on clustering over unlabeled face data

Publications (2)

Publication Number Publication Date
JP2022547003A JP2022547003A (ja) 2022-11-10
JP7289012B2 true JP7289012B2 (ja) 2023-06-08

Family

ID=75846656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022513896A Active JP7289012B2 (ja) 2019-11-13 2020-11-09 ラベル付けされていない顔データにわたるクラスタリングに基づく深層顔認識

Country Status (4)

Country Link
US (1) US11600113B2 (ja)
JP (1) JP7289012B2 (ja)
DE (1) DE112020005572T5 (ja)
WO (1) WO2021096799A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580780B2 (en) * 2019-11-13 2023-02-14 Nec Corporation Universal feature representation learning for face recognition
US20220351367A1 (en) * 2021-04-30 2022-11-03 Avicenna.Ai Continuous update of hybrid models for multiple tasks learning from medical images
CN113553975B (zh) * 2021-07-29 2023-04-07 西安交通大学 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质
CN113627447B (zh) * 2021-10-13 2022-02-08 腾讯科技(深圳)有限公司 标签识别方法、装置、计算机设备、存储介质及程序产品
CN113987236B (zh) * 2021-12-24 2022-03-22 中科视语(北京)科技有限公司 基于图卷积网络的视觉检索模型的无监督训练方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167834A (ja) 2016-03-16 2017-09-21 セコム株式会社 学習データ選択装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017250B2 (en) * 2010-06-07 2021-05-25 Affectiva, Inc. Vehicle manipulation using convolutional image processing
US10204625B2 (en) * 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
US20130136298A1 (en) * 2011-11-29 2013-05-30 General Electric Company System and method for tracking and recognizing people
US10530671B2 (en) * 2015-01-15 2020-01-07 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for generating and using a web page classification model
US9875736B2 (en) * 2015-02-19 2018-01-23 Microsoft Technology Licensing, Llc Pre-training and/or transfer learning for sequence taggers
US9704054B1 (en) * 2015-09-30 2017-07-11 Amazon Technologies, Inc. Cluster-trained machine learning for image processing
IL250948B (en) * 2017-03-05 2021-04-29 Verint Systems Ltd A system and method for using transfer learning to identify user actions
US10025950B1 (en) * 2017-09-17 2018-07-17 Everalbum, Inc Systems and methods for image recognition
US11087142B2 (en) * 2018-09-13 2021-08-10 Nec Corporation Recognizing fine-grained objects in surveillance camera images
US11475714B2 (en) * 2020-02-19 2022-10-18 Motorola Solutions, Inc. Systems and methods for detecting liveness in captured image data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167834A (ja) 2016-03-16 2017-09-21 セコム株式会社 学習データ選択装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Charles Otto et al.,Clustering Millions of Faces by Identity,IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 40, Issue: 2, 01 February 2018),米国,IEEE,2017年03月07日,https://ieeexplore.ieee.org/document/7873333
Lei Yang et al.,Learning to Cluster Faces on an Affinity Graph,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2019年06月20日,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8954333

Also Published As

Publication number Publication date
WO2021096799A1 (en) 2021-05-20
US11600113B2 (en) 2023-03-07
DE112020005572T5 (de) 2022-09-08
US20210142046A1 (en) 2021-05-13
JP2022547003A (ja) 2022-11-10

Similar Documents

Publication Publication Date Title
JP7289012B2 (ja) ラベル付けされていない顔データにわたるクラスタリングに基づく深層顔認識
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Wang et al. An effective image representation method using kernel classification
CN106951825B (zh) 一种人脸图像质量评估系统以及实现方法
Babu et al. Sequential projection-based metacognitive learning in a radial basis function network for classification problems
Wallace et al. Interpreting neural networks with nearest neighbors
JP5506722B2 (ja) マルチクラス分類器をトレーニングするための方法
KR20190013011A (ko) 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
US7646894B2 (en) Bayesian competitive model integrated with a generative classifier for unspecific person verification
US8620837B2 (en) Determination of a basis for a new domain model based on a plurality of learned models
JP7257587B2 (ja) 複数のデータセットからの訓練による物体検出
WO2023088174A1 (zh) 目标检测方法及装置
Li et al. An entropy-guided reinforced partial convolutional network for zero-shot learning
Zhang et al. An unsupervised deep learning model to discover visual similarity between sketches for visual analogy support
CN115293217A (zh) 一种基于射频信号的无监督伪标签优化行人重识别方法
WO2021200392A1 (ja) データ調整システム、データ調整装置、データ調整方法、端末装置及び情報処理装置
Ubaidillah et al. Classification of liver cancer using artificial neural network and support vector machine
Lee et al. Learning non-homogenous textures and the unlearning problem with application to drusen detection in retinal images
JP7270839B2 (ja) 顔認識のための汎用特徴表現学習
Yang et al. A two-stage training framework with feature-label matching mechanism for learning from label proportions
Verma et al. Fatigue detection
US20220101101A1 (en) Domain adaptation
Landgren et al. Input verification for deep neural networks
Farias et al. Analyzing the impact of data representations in classification problems using clustering
Bocharov et al. K-shot learning of acoustic context

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230529

R150 Certificate of patent or registration of utility model

Ref document number: 7289012

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350