JP2022520120A

JP2022520120A - 顔画像認識方法及び装置、電気機器並びに記憶媒体

Info

Publication number: JP2022520120A
Application number: JP2021547720A
Authority: JP
Inventors: 黄▲悳▼▲亮▼; 朱烽; ▲趙▼瑞
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-08-12
Filing date: 2020-05-07
Publication date: 2022-03-28
Also published as: KR20210114511A; TW202107337A; WO2021027343A1; CN110458102A

Abstract

本願は、顔画像認識方法及び装置、電子機器並びに記憶媒体に関する。ここで、該方法は、顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである、ことと、前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む。本願を用いることで、顔画像に対する認識効率及び正確率を向上させることができる。

Description

（関連出願の相互参照）
本願は、２０１９年８月１２日に中国特許局に提出された、出願番号が２０１９１０７３９３８１．８であり、出願名称が「顔画像認識方法及び装置、電気機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、コンピュータビジョン技術分野に関し、特に顔画像認識方法及び装置、電子機器並びに記憶媒体に関する。

深層学習に基づいた顔認識アプリケーションは、現在、非常に一般的である。深層学習により得られた顔認識モデルの性能は、その訓練に用いられるデータタイプに繋がる。顔認識の認識効率及び正確度を向上させるために、顔認識モデルを改良するか又は該モデル訓練に用いられる訓練データの有効性（有効性は、顔認識モデルの改良に寄与し、モデル訓練に役立つより多くの情報の掘り出しに寄与する情報である）を向上させる必要がある。しかしながら、関連技術に有効な解決手段が存在しない。

本願は、顔画像認識技術的解決手段を提供する。

本願の一態様によれば、顔画像認識方法を提供する。前記方法は、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである、ことと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む。

本願を用いると、異なる顔に属する２つずつの顔画像特徴に対して、対になっていない顔画像データペアを形成し、異なる顔画像に属しても特徴が類似する２つずつの顔画像特徴を得ることができるため、該対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。該ターゲット認識ネットワークは、従来の顔画像認識ネットワークに比べてより完備である。ターゲット認識ネットワークを用いて、認識されるべき顔画像に対して認識を行う場合、顔画像に対する認識効率及び正確率を向上させることができる。可能な実現形態において、顔画像データから、異なる顔に属する処理されるべき画像データを抽出することは、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することと、
異なる顔画像に属する特徴を前記処理されるべき画像データとすることと、を含む。

本願を用いると、前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することができる。異なる顔に属する２つずつの顔画像特徴に対して、対になっていない顔画像データペアを形成する必要があるため、異なる顔画像に属する特徴を前記処理されるべき画像データとする。

可能な実現形態において、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることは、
前記異なる顔に属する特徴が少なくとも第１顔における第１特徴及び第２顔における第２特徴を含むことと、
前記第１特徴及び前記第２特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第１顔及び前記第２顔で前記顔画像データペアを構成することと、を含む。

本願を用いると、異なる顔に属する特徴が多いため、異なる顔に属しても比較的類似する特徴を選別する必要がある。従って、該比較的類似する特徴に基づいて、対になっていない顔画像データペアを形成してこそはじめて、顔画像認識ネットワークの訓練に寄与する。このため、少なくとも第１顔の第１特徴及び第２顔の第２特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第１顔及び前記第２顔で前記顔画像データペアを構成することができる。

可能な実現形態において、前記顔画像認識ネットワークに対して訓練を行う前に、前記方法は、
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることを更に含む。

本願を用いると、顔画像認識ネットワークを訓練する前に、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得る必要がある。これにより、該サンプリング順番に基づいて、訓練サンプルからサンプルデータを抽出する。従って、顔画像認識ネットワークの訓練に寄与する。サンプリング順番を考慮しないと、例えばランダムサンプリングを行う場合、必ず、顔画像認識ネットワークの訓練効果を低下させる。

可能な実現形態において、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることは、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得ることと、
前記特徴集合に基づいて、特徴ツリー（ＫＤ－Ｔｒｅｅ）を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記ＫＤ－Ｔｒｅｅの隣接ノードとすることと、
前記ＫＤ－Ｔｒｅｅをトラバースすることで得られたトラバース経路を前記サンプリング順番とすることと、を含む。

本願を用いると、ＫＤ－Ｔｒｅｅを利用して、顔画像データペアの間の特徴相関性が高い特徴をＫＤ－Ｔｒｅｅの隣接ノードとする。従って、ＫＤ－Ｔｒｅｅをトラバースすることでトラバース経路を得た後、該トラバース経路をサンプリング順番とすることができる。該サンプリング順番に応じて訓練サンプルからサンプルデータを抽出すると、顔画像認識ネットワークの訓練に寄与する。可能な実現形態において、サンプリング順番を得た後、前記方法は、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとすることを更に含む。

本願を用いると、該サンプリング順番に応じて訓練サンプルからサンプルデータを抽出し、顔画像認識ネットワークの訓練に寄与する。

可能な実現形態において、前記顔画像データペアは少なくとも、顔訓練のための第１顔画像集合及び顔収集により得られた第２顔画像集合からのものであり、且つ２つの顔画像集合における顔は異なる。

本願を用いると、顔画像データペアを事前区分された２つの顔画像集合から取得することができる。２つの顔画像集合における顔は、異なる。従って、１つの顔画像集合から異なる顔を選別する処理のコストを無くし、顔画像認識ネットワークを訓練するためのサンプルデータ「対になっていない顔画像データペア」をより迅速に得ることができる。

可能な実現形態において、顔画像認識ネットワークに対して訓練を行うことは、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することと、
前記サンプル特徴が前記第１顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得ることと、を含む。

本願を用いると、顔画像認識ネットワークに対して訓練を行う過程において、第１顔画像集合から抽出された特徴をサンプル特徴として保存することで、より多くの特徴を保留し、次回の顔画像認識ネットワークの反復訓練のためのより多くの参照特徴を提供することができ、顔画像認識ネットワークの訓練に寄与する。可能な実現形態において、前記顔画像認識ネットワークに対して訓練を行うことは、
毎回の反復で前記第２顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含む。

本願を用いると、毎回の反復で、第２顔画像集合から抽出された現在顔特徴及び前回の反復で保存されたサンプル特徴に基づいて損失関数を算出し、該損失関数の逆伝播に基づいて、顔画像認識ネットワークを訓練することができる。得られたターゲット認識ネットワークは、従来の顔画像認識ネットワークに比べてより完備である。ターゲット認識ネットワークを用いて、認識されるべき顔画像に対して認識を行う場合、顔画像に対する認識効率及び正確率を向上させることができる。

本願の一態様によれば、顔画像認識装置を提供する。前記装置は、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニットと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第１処理ユニットであって、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである、第１処理ユニットと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第２処理ユニットと、を備える。

可能な実現形態において、前記抽出ネットワークは更に、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、
異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成される。

可能な実現形態において、前記第１処理ユニットは更に、
前記異なる顔に属する特徴が少なくとも第１顔における第１特徴及び第２顔における第２特徴を含み、
前記第１特徴及び前記第２特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第１顔及び前記第２顔で前記顔画像データペアを構成するように構成される。

可能な実現形態において、前記装置は、
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第３処理ユニットを更に備える。

可能な実現形態において、前記第３処理ユニットは更に、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得、
前記特徴集合に基づいて、特徴ツリー（ＫＤ－Ｔｒｅｅ）を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記ＫＤ－Ｔｒｅｅの隣接ノードし、
前記ＫＤ－Ｔｒｅｅをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成される。

可能な実現形態において、前記第２処理ユニットは更に、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成される。

可能な実現形態において、前記第２処理ユニットは更に、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、
前記サンプル特徴が前記第１顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成される。

可能な実現形態において、前記第２処理ユニットは更に、
毎回の反復で前記第２顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成される。

本願の一態様によれば、電子機器を提供する。前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、上記顔画像認識方法を実行するように構成される。

本願の一態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、上記顔画像認識方法を実現させる。

本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサは、上記顔画像認識方法を実行する。

本願の実施例において、顔画像データから、異なる顔に属する処理されるべき画像データを抽出し、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものであり、前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。本願を用いると、異なる顔に属する２つずつの顔画像特徴に対して、対になっていない顔画像データペアを形成し、異なる顔画像に属しても特徴が類似する２つずつの顔画像特徴を得ることができるため、該対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。該ターゲット認識ネットワークは、従来の顔画像認識ネットワークに比べてより完備である。後続で、ターゲット認識ネットワークを用いて、認識されるべき顔画像に対して認識を行う場合、顔画像に対する認識効率及び正確率を向上させることができる。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。

本願の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。

本願の実施例による顔画像認識方法を示すフローチャートである。本願の実施例による顔画像認識方法を示すフローチャートである。本願の実施例による顔画像認識ネットワークの訓練プロセスを示すフローチャートである。本願の実施例による顔画像認識ネットワークの訓練プロセスを示すフローチャートである。本願の実施例による顔画像認識装置を示すブロック図である。本願の実施例による電子機器を示すブロック図である。本願の実施例による電子機器を示すブロック図である。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。

以下、図面を参照しながら本願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。

ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。

本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。また、本明細書において、用語「少なくとも１つ」は、複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを表す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。

なお、本願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。

深層学習の進歩に伴い、顔認識技術は、多くの適用シーンに適用される。特に、セキュリティ監視において不可欠なモジュールである。深層学習により得られた顔認識ネットワークの性能は、その訓練に用いられるデータタイプに繋がる。１つのシーン（例えば、ビデオ分析、セキュリティ顔監視など）で、より高い認識処理効率及び正確性などの性能を得るために、該シーンにおける顔データを収集することで顔認識ネットワークを訓練（例えば、インクリメンタル訓練）することができる。前記インクリメンタル訓練は、新たな訓練サンプルにより訓練を行い、新たな訓練サンプルから新たな知識を絶えずに学習し、過去に学習した履歴知識の大部分を保存することである。該履歴知識は、例えば、同一の顔で得られた２つずつの対になる顔画像データに基づいて訓練を行うことで得られた履歴記録である。本願は、これを基に、異なる顔により２つずつの対応のない顔画像データに基づいて訓練を行うプロセスを追加する。

インクリメンタル訓練に雑音を導入しないために、収集された顔画像でラベル無しデータを構成し、教師無し訓練を行うことができることに留意されたい。訓練プロセスにおいて、顔画像は、「対になる」方式で、顔認識ネットワークに入力されて訓練される。このような教師無し訓練は、対になる顔のみを制約するため、複数対の顔画像が顔認識ネットワークに入力されても、異なる対の顔画像同士に対して制約を行わない。従って、該顔認識ネットワークの訓練に役立つより多くの有効な情報を掘り出すことができない。これにより、このような訓練方式で得られた訓練された顔認識ネットワーク（例えば、顔画像を認識するためのターゲット認識ネットワーク）の処理効率が低く、認識精度も高くない。

本願において、異なる顔に属する処理されるべき画像データを用いて、異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることができる。これにより、該対応のない顔画像データに基づいて、上記インクリメンタル訓練を行う。異なる対の顔画像同士に対して制約を行うため、該顔認識ネットワークの訓練に役立つより多くの有効な情報を掘り出すことができる。従って、本願の訓練方式で得られた訓練された顔認識ネットワーク（例えば、顔画像を認識するためのターゲット認識ネットワーク）の処理効率は高く、認識精度を向上させる。

図１は、本願の実施例による顔画像認識方法を示すフローチャートである。該顔画像認識方法は、顔画像認識装置に適用される。例えば、顔画像認識装置は、端末機器、サーバ又は他の処理機器により実行されてもよい。ここで、端末機器は、ユーザ装置（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、携帯機器、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該顔画像認識方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。図１に示すように、該プロセスは以下を含む。

ステップＳ１０１において、顔画像データから、異なる顔に属する処理されるべき画像データを抽出する。

一例において、顔画像データを取得する。顔画像データは、複数の異なる顔の画像データである。顔画像認識ネットワークに基づいて、該顔画像データにおける顔画像の特徴を抽出する。例えば、顔画像認識ネットワークにおける特徴抽出機能モジュールを用いて、該顔画像データにおける顔画像の特徴に対して特徴抽出を行うことができる。異なる顔画像に属する特徴を該処理されるべき画像データとする。該処理されるべき画像データは、複数の顔特徴からなり、同一の顔の複数の顔特徴及び異なる顔の複数の顔特徴を含む。

ステップＳ１０２において、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである。

可能な実現形態において、異なる顔に属する処理されるべき画像データは、複数の異なる顔の画像データに対して特徴抽出を行った後に得られた複数の特徴であってもよい。該複数の特徴における２つずつの特徴の間の類似度を算出する。２つずつの特徴の間の類似度が所定の条件に合致すると、類似度を有する２つずつの特徴にそれぞれ対応する顔画像を検索し、検索された顔画像で前記顔画像データペアを構築する。該顔画像データペア（例えば、対になっていない顔画像ペア）は、「対になる」ラベル無しデータと呼ばれてもよい。つまり、後続の訓練プロセスにおいて、該対応のない顔画像をラベル無しデータとして、顔画像認識ネットワークに対をなすように入力し、該顔画像認識ネットワークを訓練する。

一例において、「第１」、「第２」という用語で、異なる顔画像からの異なる特徴を区分する。上記異なる顔に属する特徴は少なくとも、第１顔における第１特徴及び第２顔における第２特徴を含む。前記第１特徴及び前記第２特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第１顔及び前記第２顔で前記顔画像データペアを構成する。

ステップＳ１０３において、前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。

一例において、複数の顔画像データペアをラベル無しデータとして、対をなすように顔画像認識ネットワークに入力し、該顔画像認識ネットワークを訓練する。

本願を用いて、上記ステップＳ１０１－ステップＳ１０２により、該顔画像認識ネットワークの訓練に用いられる訓練サンプルを得る。つまり、複数の顔画像データペア（例えば、対になっていない顔画像ペア）を得る。ここで、対になっていない顔画像ペアは、２枚の顔画像が同一の人間に属しないことである。上記ステップＳ１０３により、異なる対の顔画像データの間で発生し得る制約性（又は、相関性と呼ばれる）を利用して、対になっていない顔画像データペアを得、該顔画像認識ネットワークをより効果的に訓練することができる。実際の適用において、例えば、インテリジェントビデオ分析又はセキュリティ顔監視シーンにおいて、該ターゲット認識ネットワークにより、認識されるべき顔画像に対して認識を行い、認識結果を得ることができる。対になっていない顔画像データペアによれば、該顔画像認識ネットワークをより効果的に訓練し、そのネットワークパラメータをより完備にすることができるため、該顔画像認識ネットワークを訓練することで顔画像を認識するためのターゲット認識ネットワークを得た後、該ターゲット認識ネットワークにより画像認識を行うと、認識処理効率がより高く、認識精度を向上させる。

図２は、本願の実施例による顔画像認識方法を示すフローチャートである。該顔画像認識方法は、顔画像認識装置に適用される。例えば、顔画像認識装置は、端末機器、サーバ又は他の処理機器により実行されてもよい。ここで、端末機器は、ユーザ装置（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、携帯機器、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該顔画像認識方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。図２に示すように、該プロセスは以下を含む。

ステップＳ２０１において、顔画像データから、異なる顔に属する処理されるべき画像データを抽出する。

ステップＳ２０２において、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである。

ステップＳ２０３において、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得る。

一例において、インクリメンタル訓練を行う前に、顔特徴の相関性に応じて、顔ピクチャのサンプリング順番を決定することができる。たとえあｂ、前記顔画像データペアの特徴に基づいて、特徴抽出を得る。前記特徴集合で特徴ツリー（ＫＤ－Ｔｒｅｅ）を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記ＫＤ－Ｔｒｅｅの隣接ノードとする。前記ＫＤ－Ｔｒｅｅをトラバースすることで得られたトラバース経路を前記サンプリング順番とする。顔画像特徴の相関性に基づいて、顔画像のサンプリング順番を算出することで、隣接して読み取られた顔画像に、高い相関性を持たせることができる。つまり、該サンプリング順番に応じて顔画像を読み取る場合、顔画像のランダムサンプリングに比べて、異なる対の顔画像データの間で発生したより多くの制約性（又は、相関性と呼ばれる）を得ることができる。より多くの制約性（又は、相関性と呼ばれる）により、該顔画像認識ネットワークをより効果的に訓練し、そのネットワークパラメータを完備にすることができる。後続の例において、特徴記憶モジュールに保存されたサンプル特徴により、該顔画像認識ネットワークをより効果的に訓練することができ、該顔画像認識ネットワークの訓練効率及び正確度を向上させることができる。

ステップＳ２０４において、サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとする。

一例において、該顔画像データペアは少なくとも、顔訓練のための第１顔画像集合及び真実の環境で顔収集を行うことで得られた第２顔画像集合からのものであり、且つ２つの顔画像集合における顔は、異なる。第１顔画像の特徴を抽出することで得られた特徴集合を後続の適用例において集合Ａと表記してもよく、第２顔画像の特徴を抽出することで得られた特徴集合を後続の適用例において集合Ｂと表記してもよく、ここで、詳細な説明を省略する。

ステップＳ２０５において、前記訓練サンプルに基づいて顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。

本願を用いて、上記ステップＳ２０１－ステップＳ２０４により、該顔画像認識ネットワークの訓練に用いられる訓練サンプルを得る。つまり、複数の顔画像データペア（例えば、対になっていない顔画像ペア）を得る。ここで、対になっていない顔画像ペアは、２枚の顔画像が同一の人間に属しないことである。上記ステップＳ２０５により、異なる対の顔画像データの間で発生し得る制約性（又は、相関性と呼ばれる）を利用して、対になっていない顔画像データペアで構成される訓練サンプルを得ることができる。続いて、該訓練サンプルに基づいて、該顔画像認識ネットワークをより効果的に訓練することができる。実際の適用において、例えば、インテリジェントビデオ分析又はセキュリティ顔監視シーンにおいて、該ターゲット認識ネットワークにより、認識されるべき顔画像に対して認識を行い、認識結果を得ることができる。該訓練サンプルによれば、該顔画像認識ネットワークをより効果的に訓練し、そのネットワークパラメータをより完備にすることができるため、該顔画像認識ネットワークを訓練することで顔画像を認識するためのターゲット認識ネットワークを得た後、該ターゲット認識ネットワークにより画像認識を行うと、認識処理効率がより高く、認識精度を向上させる。

可能な実現形態において、可能な実現形態において、顔画像認識ネットワークに対して訓練を行うことは、前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することと、前記サンプル特徴が前記第１顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得ることと、を含む。後続の適用例において、サンプル特徴は、Ｆ_Ａと表記されてもよい。Ｆ_Ａは、特徴記憶モジュールに保存されてもよい。後続の適用例において、サンプル特徴集合は、Ｆ_Ｍと表記されてもよい。Ｆ_Ａからなる集合は、Ｆ_Ｍである。ここで、詳細な説明を省略する。

可能な実現形態において、前記顔画像認識ネットワークに対して訓練を行うことは、毎回の反復で前記第２顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含む。各反復で保留した顔特徴と前回の反復における顔特徴に基づいて損失関数を算出すると理解されてもよい。つまり、各反復で保留した顔特徴と前回の反復における顔特徴を用いて制約を行い、より多くの制約情報を得る。これらの制約情報は、該顔画像認識ネットワークのより効果的な訓練に役立つため、「有効情報」と呼ばれてもよい。訓練プロセスにおいて、現在反復における２つずつの顔画像特徴のみを利用して損失関数を算出すると、本願の実施形態よりも多くの有効情報を得ることができない。本願は、顔画像認識ネットワークに特徴記憶モジュール（該サンプル画像を保存するために用いられる）を追加することで、訓練プロセスにおいて、現在反復における顔画像と特徴記憶モジュールにおけるサンプル特徴を利用して損失関数を算出し、より多くの有効情報を提供することができる。従って、訓練プロセスにおいて、より多くの有効情報を利用し、該顔画像認識ネットワークをより効果的に訓練し、訓練効率を向上させることができる。

適用例
図３は、本願の実施例による顔画像認識ネットワークの訓練プロセスを示すフローチャートである。図３に示すように、以下を含む。

ステップＳ３０１において、収集された異なる顔画像に対してそれぞれ特徴抽出を行い、対になっていない顔画像ペアで構成される訓練サンプルを構築し、訓練サンプルにおける画像は、訓練画像と呼ばれてもよい。

ステップＳ３０２において、対になっていない顔画像ペアの特徴に基づいて、訓練サンプルにおける訓練画像の訓練時のサンプリング順番を算出する。

ステップＳ３０３において、算出されたサンプリング順番に応じて、訓練サンプルにおける訓練画像を読み取り、特徴記憶モジュールにおけるサンプル特徴と共に、顔画像認識ネットワークを訓練する。

図４は、本願の実施例よる顔画像認識ネットワークの訓練プロセスを示すフローチャートである。図３－図４に示すように、関わる具体的な実現形態を以下のように説明する。

一、収集された異なる顔画像に対してそれぞれ特徴抽出を行い、対になっていない顔画像ペアで構成される訓練サンプルを構築する。

入力：実際の適用シーンから収集された顔画像、システムにおける既存の顔訓練画像。また、２つの集合に同一の顔が存在しないことを確保する。

出力：顔画像特徴、対になっていない顔画像ペア。

具体的な実現形態は、以下を含む。入力された顔画像に対して顔アライメントを行う。現在の顔認識モデルを用いて、アライメントされた顔画像に対して特徴抽出を行い、顔認識特徴を得る。実際の適用シーンから収集された顔画像特徴を集合Ａと表記し、システムにおける既存の顔画像特徴を集合Ｂと表記する。特徴集合Ｂと特徴集合Ａにおける２つずつの特徴に対してコサイン類似度を算出し、得られたコサイン類似度集合を降順に応じて順序付け、上位１０％（該百分率は一意的なものではなく、実際の状況に応じて調整可能である。百分率が大きいほど、該顔画像認識ネットワークの訓練難度は大きくなり、訓練されたターゲット認識ネットワークの性能も高くなる）のコサイン類似度に対応する画像組み合わせを該対になっていない顔画像ペアとし、臨界点のコサイン類似度を後続で該顔画像認識ネットワークを訓練するための最適化ターゲット閾値（ｔｈｒｅｓｈｏｌｄ）とする。

二、対になっていない顔画像ペアの特徴に基づいて、訓練サンプルにおける訓練画像の訓練時のサンプリング順番を算出する。

入力：特徴集合Ａ、対になっていない顔画像ペアの情報。

出力：顔画像認識ネットワーク訓練時の画像サンプリング順番。

具体的な実現形態は以下を含む。該対になっていない顔画像ペアの情報に基づいて、特徴集合Ｃ＝｛Ａ１，Ａ２，…，Ａｎ｝を構築する。集合Ｃにおける要素は、訓練のために選択されたシステムにおける既存の顔訓練画像の特徴である。特徴集合Ｃを用いてＫＤ－Ｔｒｅｅを構築し、ＫＤ－Ｔｒｅｅをトラバースし、トラバース経路は、訓練時の画像サンプリング順番である。

三、算出されたサンプリング順番に応じて、訓練サンプルにおける訓練画像を読み取り、特徴記憶モジュールにおけるサンプル特徴と共に、顔画像認識ネットワークを訓練する。

入力：現在の顔画像認識ネットワーク、該対になっていない顔画像ペア、画像サンプリング順番。

出力：訓練されたターゲット認識ネットワークである新たな顔画像認識ネットワーク。

具体的な実現形態は以下を含む。現在顔画像認識ネットワークのネットワークパラメータを利用して、該顔画像認識ネットワークを初期化する。算出されたサンプリング順番に応じて、該対になっていない顔画像ペアを読み取る。毎回の反復で、読み取られた該対になっていない顔画像ペアは、少なくとも、Ｉ_Ａ及びＩ_Ｂという２部分を含む。Ｉ_Ａは、システムにおける既存の顔訓練画像からのものであり、Ｉ_Ｂは、収集された顔画像からのものである。画像Ｉ_Ａ及びＩ_Ｂに対して、顔画像認識ネットワークにより演算を行い、特徴Ｆ_Ａ及びＦ_Ｂを得る。続いて、Ｆ_Ａを特徴記憶モジュールに保存する。Ｆ_Ｂと特徴記憶モジュールにおける全ての特徴集合Ｆ_Ｍにより、損失関数を算出し、顔画像認識ネットワークのネットワークパラメータを更新する。損失関数を算出する式は、式（１）に示すとおりである。ここで、Ｌは、損失関数であり、Ｎ、Ｍはそれぞれ、異なる特徴のうちの少なくとも１つに対応する数の合計であり、Ｆ_Ｍはサンプル特徴Ｆ_Ａからなるサンプル特徴集合であり、Ｆ_Ｂは、画像Ｉ_Ｂに対して顔画像認識ネットワークにより演算を行うことで得られた特徴であり、ｔｈｒｅｓｈｏｌｄは、特徴集合Ｂと特徴集合Ａにおける２つずつの特徴に基づいてコサイン類似度を算出する場合に得られた臨界点のコサイン類似度であり、つまり、該顔画像認識ネットワークを訓練するための最適化ターゲット閾値とする。

特徴記憶モジュールにおけるサンプル特徴は、時効性を有し、定期的に削除され、特徴記憶モジュールにおけるサンプル特徴の更新を実現させることに留意されたい。例えば、特徴記憶モジュールにおけるサンプル特徴の存続期間が１００（数値は一意的なものではなく、実際の訓練効果に応じて調整可能である）回の反復を超えると、該サンプル特徴を特徴記憶モジュールから削除し、該反復処理を、所定の反復回数を満たすまで継続する。

具体的な実施形態の上記方法において、各ステップの記述順番は、具体的な実行順番は、厳しい実行順番を意味して実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。

本願の実施例で提供される上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本願において逐一説明しないことが理解されるべきである。

なお、本願は、顔画像認識装置、電子機器、コンピュータ可読記憶媒体及びプログラムを更に提供する。上記はいずれも、本願で提供されるいずれか１つの顔画像認識方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。

図５は、本願の実施例による顔画像認識装置を示すブロック図である。図５に示すように、本願の実施例の顔画像認識装置は、顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニット３１と、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第１処理ユニット３２であって、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである、第１処理ユニット３２と、前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第２処理ユニット３３と、を備える。

可能な実現形態において、前記ターゲット認識ネットワークに基づいて、認識されるべき顔画像に対して認識を行い、認識結果を得るように構成される認識ユニットを更に備えてもよい。

可能な実現形態において、前記抽出ネットワークは更に、前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成される。

可能な実現形態において、前記第１処理ユニットは更に、前記異なる顔に属する特徴が少なくとも第１顔における第１特徴及び第２顔における第２特徴を含み、前記第１特徴及び前記第２特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第１顔及び前記第２顔で前記顔画像データペアを構成するように構成される。

可能な実現形態において、前記装置は、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第３処理ユニットを更に備える。

可能な実現形態において、前記第３処理ユニットは更に、前記顔画像データペアの間の特徴に基づいて、特徴集合を得、前記特徴集合に基づいて、特徴ツリー（ＫＤ－Ｔｒｅｅ）を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記ＫＤ－Ｔｒｅｅの隣接ノードし、前記ＫＤ－Ｔｒｅｅをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成される。

可能な実現形態において、前記第２処理ユニットは更に、前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成される。

可能な実現形態において、前記第２処理ユニットは更に、前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、前記サンプル特徴が前記第１顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成される。

可能な実現形態において、前記第２処理ユニットは更に、毎回の反復で前記第２顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成される。

幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法の実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法の実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。

本願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、プロセッサに上記方法を実現させる。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。

本願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、上記方法を実行するように構成される。

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

本願の実施例はコンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサに、上記方法を実行させる。

図６は、一例示的な実施例による電子機器８００を示すブロック図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。

図６を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサコンポーネント８１４及び通信コンポーネント８１６のうちの１つ又は複数を備えてもよい。

処理コンポーネント８０２は一般的には、電子機器８００の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント８０２は、指令を実行するための１つ又は複数のプロセッサ８２０を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理コンポーネント８０２は、他のユニットとのインタラクションのために、１つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント８０２はマルチメディアモジュールを備えることで、マルチメディアコンポーネント８０８と処理コンポーネント８０２とのインタラクションに寄与する。

メモリ８０４は、各種のデータを記憶することで電子機器８００における操作をサポートするように構成される。これらのデータの例として、電子機器８００上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ８０４は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、電気的に消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読出し専用メモリ（ＰＲＯＭ）、読出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。

電源コンポーネント８０６は電子機器８００の様々なユニットに電力を提供する。電源コンポーネント８０６は、電源管理システム、１つ又は複数の電源、及び電子機器８００のための電力生成、管理、分配に関連する他のユニットを備えてもよい。

マルチメディアコンポーネント８０８は、上記電子機器８００とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する１つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアコンポーネント８０８は、フロントカメラ及び／又はリアカメラを備える。電子機器８００が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び／又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。

オーディオコンポーネント８１０は、オーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオコンポーネント８１０は、マイクロホン（ＭＩＣ）を備える。電子機器８００が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ８０４に記憶するか、又は通信コンポーネント８１６を経由して送信することができる。幾つかの実施例において、オーディオコンポーネント８１０は、オーディオ信号を出力するように構成されるスピーカーを更に備える。

Ｉ／Ｏインタフェース８１２は、処理コンポーネント８０２と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。

センサコンポーネント８１４は、１つ又は複数のセンサを備え、電子機器８００のために様々な状態の評価を行うように構成される。例えば、センサコンポーネント８１４は、電子機器８００のオン／オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器８００のディスプレイ及びキーパッドである。センサコンポーネント８１４は電子機器８００又は電子機器８００における１つのユニットの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位又は加速／減速及び電子機器８００の温度の変動を検出することもできる。センサコンポーネント８１４は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサコンポーネント８１４は、ＣＭＯＳ又はＣＣＤ画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサコンポーネント８１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。

通信コンポーネント８１６は、電子機器８００と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器８００は、ＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信コンポーネント８１６は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信コンポーネント８１６は、近接場通信（ＮＦＣ）モジュールを更に備えることで近距離通信を促進する。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術及び他の技術に基づいて実現される。

例示的な実施例において、電子機器８００は、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。

例示的な実施例において、コンピュータプログラム命令を記憶したメモリ８０４のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０により実行され上記方法を完了する。

図７は、一例示的な実施例による電子機器９００を示すブロック図である。例えば、電子機器９００は、サーバとして提供されてもよい。図７を参照すると、電子機器９００は、処理コンポーネント９２２を備える。それは、１つ又は複数のプロセッサ、及びメモリ９３２で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理コンポーネント９２２により実行される命令を記憶するためのものである。メモリ９３２に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する１つ又は1つ以上のモジュールを含んでもよい。なお、処理コンポーネント９２２は、命令を実行して、上記方法を実行するように構成される。

電子機器９００は、電子機器９００の電源管理を実行するように構成される電源コンポーネント９２６と、電子機器９００をネットワークに接続するように構成される有線又は無線ネットワークインタフェース９５０と、入力出力（Ｉ／Ｏ）インタフェース９５８と、を更に備えてもよい。電子機器９００は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭ又は類似したものなど、メモリ９３２に記憶されているオペレーティングシステムを実行することができる。

例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ９３２のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器９００の処理コンポーネント９２２により実行されて上記方法を完了する。

本願は、システム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。

コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的なリスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。

ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング／処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング／処理装置におけるコンピュータ可読記憶媒体に記憶する。

本願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は１つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、任意の種類のネットワーク（ローカルエリアネットワーク（ＬＡＮ）やワイドエリアネットワーク（ＷＡＮ）を含む）を通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる（例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する）。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブル論理アレイ（ＰＬＡ）のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。

ここで、本願の実施例の方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び／又はブロック図の各ブロック及びフローチャート及び／又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行されると、フローチャート及び/又はブロック図における１つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び／又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図おける１つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。

コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能/操作を実現させる。

図面におけるフローチャート及びブック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、１つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。

以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到し得るものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。

本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサは、上記顔画像認識方法を実行する。
例えば、本願は以下の項目を提供する。
（項目１）
顔画像認識方法であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである、ことと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む、方法。
（項目２）
前記顔画像データから、異なる顔に属する処理されるべき画像データを抽出することは、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することと、
異なる顔画像に属する特徴を前記処理されるべき画像データとすることと、を含むことを特徴とする
項目１に記載の方法。
（項目３）
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることは、
前記異なる顔に属する特徴が少なくとも第１顔における第１特徴及び第２顔における第２特徴を含むことと、
前記第１特徴及び前記第２特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第１顔及び前記第２顔で前記顔画像データペアを構成することと、を含むことを特徴とする
項目２に記載の方法。
（項目４）
前記顔画像認識ネットワークに対して訓練を行う前に、
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることを更に含むことを特徴とする
項目２に記載の方法。
（項目５）
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることは、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得ることと、
前記特徴集合に基づいて、特徴ツリー（ＫＤ－Ｔｒｅｅ）を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記ＫＤ－Ｔｒｅｅの隣接ノードとすることと、
前記ＫＤ－Ｔｒｅｅをトラバースすることで得られたトラバース経路を前記サンプリング順番とすることと、を含むことを特徴とする
項目４に記載の方法。
（項目６）
サンプリング順番を得た後、前記方法は、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとすることを更に含むことを特徴とする
項目４又は５に記載の方法。
（項目７）
前記顔画像データペアは、少なくとも、顔訓練のための第１顔画像集合及び顔収集により得られた第２顔画像集合からのものであり、且つ２つの顔画像集合における顔は異なることを特徴とする
項目１から６のうちいずれか一項に記載の方法。
（項目８）
前記顔画像認識ネットワークに対して訓練を行うことは、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することであって、前記サンプル特徴は前記第１顔画像集合から抽出された特徴を含む、ことと、
複数回の反復によりサンプル特徴集合を得ることと、を含むことを特徴とする
項目７に記載の方法。
（項目９）
前記顔画像認識ネットワークに対して訓練を行うことは、
毎回の反復で前記第２顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含むことを特徴とする
項目８に記載の方法。
（項目１０）
顔画像認識装置であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニットと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第１処理ユニットであって、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである、第１処理ユニットと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第２処理ユニットと、を備える、装置。
（項目１１）
前記抽出ネットワークは更に、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、
異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成されることを特徴とする
項目１０に記載の装置。
（項目１２）
前記第１処理ユニットは更に、
前記異なる顔に属する特徴が少なくとも第１顔における第１特徴及び第２顔における第２特徴を含み、
前記第１特徴及び前記第２特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第１顔及び前記第２顔で前記顔画像データペアを構成するように構成されることを特徴とする
項目１１に記載の装置。
（項目１３）
前記装置は、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第３処理ユニットを更に備えることを特徴とする
項目１１に記載の装置。
（項目１４）
前記第３処理ユニットは更に、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得、
前記特徴集合に基づいて、特徴ツリー（ＫＤ－Ｔｒｅｅ）を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記ＫＤ－Ｔｒｅｅの隣接ノードし、
前記ＫＤ－Ｔｒｅｅをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成されることを特徴とする
項目１３に記載の装置。
（項目１５）
前記第２処理ユニットは更に、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成されることを特徴とする
項目１３又は１４に記載の装置。
（項目１６）
前記顔画像データペアは、少なくとも、顔訓練のための第１顔画像集合及び顔収集により得られた第２顔画像集合からのものであり、且つ２つの顔画像集合における顔は異なることを特徴とする
項目１０から１５のうちいずれか一項に記載の装置。
（項目１７）
前記第２処理ユニットは更に、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、
前記サンプル特徴が前記第１顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成されることを特徴とする
項目１６に記載の装置。
（項目１８）
前記第２処理ユニットは更に、
毎回の反復で前記第２顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成されることを特徴とする
項目１７に記載の装置。
（項目１９）
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、項目１から９のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
（項目２０）
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、前記プロセッサに項目１から９のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
（項目２１）
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサに、項目１から９のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。

Claims

顔画像認識方法であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである、ことと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む、方法。
前記顔画像データから、異なる顔に属する処理されるべき画像データを抽出することは、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することと、
異なる顔画像に属する特徴を前記処理されるべき画像データとすることと、を含むことを特徴とする
請求項１に記載の方法。
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることは、
前記異なる顔に属する特徴が少なくとも第１顔における第１特徴及び第２顔における第２特徴を含むことと、
前記第１特徴及び前記第２特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第１顔及び前記第２顔で前記顔画像データペアを構成することと、を含むことを特徴とする
請求項２に記載の方法。
前記顔画像認識ネットワークに対して訓練を行う前に、
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることを更に含むことを特徴とする
請求項２に記載の方法。
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることは、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得ることと、
前記特徴集合に基づいて、特徴ツリー（ＫＤ－Ｔｒｅｅ）を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記ＫＤ－Ｔｒｅｅの隣接ノードとすることと、
前記ＫＤ－Ｔｒｅｅをトラバースすることで得られたトラバース経路を前記サンプリング順番とすることと、を含むことを特徴とする
請求項４に記載の方法。
サンプリング順番を得た後、前記方法は、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとすることを更に含むことを特徴とする
請求項４又は５に記載の方法。
前記顔画像データペアは、少なくとも、顔訓練のための第１顔画像集合及び顔収集により得られた第２顔画像集合からのものであり、且つ２つの顔画像集合における顔は異なることを特徴とする
請求項１から６のうちいずれか一項に記載の方法。
前記顔画像認識ネットワークに対して訓練を行うことは、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することであって、前記サンプル特徴は前記第１顔画像集合から抽出された特徴を含む、ことと、
複数回の反復によりサンプル特徴集合を得ることと、を含むことを特徴とする
請求項７に記載の方法。
前記顔画像認識ネットワークに対して訓練を行うことは、
毎回の反復で前記第２顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含むことを特徴とする
請求項８に記載の方法。
顔画像認識装置であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニットと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第１処理ユニットであって、前記対になっていない顔画像データペアは、異なる顔に属する２枚の顔画像の特徴を表すためのものである、第１処理ユニットと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第２処理ユニットと、を備える、装置。
前記抽出ネットワークは更に、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、
異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成されることを特徴とする
請求項１０に記載の装置。
前記第１処理ユニットは更に、
前記異なる顔に属する特徴が少なくとも第１顔における第１特徴及び第２顔における第２特徴を含み、
前記第１特徴及び前記第２特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第１顔及び前記第２顔で前記顔画像データペアを構成するように構成されることを特徴とする
請求項１１に記載の装置。
前記装置は、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第３処理ユニットを更に備えることを特徴とする
請求項１１に記載の装置。
前記第３処理ユニットは更に、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得、
前記特徴集合に基づいて、特徴ツリー（ＫＤ－Ｔｒｅｅ）を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記ＫＤ－Ｔｒｅｅの隣接ノードし、
前記ＫＤ－Ｔｒｅｅをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成されることを特徴とする
請求項１３に記載の装置。
前記第２処理ユニットは更に、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成されることを特徴とする
請求項１３又は１４に記載の装置。
前記顔画像データペアは、少なくとも、顔訓練のための第１顔画像集合及び顔収集により得られた第２顔画像集合からのものであり、且つ２つの顔画像集合における顔は異なることを特徴とする
請求項１０から１５のうちいずれか一項に記載の装置。
前記第２処理ユニットは更に、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、
前記サンプル特徴が前記第１顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成されることを特徴とする
請求項１６に記載の装置。
前記第２処理ユニットは更に、
毎回の反復で前記第２顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成されることを特徴とする
請求項１７に記載の装置。
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、請求項１から９のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、前記プロセッサに請求項１から９のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサに、請求項１から９のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。