JP2022520120A - 顔画像認識方法及び装置、電気機器並びに記憶媒体 - Google Patents
顔画像認識方法及び装置、電気機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP2022520120A JP2022520120A JP2021547720A JP2021547720A JP2022520120A JP 2022520120 A JP2022520120 A JP 2022520120A JP 2021547720 A JP2021547720 A JP 2021547720A JP 2021547720 A JP2021547720 A JP 2021547720A JP 2022520120 A JP2022520120 A JP 2022520120A
- Authority
- JP
- Japan
- Prior art keywords
- face image
- face
- image data
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本願は、顔画像認識方法及び装置、電子機器並びに記憶媒体に関する。ここで、該方法は、顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、ことと、前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む。本願を用いることで、顔画像に対する認識効率及び正確率を向上させることができる。
Description
(関連出願の相互参照)
本願は、2019年8月12日に中国特許局に提出された、出願番号が201910739381.8であり、出願名称が「顔画像認識方法及び装置、電気機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、2019年8月12日に中国特許局に提出された、出願番号が201910739381.8であり、出願名称が「顔画像認識方法及び装置、電気機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、コンピュータビジョン技術分野に関し、特に顔画像認識方法及び装置、電子機器並びに記憶媒体に関する。
深層学習に基づいた顔認識アプリケーションは、現在、非常に一般的である。深層学習により得られた顔認識モデルの性能は、その訓練に用いられるデータタイプに繋がる。顔認識の認識効率及び正確度を向上させるために、顔認識モデルを改良するか又は該モデル訓練に用いられる訓練データの有効性(有効性は、顔認識モデルの改良に寄与し、モデル訓練に役立つより多くの情報の掘り出しに寄与する情報である)を向上させる必要がある。しかしながら、関連技術に有効な解決手段が存在しない。
本願は、顔画像認識技術的解決手段を提供する。
本願の一態様によれば、顔画像認識方法を提供する。前記方法は、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、ことと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む。
顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、ことと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む。
本願を用いると、異なる顔に属する2つずつの顔画像特徴に対して、対になっていない顔画像データペアを形成し、異なる顔画像に属しても特徴が類似する2つずつの顔画像特徴を得ることができるため、該対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。該ターゲット認識ネットワークは、従来の顔画像認識ネットワークに比べてより完備である。ターゲット認識ネットワークを用いて、認識されるべき顔画像に対して認識を行う場合、顔画像に対する認識効率及び正確率を向上させることができる。可能な実現形態において、顔画像データから、異なる顔に属する処理されるべき画像データを抽出することは、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することと、
異なる顔画像に属する特徴を前記処理されるべき画像データとすることと、を含む。
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することと、
異なる顔画像に属する特徴を前記処理されるべき画像データとすることと、を含む。
本願を用いると、前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することができる。異なる顔に属する2つずつの顔画像特徴に対して、対になっていない顔画像データペアを形成する必要があるため、異なる顔画像に属する特徴を前記処理されるべき画像データとする。
可能な実現形態において、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることは、
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含むことと、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成することと、を含む。
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含むことと、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成することと、を含む。
本願を用いると、異なる顔に属する特徴が多いため、異なる顔に属しても比較的類似する特徴を選別する必要がある。従って、該比較的類似する特徴に基づいて、対になっていない顔画像データペアを形成してこそはじめて、顔画像認識ネットワークの訓練に寄与する。このため、少なくとも第1顔の第1特徴及び第2顔の第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成することができる。
可能な実現形態において、前記顔画像認識ネットワークに対して訓練を行う前に、前記方法は、
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることを更に含む。
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることを更に含む。
本願を用いると、顔画像認識ネットワークを訓練する前に、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得る必要がある。これにより、該サンプリング順番に基づいて、訓練サンプルからサンプルデータを抽出する。従って、顔画像認識ネットワークの訓練に寄与する。サンプリング順番を考慮しないと、例えばランダムサンプリングを行う場合、必ず、顔画像認識ネットワークの訓練効果を低下させる。
可能な実現形態において、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることは、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得ることと、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードとすることと、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とすることと、を含む。
前記顔画像データペアの間の特徴に基づいて、特徴集合を得ることと、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードとすることと、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とすることと、を含む。
本願を用いると、KD-Treeを利用して、顔画像データペアの間の特徴相関性が高い特徴をKD-Treeの隣接ノードとする。従って、KD-Treeをトラバースすることでトラバース経路を得た後、該トラバース経路をサンプリング順番とすることができる。該サンプリング順番に応じて訓練サンプルからサンプルデータを抽出すると、顔画像認識ネットワークの訓練に寄与する。可能な実現形態において、サンプリング順番を得た後、前記方法は、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとすることを更に含む。
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとすることを更に含む。
本願を用いると、該サンプリング順番に応じて訓練サンプルからサンプルデータを抽出し、顔画像認識ネットワークの訓練に寄与する。
可能な実現形態において、前記顔画像データペアは少なくとも、顔訓練のための第1顔画像集合及び顔収集により得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は異なる。
本願を用いると、顔画像データペアを事前区分された2つの顔画像集合から取得することができる。2つの顔画像集合における顔は、異なる。従って、1つの顔画像集合から異なる顔を選別する処理のコストを無くし、顔画像認識ネットワークを訓練するためのサンプルデータ「対になっていない顔画像データペア」をより迅速に得ることができる。
可能な実現形態において、顔画像認識ネットワークに対して訓練を行うことは、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することと、
前記サンプル特徴が前記第1顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得ることと、を含む。
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することと、
前記サンプル特徴が前記第1顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得ることと、を含む。
本願を用いると、顔画像認識ネットワークに対して訓練を行う過程において、第1顔画像集合から抽出された特徴をサンプル特徴として保存することで、より多くの特徴を保留し、次回の顔画像認識ネットワークの反復訓練のためのより多くの参照特徴を提供することができ、顔画像認識ネットワークの訓練に寄与する。可能な実現形態において、前記顔画像認識ネットワークに対して訓練を行うことは、
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含む。
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含む。
本願を用いると、毎回の反復で、第2顔画像集合から抽出された現在顔特徴及び前回の反復で保存されたサンプル特徴に基づいて損失関数を算出し、該損失関数の逆伝播に基づいて、顔画像認識ネットワークを訓練することができる。得られたターゲット認識ネットワークは、従来の顔画像認識ネットワークに比べてより完備である。ターゲット認識ネットワークを用いて、認識されるべき顔画像に対して認識を行う場合、顔画像に対する認識効率及び正確率を向上させることができる。
本願の一態様によれば、顔画像認識装置を提供する。前記装置は、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニットと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第1処理ユニットであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、第1処理ユニットと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第2処理ユニットと、を備える。
顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニットと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第1処理ユニットであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、第1処理ユニットと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第2処理ユニットと、を備える。
可能な実現形態において、前記抽出ネットワークは更に、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、
異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成される。
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、
異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成される。
可能な実現形態において、前記第1処理ユニットは更に、
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含み、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成するように構成される。
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含み、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成するように構成される。
可能な実現形態において、前記装置は、
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第3処理ユニットを更に備える。
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第3処理ユニットを更に備える。
可能な実現形態において、前記第3処理ユニットは更に、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードし、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成される。
前記顔画像データペアの間の特徴に基づいて、特徴集合を得、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードし、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成される。
可能な実現形態において、前記第2処理ユニットは更に、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成される。
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成される。
可能な実現形態において、前記顔画像データペアは少なくとも、顔訓練のための第1顔画像集合及び顔収集により得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は異なる。
可能な実現形態において、前記第2処理ユニットは更に、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、
前記サンプル特徴が前記第1顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成される。
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、
前記サンプル特徴が前記第1顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成される。
可能な実現形態において、前記第2処理ユニットは更に、
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成される。
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成される。
本願の一態様によれば、電子機器を提供する。前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、上記顔画像認識方法を実行するように構成される。
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、上記顔画像認識方法を実行するように構成される。
本願の一態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、上記顔画像認識方法を実現させる。
本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサは、上記顔画像認識方法を実行する。
本願の実施例において、顔画像データから、異なる顔に属する処理されるべき画像データを抽出し、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものであり、前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。本願を用いると、異なる顔に属する2つずつの顔画像特徴に対して、対になっていない顔画像データペアを形成し、異なる顔画像に属しても特徴が類似する2つずつの顔画像特徴を得ることができるため、該対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。該ターゲット認識ネットワークは、従来の顔画像認識ネットワークに比べてより完備である。後続で、ターゲット認識ネットワークを用いて、認識されるべき顔画像に対して認識を行う場合、顔画像に対する認識効率及び正確率を向上させることができる。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
本願の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
以下、図面を参照しながら本願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。
ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
なお、本願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
深層学習の進歩に伴い、顔認識技術は、多くの適用シーンに適用される。特に、セキュリティ監視において不可欠なモジュールである。深層学習により得られた顔認識ネットワークの性能は、その訓練に用いられるデータタイプに繋がる。1つのシーン(例えば、ビデオ分析、セキュリティ顔監視など)で、より高い認識処理効率及び正確性などの性能を得るために、該シーンにおける顔データを収集することで顔認識ネットワークを訓練(例えば、インクリメンタル訓練)することができる。前記インクリメンタル訓練は、新たな訓練サンプルにより訓練を行い、新たな訓練サンプルから新たな知識を絶えずに学習し、過去に学習した履歴知識の大部分を保存することである。該履歴知識は、例えば、同一の顔で得られた2つずつの対になる顔画像データに基づいて訓練を行うことで得られた履歴記録である。本願は、これを基に、異なる顔により2つずつの対応のない顔画像データに基づいて訓練を行うプロセスを追加する。
インクリメンタル訓練に雑音を導入しないために、収集された顔画像でラベル無しデータを構成し、教師無し訓練を行うことができることに留意されたい。訓練プロセスにおいて、顔画像は、「対になる」方式で、顔認識ネットワークに入力されて訓練される。このような教師無し訓練は、対になる顔のみを制約するため、複数対の顔画像が顔認識ネットワークに入力されても、異なる対の顔画像同士に対して制約を行わない。従って、該顔認識ネットワークの訓練に役立つより多くの有効な情報を掘り出すことができない。これにより、このような訓練方式で得られた訓練された顔認識ネットワーク(例えば、顔画像を認識するためのターゲット認識ネットワーク)の処理効率が低く、認識精度も高くない。
本願において、異なる顔に属する処理されるべき画像データを用いて、異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることができる。これにより、該対応のない顔画像データに基づいて、上記インクリメンタル訓練を行う。異なる対の顔画像同士に対して制約を行うため、該顔認識ネットワークの訓練に役立つより多くの有効な情報を掘り出すことができる。従って、本願の訓練方式で得られた訓練された顔認識ネットワーク(例えば、顔画像を認識するためのターゲット認識ネットワーク)の処理効率は高く、認識精度を向上させる。
図1は、本願の実施例による顔画像認識方法を示すフローチャートである。該顔画像認識方法は、顔画像認識装置に適用される。例えば、顔画像認識装置は、端末機器、サーバ又は他の処理機器により実行されてもよい。ここで、端末機器は、ユーザ装置(UE:User Equipment)、携帯機器、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該顔画像認識方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。図1に示すように、該プロセスは以下を含む。
ステップS101において、顔画像データから、異なる顔に属する処理されるべき画像データを抽出する。
一例において、顔画像データを取得する。顔画像データは、複数の異なる顔の画像データである。顔画像認識ネットワークに基づいて、該顔画像データにおける顔画像の特徴を抽出する。例えば、顔画像認識ネットワークにおける特徴抽出機能モジュールを用いて、該顔画像データにおける顔画像の特徴に対して特徴抽出を行うことができる。異なる顔画像に属する特徴を該処理されるべき画像データとする。該処理されるべき画像データは、複数の顔特徴からなり、同一の顔の複数の顔特徴及び異なる顔の複数の顔特徴を含む。
ステップS102において、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである。
可能な実現形態において、異なる顔に属する処理されるべき画像データは、複数の異なる顔の画像データに対して特徴抽出を行った後に得られた複数の特徴であってもよい。該複数の特徴における2つずつの特徴の間の類似度を算出する。2つずつの特徴の間の類似度が所定の条件に合致すると、類似度を有する2つずつの特徴にそれぞれ対応する顔画像を検索し、検索された顔画像で前記顔画像データペアを構築する。該顔画像データペア(例えば、対になっていない顔画像ペア)は、「対になる」ラベル無しデータと呼ばれてもよい。つまり、後続の訓練プロセスにおいて、該対応のない顔画像をラベル無しデータとして、顔画像認識ネットワークに対をなすように入力し、該顔画像認識ネットワークを訓練する。
一例において、「第1」、「第2」という用語で、異なる顔画像からの異なる特徴を区分する。上記異なる顔に属する特徴は少なくとも、第1顔における第1特徴及び第2顔における第2特徴を含む。前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成する。
ステップS103において、前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。
一例において、複数の顔画像データペアをラベル無しデータとして、対をなすように顔画像認識ネットワークに入力し、該顔画像認識ネットワークを訓練する。
本願を用いて、上記ステップS101-ステップS102により、該顔画像認識ネットワークの訓練に用いられる訓練サンプルを得る。つまり、複数の顔画像データペア(例えば、対になっていない顔画像ペア)を得る。ここで、対になっていない顔画像ペアは、2枚の顔画像が同一の人間に属しないことである。上記ステップS103により、異なる対の顔画像データの間で発生し得る制約性(又は、相関性と呼ばれる)を利用して、対になっていない顔画像データペアを得、該顔画像認識ネットワークをより効果的に訓練することができる。実際の適用において、例えば、インテリジェントビデオ分析又はセキュリティ顔監視シーンにおいて、該ターゲット認識ネットワークにより、認識されるべき顔画像に対して認識を行い、認識結果を得ることができる。対になっていない顔画像データペアによれば、該顔画像認識ネットワークをより効果的に訓練し、そのネットワークパラメータをより完備にすることができるため、該顔画像認識ネットワークを訓練することで顔画像を認識するためのターゲット認識ネットワークを得た後、該ターゲット認識ネットワークにより画像認識を行うと、認識処理効率がより高く、認識精度を向上させる。
図2は、本願の実施例による顔画像認識方法を示すフローチャートである。該顔画像認識方法は、顔画像認識装置に適用される。例えば、顔画像認識装置は、端末機器、サーバ又は他の処理機器により実行されてもよい。ここで、端末機器は、ユーザ装置(UE:User Equipment)、携帯機器、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該顔画像認識方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。図2に示すように、該プロセスは以下を含む。
ステップS201において、顔画像データから、異なる顔に属する処理されるべき画像データを抽出する。
一例において、顔画像データを取得する。顔画像データは、複数の異なる顔の画像データである。顔画像認識ネットワークに基づいて、該顔画像データにおける顔画像の特徴を抽出する。例えば、顔画像認識ネットワークにおける特徴抽出機能モジュールを用いて、該顔画像データにおける顔画像の特徴に対して特徴抽出を行うことができる。異なる顔画像に属する特徴を該処理されるべき画像データとする。該処理されるべき画像データは、複数の顔特徴からなり、同一の顔の複数の顔特徴及び異なる顔の複数の顔特徴を含む。
ステップS202において、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである。
可能な実現形態において、異なる顔に属する処理されるべき画像データは、複数の異なる顔の画像データに対して特徴抽出を行った後に得られた複数の特徴であってもよい。該複数の特徴における2つずつの特徴の間の類似度を算出する。2つずつの特徴の間の類似度が所定の条件に合致すると、類似度を有する2つずつの特徴にそれぞれ対応する顔画像を検索し、検索された顔画像で前記顔画像データペアを構築する。該顔画像データペア(例えば、対になっていない顔画像ペア)は、「対になる」ラベル無しデータと呼ばれてもよい。つまり、後続の訓練プロセスにおいて、該対応のない顔画像をラベル無しデータとして、顔画像認識ネットワークに対をなすように入力し、該顔画像認識ネットワークを訓練する。
一例において、「第1」、「第2」という用語で、異なる顔画像からの異なる特徴を区分する。上記異なる顔に属する特徴は少なくとも、第1顔における第1特徴及び第2顔における第2特徴を含む。前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成する。
ステップS203において、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得る。
一例において、インクリメンタル訓練を行う前に、顔特徴の相関性に応じて、顔ピクチャのサンプリング順番を決定することができる。たとえあb、前記顔画像データペアの特徴に基づいて、特徴抽出を得る。前記特徴集合で特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードとする。前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とする。顔画像特徴の相関性に基づいて、顔画像のサンプリング順番を算出することで、隣接して読み取られた顔画像に、高い相関性を持たせることができる。つまり、該サンプリング順番に応じて顔画像を読み取る場合、顔画像のランダムサンプリングに比べて、異なる対の顔画像データの間で発生したより多くの制約性(又は、相関性と呼ばれる)を得ることができる。より多くの制約性(又は、相関性と呼ばれる)により、該顔画像認識ネットワークをより効果的に訓練し、そのネットワークパラメータを完備にすることができる。後続の例において、特徴記憶モジュールに保存されたサンプル特徴により、該顔画像認識ネットワークをより効果的に訓練することができ、該顔画像認識ネットワークの訓練効率及び正確度を向上させることができる。
ステップS204において、サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとする。
一例において、該顔画像データペアは少なくとも、顔訓練のための第1顔画像集合及び真実の環境で顔収集を行うことで得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は、異なる。第1顔画像の特徴を抽出することで得られた特徴集合を後続の適用例において集合Aと表記してもよく、第2顔画像の特徴を抽出することで得られた特徴集合を後続の適用例において集合Bと表記してもよく、ここで、詳細な説明を省略する。
ステップS205において、前記訓練サンプルに基づいて顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得る。
一例において、複数の顔画像データペアをラベル無しデータとして、対をなすように顔画像認識ネットワークに入力し、該顔画像認識ネットワークを訓練する。
本願を用いて、上記ステップS201-ステップS204により、該顔画像認識ネットワークの訓練に用いられる訓練サンプルを得る。つまり、複数の顔画像データペア(例えば、対になっていない顔画像ペア)を得る。ここで、対になっていない顔画像ペアは、2枚の顔画像が同一の人間に属しないことである。上記ステップS205により、異なる対の顔画像データの間で発生し得る制約性(又は、相関性と呼ばれる)を利用して、対になっていない顔画像データペアで構成される訓練サンプルを得ることができる。続いて、該訓練サンプルに基づいて、該顔画像認識ネットワークをより効果的に訓練することができる。実際の適用において、例えば、インテリジェントビデオ分析又はセキュリティ顔監視シーンにおいて、該ターゲット認識ネットワークにより、認識されるべき顔画像に対して認識を行い、認識結果を得ることができる。該訓練サンプルによれば、該顔画像認識ネットワークをより効果的に訓練し、そのネットワークパラメータをより完備にすることができるため、該顔画像認識ネットワークを訓練することで顔画像を認識するためのターゲット認識ネットワークを得た後、該ターゲット認識ネットワークにより画像認識を行うと、認識処理効率がより高く、認識精度を向上させる。
可能な実現形態において、可能な実現形態において、顔画像認識ネットワークに対して訓練を行うことは、前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することと、前記サンプル特徴が前記第1顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得ることと、を含む。後続の適用例において、サンプル特徴は、FAと表記されてもよい。FAは、特徴記憶モジュールに保存されてもよい。後続の適用例において、サンプル特徴集合は、FMと表記されてもよい。FAからなる集合は、FMである。ここで、詳細な説明を省略する。
可能な実現形態において、前記顔画像認識ネットワークに対して訓練を行うことは、毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含む。各反復で保留した顔特徴と前回の反復における顔特徴に基づいて損失関数を算出すると理解されてもよい。つまり、各反復で保留した顔特徴と前回の反復における顔特徴を用いて制約を行い、より多くの制約情報を得る。これらの制約情報は、該顔画像認識ネットワークのより効果的な訓練に役立つため、「有効情報」と呼ばれてもよい。訓練プロセスにおいて、現在反復における2つずつの顔画像特徴のみを利用して損失関数を算出すると、本願の実施形態よりも多くの有効情報を得ることができない。本願は、顔画像認識ネットワークに特徴記憶モジュール(該サンプル画像を保存するために用いられる)を追加することで、訓練プロセスにおいて、現在反復における顔画像と特徴記憶モジュールにおけるサンプル特徴を利用して損失関数を算出し、より多くの有効情報を提供することができる。従って、訓練プロセスにおいて、より多くの有効情報を利用し、該顔画像認識ネットワークをより効果的に訓練し、訓練効率を向上させることができる。
適用例
図3は、本願の実施例による顔画像認識ネットワークの訓練プロセスを示すフローチャートである。図3に示すように、以下を含む。
図3は、本願の実施例による顔画像認識ネットワークの訓練プロセスを示すフローチャートである。図3に示すように、以下を含む。
ステップS301において、収集された異なる顔画像に対してそれぞれ特徴抽出を行い、対になっていない顔画像ペアで構成される訓練サンプルを構築し、訓練サンプルにおける画像は、訓練画像と呼ばれてもよい。
ステップS302において、対になっていない顔画像ペアの特徴に基づいて、訓練サンプルにおける訓練画像の訓練時のサンプリング順番を算出する。
ステップS303において、算出されたサンプリング順番に応じて、訓練サンプルにおける訓練画像を読み取り、特徴記憶モジュールにおけるサンプル特徴と共に、顔画像認識ネットワークを訓練する。
図4は、本願の実施例よる顔画像認識ネットワークの訓練プロセスを示すフローチャートである。図3-図4に示すように、関わる具体的な実現形態を以下のように説明する。
一、収集された異なる顔画像に対してそれぞれ特徴抽出を行い、対になっていない顔画像ペアで構成される訓練サンプルを構築する。
入力:実際の適用シーンから収集された顔画像、システムにおける既存の顔訓練画像。また、2つの集合に同一の顔が存在しないことを確保する。
出力:顔画像特徴、対になっていない顔画像ペア。
具体的な実現形態は、以下を含む。入力された顔画像に対して顔アライメントを行う。現在の顔認識モデルを用いて、アライメントされた顔画像に対して特徴抽出を行い、顔認識特徴を得る。実際の適用シーンから収集された顔画像特徴を集合Aと表記し、システムにおける既存の顔画像特徴を集合Bと表記する。特徴集合Bと特徴集合Aにおける2つずつの特徴に対してコサイン類似度を算出し、得られたコサイン類似度集合を降順に応じて順序付け、上位10%(該百分率は一意的なものではなく、実際の状況に応じて調整可能である。百分率が大きいほど、該顔画像認識ネットワークの訓練難度は大きくなり、訓練されたターゲット認識ネットワークの性能も高くなる)のコサイン類似度に対応する画像組み合わせを該対になっていない顔画像ペアとし、臨界点のコサイン類似度を後続で該顔画像認識ネットワークを訓練するための最適化ターゲット閾値(threshold)とする。
二、対になっていない顔画像ペアの特徴に基づいて、訓練サンプルにおける訓練画像の訓練時のサンプリング順番を算出する。
入力:特徴集合A、対になっていない顔画像ペアの情報。
出力:顔画像認識ネットワーク訓練時の画像サンプリング順番。
具体的な実現形態は以下を含む。該対になっていない顔画像ペアの情報に基づいて、特徴集合C={A1,A2,…,An}を構築する。集合Cにおける要素は、訓練のために選択されたシステムにおける既存の顔訓練画像の特徴である。特徴集合Cを用いてKD-Treeを構築し、KD-Treeをトラバースし、トラバース経路は、訓練時の画像サンプリング順番である。
三、算出されたサンプリング順番に応じて、訓練サンプルにおける訓練画像を読み取り、特徴記憶モジュールにおけるサンプル特徴と共に、顔画像認識ネットワークを訓練する。
入力:現在の顔画像認識ネットワーク、該対になっていない顔画像ペア、画像サンプリング順番。
出力:訓練されたターゲット認識ネットワークである新たな顔画像認識ネットワーク。
具体的な実現形態は以下を含む。現在顔画像認識ネットワークのネットワークパラメータを利用して、該顔画像認識ネットワークを初期化する。算出されたサンプリング順番に応じて、該対になっていない顔画像ペアを読み取る。毎回の反復で、読み取られた該対になっていない顔画像ペアは、少なくとも、IA及びIBという2部分を含む。IAは、システムにおける既存の顔訓練画像からのものであり、IBは、収集された顔画像からのものである。画像IA及びIBに対して、顔画像認識ネットワークにより演算を行い、特徴FA及びFBを得る。続いて、FAを特徴記憶モジュールに保存する。FBと特徴記憶モジュールにおける全ての特徴集合FMにより、損失関数を算出し、顔画像認識ネットワークのネットワークパラメータを更新する。損失関数を算出する式は、式(1)に示すとおりである。ここで、Lは、損失関数であり、N、Mはそれぞれ、異なる特徴のうちの少なくとも1つに対応する数の合計であり、FMはサンプル特徴FAからなるサンプル特徴集合であり、FBは、画像IBに対して顔画像認識ネットワークにより演算を行うことで得られた特徴であり、thresholdは、特徴集合Bと特徴集合Aにおける2つずつの特徴に基づいてコサイン類似度を算出する場合に得られた臨界点のコサイン類似度であり、つまり、該顔画像認識ネットワークを訓練するための最適化ターゲット閾値とする。
特徴記憶モジュールにおけるサンプル特徴は、時効性を有し、定期的に削除され、特徴記憶モジュールにおけるサンプル特徴の更新を実現させることに留意されたい。例えば、特徴記憶モジュールにおけるサンプル特徴の存続期間が100(数値は一意的なものではなく、実際の訓練効果に応じて調整可能である)回の反復を超えると、該サンプル特徴を特徴記憶モジュールから削除し、該反復処理を、所定の反復回数を満たすまで継続する。
具体的な実施形態の上記方法において、各ステップの記述順番は、具体的な実行順番は、厳しい実行順番を意味して実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。
本願の実施例で提供される上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本願において逐一説明しないことが理解されるべきである。
なお、本願は、顔画像認識装置、電子機器、コンピュータ可読記憶媒体及びプログラムを更に提供する。上記はいずれも、本願で提供されるいずれか1つの顔画像認識方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。
図5は、本願の実施例による顔画像認識装置を示すブロック図である。図5に示すように、本願の実施例の顔画像認識装置は、顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニット31と、前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第1処理ユニット32であって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、第1処理ユニット32と、前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第2処理ユニット33と、を備える。
可能な実現形態において、前記ターゲット認識ネットワークに基づいて、認識されるべき顔画像に対して認識を行い、認識結果を得るように構成される認識ユニットを更に備えてもよい。
可能な実現形態において、前記抽出ネットワークは更に、前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成される。
可能な実現形態において、前記第1処理ユニットは更に、前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含み、前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成するように構成される。
可能な実現形態において、前記装置は、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第3処理ユニットを更に備える。
可能な実現形態において、前記第3処理ユニットは更に、前記顔画像データペアの間の特徴に基づいて、特徴集合を得、前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードし、前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成される。
可能な実現形態において、前記第2処理ユニットは更に、前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成される。
可能な実現形態において、前記顔画像データペアは少なくとも、顔訓練のための第1顔画像集合及び顔収集により得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は異なる。
可能な実現形態において、前記第2処理ユニットは更に、前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、前記サンプル特徴が前記第1顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成される。
可能な実現形態において、前記第2処理ユニットは更に、毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成される。
幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法の実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法の実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
本願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、プロセッサに上記方法を実現させる。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。
本願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、上記方法を実行するように構成される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
本願の実施例はコンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサに、上記方法を実行させる。
図6は、一例示的な実施例による電子機器800を示すブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。
図6を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814及び通信コンポーネント816のうちの1つ又は複数を備えてもよい。
処理コンポーネント802は一般的には、電子機器800の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント802は、指令を実行するための1つ又は複数のプロセッサ820を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理コンポーネント802は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント802はマルチメディアモジュールを備えることで、マルチメディアコンポーネント808と処理コンポーネント802とのインタラクションに寄与する。
メモリ804は、各種のデータを記憶することで電子機器800における操作をサポートするように構成される。これらのデータの例として、電子機器800上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ804は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
電源コンポーネント806は電子機器800の様々なユニットに電力を提供する。電源コンポーネント806は、電源管理システム、1つ又は複数の電源、及び電子機器800のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
マルチメディアコンポーネント808は、上記電子機器800とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアコンポーネント808は、フロントカメラ及び/又はリアカメラを備える。電子機器800が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント810は、マイクロホン(MIC)を備える。電子機器800が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ804に記憶するか、又は通信コンポーネント816を経由して送信することができる。幾つかの実施例において、オーディオコンポーネント810は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
I/Oインタフェース812は、処理コンポーネント802と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
センサコンポーネント814は、1つ又は複数のセンサを備え、電子機器800のために様々な状態の評価を行うように構成される。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器800のディスプレイ及びキーパッドである。センサコンポーネント814は電子機器800又は電子機器800における1つのユニットの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位又は加速/減速及び電子機器800の温度の変動を検出することもできる。センサコンポーネント814は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサコンポーネント814は、CMOS又はCCD画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサコンポーネント814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
通信コンポーネント816は、電子機器800と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器800は、WiFi、2G又は3G、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信コンポーネント816は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信コンポーネント816は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現される。
例示的な実施例において、電子機器800は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
例示的な実施例において、コンピュータプログラム命令を記憶したメモリ804のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器800のプロセッサ820により実行され上記方法を完了する。
図7は、一例示的な実施例による電子機器900を示すブロック図である。例えば、電子機器900は、サーバとして提供されてもよい。図7を参照すると、電子機器900は、処理コンポーネント922を備える。それは、1つ又は複数のプロセッサ、及びメモリ932で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理コンポーネント922により実行される命令を記憶するためのものである。メモリ932に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理コンポーネント922は、命令を実行して、上記方法を実行するように構成される。
電子機器900は、電子機器900の電源管理を実行するように構成される電源コンポーネント926と、電子機器900をネットワークに接続するように構成される有線又は無線ネットワークインタフェース950と、入力出力(I/O)インタフェース958と、を更に備えてもよい。電子機器900は、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM又は類似したものなど、メモリ932に記憶されているオペレーティングシステムを実行することができる。
例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ932のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器900の処理コンポーネント922により実行されて上記方法を完了する。
本願は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多目的ディスク(DVD)、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。
ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング/処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング/処理装置におけるコンピュータ可読記憶媒体に記憶する。
本願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、任意の種類のネットワーク(ローカルエリアネットワーク(LAN)やワイドエリアネットワーク(WAN)を含む)を通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する)。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブル論理アレイ(PLA)のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。
ここで、本願の実施例の方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行されると、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図おける1つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。
コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現させる。
図面におけるフローチャート及びブック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到し得るものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。
本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサは、上記顔画像認識方法を実行する。
例えば、本願は以下の項目を提供する。
(項目1)
顔画像認識方法であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、ことと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む、方法。
(項目2)
前記顔画像データから、異なる顔に属する処理されるべき画像データを抽出することは、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することと、
異なる顔画像に属する特徴を前記処理されるべき画像データとすることと、を含むことを特徴とする
項目1に記載の方法。
(項目3)
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることは、
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含むことと、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成することと、を含むことを特徴とする
項目2に記載の方法。
(項目4)
前記顔画像認識ネットワークに対して訓練を行う前に、
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることを更に含むことを特徴とする
項目2に記載の方法。
(項目5)
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることは、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得ることと、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードとすることと、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とすることと、を含むことを特徴とする
項目4に記載の方法。
(項目6)
サンプリング順番を得た後、前記方法は、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとすることを更に含むことを特徴とする
項目4又は5に記載の方法。
(項目7)
前記顔画像データペアは、少なくとも、顔訓練のための第1顔画像集合及び顔収集により得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は異なることを特徴とする
項目1から6のうちいずれか一項に記載の方法。
(項目8)
前記顔画像認識ネットワークに対して訓練を行うことは、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することであって、前記サンプル特徴は前記第1顔画像集合から抽出された特徴を含む、ことと、
複数回の反復によりサンプル特徴集合を得ることと、を含むことを特徴とする
項目7に記載の方法。
(項目9)
前記顔画像認識ネットワークに対して訓練を行うことは、
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含むことを特徴とする
項目8に記載の方法。
(項目10)
顔画像認識装置であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニットと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第1処理ユニットであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、第1処理ユニットと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第2処理ユニットと、を備える、装置。
(項目11)
前記抽出ネットワークは更に、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、
異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成されることを特徴とする
項目10に記載の装置。
(項目12)
前記第1処理ユニットは更に、
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含み、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成するように構成されることを特徴とする
項目11に記載の装置。
(項目13)
前記装置は、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第3処理ユニットを更に備えることを特徴とする
項目11に記載の装置。
(項目14)
前記第3処理ユニットは更に、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードし、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成されることを特徴とする
項目13に記載の装置。
(項目15)
前記第2処理ユニットは更に、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成されることを特徴とする
項目13又は14に記載の装置。
(項目16)
前記顔画像データペアは、少なくとも、顔訓練のための第1顔画像集合及び顔収集により得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は異なることを特徴とする
項目10から15のうちいずれか一項に記載の装置。
(項目17)
前記第2処理ユニットは更に、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、
前記サンプル特徴が前記第1顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成されることを特徴とする
項目16に記載の装置。
(項目18)
前記第2処理ユニットは更に、
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成されることを特徴とする
項目17に記載の装置。
(項目19)
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、項目1から9のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
(項目20)
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、前記プロセッサに項目1から9のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
(項目21)
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサに、項目1から9のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。
例えば、本願は以下の項目を提供する。
(項目1)
顔画像認識方法であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、ことと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む、方法。
(項目2)
前記顔画像データから、異なる顔に属する処理されるべき画像データを抽出することは、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することと、
異なる顔画像に属する特徴を前記処理されるべき画像データとすることと、を含むことを特徴とする
項目1に記載の方法。
(項目3)
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることは、
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含むことと、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成することと、を含むことを特徴とする
項目2に記載の方法。
(項目4)
前記顔画像認識ネットワークに対して訓練を行う前に、
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることを更に含むことを特徴とする
項目2に記載の方法。
(項目5)
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることは、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得ることと、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードとすることと、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とすることと、を含むことを特徴とする
項目4に記載の方法。
(項目6)
サンプリング順番を得た後、前記方法は、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとすることを更に含むことを特徴とする
項目4又は5に記載の方法。
(項目7)
前記顔画像データペアは、少なくとも、顔訓練のための第1顔画像集合及び顔収集により得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は異なることを特徴とする
項目1から6のうちいずれか一項に記載の方法。
(項目8)
前記顔画像認識ネットワークに対して訓練を行うことは、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することであって、前記サンプル特徴は前記第1顔画像集合から抽出された特徴を含む、ことと、
複数回の反復によりサンプル特徴集合を得ることと、を含むことを特徴とする
項目7に記載の方法。
(項目9)
前記顔画像認識ネットワークに対して訓練を行うことは、
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含むことを特徴とする
項目8に記載の方法。
(項目10)
顔画像認識装置であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニットと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第1処理ユニットであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、第1処理ユニットと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第2処理ユニットと、を備える、装置。
(項目11)
前記抽出ネットワークは更に、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、
異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成されることを特徴とする
項目10に記載の装置。
(項目12)
前記第1処理ユニットは更に、
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含み、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成するように構成されることを特徴とする
項目11に記載の装置。
(項目13)
前記装置は、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第3処理ユニットを更に備えることを特徴とする
項目11に記載の装置。
(項目14)
前記第3処理ユニットは更に、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードし、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成されることを特徴とする
項目13に記載の装置。
(項目15)
前記第2処理ユニットは更に、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成されることを特徴とする
項目13又は14に記載の装置。
(項目16)
前記顔画像データペアは、少なくとも、顔訓練のための第1顔画像集合及び顔収集により得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は異なることを特徴とする
項目10から15のうちいずれか一項に記載の装置。
(項目17)
前記第2処理ユニットは更に、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、
前記サンプル特徴が前記第1顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成されることを特徴とする
項目16に記載の装置。
(項目18)
前記第2処理ユニットは更に、
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成されることを特徴とする
項目17に記載の装置。
(項目19)
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、項目1から9のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
(項目20)
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、前記プロセッサに項目1から9のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
(項目21)
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサに、項目1から9のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。
Claims (21)
- 顔画像認識方法であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出することと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、ことと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得ることと、を含む、方法。 - 前記顔画像データから、異なる顔に属する処理されるべき画像データを抽出することは、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出することと、
異なる顔画像に属する特徴を前記処理されるべき画像データとすることと、を含むことを特徴とする
請求項1に記載の方法。 - 前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得ることは、
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含むことと、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成することと、を含むことを特徴とする
請求項2に記載の方法。 - 前記顔画像認識ネットワークに対して訓練を行う前に、
前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることを更に含むことを特徴とする
請求項2に記載の方法。 - 前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得ることは、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得ることと、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードとすることと、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とすることと、を含むことを特徴とする
請求項4に記載の方法。 - サンプリング順番を得た後、前記方法は、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとすることを更に含むことを特徴とする
請求項4又は5に記載の方法。 - 前記顔画像データペアは、少なくとも、顔訓練のための第1顔画像集合及び顔収集により得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は異なることを特徴とする
請求項1から6のうちいずれか一項に記載の方法。 - 前記顔画像認識ネットワークに対して訓練を行うことは、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存することであって、前記サンプル特徴は前記第1顔画像集合から抽出された特徴を含む、ことと、
複数回の反復によりサンプル特徴集合を得ることと、を含むことを特徴とする
請求項7に記載の方法。 - 前記顔画像認識ネットワークに対して訓練を行うことは、
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出することと、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練することと、を更に含むことを特徴とする
請求項8に記載の方法。 - 顔画像認識装置であって、
顔画像データから、異なる顔に属する処理されるべき画像データを抽出するように構成される抽出ユニットと、
前記異なる顔に属する処理されるべき画像データに基づいて、対になっていない顔画像データペアを得るように構成される第1処理ユニットであって、前記対になっていない顔画像データペアは、異なる顔に属する2枚の顔画像の特徴を表すためのものである、第1処理ユニットと、
前記対になっていない顔画像データペアに基づいて、顔画像認識ネットワークに対して訓練を行い、顔画像を認識するためのターゲット認識ネットワークを得るように構成される第2処理ユニットと、を備える、装置。 - 前記抽出ネットワークは更に、
前記顔画像認識ネットワークに基づいて、前記顔画像データにおける顔画像の特徴を抽出し、
異なる顔画像に属する特徴を前記処理されるべき画像データとするように構成されることを特徴とする
請求項10に記載の装置。 - 前記第1処理ユニットは更に、
前記異なる顔に属する特徴が少なくとも第1顔における第1特徴及び第2顔における第2特徴を含み、
前記第1特徴及び前記第2特徴に基づいて得られた類似度が所定の条件に合致する場合、前記第1顔及び前記第2顔で前記顔画像データペアを構成するように構成されることを特徴とする
請求項11に記載の装置。 - 前記装置は、前記顔画像データペアの間の特徴相関性に基づいて、サンプリング順番を得るように構成される第3処理ユニットを更に備えることを特徴とする
請求項11に記載の装置。 - 前記第3処理ユニットは更に、
前記顔画像データペアの間の特徴に基づいて、特徴集合を得、
前記特徴集合に基づいて、特徴ツリー(KD-Tree)を構築し、顔画像データペアの間の特徴相関性が高い特徴を前記KD-Treeの隣接ノードし、
前記KD-Treeをトラバースすることで得られたトラバース経路を前記サンプリング順番とするように構成されることを特徴とする
請求項13に記載の装置。 - 前記第2処理ユニットは更に、
前記サンプリング順番に応じて読み取られた顔画像データペアを、前記顔画像認識ネットワークに入力される訓練サンプルとするように構成されることを特徴とする
請求項13又は14に記載の装置。 - 前記顔画像データペアは、少なくとも、顔訓練のための第1顔画像集合及び顔収集により得られた第2顔画像集合からのものであり、且つ2つの顔画像集合における顔は異なることを特徴とする
請求項10から15のうちいずれか一項に記載の装置。 - 前記第2処理ユニットは更に、
前記顔画像認識ネットワークを訓練する毎回の反復において、サンプル特徴を保存し、
前記サンプル特徴が前記第1顔画像集合から抽出された特徴を含み、複数回の反復によりサンプル特徴集合を得るように構成されることを特徴とする
請求項16に記載の装置。 - 前記第2処理ユニットは更に、
毎回の反復で前記第2顔画像集合から抽出された現在顔特徴及び前回の反復で得られたサンプル特徴集合における全てのサンプル特徴に基づいて、損失関数を算出し、
前記損失関数の逆伝播に基づいて、前記顔画像認識ネットワークを訓練するように構成されることを特徴とする
請求項17に記載の装置。 - 電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、請求項1から9のうちいずれか一項に記載の方法を実行するように構成される、電子機器。 - コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されると、前記プロセッサに請求項1から9のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
- コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、前記電子機器におけるプロセッサに、請求項1から9のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910739381.8 | 2019-08-12 | ||
CN201910739381.8A CN110458102A (zh) | 2019-08-12 | 2019-08-12 | 一种人脸图像识别方法及装置、电子设备和存储介质 |
PCT/CN2020/089012 WO2021027343A1 (zh) | 2019-08-12 | 2020-05-07 | 一种人脸图像识别方法及装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022520120A true JP2022520120A (ja) | 2022-03-28 |
Family
ID=68485929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547720A Pending JP2022520120A (ja) | 2019-08-12 | 2020-05-07 | 顔画像認識方法及び装置、電気機器並びに記憶媒体 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP2022520120A (ja) |
KR (1) | KR20210114511A (ja) |
CN (1) | CN110458102A (ja) |
TW (1) | TW202107337A (ja) |
WO (1) | WO2021027343A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458102A (zh) * | 2019-08-12 | 2019-11-15 | 深圳市商汤科技有限公司 | 一种人脸图像识别方法及装置、电子设备和存储介质 |
CN111339964B (zh) * | 2020-02-28 | 2024-07-16 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN112149732A (zh) * | 2020-09-23 | 2020-12-29 | 上海商汤智能科技有限公司 | 图像保护方法、装置、电子设备及存储介质 |
CN112949634B (zh) * | 2021-03-08 | 2024-04-26 | 北京交通大学 | 一种铁路接触网鸟窝检测方法 |
CN112784823B (zh) * | 2021-03-17 | 2023-04-07 | 中国工商银行股份有限公司 | 人脸图像识别方法、装置、计算设备和介质 |
CN113269425B (zh) * | 2021-05-18 | 2022-06-07 | 北京航空航天大学 | 无监督条件下设备健康状态的定量评估方法及电子设备 |
KR20230032092A (ko) | 2021-08-30 | 2023-03-07 | 주식회사 엘지에너지솔루션 | 고체 전해질막 및 이를 포함하는 전고체 전지 |
CN113807253A (zh) * | 2021-09-17 | 2021-12-17 | 上海商汤智能科技有限公司 | 人脸识别方法及装置、电子设备和存储介质 |
CN114255502B (zh) * | 2021-12-23 | 2024-03-29 | 中国电信股份有限公司 | 人脸图像生成方法及装置、人脸识别方法、设备、介质 |
CN115909434B (zh) * | 2022-09-07 | 2023-07-04 | 以萨技术股份有限公司 | 一种获取人脸图像特征的数据处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005122093A1 (ja) * | 2004-06-07 | 2005-12-22 | Glory Ltd. | 画像認識装置、画像認識方法およびその方法をコンピュータに実行させるプログラム |
JP2006343791A (ja) * | 2005-06-07 | 2006-12-21 | Hitachi Ltd | 顔画像データベース作成方法 |
CN103679158A (zh) * | 2013-12-31 | 2014-03-26 | 北京天诚盛业科技有限公司 | 人脸认证方法和装置 |
JP2015185042A (ja) * | 2014-03-25 | 2015-10-22 | キヤノン株式会社 | 情報処理装置、認証装置およびそれらの方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8224042B2 (en) * | 2009-03-12 | 2012-07-17 | Seiko Epson Corporation | Automatic face recognition |
CN109753875A (zh) * | 2018-11-28 | 2019-05-14 | 北京的卢深视科技有限公司 | 基于人脸属性感知损失的人脸识别方法、装置与电子设备 |
CN110458102A (zh) * | 2019-08-12 | 2019-11-15 | 深圳市商汤科技有限公司 | 一种人脸图像识别方法及装置、电子设备和存储介质 |
-
2019
- 2019-08-12 CN CN201910739381.8A patent/CN110458102A/zh active Pending
-
2020
- 2020-05-07 JP JP2021547720A patent/JP2022520120A/ja active Pending
- 2020-05-07 WO PCT/CN2020/089012 patent/WO2021027343A1/zh active Application Filing
- 2020-05-07 KR KR1020217026325A patent/KR20210114511A/ko active Search and Examination
- 2020-07-02 TW TW109122357A patent/TW202107337A/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005122093A1 (ja) * | 2004-06-07 | 2005-12-22 | Glory Ltd. | 画像認識装置、画像認識方法およびその方法をコンピュータに実行させるプログラム |
JP2006343791A (ja) * | 2005-06-07 | 2006-12-21 | Hitachi Ltd | 顔画像データベース作成方法 |
CN103679158A (zh) * | 2013-12-31 | 2014-03-26 | 北京天诚盛业科技有限公司 | 人脸认证方法和装置 |
JP2015185042A (ja) * | 2014-03-25 | 2015-10-22 | キヤノン株式会社 | 情報処理装置、認証装置およびそれらの方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20210114511A (ko) | 2021-09-23 |
TW202107337A (zh) | 2021-02-16 |
WO2021027343A1 (zh) | 2021-02-18 |
CN110458102A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022520120A (ja) | 顔画像認識方法及び装置、電気機器並びに記憶媒体 | |
JP7171884B2 (ja) | 歩行者認識方法及び装置 | |
KR102222300B1 (ko) | 비디오 처리 방법 및 장치, 전자 기기 및 저장 매체 | |
JP7106679B2 (ja) | 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP7090183B2 (ja) | ビデオ処理方法及び装置、電子機器、並びに記憶媒体 | |
WO2022011892A1 (zh) | 网络训练方法及装置、目标检测方法及装置和电子设备 | |
JP2022512023A (ja) | バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体 | |
WO2020220807A1 (zh) | 图像生成方法及装置、电子设备及存储介质 | |
JP2022526381A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
JP2022501686A (ja) | 生体検出方法及び装置、電子機器並びに記憶媒体 | |
CN110659690B (zh) | 神经网络的构建方法及装置、电子设备和存储介质 | |
JP2022522551A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
JP2022523243A (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
JP2022518283A (ja) | 予測方法及び装置、電子機器並びに記憶媒体 | |
WO2022247103A1 (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
JP2021529398A (ja) | ビデオ処理方法及び装置、電子機器並びに記憶媒体 | |
WO2022247128A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
JP2022533065A (ja) | 文字認識方法及び装置、電子機器並びに記憶媒体 | |
CN112085097A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111582383A (zh) | 属性识别方法及装置、电子设备和存储介质 | |
CN110826697A (zh) | 获取样本的方法及装置、电子设备和存储介质 | |
CN113781518B (zh) | 神经网络结构搜索方法及装置、电子设备和存储介质 | |
CN109447258B (zh) | 神经网络模型的优化方法及装置、电子设备和存储介质 | |
WO2022141969A1 (zh) | 图像分割方法及装置、电子设备、存储介质和程序 | |
CN111339964B (zh) | 图像处理方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210816 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220715 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230222 |