JP5552519B2 - Construction of face feature vector - Google Patents
Construction of face feature vector Download PDFInfo
- Publication number
- JP5552519B2 JP5552519B2 JP2012230281A JP2012230281A JP5552519B2 JP 5552519 B2 JP5552519 B2 JP 5552519B2 JP 2012230281 A JP2012230281 A JP 2012230281A JP 2012230281 A JP2012230281 A JP 2012230281A JP 5552519 B2 JP5552519 B2 JP 5552519B2
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- computer code
- image
- model feature
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims description 162
- 238000010276 construction Methods 0.000 title description 4
- 238000001514 detection method Methods 0.000 claims description 27
- 230000001815 facial effect Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002085 persistent effect Effects 0.000 claims 10
- 238000000034 method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 230000009466 transformation Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000011524 similarity measure Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/755—Deformable models or variational models, e.g. snakes or active contours
- G06V10/7557—Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Description
本開示は、一般に、顔認識の分野に関する。より具体的には、本開示は、複数のタイプの顔認識記述子を組み合わせて、単一の要素である顔特徴ベクトルにするための多数の技術を説明する。顔特徴ベクトルは、顔認識の用途に用いることができる。そのような用途の例として、iPhoto(登録商標)及びAperture(登録商標)において画像(スチル画像及びビデオ画像)を管理し、ソートし、注釈を付けることが挙げられるが、これらに限定されるものではない。(IPHOTO及びAPERTUREはApple Inc.社の登録商標である。) The present disclosure relates generally to the field of face recognition. More specifically, this disclosure describes a number of techniques for combining multiple types of face recognition descriptors into a single element face feature vector. The face feature vector can be used for face recognition. Examples of such applications include, but are not limited to, managing (sorting and annotating) images (still images and video images) in iPhoto® and Aperture®. is not. (IPHOTO and APERTURE are registered trademarks of Apple Inc.)
一般論として、顔認識演算は、人物の顔を走査し、そこから特定のパラメータのセットを抽出又は検出し、これらのパラメータを、既に識別情報が割り当てられているかそうでなければ知られている既知の顔データのライブラリと照合する。新たな画像のパラメータが比較されるデータ・セットは、モデルによって特徴付け又は記述される場合が多い。実際には、これらのモデルは、パラメータ・セットのグループを定めるものであり、所与のグループに入る全ての画像は、同一人物のものとして分類される。 In general, face recognition operations scan a person's face, extract or detect a specific set of parameters from them, and these parameters are already assigned identification information or otherwise known Check against a library of known face data. The data set to which the new image parameters are compared is often characterized or described by the model. In practice, these models define a group of parameter sets, and all images that fall within a given group are classified as those of the same person.
ロバスト(例えば、画像ノイズ、人物のポーズ、及び場面の照度に対して安定である)且つ正確(例えば、高い認識率をもたらす)であるためには、特定のパラメータ・セットは、典型的な人物内での変動に対して繰り返し可能で不変であると同時に、ある人物を別の人物と区別することが可能な方法で、顔を記述する情報をコード化する必要がある。この必要性は、全ての顔認識システムが直面する中心的な問題である。従って、ロバスト且つ正確な顔認識をもたらすパラメータのセットを定めるための機構(方法、装置、及びシステム)を特定することが有益である。 In order to be robust (eg, stable against image noise, human poses, and scene illumination) and accurate (eg, resulting in a high recognition rate), a particular parameter set is a typical person It is necessary to code the information describing the face in a way that is repeatable and unchanging with respect to variations in the face, and at the same time distinguishing one person from another. This need is a central problem facing all face recognition systems. Thus, it is beneficial to identify a mechanism (method, apparatus, and system) for defining a set of parameters that provides robust and accurate face recognition.
種々の実施形態においては、本発明は、デジタル画像において検出された顔を識別するのに用いることができる新規な顔特徴ベクトルを生成するための装置(例えば、パーソナル・コンピュータ)、方法、及びコンピュータ・プログラム・コードを提供する。本方法は、コンピュータ・プログラム・コードを実施(又は実行)して、(例えば、顔検出技術によって)第1の画像における第1の顔についてランドマーク検出情報を得ることを含む。ランドマーク検出情報を第1及び第2の形状モデルに適用して第1及び第2の形状特徴ベクトルを生成し、第1及び第2のテクスチャ・モデルに適用して第1及び第2のテクスチャ特徴ベクトルを生成することができる。これらの4つの特徴ベクトルの全てを組み合わせて、顔特徴ベクトルを形成することができる。 In various embodiments, the present invention provides an apparatus (eg, a personal computer), method, and computer for generating a novel facial feature vector that can be used to identify a detected face in a digital image.・ Provide program code. The method includes implementing (or executing) the computer program code to obtain landmark detection information for the first face in the first image (eg, by face detection techniques). The landmark detection information is applied to the first and second shape models to generate first and second shape feature vectors, and is applied to the first and second texture models to apply the first and second textures. A feature vector can be generated. All of these four feature vectors can be combined to form a face feature vector.
1つの実施形態においては、第1の形状モデルは、検出された顔の二次元形状モデルであり、第2の形状モデルは、検出された顔の三次元形状モデルである。第1及び第2の形状モデルは、互いに独立に線形又は非線形とすることができる。 In one embodiment, the first shape model is a two-dimensional shape model of the detected face, and the second shape model is a three-dimensional shape model of the detected face. The first and second shape models can be linear or non-linear independently of each other.
別の実施形態においては、ランドマーク検出情報は、第1及び第2のテクスチャ特徴ベクトルを生成するのに用いられる前に、正規化することができる。幾つかの実施形態においては、第1のテクスチャ特徴ベクトルは、正規化されたランドマーク検出情報内の特定の領域に基づくものとすることができる(この領域は、正規化されたランドマーク検出情報の全てより少ない情報を含む)。 In another embodiment, the landmark detection information can be normalized before being used to generate the first and second texture feature vectors. In some embodiments, the first texture feature vector may be based on a specific region in the normalized landmark detection information (this region is normalized landmark detection information). Contains less information than all of
更に別の実施形態においては、正規化されたランドマーク検出情報を用いて第2のテクスチャ特徴ベクトルを生成する前に、正規化されたランドマーク検出情報にモーフィング演算を適用することができる。 In yet another embodiment, a morphing operation can be applied to the normalized landmark detection information before generating the second texture feature vector using the normalized landmark detection information.
更にまた別の実施形態においては、こうした2つの顔特徴ベクトルを比較することによって、類似性測度を決定することができる。この類似性測度を用いて、2つの顔特徴ベクトルが同じ顔を表す可能性が高いかどうかを判定することができる。この実施形態及び類似の実施形態においては、類似性測度は、マハラノビス距離測度に基づくことができる。 In yet another embodiment, the similarity measure can be determined by comparing these two facial feature vectors. This similarity measure can be used to determine whether two face feature vectors are likely to represent the same face. In this and similar embodiments, the similarity measure can be based on the Mahalanobis distance measure.
本開示は、顔認識パラメータ・セットを決定して適用するためのシステム、方法、及びコンピュータ可読媒体に関する。一般に、顔認識識別子の固有の組み合わせを特定して、従来技術の認識手法に比べてよりロバスト(例えば、画像ノイズ、人物のポーズ、及び場面の照度に対して安定である)且つより正確(例えば、高い認識率をもたらす)であることが見出された「顔特徴ベクトル」を構築するための技術が開示される。より具体的には、顔特徴ベクトルは、形状記述子とテクスチャ記述子との組み合わせによって生成することができる。1つの実装形態においては、顔特徴ベクトルは、顔の二次元(2D)形状と、顔の三次元(3D)形状と、顔の全体即ちグローバルなテクスチャと、細部即ちローカルなテクスチャ情報(例えば皮膚の色)とを記述する情報を含む。 The present disclosure relates to systems, methods, and computer-readable media for determining and applying a face recognition parameter set. In general, a unique combination of face recognition identifiers is identified to be more robust (eg, stable to image noise, human poses, and scene illumination) and more accurate (eg, compared to prior art recognition methods) A technique for constructing a “facial feature vector” that has been found to yield a high recognition rate. More specifically, the face feature vector can be generated by a combination of a shape descriptor and a texture descriptor. In one implementation, the face feature vector includes a two-dimensional (2D) shape of the face, a three-dimensional (3D) shape of the face, the entire face or global texture, and details or local texture information (eg, skin Information).
以下の説明においては、本発明の概念が完全に理解されるように、多数の具体的な詳細が説明目的で示される。当業者には公知である詳細によって本発明を不明確にしないように、この記述の一部として、本開示の図面の幾つかは、構造及び装置をブロック図の形式で表す。さらに、本開示において用いられる言葉は、主として読みやすさ及び教示の目的で選択されたものであり、本発明の主題を画定又は制限するために選択されたものではなく、こうした本発明の主題を判断するためには特許請求の範囲に頼る必要がある。本開示における「1つの実施形態」又は「一実施形態」への言及は、その実施形態に関連して説明された特定の特徴、構造、又は特性が本発明の少なくとも1つの実施形態に含まれていることを意味しており、「1つの実施形態」又は「一実施形態」への複数の言及が必ずしも全て同一の実施形態を指していると理解すべきではない。 In the following description, numerous specific details are set forth for purposes of explanation in order to provide a thorough understanding of the concepts of the present invention. As part of this description, some of the drawings in this disclosure represent structures and devices in block diagram form in order not to obscure the present invention with details that are well known to those skilled in the art. Further, the language used in this disclosure is selected primarily for readability and teaching purposes, and is not selected to define or limit the subject matter of the present invention. In order to make a decision, it is necessary to rely on the claims. Reference to “one embodiment” or “one embodiment” in this disclosure includes in the at least one embodiment of the invention the particular feature, structure, or characteristic described in connection with that embodiment. It is not to be understood that all references to “one embodiment” or “an embodiment” all refer to the same embodiment.
当然のことながら、いずれかの実際の実装形態の開発においては(いずれかの開発プロジェクトなどで)、開発者の特定の目的(例えば、システム関連及びビジネス関連の制約への適合)を達成するために多数の意思決定が行われなければならず、これらの目的は実装形態ごとに変わることになる。同様に当然のことながら、こうした開発努力は、複雑且つ時間のかかるものとなる可能性があるが、それにも関わらず、本開示の利益を有する顔認識分野の当業者にとっては通常業務に当たることになる。 Of course, in developing any actual implementation (such as in any development project), to achieve a developer's specific purpose (eg, conformance to system-related and business-related constraints). Many decisions must be made and these objectives will vary from implementation to implementation. Similarly, it will be appreciated that such development efforts can be complex and time consuming, but nevertheless will be routine for those skilled in the art of face recognition having the benefit of this disclosure. Become.
図1を参照すると、1つの実施形態による顔特徴ベクトル生成及び実行時顔認識の演算100が、ブロック図形式で示される。始めに、入力画像105が顔検出器110に従って処理され、ランドマーク画像115が生成される。本明細書において用いられるときには、「ランドマーク画像」という用語は、ランドマーク点が検出された顔の画像を指す。ランドマーク特徴は、目、眉、鼻、口、及び頬といった1つ又はそれ以上の顔の特徴の位置を含むことができる。入力画像105は、例えば、デジタル・スチル・カメラ又はビデオ・カメラから得られた画像とすることができる。顔検出器110は、設計者の目的/制約に適したいずれかの方法を用いることができる。例示的な顔検出技術は、知識ベース、特徴不変、テンプレート・マッチング、及び外観ベースの方法を含むが、これらに限定されるものではない。顔を検出するための正確な方法は、以下の説明にとって重要なものではないため、本明細書ではこの演算に関してこれ以上説明しない。限定されるものではないが、1つの実施形態においては、ランドマーク画像115は、検出される特徴が目立つグレースケール画像とすることができる。説明を簡単にするために、以下においては、入力画像(例えば画像105)は単一の顔のみを含むものと仮定される。しかしながら、開示される技術は本来こうした限定を含むものではないことを理解されたい。
Referring to FIG. 1, a face feature vector generation and runtime
ランドマーク画像115は、1つ又はそれ以上の形状モデル120及び1つ又はそれ以上のテクスチャ・モデル125に適用することができる。示されるように、形状モデル120は形状記述子130を生成し、テクスチャ・モデル125はテクスチャ記述子135を生成する。形状モデル120及びテクスチャ・モデル125は、典型的には、既知の画像のライブラリを用いてオフラインで生成され、互いに独立に線形又は非線形とすることができることを認識すべきである。これらのモデルはまた、ランドマーク点がそれ自体の外観モデルを有する「幾何学的制約のある部分に基づくモデル(geometry constrained part-based model)」を含むことができる。記述子130及び135は、ブロック140に従って、開発者の目的及び/又は制約を満たすいずれかの方法で組み合わせることができる。一例として、演算140は、与えられた形状記述子及びテクスチャ記述子の各々を連結することができる。別の実施形態においては、演算140は、記述子要素の線形組み合わせのセットを生成することができる。更に別の実施形態においては、形状記述子130をある方法で組み合せ、テクスチャ記述子135をそれとは異なる方法で組み合わせて、その各々の組み合わせを連結することができる。更に別の実施形態においては、1つ又はそれ以上の記述子をそれぞれのモデルによって生成されたものとして組み合わせ、一方他の記述子は、組み合わされる前に付加的な処理(例えば、次元縮小、平滑化など)を経るようにすることができる。どのように組み合わされた場合でも、演算140の結果は顔特徴ベクトル145である。顔特徴ベクトル145は、ストレージ150内(例えば、永続的な磁気又は固体ディスク・ユニット)に保持することができる。実際上は、顔特徴ベクトル145は、入力画像105内に(例えば、そのメタデータ内に)組み込むこと、及び/又は、画像105を参照する別個のデータ・ストア内に保持することができる。
The
顔特徴ベクトル145は、生成されると、(例えば、画像105内の)対応する画像の顔を識別するために、アプリケーション155によって用いることができる。例えば、アプリケーション155は、関連する顔特徴ベクトル<f>が顔‘F’と関連付けられている又は識別される画像160を取り出すことができる。顔特徴ベクトル145は、取り出されると、顔特徴ベクトル<f>と比較する165ことができ、(例えば何らかの都合のよい測度によって)両者が十分に類似している場合には、画像105は、顔‘F’を含んでいると言うことができる。1つの実施形態においては、アプリケーション155は、ユーザ・レベルのグラフィックス・アプリケーション(例えばiPhoto又はAperture)とすることができる。別の実施形態においては、アプリケーション155は、ユーザ・レベルのアプリケーションによって用いることができる顔認識フレームワークに組み込むことができる。更に別の実施形態においては、アプリケーション155の幾つか又は全てを、専用の画像処理ハードウェアに組み込むことができる。
Once generated, the
図2を参照すると、形状モデル120は、二次元(2D)モデル200及び三次元(3D)モデル205(それぞれ2D及び3Dの形状記述子210及び215を生成する)を含み、一方、テクスチャ・モデル125は、グローバル・テクスチャ・モデル220及びローカル・テクスチャ・モデル225(それぞれグローバル及びローカルのテクスチャ記述子230及び235を生成する)を含んでいることが分かる。
Referring to FIG. 2,
1つの実施形態においては、2Dモデル200、3Dモデル205、及びグローバル・テクスチャ・モデル200は、以下の形態の線形モデル、即ち、
とすることができ、ここで、
And where
図3を参照すると、顔特徴ベクトル構築演算300の1つの実施形態に関するブロック図が示される。図1及び図2に関して上述されたように、入力画像105が、ランドマーク画像115を生成する顔検出器110に与えられる。例示された実施形態においては、ランドマーク画像115は、2D及び3Dの形状モデル200及び205に直接与えることができる。これらのモデルを数式1によって特徴づけることができると仮定すると、2D形状モデル200については、ベクトルiはランドマーク画像115を表し、Bは2Dモデルの基底ベクトルのセットを表し、ベクトルcは2Dモデル係数(即ち、2D記述子210)のセットを表し、ベクトルmは平均2D形状ベクトルを表す。同様に、3D形状モデル205については、ベクトルiは同じくランドマーク画像115を表し、Bは3Dモデル基底ベクトルのセットを表し、ベクトルcは3Dモデル係数(即ち、3D記述子215)のセットを表し、ベクトルmは平均3D形状ベクトルを表す。
Referring to FIG. 3, a block diagram for one embodiment of a face feature
次に、正規化された画像310を生成するために、ランドマーク画像115に正規化演算305を施すことができる。当業者であれば、正規化演算305は、画像のランドマーク特徴(例えば、眉、目、鼻、口及び顎)を所与のサイズのフレーム内における特定の位置に現れるように調整することができる処理を指すことが分かるであろう。
Next, a
正規化されると、画像310は、グローバル・テクスチャ記述子230を生成するために、グローバル・テクスチャ・モデル220に与えることができる。数式1がグローバル・テクスチャ・モデル220を特徴づけるものである場合には、ベクトルiは正規化された画像310を表し、Bはテクスチャ・モデルの基底ベクトルのセットを表し、ベクトルcはテクスチャ・モデル係数(即ち、グローバル・テクスチャ記述子230)のセットを表し、ベクトルmは平均テクスチャ・ベクトルを表す。
Once normalized, the
2Dモデル200、3Dモデル300、及びグローバル・テクスチャ・モデル220についての基底ベクトル(B)及び平均ベクトル(ベクトルm)をオフラインで決定し、それらを実行時の使用のために格納した後で、数式1をベクトルcについて解くことによって、(2D記述子210、3D記述子215、及びグローバル・テクスチャ記述子230を表す)モデル係数を決定することができる。Bは必ずしも正方行列ではないため、ベクトルcを決定するための数式1の単純な代数的解法を利用できない場合がある。従って、ベクトルcは、多くの最適化手続きのうちのいずれか1つによって実行時に決定することができる。こうした手続きの1つは、以下の関係、即ち、
例として、ランドマーク画像115及び正規化された画像305の各々が、(128×128)の要素配列によって表される場合には、ベクトルiは(16,384×1)のベクトルになることが、数式1からわかる。さらに、‘n1’がBにおける基底ベクトルの数を表す場合には、Bは(16,384×n1)の行列であり、ベクトルmは(16,384×1)のベクトルである。この例においては、2D記述子210、3D記述子215、及びグローバル・テクスチャ記述子230は、(n1×1)のベクトルである。1つの実施形態においては、3Dモデル係数は、「3D Object Recognition」という名称の同時係属中の米国特許出願番号第13/299,211号において説明されている技術を用いて得ることができる。
As an example, if each of the
再び図3を参照すると、正規化された画像310は、ローカル・テクスチャ・モデル225にも与えることができる。図示されるように、ローカル・テクスチャ・モデル225自体は、ローカル画像記述子315、密な画像記述子320、及び密な歪み画像記述子325を含むことができる。
Referring again to FIG. 3, the normalized
図4aを参照すると、1つの実施形態においては、ローカル画像記述子315は、ランドマーク特徴のうちの1つ又はそれ以上の周囲の小領域又はタイル400のテクスチャに基づくものとすることができる(図4aにおいては例示的な領域の1つのみが挙げられている)。タイルの正確な数は、画像の解像度及び設計者の目的/制約によって決まるが、(128×128)の正規化された画像の場合には、10から20のタイルで十分であることが分かっている。各々のタイルの大きさは、トレーニング・データに基づいて決定することができ、一定数のスケールで変わる可能性があり、その場合における各々の点は、異なる大きさの複数のタイルをもつことがある。実際に用いられる設定は、(確立された設計制約の範囲内で)最良の認識性能をもたらすものに基づくことができることが理解されるであろう。例として、ローカル画像記述子は、勾配ヒストグラム(HoG)、スピードアップ・ロバスト特徴(SURF)、スケール不変な特徴変換(SIFT)、バイナリ・ロバストBinary Robust Independent Elementary Features(BRIEF)、及びOriented BRIEF(ORB)などのベクトル勾配演算子、又は同様のタイプの記述子に従って、生成することができる。図4bを参照すると、1つの実施形態においては、密な画像記述子320は、画像全体に基づいて画像記述子を決定する。例えば、画像305を覆う複数の領域(例えば、5×4のグリッドのような20個の領域405)の各々に、選択された記述子算(例えば、HoG又はSIFT)を適用することができる。ローカル画像記述子315の結果は、j要素記述子である。密な画像記述子の結果は、k要素記述子である。
Referring to FIG. 4a, in one embodiment, the
ローカル画像記述子315と密な画像記述子320の両方が、勾配ベクトル記述子を用いるものとして説明されたが、これは必須ではない。例えば、強度に基づく記述子及び画像テクスチャ・ベースなどの他の記述子を用いることもできる。さらに、ローカル画像記述子315が1つの手法(例えば強度)を用い、密な画像記述子320が別の手法(例えば勾配ベクトル)を用いてもよい。
Although both
正規化された画像310を直接的に用いることに加えて、ローカル・テクスチャ・モデル225は、画像310の歪みバージョンを用いてもよい。再び図3を参照すると、正規化された画像310を歪み演算子又は変形演算子330に適用して、歪み画像又は変形画像335を生成することができる。1つの実施形態においては、歪み演算子330は、歪み画像335が対象者の顔の真正面像に近づくように、面外回転によって顔を調整する。図5を参照すると、密な画像記述子320を生成することについて説明された演算と同様に、密な画像記述子320に関して上述されたように歪み画像335の全体を領域単位で(例えば500)評価することができる。1つの実施形態においては、密な歪み画像記述子は、l要素記述子である。演算は同様であるが、密な歪み画像記述子325は、密な画像記述子320を生成するのに用いられるものと同じ技術又は同じ数の領域/タイルを用いる必要はない。
In addition to using the normalized
再び図3を参照すると、組み合わせ演算340は、生成されたローカル画像記述子、密な画像記述子、及び密な歪み画像記述子のいずれか2つ、いずれか3つ、又はいずれかの組み合わせを組み合わせて、中間のローカル・テクスチャ記述子345を生成することができる。組み合わせ演算340は、各々の記述子の全体、若しくは各々の記述子の一部のみを扱うことができ、又は、1つの記述子の全体と別の記述子の一部のみとを扱うことが 〔0022〕を参照のこと)、組み合わせ演算340は、ローカル画像記述子(j要素)、密な画像記述子(k要素)、及び密な歪み画像記述子(l要素)の各々の連結とすることができる。このような実施形態においては、中間のローカル・テクスチャ記述子345は、(j+k+l)である。1つの実装形態においては、
である。
Referring back to FIG. 3, the
It is.
この記述子の大きさを実時間でより演算し易い値に減らすために、次元縮小演算350を行って、ローカル・テクスチャ記述子235を生成することができる。代替的に、次元縮小は、340において個々の構成要素(315、320、325)を組み合わせる前に、これらの構成要素に対して行うことができる。次元縮小は、以下のように、すなわち、
再度図3を参照すると、記述子210、215、230、及び235の各々が決定された後で、演算子140によってこれらの記述子を組み合わせて、顔特徴ベクトル145を作成することができる。図6に示されるように、顔特徴ベクトルは、2D形状記述子210のためのフィールド(600)と、3D形状記述子215のためのフィールド(605)と、グローバル・テクスチャ記述子230のためのフィールド(610)と、ローカル・テクスチャ記述子235のためのフィールド(615)とを含むことができる。
Referring again to FIG. 3, after each of the
再び、上記で始めた数値例を参照すると、2Dモデル200、3Dモデル205、及びグローバル・テクスチャ・モデル220が、数式1によって与えられる形式の線形モデルであり、モデル入力画像が(128×128)の要素から成り、2Dモデル、3Dモデル、及びグローバル・テクスチャ・モデルの各々にn1の基底ベクトルが存在する場合には、例示的なモデル・パラメータは、表1に示されるようなものになる。
さらに、ローカル画像記述子315、密な画像記述子320、及び密な歪み画像記述子325の組み合わせが、3,000要素を有する中間のローカル・テクスチャ記述子345を生成し、次元縮小演算350が、数式3によって特徴付けられて、次元の数をn2次元に縮小する場合には、次元縮小演算350についての例示的なモデル・パラメータは、表2に示されるようなものになる。
最後に、組み合わせ演算子140が2D記述子210、3D記述子215、グローバル・テクスチャ記述子230、及びローカル・テクスチャ記述子235の各々を連結する場合には、顔特徴ベクトル145は、((3n1+n2)×1)のベクトルである。
Referring again to the numerical example that began above, the
In addition, the combination of
Finally, if the
図7を参照すると、1つの実施形態による顔特徴を用いる顔認識演算700が示される。始めに、未知及び既知の顔/身元についての顔特徴ベクトルを得る(ブロック705及び710)。次いで、これらのベクトルに類似性評価基準を適用し(ブロック715)、評価基準が一致するどうかを判定する検査が行われる(ブロック720)。2つの顔特徴ベクトルが十分に類似している場合には(ブロック720の「はい」分岐)、未知の顔特徴ベクトルが既知の顔特徴ベクトルに関連する同一の身元を表しているとの判定を行うことができる(ブロック725)。2つの顔特徴ベクトルが一致するほど十分に類似していない場合には(ブロック720の「いいえ」分岐)、別の既知の顔特徴ベクトルが利用可能であるかどうかを判定する検査がさらに行われる(ブロック730)。既知の身元に関連する顔特徴ベクトルがそれ以上存在しない場合には(ブロック730の「いいえ」分岐)、未知の顔特徴ベクトル(即ち、ブロック705による動作の間に得られたもの)は、未知の顔に対応すると結論付けることができる(ブロック735)。既知の身元に関連する顔特徴ベクトルがさらに存在する場合には(ブロック730の「はい」分岐)、例えばストレージ150から「次の」既知の顔特徴ベクトルを得ることができ(ブロック740)、その後、演算700はブロック715で再開する。
Referring to FIG. 7, a
1つの実施形態においては、類似性評価基準(ブロック715を参照のこと)は、ハミング距離の線に沿った距離評価基準とすることができる。本明細書において説明される顔特徴ベクトルのような大きな次元のベクトルの場合には、数式4で記述されるマハラノビス距離測度が有効な類似性測度となることが分かった。
ここで、ベクトルxは第1の顔特徴ベクトル(例えば未知の顔に関連する顔特徴ベクトル)を表し、ベクトルyは第2の顔特徴ベクトル(例えば既知の顔に関連する顔特徴ベクトル)を表し、S( )は類似性又は比較演算を表し、Wは重み行列を表す。本質的に、重み行列Wは、比較演算の際に、顔特徴ベクトルにおける各々の要素がどの程度重要又は有意であるかを特定する。既知の身元に関連する大量の顔特徴ベクトルを用いて、評価基準学習技術を適用し、Wをオフラインで決定することができる。Wが分かると、Wは、図7による実行時の使用のために格納することができる。例として、顔特徴ベクトルが500個の要素を有する場合、即ち(500×1)のベクトルによって表される場合には、Wは、(500×500)要素の重み行列となる。
In one embodiment, the similarity metric (see block 715) may be a distance metric along the Hamming distance line. In the case of vectors of large dimensions such as the face feature vectors described herein, it has been found that the Mahalanobis distance measure described by
Here, the vector x represents a first face feature vector (for example, a face feature vector related to an unknown face), and the vector y represents a second face feature vector (for example, a face feature vector related to a known face). , S () represents similarity or comparison operation, and W represents a weight matrix. In essence, the weight matrix W specifies how important or significant each element in the face feature vector is during the comparison operation. Using a large number of facial feature vectors associated with known identities, an evaluation criterion learning technique can be applied to determine W offline. Once W is known, it can be stored for runtime use according to FIG. As an example, if the face feature vector has 500 elements, i.e., represented by a (500 x 1) vector, W is a (500 x 500) element weight matrix.
図8を参照すると、受信者操作特性(ROC)曲線800は、顔特徴ベクトルを構成する個々の構成要素、即ち(1)標準的な2M記述子(810)、密な勾配記述子(815)、ローカル勾配記述子(820)、及び密な歪み勾配記述子(825)を単独で用いた場合に対する、本明細書に開示される顔特徴ベクトル(805)の性能を示す。図から分かるように、本開示による顔特徴ベクトルの使用によって、これらの他の記述子より高い性能が得られている。 Referring to FIG. 8, the receiver operating characteristic (ROC) curve 800 shows the individual components that make up the face feature vector: (1) standard 2M descriptor (810), dense gradient descriptor (815). FIG. 6 illustrates the performance of the face feature vector (805) disclosed herein for a local gradient descriptor (820) and a dense distortion gradient descriptor (825) used alone. As can be seen, the use of facial feature vectors in accordance with the present disclosure provides higher performance than these other descriptors.
ここで図9を参照すると、本発明の一実施形態による例示的な電子装置900の簡略化された機能ブロック図が示される。電子装置900は、プロセッサ905、ディスプレイ910、ユーザ・インターフェース915、グラフィックス・ハードウェア920、デバイス・センサ925(例えば、近接センサ/環境光センサ、加速度計、及び/又はジャイロスコープ)、マイクロフォン930、1つ又はそれ以上の音声コーデック935、1つ又はそれ以上のスピーカ940、通信回路945、デジタル画像取り込みユニット950、1つ又はそれ以上の映像コーデック955、メモリ960、ストレージ965、及び通信バス970を含むことができる。電子デバイス900は、例えば、携帯情報端末(PDA)、携帯音楽プレーヤ、携帯電話、ノートブック型コンピュータ、ラップトップ型コンピュータ、又はタブレット型コンピュータとすることができる。
Referring now to FIG. 9, a simplified functional block diagram of an exemplary
プロセッサ905は、装置900によって行われる多数の関数の演算(例えば、顔特徴ベクトル構築及び実行時顔認識の演算100又は顔認識演算700など)を実行又は制御するのに必要な命令を実行することができる。プロセッサ905は、例えば、ディスプレイ910を駆動し、ユーザ・インターフェース915からユーザ入力を受信することができる。ユーザ・インターフェース915によって、ユーザはデバイス900と対話することができるようになる。例えば、ユーザ・インターフェース915は、ボタン、キーパッド、ダイアル、クリックホイール、キーボード、表示スクリーン、及び/又はタッチ・スクリーンといった様々な形態をとることができる。プロセッサ905はまた、例えば、携帯装置において見られるようなシステム・オン・チップとすることができ、専用グラフィックス処理ユニット(GPU)を含むことができる。プロセッサ905は、縮小命令セット・コンピュータ(RISC)若しくは複合命令セット・コンピュータ(CISC)アーキテクチャ、又は他のいずれかの適切なアーキテクチャに基づくものとすることができ、1つ又はそれ以上の処理コアを含むことができる。グラフィックス・ハードウェア920は、グラフィックスを処理するための専用計算ハードウェア、及び/又は、グラフィックス情報を処理する支援プロセッサ905とすることができる。1つの実施形態においては、グラフィックス・ハードウェア920は、プログラム可能グラフィックス処理ユニット(GPU)を含むことができる。
The
センサ及びカメラ回路950は、少なくとも一部が1つ又はそれ以上の映像コーデック955及び/又はプロセッサ905及び/又はグラフィックス・ハードウェア920によって及び/又は回路950内に組み込まれた専用画像処理ユニットによって処理される場合がある、スチル画像及びビデオ画像を取り込むことができる。そのようにして取り込まれた画像は、メモリ960及び/又はストレージ965に格納することができる。メモリ960は、装置の機能を実施するプロセッサ905及びグラフィックス・ハードウェア920によって用いられる1つ又はそれ以上の異なるタイプの媒体を含むことができる。例えば、メモリ960は、メモリ・キャッシュ、読み出し専用メモリ(ROM)、及び/又はランダム・アクセス・メモリ(RAM)を含むことができる。ストレージ965は、音声、画像、及び映像ファイル、コンピュータ・プログラム命令又はソフトウェア、選択情報、デバイス・プロファイル情報、並びに他のいずれかの適切なデータを保持するための媒体を含む。ストレージ965は、例えば、(固定、フロッピー(登録商標)、及び取り外し可能の)磁気ディスク及びテープ、CD−ROM及びデジタル・ビデオ・ディスク(DVD)などの光媒体、並びに、電気的プログラム可能読み出し専用メモリ(EPROM)及び電気的消去可能プログラム可能読み出し専用メモリ(EEPROM)などの半導体メモリ・デバイスを含む、1つ又はそれ以上の永続的ストレージ媒体を含むことができる。メモリ960及びストレージ965を用いて、1つ又はそれ以上のモジュールに編成され、いずれかの所望のコンピュータ・プログラミング言語で書かれたコンピュータ・プログラム命令又はコードを、有形に保持することができる。例えばプロセッサ905によって実行されたときに、こうしたコンピュータ・プログラム・コードは、本明細書において説明された1つ又はそれ以上の方法を実装することができる。
The sensor and
特許請求の範囲から逸脱することなく、材料、構成要素、回路要素の様々な変更、及び、例示された演算方法の詳細の様々な変更が可能である。例えば、本明細書において説明されたモデルは線形の形態であったが、そのような限定は、開示された技術に固有のものではない。さらに、種々のモデルは異なるものとすることができ、幾つかのモデルを線形とし、他のモデルを非線形とすることができる。それに加えて、組み合わせ演算(例えば140及び340)は、連結演算に限定されるものではなく、それらが同じものである必要もない。設計者の目的に即したあらゆる組み合わせを用いることができる。例えば、線形組み合わせ、記述子の値のサブセットの選択、及びその加重組み合わせは、全て実現可能である。また、モデル記述子の次元が次元縮小を必要としない場合(例えば、演算315、320、及び325)には、この演算を行う必要はない。
Various modifications of materials, components, circuit elements, and details of the illustrated method of operation are possible without departing from the scope of the claims. For example, although the models described herein were in linear form, such limitations are not specific to the disclosed technique. Further, the various models can be different, some models can be linear and others can be non-linear. In addition, the combination operations (eg, 140 and 340) are not limited to concatenation operations and they need not be the same. Any combination that suits the designer's purpose can be used. For example, linear combinations, selection of a subset of descriptor values, and their weighted combinations are all feasible. Further, when the dimension of the model descriptor does not require dimensional reduction (for example,
最後に、上記の説明は例示的なものであるように意図されており、限定することを意図ものではないことを理解されたい。例えば、上述の実施形態は、互いに組み合わせて用いることができる。上記の説明を検討すれば、当業者には他の多くの実施形態が明らかであろう。従って、本発明の範囲は、特許請求の範囲を参照することによって、並びにそのような特許請求の範囲が適用される等価物の十分な範囲によって、決定されるべきである。特許請求の範囲においては、「含む(including)」及び「特徴とする(in which)」という用語は、「含む(comprising)」及び「特徴とする(wherein)」というそれぞれの用語の平易な英語と等価な用語として用いられる。 Finally, it should be understood that the above description is intended to be illustrative and not restrictive. For example, the above-described embodiments can be used in combination with each other. Many other embodiments will be apparent to those of skill in the art upon reviewing the above description. Accordingly, the scope of the invention should be determined by reference to the claims, and by the full scope of equivalents to which such claims are applicable. In the claims, the terms "including" and "in which" mean plain English for the terms "comprising" and "wherein", respectively. Is used as an equivalent term.
100:顔特徴ベクトル生成及び実行時顔認識の演算
105:入力画像
110:顔検出器
115:ランドマーク画像
120:形状モデル
125:テクスチャ・モデル
130:形状記述子
135:テクスチャ記述子
140:演算
145:顔特徴ベクトル
150:ストレージ
155:アプリケーション
160:画像
165:比較
200:2D形状モデル
205:3D形状モデル
210:2D形状記述子
215:3D形状記述子
220:グローバル・テクスチャ・モデル
225:ローカル・テクスチャ・モデル
230:グローバル・テクスチャ記述子
235:ローカル・テクスチャ記述子
300:顔特徴ベクトル構築演算
305:正規化演算
310:正規化された画像
315:ローカル画像記述子
320:密な画像記述子
325:密な歪み画像記述子
330:歪み演算子
335:歪み画像
340:組み合わせ演算
345:中間のローカル・テクスチャ記述子
350:次元縮小演算
400:タイル
405、500:領域
600:2D形状フィールド
605:3D形状フィールド
610:グローバル・テクスチャ・フィールド
615:ローカル・テクスチャ・フィールド
800:受信者操作特性曲線
805:顔特徴ベクトル
810:標準的な2M記述子
815:密な勾配記述子
820:ローカル勾配記述子
825:歪み勾配記述子
900:電子装置
905:プロセッサ
910:ディスプレイ
915:ユーザ・インターフェース
920:グラフィックス・ハードウェア
925:デバイス・センサ
930:マイクロフォン
935:音声コーデック
940:スピーカ
945:通信回路
950:デジタル画像取り込みユニット(センサ/カメラ回路)
955:映像コーデック
960:メモリ
965:ストレージ
970:通信バス
100: face feature vector generation and runtime face recognition calculation 105: input image 110: face detector 115: landmark image 120: shape model 125: texture model 130: shape descriptor 135: texture descriptor 140: calculation 145 : Face feature vector 150: storage 155: application 160: image 165: comparison 200: 2D shape model 205: 3D shape model 210: 2D shape descriptor 215: 3D shape descriptor 220: global texture model 225: local texture Model 230: Global texture descriptor 235: Local texture descriptor 300: Face feature vector construction operation 305: Normalization operation 310: Normalized image 315: Local image descriptor 320: Dense image descriptor 325: Dense distortion image description 330: Distortion operator 335: Distortion image 340: Combination operation 345: Intermediate local texture descriptor 350: Dimension reduction operation 400: Tile 405, 500: Region 600: 2D shape field 605: 3D shape field 610: Global texture Field 615: Local texture field 800: Receiver operating characteristic curve 805: Face feature vector 810: Standard 2M descriptor 815: Dense gradient descriptor 820: Local gradient descriptor 825: Distorted gradient descriptor 900: Electronic device 905: Processor 910: Display 915: User interface 920: Graphics hardware 925: Device sensor 930: Microphone 935: Audio codec 940: Speaker 945: Communication circuit 950: Digital The image capturing unit (sensor / camera circuit)
955: Video codec 960: Memory 965: Storage 970: Communication bus
Claims (14)
少なくとも部分的に前記ランドマーク検出情報に基づいて、正規化されたランドマーク検出情報を生成するコンピュータ・コードと、
少なくとも部分的に前記ランドマーク検出情報に基づいて、第1の形状モデル特徴ベクトルを生成するコンピュータ・コードであって、前記ランドマーク検出情報を前記第1の顔の二次元モデルに適用することを含む当該コンピュータ・コードと、
少なくとも部分的に前記ランドマーク検出情報に基づいて、第2の形状モデル特徴ベクトルを生成するコンピュータ・コードであって、前記ランドマーク検出情報を前記第1の顔の三次元モデルに適用すること含む当該コンピュータ・コードと、
少なくとも部分的に前記ランドマーク検出情報に基づいて、第1のテクスチャ・モデル特徴ベクトルを生成するコンピュータ・コードであって、少なくとも部分的に前記正規化されたランドマーク検出情報に基づいて、第1のテクスチャ・モデル特徴ベクトルを生成することを含む当該コンピュータ・コードと、
少なくとも部分的に前記ランドマーク検出情報に基づいて、第2のテクスチャ・モデル特徴ベクトルを生成するコンピュータ・コードであって、少なくとも部分的に、前記正規化されたランドマーク検出情報と特定のモーフィング演算とに基づいて、歪みランドマーク検出情報を生成することを含む当該コンピュータ・コードと、
前記第1の形状モデル特徴ベクトルと、前記第2の形状モデル特徴ベクトルと、前記第1のテクスチャ・モデル特徴ベクトルと、前記第2のテクスチャ・モデル特徴ベクトルとを組み合わせて、第1の顔特徴ベクトルを形成するコンピュータ・コードと、
前記第1の顔特徴ベクトルをストレージ装置に格納するコンピュータ・コードと、
を含むことを特徴とする、永続的コンピュータ可読媒体。 Computer code for obtaining landmark detection information for a first face in a first image;
Computer code for generating normalized landmark detection information based at least in part on the landmark detection information;
Computer code for generating a first shape model feature vector based at least in part on the landmark detection information, wherein the landmark detection information is applied to a two-dimensional model of the first face. Including such computer code,
Computer code for generating a second shape model feature vector based at least in part on the landmark detection information, comprising applying the landmark detection information to the three-dimensional model of the first face The computer code and
Computer code for generating a first texture model feature vector based at least in part on the landmark detection information, wherein the first code is generated at least in part on the normalized landmark detection information. Computer code comprising generating a texture model feature vector of
Computer code for generating a second texture model feature vector based at least in part on the landmark detection information , wherein at least in part, the normalized landmark detection information and a specific morphing operation The computer code comprising generating distortion landmark detection information based on
The first face feature is obtained by combining the first shape model feature vector, the second shape model feature vector, the first texture model feature vector, and the second texture model feature vector. Computer code forming a vector;
Computer code for storing the first facial feature vector in a storage device;
A permanent computer readable medium characterized by comprising:
前記正規化されたランドマーク検出情報における、前記正規化されたランドマーク検出情報の全てより少ない複数の領域を識別し、
前記複数の領域に基づいて、第1のテクスチャ・モデル特徴ベクトルを生成する、
ためのコンピュータ・コードを含むことを特徴とする、請求項1に記載の永続的コンピュータ可読媒体。 The computer code for generating a first texture model feature vector is:
Identifying a plurality of regions less than all of the normalized landmark detection information in the normalized landmark detection information;
Generating a first texture model feature vector based on the plurality of regions;
The persistent computer readable medium of claim 1 , comprising computer code for:
前記第1の顔特徴ベクトルを前記第1の画像のメタデータに組み込み、
前記第1の顔特徴ベクトルをもつ前記第1の画像をストレージ装置内に格納する、
ためのコンピュータ・コードを含むことを特徴とする、請求項1に記載の永続的コンピュータ可読媒体。 The computer code for storing the first facial feature vector in a storage device is:
Incorporating the first facial feature vector into the metadata of the first image;
Storing the first image having the first face feature vector in a storage device;
The persistent computer readable medium of claim 1, comprising computer code for:
前記ストレージ装置から、既知の人物にさらに対応する第2の顔特徴ベクトルを取り出し、
前記第1の顔特徴ベクトルと前記第2の顔特徴ベクトルを比較して類似値を生成し、
前記類似値が一致していることを示す場合には、前記第1の顔が前記既知の人物に対応していると判定する、
ためのコンピュータ・コードをさらに含むことを特徴とする、請求項1に記載の永続的コンピュータ可読媒体。 Extracting the first face feature vector from the storage device;
A second facial feature vector further corresponding to a known person is extracted from the storage device,
Comparing the first face feature vector and the second face feature vector to generate a similarity value;
If the similarity values indicate matching, it is determined that the first face corresponds to the known person;
The persistent computer readable medium of claim 1, further comprising computer code for:
前記ストレージ装置に通信可能に結合されており、請求項1に記載のコンピュータ・コードが格納された、メモリと、
前記ストレージ装置及び前記メモリに通信可能に結合されており、前記メモリに格納された前記コンピュータ・コードを取り出して実行するように構成された、プログラム可能制御ユニットと、
を含む電子装置。 A storage device storing a plurality of images;
A memory that is communicatively coupled to the storage device and that stores the computer code of claim 1;
A programmable control unit, communicatively coupled to the storage device and the memory, and configured to retrieve and execute the computer code stored in the memory;
Including electronic devices.
少なくとも部分的に前記ランドマーク画像に基づいて、正規化されたランドマーク画像を生成するコンピュータ・コードと、
少なくとも部分的に前記正規化されたランドマーク画像に基づいて、歪みランドマーク画像を生成するコンピュータ・コードと、
少なくとも部分的に前記ランドマーク画像に基づいて、第1の形状モデル特徴ベクトルを生成するコンピュータ・コードであって、前記ランドマーク画像を前記第1の顔の二次元モデルに適用することを含む当該コンピュータ・コードと、
少なくとも部分的に前記ランドマーク画像に基づいて、第2の形状モデル特徴ベクトルを生成するコンピュータ・コードであって、前記ランドマーク画像を前記第1の顔の三次元モデルに適用することを含む当該コンピュータ・コードと、
少なくとも部分的に前記正規化されたランドマーク画像に基づいて、第1のテクスチャ・モデル特徴ベクトルを生成するコンピュータ・コードであって、前記正規化されたランドマーク画像内の複数の領域に対して勾配ベクトル演算を用いることを含む当該コンピュータ・コードと、
少なくとも部分的に前記歪みランドマーク画像に基づいて、第2のテクスチャ・モデル特徴ベクトルを生成するコンピュータ・コードであって、少なくとも部分的に前記正規化されたランドマーク画像に基づいて第1及び第2の記述子を生成し、少なくとも部分的に前記歪みランドマーク画像に基づいて第3の記述子を生成することを含む当該コンピュータ・コードと、
前記第1の形状モデル特徴ベクトルと、前記第2の形状モデル特徴ベクトルと、前記第1のテクスチャ・モデル特徴ベクトルと、前記第2のテクスチャ・モデル特徴ベクトルとを組み合わせて、第1の顔特徴ベクトルを形成するコンピュータ・コードと、
前記第1の顔特徴ベクトルをストレージ装置に格納するコンピュータ・コードと、
を含むことを特徴とする、永続的コンピュータ可読媒体。 Computer code for obtaining a landmark image identifying a plurality of aspects of the first face for the first face in the first image;
Computer code for generating a normalized landmark image based at least in part on the landmark image;
Computer code for generating a distorted landmark image based at least in part on the normalized landmark image;
Computer code for generating a first shape model feature vector based at least in part on the landmark image, the computer code comprising applying the landmark image to a two-dimensional model of the first face Computer code,
Computer code for generating a second shape model feature vector based at least in part on the landmark image, the computer code comprising applying the landmark image to a three-dimensional model of the first face Computer code,
Computer code for generating a first texture model feature vector based at least in part on the normalized landmark image, the plurality of regions in the normalized landmark image The computer code including using gradient vector operations;
Computer code for generating a second texture model feature vector based at least in part on the distorted landmark image , wherein the first and second are based at least in part on the normalized landmark image. Generating the second descriptor and generating a third descriptor based at least in part on the distorted landmark image;
The first face feature is obtained by combining the first shape model feature vector, the second shape model feature vector, the first texture model feature vector, and the second texture model feature vector. Computer code forming a vector;
Computer code for storing the first facial feature vector in a storage device;
A permanent computer readable medium characterized by comprising:
前記ストレージ装置に作動可能に結合されており、請求項10に記載のコンピュータ・コードが格納された、メモリと、
前記ストレージ装置及び前記メモリに通信可能に結合されており、前記メモリに格納された前記コンピュータ・コードを実行するように構成された、プログラム可能制御装置と、
を含むコンピュータ・システム。 A storage device storing a plurality of images;
A memory operatively coupled to the storage device and having stored the computer code of claim 10 ;
A programmable controller that is communicatively coupled to the storage device and the memory and configured to execute the computer code stored in the memory;
A computer system including:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/332,084 US8593452B2 (en) | 2011-12-20 | 2011-12-20 | Face feature vector construction |
US13/332,084 | 2011-12-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013131209A JP2013131209A (en) | 2013-07-04 |
JP5552519B2 true JP5552519B2 (en) | 2014-07-16 |
Family
ID=47003222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012230281A Active JP5552519B2 (en) | 2011-12-20 | 2012-09-28 | Construction of face feature vector |
Country Status (9)
Country | Link |
---|---|
US (1) | US8593452B2 (en) |
EP (1) | EP2608108A1 (en) |
JP (1) | JP5552519B2 (en) |
KR (1) | KR101481225B1 (en) |
CN (1) | CN103198292A (en) |
AU (1) | AU2012227166B2 (en) |
CA (1) | CA2789887C (en) |
TW (1) | TWI484444B (en) |
WO (1) | WO2013095727A1 (en) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5649601B2 (en) * | 2012-03-14 | 2015-01-07 | 株式会社東芝 | Verification device, method and program |
ITTO20130629A1 (en) | 2013-07-24 | 2015-01-25 | Sisvel Technology Srl | METHOD FOR ENCODING AN IMAGE DESCRIPTOR BASED ON A GRADIENT HISTOGRAM AND RELATIVE IMAGE PROCESSING APPARATUS |
CN103489011A (en) * | 2013-09-16 | 2014-01-01 | 广东工业大学 | Three-dimensional face identification method with topology robustness |
WO2015078017A1 (en) * | 2013-11-30 | 2015-06-04 | Xiaoou Tang | Method and system for exacting face features from data of face images |
CN104021384B (en) * | 2014-06-30 | 2018-11-27 | 深圳中智科创机器人有限公司 | A kind of face identification method and device |
KR102349059B1 (en) | 2014-11-07 | 2022-01-10 | 삼성전자주식회사 | Method and device to determine landmark from region of interest of image |
RU2596062C1 (en) | 2015-03-20 | 2016-08-27 | Автономная Некоммерческая Образовательная Организация Высшего Профессионального Образования "Сколковский Институт Науки И Технологий" | Method for correction of eye image using machine learning and method of machine learning |
JP6754619B2 (en) | 2015-06-24 | 2020-09-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | Face recognition method and device |
KR20170000748A (en) | 2015-06-24 | 2017-01-03 | 삼성전자주식회사 | Method and apparatus for face recognition |
US9830506B2 (en) * | 2015-11-09 | 2017-11-28 | The United States Of America As Represented By The Secretary Of The Army | Method of apparatus for cross-modal face matching using polarimetric image data |
KR102545768B1 (en) | 2015-11-11 | 2023-06-21 | 삼성전자주식회사 | Method and apparatus for processing metadata |
WO2017120247A1 (en) | 2016-01-05 | 2017-07-13 | Reald Spark, Llc | Gaze correction of multi-view images |
GB201602129D0 (en) * | 2016-02-05 | 2016-03-23 | Idscan Biometrics Ltd | Method computer program and system for facial recognition |
KR102221118B1 (en) | 2016-02-16 | 2021-02-26 | 삼성전자주식회사 | Method for extracting feature of image to recognize object |
CN106326867B (en) * | 2016-08-26 | 2019-06-07 | 维沃移动通信有限公司 | A kind of method and mobile terminal of recognition of face |
US10460153B2 (en) * | 2016-11-15 | 2019-10-29 | Futurewei Technologies, Inc. | Automatic identity detection |
WO2018129201A1 (en) * | 2017-01-04 | 2018-07-12 | Aquifi, Inc. | Systems and methods for shape-based object retrieval |
CN107452034B (en) * | 2017-07-31 | 2020-06-05 | Oppo广东移动通信有限公司 | Image processing method and device |
ES2967691T3 (en) | 2017-08-08 | 2024-05-03 | Reald Spark Llc | Fitting a digital representation of a head region |
US10657363B2 (en) | 2017-10-26 | 2020-05-19 | Motorola Mobility Llc | Method and devices for authenticating a user by image, depth, and thermal detection |
US10630866B2 (en) | 2018-01-28 | 2020-04-21 | Motorola Mobility Llc | Electronic devices and methods for blurring and revealing persons appearing in images |
US11017575B2 (en) | 2018-02-26 | 2021-05-25 | Reald Spark, Llc | Method and system for generating data to provide an animated visual representation |
US10757323B2 (en) | 2018-04-05 | 2020-08-25 | Motorola Mobility Llc | Electronic device with image capture command source identification and corresponding methods |
US11605242B2 (en) | 2018-06-07 | 2023-03-14 | Motorola Mobility Llc | Methods and devices for identifying multiple persons within an environment of an electronic device |
CN109117726A (en) * | 2018-07-10 | 2019-01-01 | 深圳超多维科技有限公司 | A kind of identification authentication method, device, system and storage medium |
US11100204B2 (en) | 2018-07-19 | 2021-08-24 | Motorola Mobility Llc | Methods and devices for granting increasing operational access with increasing authentication factors |
FR3091610B1 (en) * | 2019-01-08 | 2021-05-28 | Surys | Digital image processing method |
US11074432B2 (en) * | 2019-08-22 | 2021-07-27 | Nice Ltd. | Systems and methods for retrieving and presenting information using augmented reality |
KR102422779B1 (en) * | 2019-12-31 | 2022-07-21 | 주식회사 하이퍼커넥트 | Landmarks Decomposition Apparatus, Method and Computer Readable Recording Medium Thereof |
US11941863B2 (en) * | 2021-08-04 | 2024-03-26 | Datalogic Ip Tech S.R.L. | Imaging system and method using a multi-layer model approach to provide robust object detection |
WO2024211632A1 (en) * | 2023-04-04 | 2024-10-10 | Face Tec, Inc. | Method and apparatus for creation and use of identity verification with suppeemental encoded data |
US11837019B1 (en) | 2023-09-26 | 2023-12-05 | Dauntless Labs, Llc | Evaluating face recognition algorithms in view of image classification features affected by smart makeup |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4292837B2 (en) * | 2002-07-16 | 2009-07-08 | 日本電気株式会社 | Pattern feature extraction method and apparatus |
EP1411459B1 (en) * | 2002-10-15 | 2009-05-13 | Samsung Electronics Co., Ltd. | Method and apparatus for extracting feature vector used for face recognition and retrieval |
JP4217664B2 (en) * | 2004-06-28 | 2009-02-04 | キヤノン株式会社 | Image processing method and image processing apparatus |
EP1615160A3 (en) | 2004-07-07 | 2009-10-07 | Samsung Electronics Co., Ltd. | Apparatus for and method of feature extraction for image recognition |
SE528068C2 (en) | 2004-08-19 | 2006-08-22 | Jan Erik Solem Med Jsolutions | Three dimensional object recognizing method for e.g. aircraft, involves detecting image features in obtained two dimensional representation, and comparing recovered three dimensional shape with reference representation of object |
DE602007012246D1 (en) * | 2006-06-12 | 2011-03-10 | Tessera Tech Ireland Ltd | PROGRESS IN EXTENDING THE AAM TECHNIQUES FROM GRAY CALENDAR TO COLOR PICTURES |
JP4780198B2 (en) * | 2006-11-10 | 2011-09-28 | コニカミノルタホールディングス株式会社 | Authentication system and authentication method |
IE20070634A1 (en) | 2007-09-05 | 2009-04-15 | Nat Univ Ireland Maynooth | Method and system for synthesis of non-primary facial expressions |
EP2618290A3 (en) * | 2008-04-02 | 2014-08-06 | Google, Inc. | Method and apparatus to incorporate automatic face recognition in digital image collections |
JP2010191592A (en) * | 2009-02-17 | 2010-09-02 | Seiko Epson Corp | Image processing apparatus for detecting coordinate position of characteristic portion of face |
JP2011048469A (en) * | 2009-08-25 | 2011-03-10 | Seiko Epson Corp | Image processing device, image processing method, and image processing program |
US20110078097A1 (en) * | 2009-09-25 | 2011-03-31 | Microsoft Corporation | Shared face training data |
US20110080402A1 (en) | 2009-10-05 | 2011-04-07 | Karl Netzell | Method of Localizing Landmark Points in Images |
US8488873B2 (en) | 2009-10-07 | 2013-07-16 | Apple Inc. | Method of computing global-to-local metrics for recognition |
TWI425429B (en) * | 2010-05-11 | 2014-02-01 | Univ Chung Hua | Image texture extraction method, image identification method and image identification apparatus |
-
2011
- 2011-12-20 US US13/332,084 patent/US8593452B2/en active Active
-
2012
- 2012-09-14 WO PCT/US2012/055447 patent/WO2013095727A1/en active Application Filing
- 2012-09-17 CA CA2789887A patent/CA2789887C/en active Active
- 2012-09-18 AU AU2012227166A patent/AU2012227166B2/en active Active
- 2012-09-27 TW TW101135665A patent/TWI484444B/en active
- 2012-09-28 JP JP2012230281A patent/JP5552519B2/en active Active
- 2012-09-28 KR KR20120108990A patent/KR101481225B1/en active IP Right Grant
- 2012-09-28 CN CN2012103665826A patent/CN103198292A/en active Pending
- 2012-09-28 EP EP12186709.7A patent/EP2608108A1/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
CN103198292A (en) | 2013-07-10 |
KR20130071341A (en) | 2013-06-28 |
CA2789887A1 (en) | 2013-06-20 |
EP2608108A1 (en) | 2013-06-26 |
JP2013131209A (en) | 2013-07-04 |
US8593452B2 (en) | 2013-11-26 |
KR101481225B1 (en) | 2015-01-09 |
CA2789887C (en) | 2015-11-17 |
WO2013095727A1 (en) | 2013-06-27 |
US20130155063A1 (en) | 2013-06-20 |
AU2012227166B2 (en) | 2014-05-22 |
TW201327478A (en) | 2013-07-01 |
AU2012227166A1 (en) | 2013-07-04 |
TWI484444B (en) | 2015-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5552519B2 (en) | Construction of face feature vector | |
CN109214343B (en) | Method and device for generating face key point detection model | |
US10769496B2 (en) | Logo detection | |
US20190197331A1 (en) | Liveness test method and apparatus | |
WO2020103700A1 (en) | Image recognition method based on micro facial expressions, apparatus and related device | |
WO2016054779A1 (en) | Spatial pyramid pooling networks for image processing | |
KR102476016B1 (en) | Apparatus and method for determining position of eyes | |
US11935298B2 (en) | System and method for predicting formation in sports | |
US11126827B2 (en) | Method and system for image identification | |
JP2005327076A (en) | Parameter estimation method, parameter estimation device and collation method | |
JP6071002B2 (en) | Reliability acquisition device, reliability acquisition method, and reliability acquisition program | |
WO2020244151A1 (en) | Image processing method and apparatus, terminal, and storage medium | |
US11816876B2 (en) | Detection of moment of perception | |
US9940718B2 (en) | Apparatus and method for extracting peak image from continuously photographed images | |
CN111382791B (en) | Deep learning task processing method, image recognition task processing method and device | |
CN111639517A (en) | Face image screening method and device | |
Dong et al. | A supervised dictionary learning and discriminative weighting model for action recognition | |
JP2006293720A (en) | Face detection apparatus, face detection method, and face detection program | |
US20240037995A1 (en) | Detecting wrapped attacks on face recognition | |
Tarrataca et al. | The current feasibility of gesture recognition for a smartphone using J2ME | |
Perez-Montes et al. | An Efficient Facial Verification System for Surveillance that Automatically Selects a Lightweight CNN Method and Utilizes Super-Resolution Images | |
KR20240000235A (en) | Method for Image Data Preprocessing and Neural Network Model for virtual space sound of realistic contents and computer program thereof | |
CN118279372A (en) | Face key point detection method and electronic equipment | |
CN117373094A (en) | Emotion type detection method, emotion type detection device, emotion type detection apparatus, emotion type detection storage medium, and emotion type detection program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140303 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140331 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140430 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140526 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5552519 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |