KR20130121360A - Optimal gradient pursuit for image alignment - Google Patents

Optimal gradient pursuit for image alignment Download PDF

Info

Publication number
KR20130121360A
KR20130121360A KR1020120044497A KR20120044497A KR20130121360A KR 20130121360 A KR20130121360 A KR 20130121360A KR 1020120044497 A KR1020120044497 A KR 1020120044497A KR 20120044497 A KR20120044497 A KR 20120044497A KR 20130121360 A KR20130121360 A KR 20130121360A
Authority
KR
South Korea
Prior art keywords
alignment
face
image
score function
function
Prior art date
Application number
KR1020120044497A
Other languages
Korean (ko)
Inventor
시아오밍 리우
프레드릭 윌슨 휠러
피터 헨리 투
질린 투
Original Assignee
제너럴 일렉트릭 캄파니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제너럴 일렉트릭 캄파니 filed Critical 제너럴 일렉트릭 캄파니
Priority to KR1020120044497A priority Critical patent/KR20130121360A/en
Publication of KR20130121360A publication Critical patent/KR20130121360A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

An image alignment method is disclosed. On that embodiment, the method comprises; a step which obtains a face image of a person; a step which uses a discriminative face alignment model in order to fit a generic alignment model on the face image for easily performing position determination of face characteristics. The discriminative face alignment model is able to comprise a producing shape model component and a discriminative configuration model component. Furthermore, the discriminative configuration model component is able to be trained in order to estimate a score function capable of minimizing an angle between vectors instructing a gradient direction and a ground truth shape parameter. An additional method, a system, and manufactures are also disclosed.

Description

이미지 정렬에 대한 최적 그래디언트 추적{OPTIMAL GRADIENT PURSUIT FOR IMAGE ALIGNMENT}Optimal Gradient Tracking for Image Alignment {OPTIMAL GRADIENT PURSUIT FOR IMAGE ALIGNMENT}

본 발명은 국립 사법 연구소에 의해 수여되는 허가 번호 2007-DE-BX-K191 하의 정부 지원으로 이루어졌다. 정부는 본 발명에 일정한 권리를 갖는다.The present invention was made with government support under license number 2007-DE-BX-K191 awarded by the National Institute of Justice. The Government has certain rights in the invention.

본 명세서는 일반적으로 이미지 정렬에 관한 것이고, 어떤 실시예에 있어서 얼굴 이미지를 정렬하는 기술에 관한 것이다.
This disclosure relates generally to image alignment and, in some embodiments, to techniques for aligning face images.

모델 기반 이미지 등록/정렬은 컴퓨터 비전에서 중요한 화제이며, 모델은 이미지에 대한 거리가 최소화되도록 변형된다. 특히, 얼굴 정렬은 각종 실제 능력(예를 들어, 얼굴 특징 검출, 자세 교정, 및 얼굴 애니메이션)을 가능하게 하고 자세, 조명, 표정, 및 폐색의 얼굴 외형 변화로 인해 과학적 도전을 제시하므로 중요하다. 이전 기술은 통계적 형상 모델을 대상 등급에 피팅하는 능동 형상 모델(ASM)을 포함한다. ASM은 얼굴 정렬에 사용된 능동 외형 모델(AAM)로 확장된다. 기반 모델 피팅 동안, 외형 모델로부터 합성된 외형 예와 입력 이미지로부터의 워프된(warped) 외형 사이의 평균 제곱 에러는 형상 및/또는 외형 파라미터를 반복적으로 업데이트함으로써 최소화된다. AAM은 작은 피사체 세트를 습득하고 피팅하는 동안 합리적으로 잘 수행될 수 있을지라도, 성능은 그것이 큰 데이터세트 상에 트레이닝되며 그리고/또는 모델 습득 동안 보여지지 않는 피사체에 피팅될 때 빠르게 저하된다.Model-based image registration / alignment is an important topic in computer vision, and the model is modified to minimize the distance to the image. In particular, face alignment is important because it enables various practical capabilities (eg, facial feature detection, posture correction, and facial animation) and presents scientific challenges due to facial appearance changes in posture, illumination, facial expression, and occlusion. Previous techniques include an Active Shape Model (ASM) that fits a statistical shape model to a target class. ASM extends to the Active Appearance Model (AAM) used for face alignment. During the base model fitting, the mean squared error between the contour example synthesized from the contour model and the warped contour from the input image is minimized by iteratively updating the shape and / or contour parameters. Although AAM may perform reasonably well during acquisition and fitting of a small set of subjects, performance degrades rapidly when it is trained on a large dataset and / or fitted to a subject that is not seen during model acquisition.

AAM과 같은 생성 모델 기반 접근법에 더하여, 차별적 모델 기반 정렬 접근법도 존재한다. 부스티드 외형 모델(BAM)은 AAM과 동일한 형상 모델을 사용하지만, 본래 2클래스 분류자이고 정확하게 그리고 부정확하게 워프된 이미지 세트로부터 차별적으로 습득되는 전체 다른 외형 모델도 사용한다. 모델 피팅 동안, BAM은 그래디언트 방향을 따라 형상 파라미터를 업데이트함으로써 분류자 스코어를 최대화하는 것을 지향한다. BAM은 AAM에 비해 보여지지 않는 이미지에 대한 피팅을 더 잘 일반화하는 것을 나타낼지라도, 하나의 잠재적인 문제는 습득된 이진 분류자가 형상 파라미터를 섭동시키는 동안 오목 스코어 표면을 보증할 수 없다는 것이다. 다시 말하면, 그래디언트 방향을 따라 이동하는 것은 정렬을 항상 개선하는 것은 아니다. 부스티드 랭킹 모델(BRM)은 습득을 통해 볼록을 실시함으로써 이 문제를 완화시킨다. 한쪽이 다른 쪽보다 더 좋은 정렬인 워프된 이미지 쌍을 사용하면, BRM은 모든 트레이닝 쌍 내에 2개의 워프된 이미지를 정확하게 위치시키려고 시도하는 스코어 함수를 습득한다. BRM은 이전 기술에 비해 어떤 이익을 제공할 수 있을지라도, 이미지 정렬의 다른 개선이 이하에 기재된 대로 달성될 수 있다.
In addition to generation model-based approaches such as AAM, there is also a differential model-based sorting approach. The Boosted Appearance Model (BAM) uses the same shape model as AAM, but also uses a whole other appearance model that is originally a two-class classifier and is discriminated from accurately and incorrectly warped sets of images. During model fitting, BAM aims to maximize the classifier score by updating shape parameters along the gradient direction. Although BAM represents a better generalization of fitting for invisible images compared to AAM, one potential problem is that acquired binary classifiers cannot guarantee concave score surfaces while perturbing shape parameters. In other words, moving along the gradient direction does not always improve alignment. The Boosted Ranking Model (BRM) mitigates this problem by convexing through learning. Using a warped image pair where one side is better aligned than the other side, the BRM learns a score function that attempts to accurately place the two warped images within every training pair. Although BRM may provide some benefit over previous techniques, other improvements in image alignment may be achieved as described below.

최초 청구된 발명과 같은 범위의 어떤 양상이 이하에 설명된다. 이 양상은 현재 개시된 주제의 각종 실시예가 취할 수 있는 어떤 형태의 간단한 요약을 독자에게 제공하도록 단지 소개되고 이 양상은 본 발명의 범위를 제한하도록 의도되지 않는 것이 이해되어야 한다. 실제로, 본 발명은 이하에 설명될 수 없는 각종 양상을 포함할 수 있다.
Certain aspects of the same scope as the originally claimed invention are described below. It is to be understood that this aspect is only introduced to provide the reader with some form of a brief summary that the various embodiments of the presently disclosed subject matter may take, and it is to be understood that this aspect is not intended to limit the scope of the invention. Indeed, the invention may encompass a variety of aspects that may not be described below.

현재 개시된 주제의 실시예는 일반적으로 이미지 정렬에 관한 것일 수 있다. 일실시예에 있어서, 방법은 사람의 얼굴 이미지를 획득하는 단계 및 얼굴 이미지의 얼굴 특징의 위치 결정을 용이하게 하기 위해 얼굴 이미지에 제네릭(generic) 얼굴 메쉬를 정렬하는 차별적 얼굴 정렬 모델을 사용하는 단계를 포함한다. 차별적 얼굴 정렬 모델은 생성 형상 모델 성분 및 차별적 외형 모델 성분을 포함할 수 있다. 차별적 외형 모델 성분은 소정 이미지의 형상 파라미터의 함수이고 형상 파라미터에 대한 스코어 함수의 그래디언트 방향과 형상 파라미터에 대한 이상적인 정렬 이동 방향 사이의 각도를 최소화하는 스코어 함수를 추정하기 위해 트레이닝 데이터로 트레이닝될 수 있다.Embodiments of the presently disclosed subject matter may relate generally to image alignment. In one embodiment, the method includes obtaining a face image of a person and using a differential face alignment model that aligns a generic face mesh to the face image to facilitate positioning of facial features of the face image. It includes. The differential face alignment model may include a generated shape model component and a differential appearance model component. The differential appearance model component may be trained with training data to estimate a score function that is a function of the shape parameter of a given image and minimizes the angle between the gradient direction of the score function for the shape parameter and the ideal alignment movement direction for the shape parameter. .

다른 실시예에 있어서, 시스템은 복수의 저장된 루틴을 갖는 메모리 장치 및 복수의 저장된 루틴을 실행하도록 구성된 프로세서를 포함한다. 복수의 저장된 루틴은 트레이닝 이미지 세트에 액세스하도록 구성된 루틴, 및 정렬 스코어 함수의 그래디언트 방향과 원하는 정렬에 대한 이상적인 이동 방향 사이의 각도를 최소화하는 정렬 스코어 함수를 습득하기 위해 트레이닝 이미지 세트를 사용하여 외형 모델을 트레이닝하도록 구성된 루틴을 포함할 수 있다.In another embodiment, a system includes a memory device having a plurality of stored routines and a processor configured to execute the plurality of stored routines. The plurality of stored routines may be configured to access a set of training images, and the appearance model using the training image set to learn an alignment score function that minimizes the angle between the gradient direction of the alignment score function and the ideal direction of movement for the desired alignment. It may include a routine configured to train.

추가 실시예에 있어서, 제조품은 실행가능 명령이 저장된 1개 이상의 비일시적인 컴퓨터 판독가능 매체를 포함한다. 실행가능 명령은 인간 얼굴을 포함하는 이미지에 액세스하도록 된 명령 및 차별적 얼굴 정렬 모델을 사용하여 인간 얼굴을 정렬하도록 된 명령을 포함할 수 있다. 차별적 얼굴 정렬 모델은 정렬 스코어 함수의 그래디언트 방향과 정렬 스코어 함수의 최대 방향으로 지시되는 벡터 사이의 각도를 최소화하는 정렬 스코어 함수를 추정하도록 트레이닝된 차별적 외형 모델을 포함할 수 있다.In a further embodiment, the article of manufacture comprises one or more non-transitory computer readable media having executable instructions stored thereon. Executable instructions may include instructions adapted to access an image comprising a human face and instructions adapted to align the human face using a differential face alignment model. The differential face alignment model may include a differential appearance model trained to estimate an alignment score function that minimizes the angle between the gradient direction of the alignment score function and the vector indicated in the maximum direction of the alignment score function.

앞서 언급된 특징의 각종 개선은 여기에 기재된 주제의 각종 양상에 있을 수 있다. 또한, 다른 특징은 마찬가지로 이러한 각종 양상에 통합될 수 있다. 이 개선 및 추가 특징은 개별적으로 또는 임의 조합으로 존재할 수 있다. 예컨대, 예시된 실시예의 1개 이상에 대하여 이하에 논의되는 각종 특징은 단독으로 또는 임의 조합으로 본 명세서의 기재된 실시예 중 어느 하나로 통합될 수 있다. 게다가, 앞서 소개된 간단한 요약은 청구된 주제에 제한없이 여기에 개시된 주제의 어떤 양상 및 문맥에 독자를 익숙케 하도록 단지 의도된다.
Various improvements of the aforementioned features may be in various aspects of the subject matter described herein. In addition, other features may likewise be incorporated into these various aspects. These improvements and additional features can be present individually or in any combination. For example, various features discussed below with respect to one or more of the illustrated embodiments may be incorporated into any of the embodiments described herein, alone or in any combination. Moreover, the brief summary introduced above is merely intended to familiarize the reader with certain aspects and contexts of the subject matter disclosed herein without limitation to the claimed subject matter.

본 발명의 이러한 것, 다른 특징, 양상, 및 장점은 동일 문자가 도면 도처에서 동일 부분을 나타내는 첨부 도면을 참조하여 이하의 상세한 설명이 판독될 때 더 잘 이해될 것이다.
도 1은 본 명세서의 실시예에 따른 얼굴 형상 템플릿이다.
도 2는 BRM을 통해 습득되는 오목 정렬 스코어 함수의 예를 도시한다.
도 3은 그래디언트 방향이 본 명세서의 실시예에 따른 이상적인 이동 방향과 밀접하게 정렬되는 정렬 스코어 함수를 도시한다.
도 4는 본 명세서의 실시예에 따른 얼굴 형상 템플릿을 사용하여 워프된 관찰 이미지 및 얼굴 이미지의 예이다.
도 5는 본 명세서의 실시예에 따른 특징 파라미터화를 갖는 워프된 얼굴 이미지의 예이다.
도 6은 본 명세서의 실시예에 따른 외형 모델에 의해 사용될 수 있는 직사각형 특징 타입의 예를 도시한다.
도 7은 본 명세서의 실시예에 따른 특징 템플릿의 예이다.
도 8은 본 명세서의 실시예에 따른 정렬 스코어 함수를 추정하는 프로세스를 전체적으로 도시한다.
도 9 및 10은 본 명세서의 실시예에 따른 습득 알고리즘에 의해 선택되는 상부 15개의 하르(Haar) 특징을 도시한다.
도 11은 본 명세서의 실시예에 따른 도 8 및 9의 습득 알고리즘에 의해 선택되는 상부 100개의 하르 특징의 공간 밀도 맵이다.
도 12-14는 본 명세서의 실시예에 따른 3개의 데이터세트로부터의 예시적 이미지이다.
도 15는 본 명세서의 실시예의 습득 알고리즘의 랭킹 성능을 BRM의 것과 비교하는 그래프이다.
도 16은 본 명세서의 실시예의 습득 알고리즘의 각도 추정 성능을 BRM의 것과 비교하는 그래프이다.
도 17은 본 명세서의 실시예의 습득 알고리즘의 정렬 속도 성능을 BRM의 것과 비교하는 그래프이다.
도 18은 본 명세서의 실시예에 따른 얼굴 분석 프로세스의 예이다.
도 19는 본 명세서에 기재되고 본 명세서의 실시예에 따른 기능성을 제공하는 프로세서 기반 장치 또는 시스템의 블록도이다.
These, other features, aspects, and advantages of the present invention will be better understood when the following detailed description is read with reference to the accompanying drawings, in which like characters indicate like parts throughout the figures.
1 is a face shape template according to an embodiment of the present disclosure.
2 shows an example of a concave alignment score function learned through BRM.
3 illustrates an alignment score function in which the gradient direction is closely aligned with the ideal direction of movement according to embodiments herein.
4 is an example of a warped observation image and a face image using a face shape template according to an embodiment of the present disclosure.
5 is an example of a warped face image with feature parameterization according to an embodiment of the present disclosure.
6 shows an example of a rectangular feature type that may be used by an appearance model according to an embodiment of the present disclosure.
7 is an example of a feature template according to an embodiment of the present disclosure.
8 depicts the overall process of estimating an alignment score function in accordance with an embodiment herein.
9 and 10 illustrate the top 15 Haar features selected by a learning algorithm according to embodiments herein.
FIG. 11 is a spatial density map of the top 100 Har features selected by the acquisition algorithms of FIGS. 8 and 9 according to embodiments herein.
12-14 are exemplary images from three datasets according to embodiments herein.
15 is a graph comparing the ranking performance of the acquisition algorithm of the embodiments herein with that of the BRM.
16 is a graph comparing the angular estimation performance of the acquisition algorithm of the embodiments herein with that of the BRM.
17 is a graph comparing the alignment speed performance of the acquisition algorithm of the embodiments herein with that of the BRM.
18 is an example of a face analysis process according to an embodiment of the present disclosure.
19 is a block diagram of a processor-based device or system described herein and providing functionality in accordance with embodiments herein.

현재 개시된 주제의 1개 이상의 특정 실시예가 이하 기재될 것이다. 이 실시예의 간결한 기재를 제공하기 위한 노력으로, 실제 구현의 모든 특징은 본 명세서에 기재될 수 없다. 어떤 그러한 실제 구현의 개발에서, 어떤 공학 또는 설계 프로젝트에서와 같이, 다수의 구현 특정 결정은 한쪽 구현으로부터 다른 쪽 구현으로 변경될 수 있는 시스템 관련 및 비지니스 관련 제약의 준수와 같은 개발자의 특정 목표를 달성하기 위해 이루어져야 하는 것이 이해되어야 한다. 더욱이, 그러한 개발 노력은 복잡하고 시간 소비적일 수 있지만, 그럼에도 불구하고 이 명세서의 이득을 갖는 당업자를 위해 설계, 제작, 및 제조를 착수하는 절차인 것이 이해되어야 한다. 본 기술의 각종 실시예의 요소를 도입할 때, 관사 "어", "언", "그" 및 "상기"는 요소 중 1개 이상이 존재하는 것을 의미하도록 의도된다. 용어 "포함하는", "구비하는", 및 "갖는"은 리스트된 요소 이외의 추가 요소가 존재할 수 있는 것을 포함하고 의미하도록 의도된다.One or more specific embodiments of the presently disclosed subject matter will be described below. In an effort to provide a concise description of this embodiment, not all features of an actual implementation can be described herein. In the development of any such real implementation, as in any engineering or design project, a number of implementation specific decisions achieve the developer's specific goals, such as compliance with system-related and business-related constraints that may change from one implementation to the other. It must be understood what must be done to do so. Moreover, while such development efforts can be complex and time consuming, it should nevertheless be understood that it is a procedure to undertake design, fabrication, and manufacture for those skilled in the art having the benefit of this specification. When introducing elements of the various embodiments of the present technology, the articles “uh”, “un”, “the” and “the” are intended to mean that one or more of the elements are present. The terms "comprising", "including", and "having" are intended to include and mean that there may be additional elements other than the listed elements.

이미지 정렬은 이미지 특징(예를 들어, 얼굴 특징)이 정확히 위치되게 하기 위해 랜드마크 기반 제너릭 메쉬를 이미지(예를 들어, 얼굴 이미지)로 이동 및 변형시키는 프로세스이다. 어떤 정렬 모델은 형상 모델 성분 및 외형 모델 성분을 포함한다. 이미지가 주어지면, 랜드마크 포인트는 이미지의 형상을 양자화하기 위해 위치될 수 있다. 얼굴 이미지 정렬에서, 예를 들어 형상 모델은 얼굴 특징(예를 들어, 코끝, 입가 등)에 대응하는 랜드마크 포인트를 포함할 수 있다. 예시적 평균 형상(10)은, 도 1에 도시된 바와 같이, 랜드마크 포인트(14) 및 라인 세그먼트(16)에 의해 규정되는 다수의 삼각형(12)을 포함할 수 있다.Image alignment is the process of moving and transforming a landmark-based generic mesh into an image (eg, a face image) in order for the image feature (eg, face feature) to be accurately positioned. Some alignment models include shape model components and appearance model components. Given an image, landmark points can be located to quantize the shape of the image. In facial image alignment, for example, the shape model may include landmark points corresponding to facial features (eg, nose tip, mouth, etc.). Exemplary mean shape 10 may include a number of triangles 12 defined by landmark points 14 and line segments 16, as shown in FIG. 1.

외형 모델은 도 2 및 3에 전체적으로 나타낸 바와 같이, 습득된 정렬 스코어 함수를 통상 포함할 수 있다. BRM을 통해 습득된 정렬 스코어 함수의 예는 도 2의 그래프(20)와 같이 일반적으로 예시되어 있다. 이 오목 기능에서, 그라운드 트루스(ground-truth) 형상 파라미터(22)는 함수(즉, 필요한 정렬)의 최대값(24)을 나타내는 한편, 각 라인(26)은 각 라인(26) 상의 다른 지점에 대한 같은 크기의 지점을 나타낸다. 각종 섭동된 형상 파라미터(28)에 대한 스코어는 그래디언트 방향(32)을 갖는 요소(30)로 도시된다. 그러나, BRM에서 그래디언트 방향(32)은 현재의 형상 파라미터 요소(30)로부터 시작되는 그라운드 트루스 형상 파라미터(22)(즉, 값(24))를 지시하는 벡터(34)에 대해 비교적 큰 각도(36)를 여전히 가질 수 있다. 따라서, BRM에서 형상 파라미터가 그래디언트 방향(32)을 따라 업데이트될 수 있을지라도, BRM에서의 정렬 프로세스는 비교적 큰 각도(36)로 인해 최적화 동안 회선상 경로를 취할 수 있다. 이것은 발산의 기회를 증가시킬 뿐만 아니라 정렬도 늦춘다.The appearance model may typically include a learned alignment score function, as shown overall in FIGS. 2 and 3. An example of an alignment score function acquired through BRM is generally illustrated, such as graph 20 of FIG. 2. In this concave function, the ground-truth shape parameter 22 represents the maximum value 24 of the function (ie the required alignment), while each line 26 is at a different point on each line 26. For points of the same size. The scores for the various perturbed shape parameters 28 are shown by elements 30 having a gradient direction 32. However, the gradient direction 32 in the BRM is relatively large angle 36 relative to the vector 34 indicating the ground truss shape parameter 22 (ie, the value 24) starting from the current shape parameter element 30. Can still have). Thus, although the shape parameters in the BRM can be updated along the gradient direction 32, the alignment process in the BRM can take a convolutional path during optimization due to the relatively large angle 36. This not only increases the chance of divergence but also slows alignment.

이 문제를 처리하기 위해, 본 기술의 일실시예는 그 대신에 형상 및 외형 모델 성분을 또한 포함하는 차별적 정렬 모델을 습득하기 위해 이하에 기재된 최적 그래디언트 추적 모델(OGPM)을 사용한다. 동일한 형상 표현을 BAM 및 BRM으로 사용하면, 또한 정렬 스코어 함수인 OGPM 외형 모델 성분의 습득은 매우 다른 목적으로 공식화된다. 특히, 도 3에서 그래프(40)에 의해 전체적으로 표현된 바와 같이, 외형 모델은 각종 섭동된 형상 파라미터(28)(참조 번호 30에 의해 그래프로 표현되는)에서의 그래디언트(32)가 이상적인 이동 방향(즉, 그라운드 트루스 형상 파라미터를 직접 지시하는 벡터(34))에 대해 최소 각도(36)를 갖는 정렬 스코어 함수를 습득하는 것을 지향한다. 스코어 함수는 위크 함수(weak function) 세트를 포함하거나 이 세트로 구성될 수 있으며, 각각은 워프된 이미지 도메인에서 하나의 국부 특징에 작용한다. 목적 함수는 각각의 위크 함수가 특징 후보의 대형 풀로부터 증분 방식으로 추정될 수 있도록 공식화된다. 모델 피팅 동안, 초기 형상 파라미터를 갖는 이미지가 주어지면, 그래디언트 상승은 형상 파라미터를 그래디언트 방향으로 업데이트함으로써 수행되며, 그것은 OGPM에서 그래디언트(32)와 벡터(34) 사이의 각도(36)의 최적화로 인해 이상적인 이동 방향에 더 유사해질 것으로 예상된다. 현재 개시된 정렬 모델의 추가적인 상세한 설명이 이하 제공된다. 얼굴 모델 및 얼굴 정렬에 관한 어떤 실시예가 설명을 위해 이하 기재될지라도, 다른 이미지 배경(즉 비얼굴)에서 모델 및 정렬 기술의 사용이 또한 직시되는 것이 다시 주목된다.To address this issue, one embodiment of the present technology instead uses the Optimal Gradient Tracking Model (OGPM) described below to learn a differential alignment model that also includes shape and appearance model components. Using the same shape representation as BAM and BRM, the acquisition of the OGPM appearance model component, which is also an alignment score function, is formulated for a very different purpose. In particular, as represented entirely by the graph 40 in FIG. 3, the appearance model has a gradient 32 at various perturbed shape parameters 28 (represented graphically by reference numeral 30) in which the ideal direction of movement ( In other words, it is directed to learning an alignment score function having a minimum angle 36 with respect to the vector 34 directly indicating the ground truss shape parameter. The score function may comprise or consist of a set of weak functions, each of which acts on one local feature in the warped image domain. The objective function is formulated such that each weak function can be estimated in incremental fashion from a large pool of feature candidates. During model fitting, given an image with initial shape parameters, gradient rise is performed by updating the shape parameters in the gradient direction, which is due to the optimization of the angle 36 between the gradient 32 and the vector 34 in OGPM. It is expected to be more similar to the ideal direction of travel. Further details of the currently disclosed alignment model are provided below. Although certain embodiments regarding face models and face alignment are described below for explanation, it is again noted that the use of model and alignment techniques in other image backgrounds (ie non-faces) is also faced.

얼굴Face 모델 Model

BAM 및 BRM과 유사하게, 일실시예의 얼굴 모델은 생성 형상 모델 성분 및 차별적 외형 모델 성분으로 구성되거나 이 성분들을 포함한다. 형상 모델에 대해서는, 랜드마크 기반 형상 표현이 이미지의 얼굴 형상을 설명하는 대중적인 방법인 것이 주목된다. 즉, 2D 랜드마크({xi,yi}i=1,...,v) 세트는 예를 들어 눈가, 입가, 및 코끝과 같은 중요 얼굴 특징의 위에 배치될 수 있다. 이 랜드마크의 연결은 이미지(s= [x1,y1,x2,y2,...xv,yv]T )의 형상 관찰을 형성한다. 각 이미지가 랜드마크로 수동으로 분류되는 얼굴 데이터베이스가 주어지면, 전체 형상 관찰 세트는 형상 모델에 대한 트레이닝 데이터로 취급될 수 있다. 일실시예에 있어서, 형상 모델은 관찰 세트에 관한 주 성분 분석(PCA)을 통해 습득되는 점 분산 모델(PDM)일 수 있다. 따라서, 습득된 생성 PDM은 특정 형상 경우를 다음 식으로 나타낼 수 있다:Similar to BAM and BRM, an embodiment face model consists of or includes a generated shape model component and a differential appearance model component. For shape models, it is noted that landmark-based shape representation is a popular way of describing the face shape of an image. That is, a set of 2D landmarks {x i , y i } i = 1, ..., v may be placed on top of important facial features such as, for example, the corners of the eyes, the corners of the mouth, and the tip of the nose. This landmark linkage forms the shape observation of the image s = [x 1 , y 1 , x 2 , y 2 , ... x v , y v ] T. Given a facial database where each image is manually classified as a landmark, the entire shape observation set can be treated as training data for the shape model. In one embodiment, the shape model may be a point variance model (PDM) learned through principal component analysis (PCA) on the observation set. Thus, the learned production PDM can represent a particular shape case in the following equation:

Figure pat00001
Figure pat00001

여기서 s0 및 s i 는 각각 PDM 습득으로부터 기인되는 평균 형상 및 i th 형상 베이시스이다. 형상 파라미터는 p = [p1,p2,...,pn]T에 의해 제공될 수 있다. AAM의 형상 성분과 유사하게, 처음 4개의 형상 베이스는 전체적인 병진 및 회전을 나타내기 위해 트레이닝될 수 있는 한편, 나머지 형상 베이스는 얼굴 형상의 비강성 변형을 나타낼 수 있다.Where s 0 and s i are the average shape and i th shape basis resulting from the PDM acquisition, respectively. The shape parameter may be provided by p = [p 1 , p 2 , ..., p n ] T. Similar to the shape components of the AAM, the first four shape bases can be trained to exhibit overall translation and rotation, while the remaining shape bases can exhibit non-rigid deformation of the facial shape.

도 4에 도시된 바와 같이, 평균 형상 좌표계로부터 이미지 관찰(52)에서의 좌표로의 워핑 함수(48)는 구분적 아핀 워프로 규정된다:As shown in FIG. 4, the warping function 48 from the average shape coordinate system to the coordinates in the image observation 52 is defined as a distinct affine warp:

Figure pat00002
(2)
Figure pat00002
(2)

여기서 (x0, y0)는 평균 형상 도메인 내의 화소 좌표(46)이고, a(p) = [a1(p)a2(p)]는 s0 및 s(p)에서 각각의 삼각형 쌍을 관련시키는 고유 3×2 아핀 변환 매트릭스이다. 형상 파라미터(p)가 주어지면, a(p)는 각각의 삼각형(12)에 대해 계산될 수 있다. 그러나, 삼각형 각 화소(x0, y0)가 속하는 삼각형의 지식이 선험적으로 알려져 있으므로, 워프는 단순한 테이블 룩업을 통해 효율적으로 수행될 수 있다. 이 워핑 함수(48)를 사용하면, 어떤 얼굴 이미지(52)는 평균 형상(참조 번호 50 및 56으로 1개의 화소에 대해 전체적으로 표현되는)으로 워프될 수 있고(54) 외형 모델이 습득되는 참조 번호 58로 전체적으로 표현된 형상 정규화 얼굴 이미지(I(W(x;p)))로 된다.Where (x 0 , y 0 ) is the pixel coordinate 46 in the average shape domain, and a (p) = [a 1 (p) a 2 (p)] is the pair of triangles in s 0 and s (p), respectively Is the unique 3x2 affine transformation matrix that relates Given the shape parameter p, a (p) can be calculated for each triangle 12. However, since the knowledge of the triangle to which each pixel (x 0 , y 0 ) belongs is known a priori, the warp can be efficiently performed through a simple table lookup. Using this warping function 48, a certain facial image 52 can be warped to an average shape (expressed globally for one pixel with reference numbers 50 and 56) and a reference number from which the appearance model is learned (54). This results in a shape normalized face image I (W (x; p)) expressed overall at 58.

외형 모델의 일실시예는 도 5-7을 참조하면 더 잘 이해될 수 있다. 특히, 도 5는 파라미터화된 특징(72)을 갖는 워프된 이미지(70)의 예를 도시한다. 도 6은 외형 모델에 의해 사용될 수 있는 5개의 특징 타입(74)(특징 타입(76, 78, 80, 82, 및 84)으로 개별적으로 분류되는)을 도시한다. 게다가, 도 7은 개념적인 이미지 템플릿(A)(참조 번호 92)을 전체적으로 나타낸다.One embodiment of the appearance model may be better understood with reference to FIGS. 5-7. In particular, FIG. 5 shows an example of a warped image 70 having a parameterized feature 72. 6 shows five feature types 74 (classified separately as feature types 76, 78, 80, 82, and 84) that may be used by the appearance model. In addition, FIG. 7 collectively shows conceptual image template A (reference numeral 92).

일실시예의 외형 모델은 형상 정규화 얼굴 이미지(I(W(x;p)))에 대해 계산되는 m개의 국부 특징(

Figure pat00003
)의 수집에 의해 설명된다. 일실시예의 국부 특징은 하르 라이크(Haar-like) 직사각형 특징(예를 들어, 특징(72))일 수 있으며, 그것은 계산 효율에 대해(예를 들어, 통합 이미지 기술로 인해) 이득을 제공할 수 있다. 직사각형 특징은 다음 식으로 계산될 수 있다:In one embodiment, the appearance model is composed of m local features (
Figure pat00003
) Is explained by the collection. The local feature of one embodiment may be a Haar-like rectangular feature (eg, feature 72), which may provide a gain in computational efficiency (eg, due to integrated image technology). have. Rectangular features can be calculated by the following equation:

Figure pat00004
(3)
Figure pat00004
(3)

여기서 A는 이미지 템플릿(92)이다. 템플릿과 워프된 이미지 사이의 내적은 통합 이미지를 사용해서 직사각형 특징을 계산하는 것과 같다. 도 5에 도시된 바와 같이, 이미지 템플릿(A)은 (α, β, γ, δ, τ)에 의해 파라미터화될 수 있으며, 여기서 (α, β)는 상부 좌측 코너이고, γ 및 δ는 폭과 높이이고, τ는 특징 타입(74)이다.Where A is an image template 92. The dot product between the template and the warped image is like calculating a rectangular feature using an integrated image. As shown in Figure 5, the image template A can be parameterized by (α, β, γ, δ, τ), where (α, β) is the upper left corner, and γ and δ are the widths. And height, τ is a feature type 74.

정렬 습득Learning to align

외형 모델 표현을 도입해서, 본 기술의 외형 모델을 트레이닝하는 법을 이제 착수한다. 일실시예에 있어서, 외형 모델은 모델 피팅 단계 동안 사용되는 정렬 스코어 함수를 포함하거나 이 함수로 구성될 수 있다. 우선, p는 식 (1)의 형상 모델의 현재 정렬을 나타내는 소정 이미지의 형상 파라미터로 표시될 수 있다. 일실시예에 있어서, 외형 모델 습득의 목표는 다음과 같이 제시될 수 있다: 분류된 트레이닝 데이터로부터, p에 대해 최대화될 때, 그것이 정확한 정렬의 형상 파라미터가 되도록 스코어 함수(F(p))를 습득하는 것을 지향한다. 특히, 이 목표를 사용해서, p0가 이미지의 정확한 정렬에 대응하는 형상 파라미터이면, F는 다음 식과 같이 되어야 한다.By introducing an appearance model representation, we now begin to train the appearance model of the present technology. In one embodiment, the appearance model may include or consist of an alignment score function used during the model fitting step. First, p can be represented by the shape parameter of a given image representing the current alignment of the shape model of equation (1). In one embodiment, the goal of appearance model learning can be presented as follows: From the classified training data, the score function F (p) is adjusted such that when maximized for p, it is a shape parameter of the correct alignment. We aim to learn. In particular, using this goal, if p 0 is a shape parameter corresponding to the correct alignment of the image, then F should be:

Figure pat00005
(4)
Figure pat00005
(4)

상기 식이 주어지면, F(p)는 그래디언트 상승을 통해 최적화될 수 있다. 즉, F가 미분가능하다는 것을 가정함으로써, 형상 파라미터는 초기 파라미터(p(0))로부터 시작되는 각 정렬 반복으로 반복적으로 업데이트될 수 있으며,Given this equation, F (p) can be optimized through gradient rise. That is, by assuming that F is differential, the shape parameter can be updated repeatedly with each alignment iteration starting from the initial parameter p (0) ,

Figure pat00006
(5)
Figure pat00006
(5)

여기서 λ는 스텝 사이즈이다. k 반복 후에 정렬 프로세스가 수렴될 때, 정렬은 유클리드 거리(

Figure pat00007
)가 미리 정의된 임계값보다 작으면 성공으로 고려된다.Is the step size. When the alignment process converges after k iterations, the alignment is at the Euclidean distance (
Figure pat00007
) Is considered successful if it is less than a predefined threshold.

식 (5)로부터,

Figure pat00008
가 형상 파라미터(p)의 이동 방향을 지시하는 것이 명백하다. 그러한 이동의 최종 목적지가 p0이기 때문에, 이상적인 이동 방향은 p로부터 시작되는 p0를 지적하는 벡터이어야 하며, 그것은
Figure pat00009
로 표시된다:From equation (5),
Figure pat00008
Is obviously indicative of the direction of movement of the shape parameter p. Since the final destination of such movement is p 0 , the ideal direction of movement should be a vector pointing to p 0 starting from p, which is
Figure pat00009
Is indicated by:

Figure pat00010
(6)
Figure pat00010
(6)

유사하게도, 최악의 이동 방향은

Figure pat00011
의 반대 방햐이며, 즉
Figure pat00012
이다. 따라서, 스코어 함수(F)의 습득 동안,
Figure pat00013
는 가능한 한 이상적인 이동 방향(
Figure pat00014
)과 같은, 또는 등가적으로 가능한 한 최악의 이동 방향(
Figure pat00015
)과 같지 않은 방향을 갖는 것이 바람직하다. 특히, 분류자를 정의하면Similarly, the worst direction of travel
Figure pat00011
Is the opposite of
Figure pat00012
to be. Thus, during the acquisition of the score function F ,
Figure pat00013
Is the ideal direction of movement (
Figure pat00014
), Or equivalently, the worst possible direction of movement (
Figure pat00015
It is desirable to have a direction that is not equal to). In particular, if you define a classifier

Figure pat00016
(7)
Figure pat00016
(7)

그것은 2개의 단위 벡터 사이의 내적이고 또한 이 2개의 벡터 사이의 각도의 코사인 응답이며, 이 때 다음 식을 갖는다.It is the cosine response of the inner product between two unit vectors and also the angle between these two vectors, where

Figure pat00017
(8)
Figure pat00017
(8)

실제로, 상기 식에 나타낸 바와 같이 H(p)가 항상 1 또는 -1과 항상 같을 수 있는 것을 예상하는 것은 어렵다. 따라서, H 분류자를 습득하는 목적 함수는 다음식으로 공식화될 수 있으며,Indeed, it is difficult to predict that H ( p ) can always be equal to 1 or -1 as shown in the above formula. Thus, the objective function for learning the H classifier can be formulated as

Figure pat00018
(9)
Figure pat00018
(9)

여기서 단지 이상적인 이동 방향(

Figure pat00019
)은 그것이 또한
Figure pat00020
로부터의 제약을 나타낼 수 있으므로 사용된다. 이제부터,
Figure pat00021
는 명확화를 위해
Figure pat00022
로 단순화될 것이다. 이 목적 함수는 본래 그 그래디언트 방향이 모든 트레이닝 데이터에 대한 모든 가능한 형상 파라미터(p)에서 이상적인 이동 방향에 대해 최소 각도를 갖도록 함수(F)를 추정하는 것을 지향한다.Where only the ideal direction of travel (
Figure pat00019
) It also
Figure pat00020
Used because it can represent constraints from From now on,
Figure pat00021
For clarity
Figure pat00022
Will be simplified. This objective function originally aims to estimate the function F such that the gradient direction has a minimum angle with respect to the ideal direction of movement at all possible shape parameters p for all training data.

일실시예에 있어서, 목적 함수(9)를 최소화하는 해결법은 도 8에 도시된 방식으로 그리고 이하에 기재되는 바와 같이 제공될 수 있다. 우선, 정렬 스코어 함수가 단순한 추가적인 모델을 사용한다고 가정하자:In one embodiment, a solution for minimizing the objective function 9 may be provided in the manner shown in FIG. 8 and as described below. First, suppose that the sort score function uses a simple additional model:

Figure pat00023
(10)
Figure pat00023
(10)

여기서 fi(p)는 직사각형 특징(

Figure pat00024
)에 작용하는 위크 함수이다. 그러므로, F의 그래디언트는 또한 추가적인 형태이다:
Figure pat00025
. 이것을 식 (7)로 결합함으로써, 다음 식을 갖는다:Where f i (p) is a rectangular feature (
Figure pat00024
Is a wick function. Therefore, the gradient of F is also an additional form:
Figure pat00025
. By combining this with Formula (7), it has the following formula:

Figure pat00026
(11)
Figure pat00026
(11)

H 함수가 순환적인 방식으로 기록될 수 있다는 사실이 제공되면, 증분 추정은 목적 함수(9)를 최소화하는데 사용될 수 있다. 즉, 직사각형 특징이 선택될 수 있는 트레이닝 샘블 세트 및 가설 공간을 규정함으로써, 각각의 위크 함수(fi)는 계속적으로 추정될 수 있고 목표 함수(F)로 증분으로 추가될 수 있다. 일실시예의 습득 프로세스의 예시적 부분의 추가적인 상세한 설명이 이하 기재된다.Given the fact that the H function can be recorded in a circular fashion, incremental estimation can be used to minimize the objective function 9. That is, by defining a training sample set and hypothesis space from which rectangular features can be selected, each weak function f i can be estimated continuously and added incrementally to the target function F. Further details of exemplary portions of the learning process of one embodiment are described below.

일실시예의 외형 습득에서, 트레이닝 샘플은 N차원 워프된 이미지(I(W(x;p)))이다. 각각의 얼굴 이미지(Ii)에 대해 수동으로 분류된 랜드마크{si}를 갖는 얼굴 데이터베이스({Ii}i∈[1,K])가 주어지면, 식 (1)은 그라운드 트루스 형상 파라미터(p0 ,i)를 계산한 다음, 랜덤 섭동에 의해 다수의 "부정확한" 형상 파라미터({pj ,i}j∈[1,U])를 합성하기 위해 사용될 수 있다. 이하의 식 (12)는 섭동의 일례를 기재하며, 여기서 ν는 각 요소가 [-1,1] 내에 일정하게 분산된 상태로 n차원 벡터이며, μ는 PDM에서 모든 형상 베이스의 벡터화된 고유값이며, 섭동 지수(σ)는 섭동의 범위를 조절하는 일정한 비율이고, °는 2개의 동일 길이 벡터의 엔트리와이즈 적(entrywise product)을 나타낸다.In one embodiment, the training sample is an N-dimensional warped image I (W (x; p)). Given a face database {I i } i∈ [1, K] with manually classified landmarks {s i } for each face image I i , equation (1) is a ground truss shape parameter. (p 0 , i ) can then be used to synthesize a number of "inaccurate" shape parameters {p j , i } j ∈ [1, U] by random perturbation. Equation (12) below describes an example of perturbation, where v is an n-dimensional vector with each element uniformly distributed within [-1,1], and μ is the vectorized eigenvalue of all shape bases in the PDM. The perturbation index (σ) is a constant ratio that controls the range of perturbation, and ° represents the entrywise product of two equal length vectors.

Figure pat00027
(12)
Figure pat00027
(12)

그 다음, 워프된 이미지I i (W(x; p j , i )) 세트는 습득에 대한 정의 트레이닝 샘플(yi= 1)로 취급될 수 있다. 이상적인 이동 방향과 함께, 이것은 트레이닝 세트를 구성할 수 있다:The warped image I i (W (x; p j , i )) set may then be treated as a defined training sample (y i = 1) for acquisition. Along with the ideal direction of movement, this can constitute a training set:

Figure pat00028
(13)
Figure pat00028
(13)

일실시예에 있어서, 위크 함수(fi)는 다음과 같이 규정된다:In one embodiment, the weak function f i is defined as follows:

Figure pat00029
(14)
Figure pat00029
(14)

여기서, gi=±1이고, 정규화 상수는 fi가 [-1,1]의 범위 내에 있는 것을 보장한다. 이 선택은 수 개의 고려 사항에 기초할 수 있다. 첫번째, fi는 F가 미분가능한 함수인 것을 가정하기 때문에 미분가능해야 한다. 두번째, 각 함수(fi)가 1개의 직사각형 특징(

Figure pat00030
)에만 작용하는 것이 바람직할 수 있다. 평균 형상 공간 내에서, 직사각형 특징의 모든 가능한 위치, 사이즈, 및 타입은 가설 공간(F={α, β, γ, δ, τ})을 형성하며, 그것으로부터 최상의 특징은 각 반복으로 선택될 수 있다.Where g i = ± 1 and the normalization constant ensures that f i is in the range of [-1,1]. This choice can be based on several considerations. First, f i must be differentiable because it assumes F is a differentiable function. Second, each function f i has one rectangular feature (
Figure pat00030
It may be desirable to act only). Within the average shape space, all possible positions, sizes, and types of rectangular features form the hypothesis space F = {α, β, γ, δ, τ}, from which the best feature can be selected for each iteration. have.

정렬 스코어 함수(10)를 습득하는 하나의 절차는 하기의 표의 알고리즘 1로 제공된다:One procedure for learning the alignment score function 10 is provided by Algorithm 1 in the table below:

Figure pat00031
Figure pat00031

또한, 이 알고리즘은 일실시예에 따른 도 8에 전체적으로 도시되어 있으며, 여기서 프로세스(96)는 상기 식 (13)으로부터의 샘플(98) 세트에 기초해서 정렬 스코어 함수를 추정한다.Also, this algorithm is shown overall in FIG. 8 according to one embodiment, where process 96 estimates an alignment score function based on the set of samples 98 from equation (13) above.

특히, 프로세스(96)에서, 정렬 스코어 함수(F)는 블록 100(상기 알고리즘에서의 스텝 1에 대응하는)에서 초기화될 수 있다. 위크 함수(ft)는 상기 알고리즘의 스텝 3에 기재된 방식으로 블록 102에 피팅될 수 있다. 상기 알고리즘에서의 스텝 3은 전체 가설 공간이 철저히 검색되므로 가장 계산적으로 집중적인 스텝인 것이 주목된다. 스텝 3에서, 최상의 특징은 부스팅 기반 습득에서의 위크 분류자의 것보다 오히려 1에 대해 H의 L2 거리에 기초해서 선택된다. 분류자 함수(H)는 블록 104(상기 알고리즘에서의 스텝 4에 대응하는)에서 ft로 업데이트될 수 있고, ft는 블록 106에서 정렬 스코어 함수(F)(상기 알고리즘에서의 스텝 5에 대응하는)에 추가될 수 있다. 알고리즘의 스텝 3-5는 도 8(상기 스텝 2에 대응하는)의 블록 108 및 110 및 리턴 루프 112에 의해 전체적으로 나타낸 바와 같이, 각 t에 대해 반복될 수 있다. 그 종결에서, 프로세스(96)는 블록 114에서의 위크 함수 세트의 합과 같은 정렬 스코어 함수의 추정을 리턴시킬 수 있다.In particular, at process 96, alignment score function F may be initialized at block 100 (corresponding to step 1 in the algorithm above). The weak function f t may be fitted to block 102 in the manner described in step 3 of the algorithm. It is noted that step 3 in the algorithm is the most computationally intensive step since the entire hypothesis space is thoroughly searched. In step 3, the best feature is selected based on the L 2 distance of H relative to 1 rather than the weak classifier in boosting based learning. Classifier function (H) may be updated by f t in block 104 (corresponding to step 4 in the above algorithm), f t corresponds to step 5 in alignment score function (F) (the algorithm in block 106 Can be added). Steps 3-5 of the algorithm may be repeated for each t, as represented entirely by blocks 108 and 110 and return loop 112 of FIG. 8 (corresponding to step 2 above). At the conclusion, process 96 may return an estimate of the alignment score function, such as the sum of the weak function set at block 114.

본질적으로, 스코어 함수(F)을 습득하는 것은 특징{

Figure pat00032
} 세트, 임계값{ti}, 및 특징 사인{gi}을 습득하는 것에 대응한다. 실제 구현에서는, gi=+1, 및 gi=-1를 각각 설정하고 양쪽 경우에 대한 최적 임계값을 추정할 수 있다. 결국 gi는 작은 에러를 갖는 경우에 기초해서 설정될 것이다(식 15). 최적 임계값은 에러가 최소화되도록 특징 값의 범위에서 이진 검색에 의해 추정될 수 있다.In essence, learning the score function F is a feature {
Figure pat00032
} Corresponds to learning a set, a threshold {t i }, and a feature sine {g i }. In a practical implementation, g i = + 1 and g i = −1 can be set respectively and the optimal threshold values for both cases can be estimated. Eventually g i will be set based on the case with small error (Eq. 15). The optimal threshold may be estimated by binary search over a range of feature values to minimize errors.

최종 트리플({(

Figure pat00033
, gi,ti)}i=1,...,m) 세트는, 형상 모델({si}i=1,...,n)과 함께, 여기서 최적 그래디언트 추적 모델(OGPM)로 지칭된다. 일실시예에서 습득 알고리즘에 의해 선택되는 상부 15개의 특징은 도 9 및 10에 도시되어 있다. 특히, 도 9는 습득 알고리즘에 의해 선택되는 상부 5개의 하르 특징(120)의 초상(118)을 제공하고, 도 10은 습득 알고리즘에 의해 선택된 다음 10개의 하르 특징(126)의 초상(124)을 제공한다. 동일 실시예에서의 습득 알고리즘에 의해 선택되는 상부 100개의 하르 특징의 공간 밀도 맵(130)은 도 11에도 제공되어 있다. 다수의 선택된 특징은 얼굴 특징의 경계와 정렬되는 것이 주목된다.Final triple ({(
Figure pat00033
, g i , t i )} i = 1, ..., m ) The set, together with the shape model ({s i } i = 1, ..., n ), is the optimal gradient tracking model (OGPM) It is referred to. The top 15 features selected by the acquisition algorithm in one embodiment are shown in FIGS. 9 and 10. In particular, FIG. 9 provides a portrait 118 of the top five har features 120 selected by the learning algorithm, and FIG. 10 shows a portrait 124 of the next ten har features 126 selected by the learning algorithm. to provide. A spatial density map 130 of the top 100 Har features selected by the acquisition algorithm in the same embodiment is also provided in FIG. It is noted that the number of selected features is aligned with the boundary of the facial feature.

얼굴 정렬Face alignment

일실시예에 있어서, OGPM은 이하에 기재된 방식으로 초기 형상 파라미터(p(0))(0번째 반복에서의)와, 소정 이미지(I)의 얼굴에 피팅될 수 있다. 식 (5)에 도시된 바와 같이, 정렬은 그래디언트 상승 접근법을 사용함으로써 반복적으로 수행될 수 있다. 식(3), (10), 및 (14)로부터, p에 대해 F의 미분계수가 다음 식인 것을 알 수 있으며,In one embodiment, the OGPM may be fitted to the initial shape parameter p (0 ) (in the 0th iteration) and the face of the given image I in the manner described below. As shown in equation (5), the alignment can be performed repeatedly by using a gradient rising approach. From equations (3), (10), and (14), it can be seen that the differential coefficient of F with respect to p is

Figure pat00034
(16)
Figure pat00034
(16)

여기서 ▽I는 W(x;p)에서 평가된 이미지의 그래디언트이고,

Figure pat00035
는 p에서 평가된 워프의 야코비안이다. BAM에 대한
Figure pat00036
의 정렬 절차, 계산 복잡성, 및 효율적인 구현에 관한 논의는 명칭이 "Discriminative Face Alignment"(IEEE Trans. On Pattern Analysis and Machine Intelligence, 31(11):1941-1954, November 2009)인 Xioaming Liu에 의한 간행물에서 발견될 수 있다. 그러나 BAM 기반 피팅과 대조적으로, 본 기술은 간단한 고정 상수라기보다는 오히려 라인 검색을 통해 동적으로 결정되는 스텝 사이즈(λ)를 사용한다. 즉, 각각의 반복에서, 어떤 범위 내의 최적 λ는 업데이트된 형상 파라미터가 현재의 스코어 함수 값(F(p))을 최대로 증가시킬 수 있도록 요구된다.Where ▽ I is the gradient of the image evaluated at W (x; p),
Figure pat00035
Is the Jacobian of warp evaluated at p. For BAM
Figure pat00036
A discussion of the alignment procedure, computational complexity, and efficient implementation of the system is published by Xioaming Liu, entitled "Discriminative Face Alignment" (IEEE Trans.On Pattern Analysis and Machine Intelligence, 31 (11): 1941-1954, November 2009). Can be found in However, in contrast to BAM-based fitting, the technique uses a step size λ that is determined dynamically through line search rather than a simple fixed constant. That is, in each iteration, an optimal lambda within a range is required so that the updated shape parameter can increase the current score function value F (p) to the maximum.

실험 결과Experiment result

이하의 실험 결과는 3개의 공용가능한 데이터베이스, 즉 ND1, FERET, 및 BioID 데이터베이스로부터 964개의 이미지를 포함하는 실험 데이터세트를 사용해서 획득되었다. 964개의 이미지 각각은 33개의 수동 분류 랜드마크를 포함한다. 이 실험을 위해 트레이닝 프로세스를 스피드업하기 위하여, 이미지 세트가 다운 샘플링되어 얼굴 폭이 이 세트에 걸쳐 대략 40 화소가 된다. ND1, FERET, 및 BioID 데이터베이스의 샘플 이미지(134)는 도 12, 13, 및 14에 각각 예시되어 있다. 이하의 표 1에 나타낸 바와 같이, 모든 이미지는 3개의 비중첩 데이터세트로 분할된다. 세트 1은 2개의 데이터베이스로부터 400개의 이미지(피사체 당 1개의 이미지)를 포함했다. 세트 2는 동일 피사체로부터 334개의 이미지를 포함했지만 세트 1에서의 ND1 데이터베이스와 다른 이미지를 포함했다. 세트 3은 트레이닝에서 결코 사용되지 않은 BioID 데이터베이스에서 23개의 피사체로부터 230개의 이미지를 포함했다. 세트 1은 모델 습득에 대한 트레이닝 세트로 사용되었고 모든 3개의 세트는 모델 피팅을 테스트하기 위해 사용되었다. 그러한 분할에 대한 동기는 일반화 능력의 각종 레벨을 실험하는 것이었다. 예를 들어, 세트 2는 보여진 피사체의 보여지지 않은 데이터로 테스트될 수 있고; 세트 3은 보여지지 않은 피사체의 보여지지 않은 데이터-더 도전적인 경우로 테스트되었고 실제 응용에서의 개요와 더 유사했다.The following experimental results were obtained using an experimental dataset comprising 964 images from three public databases, ND1, FERET, and BioID database. Each of the 964 images contains 33 manual classification landmarks. To speed up the training process for this experiment, the image set is down sampled so that the face width is approximately 40 pixels across this set. Sample images 134 of the ND1, FERET, and BioID databases are illustrated in FIGS. 12, 13, and 14, respectively. As shown in Table 1 below, all images are divided into three non-overlapping datasets. Set 1 included 400 images (one image per subject) from two databases. Set 2 included 334 images from the same subject but included different images from the ND1 database in set 1. Set 3 included 230 images from 23 subjects in a BioID database that was never used in training. Set 1 was used as a training set for model acquisition and all three sets were used to test model fitting. The motivation for such a division was to experiment with various levels of generalization capability. For example, set 2 can be tested with unseen data of the visible subject; Set 3 was tested with invisible data—more challenging cases of invisible subjects and more similar to the outline in practical applications.

Figure pat00037
Figure pat00037

이 실험에서, 상술한 OGPM 알고리즘은 2개의 고려 사항에 기초해서 BRM과 비교되었다. 첫번째, OGPM 알고리즘은 BRM의 확장으로 고려될 수 있다. 두번째, BRM이 BAM과 같은 다른 차별적 이미지 정렬 기술을 능가하는 것을 나타냈다. 모델 습득 동안, BRM 및 OGPM 둘 다 세트 1의 400개의 이미지로부터 트레이닝되었다. BRM은 세트 1로부터 합성된 24000(=400×10×6)개의 트레이닝 샘플을 사용했으며, 여기서 각각의 이미지는 10개의 프로파일 라인을 합성했고 각각의 라인은 6개의 규칙적으로 이격된 샘플을 가졌다. 비교해 보면, OGPM은 12000개의 트레이닝 샘플을 사용했으며, 여기서 각각의 이미지는 식 (12)에 따라 30개의 샘플을 합성했다. 보다 소수의 샘플은 모든 합성된 샘플이 BRM에서와 같이 1개의 프로파일 라인으로부터 선택된 다수의 샘플보다는 오히려 랜덤하게 전개되기 때문에 OGPM에 사용될 수 있어, 양호한 성능이 적은 트레이닝 샘플로 달성되게 한다. 세트 1 이미지의 수동 분류 랜드마크는 명칭이 "Face Model Fitting on Low Resolution Images"(In Proc. Of the British Machine Vision Conference(BMVC), vol. 3, pp. 1079-1088, 2006)인 Xiaoming Liu 등에 의한 간행물에 기재된 자동 모델 개선 접근법을 사용하여 개선되었다. 모델 습득 후에, BRM 및 OGPM 둘 다의 형상 모델 성분은 9개의 형상 베이스를 갖는 PDM이었고, 그 외형 모델(즉, 정렬 스코어 함수)은 100개의 약한 분류자/함수를 가졌다.In this experiment, the OGPM algorithm described above was compared with BRM based on two considerations. First, the OGPM algorithm can be considered as an extension of BRM. Secondly, BRM has surpassed other discriminatory image alignment techniques such as BAM. During model acquisition, both BRM and OGPM were trained from 400 images in set 1. The BRM used 24000 (= 400 × 10 × 6) training samples synthesized from set 1, where each image synthesized 10 profile lines and each line had 6 regularly spaced samples. In comparison, OGPM used 12000 training samples, where each image synthesized 30 samples according to equation (12). Fewer samples can be used for OGPM because all synthesized samples are randomly developed rather than multiple samples selected from one profile line as in BRM, resulting in good performance achieved with less training samples. Manual classification landmarks in Set 1 images are described in Xiaoming Liu, entitled "Face Model Fitting on Low Resolution Images" (In Proc. Of the British Machine Vision Conference (BMVC), vol. 3, pp. 1079-1088, 2006). Improvements were made using the automated model improvement approach described in the publication. After model acquisition, the shape model component of both BRM and OGPM was PDM with 9 shape bases, and the appearance model (ie alignment score function) had 100 weak classifiers / functions.

BRM은 워프된 이미지의 정확한 랭킹 쌍에 의해 습득된 스코어 함수의 볼록을 개선하는 것을 지향한다. OGPM은 스코어 함수가 오목일 뿐만 아니라, 그라운드 트루스 형상 파라미터를 지적하는 그래디언트 방향과 벡터 사이의 최소 각도도 가져야 한다는 의미에서 BRM을 확장한다. 따라서, 볼록은 BRM 및 OGPM 둘 다에 대해 스코어 함수를 평가하는 좋은 메트릭이다. BRM과 유사하게, 실험에서의 볼록은 워프된 이미지의 정확한 랭킹 쌍의 퍼센티지를 계산함으로써 측정되었다. 세트 1 및 세트 2가 주어지면, 2개의 각각의 세트 쌍이 합성되었고 BRM 및 OGPM의 랭킹 성능이 테스트되었다. 도 15의 그래프 140에 의해 도시된 바와 같이, 섭동 지수(σ)는 이미지 쌍의 섭동의 양을 제어한다(식 12 참조). 양 세트에 대해, BRM과 다르게, OGPM이 그 목적 함수에 있어서 랭킹을 직접 사용하지 않는다는 사실에도 불구하고 OGPM이 BRM과 매우 유사한 랭킹 성능을 달성했다는 것을 알 수 있다. BRM은 섭동이 매우 작을(σ=1) 때 약간 더 좋은 성능을 나타냈다. 그러나, 이것은 분류된 랜드마크의 작은 섭동이 꽤 좋은 정렬로도 취급될 수 있으므로 트레이닝 데이터에서 에러의 분류로 대개 돌려질 수 있어, 그것은 랭킹을 더 어렵게 한다고 생각된다.The BRM aims to improve the convexity of the score function learned by the correct ranking pairs of warped images. OGPM extends BRM in the sense that the score function should not only be concave, but also have a minimum angle between the vector and the gradient direction pointing to the ground truss shape parameter. Thus, convex is a good metric for evaluating the score function for both BRM and OGPM. Similar to BRM, the convex in the experiment was measured by calculating the percentage of the exact ranking pair of warped images. Given Set 1 and Set 2, two respective pairs of sets were synthesized and the ranking performance of BRM and OGPM was tested. As shown by graph 140 of FIG. 15, the perturbation index σ controls the amount of perturbation of the image pair (see Equation 12). For both sets, it can be seen that, unlike BRM, OGPM has achieved ranking performance very similar to BRM despite the fact that OGPM does not directly use ranking in its objective function. BRM showed slightly better performance when the perturbation was very small (σ = 1). However, this can be largely attributed to the classification of errors in the training data as a small perturbation of the classified landmarks can be treated as a fairly good alignment, which makes the ranking more difficult.

볼록 측정에 더하여, 그라운드 트루스 형상 파라미터를 지적하는 그래디언트 방향과 벡터 사이의 각도의 추정을 또한 확인했다. 이 각도의 최소화는 H(p) 함수에 의해 표현되는 바와 같이 OGPM의 목적 함수이다. 상술한 랭킹 실험과 유사하게, 세트 1이 주어지면, 각종 섭동 지수(σ)를 사용해서 6개의 워프된 이미지 세트를 랜덤하게 합성했다. 그 다음, 세트 내의 각 이미지에 대해서는, H(p) 스코어를 계산했고, 도 16의 그래프 150에서 각 세트의 평균 스코어를 작성했다. 유사한 실험은 세트 2에 대해서도 행해졌다. OGPM 및 BRM이 유사한 랭킹 성능을 가질지라도, OGPM은 세트 1 및 2 둘 다에 대해 큰 함수 스코어 및 그에 따라 작은 그래디언트 각도를 달성한다. 이것은 BRM에 의해 행해지는 바와 같이 목적으로 랭킹 성능을 사용하는 것이 최적 각도 추정을 보장하지 못하고, OGPM에 의해 행해지는 바와 같이 목적 함수로 그래디언트 각도를 직접 사용하는 것이 더 좋은 정렬 스코어 함수를 얻는데 사용될 수 있는 것을 증명한다.In addition to the convex measurements, we also confirmed the estimation of the angle between the gradient direction and the vector indicating the ground truss shape parameters. Minimization of this angle is the objective function of the OGPM, as represented by the H (p) function. Similar to the ranking experiments described above, given set 1, six warped image sets were randomly synthesized using various perturbation indices σ. Then, for each image in the set, the H (p) score was calculated, and the average score of each set was made in graph 150 of FIG. Similar experiments were done for set 2. Although OGPM and BRM have similar ranking performance, OGPM achieves large function scores and therefore small gradient angles for both sets 1 and 2. This can be used to obtain better alignment score function using the gradient angle directly with the objective function, as done by OGPM, using the ranking performance for the purpose as done by BRM, as done by OGPM. Prove it is.

Figure pat00038
Figure pat00038

정렬 실험에서, 모델 피팅 알고리즘은 다수의 초기 랜드마크를 갖는 각 이미지 상에 실행되었고 정렬 결과가 평가되었다. 초기 랜드마크는 식 (12)를 사용하여, 즉 범위가 PDM 트레이닝 동안 형상 베이시스의 고유값의 다수(σ)와 같은 독립적으로 일정한 분포에 의해 그라운드 트루스 랜드마크를 랜덤하게 섭동함으로써 생성되었다. 이미지 상의 피팅이 종결되면, 정렬 성능은 정렬된 랜드마크와 그라운드 트루스 랜드마크 사이의 결과적인 평균 제곱 에러(RMSE)에 의해 측정되었다.In the alignment experiments, a model fitting algorithm was run on each image with multiple initial landmarks and the alignment results were evaluated. Initial landmarks were generated by using equation (12), ie, randomly perturbing the ground truss landmarks by a range that was independently constant such that the range was a large number (?) Of the eigenvalues of the shape basis during PDM training. Once the fitting on the image was terminated, the alignment performance was measured by the resulting mean square error (RMSE) between the aligned landmark and the ground truss landmark.

OGPM 및 BRM 둘 다 사용해서 모든 3개의 세트에 대한 정렬 실험을 행했다. 상기 표 2는 화소에 관한 RMSE 결과를 나타내며, 각 요소는 1개의 특정 섭동 지수(σ)에서 2000 이상의 시험의 평균이다. 따라서, 세트 1, 2, 및 3에서의 각 이미지는 5개, 6개, 및 9개의 랜덤 시험 각각으로 테스트되었다. OGPM 및 BRM은 동일 조건 하에 테스트되었다. 예를 들어, 양 알고리즘은 동일한 랜덤 시험으로 초기화되었고 종결 조건은 또한 동일했다. 즉, 정렬 반복은 정렬 스코어(F(p))가 더 증가될 수 없으면 종료되었거나, 연속 반복들 사이의 랜드마크 차이(RMSE)는 현재 설명되는 실험에서 0.05 화소와 같은 미리 정의된 임계값보다 작았다.Alignment experiments were performed for all three sets using both OGPM and BRM. Table 2 above shows the RMSE results for the pixels, each element being the average of more than 2000 tests at one particular perturbation index σ. Thus, each image in sets 1, 2, and 3 was tested with 5, 6, and 9 random tests, respectively. OGPM and BRM were tested under the same conditions. For example, both algorithms were initialized with the same random test and the termination conditions were also the same. That is, the alignment iterations ended if the alignment score F (p) could not be further increased, or the landmark difference RMSE between successive iterations was less than a predefined threshold such as 0.05 pixels in the presently described experiment. All.

표 2로부터, 모든 3개의 세트에 대해서는, OGPM이 BRM보다 더 좋은 정렬 성능을 달성할 수 있었던 것을 알 수 있다. 성능 이득은 초기 섭동이 σ=6 또는 8과 같이 비교적 크며, 그것은 실제 응용에서 가장 도전적인 경우인 것에 주목하라. 테스트 이미지가 매우 낮은 해상도이었다는 사실이 주어지면, 이것은 실질적인 성능 개선을 나타낸다. 3개의 데이터 세트 중에서 비교하면, 트레이닝 세트(세트 1)에서의 성능 이득은 다른 2개의 데이터 세트에 비해서 컸다.From Table 2, it can be seen that for all three sets, OGPM was able to achieve better alignment performance than BRM. Note that the performance gain is relatively large, with initial perturbations such as σ = 6 or 8, which is the most challenging case in practical applications. Given the fact that the test image was of very low resolution, this represents a substantial performance improvement. Comparing among the three data sets, the performance gain in the training set (set 1) was greater than the other two data sets.

작은 그래디언트 각도 중 하나의 장점은 정렬 동안 적은 반복으로 수렴하는 능력이다. 도 17에서, OGPM 및 BRM이 σ=8일 때 세트 3에 수렴하기 위해 실험에 필요한 반복의 수를 도시하는 히스토그램(160)이 제공된다. 평균하여, OGPM은 BRM보다 더 빠르게 수렴할 수 있는 것을 알 수 있다. 이 실험에서, OGPM의 반복 평균 수는 5.47인 한편, BRM의 것은 6.40이었다. 유사하게도, 세트 1에 대해서는, σ=8일 때 OGPM의 반복 평균 수는 5.08이었고, BRM의 것은 6.09이었다.One advantage of small gradient angles is the ability to converge with less iterations during alignment. In FIG. 17, a histogram 160 is provided that shows the number of iterations required for the experiment to converge to set 3 when OGPM and BRM are σ = 8. On average, it can be seen that OGPM can converge faster than BRM. In this experiment, the repeat average number of OGPM was 5.47, while that of BRM was 6.40. Similarly, for set 1, the repeat average number of OGPMs when σ = 8 was 5.08 and that of BRM was 6.09.

본 명세서에 기재된 이미지 정렬 기술은 원하는 결과를 달성하기 위해 다수의 다른 처리 기술과 함께 사용될 수 있다. 예컨대, 일실시예에 따른 도 18에 전체적으로 도시된 바와 같이, 개시된 이미지 정렬 기술은 얼굴 분석 프로세스 170에 사용될 수 있다. 일례로서, 그러한 프로세스 170은 블록 172 및 174에 의해 전체적으로 도시된 바와 같이, 이미지를 수신하는 것 및 이미지에서 1개 이상의 얼굴을 검출하는 것을 포함할 수 있다. 검출된 얼굴은 블록 176에 의해 전체적으로 도시된 바와 같이, 예컨대 현재 개시된 기술에 의해 정렬될 수 있다. 그 다음, 정렬된 얼굴은 블록 178에서, 예컨대 이 정렬된 얼굴을 참조 데이터와 비교하여 이미지에서 사람을 식별하는 얼굴 인식 또는 자세 추정에 대해 분석될 수 있다.The image alignment techniques described herein can be used with a number of other processing techniques to achieve the desired result. For example, as shown entirely in FIG. 18, in accordance with one embodiment, the disclosed image alignment technique may be used in face analysis process 170. As one example, such process 170 can include receiving an image and detecting one or more faces in the image, as shown entirely by blocks 172 and 174. The detected faces may be aligned, such as by the presently disclosed technique, as shown entirely by block 176. The aligned face may then be analyzed at block 178, for example, for face recognition or pose estimation that identifies the person in the image by comparing the aligned face with reference data.

최종적으로, 본 명세서에 기재된 기능성(예를 들어, 이미지 검출, 정렬, 및 분석)은 컴퓨터와 같은 프로세서 기반 시스템에 의해 수행될 수 있는 것이 주목된다. 그러한 시스템의 예는 일실시예에 따른 도 19에 제공되어 있다. 도시된 프로세서 기반 시스템(184)은 여기에 기재된 기능성의 모두 또는 일부를 구현하는 소프트웨어를 포함하는 각종 소프트웨어를 실행하도록 구성된 개인용 컴퓨터와 같은 범용 컴퓨터일 수 있다. 대안으로, 프로세서 기반 시스템(184)은 그 중에서도 시스템의 일부로서 제공되는 특화된 소프트웨어 및/또는 하드웨어에 기초해서 본 기술의 모두 또는 일부를 구현하도록 구성된 메인프레임 컴퓨터, 분산 컴퓨팅 시스템, 또는 응용 주문형 컴퓨터나 워크스테이션을 포함할 수 있다. 게다가, 프로세서 기반 시스템(184)은 현재 개시된 기능성의 구현을 용이하게 하기 위해 단일 프로세서 또는 복수의 프로세서를 포함할 수 있다.Finally, it is noted that the functionality described herein (eg, image detection, alignment, and analysis) may be performed by a processor based system such as a computer. An example of such a system is provided in FIG. 19 according to one embodiment. The processor-based system 184 shown may be a general purpose computer, such as a personal computer, configured to execute various software, including software that implements all or part of the functionality described herein. In the alternative, the processor-based system 184 may include a mainframe computer, distributed computing system, or application specific computer configured to implement all or a portion of the present technology based, among other things, on specialized software and / or hardware provided as part of the system. It can include a workstation. In addition, processor-based system 184 may include a single processor or multiple processors to facilitate the implementation of the presently disclosed functionality.

통상, 프로세서 기반 시스템(184)은 시스템(184)의 각종 루틴 및 처리 기능을 실행할 수 있는 중앙 처리 유닛(CPU)과 같은 마이크로컨트롤러 또는 마이크로프로세서(186)를 포함할 수 있다. 예를 들어, 마이크로프로세서(186)는 어떤 프로세스를 달성하도록 구성된 소프트웨어 루틴뿐만 아니라 각종 운영 시스템 명령을 실행할 수 있다. 루틴은 메모리(188)(예를 들어, 개인용 컴퓨터의 랜덤 액세스 메모리(RAM)) 또는 1개 이상의 대용량 저장 장치(190)(예를 들어, 내부 또는 외부 하드 드라이브, 고체 상태 저장 장치, 광 디스크, 자기 저장 장치, 또는 어떤 다른 적당한 저장 장치)와 같은 1개 이상의 비일시적인 컴퓨터 판독가능 매체를 포함하는 제조품에 저장되거나 이 제조품에 의해 제공될 수 있다. 또한, 마이크로프로세서(186)는 컴퓨터 기반 구현에서 본 기술의 일부로 제공되는 데이터와 같은 각종 루틴 또는 소프트웨어 프로그램에 대한 입력으로 제공되는 데이터를 처리한다.In general, processor-based system 184 may include a microcontroller or microprocessor 186, such as a central processing unit (CPU), that may execute various routines and processing functions of system 184. For example, the microprocessor 186 may execute various operating system instructions as well as software routines configured to accomplish certain processes. The routine may include memory 188 (e.g., random access memory (RAM) in a personal computer) or one or more mass storage devices 190 (e.g., internal or external hard drive, solid state storage, optical disk, Magnetic storage device, or any other suitable storage device), or may be stored in or provided by an article of manufacture including one or more non-transitory computer readable media. Microprocessor 186 also processes data provided as input to various routines or software programs, such as data provided as part of the present technology in computer-based implementations.

그러한 데이터는 메모리(188) 또는 대용량 저장 장치(190)에 저장되거나 이들에 의해 제공될 수 있다. 대안으로, 그러한 데이터는 1개 이상의 입력 장치(192)를 통해 마이크로프로세서(186)에 제공될 수 있다. 입력 장치(192)는 키보드, 마우스 등과 같은 수동 입력 장치를 포함할 수 있다. 또한, 입력 장치(192)는 네트워크 근거리 통신망 또는 인터넷과 같은 어떤 적당한 통신 네트워크(198)를 통해 다른 장치와의 통신을 용이하게 하도록 구성된 유선 또는 무선 이더넷 카드, 무선 네트워크 어댑터, 또는 어떤 각종 포트나 장치와 같은 네트워크 장치를 포함할 수 있다. 그러한 네트워크 장치를 통해, 시스템(184)은 시스템(184)에 근접하든 이 시스템으로부터 떨어져 있든 데이터를 교환하고 다른 네트워킹 전자 시스템과 통신할 수 있다. 네트워크(198)는 스위치, 라우터, 서버나 다른 컴퓨터, 네트워크 어댑터, 통신 케이블 등을 구비한 통신을 용이하게 하는 각종 구성요소를 포함할 수 있다.Such data may be stored in or provided by memory 188 or mass storage device 190. In the alternative, such data may be provided to the microprocessor 186 through one or more input devices 192. The input device 192 may include a manual input device such as a keyboard, a mouse, or the like. Input device 192 may also be a wired or wireless Ethernet card, wireless network adapter, or any of a variety of ports or devices configured to facilitate communication with other devices via any suitable communication network 198, such as a network local area network or the Internet. It may include a network device such as. Through such a network device, system 184 can exchange data and communicate with other networking electronic systems, whether in proximity to or away from system 184. The network 198 may include various components that facilitate communication with switches, routers, servers or other computers, network adapters, communication cables, and the like.

1개 이상의 저장된 루틴에 따른 데이터를 처리함으로써 얻어지는 결과와 같은 마이크로프로세서(186)에 의해 생성되는 결과는 디스플레이(194) 또는 프린터(196)와 같은 1개 이상의 출력 장치를 통해 운영자에게 제공될 수 있다. 표시되거나 인쇄된 출력에 기초해서, 운영자는 입력 장치(192)를 통해서와 같이 추가적 또는 선택적 처리를 요청하고 추가적 또는 선택적 데이터를 제공할 수 있다. 프로세서 기반 시스템(184)의 각종 구성요소들 사이의 통신은 시스템(184)의 구성요소를 전기적으로 접속하는 칩셋 및 1개 이상의 버스 또는 상호접속을 통해 달성될 수 있다.Results generated by the microprocessor 186, such as results obtained by processing data in accordance with one or more stored routines, may be provided to the operator through one or more output devices, such as display 194 or printer 196. . Based on the displayed or printed output, the operator may request additional or optional processing and provide additional or optional data, such as through input device 192. Communication between the various components of the processor-based system 184 may be accomplished through a chipset and one or more buses or interconnects that electrically connect the components of the system 184.

본 발명의 기술적 효과는 얼굴 및 비얼굴 이미지 정렬에 대한 속도, 효율, 및 정확도의 개선을 포함한다. 본 발명의 어떤 특징만이 여기에 예시되고 기재되었을지라도, 다수의 수정 및 변경은 당업자에게 떠오를 것이다. 그러므로, 첨부된 청구범위는 본 발명의 진정한 정신 이내에 있는 바와 같이 모든 그러한 수정 및 변경을 커버하도록 의도되는 것이 이해되어야 한다.Technical effects of the present invention include improvements in speed, efficiency, and accuracy for face and non-face image alignment. Although only certain features of the invention have been illustrated and described herein, many modifications and variations will occur to those skilled in the art. Therefore, it is to be understood that the appended claims are intended to cover all such modifications and variations as fall within the true spirit of the invention.

Claims (20)

사람의 얼굴 이미지를 획득하는 단계와,
시스템의 프로세서에 의해 실행되는 소프트웨어를 통하여, 상기 얼굴 이미지의 얼굴 특징의 위치 결정을 용이하게 하기 위해 상기 얼굴 이미지에 제네릭 얼굴 메쉬를 정렬시키는 차별적 얼굴 정렬 모델을 사용하되, 상기 차별적 얼굴 정렬 모델은 생성 형상 모델 성분 및 차별적 외형 모델 성분을 포함하고, 상기 차별적 외형 모델 성분은 소정 이미지의 형상 파라미터의 함수이고 상기 형상 파라미터에 대한 스코어 함수의 그래디언트 방향과 상기 형상 파라미터에 대한 이상적인 정렬 이동 방향 사이의 각도를 최소화하는 스코어 함수를 추정하기 위해 트레이닝 데이터로 트레이닝되는 단계를 포함하는
방법.
Obtaining a face image of a person,
Through software executed by a system processor, a differential face alignment model is used that aligns a generic face mesh to the face image to facilitate positioning of facial features of the face image, wherein the differential face alignment model is generated. A shape model component and a differential appearance model component, the differential appearance model component being a function of a shape parameter of a given image and determining the angle between the gradient direction of the score function for the shape parameter and the ideal alignment movement direction for the shape parameter. Training with training data to estimate a score function to minimize
Way.
제 1 항에 있어서,
상기 차별적 외형 모델 성분은 다음 식으로 규정된 목적 함수를 통해 상기 스코어 함수를 추정하도록 트레이닝 데이터로 트레이닝되고,
Figure pat00039

상기 트레이닝 데이터의 모든 형상 파라미터(p)에 대해서는, F는 상기 스코어 함수이고,
Figure pat00040
는 상기 그래디언트 방향 및 상기 이상적인 정렬 이동 방향을 각각 나타내는 2개의 단위 벡터 사이의 내적과 같은 분류자인
방법.
The method of claim 1,
The differential appearance model component is trained with training data to estimate the score function through an objective function defined by the following equation,
Figure pat00039

For all shape parameters p of the training data, F is the score function,
Figure pat00040
Is a classifier such as a dot product between two unit vectors, each representing the gradient direction and the ideal alignment movement direction.
Way.
제 2 항에 있어서,
상기 목적 함수를 최소화하는 것은 각각의 단일 직사각형 얼굴 특징에 각각 작용하는 위크 함수를 합산하는 단계를 포함하는
방법.
3. The method of claim 2,
Minimizing the objective function includes summing a weak function each acting on each single rectangular face feature
Way.
제 1 항에 있어서,
상기 프로세서에 의해 실행되는 추가 소프트웨어를 통한 정렬 후에 상기 얼굴 이미지에 얼굴 인식을 수행하는 단계를 포함하는
방법.
The method of claim 1,
Performing face recognition on the face image after alignment through additional software executed by the processor.
Way.
제 1 항에 있어서,
상기 사람의 얼굴 이미지를 획득하는 단계는 상기 사람의 얼굴을 검출하기 위해 이미지 데이터를 분석하는 단계를 포함하는
방법.
The method of claim 1,
Acquiring the face image of the person includes analyzing image data to detect the face of the person.
Way.
제 1 항에 있어서,
상기 트레이닝 데이터로 상기 차별적 외형 모델을 트레이닝하는 단계를 포함하는
방법.
The method of claim 1,
Training the differential appearance model with the training data;
Way.
제 6 항에 있어서,
그래디언트 상승을 통해 상기 스코어 함수를 최적화하는 단계를 포함하는
방법.
The method according to claim 6,
Optimizing the score function through gradient rise
Way.
제 6 항에 있어서,
복수의 얼굴 이미지의 각 얼굴 이미지에 대한 그라운드 트루스 형상 파라미터를 계산하는 단계와,
상기 그라운드 트루스 형상 파라미터의 랜덤 섭동(perturbation)에 의해 각 얼굴 이미지에 대한 다수의 변경된 형상 파라미터를 합성하는 단계를 포함하는 방법.
The method according to claim 6,
Calculating ground truss shape parameters for each face image of the plurality of face images;
Synthesizing a plurality of modified shape parameters for each face image by random perturbation of the ground truss shape parameters.
제 8 항에 있어서,
상기 트레이닝 데이터는 상기 변경된 형상 파라미터에 기초한 워프된 이미지 세트, 및 상기 워프된 이미지에 대한 이상적인 이동 방향을 포함하는
방법.
The method of claim 8,
The training data includes a warped image set based on the modified shape parameter, and an ideal direction of movement for the warped image.
Way.
복수의 루틴이 저장된 메모리 장치와,
상기 메모리 장치에 저장된 상기 복수의 루틴을 실행하도록 구성되는 프로세서를 포함하되,
상기 복수의 루틴은,
트레이닝 이미지 세트에 액세스하도록 구성된 루틴과,
정렬 스코어 함수의 그래디언트 방향과 원하는 정렬에 대한 이상적인 이동 방향 사이의 각도를 최소화하는 정렬 스코어 함수를 습득하기 위해 상기 트레이닝 이미지 세트를 사용하여 외형 모델을 트레이닝하도록 구성된 루틴을 포함하는
시스템.
A memory device in which a plurality of routines are stored;
A processor configured to execute the plurality of routines stored in the memory device,
The plurality of routines,
A routine configured to access a set of training images,
A routine configured to train an appearance model using the set of training images to learn an alignment score function that minimizes the angle between the gradient direction of the alignment score function and the ideal direction of movement for the desired alignment.
system.
제 10 항에 있어서,
상기 복수의 루틴은,
상기 트레이닝 이미지 세트의 각 이미지에 대한 그라운드 트루스 형상 파라미터를 결정하도록 구성된 루틴과,
상기 그라운드 트루스 형상 파라미터로부터 벗어나는 복수의 형상 파라미터를 합성하도록 구성된 루틴을 포함하는
시스템.
11. The method of claim 10,
The plurality of routines,
A routine configured to determine ground truss shape parameters for each image of the training image set;
A routine configured to synthesize a plurality of shape parameters deviating from the ground truss shape parameters;
system.
제 11 항에 있어서,
상기 복수의 형상 파라미터를 합성하도록 구성된 루틴은 랜덤 섭동을 통해 상기 복수의 형상 파라미터를 합성하도록 구성된 루틴을 포함하는
시스템.
The method of claim 11,
The routine configured to synthesize the plurality of shape parameters includes a routine configured to synthesize the plurality of shape parameters via random perturbation.
system.
제 10 항에 있어서,
상기 외형 모델을 트레이닝하도록 구성된 루틴은 상기 정렬 스코어 함수를 초기화하고, 단일 직사각형 특징에 작용하는 복수의 위크 함수를 반복적으로 추정하고, 상기 정렬 스코어 함수에 상기 복수의 위크 함수의 추정을 증분적으로 추가함으로써 상기 정렬 스코어 함수를 습득하는 루틴을 포함하는
시스템.
11. The method of claim 10,
A routine configured to train the appearance model initializes the alignment score function, iteratively estimates a plurality of weak functions that operate on a single rectangular feature, and incrementally adds an estimate of the plurality of weak functions to the alignment score function. A routine for learning the alignment score function by
system.
제 13 항에 있어서,
상기 복수의 위크 함수를 반복적으로 추정하는 것은 1에 대하여 분류자 함수의 최소 제곱 거리에 기초해서 상기 복수의 위크 함수의 상기 위크 함수를 피팅하는 것을 포함하는
시스템.
The method of claim 13,
Iteratively estimating the plurality of weak functions includes fitting the weak functions of the plurality of weak functions based on the least square distance of the classifier function with respect to one.
system.
제 10 항에 있어서,
상기 트레이닝 이미지 세트는 얼굴 이미지 세트를 포함하고, 상기 트레이닝 이미지 세트에 액세스하도록 구성된 루틴은 상기 얼굴 이미지 세트에 액세스하도록 구성된 루틴을 포함하고, 상기 트레이닝 이미지 세트를 사용하여 상기 외형 모델을 트레이닝하도록 구성된 루틴은 상기 얼굴 이미지 세트를 사용하여 상기 외형 모델을 트레이닝하도록 구성된 루틴을 포함하는
시스템.
11. The method of claim 10,
The training image set includes a set of face images, and the routine configured to access the training image set includes a routine configured to access the face image set, and the routine configured to train the appearance model using the training image set. Includes a routine configured to train the appearance model using the face image set
system.
제 10 항에 있어서,
상기 메모리 장치는 광 디스크, 랜덤 액세스 메모리, 또는 하드 드라이브 중 적어도 1개를 포함하는
시스템.
11. The method of claim 10,
The memory device includes at least one of an optical disk, a random access memory, or a hard drive.
system.
실행가능 명령이 저장되는 1개 이상의 비일시적인 컴퓨터 판독가능 매체를 포함하되,
상기 실행가능 명령은,
인간 얼굴을 포함하는 이미지에 액세스하도록 된 명령과,
정렬 스코어 함수의 그래디언트 방향과 상기 정렬 스코어 함수의 최대 방향으로 지시되는 벡터 사이의 각도를 최소화하는 정렬 스코어 함수를 추정하기 위해 트레이닝된 차별적 외형 모델을 포함하는 차별적 얼굴 정렬 모델을 사용하여 상기 인간 얼굴을 정렬하도록 된 명령을 구비하는
제조품.
One or more non-transitory computer readable media having executable instructions stored thereon;
The executable instruction is
Instructions to access an image containing a human face,
The human face may be modified using a differential face alignment model that includes a differential appearance model trained to estimate an alignment score function that minimizes the angle between the gradient direction of the alignment score function and the vector indicated in the maximum direction of the alignment score function. With instructions to align
Manufactured goods.
제 17 항에 있어서,
상기 1개 이상의 비일시적인 컴퓨터 판독가능 매체는 적어도 집합적으로 상기 실행가능 명령이 저장된 복수의 비일시적인 컴퓨터 판독가능 매체를 포함하는
제조품.
The method of claim 17,
The one or more non-transitory computer readable media includes a plurality of non-transitory computer readable media having at least collectively stored therein the executable instructions.
Manufactured goods.
제 17 항에 있어서,
상기 1개 이상의 비일시적인 컴퓨터 판독가능 매체는 광 디스크, 자기 디스크, 고체 상태 장치, 또는 일부 조합을 포함하는
제조품.
The method of claim 17,
The one or more non-transitory computer readable media includes an optical disk, magnetic disk, solid state device, or some combination thereof.
Manufactured goods.
제 17 항에 있어서,
상기 1개 이상의 비일시적인 컴퓨터 판독가능 매체는 컴퓨터의 랜덤 액세스 메모리를 포함하는
제조품.
The method of claim 17,
The one or more non-transitory computer readable media includes random access memory of a computer.
Manufactured goods.
KR1020120044497A 2012-04-27 2012-04-27 Optimal gradient pursuit for image alignment KR20130121360A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120044497A KR20130121360A (en) 2012-04-27 2012-04-27 Optimal gradient pursuit for image alignment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120044497A KR20130121360A (en) 2012-04-27 2012-04-27 Optimal gradient pursuit for image alignment

Publications (1)

Publication Number Publication Date
KR20130121360A true KR20130121360A (en) 2013-11-06

Family

ID=49851609

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120044497A KR20130121360A (en) 2012-04-27 2012-04-27 Optimal gradient pursuit for image alignment

Country Status (1)

Country Link
KR (1) KR20130121360A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242249B2 (en) 2014-11-19 2019-03-26 Samsung Electronics Co., Ltd. Method and apparatus for extracting facial feature, and method and apparatus for facial recognition
CN111581412A (en) * 2020-06-10 2020-08-25 腾讯科技(深圳)有限公司 Method, device and equipment for constructing human face shape library and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070292049A1 (en) * 2006-04-14 2007-12-20 Xiaoming Liu Method of combining images of multiple resolutions to produce an enhanced active appearance model
US20080310759A1 (en) * 2007-06-12 2008-12-18 General Electric Company Generic face alignment via boosting
US20100214288A1 (en) * 2009-02-25 2010-08-26 Jing Xiao Combining Subcomponent Models for Object Image Modeling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070292049A1 (en) * 2006-04-14 2007-12-20 Xiaoming Liu Method of combining images of multiple resolutions to produce an enhanced active appearance model
US20080310759A1 (en) * 2007-06-12 2008-12-18 General Electric Company Generic face alignment via boosting
US20100214288A1 (en) * 2009-02-25 2010-08-26 Jing Xiao Combining Subcomponent Models for Object Image Modeling

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
OPTIMAL GRADIENT PURSUIT FOR IMAGE ALIGNMENT(2011.03) *
Xiaoming Liu, "Optimal Gradient Pursuit for Face Alignment", IEEE Conferences, Face and Gesture 2011, Year: 2011, Pages: 245 - 251. *
Xiaoming Liu, "Optimal Gradient Pursuit for Face Alignment", IEEE Conferences, Face and Gesture 2011, Year: 2011, Pages: 245-251. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242249B2 (en) 2014-11-19 2019-03-26 Samsung Electronics Co., Ltd. Method and apparatus for extracting facial feature, and method and apparatus for facial recognition
CN111581412A (en) * 2020-06-10 2020-08-25 腾讯科技(深圳)有限公司 Method, device and equipment for constructing human face shape library and storage medium
CN111581412B (en) * 2020-06-10 2023-11-10 腾讯科技(深圳)有限公司 Method, device, equipment and storage medium for constructing face shape library

Similar Documents

Publication Publication Date Title
US8768100B2 (en) Optimal gradient pursuit for image alignment
Prince et al. Probabilistic models for inference about identity
US10380413B2 (en) System and method for pose-invariant face alignment
Liang et al. Face alignment via component-based discriminative search
Jiang et al. Robust feature matching for remote sensing image registration via linear adaptive filtering
US7711156B2 (en) Apparatus and method for generating shape model of object and apparatus and method for automatically searching for feature points of object employing the same
CN106570480B (en) A kind of human action classification method based on gesture recognition
JP2003108981A (en) Method and computer program product for locating facial features
JP2011022994A (en) Pattern processing device, method therefor, and program
US9158963B2 (en) Fitting contours to features
Efraty et al. Facial landmark detection in uncontrolled conditions
US9202138B2 (en) Adjusting a contour by a shape model
JP5953097B2 (en) Pursuit of optimum gradient for image alignment
Taron et al. Registration with uncertainties and statistical modeling of shapes with variable metric kernels
Cheung et al. On deformable models for visual pattern recognition
Seshadri et al. An analysis of the sensitivity of active shape models to initialization when applied to automatic facial landmarking
Sang et al. Robust non-rigid point registration based on feature-dependant finite mixture model
Tong et al. Semi-supervised facial landmark annotation
Su Statistical shape modelling: automatic shape model building
KR20130121360A (en) Optimal gradient pursuit for image alignment
Lu et al. Active shape model and its application to face alignment
Li et al. An efficient robust eye localization by learning the convolution distribution using eye template
Chou et al. A robust real-time facial alignment system with facial landmarks detection and rectification for multimedia applications
Turmukhambetov et al. Modeling object appearance using context-conditioned component analysis
Dai et al. Boosting feature matching accuracy with pairwise affine estimation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application