CN108121994B

CN108121994B - 在检测目标形状中进行特征提取的方法和装置

Info

Publication number: CN108121994B
Application number: CN201611080653.0A
Authority: CN
Inventors: 陈存建; 黄耀海; 赵东悦
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2021-12-14
Anticipated expiration: 2036-11-30
Also published as: CN108121994A

Abstract

本申请涉及检测目标形状中进行特征提取的方法和装置。通过本申请的方法，首先为各个特征点生成子区域，然后计算各个子区域的代表性得分，以构成子区域代表性得分表。子区域代表性得分表被进一步转换为两类表示子区域映射表。此后，基于子区域映射表从所选择的子区域中提取子区域特征缩减集。最后，通过经由后续阶段使用子区域特征缩减集预测形状来计算所有特征点的最终位置。本申请可以提高脸部特征点检测的速度并保持准确度。

Description

在检测目标形状中进行特征提取的方法和装置

技术领域

本申请总体上涉及对象形状对准，更具体地涉及创建用于检测脸部特征点的“监督缩减特征”的特征提取方法。

背景技术

基于回归的脸部对准通常依赖于对特征与形状增量之间的回归模型进行学习。形状增量的计算需要提取整个子区域特征集。标题为“Speeded-Up Robust Features(SURF)”(“加速鲁棒特征”)的文章(Herbert Bay,Andreas Ess,Tinne Tuytelaars and Luc VanGool,Speeded-Up Robust Features(SURF),Computer Vision and ImageUnderstanding,Volume 110,page 346–359,2008)公开了一种特征提取方法，其提取关注点上的整个子区域特征集。在该方法中，如图1所示，提取脸部图像中要检测的特定数量的特征点。然后，作出以各个特征点为中心的区域，例如，101-115是以特征点为中心的区域。接下来，将各个区域进一步划分成固定数量的子区域；其中从被称为子特征的各个子区域中提取预定数量的子区域特征。

假设特定的特征点数为M，则相应的区域数为M；并且，假设由各个区域所划分的子区域的固定数量为N，从各个子区域提取的子特征的预定数量为K。因此，在特定的阶段，提取的子区域特征集的总数是M×N×K，其中M、N和K是正整数，M、N和K＞＞1。

根据Herbert Bay的文章的SURF方法，我们取使用SURF描述符的特征提取为例。假设在20×20像素的一个特征点中，即，M＝1；以特征点为中心的区域被划分为4×4个子区域，则各个子区域为5×5像素，N＝4×4＝16。假设从各个子区域提取4个子特征，即K＝4。如图2所示，其中，201表示20×20像素的区域，202表示5×5像素的子区域。然后，根据求和方法连接4个子特征以形成给定区域的特征向量(如图2的虚线部分所示)。其中，dx表示沿着x方向的梯度，dy表示沿着y方向的梯度，DX表示沿着x方向的梯度的和，DY表示沿着y方向的梯度的和。提取的子区域集的总数为M×N×K＝1×16×4＝64。

然而，使用SURF的现有技术具有缺点，即，在对象形状检测期间提取整个子区域特征集是耗时的。例如，子区域的总数是特征点的数量(M)和子区域的数量(N)的乘积。要提取的子区域特征的数量随着M和N的数量增加而增加。例如，用于15个特征点的特征提取时间从0.59ms增加到用于86个点的3.69ms。

这种现象在视频阶段变得更加严重。假设各个视频帧平均包含50个脸部图像；如果一个脸部图像花费大约0.59ms来处理，则各个视频帧花费大约0.59×50＝29.5ms来处理。这显然不能满足视频序列中实时使用的需要。对于具有15个标志点的带注释的脸部图像，需要在各个回归阶段中处理的子区域的总数为240。如果涉及产生总共1376个子区域的86个点，则该数目将变得更大。然而，并不是所有的子区域在形状增量的计算中都起到相同的作用。一些子区域将用于计算，而其他子区域可能不被使用。这种直觉与通过L1方案学习的稀疏回归模型相吻合，其通过最小角度回归来解决。

因此，需要减少在对象形状检测期间提取整个子区域特征集的耗时。

发明内容

鉴于上述问题中的至少一个而提出了本申请。

本申请的方面提供一种在检测目标形状中进行特征提取方法，所述特征提取方法包括：a)提取对象形状的特征点并作出以所述特征点为中心的区域，所述区域被划分为子区域；b)基于在特征提取期间依据回归模型而计算出的范数值，根据子区域映射表提取子区域特征缩减集，其中所述子区域特征缩减集被认为是查找子区域特征的子集；c)使用提取的子区域特征缩减集来确定对象形状位置；d)重复a)至c)，直到满足根据回归次数的限定条件为止。

根据本申请的方法，与现有技术相比，在保持对准准确度的同时，SRF可以提取子区域特征缩减集并更快地检测脸部特征点。请注意，本申请的方法可以根据在特征提取期间依据回归模型而计算出的范数值来生成子区域映射表。总之，本申请的方法可以根据特征点周围提取的子区域特征生成子区域映射表，并且基于子区域映射表从所选择的子区域中提取子区域特征缩减集。

根据下面参照附图对示例性实施例的描述，本申请的其他的特征将变得清楚。

附图说明

包含在说明书中并构成本说明书的一部分的附图，示出本发明的实施例，并与具体实施方式一起用于解释本发明的原理。

图1是根据使用SURF的现有技术的特征提取处理的示意图。

图2是根据使用SURF的现有技术的示例的使用SURF描述符的特征提取的示意图。

图3是根据可以实现本发明的实施例的第一示例性装置结构的示意性框图。

图4是根据可以实现本发明的实施例的第二示例性装置结构的示意性框图。

图5是示出图3和图4中的计算设备320的示例性硬件结构的框图。

图6是根据本申请的示例性实施例的在检测目标形状中进行特征提取方法的工作流程的总流程图。

图7是根据本申请的示例性实施例的在检测目标形状中进行特征提取的装置的框图。

图8是根据本申请的另一示例性实施例的在检测目标形状中进行特征提取方法的工作流程的流程图。

图9是根据本申请的另一示例性实施例的在检测目标形状中进行特征提取方法的工作流程的流程图。

图10是根据本申请的另一示例性实施例的在检测目标形状中进行特征提取方法的工作流程的流程图。

具体实施方式

现在将参照附图详细地描述本申请的各种示例性实施例。应当指出，这些实施例中阐述的部件和步骤的相对布置、数值表达式和数值并不限制本申请的范围，除非另有特别说明。

至少一个示例性实施例的以下描述实质上仅仅是例示性的，并且，决不旨在限制本发明、其应用或使用。

相关领域的普通技术人员所公知的技术、方法和装置可能不被详细讨论，但在适当情况下旨在是本说明书的一部分。

在这里所示出和讨论的所有的例子中，任何具体值应该被解释为仅仅是例示性的、非限制性的。因此，示例性实施例的其它例子可以具有不同的值。

请注意，相似的附图标记和字母指的是以下附图中的相似的项目，因此，一旦一个项目在一附图中被定义，它就可能不必在下面的附图中被进一步讨论。

图3是根据可以实现本发明的实施例的第一示例性装置结构的示意性框图。摄像装置30包括照相机传感器310和连接的计算设备320。照相机传感器310获取视频或图像信息。计算设备320实现在检测目标形状中进行特征提取方法。计算设备320可以是紧凑的且易于嵌入在摄像装置30中的集成电路芯片的形式。例如，摄像装置30可以是手持式照相机、网络照相机或具有照相机的移动电话。

图4是根据可以实现本发明的实施例的第二示例性装置结构的示意性框图。照相机传感器310用来获得视频或图像序列。计算机网络430将这些视频或图像序列发送到计算设备320。计算设备320实现在检测目标形状中进行特征提取方法。计算设备320可以是本地个人计算机、远程服务器或工作站的形式。

通过输入/输出(I/O)接口510促进将图像从照相机传感器310发送到计算设备320，该I/O接口510可以是符合通用串行总线(USB)标准并具有对应的USB连接器的串行总线。包含图像序列的视频也可以从本地存储设备(存储器)540下载，该本地存储设备540可以包括SIM卡、SD卡和USB存储卡等。

通过I/O接口510获得图像，并且图像被发送到存储器540。处理器520被布置为检索在存储器540中存储的、所公开的方法的软件程序。在一个实施例中，处理器520也被布置为取得、解码和执行根据所公开的方法的所有步骤，例如，图6和图8至图10中所示的流程图。处理器520使用装置总线530将从各个操作得到的结果记录到存储器540中。除了存储器540以外，输出也可以经由I/O接口550被更永久地存储在存储设备(存储器)540上。作为另选方案，输出也可以使用音频/视频接口560被显示在视频显示器450上以供人观看。

计算设备320可以是各种形式，例如，嵌入在图3中的摄像设备中的处理装置，或图4中的独立计算机，其可能去除了一个或更多个不必要的部件，或被添加了一个或更多个附加部件。

接下来，详细地解释用于在检测目标形状中进行特征提取的方法和装置的示例性实施例。

图6是根据本申请的示例性实施例的在检测目标形状中进行特征提取方法的工作流程的总流程图。它示出具有所提出的监督缩减特征(SRF)的输入脸部图像的特征点检测的综合流程。图7是根据本发明的示例性实施例的在检测目标形状中进行特征提取的装置70的框图。接下来，在下文中将参照图6和图7详细地描述装置70的工作原理。

如前所述，监督缩减特征的方法从以特征点为中心的各个局部区域提取特定数量的子区域。基于计算出的子区域映射表，各个子区域被视为实体。基于子区域映射表从所选择的子区域特征中提取子区域特征缩减集，其中子区域特征缩减集被认为是在矩阵或向量中查找原始子区域特征的子集。子区域映射表从代表性得分表转换得到。反过来，该得分表又根据不同的特征提取阶段，例如，回归模型中的特征提取、图像中的特征提取、级回归过程中的特征提取或视频中的特征提取，来计算得到。

如图7所示，装置70通常包括六个单元：获取单元701(例如，照相机传感器)、预处理单元702、映射表生成单元705、特征提取单元706、形状预测单元707和终止单元708。各个单元执行相应的功能。

装置70的总工作流程在图6中示出如下：

在步骤S601，获取单元701获取初始图像和脸部信息。在该步骤中，获取单元701接收初始图像和脸部信息，并将初始图像和脸部信息存储在特定结构中。脸部信息通过脸部检测算法检测，该算法包括表示初始图像上的脸部位置的四个点、脸部类型(例如，正面、左半侧面、右半侧面、左全侧面和右全侧面等)和初始图像上的脸部滚转旋转角度。

在步骤S602，预处理单元702设置初始脸部形状。在该步骤中，给定具有脸部位置的输入初始图像，首先，预处理单元702基于脸部位置计算从初始图像坐标到脸部图像坐标的变换矩阵，然后，将初始图像变形(warp)为具有标准尺寸的脸部图像，最后从平均形状获得脸部图像上的特征点的初始形状。根据本申请的方法，基于具有脸部区域的原始图像的位置和模板脸部区域的位置(在本申请的一些实施例中，模板脸部区域是100×100像素的脸部矩形)，可以计算仿射变换矩阵。此后，可以使用仿射变换矩阵来将原始图像变形为具有固定模板大小的图像(在本申请的一些实施例中，固定模板大小为100×100像素)。最后，在变形的脸部图像上对脸部形状进行初始化，以指示用于对准的初始脸部形状位置。

接下来，在步骤S603，预处理单元702针对对象形状的各个特征点生成子区域。在该步骤中，以各个特征点为中心的区域被划分为子区域。仍然以此为例，如图2所示，假设变形的图像大小为100×100像素，则将20×20像素的区域大小划分为5×5像素的子区域大小。在该条件下，针对该特征点的子区域的总数为4×4＝16。

在步骤S604，映射表生成单元705计算子区域代表性得分表。在该步骤中，通过计算各个子区域的代表性得分值来构成子区域代表性得分表。代表性得分值包括根据特征点检测中的不同特征提取阶段(例如回归模型、图像、级回归过程、视频等)的计算结果。

对于回归模型，根据从对应于特征点的特定子区域的回归模型的子列计算出的范数来计算子区域代表性得分表。范数可以是L0、L1或L2范数，仅举几例。转换后的计算的范数值将被用作代表性得分。这里，范数值越大，代表性得分将被分配得越低。

对于图像，通过明确地计算子区域的遮挡或姿势影响来生成子区域代表性得分表。这意味着，如果子区域被遮挡，则对于该子区域将分配较低的得分。可以从对胡子、眼镜、围巾等进行遮挡检测的遮挡检测算法获得遮挡检测的输出。如果子区域位于这些遮挡物体内，则我们认为该子区域也被遮挡。再次，如果该子区域的姿势位置被认为是不可靠的，则分配较低的得分。通过该子区域是否由于子区域位置而自遮挡来判断与姿势相关联的该子区域的可靠性。

对于级回归，根据与特征提取相关联的级回归生成子区域代表性得分表。特征提取步骤可以进一步被划分为一系列级回归，其中在后一阶段计算的特征提取依据在前一阶段计算的特征提取。级回归的特征在于两种不同的性质，其包括级数和级的置信度。随着级数增加，代表性得分表将具有更大的值，即，将选择更多的子区域。如果特定回归阶段变得不可靠，也可以调整得分表，其由与该阶段相关联的代表性得分表示。换句话说，各个回归阶段将具有其自己的计算的代表性得分表。下一阶段的得分表的计算也将依据前一阶段的得分表。

在步骤S605，映射表生成单元705通过对得分表应用阈值来生成子区域映射表。在该步骤中，通过对代表性得分表应用阈值以生成两类表示(two-class representation)来生成子区域映射表。一类用于表示子区域将要被选择，而另一类用于表示子区域将不被选择。子区域映射表的两类表示的特例是二进制表示，其中1用于表示子区域将被选择，而0用于表示子区域将不被选择。根据不同的特征点检测阶段确定与表示得分表相关联的阈值。

在步骤S606，特征提取单元706根据子区域映射表提取子区域特征缩减集。在该步骤中，基于子区域映射表从所选择的子区域中提取子区域特征缩减集。子区域映射表是从子区域代表性得分表转换的两类表示，该子区域代表性得分表计算针对各个子区域的代表性得分。在本申请的一些实施例中，代表性得分表的计算具有四个不同的阶段。该子区域特征缩减集由从各个选择的子区域中提取和连接四种不同类型的特征组成。通过在各个子区域内计算沿水平和垂直方向的求和的梯度和求和的绝对梯度来计算这四种不同类型的特征。

为了更好地描述这些不同的特征提取想法，我们简要地描述子区域代表性得分表生成的各个阶段。对于回归模型中的特征提取，根据依据回归模型的子列而计算的范数来计算子区域代表性得分表，其中这些子列的位置对应于从特征点采样的子区域的位置。范数可以L0、L1或L2范数的形式(仅举几例)被计算。转换后的计算的范数值将被用作代表性得分。这里，范数值越大，代表性得分被分配得越低。对于图像中的特征提取，根据子区域遮挡检测或子区域姿势位置估计来计算子区域代表性得分表。例如，可以根据对子区域进行的遮挡检测来计算子区域代表性得分表。如果子区域被认为被遮挡，则对于该子区域将分配较低的代表性得分。然后，在转换到子区域映射表的期间，该子区域不可能被选择。对于级回归过程期间的特征提取，根据由回归过程定义的级数或与各个回归阶段相关联的置信值来计算子区域代表性得分表。例如，随着级数增加，代表性得分表将可能具有要被添加的较大值，即，将选择更多的子区域。在这种情况下，我们可以随着进行回归来调整代表性得分表，以确保将选择更多的子区域。另一方面，如果回归阶段被认为是不可靠的，则与该阶段相关联的子区域代表性得分表也将被调整。

通过使用子区域映射表，可以潜在地减少特征提取次数并保持准确度。该子区域特征缩减集用于计算对象形状检测中的形状增量。

在本申请的一些实施例中，依据回归模型而使用所计算的子区域代表性得分表。这意味着，基于依据回归模型的子列而计算的范数值，依据回归模型而计算代表性得分表。这些子列的位置对应于从特征点采样的子区域的位置。如式1所示，它是理论数学解释：

其中A表示通过L1范数所学习的回归模型矩阵，并且具有2M的行维度和L_S的列维度；A_R表示缩减的回归模型，其具有2M的行维度和

的列维度；M表示特征点的数量；φ表示从具有L_S的行维度和1的列维度的图像提取的子区域特征集的矩阵；φ_R表示从具有

的行维度和1的列维度的图像提取的子区域特征缩减集的矩阵；Δx表示具有2M的行维度和1的列维度的形状增量；

表示一维矩阵或二维矩阵；L_S表示特征向量的特征维度；

表示特征向量的缩减的特征维度；以及

表示

的维度小于L_S的维度。

在步骤S607，形状预测单元707使用提取的子区域特征缩减集来预测对象形状位置。在该步骤中，给定特征点的初始形状，首先，形状预测单元707提取特征点周围的局部图像区域中的特征，然后基于所提取的特征缩减集和缩减的回归模型来预测特征点的各个坐标的移动增量，接着基于式1通过将移动增量加到初始形状来计算特征点的新形状。迭代地，形状预测单元707通过基于缩减的回归模型和上一次回归次数的先前形状预测坐标增量来更新特征点，然后，可以获得特征点的准确形状。

在步骤S608，终止单元708判断是否结束整个回归处理。在该步骤中，如果回归次数大于预定回归次数，则应当停止整个回归处理。

在步骤S609，终止单元708结束整个回归处理。在此步骤中，停止整个回归处理并获得对象形状的最终特征点位置。

本申请的该实施例避免了基于计算的子区域映射表从各个子区域提取特征的需要。该子区域映射表将各个子区域标记为对于后续选择是重要的或不重要的。该重要性(significance)以子区域代表性得分表为特征。如果与该子区域相关联的得分值高，则经转换的子区域值将表示该子区域可能将被选择用于特征提取。通过提取子区域特征缩减集，本申请的该实施例可以提高脸部特征点检测的速度并保持准确度。

接下来，将例示在使用与不使用SRF的情况下对对象形状进行检测中的特征提取(本申请与现有技术的方法之间的技术方案)之间的差异，并且解释与现有技术相比的本申请的优点。

如前所述，在本申请的一些实施例中，依据回归模型而使用所计算的子区域代表性得分表。与式1类似，式2是没有SRF的特征提取方法的理论数学解释(现有技术)：

其中A表示通过L1范数所学习的回归模型矩阵，具有2M的行维度和L_S的列维度；M表示特征点的数量；φ表示从具有L_S的行维度和1的列维度的图像提取的子区域特征集的矩阵；Δx表示具有2M的行维度和1的列维度的形状增量；

表示一维矩阵或二维矩阵；L_S表示特征向量的特征维度。此外，基于式1，

即

的维度小于L_S的维度。

在本申请的一些实施例中，我们取M＝15，L_S＝961，基于式2，形状增量被计算为如下：

基于计算结果，可以得出结论，形状增量计算是原始回归模型和提取的子区域特征集的乘积。由于通过L1学习的回归模型是稀疏的，因此我们已经在矩阵内观察到连续的非零列，如虚线框所示。在计算回归模型的子列的范数值(例如，L1范数)之后，我们生成代表性得分表。该代表性得分表进一步被转换为子区域映射表。基于子区域映射表，假设使用相同的回归模型和特征提取方法，去除这些非零列将不会影响最终计算。然而，原始回归模型不利用该性质来减少矩阵相乘次数和相应的特征提取次数。

基于上述分析，根据式1计算利用SRF的缩减的特征提取和形状增量计算(本申请的方法)如下：

其中

数字“116”被视为在一个阶段中用于特征提取的子区域的数量。“4”意味着，对于各个子区域，从该子区域提取4个子区域特征。“1”是用于附加作为提取的特征的最后维度的数字。它旨在y用于稳定矩阵相乘的计算。请注意，数字“116”从训练过程所确定。数字“4”是由特征提取算法定义的参数。

这两种形状增量计算(式3和4)之间的公共部分是，如果应用相同的特征提取方法，它们将导致相同的形状更新结果。然而，如果现有技术和本申请使用的特征提取方法不相同，则计算的形状增量也将不同。但是，使用本申请的方法的缩减的回归模型和缩减的特征提取可以大大地减小模型大小和特征集大小，并且改善对象形状检测次数。基本消息是它不需要具有相同的特征提取过程。现有技术的SURF的方法通过除以整个子区域集中的总量值来对特征进行归一化。另一方面，本申请的SRF的方法可以采用两种不同的实现方式。第一种实现方式是提取特征而不应用归一化。在这种情况下，如果现有技术的SURF的方法不应用归一化，则本申请的SRF的方法将导致如式3和式4所示的相同的形状增量计算。第二种实现方式是使用归一化来提取特征。这里，本申请的SRF的方法仅通过除以从所选择的子区域计算的总量来被归一化，而现有技术的SURF的方法从整个子区域集来计算总量。

本申请的在检测特征点中的SRF的方法的整个流程被描述为如下。给定多个训练图像和多个相应的地面真实形状(ground-truth shape)，应用级回归方法来生成一组回归模型。在测试过程期间，根据不同的特征提取阶段，例如，根据这里给定的回归模型的特征提取，基于来自子区域代表性得分表的计算生成一组子区域映射表。其他阶段包括图像中的特征提取、视频中的特征提取和级回归过程期间的特征提取。这里，级回归方法输出四种不同的回归模型。根据回归模型，将通过对这四个子区域代表性得分表进行计算来生成四个不同的子区域映射表。通过计算回归模型的子列的范数值来获得子区域代表性得分。子区域映射表的确切数量将依据特定的应用阶段。并且，一个回归模型将对应于子区域映射表的一个计算。在获得子区域映射表的输出之后，我们可以将原始回归模型缩减为具有较小维度的模型大小，如式1和式2所示。对于测试过程，映射表生成单元705将首先计算子区域映射表。然后，基于子区域映射表，特征提取单元706可以提取针对初始阶段的子区域特征缩减集。接下来，子区域特征缩减集将与缩减的回归模型相乘以计算形状增量。此形状增量将用于形状更新。重复该过程，直到实现预定回归次数(在本申请的一些实施例中，预定回归次数为4)为止。测试过程的最终输出是针对给定脸部图像的具有初始特征点位置的检测到的特征点。

本申请的方法的技术效果被描述为如下：

通过本申请的方法检测到的特征点与手动标记的地面实况之间的距离被用作本申请的算法的良好度量。均方根误差(root mean square error，RMSE)距离度量在式5中示出：

其中(x_i，y_i)和

是手动标记的地面实况和第i个脸部特征点的检测位置。

对于正面脸部，S和C是地面实况双眼距离以及左眼与右眼之间的分配距离。在本申请的一些实施例中，C等于75，所以dist(A)是具有分配给75个像素的双眼距离的各个独立特征点的平均欧氏点到点误差。

根据本申请的方法，特征提取包括正面脸部、半侧面脸部和具有86个点的正面脸部。因此，现有技术的SURF的方法和本申请的SRF的方法被嵌入到基于回归的脸部特征点检测中以供比较。在本申请的一些实施例中，根据回归模型中的特征提取阶段来考虑子区域代表性得分表生成；PC配置为Intel Core i7-4790 CPU，3.60GHz，X64，并且，变形图像大小为100×100像素。

表1是在正面脸部数据集上的速度和准确度方面的、本申请的SRF的方法与现有技术的SURF的方法的比较。训练数据集包括多于70,000个样本，并且测试数据集包括多于20,000个样本。请注意，在训练样本和测试样本之间的对象不存在重叠。我们在15个点上训练4个回归量。这里，使用SURF特征提取方法的现有技术作为基线。按毫秒记录和测量每个图像的平均对准时间。其中，对准时间包括特征提取时间和形状更新时间以及变形时间；并且为了减少协变量，排除了脸部检测时间。

表1

	RMSE<5像素	RMSE<7.5像素	RMSE<10像素
				SURF	94.72％	99.06％	99.75％
SRF	94.69％	99.06％	99.74％

根据上述分析，与对象形状检测任务中的现有技术的SURF的特征提取方法相比，在通过本申请的SRF的方法的处理特征提取中有大约10％的时间减少。同时，在RMSE<5的情况下对于SURF和SRF分别获得94.72％和94.69％的标志点检测准确度。

表2是在半侧面脸部数据集上的速度和准确度两方面的、本申请的SRF的方法与现有技术的SURF(原始)的方法的比较。在本申请的一些实施例中，训练数据集和测试数据集分别包括来自监视阶段的多于40,000个半侧面样本和多于10,000个半侧面样本；并且，15个点上的8个回归量被训练。半侧面比正面阶段更具挑战性。因此，更多的回归量被用于训练回归模型和测试特征点检测。

表2

	RMSE<5像素	RMSE<7.5像素	RMSE<10像素
				SURF	72.64％	96.60％	98.99％
SRF	72.74％	96.66％	99.00％

基于上述分析，与对象形状检测中的现有技术的SURF的特征提取方法相比，在通过本申请的SRF的方法的脸部对准中有大约11％的时间减少。这个时间减少略好于在正面数据集上计算的时间。请注意，与表1中使用的4个回归量相比，由于使用8个回归量，所以对于半侧面脸部的绝对时间增加。对于SURF和SRF的脸部对准准确度分别为72.64％和72.74％。考虑到在半侧面脸部上的脸部对准所面临的挑战(例如，自遮挡和姿势)，所获得的性能仍然是非常有前景的。

在本申请的一些实施例中，对于正面数据集扩展从15个点到86个点的估计。表3是在具有86个点的正面脸部数据集上的速度和准确度两方面的本申请的SRF的方法与现有技术的SURF(原始)的方法的比较。类似地，训练数据集包括多于70,000个样本，并且测试数据集包括多于20,000个样本。在86个点上训练4个回归量。记录各个图像的平均脸部对准时间。

表3

	RMSE<5像素	RMSE<7.5像素	RMSE<10像素
				SURF	85.29％	97.75％	99.45％
SRF	84.73％	97.72％	99.47％

从该表中可以看出，86个点的脸部对准时间比15个点的长大约6倍。然而，随着特征点的增加，脸部对准时间的绝对减少是明显的。处理时间减少。已经获得了约52％的脸部对准的速度提高。这种剧烈改善的根本原因是由于通过在86个特征点周围采样的局部图像区域增加了冗余信息。相邻图像区域的位置将彼此非常接近。因此，需要在各个局部图像区域内处理的子区域很可能远小于15个点。

在基准户外标记人脸(LFW，Labeled Faces in the Wild)数据库上进行该实施例，该LFW数据库包括来自LFW_A的多于600个样本，并且测试数据集包括来自LFW_C的多于500个样本。其中LFW_A表示LFW的子集，并且，LFW_C表示LFW的另一子集；此外，LFW_A主要用于训练，并且，LFW_C则用于测试。变形的图像大小也从100像素扩大到200像素。这将增加变形时间。这里的目的是测试脸部对准时间当中的变形时间的影响。除了5像素、7.5像素和10像素的RMSE，我们扩展了这个评估以覆盖更多的误差范围。表4是在具有15个点的正面脸部数据集上的速度和准确度两方面的、本申请的SRF的方法与现有技术的SURF的方法的比较。

表4

RMSE<4

RMSE<5

RMSE<6

RMSE<7

RMSE<8

RMSE<9

RMSE<10

SURF

91.16％

95.75％

97.62％

98.37％

98.86％

99.10％

99.26％

SRF

86.27％

93.46％

96.34％

97.72％

98.41％

98.83％

99.09％

除了对脸部对准速度和准确度进行评价以外，还研究了各个回归阶段中选择的子区域的数量。选择的子区域的数量越少，特征点可以检测得越快。

根据基于本申请的方法的实验数据，因为由SRF选择的子区域的百分比(26.81％-33.28％)远低于15个点的百分比(59.17％-72.5％)，所以时间减少对于86个点更显著。

基于上述，与现有技术相比，本申请的SRF的方法可以在保持对准准确度的同时，提取子区域特征缩减集并更快地检测脸部特征点。请注意，上述实施例根据在特征提取期间依据回归模型而计算出的范数值来生成子区域映射表。总之，本申请的要点如下：

根据特征点周围提取的子区域生成子区域映射表，并基于子区域映射表从所选择的子区域中提取子区域特征缩减集。

图8是根据本申请的另一示例性实施例的在检测目标形状中进行特征提取方法的工作流程的流程图。它示出利用具有归一化的监督缩减特征对输入脸部图像进行特征点检测的综合流程。关于在局部图像区域中对子区域特征缩减集的提取，可以仅通过除以从该局部图像区域中的子区域集计算的总量值来进一步对子区域特征缩减集进行归一化。因此，代表性得分表将在归一化之后相应地改变。这种归一化可以减少由照明变化引起的变化。

接下来，将在下文中参照图7详细地描述图8的工作原理。

请注意，图8的S1001～S1005和S1009～S1011的步骤与图6的S601～S605和S607～S609的步骤相同，因此不再对它们进行解释。图8的工作流程图被描述为如下：

在步骤S806，特征提取单元706根据子区域映射表提取子区域特征缩减集。在该步骤中，基于子区域映射表从所选择的子区域中提取子区域特征缩减集。子区域映射表是从子区域代表性得分表转换的两类表示，该子区域代表性得分表计算各个子区域的具体的代表性得分。该特征的缩减集由从各个选择的子区域中提取和连结四种不同类型的特征组成。通过在各个子区域内计算沿水平和垂直方向的求和的梯度和求和的绝对梯度来计算这四种不同类型的特征。

通过步骤S807和步骤S808进行步骤S806。

在步骤S807，特征提取单元706从提取的子区域计算总量值。在该步骤中，通过对所有选择的子区域特征的平方值求和来计算总量值。各个子区域将提供四种类型的特征。这四种类型的特征被单独平方并相加在一起。对所有选择的子区域重复该求和处理。

在步骤S808，特征提取单元706通过总量对子区域特征缩减集进行归一化。在该步骤中，仅通过除以从所选择的子区域计算的总量值来对各个子区域特征单独进行归一化。从步骤S1008计算总量值。一旦计算了该量值，则将各个提取的子区域特征缩减集除以该量值。

本申请的实施例将特征归一化处理应用于子区域特征缩减集，使得各个特征的量将在0和1(单位长度)之间。这仅通过除以从所选择的子区域计算的总量值来实现。应用该特征归一化的好处是消除照明影响，因为所有特征值现在都位于相同的测量尺度内。与图6的实施例相比，图8的实施例可以提高特征点检测准确度并保持特征点检测速度。

与现有技术相比，本申请的图8的实施例具有两个好处：

(a)对于固定的特征点检测时间，由于在给定时间段内可以使用更多的级的事实，所以我们可以获得更准确的特征点检测结果；以及

(b)对于固定的特征点检测准确度，由于对于相同数量的级需要更少的时间的事实，所以我们可以以更快的检测速度实现相同的准确度。

接下来，将例示在使用和不使用SRF的情况下对对象形状进行检测中的特征提取(本申请的方法和现有技术之间的技术方案)之间的差异，并且解释与现有技术相比的本申请的优点。

如前面在表4中提到的，添加子区域特征的特征提取中的归一化处理。现有技术的SURF特征提取的方法使用归一化来将各个子区域特征缩放到[0,1]。对于本申请的归一化SRF的方法，子区域特征也被缩放到[0,1]。然而，仅使用从所选择的子区域计算的总量值，而不是在原始SURF中使用的整个子区域集。

如前所述，在基准户外标记人脸(LFW，Labeled Faces in the Wild)数据库上进行该实施例，该LFW数据库包括来自LFW_A的多于600个样本，并且测试数据集包括来自LFW_C的多于500个样本。其中LFW_A表示LFW的子集，并且，LFW_C表示LFW的另一子集；此外，LFW_A主要用于训练，并且，LFW_C则用于测试。变形的图像大小也从100像素扩大到200像素。这将增加变形时间。这里的目的是测试脸部对准时间当中的变形时间的影响。除了5像素、7.5像素和10像素的RMSE，我们扩展了这个评估以覆盖更多的误差范围。表5是与表4的组合，并且是在具有15个点的正面脸部数据集上的速度和准确度两方面的、本申请的具有和不具有归一化SRF的方法与现有技术的SURF的方法的比较。

表5

从表5可以看出，归一化SRF和SURF的准确度彼此非常接近。然而，归一化SRF在特征提取和对准时间中使用少得多的时间。这进一步证明了使用SRF优于SURF，即，可以在不牺牲特征点检测准确度的情况下实现特征提取的时间减少。

如前所述，除了对脸部校准速度和准确度进行评价以外，还研究了各个回归阶段中选择的子区域的数量。选择的子区域的数量越少，特征点可以检测得越快。

如上所证实的，与现有技术相比，本申请的SRF的方法可以在保持对准准确度的同时，提取子区域特征缩减集并更快地检测脸部特征点。

图9是根据本申请的另一示例性实施例的在检测目标形状中进行特征提取方法的工作流程的流程图。它示出具有姿势相关的监督缩减特征的输入脸部图像的特征点检测的综合流程。姿势相关的监督缩减特征根据从输入脸部图像的子区域所估计的给定姿势，生成子区域代表性得分表。不同的脸部姿势对应于不同的子区域映射表。该子区域代表性得分表将被转换为子区域映射表以指导子区域特征提取。可以基于从整个脸部区域获得的偏航、滚转和俯仰位置来估计子区域姿势位置。一旦给定了脸部姿势位置，一些现有信息(诸如这些子区域的几何结构)可以用于决定这些子区域的估计姿势是什么。一旦获得该特定子区域的偏航、滚转和俯仰位置，则根据偏航、滚转和俯仰的范围来计算代表性得分。例如，如果俯仰角是5°，偏航角是-37°，滚转角是-6°，则可以安全地断定该子区域位于左半侧面方向内。然后，基于现有的几何结构，可以给从脸部区域偏离的这些子区域分配较低的代表性得分。并且，在保持对准准确度的同时，检测脸部特征点的时间更短。

接下来，将在下文中参照图7详细地描述图9的工作原理。

请注意，图9的S901～S903和S905～S909的步骤与图6的S601～S603和S605～S609的步骤相同，因此不再对它们进行解释。图9的工作流程图被描述为如下：

在步骤S904，映射表生成单元705根据子区域的估计姿势来计算子区域代表性得分表。在该步骤中，首先通过姿势估计算法估计脸部姿势。姿势估计算法将把输入脸部自动地分类为属于正面脸部类型或半侧面脸部类型等。脸部姿势由偏航、俯仰和滚转角度来测量。一旦获得了脸部姿势信息，则将利用这些子区域的几何结构来推断这些子区域的近似姿势信息。此后，将子区域的估计姿势位置与不同姿势的预定义范围进行比较。如果估计的姿势位置落入偏航、俯仰和滚转的角度非常大的范围中，则该子区域的代表性得分低。

该实施例解决了在大姿势变化下的特征点检测的问题。与本申请的图8的实施例相比，根据通过偏航、滚转和俯仰角信息测量的估计姿势计算从子区域值表导出的对应的子区域映射表。如果通过确定偏航、滚转和俯仰角度来认为该子区域的姿势位置不可靠，则分配较低的值。否则，将给此子区域分配较高的值。通过使用本申请的图9的实施例，将提高本申请的图8的实施例的大姿势变化下的特征点检测准确度。

图10是根据本申请的另一示例性实施例的在检测目标形状中进行特征提取方法的工作流程的流程图。它示出通过使用本申请的方法来生成用于在视频监控情况下的用于特征提取的子区域代表性得分表的、对输入脸部图像进行特征点检测的综合流程。视频包括一系列连续帧图像，并且连续帧图像的变化信息很少。因此，根据先前帧或现有的先前帧更新子区域代表性得分表，并且明显改善检测特征点的成本时间。如果根据一个先前帧更新子区域代表性得分表，则意味着没有利用其它帧信息。最后，将子区域代表性得分表转换为子区域映射表。

接下来，将在下文中参照图7详细地描述图10的工作原理。

在步骤S1001，获取单元701获取视频序列和脸部信息。在该步骤中，获取单元701从第一视频帧接收输入视频序列和脸部信息，并将它们存储到特定结构中。脸部信息通过脸部检测算法检测，该算法包括表示初始图像上的脸部位置的四个点、脸部类型(正面、左半侧面、右半侧面、左全侧面和右全侧面等)和初始图像上的脸部滚转旋转角度。

在步骤S1002，预处理单元702针对对象形状的各个特征点生成子区域。在该步骤中，以各个特征点为中心的区域被划分为子区域。例如，假设变形图像大小为100×100，则将20×20像素的区域大小划分为5×5像素的子区域大小。在这种情况下，该特征点的子区域的总数为16。

在步骤S1003，映射表生成单元705根据先前视频帧计算子区域代表性得分表。在该步骤中，给定具有脸部位置的输入视频帧，首先计算先前视频帧的子区域代表性得分表，然后，如果先前子区域值表需要更新，则更新用于当前视频帧的子区域代表性得分表。如果先前帧的特征点检测结果是准确的，则可以直接复制来自先前视频帧的子区域代表性得分表。否则，将在从先前视频帧接收到反馈之后重新计算代表性得分表。例如，如果由对准得分判断的特定子区域的特征点检测结果被假定为不准确，则下一视频帧的该子区域得分将被降低。

在步骤S1004，特征提取单元706在对得分表应用阈值之后，根据子区域映射表提取子区域特征缩减集。在该步骤中，在对得分表应用阈值之后，基于子区域映射从所选择的子区域中提取缩减集的特征。该缩减集的特征由从各个选择的子区域中提取和连结四种不同类型的特征组成。通过在各个子区域内计算沿水平和垂直方向的求和的梯度和求和的绝对梯度来计算这四种不同类型的特征。

在步骤S1005，形状预测单元707使用提取的子区域特征缩减集来预测对象形状位置。在该步骤中，给定特征点的初始形状，首先，形状预测单元707提取特征点周围的局部图像区域中的特征，然后基于提取的特征和受训的模型来预测特征点的各个坐标的移动增量，接着通过将移动增量与初始形状相加来计算特征点的新形状。迭代地，形状预测单元707通过基于受训的模型和上一次回归次数的旧形状预测坐标增量来更新特征点，然后，可以获得特征点的准确形状。

在步骤S1006，终止单元708判断是否结束对于特定视频帧的整个回归处理。在该步骤中，如果回归次数大于预定回归次数，则应当停止对于给定视频帧的整个回归处理。

在步骤S1007，预处理单元702判断是否重新应用具有新的初始形状的回归模型。在该步骤中，用平均形状对初始形状重新进行初始化。如果特征点检测结果对于前一帧不准确，则来自该前一帧的形状应当用作当前帧的初始形状。在这种情况下，使用平均形状来对形状进行初始化。

在步骤S1008，预处理单元702移动到下一帧。在该步骤中，针对当前帧完成特征点检测，并移动到下一个视频帧。

在步骤S1009，终止单元708结束对于视频序列的整个回归处理。在此步骤中，停止对于视频序列的整个回归处理，并获得最终形状。

本实施例解决了在视频序列阶段中生成子区域值表，随后生成子区域映射表的问题。图10的实施例在视频序列中的随后效果是实现鲁棒性，其中将确定各个视频帧的特征点检测准确度。这可以确保本申请的SRF的方法可以从静止图像阶段平滑地过渡到视频序列阶段。

可以通过很多方式来实施本申请的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本申请的方法和装置。本方法的步骤的上述顺序仅旨在是例示性的，并且，本申请的方法的步骤不局限于上述具体描述的顺序，除非另有具体说明。此外，在一些实施例中，本申请还可以被实施为在记录介质中记录的程序，其包括用于实现根据本申请的方法的机器可读指令。

虽然已经通过例子详细地展示了本申请的一些具体实施例，但是本领域的技术人员应该理解，上述例子仅旨在是例示性的，而不限制本申请的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本申请的范围和精神的情况下被修改。本申请的范围由所附权利要求限定。

Claims

1.一种在检测目标形状中进行特征提取的方法，所述方法包括：

a)提取对象形状的特征点并作出以所述特征点为中心的区域，所述区域被划分为子区域；

b)通过在特征提取期间依据回归模型而计算出的范数值计算子区域代表性得分表，通过对所述子区域代表性得分表应用阈值来生成子区域映射表，根据所述子区域映射表提取子区域特征缩减集，其中所述子区域特征缩减集被认为是查找子区域特征的子集；

c)使用所提取的子区域特征缩减集来确定对象形状位置；以及

d)重复a)至c)，直到满足根据回归次数的限定条件为止。

2.根据权利要求1所述的方法，其中，子区域映射表是两类表示；一类用于表示子区域将被选择，而另一类用于表示子区域将不被选择。

3.根据权利要求1所述的方法，其中，通过计算根据特征点检测中的不同特征提取阶段的子区域的代表性得分值，获得子区域代表性得分表。

4.根据权利要求3所述的方法，其中，所述特征提取阶段包括回归模型，并且根据依据回归模型的子列而计算的范数值，获得子区域代表性得分表，其中回归模型的列被划分为回归模型的子列，并且回归模型的子列对应于子区域的特征位置。

5.根据权利要求3所述的方法，其中，所述特征提取阶段包括级回归过程，并且根据级回归过程中定义的级数或置信度值，获得子区域代表性得分表。

6.根据权利要求3所述的方法，其中，所述特征提取阶段包括给定图像，并且根据依据给定图像而估计的子区域遮挡检测或子区域姿势位置，获得子区域代表性得分表。

7.根据权利要求3所述的方法，其中，所述特征提取阶段包括给定视频，并且根据先前顺序帧图像的子区域代表性得分表，获得子区域代表性得分表。

8.根据权利要求1所述的方法，其中，当达到预定回归次数时实现限定条件。

9.根据权利要求1所述的方法，其中，通过利用依据子区域而计算的量值对特征集进行归一化，来提取缩减的子区域特征。

10.一种在检测目标形状中进行特征提取的装置，所述装置包括：

特征提取单元，其被构造为，

提取对象形状的特征点并作出以所述特征点为中心的区域，所述区域被划分为子区域；并且，

通过在特征提取期间依据回归模型而计算出的范数值计算子区域代表性得分表，通过对所述子区域代表性得分表应用阈值来生成子区域映射表，根据所述子区域映射表提取子区域特征缩减集；其中将所述子区域特征缩减集认为是查找子区域特征的子集；

形状预测单元，其被构造为使用所提取的子区域特征缩减集来确定对象形状位置；以及

确定单元，其被构造为确定是否满足限定条件回归次数；

其中，重复进行所述特征提取单元和所述形状预测单元的操作，直到满足根据回归次数的限定条件为止。