CN105426929A - 对象形状对准装置、对象处理装置及其方法 - Google Patents

对象形状对准装置、对象处理装置及其方法 Download PDF

Info

Publication number
CN105426929A
CN105426929A CN201410482349.3A CN201410482349A CN105426929A CN 105426929 A CN105426929 A CN 105426929A CN 201410482349 A CN201410482349 A CN 201410482349A CN 105426929 A CN105426929 A CN 105426929A
Authority
CN
China
Prior art keywords
coordinate
shapes
shape
unit
object shapes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410482349.3A
Other languages
English (en)
Other versions
CN105426929B (zh
Inventor
朱福国
姜涌
李献
胥立丰
温东超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201410482349.3A priority Critical patent/CN105426929B/zh
Priority to US14/857,669 priority patent/US9600884B2/en
Publication of CN105426929A publication Critical patent/CN105426929A/zh
Application granted granted Critical
Publication of CN105426929B publication Critical patent/CN105426929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21345Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis enforcing sparsity or involving a domain transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7557Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Geometry (AREA)

Abstract

本发明涉及对象形状对准装置、对象处理装置及其方法。对象形状对准装置包括:从多个训练样本获取包含平均对象形状、多个回归函数和多个特征选择图的对象形状回归模型的单元;基于平均对象形状设定初始对象形状的单元;计算关于初始对象形状的多个特征点的至少一个特征向量的单元;对于初始对象形状的所述多个特征点的每个坐标,基于所述多个特征选择图中的相应一个从计算出的特征向量选择特征片段并将特征片段组装成子特征向量的单元;以及对于初始对象形状的至少一个特征点的至少一个坐标,基于相应的子特征向量和所述多个回归函数中的相应一个预测坐标增量的单元。本发明的装置和方法可减小模型尺寸、实现更高精度和/或速度和/或鲁棒性等。

Description

对象形状对准装置、对象处理装置及其方法
技术领域
本发明一般涉及图像处理、计算机视觉和模式识别的领域,特别涉及对象形状对准装置、对象处理装置及其方法。
背景技术
在图像处理、计算机视觉和模式识别的领域中,自动且精确地对准通过一组特征点描述的对象形状(或检测特征点)是关键的任务,并且这可被广泛用于例如面部识别、姿势识别、表情分析、3D面部模拟、面部卡通动画等。
当前的对象形状对准方法采用基于模型的方法(诸如主动形状模型(ActiveShapeModel,ASM)和主动外观模型(ActiveAppearanceModel,AAM))或基于回归的方法(诸如显形回归(ExplicitShapeRegression,ESR)和监管下降方法(SupervisedDescentMethod,SDM))。
由于对象形状对准自然是回归问题,因此,基于回归的方法在近些年已取得了大的进步。基于回归的方法通常通过初始化对象形状而开始,并然后更新初始的对象形状,以接近真值。各种基于回归的方法之间的区别主要在于特征提取步骤和回归形状增量预测步骤。
以SDM为例。该方法通过最小化非线性最小二乘(Non-linearLeastSquare,NLS)函数来估计形状增量。在训练期间,SDM学习使在不同的点处采样的NLS函数的平均值最小化的一系列下降方向;并且,在对准期间,SDM通过在不计算Jacobian或Hessian的情况下使用学习到的下降方向使NLS目标最小化。
图1示意性地示出SDM的流程图。步骤10属于训练过程,而步骤20至40属于对准过程。
如图1所示,首先,在步骤10处,从多个训练样本获取包含一个回归函数(或回归器(regressor))的对象形状回归模型。
然后,在步骤20处,设定用于对象图像的初始对象形状。
接下来,在步骤30处,计算关于初始对象形状的多个特征点的一个特征向量。
更具体而言,例如,从所述多个特征点周围的局部图像块提取SIFT(ScaleInvariantFeatureTransform,尺度不变特征变换)特征,以针对照明实现鲁棒的表示(robustrepresentation),然后,所述多个特征点的提取的SIFT特征被组装成关于所述多个特征点的一个特征向量。图11示意性地示出三个特征点(即,两个眼睛的外眼角和左嘴角,其位于各自的局部图像块的中心处)的提取的SIFT特征描述符(即,提取的SIFT特征的结构示意)。在图11中,例如,从每个特征点周围的4×4格子的图像块提取SIFT特征,并且每个格子中的提取的SIFT特征的维数是8。图12示意性地解释了如何关于图11的包围区域得到SIFT特征描述符。在图12中,每个格子包括例如4×4个像素,并且,在每个像素中,可以获得图像梯度并将其表示为向量(具有某个长度且指向某个方向的箭头)。对于每个格子,可从其中的图像梯度获得维数为8的SIFT特征描述符。图13给出与图12中的图像梯度对应的在图11的包围区域内所获得的SIFT特征描述符的放大图。从以上可以看出,对于每个特征点,提取的SIFT特征的维数可如4×4×8=128那样高,由此,对于关于所述多个特征点的一个特征向量,其维数可如128×(特征点的数量)那样高。这意味着,在SDM中,获得的特征向量包含非常丰富的特征,但又具有非常高的维数。
最后,在步骤40处,对于初始对象形状的特征点的多个坐标,基于获得的所述一个特征向量和所述一个回归函数预测坐标增量。
例如,SDM通过将所述一个特征向量投影到学习到的一个回归函数(即,学习到的下降方向)上来预测所述多个坐标的坐标增量。这可由下式(1)表示:
ΔS=F*Rt(1)
这里,ΔS表示所述多个坐标的坐标增量,F表示获得的关于所述多个特征点的一个特征向量,Rt表示对于某个对准处理(即,第t次对准处理)的学习到的一个回归函数,并且符号“*”表示双方的投影或交互作用(诸如相乘、点积等)。图14给出式(1)的结构示意。要注意,虽然F表示组装的关于所述多个特征点的一个特征向量,但在图14中,为了简化,仅示出1个特征点的4个格子的SIFT特征描述符。从以上可以看出,SDM采用包含多个特征的一个高维数特征向量(即,致密特征集)和用于整个对象形状的一个统一的回归函数来预测多个坐标的坐标增量。
可选地,图1中的对准处理可被重复几次(例如,T次)以逐步接近对象形状的真值(这是为什么式(1)中的所述一个回归函数具有上标“t”的原因)。换句话说,可在对准期间采用级联的T个回归器。图2给出级联SDM的示意流程图。其主要步骤与图1的基本上相同,由此在这里省略其描述。
但是,SDM具有许多限制。
第一,由于对象形状上的特征点的坐标通常是高度相关的,因此,提取的特征通常具有两个或更多个高度相关的维数(称为多重共线性(multicolinearity))。这使得难以在特征点的数量增加(例如,大于50)时创建有效的回归器,并由此使得模型训练过程不稳定。
第二,这种方法在每个特征点周围提取诸如SIFT的丰富特征,并且,为了得到较好的预测性能,直接使用具有几千个维数的特征(包含有用特征和无用特征两者)。该高维数特征向量对于对准处理来说是高度冗余的,并由此使模型尺寸或者字典尺寸太大。
第三,由于特征向量的高维数,因此这种方法在训练期间需要巨量的训练样本,以避免过拟合(over-fitting)问题。
因此,希望可以提供能够应对以上问题中的至少一个的新的对象形状对准装置、新的对象处理装置及其方法。
发明内容
鉴于以上问题中的至少一个,提出了本发明。
本发明的一个目的是提供新的对象形状对准装置、新的对象处理装置及其方法。
本发明的另一目的是提供使得能够减小模型尺寸的对象形状对准装置、对象处理装置及其方法。
本发明的又一目的是提供使得能够实现更高的精度和/或更高的速度和/或更高的鲁棒性的对象形状对准装置、对象处理装置及其方法。
根据本发明的第一方面,提供一种用于对象图像的对象形状对准装置,该对象形状对准装置包括:被配置为从多个训练样本获取对象形状回归模型的单元,所述对象形状回归模型包含平均对象形状、多个回归函数和多个特征选择图;被配置为基于平均对象形状设定对象图像的初始对象形状的单元;被配置为计算关于初始对象形状的多个特征点的至少一个特征向量的单元;被配置为对于初始对象形状的所述多个特征点的每个坐标,基于所述多个特征选择图中的相应一个从计算出的特征向量选择特征片段(featurefragment)并将特征片段组装成子特征向量的单元;以及被配置为对于初始对象形状的至少一个特征点的至少一个坐标,基于相应的子特征向量和所述多个回归函数中的相应一个预测坐标增量的单元。
根据本发明的第二方面,提供一种用于对象图像的对象处理装置,该对象处理装置包括:被配置为检测对象图像中的对象的单元;被配置为通过本发明的对象形状对准装置对准检测到的对象的单元;以及被配置为基于对准的对象识别对象的属性的单元。
根据本发明的第三方面,提供一种用于对象图像的对象形状对准方法,该对象形状对准方法包括以下步骤:从多个训练样本获取对象形状回归模型,所述对象形状回归模型包含平均对象形状、多个回归函数和多个特征选择图;基于平均对象形状设定对象图像的初始对象形状;计算关于初始对象形状的多个特征点的至少一个特征向量;对于初始对象形状的所述多个特征点的每个坐标,基于所述多个特征选择图中的相应一个从计算出的特征向量选择特征片段并将特征片段组装成子特征向量;以及对于初始对象形状的至少一个特征点的至少一个坐标,基于相应的子特征向量和所述多个回归函数中的相应一个预测坐标增量。
根据本发明的第四方面,提供一种用于对象图像的对象处理方法,该对象处理方法包括以下步骤:检测对象图像中的对象;通过根据本发明的对象形状对准方法对准检测到的对象;以及基于对准的对象识别对象的属性。
通过以上特征,本发明的对象形状对准装置、对象处理装置及其方法能够减小模型尺寸。
另外,通过以上特征,本发明的对象形状对准装置、对象处理装置及其方法能够实现更高的精度和/或更高的速度和/或更高的鲁棒性。
从参照附图对示例性实施例的以下详细描述,本发明的进一步的目的、特征和优点将变得明显。
附图说明
被并入说明书中并构成其一部分的附图示出本发明的实施例,并与描述一起用于解释本发明的原理。
图1示意性地示出SDM的流程图;
图2示意性地示出级联SDM的流程图;
图3是可实现根据本发明的对象形状对准方法和对象处理方法的计算设备的硬件配置的示意性框图;
图4示意性地示出根据本发明的对象形状对准方法的一般流程图;
图5示意性地示出根据本发明的获取对象形状回归模型的步骤的流程图;
图6示意性地示出根据本发明的预测坐标增量的步骤的流程图;
图7示意性地示出根据本发明的级联对象形状对准方法的一般流程图;
图8示意性地示出根据本发明的对象处理方法的一般流程图;
图9示意性地示出根据本发明的对象形状对准装置的一般框图;
图10示意性地示出根据本发明的对象处理装置的一般框图;
图11示意性地示出SDM中来自三个特征点周围的局部图像块的提取特征;
图12示意性地示出图11的包围区域内的图像梯度;
图13示意性地示出图11的包围区域内的提取特征的放大图;
图14示意性地示出SDM的坐标增量预测公式;
图15包含(a)、(b)和(c),其示意性地示出根据本发明的获取对象形状回归模型的步骤中的三个训练样本的标注对象形状;
图16包含(a)、(b)和(c),其示意性地示出根据本发明的获取对象形状回归模型的步骤中的三个训练样本的初始对象形状;
图17包含(a)、(b)和(c),其示意性地示出根据本发明的获取对象形状回归模型的步骤中的三个训练样本的提取特征;
图18示意性地示出根据本发明的设定初始对象形状的步骤中的初始对象形状;
图19示意性地示出根据本发明的计算至少一个特征向量的步骤中的提取特征;
图20示意性地示出根据本发明的将特征点移动到它们的更新位置的步骤中的特征点移动;
图21示意性地示出本发明中的一个特征向量、三个特征选择图和三个子特征向量;
图22比较性地示出本发明中的提取特征和相应的所选特征,其中,(a)示意性地示出提取特征,而(b)~(d)示意性地示出相应的所选特征的三个例子;
图23示意性地示出本发明中的坐标增量预测公式;
图24分别示意性地示出SDM和本发明的模型尺寸生长曲线;以及
图25示意性地示出模型尺寸比(SDM与本发明之比)曲线。
具体实施方式
以下将参照附图详细描述本发明的示例性实施例。应注意,以下的描述在本质上仅是说明性的和示例性的,决不是意在限制本发明及其应用或用途。除非另外具体说明,否则,在实施例中阐述的组件和步骤的相对布置、数值表达式以及数值不限制本发明的范围。另外,本领域技术人员已知的技术、方法和设备可能不被详细讨论,但是在适当的情况下意在成为说明书的一部分。
如前所述,SDM采用包含多个特征的一个高维数特征向量(即,致密特征集)和用于整个对象形状的一个统一的回归函数来预测多个坐标的坐标增量,并由此具有许多问题,诸如多重共线性、特征冗余、过拟合等。在广泛及深入的研究之后,本发明的发明人发现了可通过执行特征选择来减少特征向量维数的新的对象形状对准方法和新的对象处理方法。更具体而言,在本发明中,如后面将看到的那样,使用L1范数正则化(L1-normregularized)线性回归方法,在所述L1范数正则化线性回归方法中,引入具有L1范数正则化的平方损失函数(squarelossfunction)的残差和(residualsum),并采用具有Lasso的最小角度回归(LeastAngleRegression),以使具有L1范数正则化的平方损失函数的残差和最小化。因此,本发明可对于对象形状的特征点的每个坐标,采用具有低得多的维数的特定的子特征向量(即,对坐标最相关或最有价值的特征片段)和特定的回归函数来预测其坐标增量。以这种方式,与现有技术的方法相比,本发明的对象形状对准方法和对象处理方法能够减小模型尺寸。并且,以这种方式,与现有技术的方法相比,本发明的对象形状对准方法和对象处理方法还能够实现更高的精度和/或更高的速度和/或更高的鲁棒性。
以下,首先,将参照图3描述可实现根据本发明的对象形状对准方法和/或对象处理方法的计算设备9000的示意性硬件配置。为了简化,仅示出一个计算设备。但是,也可根据需要使用多个计算设备。
如图3所示,计算设备9000可包含CPU9110、芯片集9120、RAM9130、存储控制器9140、显示控制器9150、硬盘驱动器9160、CD-ROM驱动器9170和显示器9180。计算设备9000还可包含连接在CPU9110和芯片集9120之间的信号线9210、连接在芯片集9120和RAM9130之间的信号线9220、连接在芯片集9120和各种外围设备之间的外围设备总线9230、连接在存储控制器9140和硬盘驱动器9160之间的信号线9240、连接在存储控制器9140和CD-ROM驱动器9170之间的信号线9250和连接在显示控制器9150和显示器9180之间的信号线9260。
客户机9300可直接或者经由网络9400与计算设备9000连接。客户机9300可向计算设备9000发送对象形状对准任务和/或对象处理任务,并且计算设备9000可将对象形状对准结果和/或对象处理结果返回到客户机9300。
接下来,将详细描述根据本发明的对象形状对准方法。这里,作为例子,假定要被对准的对象形状是面部形状。但是,很显然,其不必限于此。例如,根据本发明的对象形状对准方法也可被应用于各种其它的对象形状,诸如体部形状等。
图4示意性地示出根据本发明的对象形状对准方法的一般流程图。
如图4所示,首先,在步骤100处,从多个训练样本获取对象形状回归模型,所述对象形状回归模型包含平均对象形状、多个回归函数和多个特征选择图。
一般地,通过使用具有手动标注的对象形状的多个训练样本离线地预学习对象形状回归模型。图5给出对象形状回归模型获取步骤100的示例性流程图。
在图5中,首先,在步骤110处,获得具有标注对象形状的多个训练样本。
作为例子,多个面部图像可首先被收集并然后被手动地标注有预定的面部特征点,即,面部形状的真值(参见图15)。在图15中,示出了作为训练样本的三个面部图像(a)~(c);并且,对于每个面部图像,示出了例如15个标注特征点(即,用于每个眼睛的4个特征点,用于鼻子的3个特征点和用于嘴的4个特征点)。但是,训练样本的数量和特征点的数量不被特别限制,而是它们可被适当地选择。另外,可获得平均对象形状作为所述多个训练样本的标注对象形状的平均。
接下来,在步骤120处,对于每个训练样本,基于平均对象形状设定初始对象形状(参见图16(a)~(c)),并计算其多个特征点的每个坐标在其标注对象形状与其初始对象形状之间的残差。
这里,初始对象形状可被设定为平均对象形状自身。作为替代方案,可通过随机扰动平均对象形状来设定初始对象形状。如从图15与图16之间的比较可以看出的那样,对于每个训练样本,通常在标注对象形状与初始对象形状之间存在差异,并且可获得所述差异作为特征点坐标的残差。
然后,在步骤130处,对于每个训练样本,计算关于其初始对象形状的所述多个特征点的至少一个特征向量。
作为例子,对于每个训练样本,可从所述多个特征点周围的局部图像块提取SIFT特征,并然后可将所述多个特征点的提取的SIFT特征组装成关于所述多个特征点的一个特征向量。在图17(a)~(c)中示意性地示出提取的SIFT特征。在图17(a)~(c)中,为了简化,如图11那样,对于每个训练样本示出了仅用于三个特征点的SIFT特征描述符;从每个特征点(其位于其相应的局部图像块的中心处)周围的4×4格子的局部图像块提取SIFT特征;每个格子中的提取的SIFT特征的维数是8;并且,每个特征点的提取的SIFT特征的维数如4×4×8=128那样高。显然,每个训练样本的获得的特征向量是致密特征集,其包含非常丰富的特征,但具有非常高的维数。
顺便提及的是,要注意,局部图像块的尺寸不被特别限制,由此特征向量的维数不必限于以上情况。
另外,顺便提及的是,在图17(a)~(c)的例子中,提取了SIFT特征。但是,提取的特征的类型不被特别限制。而是,也可采用各种其它的特征,诸如加速鲁棒特征(SpeededUpRobustFeatures,SURF)、取向梯度直方图(HistogramofOrientedGradients,HOG)等。
随后,在步骤140处,对于所述多个训练样本的相应特征点的相应坐标,使用L1范数正则化线性回归方法在所述多个训练样本的特征向量与所述相应坐标的残差之间拟合对象形状回归模型。
步骤140的目的是学习特征向量与坐标残差之间的关系,以获得要在对准期间使用的特征选择图和回归函数。为此目的,在本发明中,使用L1范数正则化线性回归方法,在所述L1范数正则化线性回归方法中,引入具有L1范数正则化的平方损失函数的残差和,并采用具有Lasso的最小角度回归,以使具有L1范数正则化的平方损失函数的残差和最小化。
这例如可由下式(2)表示:
r ( β ) = arg min β [ 1 2 Σ i = 1 N | | Δs i - β 0 - Σ j = 1 P f ij · β j | | 2 2 + λ · Σ j = 1 P | β j | 1 ] - - - ( 2 )
这里,fij表示从第i个训练样本提取的特征向量的第j个维度;ΔSi表示第i个训练样本的特征点的某个坐标的残差;λ表示控制用于特征选择的稀疏度的系数;N表示训练样本的总数;P表示特征向量的维数的总数;β(诸如β0和βj)表示一系列的回归器参数;以及r表示所述某个坐标的回归函数。式(2)的含义是:寻找适当的β,使得括号中的表达式的值被最小化。很显然,只要获得了参数β,就获得了回归函数r。
在本发明中,引入L1范数正则化(参见式(2)中的最后项)。由于L1范数正则化的稀疏性能,因此学习到的参数矩阵将是主要由零占据的稀疏矩阵。只有与对于对准处理最相关或最有用的特征对应的元素才不为零。也就是说,它使得能够从致密特征集进行特征选择,由此减少特征向量的维数。由于只需要存储与最有用的特征对应的参数,因此有望大大减小模型尺寸。
也可通过下式(3)以向量的形式来表示式(2):
r ( β ) = 1 2 | | Δs - f · β | | 2 2 + λ · | β | 1 - - - ( 3 )
式(2)或式(3)是典型的Lasso问题,并可通过使用各种求解器(solver)来求解。在本发明中,例如采用具有Lasso的最小角度回归,其对于计算整个Lasso路径是极有效的算法。
顺便提及的是,如从式(2)和式(3)可容易地看出的那样,它们针对所述多个训练样本的相应特征点的相应坐标。更具体而言,假定对象形状S包含M个特征点,则它可由下式(4)表示:
S=[x1,x2,…,xM,y1,y2,...,yM](4)
这里,x和y表示特征点的坐标。于是,形状残差(或形状增量)ΔS可由每个坐标的坐标增量如下表示:
ΔS=[Δx1,Δx2,…,ΔxM,Δy1,Δy2,...,ΔyM](5)
这里,在式(2)和式(3)中,采用Δs表示来自M个特征点的某个坐标,其可指示Δx1至ΔxM和Δy1至ΔyM中的任一个。因此,例如,上述的“所述多个训练样本的相应特征点的相应坐标”指的是所述多个训练样本的所有的Δx2、所述多个训练样本的所有的ΔyM等。
在拟合步骤140之后,最后,在步骤150处,对于所述多个训练样本的相应特征点的相应坐标,记录特征向量中的所选特征片段的索引作为特征选择图,并记录与所选特征片段对应的参数作为回归函数的参数向量。
如前所述,由于引入了L1范数正则化,因此学习到的用于β的参数矩阵将是主要由零占据的稀疏矩阵。也就是说,使得能够从计算出的包含多个提取特征的特征向量仅选择作为最相关或者最有价值的特征片段的一些特征(其数量可例如由λ控制)。然后,特征向量中的所选特征片段的索引(与式(2)中的维数变量j对应)可被记录为要在对准期间使用的特征选择图。另外,与所选特征片段对应的参数βj可被记录为要在对准期间使用的回归函数的参数向量。
顺便提及的是,如从式(2)和式(3)可以容易地看出的那样,特征选择图(即,所选索引)和回归函数(即,其参数向量)两者都是针对所述多个训练样本的相应特征点的相应坐标。换句话说,对于对象形状中的每个坐标,获得一个相应的特征选择图和一个相应的回归函数。因此,对于对象形状中的多个坐标,在该步骤中获得多个特征选择图和多个回归函数。
到现在为止,已完成了训练过程。接下来,回到图4,可如步骤200~500中那样执行对准过程。
首先,在步骤200处,基于平均对象形状设定对象图像的初始对象形状(参见图18)。
如前所述,初始对象形状可被设定为平均对象形状自身。作为替代方案,可通过随机扰动平均对象形状来设定初始对象形状。在图18中,类似地,示出了15个特征点(即,用于每个眼睛的4个特征点,用于鼻子的3个特征点和用于嘴的4个特征点)。但是,特征点的数量不被特别限制,只要其与训练过程中的相同即可。
接下来,在步骤300处,计算关于初始对象形状的多个特征点的至少一个特征向量。
如前所述,可从初始对象形状的多个特征点中的每一个周围的局部图像块提取SIFT特征,然后,所述多个特征点的提取的SIFT特征可被组装成关于所述多个特征点的一个特征向量。图19示意性地示出提取的SIFT特征描述符。在图19中,为了简化,如图17(a)~(c)中那样,示出了仅用于三个特征点的SIFT特征描述符;从每个特征点(其位于其相应的局部图像块的中心处)周围的4×4格子的局部图像块提取SIFT特征;每个格子中的提取的SIFT特征的维数是8;并且,每个特征点的提取的SIFT特征的维数如4×4×8=128那样高。但要注意,图像块的尺寸(以及由此特征向量的维数)和提取特征的类型不被特别限制,只要它们与训练过程中的相同即可。也就是说,用于获得特征向量的该步骤与训练过程中的相同。
然后,在步骤400处,对于初始对象形状的所述多个特征点的每个坐标,基于所述多个特征选择图中的相应一个从计算出的特征向量选择特征片段并将所选特征片段组装成子特征向量。
更具体而言,例如可如下实施步骤400:在选择特征片段的情况下,基于所述多个特征选择图中的相应一个中的特征索引从计算出的特征向量选择特征片段;并且,在组装特征片段的情况下,基于所述多个特征选择图中的相应一个中的特征次序将特征片段组装成子特征向量。图21示意性地示出特征向量、特征选择图和子特征向量之间的关系。
虽然特征向量实际上包含用于多个特征点的特征,但是,为了简化,图21中的特征向量仅示出用于三个特征点的特征,其中,特征f1至f128、特征f129至f256、以及特征f257至f384分别与不同的特征点对应,并由此以不同的阴影被示出。显然,特征向量是致密特征集,其包含非常丰富的特征,但具有非常高的维数。
在本发明中,作为直接使用该高维数特征向量的替代,对于初始对象形状中的每个坐标,最相关或最有价值的特征片段基于特征选择图从其被选择,以被组装成具有低得多的维数的子特征向量。图21示意性地示出对于三个示例性坐标的特征选择图(a)至(c)以及相应的子特征向量(a)至(c)。如前所述,特征选择图包含特征向量中的所选特征片段的索引。特征选择图的形式不被特别限制,只要其能够指示所选特征片段即可。图21给出了特征选择图的示例性形式。更具体而言,特征选择图可以是具有与特征向量的维数相同的维数的向量。其元素为0或1。例如,“0”表示具有相同的维数索引的相应特征不被选择,而“1”表示具有相同的维数索引的相应特征被选择。然后,可基于特征选择图中的特征次序将每个坐标的所选特征片段组装成子特征向量。如从图21可以看出的那样,不同坐标的子特征向量可以不同。换句话说,子特征向量对于每个坐标是特定。并且,与特征向量的维数相比,子特征向量的维数被大大减少。
为了更好地示出本发明的特征选择结果,图22比较性地示出选择之前的SIFT特征(参见(a))和选择之后的SIFT特征的三个例子(参见(b)~(d))。为了简化,图22仅示出特征点周围的4个格子的SIFT特征描述符。在特征选择之前,每个格子中的特征维数是8(参见(a))。在特征选择之后,格子中的特征维数可低于8,并且具体情况依赖于对象形状中的坐标。
现在回到图4。在获得子特征向量之后,最后,在步骤500处,对于初始对象形状的至少一个特征点的至少一个坐标,基于相应的子特征向量和所述多个回归函数中的相应一个预测坐标增量。
例如,可如图6所示的那样实施坐标增量预测步骤500。
如图6所示,在步骤510处,对于所述至少一个特征点的所述至少一个坐标,首先获取所述多个回归函数中的相应一个的参数向量。
然后,在步骤520处,对于所述至少一个特征点的所述至少一个坐标,将相应的子特征向量投影到参数向量上以获得坐标增量。
这可由下式(6)表示:
Δs k = f k * r k t - - - ( 6 )
这里,Δsk表示对象形状中的第k个坐标的坐标增量(假定如式(5)中那样总共存在M个特征点,变量k的范围可以为1至2M,并且Δsk可指示从Δx1至ΔxM和Δy1至ΔyM中的任一个),fk表示第k个坐标的子特征向量,rk t表示对于某个对准处理(在重复T次的级联处理中,变量t的范围可以为1至T)的第k个坐标的回归函数,并且符号“*”表示投影或交互作用(诸如相乘、点积等)。图23给出式(6)的结构示意。在图23中,为了简化,与图14中那样,只示出用于4个格子的SIFT特征描述符。
顺便提及的是,要注意,用于预测坐标增量的步骤500只需要被应用于初始对象形状的至少一个特征点的至少一个坐标。但是,步骤500也可优选被应用于初始对象形状的多个特征点的每个坐标。在本发明中,这不被特别限制。
到现在为止,已示意性地描述了本发明的对象形状对准方法。通过SDM和本发明的方法之间的比较可以看出,SDM通过使用同一个特征向量和一个统一的回归函数来预测对象形状中的不同坐标的坐标增量;而本发明的对象形状对准方法通过使用不同的特征片段和不同的回归函数来独立地预测对象形状中的不同坐标的坐标增量。更具体而言,在SDM(参见式(1)和图14)中,采用包含多个特征的一个高维数特征向量F(即,致密特征集)和用于整个对象形状的一个统一的回归函数Rt来预测多个坐标的坐标增量ΔS;相对照地,在本发明(参见式(6)和图23)中,对于对象形状中的每个坐标,采用特定的子特征向量fk(具有低得多的维数且只包含最相关或最有价值的特征)和特定的回归函数rk t来独立地预测一个坐标的坐标增量Δsk。由于以上的原因,因此,本发明能够减小模型尺寸,实现更高的精度和/或更高的速度和/或更高的鲁棒性等,如以下将更清楚地看到的那样。
可选地,在对于初始对象形状中的坐标预测坐标增量之后,通过对于所述至少一个特征点的所述至少一个坐标添加相应的坐标增量,可将所述至少一个特征点移动到其更新位置。由此,获得了更新的对象形状。图20示意性地示出特征点移动。图20中的箭头指示特征点的更新位置,其看起来更接近真值。
另外,可选地,图4中的对准处理可被重复几次(例如,T次),以逐步接近对象形状的真值(这是为什么式(6)中的回归函数具有上标“t”的原因)。换句话说,可对对准处理采用级联回归器。图7给出了根据本发明的级联对象形状对准方法的示意性流程图。其主要步骤与图4的基本上相同。
如图7所示,首先,在步骤95处,变量t被设定为1。然后,处理依次前进到步骤100、200、300、400、500(其与图4中的相同)。接下来,在步骤600处,判断t是否小于阈值T(T是经验确定值;由于本发明的方法是Newton方法的变型,因此其收敛速度是二次的,由此T例如可以仅约为4~5)。如果是,那么处理前进到t被加1的步骤700,并然后回到步骤100;否则,处理结束。
也就是说,在本发明中,可通过使用不同的对象形状回归模型并将当前更新的对象形状设定为下一对象形状回归模型的初始对象形状,来依次重复执行获取对象形状回归模型的步骤、设定初始对象形状的步骤、计算所述至少一个特征向量的步骤、选择特征片段并组装特征片段的步骤、以及预测坐标增量的步骤。
要注意,虽然以上通过以面部形状为例描述了本发明的对象形状对准方法,但其不必限于此。实际上,本发明的对象形状对准方法也可被应用于各种其它的对象形状,包括但不限于例如体部形状。在对准体部形状的情况下,可检测诸如头、手、膝盖、脚等的体部部位的位置。
现在,将评价本发明的对象形状对准方法的效果。
通过利用包括FERET、PIE、BioID、IndianFaceDatabase、CVLAB和LabelledFacesintheWild(LFW)的公共可用的面部数据集来进行评价。为了在不同的条件下进行评价,将测试的面部图像分成6个数据集。3个数据集包含随机选自FERET、BioID、PIE、CVLAB和IndianFaceDatabase的面部图像,其在受控的室内条件下被收集并由此示出很小的背景、表情、照明等的变动。其它3个数据集包含随机选自LFW的面部图像,其从网络(即,在不受控的条件下)被收集并由此示出大的姿势、表情、照明、焦点、背景等的变动。
根据这6个数据集的RMSE(均方根误差)直方图结果和累积概率结果,本发明的对象形状对准方法的表现对随机选自相同条件的数据集是非常稳定的。可以断定,对所选数据集的表现可代表相应条件下的真实表现。并且,本发明的对象形状对准方法对于年龄、面部表情、视角、种族、照明等的变动是非常鲁棒的。
表1给出了LFW数据集上的SDM与本发明的对象形状对准方法之间的表现比较。
表1
如从表1清楚可见的那样,对于本发明的对象形状对准方法,模型尺寸大大减小,而时间成本相当,精度更好。
并且,表2示出相对于特征点数的SDM与本发明的模型尺寸和模型尺寸之比,并且在图24~25中示意性地示出这些结果。
表2
如从图24可以看出的那样,基本上,模型尺寸生长速率对于SDM是二次的,而其对于本发明的对象形状对准方法仅是线性的。因此,如从图25可以看出的那样,基本上,SDM与本发明之间的模型尺寸比的曲线是线性的。也就是说,与现有技术相比,本发明能够大大减小模型尺寸,并且该效果对于具有更多特征点的情况更明显。例如,在7个特征点的情况下,本发明的模型尺寸约为SDM的1/5;而在88个特征点的情况下,本发明的模型尺寸仅约为SDM的1/60。
概括而言,本发明的对象形状对准方法仅使用最相关的特征以用于预测,并由此去除了随机误差或不相关特征的噪声。这使得只需要更少量的训练样本,并由此克服了过拟合问题。另外,由于特征选择,因此,与现有技术相比,本发明的对象形状对准方法可进一步克服多重共线性问题,并大大地减小模型尺寸。结果,模型训练过程和对象形状对准过程两者都可被加速。并且,在级联过程的情况下,本发明的对象形状对准方法的收敛速率是二次的,并通常仅需要4~5次循环。
不用说,本发明的对象形状对准方法可被应用于各种领域。图8示意性地示出根据本发明的用于对象图像的对象处理方法的一般流程图。
如图8所示,首先,在步骤800处,检测对象图像中的对象。对象检测方法不被特别限制。
接下来,在步骤900处,通过根据本发明的对象形状对准方法来对准检测到的对象。也就是说,检测或定位特征点。
最后,在步骤1000处,基于对准的对象来识别对象的属性。对象的属性不被特别限制。例如,它们可包含但不限于表情、年龄、种族、性别、体部姿势及其组合。获得的属性可被广泛用于面部识别、表情分析、3D面部模拟、面部卡通动画、交互游戏控制、机器人控制、视觉监控系统中的人行为分析等。
更具体而言,一个应用例子涉及面部识别。例如,可根据本发明的对象形状对准方法来对准输入图像中检测到的面部,并然后可基于对准的面部来识别面部的属性。基于识别出的属性,可确定被检体的表情(诸如喜悦、悲伤、愤怒等)、年龄、种族、性别等。
另一应用例子涉及人行为分析。例如,可根据本发明的对象形状对准方法来对准输入图像中检测到的人体,并然后可基于对准的人体来识别人体的属性。基于识别出的属性,可确定被检体的诸如站、蹲、坐、躺等的人体姿势信息。
以下,简要概述本发明的对象形状对准方法和对象处理方法。
本发明的用于对象图像的对象形状对准方法可包括以下步骤:从多个训练样本获取对象形状回归模型,所述对象形状回归模型包含平均对象形状、多个回归函数和多个特征选择图;基于平均对象形状设定对象图像的初始对象形状;计算关于初始对象形状的多个特征点的至少一个特征向量;对于初始对象形状的所述多个特征点的每个坐标,基于所述多个特征选择图中的相应一个从计算出的特征向量选择特征片段并将特征片段组装成子特征向量;以及对于初始对象形状的至少一个特征点的至少一个坐标,基于相应的子特征向量和所述多个回归函数中的相应一个预测坐标增量。
在本发明的一些实施例中,在获取对象形状回归模型的步骤中,可使用L1范数正则化线性回归方法,在所述L1范数正则化线性回归方法中,引入具有L1范数正则化的平方损失函数的残差和,并采用具有Lasso的最小角度回归,以使具有L1范数正则化的平方损失函数的残差和最小化。
在本发明的一些实施例中,获取对象形状回归模型的步骤可进一步包括以下步骤:获得具有标注对象形状的多个训练样本,平均对象形状是所述多个训练样本的标注对象形状的平均;对于每个训练样本,基于平均对象形状设定初始对象形状,并计算其多个特征点的每个坐标在其标注对象形状与其初始对象形状之间的残差;对于每个训练样本,计算关于其初始对象形状的所述多个特征点的至少一个特征向量;对于所述多个训练样本的相应特征点的相应坐标,使用L1范数正则化线性回归方法在所述多个训练样本的特征向量与所述相应坐标的残差之间拟合对象形状回归模型;以及对于所述多个训练样本的相应特征点的相应坐标,记录特征向量中的所选特征片段的索引作为特征选择图并记录与所选特征片段对应的参数作为回归函数的参数向量。
在本发明的一些实施例中,在设定初始对象形状的步骤中,平均对象形状自身或随机扰动之后的平均对象形状可被设定为初始对象形状。
在本发明的一些实施例中,在计算所述至少一个特征向量的步骤中,可从初始对象形状的每个特征点周围的局部图像块提取SIFT特征。
在本发明的一些实施例中,在选择特征片段的步骤中,可基于所述多个特征选择图中的相应一个中的特征索引,从计算出的特征向量选择特征片段;并且,在组装特征片段的步骤中,可基于所述多个特征选择图中的相应一个中的特征次序,将特征片段组装成子特征向量。
在本发明的一些实施例中,预测坐标增量的步骤可进一步包括以下步骤:对于所述至少一个特征点的所述至少一个坐标,获取所述多个回归函数中的相应一个的参数向量;以及对于所述至少一个特征点的所述至少一个坐标,将相应的子特征向量投影到参数向量上以获得坐标增量。
在本发明的一些实施例中,对象形状对准方法可进一步包括以下步骤:通过对于所述至少一个特征点的所述至少一个坐标添加相应的坐标增量而将所述至少一个特征点移动到其更新位置。
在本发明的一些实施例中,可通过使用不同的对象形状回归模型并将当前更新的对象形状设定为下一对象形状回归模型的初始对象形状,来依次重复执行获取对象形状回归模型的步骤、设定初始对象形状的步骤、计算所述至少一个特征向量的步骤、选择特征片段并组装特征片段的步骤、以及预测坐标增量的步骤。
在本发明的一些实施例中,对象形状可包含面部形状或体部形状。
另外,本发明的用于对象图像的对象处理方法可包括以下步骤:检测对象图像中的对象;通过根据本发明的对象形状对准方法来对准检测到的对象;以及基于对准的对象来识别对象的属性。
在本发明的一些实施例中,对象的属性可包含表情、年龄、种族、性别和体部姿势的任何组合。
以下,将参照图9~10简要描述本发明的对象形状对准装置和对象处理装置。
如图9所示,本发明的用于对象图像的对象形状对准装置1200可包括:被配置为从多个训练样本获取对象形状回归模型的单元1210,所述对象形状回归模型包含平均对象形状、多个回归函数和多个特征选择图;被配置为基于平均对象形状设定对象图像的初始对象形状的单元1220;被配置为计算关于初始对象形状的多个特征点的至少一个特征向量的单元1230;被配置为对于初始对象形状的所述多个特征点的每个坐标,基于所述多个特征选择图中的相应一个从计算出的特征向量选择特征片段并将特征片段组装成子特征向量的单元1240;以及被配置为对于初始对象形状的至少一个特征点的至少一个坐标,基于相应的子特征向量和所述多个回归函数中的相应一个预测坐标增量的单元1250。
在本发明的一些实施例中,在被配置为获取对象形状回归模型的单元1210中,使用L1范数正则化线性回归方法,在所述L1范数正则化线性回归方法中,引入具有L1范数正则化的平方损失函数的残差和,并采用具有Lasso的最小角度回归,以使具有L1范数正则化的平方损失函数的残差和最小化。
在本发明的一些实施例中,被配置为获取对象形状回归模型的单元1210可进一步包含:被配置为获得具有标注对象形状的多个训练样本的单元,平均对象形状是所述多个训练样本的标注对象形状的平均;被配置为对于每个训练样本,基于平均对象形状设定初始对象形状,并计算其多个特征点的每个坐标在其标注对象形状与其初始对象形状之间的残差的单元;被配置为对于每个训练样本,计算关于其初始对象形状的所述多个特征点的至少一个特征向量的单元;被配置为对于所述多个训练样本的相应特征点的相应坐标,使用L1范数正则化线性回归方法在所述多个训练样本的特征向量与所述相应坐标的残差之间拟合对象形状回归模型的单元;以及被配置为对于所述多个训练样本的相应特征点的相应坐标,记录特征向量中的所选特征片段的索引作为特征选择图并记录与所选特征片段对应的参数作为回归函数的参数向量的单元。
在本发明的一些实施例中,在被配置为设定初始对象形状的单元1220中,平均对象形状自身或随机扰动之后的平均对象形状可被设定为初始对象形状。
在本发明的一些实施例中,在被配置为计算所述至少一个特征向量的单元1230中,可从初始对象形状的每个特征点周围的局部图像块提取SIFT特征。
在本发明的一些实施例中,在被配置为选择特征片段并组装特征片段的单元1240中,可基于所述多个特征选择图中的相应一个中的特征索引,从计算出的特征向量选择特征片段;并且可基于所述多个特征选择图中的相应一个中的特征次序,将特征片段组装成子特征向量。
在本发明的一些实施例中,被配置为预测坐标增量的单元1250可进一步包含:被配置为对于所述至少一个特征点的所述至少一个坐标,获取所述多个回归函数中的相应一个的参数向量的单元;以及被配置为对于所述至少一个特征点的所述至少一个坐标,将相应的子特征向量投影到参数向量上以获得坐标增量的单元。
在本发明的一些实施例中,对象形状对准装置1200可进一步包括:被配置为通过对于所述至少一个特征点的所述至少一个坐标添加相应的坐标增量而将所述至少一个特征点移动到其更新位置的单元。
在本发明的一些实施例中,可通过使用不同的对象形状回归模型并将当前更新的对象形状设定为下一对象形状回归模型的初始对象形状,来依次重复执行被配置为获取对象形状回归模型的单元1210、被配置为设定初始对象形状的单元1220、被配置为计算所述至少一个特征向量的单元1230、被配置为选择特征片段并组装特征片段的单元1240、以及被配置为预测坐标增量的单元1250的操作。
在本发明的一些实施例中,对象形状可包含面部形状或体部形状。
另外,如图10所示,本发明的用于对象图像的对象处理装置2000可包括:被配置为检测对象图像中的对象的单元2010;被配置为通过本发明的对象形状对准装置来对准检测到的对象的单元2020;以及被配置为基于对准的对象来识别对象的属性的单元2030。
在本发明的一些实施例中,对象的属性可包含表情、年龄、种族、性别和体部姿势的任何组合。
到现在为止,已示意性地描述了根据本发明的对象形状对准装置、对象处理装置及其方法。应注意,所有以上装置是用于实现本发明的对象形状对准方法和/或对象处理方法的示例性的优选模块。但是,以上没有穷尽地描述用于实现各种步骤的模块。一般地,在存在执行某个处理的步骤的情况下,则存在用于实现相同处理的相应的功能模块或装置。另外,应注意,可将两个或更多个装置组合为一个装置,只要可实现它们的功能即可;另一方面,可将任一个装置分成多个装置,只要可实现类似的功能即可。
可以通过许多方式实现本发明的方法、设备和装置。例如,可以通过软件、硬件、固件或其任何组合来实现本发明的方法、设备和装置。另外,方法步骤的上述次序仅意在是说明性的,并且,除非另外具体说明,否则本发明的方法的步骤不必限于以上具体描述的次序。此外,在一些实施例中,本发明也可实施为记录于记录介质中的程序,包括用于实现根据本发明的方法的机器可读指令。由此,本发明还涵盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已参照示例性实施例描述了本发明,但要理解,本发明不限于公开的示例性实施例。对于本领域技术人员而言显然的是,在不背离本发明的范围和精神的情况下,可修改以上的示例性实施例。所附的权利要求的范围要被赋予最宽的解释,以包含所有这样的修改以及等同的结构和功能。

Claims (24)

1.一种用于对象图像的对象形状对准装置,包括:
被配置为从多个训练样本获取对象形状回归模型的单元,所述对象形状回归模型包含平均对象形状、多个回归函数和多个特征选择图;
被配置为基于平均对象形状设定对象图像的初始对象形状的单元;
被配置为计算关于初始对象形状的多个特征点的至少一个特征向量的单元;
被配置为对于初始对象形状的所述多个特征点的每个坐标,基于所述多个特征选择图中的相应一个从计算出的特征向量选择特征片段并将特征片段组装成子特征向量的单元;以及
被配置为对于初始对象形状的至少一个特征点的至少一个坐标,基于相应的子特征向量和所述多个回归函数中的相应一个来预测坐标增量的单元。
2.根据权利要求1的对象形状对准装置,其中,在被配置为获取对象形状回归模型的单元中,使用L1范数正则化线性回归方法,在所述L1范数正则化线性回归方法中,引入具有L1范数正则化的平方损失函数的残差和,并采用具有Lasso的最小角度回归,以使具有L1范数正则化的平方损失函数的残差和最小化。
3.根据权利要求2的对象形状对准装置,其中,被配置为获取对象形状回归模型的单元还包括:
被配置为获得具有标注对象形状的所述多个训练样本的单元,平均对象形状是所述多个训练样本的标注对象形状的平均;
被配置为对于每个训练样本,基于平均对象形状设定初始对象形状,并计算其多个特征点的每个坐标在其标注对象形状与其初始对象形状之间的残差的单元;
被配置为对于每个训练样本,计算关于其初始对象形状的所述多个特征点的至少一个特征向量的单元;
被配置为对于所述多个训练样本的相应特征点的相应坐标,使用L1范数正则化线性回归方法在所述多个训练样本的特征向量与所述相应坐标的残差之间拟合对象形状回归模型的单元;以及
被配置为对于所述多个训练样本的相应特征点的相应坐标,记录特征向量中的所选特征片段的索引作为特征选择图并记录与所选特征片段对应的参数作为回归函数的参数向量的单元。
4.根据权利要求1的对象形状对准装置,其中,在被配置为设定初始对象形状的单元中,平均对象形状自身或随机扰动之后的平均对象形状被设定为初始对象形状。
5.根据权利要求1的对象形状对准装置,其中,在被配置为计算所述至少一个特征向量的单元中,从初始对象形状的每个特征点周围的局部图像块提取SIFT特征。
6.根据权利要求1的对象形状对准装置,其中,在被配置为选择特征片段并组装特征片段的单元中,
基于所述多个特征选择图中的相应一个中的特征索引,从计算出的特征向量选择特征片段;以及
基于所述多个特征选择图中的相应一个中的特征次序,将特征片段组装成子特征向量。
7.根据权利要求1的对象形状对准装置,其中,被配置为预测坐标增量的单元还包括:
被配置为对于所述至少一个特征点的所述至少一个坐标,获取所述多个回归函数中的相应一个的参数向量的单元;以及
被配置为对于所述至少一个特征点的所述至少一个坐标,将相应的子特征向量投影到参数向量上以获得坐标增量的单元。
8.根据权利要求1至7中任一项的对象形状对准装置,还包括:
被配置为通过为所述至少一个特征点的所述至少一个坐标添加相应的坐标增量而将所述至少一个特征点移动到其更新位置的单元。
9.根据权利要求1至7中任一项的对象形状对准装置,其中,通过使用不同的对象形状回归模型并将当前更新的对象形状设定为下一对象形状回归模型的初始对象形状,来依次重复执行被配置为获取对象形状回归模型的单元、被配置为设定初始对象形状的单元、被配置为计算所述至少一个特征向量的单元、被配置为选择特征片段并组装特征片段的单元、以及被配置为预测坐标增量的单元的操作。
10.根据权利要求1至7中任一项的对象形状对准装置,其中,对象形状包含面部形状或体部形状。
11.一种用于对象图像的对象处理装置,包括:
被配置为检测对象图像中的对象的单元;
被配置为通过权利要求1至10中任一项的对象形状对准装置对准检测到的对象的单元;以及
被配置为基于对准的对象来识别对象的属性的单元。
12.根据权利要求11的对象处理装置,其中,对象的属性包含表情、年龄、种族、性别和体部姿势的任何组合。
13.一种用于对象图像的对象形状对准方法,包括以下步骤:
从多个训练样本获取对象形状回归模型,所述对象形状回归模型包含平均对象形状、多个回归函数和多个特征选择图;
基于平均对象形状设定对象图像的初始对象形状;
计算关于初始对象形状的多个特征点的至少一个特征向量;
对于初始对象形状的所述多个特征点的每个坐标,基于所述多个特征选择图中的相应一个从计算出的特征向量选择特征片段并将特征片段组装成子特征向量;以及
对于初始对象形状的至少一个特征点的至少一个坐标,基于相应的子特征向量和所述多个回归函数中的相应一个预测坐标增量。
14.根据权利要求13的对象形状对准方法,其中,在获取对象形状回归模型的步骤中,使用L1范数正则化线性回归方法,在所述L1范数正则化线性回归方法中,引入具有L1范数正则化的平方损失函数的残差和,并采用具有Lasso的最小角度回归,以使具有L1范数正则化的平方损失函数的残差和最小化。
15.根据权利要求14的对象形状对准方法,其中,获取对象形状回归模型的步骤还包括以下步骤:
获得具有标注对象形状的所述多个训练样本,平均对象形状是所述多个训练样本的标注对象形状的平均;
对于每个训练样本,基于平均对象形状设定初始对象形状,并计算其多个特征点的每个坐标在其标注对象形状与其初始对象形状之间的残差;
对于每个训练样本,计算关于其初始对象形状的所述多个特征点的至少一个特征向量;
对于所述多个训练样本的相应特征点的相应坐标,使用L1范数正则化线性回归方法在所述多个训练样本的特征向量与所述相应坐标的残差之间拟合对象形状回归模型;以及
对于所述多个训练样本的相应特征点的相应坐标,记录特征向量中的所选特征片段的索引作为特征选择图并记录与所选特征片段对应的参数作为回归函数的参数向量。
16.根据权利要求13的对象形状对准方法,其中,在设定初始对象形状的步骤中,平均对象形状自身或随机扰动之后的平均对象形状被设定为初始对象形状。
17.根据权利要求13的对象形状对准方法,其中,在计算所述至少一个特征向量的步骤中,从初始对象形状的每个特征点周围的局部图像块提取SIFT特征。
18.根据权利要求13的对象形状对准方法,其中,
在选择特征片段的步骤中,基于所述多个特征选择图中的相应一个中的特征索引,从计算出的特征向量选择特征片段;以及
在组装特征片段的步骤中,基于所述多个特征选择图中的相应一个中的特征次序,将特征片段组装成子特征向量。
19.根据权利要求13的对象形状对准方法,其中,预测坐标增量的步骤还包括以下步骤:
对于所述至少一个特征点的所述至少一个坐标,获取所述多个回归函数中的相应一个的参数向量;以及
对于所述至少一个特征点的所述至少一个坐标,将相应的子特征向量投影到参数向量上以获得坐标增量。
20.根据权利要求13至19中任一项的对象形状对准方法,还包括以下步骤:
通过为所述至少一个特征点的所述至少一个坐标添加相应的坐标增量而将所述至少一个特征点移动到其更新位置。
21.根据权利要求13至19中任一项的对象形状对准方法,其中,通过使用不同的对象形状回归模型并将当前更新的对象形状设定为下一对象形状回归模型的初始对象形状,来依次重复执行获取对象形状回归模型的步骤、设定初始对象形状的步骤、计算所述至少一个特征向量的步骤、选择特征片段并组装特征片段的步骤、以及预测坐标增量的步骤。
22.根据权利要求13至19中任一项的对象形状对准方法,其中,对象形状包含面部形状或体部形状。
23.一种用于对象图像的对象处理方法,包括以下步骤:
检测对象图像中的对象;
通过权利要求13至22中任一项的对象形状对准方法对准检测到的对象;以及
基于对准的对象来识别对象的属性。
24.根据权利要求23的对象处理方法,其中,对象的属性包含表情、年龄、种族、性别和体部姿势的任何组合。
CN201410482349.3A 2014-09-19 2014-09-19 对象形状对准装置、对象处理装置及其方法 Active CN105426929B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410482349.3A CN105426929B (zh) 2014-09-19 2014-09-19 对象形状对准装置、对象处理装置及其方法
US14/857,669 US9600884B2 (en) 2014-09-19 2015-09-17 Object shape aligning apparatus, object processing apparatus and methods thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410482349.3A CN105426929B (zh) 2014-09-19 2014-09-19 对象形状对准装置、对象处理装置及其方法

Publications (2)

Publication Number Publication Date
CN105426929A true CN105426929A (zh) 2016-03-23
CN105426929B CN105426929B (zh) 2018-11-27

Family

ID=55505126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410482349.3A Active CN105426929B (zh) 2014-09-19 2014-09-19 对象形状对准装置、对象处理装置及其方法

Country Status (2)

Country Link
US (1) US9600884B2 (zh)
CN (1) CN105426929B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766867A (zh) * 2016-08-15 2018-03-06 佳能株式会社 对象形状检测装置及方法、图像处理装置及系统、监视系统
CN111428563A (zh) * 2020-02-25 2020-07-17 吉林大学 一种汽车全液晶仪表图像识别方法
CN111639518A (zh) * 2020-03-06 2020-09-08 上海卓繁信息技术股份有限公司 一种满意度测评方法,装置及存储设备

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6325405B2 (ja) * 2014-09-22 2018-05-16 株式会社東芝 特徴点検出装置、方法及びプログラム
CN106874838B (zh) * 2016-12-30 2020-04-07 中国科学院自动化研究所 融合互补特征的视觉人体行为识别方法
US10192127B1 (en) * 2017-07-24 2019-01-29 Bank Of America Corporation System for dynamic optical character recognition tuning
US10346702B2 (en) 2017-07-24 2019-07-09 Bank Of America Corporation Image data capture and conversion
US10402995B2 (en) * 2017-07-27 2019-09-03 Here Global B.V. Method, apparatus, and system for real-time object detection using a cursor recurrent neural network
CN107451560B (zh) * 2017-07-31 2020-05-19 Oppo广东移动通信有限公司 用户表情识别方法、装置及终端
CN108960136B (zh) * 2018-06-29 2021-01-19 杭州西纬软件科技有限公司 人脸对齐算法中初始人脸形状的确定方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040105491A1 (en) * 1999-10-21 2004-06-03 Ulug Bayazit Method and apparatus for estimating and controlling the number of bits output from a video coder
CN101499132A (zh) * 2009-03-12 2009-08-05 广东药学院 一种人脸图像中特征点提取的三维变换搜索方法
CN102637254A (zh) * 2012-02-25 2012-08-15 杨星 一种回归反射目标的检测系统
US8374442B2 (en) * 2008-11-19 2013-02-12 Nec Laboratories America, Inc. Linear spatial pyramid matching using sparse coding
CN103310219A (zh) * 2012-03-08 2013-09-18 佳能株式会社 配准对象形状的精度评估方法和设备、配准的方法和设备
CN103984948A (zh) * 2014-06-03 2014-08-13 南京大学 一种基于人脸图像融合特征的软双层年龄估计方法
CN104050628A (zh) * 2013-03-11 2014-09-17 佳能株式会社 图像处理方法和图像处理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928405B2 (en) * 2014-01-13 2018-03-27 Carnegie Mellon University System and method for detecting and tracking facial features in images
US20160070952A1 (en) * 2014-09-05 2016-03-10 Samsung Electronics Co., Ltd. Method and apparatus for facial recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040105491A1 (en) * 1999-10-21 2004-06-03 Ulug Bayazit Method and apparatus for estimating and controlling the number of bits output from a video coder
US8374442B2 (en) * 2008-11-19 2013-02-12 Nec Laboratories America, Inc. Linear spatial pyramid matching using sparse coding
CN101499132A (zh) * 2009-03-12 2009-08-05 广东药学院 一种人脸图像中特征点提取的三维变换搜索方法
CN102637254A (zh) * 2012-02-25 2012-08-15 杨星 一种回归反射目标的检测系统
CN103310219A (zh) * 2012-03-08 2013-09-18 佳能株式会社 配准对象形状的精度评估方法和设备、配准的方法和设备
CN104050628A (zh) * 2013-03-11 2014-09-17 佳能株式会社 图像处理方法和图像处理装置
CN103984948A (zh) * 2014-06-03 2014-08-13 南京大学 一种基于人脸图像融合特征的软双层年龄估计方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766867A (zh) * 2016-08-15 2018-03-06 佳能株式会社 对象形状检测装置及方法、图像处理装置及系统、监视系统
CN111428563A (zh) * 2020-02-25 2020-07-17 吉林大学 一种汽车全液晶仪表图像识别方法
CN111428563B (zh) * 2020-02-25 2022-04-01 吉林大学 一种汽车全液晶仪表图像识别方法
CN111639518A (zh) * 2020-03-06 2020-09-08 上海卓繁信息技术股份有限公司 一种满意度测评方法,装置及存储设备

Also Published As

Publication number Publication date
US20160086053A1 (en) 2016-03-24
CN105426929B (zh) 2018-11-27
US9600884B2 (en) 2017-03-21

Similar Documents

Publication Publication Date Title
CN105426929A (zh) 对象形状对准装置、对象处理装置及其方法
CN109446927B (zh) 基于先验知识的双人交互行为识别方法
CN111444828B (zh) 一种模型训练的方法、目标检测的方法、装置及存储介质
US9075453B2 (en) Human eye controlled computer mouse interface
Zhou et al. Visual tracking and recognition using appearance-adaptive models in particle filters
CN102682302B (zh) 一种基于关键帧的多特征融合的人体姿态识别方法
Cretu et al. Soft object deformation monitoring and learning for model-based robotic hand manipulation
JP2014522035A (ja) オブジェクト姿勢検索装置及び方法
Slama et al. Grassmannian representation of motion depth for 3D human gesture and action recognition
JP6487642B2 (ja) 手指形状の検出方法、そのプログラム、そのプログラムの記憶媒体、及び、手指の形状を検出するシステム。
CN104200203B (zh) 一种基于动作字典学习的人体动作检测方法
CN104517097A (zh) 一种基于kinect的运动人体姿态识别方法
CN108171133A (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN105893942B (zh) 一种基于eSC和HOG的自适应HMM的手语识别方法
WO2017116879A1 (en) Recognition of hand poses by classification using discrete values
CN106485750A (zh) 一种基于监督局部子空间的人体姿态估计方法
Liu et al. Trampoline motion decomposition method based on deep learning image recognition
CN105654061A (zh) 基于估计补偿的三维人脸动态重建方法
Morel et al. Automatic evaluation of sports motion: A generic computation of spatial and temporal errors
Półrola et al. Real-time hand pose estimation using classifiers
Alharbi et al. A data preprocessing technique for gesture recognition based on extended-kalman-filter
Liu et al. Latent subspace projection pursuit with online optimization for robust visual tracking
Lee et al. Tracking hand rotation and various grasping gestures from an IR camera using extended cylindrical manifold embedding
CN113158870A (zh) 2d多人姿态估计网络的对抗式训练方法、系统及介质
CN112507940A (zh) 一种基于差分指导表示学习网络的骨骼动作识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant