CN104050628A - 图像处理方法和图像处理装置 - Google Patents

图像处理方法和图像处理装置 Download PDF

Info

Publication number
CN104050628A
CN104050628A CN201310075530.8A CN201310075530A CN104050628A CN 104050628 A CN104050628 A CN 104050628A CN 201310075530 A CN201310075530 A CN 201310075530A CN 104050628 A CN104050628 A CN 104050628A
Authority
CN
China
Prior art keywords
object shapes
parameter vector
parameter
current
input picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310075530.8A
Other languages
English (en)
Other versions
CN104050628B (zh
Inventor
朱福国
胥立丰
李献
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201310075530.8A priority Critical patent/CN104050628B/zh
Publication of CN104050628A publication Critical patent/CN104050628A/zh
Application granted granted Critical
Publication of CN104050628B publication Critical patent/CN104050628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明内容涉及图像处理方法和图像处理装置。该图像处理方法包括:设置步骤,设置初始对象形状和初始参数向量,其中初始参数向量是通过对初始对象形状执行降维变换得到的;以及多个回归步骤,其中,每个回归步骤的输入是输入图像和与当前参数向量对应的当前对象形状,该回归步骤的输出是与通过对当前参数向量进行更新得到的参数向量对应的对象形状。根据该技术方案,当执行该方法时,将显著地减小将被占用的内存量。

Description

图像处理方法和图像处理装置
技术领域
本发明涉及图像处理,并且更具体地,涉及用于对准输入图像中的对象形状的图像处理方法和图像处理装置。
背景技术
在诸如人脸识别、表情分析、3D人脸建模和人脸卡通动画之类的许多计算机视觉领域中,自动并精确地对准输入图像中的人脸形状是关键的任务。一旦对准人脸形状,就可以准确地执行用于处理人脸图像的后续操作。
众所周知,可以通过一组特征点来表示输入图像中作为对象形状的人脸形状,更具体地,可以通过一组特征点的坐标来表示输入图像中作为对象形状的人脸形状。通常,在人脸对准方法中可以使用两种模型。一种模型是在如下文档中描述的活动形状模型(ASM),该文档是T.F.Cootes、C.J.Taylor等人的“Active Shape Models-TheirTraining and Application”,其在1992年发表在BMVC中。在ASM中,点分布模型获取描述局部外观的一组特征点的梯度分布和形状变量。通过局部地查找对于每个特征点的局部最优匹配,来迭代地更新形状参数。另一种模型是在如下文档中描述的主动外观模型(AAM),该文档是T.F.Cootes、G.J.Edwards和C.J.Taylor的“ActiveAppearance Models”,其在1998年发表在ECCV中。在AAM中,通过将形状变化的模型与纹理变化的模型相组合来限制外观和形状。使用AAM可以通过使用外观模型来重构整个人脸,并通过使纹理残差最小化来估计形状。
可以通过突出特征点的图像外观来可靠地表征突出特征点。然而,人脸中的非突出特征点可以根据来自全局形状限制的特征点之间的相关性来表示,所述非突出特征点可以包括例如沿着人脸轮廓的点。在ASM和AAM中,使用通过对对象形状的坐标执行主成分分析(PCA)构建的固定参数形状模型来对形状限制进行建模。
最近,提供了一种在如下文档中描述的方法,该文档是来自Microsoft Research Asia的Xudong Cao、Yichen Wei等人的“FaceAlignment by Explicit Shape Regression”,其在2012年发表在CVPR中。该方法(在下文中被称为“D1方法”)引入了一种用于执行人脸对准的基于回归的方式,该方式使用一系列的预定向量回归函数(显式形状回归)来推导由一组特征点表示的整个人脸形状。在图16中示出了D1方法的流程图,并将在下面进行描述。D1方法中的回归函数(也可以被称为回归器)是为了使得对准误差最小化而从大量训练数据学习得到的,而并不使用如ASM和AAM中的固定参数形状模型。
当执行图16所示的D1方法时,可以清楚地看到在回归过程中使用人脸形状S。更具体地,输入人脸图像。根据可以通过使用在如下文档中描述的方法确定的人脸位置矩形,来确定其人脸形状将被对准的输入图像,该文档是Paul Viola和Michael Jones的“Rapid ObjectDetection using a Boosted Cascade of Simple Features”,并在2001年发表于与计算机视觉和模式识别相关会议(CVPR)中。在步骤S1610处,针对输入图像,设置初始人脸形状S0。在步骤S1620-S1630处,依次执行级联的T个回归器。在步骤S1620处,执行第t个回归器(t是从1到T的整数),以估计当前人脸形状St-1和将被对准的真实人脸形状之间的人脸形状增量ΔS。D1方法中的人脸形状属于对象形状,在该步骤处,基于第t个回归器根据当前人脸形状St-1来计算输入图像中的一组像素差特征,该组像素差特征有利于对人脸形状增量ΔS的估计。在步骤S1630处,通过使用St=St-1+ΔS来更新人脸形状,St将在下一回归器中作为该下一回归器的当前人脸形状被使用。在步骤S1640处,确定t是否等于或大于T。如果确定t等于或大于T,则过程前进到步骤S1650并结束。如果确定t不等于或大于T,则通过使用t=t+1来更新t,并且过程返回到步骤S1620。
使用D1方法在公共可用的挑战数据库上的实验结果表明,D1方法显著地超过使用ASM和AAM的方法以及其他传统方法。然而,由于D1方法是基于人脸形状上的特征点的坐标来执行的,而不同的特征点通常是高度相关的,因此可能导致对于最小平方(LS)回归系数的不准确估计,这可能降低在D1方法中使用的回归器的性能。而且,由于在D1方法中使用的每个回归器利用名称为Fern(树型)的全二叉树结构来根据当前人脸形状和将被对准的输入图像输出人脸形状增量,因此每个回归器将在它的叶子节点中存储多个人脸形状增量。由于人脸形状通常具有大的维度(例如,用174维向量表示人脸形状),所以回归器的规模变得非常大,从而导致D1方法占据大量的内存。
发明内容
本发明提供了图像处理方法和图像处理装置,能够对准输入图像中的对象形状,以在对对象形状执行对准时减小将被占据的由于在回归过程中使用的大量预存储数据而导致的较大内存量。
根据本发明的一个方面,提供了一种图像处理方法。该图像处理方法包括:设置步骤,设置初始对象形状和初始参数向量,其中所述初始参数向量是通过对所述初始对象形状执行降维变换得到的;以及多个回归步骤,其中,每个回归步骤的输入是输入图像和与当前参数向量对应的当前对象形状,该回归步骤的输出是与通过对所述当前参数向量进行更新得到的参数向量对应的对象形状。
根据本发明的另一方面,提供了一种图像处理装置。该图像处理装置包括:设置单元,被配置为设置初始对象形状和初始参数向量,其中所述初始参数向量是通过对所述初始对象形状执行降维变换得到的;以及多个回归单元,其中,每个回归单元的输入是输入图像和与当前参数向量对应的当前对象形状,该回归单元的输出是与通过对所述当前参数向量进行更新得到的参数向量对应的对象形状。
基于上述技术方案,与D1方法相比,回归步骤可以更新参数向量并然后更新对象形状,而不是直接更新对象形状。由于回归步骤需要更新参数向量,因此存储参数向量的增量而不是对象形状的增量。由于参数向量的维度比对象形状的维度小很多,因此可以显著地减小预存储数据的量,从而可以显著地减小当对对象形状执行对准时将被占据的内存量,从而导致节省系统资源。
附图说明
并入说明书并且构成说明书的一部分的附图图示了本发明的实施例,并且与描述一起用于说明本发明的原理。
图1是可以实现本发明的实施例的计算机系统的示例性硬件配置的框图。
图2是示出根据本发明的实施例的图像处理方法的流程图。
图3是示出对象形状样本的一些例子的示图。
图4是示出通过基于四个主成分对平均对象形状进行变换而得到的对象形状的一些例子的示图。
图5是根据本发明的另一实施例的图像处理方法的流程图。
图6是示出均在其上放置有平均对象形状的两个输入图像的例子的示图。
图7是示出用于回归器的树结构的例子的示图。
图8是示出根据本发明的实施例的确定参数向量增量的方法的流程图。
图9是示出如何通过当前对象形状索引输入图像中的像素的例子的示图。
图10A和10B是示出在一些公共可用的人脸数据库上执行根据本发明实施例的图像处理方法而得到的评估结果的示图。
图11是通过对一些图像执行根据本发明实施例的图像处理方法而得到的人脸对准结果的一些例子的示图。
图12是示出构建在本发明的实施例中使用的回归器的方法的流程图。
图13是根据本发明的实施例的构建一个回归器的方法的流程图。
图14A和14B分别是示出在人脸图像上放置的初始人脸形状和通过利用根据本发明实施例的方法得到的人脸形状的示图。
图15A和15B分别是示出输入x射线图像和通过利用根据本发明实施例的方法得到的手形状的示图。
图16是根据相关技术的D1方法的流程图。
图17是示出根据本发明的实施例的图像处理装置的框图。
图18是示出根据本发明的另一实施例的图像处理装置的框图。
具体实施方式
以下将参照附图详细描述本发明的实施例。请注意,类似的附图标记表示图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。
图1是示出可以实现本发明的实施例的计算机系统1000的硬件配置的框图。
如图1所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。
诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为装置中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
接下来,将参考图2描述根据本发明的实施例的图像处理方法200。
如图2所示,方法200包括设置步骤210和多个回归步骤220-1至220-T。在设置步骤S210处,设置初始对象形状和初始参数向量,其中初始参数向量是通过对初始对象形状执行降维变换得到的。在回归步骤220-1至220-T中的每个回归步骤(为了简化,每个回归步骤可以被表示为回归步骤220)处,回归步骤220的输入是输入图像和与当前参数向量对应的当前对象形状,该回归步骤220的输出是与通过对该当前参数向量进行更新得到的参数向量对应的对象形状。
当多个回归步骤220-1至220-T完成时,从最后一个回归步骤220-T输出的对象形状可以被用作在输入图像中对准的对象形状。
具体地,根据本发明的实施例,对象形状可以定义对象的形状,例如人脸的形状、手的形状等。它可以由可能对定义对象的形状起关键作用的多个特征点构成。例如,人脸形状可以由包括眼睛中心、眼角、鼻尖、嘴角、人脸轮廓上的多个点等的特征点构成。由于,每个特征点可以由其坐标(例如,包括x分量和y分量的坐标)表示,因此对象形状可以由包括在该对象形状中的特征点的坐标来表示。
参数向量是通过对对象形状执行降维变换而得到的。参数向量可以被视为其相应的对象形状在维度比对象形状的维度低的空间上的投影。通过降维变换,高维的对象形状可以被变换为低维的参数向量。相反,通过该降维变换的逆变换,参数向量可以被变换为对象形状。
可能有许多种方式用于参数向量和对象形状之间的变换。根据本发明的实施例,通过对大量对象形状样本执行统计分析而得到的变换矩阵和平均对象形状可以被用于降维变换,该变换矩阵由一组基本形状构成。此外,平均对象形状是所述大量对象形状样本的平均。通过用变换矩阵和平均对象形状执行降维变换,可以极大地减小对象形状的维度并将对象形状有效地变换为具有极低维度的参数向量。例如,使用平均对象形状和变换矩阵,维度为176的对象形状和维度为16的参数向量可以相互变换。
对象形状样本是基于图像样本的,并且可以以参照图3所描述的方式而获得。首先,提供N个输入图像(这里,N例如是3,但是N可以大于10000)。可以通过在上述题为“Rapid Object Detection usinga Boosted Cascade of Simple Features”的文档中的方法来将人脸检测矩形设置在每个输入图像上。对于被归一化了的每个矩形,获得图3所示的N个输入图像样本。然后,在每个输入图像样本中,根据规定的定义对象形状的特征点来手工地标记对象形状(这里,人脸形状)。由图3所示的虚线指示的被标记的对象形状被用作对象形状样本,该对象形状样本由包括在眼睛、眉毛、鼻子、嘴巴、人脸轮廓等周围的多个点的特征点构成。
当准备了大量对象形状样本时,可以执行统计分析以获得对象形状和参数向量之间的变换方式。例如,统计分析可以包括主成分分析(PCA)、因子分析等。通过统计分析,可以得到平均对象形状和变换矩阵,使得任何对象形状可以被投影到低维空间中的参数向量,并且任何参数向量可以被变换为高维空间中的相应的对象形状。
例如,PCA计算对象形状样本的主轴,以允许使用参数形状模型用较少的参数近似例如人脸检测矩形中出现的任何原始输入图像中的对象形状,从而任何对象形状可以被投影为参数向量。通过PCA,例如,当保持97.5%的能量时,可以得到16个主成分。在图4中示出了前4个主成分。
在图4中,前三个主成分(PC1-PC3)分别指示相对于平均对象形状的伸缩(scaling)、偏向(yaw)、转动(roll)的改变。第四个主成分(PC4)指示相对于平均对象形状的诸如嘴巴的运动之类的微细变化。为了简化而未在这里示出的其他主成分代表对象形状相对于平均对象形状的其他变化特性。一个基本形状对应于一个主成分。当在平均对象形状上叠加基本形状时,这意味着平均对象形状受到相应的主成分的影响。并且,基本形状可以被加权以在平均对象形状上叠加。
使用平均对象形状和由可以对应于主成分的一组基本形状构成的变换矩阵φ,对象形状S和相应的参数向量P之间的关系可以被表达如下:
S = S ‾ + φP - - - ( 1 )
其等价于 P = φ - 1 ( S - S ‾ ) .
由于变换矩阵φ由一组基本形状构成,其是正交矩阵,因此,φ-1T。从而,其中φT的每一列可以包含一个基本形状。
通过变换矩阵和平均对象形状,可以构建任何对象形状。例如,包括平均对象形状和变换矩阵φ的通过PCA构建的参数形状模型可以对例如人脸姿势变化(例如,伸缩、旋转(rotation)和偏移(shift))以及人脸内的变化(例如,嘴巴、鼻子和眼睛的表情)进行编码。
在方法200中使用式(1)的情况下,在步骤S210处,可以将初始对象形状S0设置为平均对象形状,并且可以将初始参数向量P0设置为0。
接下来,将描述回归步骤220。假设有T个回归步骤220-1至220-T需要在方法200中被执行。当前运行的回归步骤(例如,第t个回归步骤)的输入是将被对准的输入图像和当前对象形状(St-1),该回归步骤的输出是与通过更新对应于当前对象形状(St-1)的当前参数向量(Pt-1)而得到的参数向量(Pt)对应的对象形状(St)。第t个回归步骤的输出被输入到第(t+1)个回归步骤。
将参照图5详细描述回归步骤S220的流程。图5示出了根据本发明的示例性实施例的用于对准输入图像中的对象形状的图像处理方法500的流程图。
在步骤S510中,对于输入图像设置初始对象形状S0
包含N个特征点的对象形状可以被表示为2N维的向量S=[x1,x2,…,xN,y1,y2,...,yN]T,其中每个特征点可以由坐标(xn,yn)表示。
当对象是人脸时,输入图像可以受到人脸位置矩形限制,人脸位置矩形可以使用现有的方法来识别人脸的位置。初始对象形状(S0)可以是包括多个特征点并由它们的坐标表示的任意形状。根据通过PCA构建的参数形状模型可以将初始对象形状(S0)设置为
图6示出了两个输入图像,在每个输入图像上放置有平均对象形状。通过将由人脸位置矩形限制的人脸调整大小为固定尺寸来将输入图像中的人脸归一化。
在步骤S520处,通过对初始对象形状(S0)执行降维变换来计算初始参数向量(P0)。
更具体地,通过将初始对象形状投影到在降维变换中使用的一组基本形状上,计算初始参数向量。在通过PCA构建的参数形状模型的情况下, P 0 = φ - 1 ( S 0 - S ‾ ) = φ T ( S 0 - S ‾ ) .
在步骤S530-S550处,依次执行T(例如,2000)个回归步骤。由于每个回归步骤除了在其中使用的回归器之外具有相似的流程,因此也可以以迭代的方式来描绘T个回归步骤以示出它们的关系。以第t(t是从1到T的整数)个回归步骤为例来描述每个回归步骤的流程图。
在确定步骤S530处,根据输入图像和与当前参数向量(Pt-1)对应的当前对象形状(St-1),通过使用与第t个回归步骤对应的预定回归器来确定当前参数向量(Pt-1)的参数向量增量(ΔP)。
预定回归器是通过提前以与D1方法中的方式类似的方式使用大量输入图像样本进行训练而得到的。每个回归步骤对应一个回归器。也就是说,第t个回归步骤对应第t个回归器。
根据本发明的实施例,每个回归器可以包括多个特征描述符和查找表。每个特征描述符可以包括与该特征描述符指示的特征相关联的两个像素坐标和预定阈值。所述两个像素坐标用于表示相对于平均对象形状上的特征点的位移,所述查找表用于存储参数向量增量。
更具体地,回归器可以具有图7所示的树结构。树的非叶子节点可以存储特征描述符,树的叶子节点可以存储参数向量增量。一个非叶子节点可以存储指示一个特征的一个特征描述符,该特征可以由包括在对象形状中的特征点来表示。一个叶子节点可以存储一个估计的参数向量增量,该参数向量增量是在用于构建回归器的训练期间确定的。所有的叶子节点可以被视为保存有参数向量增量的查找表。
通过特征描述符,可以基于当前对象形状和输入图像来计算特征值(例如,图7中的f1、f2和f3),这将在之后进行描述。然后,将特征值与存储在特征描述符中的阈值(例如,图7中的thr1、thr2和thr3)进行比较,以决定去到哪个子路径。在所有的特征描述符被使用之后,可以到达某个叶子节点,从而在完成确定步骤S530之后输出该叶子节点中存储的参数向量增量。
现在,参考图8来描述如何确定参数向量增量。
在图8所示的方法800中,在计算子步骤S810处,根据包括在第t个回归器中的多个特征描述符对于输入图像计算特征值。
更具体地,在相似变换子步骤S812处,通过平均对象形状和当前对象形状的最小平方拟合,计算平均对象形状()和当前对象形状(St-1)之间的相似变换。在该步骤处,计算相似变换矩阵以通过平均对象形状和当前对象形状的最小平方拟合将平均对象形状映射到当前对象形状。
然后,对于多个特征描述符中的每一个,执行坐标变换子步骤S814、强度值获取子步骤S816和特征值获取子步骤S818。
在坐标变换子步骤S814处,对于每个特征描述符,根据所述相似变换将包括在该特征描述符中的两个像素坐标变换为针对当前对象形状的两个像素坐标。在该步骤处,通过使用在步骤S812中得到的所计算的相似变换矩阵,将通过平均对象形状索引的像素坐标变换为通过当前对象形状索引的像素坐标。
在强度值获取子步骤S816处,对于每个特征描述符,获取输入图像中与变换后的两个像素坐标对应的两个像素的强度值。
在特征值获取子步骤S818处,对于每个特征描述符,通过将这两个像素的强度值之差与包括在该特征描述符中的预定阈值进行比较,获取与该特征描述符对应的值为0或1的特征值。在该步骤处,通过将两个像素强度值之差与阈值相比较来计算特征值如下:
其中,坐标(Δx1,Δy1)和(Δx2,Δy2)是两个像素坐标,这两个像素坐标中的每一个表示相对于当前对象形状的位移。这两个坐标是通过使用在步骤S814处描述的上述相似变换从相对于平均对象形状的存储在特征描述符中的像素坐标变换得到的。thr是存储在特征描述符中的阈值,其通过在诸如(0.1*min(I(x,y)),0.1*max(I(x,y)))的范围内被随机生成而已经在回归器的训练期间被确定了。min(I(x,y))和max(I(x,y))是输入图像的像素强度值的最小值和最大值。例如,该范围可以被设置为(-20,20)。
图9示出了如何通过当前对象形状索引输入图像中的像素。从图9中可以看到,当前对象形状中的特征点被设置为原点,从而围绕该特征点的像素可以通过距离该特征点的相对位移(Δxn,Δyn)被确定。
在确定子步骤S820处,通过根据特征值参考包括在第t个回归器中的查找表来确定当前参数向量的参数向量增量。
当一个特征描述符被处理时,将得到一个特征值。当所有特征描述符被处理时,可以得到一组特征值。使用该组特征值来索引查找表,可以获取相应的参数向量增量。
如上所述,通过执行第t个回归器,可以通过将预先存储在第t个回归器中的信息应用到输入图像和当前对象形状(St-1)来计算一组特征值。使用该组特征值,可以在第t个回归器中找到参数向量增量(ΔP)以被输出。
根据本发明的实施例,参数向量增量(ΔP)的分量中的至少一个可以被设置为0。可以随机选择哪个或哪些分量可以被设置为0,但是应该确保在执行多个回归器之后,参数向量增量的所有分量需要被选择来用于更新参数向量。
返回图5。在更新步骤S540处,根据所确定的参数向量增量(ΔP)来更新当前参数向量(Pt-1),以得到下一参数向量(Pt)。
例如,可以通过Pt=Pt-1+ΔP获得下一参数向量(Pt)。当然,Pt可以是Pt-1和通过小于1的系数加权的ΔP之和。
在变换步骤S550处,通过对下一参数向量(Pt)进行降维变换的逆变换将下一参数向量(Pt)变换为下一对象形状(St)。
更具体地,在通过PCA获得的参数形状模型的情况下,其中,φ是每一行包含基本形状的变换矩阵,参数向量Pt被用作φ的权重。通过在对象形状样本上应用主成分分析并保留一组主成分来计算基本形状,使得通过PCA得到的参数形状模型可以表示某一比例(例如,98%)的数据总变化。
在步骤S560处,确定t是否大于或等于T。如果确定t大于或等于T,则过程前进到步骤S570并结束。如果确定t不大于或等于T,则通过使用t=t+1来更新t,并且过程返回到步骤S530。
根据上述方法,通过对对象形状样本执行PCA,可以产生参数形状模型,从而可以有效并显著地减小对象形状的维度。此外,由于从回归器输出的参数向量增量的维度(其与参数向量的维度相同)比对象形状的维度小得多,因此回归器的规模可以显著地减小,从而相应地将显著地减小要被占用的内存量。而且,由于从回归器输出的参数向量增量的至少一个分量但不是全部分量可以被设置为0,因此回归器的规模可以被进一步减小。
在上述方法中,在可以作为对象形状在PC(主成分)上的投影系数向量的参数向量上进行回归而不是直接在对象形状上进行回归有两个主要原因。首先,对象形状上的特征点的坐标通常是高度相关的(多重共线性(multicollinearity)),其可能引起对最小平方(LS)回归系数的不准确估计。这可以通过使用对象形状在主成分上的投影系数向量来取代原始对象形状被避免,因为PC是非相关的。第二,通过使用参数向量增量或其子集而不是对象形状增量来预测下一对象形状,可以极大地减小回归器的规模。
发明人在包括FERET、PIE、BioID、Indian Face Database(印度人脸数据库)、CVLAB以及Labeled Faces in the Wild(自然环境下的标记人脸)(LFW)的公共可用人脸数据库上测试了上述实施例中的方法的性能。为了分析在不同条件下的性能,发明人将待测试的图像划分为6个子集。前三个子集包含从FERET、BioID、PIE、CNLAB和Indian Face Database中随机选择的图像。这些图像在受控的室内条件下被收集,并在背景、表情和光照方面表现出很少的变化。其他三个子集包含从LFW中随机选择的图像,这些图像从web(万维网)收集,并在姿势、表情、光照、聚焦和背景方面表现出较大的变化。
在图10A和10B中示出了评估结果。图10A示出了在被测试的数据集合上的累积概率。图10B示出了在被测试的数据集合上的RMSE(Root Mean Square Error,均方根误差)直方图。集合A、B和C是在受控的条件下收集的,集合D、E和F是在未受控的条件下收集的。从图10A和10B可以看到,性能在从相同条件随机选择的数据集合上是非常稳定的。因此,可以得出结论,在所选择的数据集合上的性能可以表示在相应条件下的真实性能。
表1示出了在LFW数据集合上RMSE小于给定阈值的被测试图像的百分比。该表格比较了D1方法和在本发明的实施例中所提出的方法。
表1
从表1可以清楚地看到,所提出的方法具有比D1方法高的准确度。更重要地,表征相同数量的所有被使用回归器占用的内存量的回归器大小在所提出的方法中比在D1方法中小得多。
图11示出了通过使用所提出的方法得到的人脸对准结果。将被对准的每个输入图像是从开放式人脸数据集合LFW(Labeled Faces inthe Wild)中挑选出来的。从图11可以清楚地看到,所提出的方法可以准确地对准输入图像中的人脸形状。
虽然在本发明的实施例中使用的回归器可以以与D1方法中的方式类似的方式被训练,但是仍然存在一些不同,主要是因为在本发明的实施例中使用的回归器存储参数向量增量,而在D1方法中使用的回归器存储对象形状增量。通过该说明书的教导和建议,本领域技术人员可以容易地构建或建造在本发明的实施例中使用的回归器。
图12示出了构建在本发明的实施例中使用的回归器的方法1200的流程图。构建过程也可以被称为模型学习过程或回归器建造过程。
在步骤S1210处,收集大量的输入图像样本(例如,10000个、15000个等),其中,手工地对每个输入图像样本进行标记以获得相应的被标记的对象形状。
在步骤S1220处,通过将输入图像样本和对象形状坐标映射到具有固定大小的模板上来将每个输入图像样本归一化。
给定N个训练中输入图像样本,生成N个对象形状Si(i=1,…,N)。在对这些向量(即,对象形状)执行统计分析之前,应当将对象形状在同一坐标系下表示,以消除由于整体平移引起的差异。其中消除整体平移的最常用方法是叠合分析(Procrustes Analysis)。通过执行该分析,所有的对象形状无需相似变换,并且所创建的参数形状模型可以仅仅对形状变形进行编码。
由于将被检测的对象(例如,人脸)不仅在形状方面改变,而且在相似性姿势(例如,人脸大小、中心位置和旋转角度)方面改变,所以,为了同时处理形状变形和姿势变化,通过使用上述的人脸检测矩形来将输入图像样本归一化,并且人脸检测矩形被用作对象形状的坐标系统。
在步骤S1230处,通过对被归一化的对象形状执行主成分分析(PCA)来构建参数形状模型。在这样的情况下,可以通过式(1)来表示参数形状模型。主成分的子集可以被保持作为一组基本形状。
如图4和相应内容所描述的,通过PCA构建的参数形状模型可以用平均对象形状和由基于主成分的一组基本形状所构成的变换矩阵来表示任何对象形状。
在步骤S1240处,通过随机扰动平均对象形状的参数向量,然后将扰动后的参数向量逆变换为对象形状,来为每个输入图像样本设置起始对象形状。
更具体地,对于每个输入图像样本,设置起始对象形状。首先,通过随机扰动与该输入图像样本的被标记的对象形状对应的真实参数向量,来生成起始参数向量。也就是说,起始参数向量P0可以通过如下获得:
P0=Ptruth+ε      (3)
其中,Ptruth是基于已知的被标记的对象形状和降维变换(例如参数形状模型)而作为已知向量的真实参数向量,ε是维度与参数向量的维度相同的均匀分布的随机向量λi是与第i个主成分对应的特征值。
然后,起始参数向量P0被反向投影为相应的对象形状S0用作起始对象形状。
在步骤S1250处,学习一组加性(additive)回归函数以将起始对象形状拟合到被标记的对象形状。每个回归函数对应一个回归器。函数学习过程是回归器建造过程。
在该步骤处,在如下文档中描述的级联Fern回归可以被用作用于训练在诸如方法200或500之类的提出的方法中所使用的级联回归器的一种方法,该文档为Piotr Doll′ar、Peter Welinder和PietroPerona的“Cascaded Pose Regression”,并在2010年发表在CVPR中。Fern首先被引入来进行分类,然后被用于回归。Fern可以具有图7所示的树结构。如上所述,每个非叶子节点可以对应于包括两个像素坐标和预定阈值的一个特征描述符。例如,Fern可以具有F级(例如,5级),每一级对应于一个特征描述符。如通过式(2)计算的第i个特征值fi可以与第i个阈值相比较,使得长度为F的二进制识别标志(例如,00101=5,01001=9以及10111=23)可以被创建。使用二进制识别标志作为索引,可以获取存储在叶子节点中的参数向量增量。通过Fern,每个输入图像样本以及它相关联的信息将去到2F个叶子节点(也被称为叶子容器(bin))之一中。对于每个叶子节点,通过将落入该叶子节点中的真实对象形状的真实参数向量和当前对象形状的当前参数向量之间的差值进行平均,可以计算该叶子节点中存储的参数向量增量。简而言之,图7所示的Fern弱回归器的结构包括2F个叶子节点,并且每个叶子节点包含真实参数向量和当前参数向量之间的残余的参数向量的平均值。
为了形成良好的Fern回归器,在上述文档“Cascaded PoseRegression”中公开的方法通过随机生成Fern池并且选择具有最小回归误差的一个来构建Fern。该方法被称为n-Best,其中,n是池的大小。由于组合爆炸(combinatorial explosion)(可能的Fern数量为,N是像素强度差特征值的数量),对于所有可能的Fern来评估回归误差是不可行的。此外,D1方法提出了基于相关性的特征选择方法,该特征选择方法已被证明比n-Best方法好很多。本发明的实施例采用与D1方法中的方式基本相同的方式来选择将在Fern中使用的特征。
更具体地,当训练级联回归器时,第i个回归器基于当前输入到第i个回归器的输入图像样本、真实对象形状以及训练期间的当前对象形状(也被称为当前训练中的对象形状)来输出第i个参数向量增量。第(i+1)个回归器基于当前输入到第(i+1)个回归器的输入图像样本、真实对象形状以及当前训练中的对象形状来输出第(i+1)个参数向量增量。输入到第(i+1)个回归器的当前训练中的对象形状是通过对如下参数向量进行逆变换而得到的,该参数向量是用第i个参数向量增量更新输入到第i个回归器的当前训练中的对象形状的参数向量而得到的。
关于每个回归器,可以通过图13所示的方法1300来构建回归器。请注意,输入到第t个回归器的当前训练中的对象形状是通过所有之前的回归器的校正从上述的起始对象形状而推导出的。
在像素坐标确定步骤S1310处,确定与平均对象形状相关联的多个像素坐标。
在该步骤处,可以随机选择或采样通过平均对象形状索引的N个(例如,400个)像素位置,从而可以选择N个像素坐标,每个像素坐标包括x分量和y分量。
接下来,对于用于构建回归器的多个输入图像样本中的每一个,执行映射步骤S1320、强度差确定步骤S1330和映射值获取步骤S1340。
在映射步骤S1320处,对于每个当前训练中的对象形状(等价于对于每个输入图像样本),将与平均对象形状相关联的多个像素坐标映射到与该输入图像样本对应的当前训练中的对象形状,以获得与该当前训练中的对象形状相关联的多个像素坐标。
在该步骤处,对于每个当前训练中的对象形状(等价于对于每个输入图像样本),与平均对象形状相关的上述N个像素坐标被变换为与该当前训练中的对象形状相关的N个像素坐标。
在强度差确定步骤S1330处,对于每个当前训练中的对象形状,确定输入图像样本中与该当前训练中的对象形状相关联的多个像素坐标对应的像素之间的强度差。
在该步骤处,确定像素强度值。通过将当前训练中的对象形状放置在相应的输入图像样本上,用与该当前训练中的对象形状相关的N个像素坐标来指示这些像素。由于可以得到N个像素强度值,所以可以生成总共N2个像素强度差,每个像素强度差是两个像素强度值之间的差值。
在映射值获取步骤S1340处,对于每个当前训练中的对象形状,将与该当前训练中的对象形状对应的当前训练中的参数向量和与相应的输入图像样本对应的真实对象形状所对应的参数向量之差映射到随机选择的方向上,以获取映射值。
在该步骤处,对参数残差(parameter residual)(每个参数残差是与当前训练中的对象形状对应的当前训练中的参数向量和与相应的输入图像样本对应的真实对象形状所对应的参数向量之差)进行处理。为了进一步减小可以是弱回归器的回归器的规模,可以随机选择参数残差的子集。在该弱回归器中可以仅仅处理所选择的参数残差的分量。例如,在没有准确度损失的前提下,可以选择一个参数残差中的所有分量的一半。在这样的情况下,如果参数残差具有16个分量,则可以仅仅选择8个分量来在该回归器中进行处理。例如,参数残差的子集可以被表示如下:
ΔP=[0,...,Δpi,...,Δpj,0,...]
接着,可以将参数残差ΔP投影到随机的方向上以产生标量y:
y=RK×1ΔPT
其中,RK×1是具有零均值和单位方差的随机向量(K等于参数向量中的分量的数量)。向量RK×1中的每个元素rij可以被选择如下:
在相关运算步骤S1350处,对针对与多个输入图像样本对应的多个当前训练中的对象形状获得的映射值和强度差执行相关运算,以获得相关值。
在该步骤处,对于所有的输入图像样本计算像素强度差ΔI和投影的标量值y之间的相关值。接着,可以选择具有最大的相关值ρΔIy的特征来对应于自树的顶部起的一个非叶子节点。
ρ ΔIy = Cov ( ΔI , y ) D ( ΔI ) D ( y ) = Cov ( I 1 - I 2 , y ) D ( I 1 - I 2 ) D ( y )
其中,Cov()表示用于计算协方差的操作,D()表示用于计算方差的操作,I1和I2表示两个像素强度值。
在特征描述符生成步骤S1360处,根据前N个最大的相关值选择强度差,对于所选择的强度差设置阈值,并将与所选择的强度差对应的与平均对象形状相关联的像素坐标和所设置的阈值存储为包括在回归器中的特征描述符。
如上所述,在诸如(0.1*min(I(x,y)),0.1*max(I(x,y)))的范围内随机选择所设置的阈值。
在该步骤处,可以在完成步骤S1350之后一次选择前N个最大的相关值。在另一实施例中,可以在步骤S1320-S1350之后选择前N个最大的相关值中的每一个。因此,步骤S1320-S1350需要被执行N次以得到前N个最大的相关值。
在分类步骤S1370处,对于与每个输入图像样本对应的每个当前训练中的对象形状,根据所存储的像素坐标和阈值,对与该当前训练中的对象形状对应的当前训练中的参数向量和与该输入图像样本对应的真实对象形状对应的参数向量之差进行分类。
通过该步骤,树的每个叶子节点将存储落入该节点中的多个差值(参数残差)。
在查找表获取步骤S1380处,获取划分在同一类中的差值的平均值,并将该平均值存储在包括在回归器中的查找表中,作为该类的参数向量增量。
因此,通过上述步骤,所选择的像素坐标、所设置的阈值以及所获取的参数向量增量被保存以用于与回归器对应的回归函数。
返回图12。在步骤S1260处,保存学习到的回归函数,以用于对任意输入图像进行处理来对准该输入图像中的对象形状。
根据所提出的诸如方法500之类的在上述实施例中描述的方法,当使用该方法来处理人脸图像以对准人脸图像中的人脸形状时,该方法中的对象形状指的是人脸形状。在图14A中示出了放置在人脸图像上的初始人脸形状S0。通过级联的t个回归器,可以将初始参数向量P0依次更新为P1、P2、P3、……、Pt。当对最后一个参数向量Pt执行降维变换的逆变换时,可以将Pt变换为人脸形状St,该人脸形状St对准人脸图像中的人脸形状,如图14B所示。
在另一例子中,当使用该方法来处理x射线图像以对准x射线图像中的手形状时,该方法中的对象形状指的是手形状。可以将初始手形状S0放置在图15A所示的x射线图像上。通过级联的t个回归器,可以将初始参数向量P0依次更新为P1、P2、P3、……、Pt。当对最后一个参数向量Pt执行降维变换的逆变换时,可以将Pt变换为手形状St,该手形状St对准x射线图像中的手形状,如图15B所示。
除了人脸形状和手形状之外,本领域技术人员还可以想到对象形状的其它例子,诸如花朵形状、脚形状等。
根据本发明实施例的方法可以被使用在诸如人脸识别、表情分析、3D人脸建模和人脸卡通动画之类的许多应用中。人脸表情分析的一个例子可以如下。首先,可以对输入图像执行人脸检测。然而,可以对检测到的人脸图像通过根据本发明实施例的方法来执行人脸对准。在这之后,可以基于对准后的人脸形状来执行人脸表情识别。因此,可以识别并输出诸如高兴、悲伤和生气之类的表情。
通过所提出的根据本发明实施例的图像处理方法,与图16所示的D1方法相比,由于在所提出的方法中的每个回归器输出参数向量增量ΔP而不是对象形状增量ΔS,因此每个回归器存储参数向量增量而不是维度比参数向量增量的维度高的对象形状增量。因此,可以显著地减小回归器的规模,从而相应地将显著地减小要被占用的内存量。而且,由于所提出的方法使用诸如PCA之类的统计分析来得到降维变换,所以可以有效并显著地减小对象形状的维度。
上面描述了根据本发明实施例的图像处理方法。接下来,将参考图17和18描述根据本发明实施例的图像处理装置。
在图17中,图像处理装置1700可以包括设置单元1710和多个回归单元1720-1至1720-T。设置单元1710可以被配置为设置初始对象形状和初始参数向量,其中初始参数向量是通过对初始对象形状执行降维变换得到的。每个回归单元的输入可以是输入图像和与当前参数向量对应的当前对象形状,该回归单元的输出可以是与通过对所述当前参数向量进行更新得到的参数向量对应的对象形状。
根据本发明的实施例,从最后一个回归单元1720-T输出的对象形状可以用作在输入图像中对准的对象形状。
对于设置单元1710和多个回归单元1720-1至1720-T的上述和其它操作和/或功能,可以参照关于方法200的相应描述,从而,为了避免重复,在此将不对这些单元进行详细描述。
基于根据本发明实施例的图像处理装置,与D1方法相比,回归单元可以更新参数向量并然后更新对象形状,而不是直接更新对象形状。由于回归单元需要更新参数向量,因此存储参数向量的增量而不是对象形状的增量。由于参数向量的维度比对象形状的维度小很多,因此可以显著地减小预存储数据的量,从而可以显著地减小当对对象形状执行对准时将被占据的内存量,从而导致节省系统资源。
图18示出了根据本发明的另一实施例的另一图形处理装置1800。设置单元1810和多个回归单元1820-1至1820-T基本上与图17中的设置单元1710和多个回归单元1720-1至1720-T相同。
回归单元1820-1至1820-T中的每一个可以具有相同的结构。为了简便,以下描述回归单元1820-1的结构。本领域技术人员可以容易地想到其它回归单元1820-2至1820-T可以具有与回归单元1820-1的结构相同的结构。
根据本发明的实施例,回归单元1820-1可以包括确定单元1830、更新单元1840和变换单元1850。确定单元1830可以被配置为根据输入图像和与当前参数向量对应的当前对象形状,通过使用与该回归单元对应的预定回归器来确定当前参数向量的参数向量增量。更新单元1840可以被配置为根据所确定的参数向量增量来更新当前参数向量,以得到下一参数向量。变换单元1850可以被配置为通过对该下一参数向量执行降维变换的逆变换将该下一参数向量变换为下一对象形状。
根据本发明的实施例,通过对大量对象形状样本执行统计分析而得到的变换矩阵和平均对象形状可以被用于降维变换,该变换矩阵由一组基本形状构成。
根据本发明的实施例,统计分析可以是主成分分析。
根据本发明的实施例,降维变换可以被定义如下:参数向量等于变换矩阵的逆矩阵与该参数向量所对应的对象形状和平均对象形状之差的乘积。
根据本发明的实施例,每个回归器可以包括多个特征描述符和查找表,每个特征描述符包括与该特征描述符指示的特征相关联的两个像素坐标和预定阈值,所述两个像素坐标用于表示相对于平均对象形状上的特征点的位移,所述查找表用于存储参数向量增量。
根据本发明的实施例,确定单元1830可以包括计算子单元1860和确定子单元1870。计算子单元1860可以被配置为根据多个特征描述符对于输入图像计算特征值。确定子单元1870可以被配置为通过根据特征值参考查找表来确定当前参数向量的参数向量增量。
根据本发明的实施例,计算子单元1860可以包括相似变换子弹元1862、坐标变换子单元1864、强度值获取子单元1866和特征值获取子单元1868。相似变换子单元1862可以被配置为通过平均对象形状和当前对象形状的最小平方拟合,计算平均对象形状和当前对象形状之间的相似变换。坐标变换子单元1864可以被配置为对于多个特征描述符中的每一个,根据相似变换将包括在该特征描述符中的两个像素坐标变换为针对当前对象形状的两个像素坐标。强度值获取子单元1866可以被配置为对于多个特征描述符中的每一个,获取输入图像中与变换后的两个像素坐标对应的两个像素的强度值。特征值获取子单元1868可以被配置为对于多个特征描述符中的每一个,通过将这两个像素的强度值之差与该特征描述符中的预定阈值进行比较,获取与该特征描述符对应的值为0或1的特征值。
根据本发明的实施例,在多个回归单元中使用的回归器可以依次级联,每个回归器通过如下单元构建,所述如下单元包括像素坐标确定单元、映射单元、强度差确定单元、映射值获取单元、相关运算单元、特征描述符生成单元、分类单元和查找表获取单元。这些单元中的全部或一部分可以被包括在装置1800中,或者这些单元可以被包括在另一装置中。
像素坐标确定单元可以被配置为确定与平均对象形状相关联的多个像素坐标。映射单元可以被配置为对于用于构建该回归器的多个输入图像样本中的每一个,将与平均对象形状相关联的多个像素坐标映射到该输入图像样本对应的当前对象形状上,以获得与该当前对象形状相关联的多个像素坐标。强度差确定单元可以被配置为对于用于构建该回归器的多个输入图像样本中的每一个,确定该输入图像样本中与该当前对象形状相关联的多个像素坐标对应的像素之间的强度差。映射值获取单元可以被配置为对于用于构建该回归器的多个输入图像样本中的每一个,将与该当前对象形状对应的当前参数向量和与该输入图像样本对应的真实对象形状对应的参数向量之差映射到随机选择的方向上,以获取映射值。相关运算单元可以被配置为对针对多个输入图像样本对应的多个当前对象形状获得的映射值和强度差执行相关运算,以获得相关值。特征描述符生成单元可以被配置为根据前N个最大相关值选择强度差,对于所选择的强度差设置阈值,并将与所选择的强度差对应的与平均对象形状相关联的像素坐标和所设置的阈值存储为包括在该回归器中的特征描述符。分类单元可以被配置为对于每一个输入图像样本对应的当前对象形状,根据所存储的像素坐标和阈值,对与该当前对象形状对应的当前参数向量和与该输入图像样本对应的真实对象形状对应的参数向量之间的差值进行分类。查找表获取单元可以被配置为获取划分在同一类中的差值的平均值,并将平均值存储在包括在该回归器中的查找表中作为该类的参数向量增量。
根据本发明的实施例,参数向量增量中的至少一个分量可以被设置为0。
根据本发明的实施例,对象形状可以由与包含在该对象形状中的多个特征点对应的坐标表示。
对于所有的上述单元的上述和其它操作和/或功能,可以参照关于方法200、500、1200和1300的相应描述,从而,为了避免重复,在此将不对这些单元进行详细描述。
在所提出的根据本发明实施例的图形处理装置中,由于每个回归器输出参数向量增量ΔP而不是对象形状增量ΔS,因此每个回归器存储参数向量增量而不是维度比参数向量增量的维度高的对象形状增量。因此,可以显著地减小回归器的规模,从而相应地将显著地减小要被占用的内存量。而且,由于使用诸如PCA之类的统计分析来得到降维变换,所以可以有效并显著地减小对象形状的维度。此外,由于从回归器输出的参数向量增量的至少一个分量可以被设置为0,所以可以进一步减小回归器的规模。
可以以许多方式来实施本发明的方法和装置。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和装置。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已通过例子详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述例子仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附权利要求限定的。

Claims (22)

1.一种图像处理方法,包括:
设置步骤,设置初始对象形状和初始参数向量,其中所述初始参数向量是通过对所述初始对象形状执行降维变换得到的;以及
多个回归步骤,其中,每个回归步骤的输入是输入图像和与当前参数向量对应的当前对象形状,该回归步骤的输出是与通过对所述当前参数向量进行更新得到的参数向量对应的对象形状。
2.根据权利要求1所述的图像处理方法,其中,每个回归步骤包括:
确定步骤,根据所述输入图像和与所述当前参数向量对应的当前对象形状,通过使用与该回归步骤对应的预定回归器来确定所述当前参数向量的参数向量增量;
更新步骤,根据所确定的参数向量增量来更新所述当前参数向量,以得到下一参数向量;以及
变换步骤,通过对所述下一参数向量执行所述降维变换的逆变换将所述下一参数向量变换为下一对象形状。
3.根据权利要求2所述的图像处理方法,其中,通过对大量对象形状样本执行统计分析而得到的变换矩阵和平均对象形状被用于所述降维变换,所述变换矩阵由一组基本形状构成。
4.根据权利要求3所述的图像处理方法,其中,所述统计分析是主成分分析。
5.根据权利要求3所述的图像处理方法,其中,所述降维变换被定义如下:
参数向量等于所述变换矩阵的逆矩阵与该参数向量所对应的对象形状和所述平均对象形状之差的乘积。
6.根据权利要求3所述的图像处理方法,其中,每个回归器包括多个特征描述符和查找表,每个特征描述符包括与该特征描述符指示的特征相关联的两个像素坐标和预定阈值,所述两个像素坐标用于表示相对于所述平均对象形状上的特征点的位移,所述查找表用于存储参数向量增量。
7.根据权利要求6所述的图像处理方法,其中,所述确定步骤包括:
计算子步骤,根据所述多个特征描述符对于所述输入图像计算特征值;以及
确定子步骤,通过根据所述特征值参考所述查找表来确定所述当前参数向量的参数向量增量。
8.根据权利要求7所述的图像处理方法,其中,所述计算子步骤包括:
相似变换子步骤,通过所述平均对象形状和所述当前对象形状的最小平方拟合,计算所述平均对象形状和所述当前对象形状之间的相似变换;
对于所述多个特征描述符中的每一个,执行坐标变换子步骤、强度值获取子步骤和特征值获取子步骤:
所述坐标变换子步骤,根据所述相似变换将包括在该特征描述符中的两个像素坐标变换为针对所述当前对象形状的两个像素坐标;
所述强度值获取子步骤,获取所述输入图像中与变换后的两个像素坐标对应的两个像素的强度值;以及
所述特征值获取子步骤,通过将这两个像素的强度值之差与该特征描述符中的预定阈值进行比较,获取与该特征描述符对应的值为0或1的特征值。
9.根据权利要求6所述的图像处理方法,其中,在所述多个回归步骤中使用的回归器依次级联,每个回归器通过如下步骤构建:
像素坐标确定步骤,确定与所述平均对象形状相关联的多个像素坐标;
对于用于构建该回归器的多个输入图像样本中的每一个,执行映射步骤、强度差确定步骤和映射值获取步骤:
所述映射步骤,将与所述平均对象形状相关联的多个像素坐标映射到该输入图像样本对应的当前对象形状上,以获得与该当前对象形状相关联的多个像素坐标;
所述强度差确定步骤,确定该输入图像样本中与该当前对象形状相关联的多个像素坐标对应的像素之间的强度差;
所述映射值获取步骤,将与该当前对象形状对应的当前参数向量和与该输入图像样本对应的真实对象形状对应的参数向量之差映射到随机选择的方向上,以获取映射值;
相关运算步骤,对针对所述多个输入图像样本对应的多个当前对象形状获得的映射值和强度差执行相关运算,以获得相关值;
特征描述符生成步骤,根据前N个最大相关值选择强度差,对于所选择的强度差设置阈值,并将与所选择的强度差对应的与所述平均对象形状相关联的像素坐标和所设置的阈值存储为包括在该回归器中的特征描述符;
分类步骤,对于每一个输入图像样本对应的当前对象形状,根据所存储的像素坐标和阈值,对与该当前对象形状对应的当前参数向量和与该输入图像样本对应的真实对象形状对应的参数向量之间的差值进行分类;以及
查找表获取步骤,获取划分在同一类中的差值的平均值,并将所述平均值存储在包括在该回归器中的查找表中作为该类的参数向量增量。
10.根据权利要求2所述的图像处理方法,其中,所述参数向量增量中的至少一个分量被设置为0。
11.根据权利要求1所述的图像处理方法,其中,所述对象形状由与包含在该对象形状中的多个特征点对应的坐标表示。
12.一种图像处理装置,包括:
设置单元,被配置为设置初始对象形状和初始参数向量,其中所述初始参数向量是通过对所述初始对象形状执行降维变换得到的;以及
多个回归单元,其中,每个回归单元的输入是输入图像和与当前参数向量对应的当前对象形状,该回归单元的输出是与通过对所述当前参数向量进行更新得到的参数向量对应的对象形状。
13.根据权利要求12所述的图像处理装置,其中,每个回归单元包括:
确定单元,被配置为根据所述输入图像和与所述当前参数向量对应的当前对象形状,通过使用与该回归单元对应的预定回归器来确定所述当前参数向量的参数向量增量;
更新单元,被配置为根据所确定的参数向量增量来更新所述当前参数向量,以得到下一参数向量;以及
变换单元,被配置为通过对所述下一参数向量执行所述降维变换的逆变换将所述下一参数向量变换为下一对象形状。
14.根据权利要求13所述的图像处理装置,其中,通过对大量对象形状样本执行统计分析而得到的变换矩阵和平均对象形状被用于所述降维变换,所述变换矩阵由一组基本形状构成。
15.根据权利要求14所述的图像处理装置,其中,所述统计分析是主成分分析。
16.根据权利要求14所述的图像处理装置,其中,所述降维变换被定义如下:
参数向量等于所述变换矩阵的逆矩阵与该参数向量所对应的对象形状和所述平均对象形状之差的乘积。
17.根据权利要求14所述的图像处理装置,其中,每个回归器包括多个特征描述符和查找表,每个特征描述符包括与该特征描述符指示的特征相关联的两个像素坐标和预定阈值,所述两个像素坐标用于表示相对于所述平均对象形状上的特征点的位移,所述查找表用于存储参数向量增量。
18.根据权利要求17所述的图像处理装置,其中,所述确定单元包括:
计算子单元,被配置为根据所述多个特征描述符对于所述输入图像计算特征值;以及
确定子单元,被配置为通过根据所述特征值参考所述查找表来确定所述当前参数向量的参数向量增量。
19.根据权利要求18所述的图像处理装置,其中,所述计算子单元包括:
相似变换子单元,被配置为通过所述平均对象形状和所述当前对象形状的最小平方拟合,计算所述平均对象形状和所述当前对象形状之间的相似变换;
坐标变换子单元,被配置为对于所述多个特征描述符中的每一个,根据所述相似变换将包括在该特征描述符中的两个像素坐标变换为针对所述当前对象形状的两个像素坐标;
强度值获取子单元,被配置为对于所述多个特征描述符中的每一个,获取所述输入图像中与变换后的两个像素坐标对应的两个像素的强度值;以及
特征值获取子单元,被配置为对于所述多个特征描述符中的每一个,通过将这两个像素的强度值之差与该特征描述符中的预定阈值进行比较,获取与该特征描述符对应的值为0或1的特征值。
20.根据权利要求17所述的图像处理装置,其中,在所述多个回归单元中使用的回归器依次级联,每个回归器通过如下单元构建:
像素坐标确定单元,被配置为确定与所述平均对象形状相关联的多个像素坐标;
映射单元,被配置为对于用于构建该回归器的多个输入图像样本中的每一个,将与所述平均对象形状相关联的多个像素坐标映射到该输入图像样本对应的当前对象形状上,以获得与该当前对象形状相关联的多个像素坐标;
强度差确定单元,被配置为对于用于构建该回归器的多个输入图像样本中的每一个,确定该输入图像样本中与该当前对象形状相关联的多个像素坐标对应的像素之间的强度差;
映射值获取单元,被配置为对于用于构建该回归器的多个输入图像样本中的每一个,将与该当前对象形状对应的当前参数向量和与该输入图像样本对应的真实对象形状对应的参数向量之差映射到随机选择的方向上,以获取映射值;
相关运算单元,被配置为对针对所述多个输入图像样本对应的多个当前对象形状获得的映射值和强度差执行相关运算,以获得相关值;
特征描述符生成单元,被配置为根据前N个最大相关值选择强度差,对于所选择的强度差设置阈值,并将与所选择的强度差对应的与所述平均对象形状相关联的像素坐标和所设置的阈值存储为包括在该回归器中的特征描述符;
分类单元,被配置为对于每一个输入图像样本对应的当前对象形状,根据所存储的像素坐标和阈值,对与该当前对象形状对应的当前参数向量和与该输入图像样本对应的真实对象形状对应的参数向量之间的差值进行分类;以及
查找表获取单元,被配置为获取划分在同一类中的差值的平均值,并将所述平均值存储在包括在该回归器中的查找表中作为该类的参数向量增量。
21.根据权利要求13所述的图像处理装置,其中,所述参数向量增量中的至少一个分量被设置为0。
22.根据权利要求12所述的图像处理装置,其中,所述对象形状由与包含在该对象形状中的多个特征点对应的坐标表示。
CN201310075530.8A 2013-03-11 2013-03-11 图像处理方法和图像处理装置 Active CN104050628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310075530.8A CN104050628B (zh) 2013-03-11 2013-03-11 图像处理方法和图像处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310075530.8A CN104050628B (zh) 2013-03-11 2013-03-11 图像处理方法和图像处理装置

Publications (2)

Publication Number Publication Date
CN104050628A true CN104050628A (zh) 2014-09-17
CN104050628B CN104050628B (zh) 2017-04-12

Family

ID=51503418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310075530.8A Active CN104050628B (zh) 2013-03-11 2013-03-11 图像处理方法和图像处理装置

Country Status (1)

Country Link
CN (1) CN104050628B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426929A (zh) * 2014-09-19 2016-03-23 佳能株式会社 对象形状对准装置、对象处理装置及其方法
CN107169397A (zh) * 2016-03-07 2017-09-15 佳能株式会社 特征点检测方法及装置、图像处理系统和监视系统
CN107766867A (zh) * 2016-08-15 2018-03-06 佳能株式会社 对象形状检测装置及方法、图像处理装置及系统、监视系统
CN107924452A (zh) * 2015-06-26 2018-04-17 英特尔公司 用于图像中的脸部对准的组合形状回归
CN108027878A (zh) * 2015-09-21 2018-05-11 三菱电机株式会社 用于面部对齐的方法
CN108701206A (zh) * 2015-11-20 2018-10-23 商汤集团有限公司 用于面部对准的系统和方法
CN112203122A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN112735469A (zh) * 2020-10-28 2021-04-30 西安电子科技大学 低内存语音关键词检测方法、系统、介质、设备及终端
CN114762341A (zh) * 2019-10-08 2022-07-15 Lg电子株式会社 用于基于变换的图像编码的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819628A (zh) * 2010-04-02 2010-09-01 清华大学 结合形状特征的稀疏表示人脸识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819628A (zh) * 2010-04-02 2010-09-01 清华大学 结合形状特征的稀疏表示人脸识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PIOTR D 等: "Cascaded pose regression", 《2010 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
XUDONG CAO 等: "Face alignment by Explicit Shape Regression", 《2012 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
汪晓妍: "基于ASM的人脸定位研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426929B (zh) * 2014-09-19 2018-11-27 佳能株式会社 对象形状对准装置、对象处理装置及其方法
CN105426929A (zh) * 2014-09-19 2016-03-23 佳能株式会社 对象形状对准装置、对象处理装置及其方法
CN107924452B (zh) * 2015-06-26 2022-07-19 英特尔公司 用于图像中的脸部对准的组合形状回归
CN107924452A (zh) * 2015-06-26 2018-04-17 英特尔公司 用于图像中的脸部对准的组合形状回归
US11132575B2 (en) 2015-06-26 2021-09-28 Intel Corporation Combinatorial shape regression for face alignment in images
CN108027878B (zh) * 2015-09-21 2022-04-12 三菱电机株式会社 用于面部对齐的方法
CN108027878A (zh) * 2015-09-21 2018-05-11 三菱电机株式会社 用于面部对齐的方法
CN108701206A (zh) * 2015-11-20 2018-10-23 商汤集团有限公司 用于面部对准的系统和方法
CN108701206B (zh) * 2015-11-20 2022-04-12 商汤集团有限公司 用于面部对准的系统和方法
CN107169397B (zh) * 2016-03-07 2022-03-01 佳能株式会社 特征点检测方法及装置、图像处理系统和监视系统
CN107169397A (zh) * 2016-03-07 2017-09-15 佳能株式会社 特征点检测方法及装置、图像处理系统和监视系统
CN107766867A (zh) * 2016-08-15 2018-03-06 佳能株式会社 对象形状检测装置及方法、图像处理装置及系统、监视系统
CN114762341A (zh) * 2019-10-08 2022-07-15 Lg电子株式会社 用于基于变换的图像编码的方法和装置
CN114762341B (zh) * 2019-10-08 2024-01-16 Lg电子株式会社 用于基于变换的图像编码的方法和装置
CN112203122A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN112203122B (zh) * 2020-10-10 2024-01-26 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN112735469A (zh) * 2020-10-28 2021-04-30 西安电子科技大学 低内存语音关键词检测方法、系统、介质、设备及终端
CN112735469B (zh) * 2020-10-28 2024-05-17 西安电子科技大学 低内存语音关键词检测方法、系统、介质、设备及终端

Also Published As

Publication number Publication date
CN104050628B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN104050628A (zh) 图像处理方法和图像处理装置
Yan et al. Ranking with uncertain labels
Zhang et al. A multilevel point-cluster-based discriminative feature for ALS point cloud classification
EP3798917A1 (en) Generative adversarial network (gan) for generating images
Wang et al. Joint learning of visual attributes, object classes and visual saliency
Lucchi et al. Are spatial and global constraints really necessary for segmentation?
CN103400143B (zh) 一种基于多视角的数据子空间聚类方法
Kim et al. Color–texture segmentation using unsupervised graph cuts
EP2907082B1 (en) Using a probabilistic model for detecting an object in visual data
US8249361B1 (en) Interdependent learning of template map and similarity metric for object identification
US20170220864A1 (en) Method for Implementing a High-Level Image Representation for Image Analysis
JP2868078B2 (ja) パターン認識方法
CN109359214A (zh) 基于神经网络的视频描述生成方法、存储介质及终端设备
Zhao et al. Efficient multiple-feature learning-based hyperspectral image classification with limited training samples
Srivastava et al. Looking for shapes in two-dimensional cluttered point clouds
CN110765882A (zh) 一种视频标签确定方法、装置、服务器及存储介质
Chen et al. Efficient maximum appearance search for large-scale object detection
US20100074537A1 (en) Kernelized spatial-contextual image classification
Liu et al. Multi-level structured hybrid forest for joint head detection and pose estimation
CN110717401A (zh) 年龄估计方法及装置、设备、存储介质
Wang et al. Action recognition using linear dynamic systems
Yang et al. Visual feature coding for image classification integrating dictionary structure
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
CN115115923B (zh) 模型训练方法、实例分割方法、装置、设备及介质
Chen et al. 3D object retrieval with graph-based collaborative feature learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant