CN105357513B - 会话视频中单摄像头眼神纠正方法 - Google Patents

会话视频中单摄像头眼神纠正方法 Download PDF

Info

Publication number
CN105357513B
CN105357513B CN201510631610.6A CN201510631610A CN105357513B CN 105357513 B CN105357513 B CN 105357513B CN 201510631610 A CN201510631610 A CN 201510631610A CN 105357513 B CN105357513 B CN 105357513B
Authority
CN
China
Prior art keywords
image
point
grid model
model
eyes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510631610.6A
Other languages
English (en)
Other versions
CN105357513A (zh
Inventor
陶晓明
卢继川
葛宁
陆建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510631610.6A priority Critical patent/CN105357513B/zh
Publication of CN105357513A publication Critical patent/CN105357513A/zh
Application granted granted Critical
Publication of CN105357513B publication Critical patent/CN105357513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

会话视频中单摄像头眼神纠正方法属于会话视频尤其涉及互联网和移动会话视频的眼神纠正方法领域,其特征在于,利用摄像头位置和人眼视角任意时的原始模型图像做,得到人眼正视摄像头时的Laplace网格模型,再利用摄像头位于屏幕中央而人眼斜视时的姿态角度进行尺度变换和旋转,然后进行纹理贴图得到纹理图像,再应用坐标位置矢量差表示姿态角用Ogre工具进行眼神校正,得到校正后的正视摄像头时的模型图像,然后用能量值最小的方法求出校正后的模型图像和斜视时图像之间的最佳边缘,最后把包含最佳边缘在内的校正后的模型图像贴至斜视图像中得到已进行了眼神纠正又含有原始图像背景的实时人脸视频图像,本发明具有设备简单,既能进行眼神纠正又能保存原始图像背景的优点。

Description

会话视频中单摄像头眼神纠正方法
技术领域
本发明涉及会话视频中的眼神校正技术领域,特别是在仅有单个普通摄像头情况下的一种实现会话视频中的眼神纠正的方法。与传统的双摄像头图像合成方法,或者高成本的深度摄像头方法进行眼神纠正的不同,本方法仅使用单个普通摄像头,利用现有的3D模型实现眼神纠正,大大地减少了设备及算法复杂度和会话视频成本,从而提高了会话视频的用户体验,有利于会话视频的推广和普及。
背景技术
数字多媒体通信是当前通信技术众多领域中最具挑战性、发展最快、研究最活跃的领域之一。自从二十世纪九十年代以来,从数字电视广播到无线多媒体通信等技术已在世界各国陆续得到普遍应用。互联网的普及使得多媒体通信摆脱了电视的局限:Skype、GoogleTalk等视频聊天软件的出现让人们可以通过电脑进行视频通话、远程会议等多媒体通信。而今,随着智能手机的快速发展,移动终端上,例如Facetime和Tango等应用使得多媒体通信在移动网络上普及,用户越来越多地期望得到方便、快捷、无所不在的多媒体通信服务。
互联网的普及和多媒体通信业务的发展带来了多媒体数据的急剧增长,对于现有的移动网络提出了严峻挑战。其中,会话视频业务能够满足用户“不论身在何处,都能面对面交流”的需要,其应用日益广泛。在如今众多视频业务中,会话视频通信占据愈发重要的位置。PEW进行的统计研究表明,19%的美国用户曾经在线使用手机尝试过视频通话、聊天、会议等会话视频服务,而40%的Skype通话都是视频通话。
然而,在现有的会话视频系统中,比如Skype或者Facetime,一个重要的问题是缺少与会者眼神的自然交互。它产生的主要原因是因为摄像头拍摄的方向和人眼注视的方向不在同一条直线上,存在一个夹角。这样在交谈过程中,在已经注视的情况下,对方仍然感觉不到对方正注视着自己,无法保证眼神的自然交流,从而大大地降低了用户体验。为了保证眼神的自然交互,会话视频中需要进行眼神纠正,从而实现眼神交互。抛开纯审美学不谈,眼神交流也是人们交流之间的不可或缺的组成部分。这个问题在高端的会话视频系统中用特别的硬件设备是能解决的,但是因为其造价昂贵,很难进行推广和普及。
目前,已经有大量这方面的研究工作。眼神纠正需要知道图像的深度信息,在人脸图像里,深度信息中包含了人脸上的每一点到摄像头的距离。眼神纠正问题可以看成是一个新图像合成问题,合成的新图像能够很好的实现眼神交互。在眼神纠正中,图像上的每个像素点会随着深度信息/距离的不同而进行不同的位移或者旋转,使其到达正确的位置上。也就是说,缺少深度信息,而不使用其他辅助工具,单靠一幅普通的图像,是很难将眼神纠正到正确的位置,实现眼神交互的效果。
当前,进行眼神纠正的主要方法,总结起来分为两种,一种是多摄像头方法,另一种是深度摄像头方法。多摄像头方法主要是利用在不同角度的两个摄像头同时拍摄一幅图像,然后对这两幅图像进行一个图像合成来进行眼神纠正。深度摄像头方法主要是利用其采集图像的深度信息,进行3D建模,然后旋转模型以达到眼神纠正。
比较两种方法,使用多摄像头方法所需的设备复杂,在对图像预处理中需要摄像头的标定和同步,使用的算法相对复杂一些,处理时间不能满足实时化视频的要求;而深度摄像头价格昂贵,不利于会话视频的推广和普及。
为了能够降低设备的复杂度,同时也能有较高的性价比,我们使用了一种能够同时达到两方面效果的方法。该方法使用单个普通摄像头实现眼神纠正,在增强用户体验的情况下,能够降低设备的复杂度,性价比更高,有利于会话视频的推广和普及。
发明内容:
针对现有技术的缺陷,本发明的目的是为了能够在会话视频中使用一个普通的摄像头实现眼神校正,提高用户体验。该系统主要是利用人脸跟踪得到头部角度姿态,利用该角度对现有人脸头部模型进行旋转从而达到眼神校正的目的,从而实现单个普通摄像头的眼神纠正,大大增加了会话视频的推广和普及,使得会话视频更加普遍滴应用到实际生活中。
本发明的优点是用简单的设备解决了互联网视频通话和移动视频通话时的眼神纠正问题,而且也包含了原图里的背景。
本发明中方法涉及到的步骤如下:先由人脸跟踪得到视频图像的脸部特征点和角度姿态,然后利用脸部特征点对头部3D模型进行变形,将其变行成跟视频图像中的脸部形状基本一致,接着进行模型贴图,将视频图像通过3D渲染贴在模型上,利用角度姿态对其进行3D旋转实现眼神校正得到校正后的模型图像,最后找出模型图像与原图像的脸部最佳边缘,将模型图像中的最佳边缘的里面部分嵌合到原图像中,最终得到含有背景的并进行眼神校正后的图像,完成眼神校正的全过程,见附图1、图2和图4。
本发明提出的方法,其特征在于,它包含:Laplace网格变形,纹理贴图,姿态角度旋转,最佳边缘化,其中:
Laplace网格变形,它的输入信息是人脸头部网格模型和通过人脸跟踪得出的脸部特征点,输出变形后的网格模型;
纹理贴图,它的输入端是网格模型经过映射后的2D点和网格模型的3D点,输出端是含有图像的网格模型,即模型图像;
姿态角度旋转,它的输入端是模型图像和人脸跟踪得到的角度姿态,输出端是经过旋转校正以后的模型图像;
最佳边缘化:它的输入端是校正以后的模型图像和原图像,输出端是最佳边缘化以后的含有原图像背景的图像。
会话视频中单摄像头眼神纠正方法,其特征在于所述的方法是按照以下步骤实现的:
1、手动从网格模型上找到人脸定位特征点所对应的位置序号,作为图像特征点在网格模型中对应的点;
2、输入三张图像,一张是会话者的人脸图像I1,一张是眼睛在某位置正视摄像头拍出的图像I2,另一张是眼睛在相同位置看屏幕上某点时摄像头拍摄的图像I(即为需要纠正的图像),分别对其进行人脸跟踪,得出图像I1的脸部3d特征点,图像I2的姿态3D向量,图像I的姿态3D向量、尺度因子和位移向量;
3、利用图像I1的脸部3d特征点对网格模型进行变形;
4、利用图像I的姿态向量得到旋转矩阵、尺度因子和位移向量,从而求出纹理映射点,利用纹理映射点和图像I对变形后的网格模型进行映射纹理贴图;
5、利用正视图像I2的姿态3D向量,对贴图的网格模型进行脸部姿态角度旋转,实现眼神纠正,并输出旋转后的网格模型图像I*
6、计算出网格模型图像I*和图像I的最佳匹配边缘,并将图像I*边缘及其内部嵌合至图像I2,完成眼神纠正。
其中,一直使用该网格模型,所以手动操作只要进行一次。手动从网格模型上找到人脸定位特征点所对应的位置序号,作为图像特征点在网格模型中对应的点{(f0,c0),...,(f68,c68)},其中,(f0,...,f68)和(c0,...,c68)分别表示跟踪图像特征点和网格模型上的点的序号;
同时,在网格变形中,由于人脸定位算法得到的3D特征点仅与脸部形状有关,针对同一个人只要一次网格变形。
其中,网格模型变形模块是采用比较简单的Laplace网格变形方法,其方法步骤如下:
用AAM模型的人脸定位方法,以下简称AAM定位,从图像中得到vi、pi、(xDirection,yDirection,zDirection)、scale,以及xT和yT。其中,vi表示68个3D特征点,pi表示与vi对应的2D特征点,(i=0,1,...,67),每个3D特征点vi用坐标位置矢量(xi,yi,zi)表示,(xDirection,yDirection,zDirection)表示人脸头部姿态方向位置矢量,scale表示原始图像I的大小与用AAM模型参数通过模型合成的AAM模型图像大小的比值,xT和yT分别表示AAM模型在坐标系中移动到所述原始图像I所需的x和y方向的位移;
采用AAM人脸定位得到图像I1的68个3D特征点,将人脸跟踪的AAM模型以及网格模型分别归一化至坐标原点,并分别取网格模型顶点和AAM模型顶点的最左端和最右端的欧氏距离为s1,s2每个网格模型点的坐标均乘以scale1,使得网格模型的大小和位置与AAM模型的大小和位置保持一致;
采用AAM模型人脸定位方法得到图像I1的68个3D特征点,68个3D特征点用表示,(i=0,1,...,67),68个特征点位置图见附图3;
网格模型是一组3D点组成的,将其看成Nx3的矩阵,N代表网格顶点个数,3代表顶点的x、y和z的三个方向的坐标。若某一个顶点vi,与其直接相连的顶点计为vj,E表示网格模型边的集合,N(i)表示与点vi直接相连的顶点的个数,N(i)={j|(i,j)∈E},将其由Descartes坐标变至Laplace相对坐标为:
δ i = v i - 1 | N ( i ) | * Σ j v j
这里顶点vi,vj分别包含x、y、z三个方向的坐标,即:
δ i x = v i x - 1 | N ( i ) | * Σ j v j x
δ i y = v i y - 1 | N ( i ) | * Σ j v j y
δ i z = v i z - 1 | N ( i ) | * Σ j v j z
两坐标变换以矩阵的形式表示为:
由手动操作中的对应条件以跟踪出的68个3D特征点为初始条件加入到上面的矩阵中:
其中(w0,...,w67)表示可以调整的权值,设左边由A和(w0,...,w67)组成的矩阵用A*,线性方程表示为A*v=b,由于存在过定问题,采用最小二乘的方法:
arg m i n v | | A * v - b | |
用最小二乘的方法求解,满足其误差平方最小,最终得出变形之后的新坐标为
v ~ = ( ( A * ) T A * ) - 1 ( A * ) T b
其中,调整w0:67的值,使得网格模型变形至较为理想的状态。利用上述方法对网格模型x、y和z方向上的坐标由最小二乘完成模型变形,得到与会话者人脸相近的形状。
其中,贴图模块具体步骤如下:
由AAM人脸定位图像I得出的姿态角度(xDirection,yDirection,zDirection),图像脸部大小和AAM模型大小的比值scale,以及AAM模型移动到所述图像I所需的位移xT,yT,从而得到贴图时所需的纹理映射点。
贴图方法的步骤如下:
(1)利用人脸定位得到姿态角度(xDirection,yDirection,zDirection),利用Euler()函数得到2x3的旋转矩阵R;
(2)将变形的网格模型进行尺度变换和旋转得到2D的图像纹理映射点坐标;
(3)将得到的纹理映射点进行位移xT,yT;
(4)纹理映射点和网格模型点进行一一对应,载入图像I,完成网格模型的纹理贴图。
由上一步得到的网格模型顶点坐标为Nx3的矩阵旋转和尺度变换后为Nx2的矩阵V1,R.t表示矩阵R的转置,V1分别表示旋转前后顶点矩阵,V'1x、V1x、V'1y、V1y分别表示平移前后各方向上的新旧坐标,则变换公式如下:
V 1 = s c a l e * v ~ * R . t
V′1x=V1x+xT
V′1y=V1y+yT
然后将每个映射点与对应的网格模型点进行一一对应起来,从而完成贴图。完成贴接下来进行眼神纠正。
其中,旋转眼神纠正模块具体步骤如下:
(1)由AAM人脸定位得到图像I2的姿态角度(xDirection2,yDirection2,zDirection2);
(2)使用Ogre工具对网格模型进行旋转和渲染。pitch(xDirection2)、yaw(yDirection2)、roll(zDirection2)函数分别对其进行x,y,z方向的旋转,进行眼神纠正。使用Ogre工具将旋转后的网格模型中的图像输出,称为网格模型图像I*,同时输出纹理映射点中对应的68个特征点的平面坐标位置。
其中,最佳边缘化方法具体步骤如下:
最佳边缘化方法输入图像I*和上一步所述的特征点的平面坐标位置,并取所述特征点序号1~27作为图像I和图像I*的脸部初始轮廓点,称为初始边缘。在图像I和图像I*之间找一条相匹配的边缘,然后将图像I*边缘及边缘以内的部分嵌合至图像I,使得校正后的眼神同时包含背景。最佳初始化边缘模块的步骤:
(1)图像I和图像I*的初始边缘取一个点x0,以该点为中心取5x5个像素点,将这些点作为该处的边缘点的候选对象;
(2)每次分别取所述两幅图像中边缘点候选对象中的一个点,求出其像素值差的平方,所有像素值差的平方总和称为能量值(Energy),能量值公式为:
E(p)=min∑||I(P0)-I*(P0)||2P0∈B(p)
Etotal=∑E(pi)pi∈S
其中,I(P0)、I*(P0)分别表示图像I和图像I*的像素强度,B(p)表示顶点p周围的大小为5x5像素的矩形框;
(3)按照上面步骤,分别对顶点编号1~27依次进行计算,最后得到27个点组成最佳边缘,最后将图像I*边缘及其边缘以内的部分嵌合至图像I,这时的图像I是经过眼神校正好的而且还包含有原始图像I的背景的图像,从而完成眼神纠正。
附图说明
图1本发明所述方法的原理性步骤示意图
图2本发明的程序流程框图
图368个3D特征点的位置示意图
图4眼神纠正过程的图像示意图
具体实施方式:
会话视频中单摄像头眼神纠正方法,其特征在于,它包含:Laplace网格变形,纹理贴图,眼神纠正,最佳边缘化,其中:
Laplace网格变形,它的输入是人脸头部网格模型和通过人脸跟踪得出的脸部特征点,输出是变形后的网格模型;
纹理贴图,它的输入是网格模型经过纹理映射后的2D点和网格模型的3D点,输出是含有图像的网格模型;
姿态角度旋转:它的输入是含图像的网格模型和人脸跟踪得到的角度姿态,输出是经过旋转校正以后的网格模型图像;
眼神纠正模块:它的输入是网格模型图像和原图像,输出是最佳边缘化以后的含有原图像背景的图像。
会话视频中单摄像头眼神纠正方法,其特征在于所述的方法是按照以下步骤实现的:
1、手动从网格模型上找到人脸定位特征点所对应的位置序号,作为图像特征点在网格模型中对应的点;
2、输入三张图像,一张是会话者的人脸图像I1,一张是眼睛在某位置正视摄像头拍出的图像I2,另一张是眼睛在相同位置看屏幕上某点时摄像头拍摄的图像I(即为需要纠正的图像),分别对其进行人脸跟踪,得出图像I1的脸部3d特征点,图像I2的姿态3D向量,图像I的姿态3D向量、尺度因子和位移向量;
3、利用图像I1的脸部3d特征点对网格模型进行变形;
4、利用图像I的姿态向量得到旋转矩阵、尺度因子和位移向量,从而求出纹理映射点,利用纹理映射点和图像I对变形后的网格模型进行映射纹理贴图;
5、利用正视图像I2的姿态3D向量,对贴图的网格模型进行脸部姿态角度旋转,实现眼神纠正,并输出旋转后的网格模型图像I*
6、计算出网格模型图像I*和图像I的最佳匹配边缘,并将图像I*边缘及其内部嵌合至图像I,完成眼神纠正。
其中,Laplace网格变形方法的步骤是:
(1)手动从网格模型上找到人脸定位特征点所对应的位置序号,作为图像特征点在网格模型中对应的点的序号{(f0,c0),...,(f68,c68)},其中,(f0,...,f68)和(c0,...,c68)分别表示跟踪图像特征点和网格模型上的点的序号68个特征点位置图见附图3;
由于一直使用这个模型,所以在手动操作中只要进行一次。
(2)利用AAM人脸定位得到图像I1的3D特征点,初始化网格模型和AAM模型;
用AAM定位,从图像中得到vi、pi、(xDirection,yDirection,zDirection)、scale,以及xT和yT。其中,vi表示68个3D特征点,pi表示与vi对应的2D特征点,(i=0,1,...,67),每个3D特征点vi用坐标位置矢量(xi,yi,zi)表示,(xDirection,yDirection,zDirection)表示人脸头部姿态方向位置矢量,scale表示原始图像I的大小与用AAM模型参数通过模型合成的AAM模型图像大小的比值,xT和yT分别表示AAM模型在坐标系中移动到所述原始图像I所需的x和y方向的位移;
采用AAM定位得到图像I1的68个3D特征点,68个3D特征点用表示,(i=0,1,...,67),对人脸跟踪的AAM模型以及网格模型进行初始化,分别归一化至坐标原点,并分别取网格模型顶点和AAM模型顶点的最左端和最右端的欧氏距离为s1,s2,scale1=s2/s1,每个网格模型点的坐标均乘以scale1,使得网格模型的大小和位置与AAM模型的大小和位置保持一致;
(3)将网格模型由Descartes坐标变换至Laplace相对坐标;
网格模型由一组3D点组成的,看成Nx3的矩阵,N代表网格顶点个数,3代表顶点的x、y和z的三个方向的坐标。若某一个顶点vi,与其直接相连的顶点计为vj,E表示网格模型边的集合,N(i)表示与点vi直接相连的顶点的个数,N(i)={j|(i,j)∈E},将其由Descartes坐标变至Laplace相对坐标为:
δ i = v i - 1 | N ( i ) | * Σ j v j
这里顶点vi,vj分别包含x、y、z三个方向的坐标,即:
δ i x = v i x - 1 | N ( i ) | * Σ j v j x
δ i y = v i y - 1 | N ( i ) | * Σ j v j y
δ i z = v i z - 1 | N ( i ) | * Σ j v j z
两坐标变换以矩阵的形式表示为:
(4)以跟踪出的68个特征点作为初始条件,利用线性方程的最小二乘方法求解网格顶点,对网格模型进行变形。
由手动操作中的对应条件以跟踪出的68个3D特征点为初始条件加入到上面的矩阵中:
其中(w0,...,w67)表示可以调整的权值,设左边由A和(w0,...,w67)组成的矩阵用A*,线性方程表示为A*v=b,由于存在过定问题,采用最小二乘的方法:
arg m i n v | | A * v - b | |
用最小二乘的方法求解,满足其误差平方最小,最终得出变形之后的新坐标为
v ~ = ( ( A * ) T A * ) - 1 ( A * ) T b
其中,调整w0:67的值,使得网格模型变形至较为理想的状态。利用上述方法对网格模型x、y和z方向上的坐标由最小二乘完成模型变形,得到与会话者人脸相近的形状。在网格变形中,由于人脸定位算法得到的3D特征点仅与脸部形状有关,针对同一个人只要一次网格变形。
其中,纹理贴图具体步骤如下:
由人脸定位图像I得出的姿态角度(xDirection,yDirection,zDirection),图像的大小和AAM模型大小的比值scale,以及AAM模型移动到所述图像I所需的位移xT,yT,从而得到贴图时所需的纹理映射点。
贴图方法的步骤如下:
(1)利用人脸定位得到的姿态角度(x1,y1,z1),利用Euler()函数得到2x3的旋转矩阵R;
(2)将变形的网格模型进行尺度变换和旋转得到2D的图像纹理映射点坐标;
(3)将得到的纹理映射点进行位移xT,yT;
(4)纹理映射点和网格模型点进行一一对应,载入图像I,完成网格模型的纹理贴图。
由上一步得到的网格模型顶点坐标为Nx3的矩阵旋转和尺度变换后为Nx2的矩阵V1,R.t表示矩阵R的转置,V1分别表示旋转前后顶点矩阵,V'1x、V1x、V'1y、V1y分别表示平移前后各方向上的新旧坐标,则变换公式如下:
V 1 = s c a l e * v ~ * R . t
V 1 x ′ ⇐ V 1 x + x T
V 1 y ′ ⇐ V 1 y + y T
然后将每个映射点与对应的网格模型点进行一一对应起来,从而完成贴图。完成贴接下来进行眼神纠正。
其中,旋转眼神纠正模块具体步骤如下:
(1)由AAM人脸定位得到图像I2的姿态角度(xDirection2,yDirection2,zDirection2);
(2)使用Ogre工具对网格模型进行旋转和渲染。pitch(xDirection2)、yaw(yDirection2)、roll(zDirection2)函数分别对其进行x,y,z方向的旋转,进行眼神纠正。使用Ogre工具将旋转后的网格模型中的图像输出,称为网格模型图像I*,同时输出纹理映射点中序号1-27的27个纹理点作为初始边缘。
其中,最佳边缘的步骤为:
最佳边缘化方法输入图像I*和上一步所述的特征点的平面坐标位置,并取所述特征点序号1~27作为图像I和图像I*的脸部初始轮廓点,称为初始边缘。在图像I和图像I*之间找一条相匹配的边缘,然后将图像I*边缘及边缘以内的部分嵌合至图像I,使得校正后的眼神同时包含背景。
(1)从所述校正后的网格模型图像I*初始边缘中27个用平面坐标表示的特征点中取任何一点P0,以它为中心点取5x5个像素点P作为边缘处的候选边缘点,P0∈P;
(2)在所述图像I中与步骤(1)中所述的中心点P0相同的位置,以其为中心取5x5个像素点作为候选边缘点;
(3)每次分别取所述两幅图像中边缘点候选对象中的一个点,求出其像素值差的平方,所有像素值差的平方总和称为能量值(Energy),取能量值最小的点作为图像I和图像I*的最终边缘点,能量值公式为:
E(p)=min∑||I(P0)-I*(P0)||2P0∈B(p)
Etotal=∑E(pi)pi∈S
其中,I(P0),I*(P0)分别表示图像I和图像I*的像素强度,B(p)表示顶点p周围的大小为5x5像素的矩形框;
(4)按照上面步骤,分别对顶点编号1~27依次进行计算,最后得到27个点组成脸部轮廓最佳边缘,最后将图像I*边缘及其边缘以内的部分嵌合至图像I,这时的图像I是经过眼神校正好的而且还包含有原始图像I的背景的图像,从而完成了眼神纠正。

Claims (1)

1.会话视频中,单摄像头眼神纠正方法,其特征在于,是一种适用于互联网视频通话或移动视频通话且设备简单的单摄像头眼神纠正方法,是在计算机中依次按以下步骤实现的:
步骤(1)手动从网格模型上找到人脸定位特征点所对应的位置序号,作为图像特征点在网格模型中对应的点的序号{(f0,c0),...,(f68,c68)},其中,(f0,...,f68)和(c0,...,c68)分别表示跟踪图像特征点和网格模型上的点的序号68个特征点位置;
步骤(2)计算机初始化:
向计算机输入并存储用单摄像头拍摄的视频会话者的人脸视频图像序列,从中提取下述三帧人脸头部视频图像,简称人脸视频图像:
第一帧是会话者的人脸图像I1
第二帧是眼睛在某位置正视摄像头拍出的图像I2
第三帧是眼睛在相同位置看屏幕上某点时摄像头拍摄的图像I,即为需要纠正的图像;
步骤(3)对所述图像I1依次进行如下处理:
步骤(3.1)利用AAM人脸定位得到图像I1的3D特征点,初始化网格模型和AAM模型;
AAM人脸定位方法:用AAM定位,从图像中得到vi、pi、(xDirection,yDirection,zDirection)、scale,以及xT和yT,其中,vi表示68个3D特征点,pi表示与vi对应的2D特征点,(i=0,1,...,67)每个3D特征点vi用坐标位置矢量(xi,yi,zi)表示,(xDirection,yDirection,zDirection)表示人脸头部姿态方向位置矢量,scale表示原始图像I的大小与用AAM模型参数通过模型合成的AAM模型图像大小的比值,xT和yT分别表示AAM模型在坐标系中移动到所述原始图像I所需的x和y方向的位移;
采用AAM定位得到图像I1的68个3D特征点,68个3D特征点用表示,(i=0,1,...,67),对人脸跟踪的AAM模型以及网格模型进行初始化,分别归一化至坐标原点,并分别取网格模型顶点和AAM模型顶点的最左端和最右端的欧氏距离为s1,s2,scale1=s2/s1,每个网格模型点的坐标均乘以scale1,使得网格模型的大小和位置与AAM模型的大小和位置保持一致;
步骤(3.2)将网格模型由Descartes坐标变换至Laplace相对坐标;
网格模型由一组3D点组成的,看成Nx3的矩阵,N代表网格顶点个数,3代表顶点的x、y和z的三个方向的坐标,若某一个顶点vi,与其直接相连的顶点计为vj,E表示网格模型边的集合,N(i)表示与点vi直接相连的顶点的个数,N(i)={j|(i,j)∈E},将其由Descartes坐标变至Laplace相对坐标为:
δ i = v i - 1 | N ( i ) | * Σ j v j
这里顶点vi,vj分别包含x、y、z三个方向的坐标,即:
δ i x = v i x - 1 | N ( i ) | * Σ j v j x
δ i y = v i y - 1 | N ( i ) | * Σ j v j y
δ i z = v i z - 1 | N ( i ) | * Σ j v j z
两坐标变换以矩阵的形式表示为:
步骤(3.3)以跟踪出的68个特征点作为初始条件,利用线性方程的最小二乘方法求解网格顶点,对网格模型进行变形;
由手动操作中的对应条件以跟踪出的68个3D特征点为初始条件加入到上面的矩阵中:
[ A ... 0 w 0 0 ... . . . ... 0 w 67 0 ... ] × v 1 . . . v N = δ 1 . . . δ N p f 0 * . . . p f 67 *
其中(w0,...,w67)表示可以调整的权值,设左边由A和(w0,...,w67)组成的矩阵用A*,线性方程表示为A*v=b,由于存在过定问题,采用最小二乘的方法:
arg min v | | A * v - b | |
用最小二乘的方法求解,满足其误差平方最小,最终得出变形之后的新坐标为
v ~ = ( ( A * ) T A * ) - 1 ( A * ) T b
其中,调整w0:67的值,使得网格模型变形至较为理想的状态,利用上述方法对网格模型x、y和z方向上的坐标由最小二乘完成模型变形,得到与会话者人脸相近的形状,在网格变形中,由于人脸定位算法得到的3D特征点仅与脸部形状有关,针对同一个人只要一次网格变形;
步骤(4)对图像I进行AAM定位,得出图像I的姿态角度(xDirection,yDirection,zDirection),图像I的大小和AAM模型大小的比值scale,以及AAM模型移动到所述图像I所需的位移xT,yT,从而得到贴图时所需的纹理映射点;
步骤(4.1)利用AAM人脸定位方法对图像I进行人脸定位,得到的姿态角度(xDirection,yDirection,zDirection),通过Euler()函数得到2x3的旋转矩阵R;
步骤(4.2)将变形的网格模型进行尺度变换和旋转得到2D的图像纹理映射点坐标,然后将得到的纹理映射点进行位移xT,yT;
由上一步得到的网格模型顶点坐标为Nx3的矩阵旋转和尺度变换后为Nx2的矩阵V1,R.t表示矩阵R的转置,V1分别表示旋转前后顶点矩阵,V′1x、V1x、V′1y、V1y分别表示平移前后各方向上的新旧坐标,则变换公式如下:
V 1 = s c a l e * v ~ * R . t
V 1 x ′ ⇐ V 1 x + x T
V 1 y ′ ⇐ V 1 y + y T
步骤(4.3)设任一序号i,将得到的纹理映射点(V′1xi,V′1yi)和网格模型点(xi,yi,zi)进行一一对应,载入图像I,完成网格模型的纹理贴图;
步骤(5)用依次按以下步骤对步骤(4.3)得到的所述图像I的模型图像进行眼神纠正并形成校正后的网格模型图像,网格模型图像用I*表示:
步骤(5.1)用AAM定位对正视图像I2进行跟踪,得到图像I2的姿态角度矢量(xDirection2,yDirection2,zDirection2);
步骤(5.2)使用Ogre工具中的pitch(),roll(),yaw()函数分别按步骤(5.1)得到姿态角度矢量进行x,y,z方向的旋转,进行眼神纠正;
步骤(5.3)利用Ogre工具进行图形渲染,然后从含有图像I的网格模型中输出校正后的网格模型图像I*,同时根据步骤(4.3)得到的纹理贴图中映射点对应的边缘上的序号从1-27的27个2D点的坐标作为初始边缘;
步骤(6)计算出网格模型图像I*和图像I的最佳匹配边缘,并将图像I*边缘及其内部嵌合至图像I,完成眼神纠正,步骤(6)依次按以下步骤计算所述校正后的网格模型图像I*和所述需纠正图像I之间的最佳边缘,并把包括所述图像I*的最佳边缘及其以内的部分贴合到所述图像I上,得到包括所述原始图像背景并且又经过眼神校正后的背景图像,从而完成眼神纠正:
步骤(6.1)从所述校正后的网格模型图像I*初始边缘中27个用平面坐标表示的特征点中取任何一点P0,以它为中心点取5x5个像素点P作为边缘处的候选边缘点,P0∈P;
步骤(6.2)在所述图像I中与步骤(1)中所述的中心点P0相同的位置,以其为中心取5x5个像素点作为候选边缘点;
步骤(6.3)每次分别取所述两幅图像中边缘点候选对象中的一个点,求出其像素值差的平方,所有像素值差的平方总和称为能量值(Energy),取能量值最小的点作为图像I和图像I*的最终边缘点,能量值公式为:
E(p)=min∑||I(P0)-I*(P0)||2P0∈B(p)
Etotal=∑E(pi)pi∈S
其中,I(P0),I*(P0)分别表示图像I和图像I*的像素强度,B(p)表示顶点p周围的大小为5x5像素的矩形框;
步骤(6.4)按照上面步骤,分别对顶点编号1~27依次进行计算,最后得到27个点组成脸部轮廓最佳边缘,最后将图像I*边缘及其边缘以内的部分嵌合至图像I,这时的图像I是经过眼神校正好的而且还包含有原始图像I的背景的图像,从而完成了眼神纠正。
CN201510631610.6A 2015-09-29 2015-09-29 会话视频中单摄像头眼神纠正方法 Active CN105357513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510631610.6A CN105357513B (zh) 2015-09-29 2015-09-29 会话视频中单摄像头眼神纠正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510631610.6A CN105357513B (zh) 2015-09-29 2015-09-29 会话视频中单摄像头眼神纠正方法

Publications (2)

Publication Number Publication Date
CN105357513A CN105357513A (zh) 2016-02-24
CN105357513B true CN105357513B (zh) 2016-08-03

Family

ID=55333361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510631610.6A Active CN105357513B (zh) 2015-09-29 2015-09-29 会话视频中单摄像头眼神纠正方法

Country Status (1)

Country Link
CN (1) CN105357513B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106973237B (zh) * 2017-05-25 2019-03-01 维沃移动通信有限公司 一种拍摄方法及移动终端
CN109166156B (zh) * 2018-10-15 2021-02-12 Oppo广东移动通信有限公司 一种摄像头标定图像的生成方法、移动终端及存储介质
CN109886213B (zh) * 2019-02-25 2021-01-08 湖北亿咖通科技有限公司 疲劳状态判断方法、电子设备及计算机可读存储介质
CN113642364B (zh) 2020-05-11 2024-04-12 华为技术有限公司 人脸图像处理方法、装置、设备及计算机可读存储介质
CN111882627A (zh) * 2020-07-20 2020-11-03 广州市百果园信息技术有限公司 图像处理方法、视频处理方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376100A (zh) * 2010-08-20 2012-03-14 北京盛开互动科技有限公司 基于单张照片的人脸动画方法
CN103034330A (zh) * 2012-12-06 2013-04-10 中国科学院计算技术研究所 一种用于视频会议的眼神交互方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376100A (zh) * 2010-08-20 2012-03-14 北京盛开互动科技有限公司 基于单张照片的人脸动画方法
CN103034330A (zh) * 2012-12-06 2013-04-10 中国科学院计算技术研究所 一种用于视频会议的眼神交互方法及系统

Also Published As

Publication number Publication date
CN105357513A (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
CN105357513B (zh) 会话视频中单摄像头眼神纠正方法
US11290682B1 (en) Background modification in video conferencing
CN105741229B (zh) 实现人脸图像快速融合的方法
US20130101164A1 (en) Method of real-time cropping of a real entity recorded in a video sequence
CN106651808B (zh) 一种鱼眼图转换方法及装置
CN111476710B (zh) 基于移动平台的视频换脸方法及系统
CN110764613A (zh) 基于头戴式眼动模组的眼动追踪校准方法
CN112734890B (zh) 基于三维重建的人脸替换方法及装置
CN111861872A (zh) 图像换脸方法、视频换脸方法、装置、设备和存储介质
CN110264396B (zh) 视频人脸替换方法、系统及计算机可读存储介质
Giger et al. Gaze correction with a single webcam
CN108053373A (zh) 一种基于深度学习模型鱼眼图像校正方法
CN107145224B (zh) 基于三维球面泰勒展开的人眼视线跟踪方法和装置
CN114219878A (zh) 虚拟角色的动画生成方法及装置、存储介质、终端
WO2024022065A1 (zh) 虚拟表情生成方法、装置、电子设备和存储介质
CN112348937A (zh) 人脸图像处理方法及电子设备
CN108986232A (zh) 一种在vr显示设备中呈现ar环境画面的方法
CN106774870A (zh) 一种增强现实交互方法及系统
Oliveira et al. Virtual theater for industrial training: A collaborative virtual environment
CN108053376A (zh) 一种语义分割信息指导深度学习鱼眼图像校正方法
US11734889B2 (en) Method of gaze estimation with 3D face reconstructing
CN206237530U (zh) 四面全息互动系统
CN115914660A (zh) 一种元宇宙和直播中数字人的动作和面部表情的控制方法
CN112132044B (zh) 一种基于人脸对齐及仿射变换的人脸贴纸产生方法
Sun et al. SSAT $++ $: A Semantic-Aware and Versatile Makeup Transfer Network With Local Color Consistency Constraint

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant