CN110941332A

CN110941332A - 表情驱动方法、装置、电子设备及存储介质

Info

Publication number: CN110941332A
Application number: CN201911076863.6A
Authority: CN
Inventors: 李世虎; 闫祥达; 常元章; 洪智滨; 胡天舒; 姚锟; 韩钧宇; 刘经拓; 朱胜贤
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-03-31
Also published as: US11074437B2; US20210133433A1

Abstract

本申请公开了表情驱动方法、装置、电子设备及存储介质，涉及人工智能领域，其中方法可包括：对第一图像中的被驱动人物进行人脸关键点检测，得到第一人脸关键点序列；针对依次获取到的各第二图像，分别进行以下处理：对其中的驱动人物进行人脸关键点检测，得到第二人脸关键点序列；若当前未确定出无表情帧图像，则对第二人脸关键点序列进行分析，若基于分析结果确定出第二图像为无表情帧图像，则将第二人脸关键点序列作为无表情关键点序列；否则，获取第二人脸关键点序列与无表情关键点序列的偏差量，并基于所述偏差量及第一人脸关键点序列对被驱动人物进行表情驱动渲染。应用本申请所述方案，可提升灵活性、互动性及准确性等。

Description

表情驱动方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机应用领域，特别涉及人工智能领域的表情驱动方法、装置、电子设备及存储介质。

背景技术

在短视频、视频直播和影视特效等应用中，可使用人脸特效技术，如美妆、换脸、塑形及表情驱动等。

目前的表情驱动主要采用以下方式：针对用户上传的包含被驱动人物的图片，按照几个预先设定的模板表情进行映射驱动，灵活性、互动性和趣味性均较差。

发明内容

有鉴于此，本申请提供了表情驱动方法、装置、电子设备及存储介质。

一种表情驱动方法，包括：

对第一图像中的被驱动人物进行人脸关键点检测，得到第一人脸关键点序列；

针对依次获取到的各第二图像，分别进行以下处理：

对所述第二图像中的驱动人物进行人脸关键点检测，得到第二人脸关键点序列；

若当前未确定出无表情帧图像，则对所述第二人脸关键点序列进行分析，若基于分析结果确定出所述第二图像为无表情帧图像，则将所述第二人脸关键点序列作为无表情关键点序列；

若当前已确定出无表情帧图像，则获取所述第二人脸关键点序列与所述无表情关键点序列的偏差量，并基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染。

根据本申请一优选实施例，所述得到第一人脸关键点序列之后，进一步包括：对所述第一人脸关键点序列进行对齐操作；

所述将所述第二人脸关键点序列作为无表情关键点序列之后，进一步包括：对所述无表情关键点序列进行对齐操作；

所述获取所述第二人脸关键点序列与所述无表情关键点序列的偏差量之前，进一步包括：对所述第二人脸关键点序列进行对齐操作。

根据本申请一优选实施例，该方法进一步包括：针对当前处理的第二图像，结合与所述当前处理的第二图像相邻的前N帧第二图像分别对应的第二人脸关键点序列，对所述当前处理的第二图像对应的第二人脸关键点序列进行帧间平滑处理，N为正整数。

根据本申请一优选实施例，所述基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染包括：

将所述偏差量叠加到所述第一人脸关键点序列上，得到渲染关键点序列；

根据所述渲染关键点序列对所述被驱动人物进行表情驱动渲染。

根据本申请一优选实施例，该方法进一步包括：按照同样的人脸关键点检测方式对所述被驱动人物及所述驱动人物进行人脸关键点检测；

各序列中分别包括：分别对应于检测到的各人脸关键点的位置坐标。

根据本申请一优选实施例，所述获取所述第二人脸关键点序列与所述无表情关键点序列的偏差量包括：针对所述第二人脸关键点序列中的各位置坐标，分别将所述位置坐标与所述无表情关键点序列中的对应于相同人脸关键点的位置坐标作差，得到分别对应于各人脸关键点的偏差量；

所述将所述偏差量叠加到所述第一人脸关键点序列上包括：针对所述第一人脸关键点序列中的各位置坐标，分别将所述位置坐标与所述位置坐标对应的人脸关键点对应的偏差量相加。

根据本申请一优选实施例，所述根据所述渲染关键点序列对所述被驱动人物进行表情驱动渲染包括：

根据所述渲染关键点序列中的各位置坐标对所述被驱动人物进行三角剖分，三角剖分得到的各三角形的顶点分别对应于一个人脸关键点；

针对各三角形的顶点，分别将所述顶点对应的人脸关键点在所述第一图像中的纹理值赋值给所述顶点；

针对顶点以外的各点，根据从所述第一图像中获取到的纹理值和/或插值方式，对其进行纹理值赋值。

根据本申请一优选实施例，所述基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染包括：通过图形处理器，基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染。

根据本申请一优选实施例，该方法进一步包括：若进行表情驱动后的所述被驱动人物中存在无意义区域，则利用所述第二图像中与所述无意义区域相对应的区域填充所述无意义区域。

一种表情驱动装置，包括：第一处理模块以及第二处理模块；

所述第一处理模块，用于对第一图像中的被驱动人物进行人脸关键点检测，得到第一人脸关键点序列；

所述第二处理模块，用于针对依次获取到的各第二图像，分别进行以下处理：对所述第二图像中的驱动人物进行人脸关键点检测，得到第二人脸关键点序列；若当前未确定出无表情帧图像，则对所述第二人脸关键点序列进行分析，若基于分析结果确定出所述第二图像为无表情帧图像，则将所述第二人脸关键点序列作为无表情关键点序列；若当前已确定出无表情帧图像，则获取所述第二人脸关键点序列与所述无表情关键点序列的偏差量，并基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染。

根据本申请一优选实施例，所述第一处理模块进一步用于，对所述第一人脸关键点序列进行对齐操作；

所述第二处理模块进一步用于，对所述无表情关键点序列进行对齐操作，并在获取所述第二人脸关键点序列与所述无表情关键点序列的偏差量之前，对所述第二人脸关键点序列进行对齐操作。

根据本申请一优选实施例，所述第二处理模块进一步用于，针对当前处理的第二图像，结合与所述当前处理的第二图像相邻的前N帧第二图像分别对应的第二人脸关键点序列，对所述当前处理的第二图像对应的第二人脸关键点序列进行帧间平滑处理，N为正整数。

根据本申请一优选实施例，所述第二处理模块将所述偏差量叠加到所述第一人脸关键点序列上，得到渲染关键点序列，根据所述渲染关键点序列对所述被驱动人物进行表情驱动渲染。

根据本申请一优选实施例，针对所述被驱动人物的人脸关键点检测方式与针对所述驱动人物的人脸关键点检测方式相同；

根据本申请一优选实施例，所述第二处理模块针对所述第二人脸关键点序列中的各位置坐标，分别将所述位置坐标与所述无表情关键点序列中的对应于相同人脸关键点的位置坐标作差，得到分别对应于各人脸关键点的偏差量；

所述第二处理模块针对所述第一人脸关键点序列中的各位置坐标，分别将所述位置坐标与所述位置坐标对应的人脸关键点对应的偏差量相加。

根据本申请一优选实施例，所述第二处理模块根据所述渲染关键点序列中的各位置坐标对所述被驱动人物进行三角剖分，三角剖分得到的各三角形的顶点分别对应于一个人脸关键点，针对各三角形的顶点，分别将所述顶点对应的人脸关键点在所述第一图像中的纹理值赋值给所述顶点，针对顶点以外的各点，根据从所述第一图像中获取到的纹理值和/或插值方式，对其进行纹理值赋值。

根据本申请一优选实施例，所述第二处理模块通过图形处理器，基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染。

根据本申请一优选实施例，所述第二处理模块进一步用于，若进行表情驱动后的所述被驱动人物中存在无意义区域，则利用所述第二图像中与所述无意义区域相对应的区域填充所述无意义区域。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如以上所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：

可根据获取到对驱动人物进行拍摄得到的各第二图像，对被驱动人物进行随意的表情驱动，相比于现有方式，不再局限于几个预先设定的模板表情，实现方式上更为灵活，且提升了互动性和趣味性等；而且，通过人脸关键点检测、无表情帧图像筛选及偏差量获取等一系列处理实现的对于被驱动人物的表情驱动，具有很好的准确性；

对于获取到的各关键点序列，可对其进行对齐操作，基于对齐后的各序列进行后续处理，从而提升了后续处理结果的准确性等；

可结合之前的至少一帧图像对应的人脸关键点序列，对当前帧图像对应的人脸关键点序列进行帧间平滑处理，从而避免了关键点可能存在的抖动和不连续等问题；

可基于图形处理器，根据获取到的渲染关键点序列对被驱动人物进行表情驱动渲染等，从而提升了处理速度，进而可满足实时处理的需求，如可在电脑或移动端设备上进行实时渲染等；

可利用驱动人物所在图像中的对应区域对进行表情驱动后的被驱动人物中存在的无意义区域进行填充，从而可使得整个表情驱动更为真实完整等；

上述可选方式所具有的其它效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请所述表情驱动方法第一实施例的流程图；

图2为本申请所述表情驱动方法第二实施例的流程图；

图3为本申请所述第一图像的示意图；

图4为本申请所述第二图像的示意图；

图5为本申请所述被驱动人物中存在无意义区域的示意图；

图6为本申请所述对无意义区域进行填充后的示意图；

图7为本申请所述表情驱动装置700实施例的组成结构示意图；

图8为根据本申请实施例所述方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本申请所述表情驱动方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，对第一图像中的被驱动人物进行人脸关键点检测，得到第一人脸关键点序列。

在102中，针对依次获取到的各第二图像，分别按照103-105所示方式进行处理。

在103中，对第二图像中的驱动人物进行人脸关键点检测，得到第二人脸关键点序列。

在104中，若当前未确定出无表情帧图像，则对第二人脸关键点序列进行分析，若基于分析结果确定出第二图像为无表情帧图像，则将第二人脸关键点序列作为无表情关键点序列。

在105中，若当前已确定出无表情帧图像，则获取第二人脸关键点序列与无表情关键点序列的偏差量，并基于获取到的偏差量以及第一人脸关键点序列对被驱动人物进行表情驱动渲染。

针对包含被驱动人物的第一图像，可对其进行人脸关键点检测，从而得到第一人脸关键点序列。所用的人脸关键点检测方式及检测的人脸关键点数目等均不限，比如，可采用当前比较热门的深度学习方式进行人脸关键点检测。

可基于检测到的各人脸关键点的位置坐标等构成第一人脸关键点序列，也就是说，第一人脸关键点序列中可包括分别对应于检测到的各人脸关键点的位置坐标等。在获取到第一人脸关键点序列后，还可对其进行对齐操作。第一图像中的被驱动人物的人脸可能不是标准脸(正脸)，因此可通过对齐操作将驱动人物的人脸向标准脸对齐。具体实现方式为现有技术，如可基于鼻子等固定点进行分析和旋转变换等。进行对齐操作之前和之后的第一人脸关键点序列中的关键点数目和类型不会变化，但关键点的位置坐标可能变化。

本实施例中，作为举例而非限定，第二图像可以是指利用手机前置摄像头实时拍摄/捕获到的图像，被拍摄的用户即为驱动人物。

在实际应用中，可将拍摄到的每帧图像均作为第二图像进行处理，也可将按照预定策略选定的某些关键帧作为第二图像进行处理。针对依次获取到的各第二图像，可首先从中确定出无表情帧图像。

具体地，针对当前处理的第二图像，可首先对其中的驱动人物进行人脸关键点检测，从而得到第二人脸关键点序列，并且，需要按照与对被驱动人物进行人脸检测时同样的人脸检测方式对驱动人物进行人脸检测。同样地，第二人脸关键点序列中可包括分别对应于检测到的各人脸关键点的位置坐标等。

优选地，若将拍摄到的每帧图像均作为第二图像进行处理，那么针对当前处理的第二图像，还可结合与当前处理的第二图像相邻的前N帧第二图像分别对应的第二人脸关键点序列，对当前处理的第二图像对应的第二人脸关键点序列进行帧间平滑处理，N为正整数，具体取值可根据实际需要而定。

为了确保达到处理效果之后仍然具备视频的连续性，关键点应尽量不存在抖动和不连续等突兀的效果，因此可对获取到的第二人脸关键点序列进行帧间平滑处理。具体方式/算法不限，如可采用卡尔曼滤波、拉普拉斯平滑等算法。

针对当前处理的第二图像，可对获取到的第二人脸关键点序列进行分析，包括根据第二人脸关键点序列进行人脸姿态评估和人脸表情判断等，从而确定出当前处理的第二图像是否为无表情帧图像，即其中的驱动人物是否无表情。

若确定当前处理的第二图像为无表情帧图像，可将获取到的第二人脸关键点序列作为无表情关键点序列。优选地，还可对无表情关键点序列进行对齐操作。若确定当前处理的第二图像不是无表情帧图像，可丢弃该第二图像，并对下一帧第二图像进行上述处理。

另外，若确定当前处理的第二图像为无表情帧图像，那么针对之后获取到的每帧第二图像，可分别对其中的驱动人物进行人脸关键点检测，得到第二人脸关键点序列，并获取第二人脸关键点序列与无表情关键点序列的偏差量(diff)，进而可基于获取到的偏差量以及第一人脸关键点序列对被驱动人物进行表情驱动渲染。优选地，在获取第二人脸关键点序列与无表情关键点序列的偏差量之前，还可对第二人脸关键点序列进行对齐操作。

通过对齐操作，可使得表情驱动与人脸的旋转等无关，从而提升了后续处理结果的准确性等。

在基于获取到的偏差量以及第一人脸关键点序列对被驱动人物进行表情驱动渲染时，可首先将获取到的偏差量叠加到第一人脸关键点序列上，从而得到渲染关键点序列，之后可根据渲染关键点序列对被驱动人物进行表情驱动渲染。

基于前述介绍可知，本实施例所述的各序列中分别包括分别对应于检测到的各人脸关键点的位置坐标等。相应地，获取第二人脸关键点序列与无表情关键点序列的偏差量的方式可为：针对第二人脸关键点序列中的各位置坐标，分别将该位置坐标与无表情关键点序列中的对应于相同人脸关键点的位置坐标作差，从而得到分别对应于各人脸关键点的偏差量。将获取到的偏差量叠加到第一人脸关键点序列上的方式可为：针对第一人脸关键点序列中的各位置坐标，分别将该位置坐标与该位置坐标对应的人脸关键点对应的偏差量相加。

举例说明：从人脸中检测到100个人脸关键点，为便于表述，分别编号为人脸关键点1～人脸关键点100，假设第二人脸关键点序列中依次记录有人脸关键点1～人脸关键点100的位置坐标，无表情关键点序列中也依次记录有人脸关键点1～人脸关键点100的位置坐标，那么可将第二人脸关键点序列中的人脸关键点1的位置坐标与无表情关键点序列中的人脸关键点1的位置坐标作差，从而得到人脸关键点1对应的偏差量，其它依此类推；假设第一人脸关键点序列中依次记录有人脸关键点1～人脸关键点100的位置坐标，那么可将第一人脸关键点序列中的人脸关键点1的位置坐标与人脸关键点1对应的偏差量相加，其它依此类推，从而得到渲染关键点序列。

可根据渲染关键点序列对被驱动人物进行表情驱动渲染。具体地，可根据渲染关键点序列中的各位置坐标对被驱动人物进行三角剖分，三角剖分得到的各三角形的顶点分别对应于一个人脸关键点，针对各三角形的顶点，可分别将该顶点对应的人脸关键点在第一图像中的纹理值赋值给该顶点，针对顶点以外的各点，可根据从第一图像中获取到的纹理值和/或插值方式，对其进行纹理值赋值。

具体采用何种三角剖分算法不作限制，如可采用Delaunay三角剖分算法等。通过三角剖分，可得到一个个的三角形，每个三角形的顶点分别对应于一个人脸关键点。对于顶点，可按照对应的人脸关键点在第一图像中的位置坐标的纹理值进行赋值，对于顶点外的其它各点(像素点)，若能够获取到其在第一图像中的纹理值，可按照在第一图像中的纹理值进行赋值，另外，还可根据各顶点的纹理值等，通过插值方式确定出其它各点的纹理值。

优选地，可通过图形处理器(GPU，Graphics Processing Unit)，基于获取到的偏差量以及第一人脸关键点序列对被驱动人物进行表情驱动渲染等，从而可提升处理速度，进而可满足实时处理的需求，如可在电脑或移动端设备上进行实时渲染等。

本实施例中，在获取第一图像中的被驱动人物的人脸关键点之外，还可获取其它位置的关键点，以覆盖完整图像为宜。这样，可结合获取到的其它位置的关键点，对脸部之外的其它部分进行渲染等。

另外，在进行表情驱动之后，被驱动人物中可能会存在无意义区域，如驱动被驱动人物做出张嘴动作，被驱动人物的嘴巴中将出现一片无实际意义的区域，优选地，可利用第二图像中与该无意义区域相对应的区域来填充该无意义区域，从而可使得整个表情驱动更为真实完整等。

可以看出，上述实施例中，可根据获取到对驱动人物进行拍摄得到的各第二图像，对被驱动人物进行随意的表情驱动，相比于现有方式，不再局限于几个预先设定的模板表情，实现方式上更为灵活，且提升了互动性和趣味性等，而且，通过人脸关键点检测、无表情帧图像筛选及偏差量获取等一系列处理实现的对于被驱动人物的表情驱动，具有很好的准确性。

综合上述介绍，图2为本申请所述表情驱动方法第二实施例的流程图。如图2所示，包括以下具体实现方式。

在201中，对第一图像中的被驱动人物进行人脸关键点检测，得到第一人脸关键点序列，并进行对齐操作。

图3为本申请所述第一图像的示意图，如图3所示，其中的兵马俑为被驱动人物。

在202中，针对获取到的各第二图像，分别按照203-209所示方式进行处理。

第二图像可为利用手机前置摄像头实时拍摄/捕获到的图像，被拍摄的用户即为驱动人物。如图4所示，图4为本申请所述第二图像的示意图。

在203中，对第二图像中的驱动人物进行人脸关键点检测，得到第二人脸关键点序列。

本实施例中，需要按照同样的人脸关键点检测方式对被驱动人物及驱动人物进行人脸关键点检测。

在204中，确定是否已经确定出无表情帧图像，若否，则执行205，若是，则执行207。

在205中，对第二人脸关键点序列进行分析，确定第二图像是否为无表情帧图像，若是，则执行206，否则，针对下一帧第二图像，重复203开始的流程。

在206中，将第二人脸关键点序列作为无表情关键点序列，并进行对齐操作。

在207中，对第二人脸关键点序列进行对齐操作，并获取第二人脸关键点序列与无表情关键点序列的偏差量。

本实施例中所述的各序列中分别包括：分别对应于检测到的各人脸关键点的位置坐标。

针对第二人脸关键点序列中的各位置坐标，可分别将该位置坐标与无表情关键点序列中的对应于相同人脸关键点的位置坐标作差，从而得到分别对应于各人脸关键点的偏差量。

在208中，将获取到的偏差量叠加到第一人脸关键点序列上，得到渲染关键点序列。

针对第一人脸关键点序列中的各位置坐标，可分别将该位置坐标与该位置坐标对应的人脸关键点对应的偏差量相加。

在209中，根据渲染关键点序列对被驱动人物进行表情驱动渲染，并且，若进行表情驱动后的被驱动人物中存在无意义区域，则利用第二图像中与无意义区域相对应的区域填充无意义区域。

具体地，可根据渲染关键点序列中的各位置坐标对被驱动人物进行三角剖分，三角剖分得到的各三角形的顶点分别对应于一个人脸关键点，针对各三角形的顶点，可分别将该顶点对应的人脸关键点在第一图像中的纹理值赋值给该顶点，针对顶点以外的各点，可根据从第一图像中获取到的纹理值和/或插值方式，对其进行纹理值赋值。

另外，可通过GPU实现对于被驱动人物的表情驱动渲染。

图5为本申请所述被驱动人物中存在无意义区域的示意图，如图5所示，驱动兵马俑做出张嘴动作，兵马俑的嘴巴中将出现一片无实际意义的区域，这是由于被驱动的兵马俑本来没有嘴巴内部的牙齿、舌头等图像信息，那么张嘴后该区域就变成了无意义区域，针对这种情况，可使用驱动人物的嘴巴区域来进行无缝融合填充，从而使得整个表情驱动更为真实完整。图6为本申请所述对无意义区域进行填充后的示意图。

需要说明的是，对于前述的各方法实施例，为了简单描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图7为本申请所述表情驱动装置700实施例的组成结构示意图。如图7所示，包括：第一处理模块701以及第二处理模块702。

第一处理模块701，用于对第一图像中的被驱动人物进行人脸关键点检测，得到第一人脸关键点序列。

第二处理模块702，用于针对依次获取到的各第二图像，分别进行以下处理：对第二图像中的驱动人物进行人脸关键点检测，得到第二人脸关键点序列；若当前未确定出无表情帧图像，则对第二人脸关键点序列进行分析，若基于分析结果确定出该第二图像为无表情帧图像，则将第二人脸关键点序列作为无表情关键点序列；若当前已确定出无表情帧图像，则获取第二人脸关键点序列与无表情关键点序列的偏差量，并基于所述偏差量以及第一人脸关键点序列对被驱动人物进行表情驱动渲染。

针对包含被驱动人物的第一图像，第一处理模块701可对其进行人脸关键点检测，从而得到第一人脸关键点序列。所用的人脸关键点检测方式及检测的人脸关键点数目等均不限，比如，可采用当前比较热门的深度学习方式进行人脸关键点检测。

可基于检测到的各人脸关键点的位置坐标等构成第一人脸关键点序列，也就是说，第一人脸关键点序列中可包括分别对应于检测到的各人脸关键点的位置坐标等。在获取到第一人脸关键点序列后，还可对其进行对齐操作。第一图像中的被驱动人物的人脸可能不是标准脸(正脸)，因此可通过对齐操作将驱动人物的人脸向标准脸对齐。

具体地，针对当前处理的第二图像，第二处理模块702可首先对其中的驱动人物进行人脸关键点检测，从而得到第二人脸关键点序列，并且，需要按照与对被驱动人物进行人脸检测时同样的人脸检测方式来对驱动人物进行人脸检测。同样地，第二人脸关键点序列中可包括分别对应于检测到的各人脸关键点的位置坐标等。

优选地，若将拍摄到的每帧图像均作为第二图像进行处理，那么针对当前处理的第二图像，第二处理模块702还可结合与当前处理的第二图像相邻的前N帧第二图像分别对应的第二人脸关键点序列，对当前处理的第二图像对应的第二人脸关键点序列进行帧间平滑处理，N为正整数，具体取值可根据实际需要而定。

针对当前处理的第二图像，第二处理模块702可对获取到的第二人脸关键点序列进行分析，包括根据第二人脸关键点序列进行人脸姿态评估和人脸表情判断等，从而确定出当前处理的第二图像是否为无表情帧图像。

若确定当前处理的第二图像为无表情帧图像，第二处理模块702可将获取到的第二人脸关键点序列作为无表情关键点序列。优选地，还可对无表情关键点序列进行对齐操作。若确定当前处理的第二图像不是无表情帧图像，可丢弃该第二图像，并对下一帧第二图像进行上述处理。

另外，若确定当前处理的第二图像为无表情帧图像，那么针对之后的每帧第二图像，第二处理模块702可分别对其中的驱动人物进行人脸关键点检测，得到第二人脸关键点序列，并可获取第二人脸关键点序列与无表情关键点序列的偏差量，进而可基于获取到的偏差量以及第一人脸关键点序列对被驱动人物进行表情驱动渲染。优选地，在获取第二人脸关键点序列与无表情关键点序列的偏差量之前，还可对第二人脸关键点序列进行对齐操作。

其中，在基于获取到的偏差量以及第一人脸关键点序列对被驱动人物进行表情驱动渲染时，可首先将获取到的偏差量叠加到第一人脸关键点序列上，得到渲染关键点序列，之后可根据渲染关键点序列对被驱动人物进行表情驱动渲染。

基于前述介绍可知，本实施例所述的各序列中分别包括分别对应于检测到的各人脸关键点的位置坐标等。相应地，获取第二人脸关键点序列与无表情关键点序列的偏差量的方式可为：针对第二人脸关键点序列中的各位置坐标，分别将该位置坐标与无表情关键点序列中的对应于相同人脸关键点的位置坐标作差，得到分别对应于各人脸关键点的偏差量。将获取到的偏差量叠加到第一人脸关键点序列上的方式可为：针对第一人脸关键点序列中的各位置坐标，分别将该位置坐标与该位置坐标对应的人脸关键点对应的偏差量相加。

第二处理模块702可根据渲染关键点序列对被驱动人物进行表情驱动渲染。具体地，可根据渲染关键点序列中的各位置坐标对被驱动人物进行三角剖分，三角剖分得到的各三角形的顶点分别对应于一个人脸关键点，针对各三角形的顶点，可分别将该顶点对应的人脸关键点在第一图像中的纹理值赋值给该顶点，针对顶点以外的各点，可根据从第一图像中获取到的纹理值和/或插值方式，对其进行纹理值赋值。

具体采用何种三角剖分算法不作限制，如可采用Delaunay三角剖分算法等。通过三角剖分，可得到一个个的三角形，每个三角形的顶点分别对应于一个人脸关键点。对于顶点，可按照对应的人脸关键点在第一图像中的位置坐标的纹理值进行赋值，对于顶点外的其它各点，若能够获取到其在第一图像中的纹理值，可按照在第一图像中的纹理值进行赋值，另外，还可根据各顶点的纹理值等，通过插值方式确定出其它各点的纹理值。

优选地，可通过图形处理器，基于获取到的偏差量以及第一人脸关键点序列对被驱动人物进行表情驱动渲染等。

另外，在进行表情驱动之后，被驱动人物中可能会存在无意义区域，如驱动被驱动人物做出张嘴动作，被驱动人物的嘴巴中将出现一片无实际意义的区域，优选地，第二处理模块702可利用第二图像中与该无意义区域相对应的区域来填充该无意义区域。

图7所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用本申请方法和装置实施例所述方案，至少可带来如下优点或有益效果：

所述表情驱动可应用于短视频、视频直播等应用中，也可离线处理视频来制作影视特效等，具有广泛适用性。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器Y01、存储器Y02，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器Y01为例。

存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器Y02作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块(例如，附图X所示的xx模块X01、xx模块x02和xx模块x03)。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器Y02可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器Y02可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器Y02可选包括相对于处理器Y01远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置Y03可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管或者液晶显示器监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网、广域网和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种表情驱动方法，其特征在于，包括：

针对依次获取到的各第二图像，分别进行以下处理：

2.根据权利要求1所述的方法，其特征在于，

所述得到第一人脸关键点序列之后，进一步包括：对所述第一人脸关键点序列进行对齐操作；

3.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：针对当前处理的第二图像，结合与所述当前处理的第二图像相邻的前N帧第二图像分别对应的第二人脸关键点序列，对所述当前处理的第二图像对应的第二人脸关键点序列进行帧间平滑处理，N为正整数。

4.根据权利要求1所述的方法，其特征在于，

所述基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染包括：

5.根据权利要求4所述的方法，其特征在于，

该方法进一步包括：按照同样的人脸关键点检测方式对所述被驱动人物及所述驱动人物进行人脸关键点检测；

6.根据权利要求5所述的方法，其特征在于，

所述获取所述第二人脸关键点序列与所述无表情关键点序列的偏差量包括：针对所述第二人脸关键点序列中的各位置坐标，分别将所述位置坐标与所述无表情关键点序列中的对应于相同人脸关键点的位置坐标作差，得到分别对应于各人脸关键点的偏差量；

7.根据权利要求5所述的方法，其特征在于，

所述根据所述渲染关键点序列对所述被驱动人物进行表情驱动渲染包括：

8.根据权利要求1所述的方法，其特征在于，

所述基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染包括：通过图形处理器，基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染。

9.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：若进行表情驱动后的所述被驱动人物中存在无意义区域，则利用所述第二图像中与所述无意义区域相对应的区域填充所述无意义区域。

10.一种表情驱动装置，其特征在于，包括：第一处理模块以及第二处理模块；

11.根据权利要求10所述的装置，其特征在于，

所述第一处理模块进一步用于，对所述第一人脸关键点序列进行对齐操作；

12.根据权利要求10所述的装置，其特征在于，

所述第二处理模块进一步用于，针对当前处理的第二图像，结合与所述当前处理的第二图像相邻的前N帧第二图像分别对应的第二人脸关键点序列，对所述当前处理的第二图像对应的第二人脸关键点序列进行帧间平滑处理，N为正整数。

13.根据权利要求10所述的装置，其特征在于，

所述第二处理模块将所述偏差量叠加到所述第一人脸关键点序列上，得到渲染关键点序列，根据所述渲染关键点序列对所述被驱动人物进行表情驱动渲染。

14.根据权利要求13所述的装置，其特征在于，

针对所述被驱动人物的人脸关键点检测方式与针对所述驱动人物的人脸关键点检测方式相同；

15.根据权利要求14所述的装置，其特征在于，

所述第二处理模块针对所述第二人脸关键点序列中的各位置坐标，分别将所述位置坐标与所述无表情关键点序列中的对应于相同人脸关键点的位置坐标作差，得到分别对应于各人脸关键点的偏差量；

16.根据权利要求14所述的装置，其特征在于，

所述第二处理模块根据所述渲染关键点序列中的各位置坐标对所述被驱动人物进行三角剖分，三角剖分得到的各三角形的顶点分别对应于一个人脸关键点，针对各三角形的顶点，分别将所述顶点对应的人脸关键点在所述第一图像中的纹理值赋值给所述顶点，针对顶点以外的各点，根据从所述第一图像中获取到的纹理值和/或插值方式，对其进行纹理值赋值。

17.根据权利要求10所述的装置，其特征在于，

所述第二处理模块通过图形处理器，基于所述偏差量以及所述第一人脸关键点序列对所述被驱动人物进行表情驱动渲染。

18.根据权利要求10所述的装置，其特征在于，

所述第二处理模块进一步用于，若进行表情驱动后的所述被驱动人物中存在无意义区域，则利用所述第二图像中与所述无意义区域相对应的区域填充所述无意义区域。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。