CN112102157A

CN112102157A - 视频换脸方法、电子设备和计算机可读存储介质

Info

Publication number: CN112102157A
Application number: CN202010942766.7A
Authority: CN
Inventors: 奚晓钰; 李敏; 陆彦良; 李东晓; 周效军
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-18
Anticipated expiration: 2040-09-09
Also published as: CN112102157B

Abstract

本发明实施例涉及互联网技术领域，公开了一种视频换脸方法、电子设备和计算机可读存储介质。上述视频换脸的方法包括：确定待换脸视频中的第一人脸；获取预设的第二人脸的人脸素材库；其中，所述人脸素材库中的各人脸素材标注有特征标签，所述特征标签至少包括用于表征人脸动作特征的动作标签；根据所述特征标签，在所述人脸素材库中确定与所述第一人脸匹配的人脸素材；将所述待换脸视频中的所述第一人脸替换为所述匹配的人脸素材，得到换脸后的视频。本发明实施例提供的方案可以提高视频换脸的精准度，使得生成的换脸视频更加逼真，效果更好。

Description

视频换脸方法、电子设备和计算机可读存储介质

技术领域

本发明实施例涉及互联网技术领域，特别涉及一种视频换脸方法、电子设备和计算机可读存储介质。

背景技术

随着互联网技术的突飞猛进，大众对娱乐的需求也变得越来越高，越来越多的人希望体验属于自己的明星梦，视频换脸技术应运而生。顾名思义，视频换脸就是将原视频中人物的脸换成另一张脸。最初的换脸需求是因为电影的艺术需要，使用专业的视频剪辑技术和特效技术实现现实中不可能出现的人物场景镜头。目前的视频换脸技术中，基于机器深度学习的Deepfakes技术，可以实现换脸需求。

发明人发现相关技术中至少存在如下问题：使用Deepfakes技术进行视频换脸的时候，终端通过大量收集人脸素材来生成用于换脸的人脸素材库，但Deepfakes技术只是对搜集来的人脸素材做简单的特征提取，或者对人脸素材进行简单的三角剖析，根据这些特征从人脸素材库中匹配素材，简单粗暴地对视频中的人脸进行替换。由于人脸经常处于移动中，会有表情动作的变化，这种简单地提取特征很难提取到人脸素材中的更多细节，难以描述人脸素材中的动作信息，进而导致视频换脸的精准度不高，生成的换脸视频非常违和，效果不佳。

发明内容

本发明的实施方式的目的在于提供一种视频换脸方法、电子设备和计算机可读存储介质，可以提高视频换脸的精准度，使得生成的换脸视频更加逼真，效果更好。

为解决上述技术问题，本发明的实施方式提供了一种视频换脸的方法，包括以下步骤：确定待换脸视频中的第一人脸；获取预设的第二人脸的人脸素材库；其中，所述人脸素材库中的各人脸素材标注有特征标签，所述特征标签至少包括用于表征人脸动作特征的动作标签；根据所述特征标签，在所述人脸素材库中确定与所述第一人脸匹配的人脸素材；将所述待换脸视频中的所述第一人脸替换为所述匹配的人脸素材，得到换脸后的视频。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述视频换脸的方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述视频换脸的实现方法。

本发明的实施方式相对于现有技术而言，确定待换脸视频中的第一人脸，获取预设的第二人脸的人脸素材库，其中，人脸素材库中的各人脸素材标注有特征标签，特征标签至少包括表征人脸动作特征的动作标签。使用人脸素材库方便了对标注有特征标签的各人脸素材进行统一管理。考虑到人脸经常处于移动中，会有一些表情动作的变化，现有技术中对人脸素材进行简单的特征提取很难提取到人脸素材中的更多细节，难以描述人脸素材中的人脸动作信息。而本发明实施方式中，由于人脸素材库中的各人脸素材标注有特征标签，且特征标签至少包括用于表征人脸动作特征的动作标签，因此，本发明实施方式中各人脸素材标注的特征标签可以清晰的描述人脸素材中的人脸动作信息。进一步的，根据可以清晰的描述人脸动作信息的特征标签，在人脸素材库中确定与第一人脸匹配的人脸素材时，可以提高匹配的精准性。将待换脸视频中的第一人脸替换为匹配的人脸素材，得到换脸后的视频，可以提高视频换脸的精准度，使得生成的换脸视频更加逼真，效果更好。

另外，所述获取预设的第二人脸的人脸素材库，包括：获取所述第二人脸的人脸素材集；提取所述人脸素材集中各人脸素材的人脸特征；其中，所述人脸特征包括人脸动作特征；根据所述人脸特征对各所述人脸素材标注特征标签，生成所述预设的第二人脸的人脸素材库，在确定待换脸视频中的第一人脸后，直接生成第二人脸的人脸素材库，可以在一定程度上提高人脸素材库的实时性，以进一步提高视频换脸的精准度。

另外，若所述人脸素材为连续的帧序列，通过以下方式提取人脸动作特征：提取所述连续的帧序列中每一帧的人脸特征；根据预设的联合函数，确定所述连续的帧序列对应的联合特征；其中，所述联合函数用于联合所述连续的帧序列中每一帧的人脸特征；根据所述联合特征，确定所述连续的帧序列对应的人脸动作特征。考虑到人脸经常处于移动中，连续的帧序列更容易体现人脸移动时人脸动作特征的变化。因此，当人脸素材为连续的帧序列时，通过提取连续的帧序列中每一帧的人脸特征，再根据预设的用于联合每一帧的人脸特征的联合函数，确定连续的帧序列对应的联合特征，即考虑到了连续的帧序列中每一帧的重要性，从而结合联合特征，确定连续的帧序列对应的人脸动作特征。有利于在待换脸视频中的第一人脸进行动作变换时，跟踪变化的人脸动作特征，从而利用在人脸素材库中匹配的视频级素材即连续的帧序列，对第一人脸进行视频级的替换，进一步提高了视频换脸的精准度，优化了视频换脸的效果。

另外，所述根据所述联合特征，确定所述连续的帧序列对应的人脸动作特征，包括：根据用于预估不同人脸动作类别的类别概率的动作定位模型和所述联合特征，预估所述连续的帧序列分属不同人脸动作类别的类别概率；其中，所述动作定位模型预先根据若干标注有不同动作类别的帧序列训练得到；根据所述连续的帧序列分属不同人脸动作类别的类别概率，确定所述连续的帧序列对应的人脸动作特征。由于动作定位模型预先根据若干标注有不同动作类别的帧序列训练得到，即训练动作定位模型的数据来源于被标注的帧序列的真实类别数据，参考价值高，可使得预估的类别概率更加准确、可靠。从而，使得根据预估的类别概率确定的连续的帧序列对应的人脸动作特征更加准确，有效地提高了视频换脸的效果。

另外，获取预设的第二人脸的人脸素材集，包括：开启播放待换脸视频的设备的摄像头实时扫描第二人脸，将实时扫描的结果做为第二人脸的人脸素材，或者访问播放待换脸视频的设备的本地相册，将本地相册中的图片和/或视频作为第二人脸的人脸素材。通过上述方式获取第二人脸的人脸素材集，使得可以在播放待换脸视频的过程中，实时获取第二人脸的人脸素材集，方便了整个换脸的过程可以在线上实时完成，极大地提升了用户的使用体验，同时在线上完成换脸过程，还可以提高视频换脸的安全性。

另外，提取所述人脸素材集中的各人脸素材的人脸特征，包括：对各所述人脸素材进行区域划分，将人脸素材划分成不同的区域，按照区域提取人脸特征，标注特征标签，生成第二人脸的不同区域对应的人脸素材库。对人脸进行区域划分并按区域提取特征，方便了对待换脸视频进行区域级的替换，提高了替换的效率，有利于提升视频换脸的速度，有利于满足用户的个性化替换需求。

另外，在得到换脸后的视频之后，还包括：确定对换脸后的视频的下载限制方式，通过下载限制方式对换脸后的视频进行下载限制，避免了换脸后的视频被恶意传播带来的安全隐患，提高视频换脸过程中的安全性，并且保护用户的隐私权，避免用户侵犯他人肖像权。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施方式的视频换脸方法的流程图；

图2是根据本发明第一实施方式中，获取预设的第二人脸的人脸素材库的子步骤的流程图；

图3是根据本发明第一实施方式的实现实时视频换脸方法的操作示意图；

图4是根据本发明第二实施方式的视频换脸方法的流程图；

图5是根据本发明第二实施方式中，根据联合特征，确定连续的帧序列对应的人脸动作特征的流程图；

图6是根据本发明第三实施方式的视频换脸方法的流程图；

图7是根据本发明第四实施方式的视频换脸方法的流程图；

图8是根据本发明第五实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种视频换脸的方法，应用于电子设备；其中，电子设备可以为终端或服务器，本实施方式以及以下个各个实施方式中电子设备以终端为例进行说明。下面对本实施方式的视频换脸的方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本发明的实施方式进行视频换脸的场景可以为：使用终端内置播放器播放已下载的视频、在视频APP内在线观看视频、在浏览器页面在线观看视频等情况。其中，终端可以是智能手机、平板电脑或台式电脑等具备视频播放功能和网络功能的设备。

本实施方式的视频换脸的方法的具体流程可以如图1所示，包括：

步骤101，确定待换脸视频中的第一人脸；

具体而言，当用户需要对某个视频进行换脸操作时，终端可以根据用户意愿确定待换脸视频中的第一人脸。用户选定的视频可以是电影、电视剧、歌曲MV、综艺节目或体育比赛等包含人脸的视频。用户自行选择第一人脸，提高了用户的使用体验。

在一个例子中，待换脸视频为预先下载的视频，比如：终端将预先下载一段相声视频作为待换脸视频，根据用户的意愿选择相声视频中的某一相声演员的人脸为第一人脸。

在另一个例子中，待换脸视频为在线播放的视频，比如：终端获取用户使用某款APP观看的一段篮球比赛视频为待换脸视频，终端根据用户的意愿选择23号球员的人脸为第一人脸。

在一个例子中，终端确定第一人脸的方式可以为：在播放待换脸视频的过程中，终端检测到换脸启动信息，然后，获取鼠标点击信息，根据鼠标点击信息识别鼠标选定区域内的人脸，将此人脸作为待换脸视频的第一人脸。

在另一个例子中，终端确定第一人脸的方式为：如图3所示，终端检测到自身屏幕上的“换脸”虚拟按键被触发，确定用户使用某手机APP观看的一段篮球比赛视频为待换脸视频，并且实时获取屏幕上的触摸信息，根据触摸信息识别触摸选定区域内的人脸，将此人脸作为待换脸视频的第一人脸。

步骤102，获取预设的第二人脸的人脸素材库；

其中，人脸素材库中的各人脸素材标注有特征标签，特征标签包括：用于表征人脸动作特征的动作标签，人脸动作特征可以包括笑、哭、生气和皱眉等，特征标签可以清晰的描述人脸素材中的人脸动作信息。

在具体实现中，特征标签还可以包括但不限于：用于表征角度特征的角度标签、用于表征光线特征的光线标签等。其中，角度特征可以包括抬头、低头、侧脸和正脸等，光线特征可以包括：光线强、光线适中和光线暗等。

具体而言，第二人脸的人脸素材库包括第二人脸的多个人脸素材，且多个人脸素材均标注有特征标签。其中，第二人脸可以是除第一人脸外的任何人脸。预设的第二人脸可以根据实际需要进行选择，比如可以为观看待换脸视频的用户的人脸，或者其他用户想要看到的人物的人脸。

在一个例子中，预设的第二人脸的人脸素材库可以预存在终端中，也就是说，第二人脸的人脸素材库之前已经生成过并存储在终端中，则本步骤中可以直接获取终端中预存的第二人脸的人脸素材库。比如，终端已经储存小品演员A的人脸素材库，本次换脸预设的第二人脸为小品演员A，则本步骤中可以直接调用此小品演员A的人脸素材库。

在另一个例子中，获取预设的第二人脸的人脸素材库可以由如图2所示的各子步骤实现：

子步骤1021，获取第二人脸的人脸素材集；

其中，第二人脸的人脸素材，即不带有特征标签的人脸素材，若干第二人脸的人脸素材可以组成第二人脸的人脸素材集。也就是说，人脸素材集与人脸素材库的区别在于：人脸素材集中的各人脸素材均未被标注特征标签，人脸素材库中的各人脸素材均标注有特征标签。

在一个例子中，第二人脸为观看待换脸视频的用户的人脸，终端获取第二人脸的人脸素材集的方式可以为：开启播放待换脸视频的设备的摄像头，实时扫描第二人脸，根据实时扫描的结果，获取第二人脸的人脸素材集。比如，播放待换脸视频的设备为终端，终端在接收到换脸指令后可以自动开启前置摄像头，实时扫描第二人脸。其中，实时扫描的内容可以包括：人脸的面部特征、轮廓、动作和嘴型等等。实时扫描的结果可以为：自动开启摄像头后，终端根据网格线对准人脸拍摄得到包括各个方向、维度、光线、表情、动作等等五官清晰的大头照和/或视频。最后，终端可以整合拍摄的多张大头照和/或视频，组成第二人脸的人脸素材集。

其中，终端的播放界面上可以预设有表征换脸指令的虚拟按键，终端在检测到该虚拟按键被按下时，可以确定接收到换脸指令。或者，终端在接收到含有预设关键字的语音信息后，可以确定接收到换脸指令，预设关键字可以为包含“换脸”、“替换人脸”等表征换脸需求的关键字。

在另一个例子中，终端获取第二人脸的人脸素材集的方式可以为：访问播放待换脸视频的设备的本地相册，根据本地相册中的图片和/或视频，获取第二人脸的人脸素材集。比如，在本地相册中的图片和/或视频中查找包含第二人脸的图片和/或视频，组成第二人脸的人脸素材集。

在一个例子中，终端的播放界面可以如图3所示，用户在观看一段视频时，点击“换脸”按钮，进入到第一人脸选择中，用户选择左边的角色的人脸作为第一人脸，终端开启当前设备摄像头，或者访问当前设备的本地相册，开始获取第二人脸(观看视频的用户，或者本地相册中的人物)的人脸素材，组成第二人脸的人脸素材集并在线进行其他操作。即在线实时获取第二人脸的人脸素材集。

与现有技术相比，通过开启播放待换脸视频的设备的摄像头实时扫描第二人脸，将实时扫描的结果作为第二人脸的人脸素材，或者访问播放待换脸视频的设备的本地相册，将本地相册中的图片和/或视频作为第二人脸的人脸素材。整个换脸的过程可以在线上实时完成，极大地提升了用户的使用体验，同时在线上完成换脸过程，还可以提高视频换脸的安全性。

子步骤1022，提取人脸素材集中各人脸素材的人脸特征；

在一个例子中，人脸素材集中各人脸素材可以为人脸图片和/或视频。终端可以对人脸图片和/或视频进行人脸检测与定位，从复杂的外部背景中把局部人脸结构提取出来，对获取到的图片和/或视频进行前期处理；其中，前期处理可以包括但不限于：归一化、去除冗余特征信息、增加特征之间的相关信息、去除光线干扰等。在具体实现中，还可以对从复杂背景中提取出来的局部人脸图像进行预处理操作；其中，预处理操作可以包括但不限于：修正几何形状，虚化图像模式，均衡化直方图，归一化像素灰度值等。然后，可以对经过上述前期处理和预处理操作的人脸图片和/或视频提取人脸特征。通过对各人脸素材即人脸图片和/或视频进行上述前期处理和预处理操作，有利于提高人脸特征的提取速度，以及提取的人脸特征的准确度。

在具体实现中，提取的人脸特征至少包括人脸动作特征，人脸动作特征可以包括笑、哭、生气和皱眉等。提取的人脸特征还可以包括但不限于：人脸角度特征、人脸光线特征、人脸肤色特征等，然而在具体实现中并不以此为限。

在一个例子中，终端获取一张相声演员A的照片作为第二人脸的人脸素材，对这张照片进行特征提取，得到的特征可以包括：男性，黄皮肤，中年，正脸，寸头，哭等。

子步骤1023，根据人脸特征对各人脸素材标注特征标签，生成第二人脸的人脸素材库。

具体而言，终端提取出各人脸素材的人脸特征后，根据人脸特征，为各人脸素材标注特征标签，生成第二人脸的人脸素材库；其中，特征标签可以用于描述人脸特征，方便通过标注有动作标签的人脸素材，得到该人脸素材的人脸特征。

在一个例子中，终端对获取到的相声演员A的全部人脸素材进行特征提取，按照提取到的特征，对相声演员A每一个人脸素材标注特征标签，生成该相声演员A，也就是第二人脸的人脸素材库。比如，对相声演员A的人脸素材1提取的特征记为特征1，则可以根据特征1对人脸素材1标注特征标签1，该特征标签1可以用于描述特征1。

相对于现有技术而言，获取第二人脸的人脸素材集，通过提取人脸素材集中各人脸素材的人脸特征对各人脸素材标注特征标签，生成预设的第二人脸的人脸素材库。在确定待换脸视频中的第一人脸后，直接生成第二人脸的人脸素材库，可以在一定程度上提高生成人脸素材库的实时性。

步骤103，根据特征标签，在人脸素材库中确定与第一人脸匹配的人脸素材；

具体而言，终端可以提取第一人脸的人脸特征，其中，提取第一人脸的人脸特征的方式与提取第二人脸的人脸特征的方式大致相同，可以参考上述提取第一人脸的人脸特征的方式，为避免重复，此处不再赘述。终端提取到第一人脸的人脸特征后，可以根据第一人脸的人脸特征和人脸素材库中各人脸素材的特征标签，计算第一人脸与人脸素材库中各人脸素材的匹配度，然后，根据匹配度的大小，在人脸素材库中确定与第一人脸匹配的人脸素材。比如，可以选择与第一人脸匹配度最大的人脸素材作为与第一人脸匹配的人脸素材，然而，本实施方式对此不做具体限定。

在一个例子中，终端根据用户意愿确定篮球比赛视频中的23号球员为第一人脸，将该段视频进行分帧，提取人脸特征，根据23号球员的人脸特征匹配特征标签，在第二人脸的人脸素材库中寻找合适地人脸素材。

步骤104，将待换脸视频中的第一人脸替换为匹配的人脸素材，得到换脸后的视频。

具体而言，终端在第二人脸的人脸素材库中搜索到匹配的人脸素材后，将待换脸视频中的第一人脸替换成匹配到的人脸素材，生成换脸后的视频。使得生成的换脸视频更加逼真，效果更好。

在一个例子中，终端在第二人脸的人脸素材库中进行寻找，匹配出符合23号球员人脸(第一人脸)的人脸素材后，用匹配到的人脸素材替换篮球比赛视频中23号球员的人脸，生成换脸后的视频。

本发明的第一实施方式相对于现有技术而言，确定待换脸视频中的第一人脸，获取预设的第二人脸的人脸素材库，其中，人脸素材库中的各人脸素材标注有特征标签，特征标签至少包括表征人脸动作特征的动作标签。使用人脸素材库方便了对标注有特征标签的各人脸素材进行统一管理。考虑到人脸经常处于移动中，会有一些表情动作的变化，现有技术中对人脸素材进行简单的特征提取很难提取到人脸素材中的更多细节，难以描述人脸素材中的人脸动作信息，而本发明实施方式中，由于人脸素材库中的各人脸素材标注有特征标签，且特征标签至少包括用于表征人脸动作特征的动作标签，因此，本发明实施方式中各人脸素材标注的特征标签可以清晰的描述人脸素材中的人脸动作信息。进一步的，根据可以清晰的描述人脸动作信息的特征标签，在人脸素材库中确定与第一人脸匹配的人脸素材时，可以提高匹配的精准性。将待换脸视频中的第一人脸替换为匹配的人脸素材，得到换脸后的视频，可以提高视频换脸的精准度，使得生成的换脸视频更加逼真，效果更好。

本发明的第二实施方式涉及一种视频换脸的方法。下面对本实施方式的视频换脸的方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须，图4是第二实施方式所述的视频换脸的方法的示意图，包括：

步骤201，确定待换脸视频中的第一人脸；

步骤202，获取第二人脸的人脸素材集；

其中，步骤201、步骤202在第一实施方式中已有说明，此处不再赘述。

步骤203，提取连续的帧序列中，每一帧的人脸特征；

具体而言，当获取到的人脸素材为视频，即连续的帧序列时，终端将连续的帧序列进行解码、分帧，提取每一帧的人脸特征。视频中的人脸经常处于移动中的，经常会有表情动作，提取每一帧的人脸特征，可以把握连续的帧序列中更多的细节，减少特征的遗漏。其中，终端提取的每一帧的人脸特征实际为第二人脸的人脸特征。

步骤204，根据预设的联合函数，确定连续的帧序列对应的联合特征；

其中，联合函数用于联合连续的帧序列中每一帧的人脸特征。将每一帧的人脸特征联合起来得到联合特征，可以把握每一帧的重要性，获得的联合特征更加准确、详实，优化了视频换脸的效果。

步骤205，根据联合特征，确定连续的帧序列对应的人脸动作特征。

具体而言，终端在联合了连续的帧序列中每一帧的人脸特征得到联合特征后，可以根据联合特征对此帧序列的人脸动作特征做出判断，给出判断结果。

在一个例子中，终端获取到一段某小品演员的视频作为第二人脸的人脸素材，对该视频进行解码、分帧，提取每一帧的人脸特征，然后，根据预设的联合函数，获得该视频的联合特征，根据联合特征对人脸动作特征做出判断，比如判断结果可以为：哭、笑、皱眉等。

在一个例子中，根据联合特征，确定连续的帧序列对应的人脸动作特征，可以由如图5所示的各子步骤完成：

子步骤2051，根据动作定位模型和联合特征，预估连续的帧序列分属不同人脸动作类别的类别概率；

其中，动作定位模型用于预估连续的帧序列分属不同人脸动作类别的类别概率，动作定位模型可以预先根据若干标注有不同动作类别的帧序列训练得到。

在一个例子中，可以通过获取多个不同种族、年龄、性别的人脸的图片和/或视频作为训练素材库，其中，人工确定少量素材的人脸动作类别并进行标注，利用机器弱监督学习的方法，对训练素材库中的素材进行训练，来获得动作定位模型，通过使用代价函数来计算该模型的代价值，根据代价值对模型参数进行优化并进行迭代训练。

具体而言，动作定位模型是基于大量素材进行训练得到的，弱监督学习法指的是训练数据只有部分是被人工标记过的，同时大量数据是没有被标注过的，手动标记的训练集创建起来既昂贵又耗时，通常需要花费许多人数月或者数年的成本来进行数据的收集、清理和调试，弱监督学习法则有效解决了这一问题。根据这种方法获得的动作定位模型可靠、精准、值得信赖。

在具体实现中，人脸是一个人外貌特征最显著的标志，是辨认人的身份的重要根据，人脸也是一个复杂的集合体，人脸表情动作往往包含多种含义。本发明的实施方式使用动作定位模型，基于联合特征预估连续的帧序列分属不同人脸动作类别的类别概率，可以有效把握连续的帧序列中包含的人脸特征。

子步骤2052，根据连续的帧序列分属不同人脸动作类别的类别概率，确定连续的帧序列对应的人脸动作特征；

在具体实现中，终端在预估出连续的帧序列分别属于不同人脸动作类别的类别概率后，通过分析每个类别概率，给出该连续的帧序列人脸动作特征的结果。比如，不同人脸动作类别包括：哭、笑、生气，那么，终端可以预估出连续的帧序列分别属于哭、笑、生气的概率。也就是说，终端可以预估出连续的帧序列分别属于哭的概率(概率1)、属于笑的概率(概率2)、属于生气的概率(概率3)。然后，根据概率1、概率2、概率3确定连续的帧序列对用的人脸动作特征。如果上述3个概率中，概率3最大，即属于生气的概率最大，则可以预估出连续的帧序列对应的人脸动作特征为生气。

在一个例子中，可以使用公式

来预估连续的帧序列分属不同人脸动作类别的类别概率。其中，

为连续的帧序列分属不同人脸动作类别的类别概率，T为所述帧序列的帧数，I_t为用于表征帧序列中的第t帧的帧向量，f(I_t,θ)为第t帧的特征向量，θ为预设的特征向量的学习参数，h(f(I_t,θ),θ_cls)表示联合特征，θ_cls为预设的联合函数的可训练参数，σ(h(f(I_t,θ),θ_cls))为帧序列中的第t帧分属不同人脸动作类别的类别概率。其中，θ和θ_cls可以由本领域的开发人员根据实际情况进行设定。

在一个例子中，σ(h(f(I_t,θ),θ_cls))为帧序列中的第t帧分属不同人脸动作类别的类别概率；其中，σ可以使用逻辑回归函数中的softmax规范化函数。

在一个例子中，终端获取到的第二人脸的人脸素材中有一段10秒钟的视频，该视频每秒钟24帧，该视频总共有240帧的内容，本发明的实施方式提取每一帧的人脸特征进行联合，以第136帧为例，I₁₃₆即帧序列中的第136帧的帧向量，f(I₁₃₆,θ)为第136帧的特征向量。

可以理解的是，如果T＝1，则上述公式还可以直接用于预估单帧分属不同人脸动作类别的类别概率，从而可以确定单帧对应的人脸动作特征。

子步骤2053，根据人脸动作特征对各人脸素材标注特征标签，生成第二人脸的人脸素材库。

也就是说，终端提取出各人脸素材的人脸特征后，根据人脸特征，为各人脸素材标注特征标签，生成第二人脸的人脸素材库；其中，特征标签可以用于描述人脸特征，方便通过标注有动作标签的人脸素材，得到该人脸素材的人脸特征。本实施方式中，针对视频级人脸素材即连续的帧序列，采用上述的方式确定连续的帧序列对应的人脸动作特征，从而对连续的帧序列标注相应的特征标签，生成第二人脸的人脸素材库，有效的提高了第二人脸的人脸素材库中各人脸素材标注的特征标签的准确度。

在一个例子中，特征标签可以使用基础真值表示，这里的基础真值表示是否存在某一人脸动作特征的真值二进制向量，如果存在这个人脸动作特征，则其基础真值设置为1，否则设为0。在一个例子中，特征标签可以以数组的形式进行存储，比如：lst_face＝[0,1,0,1,0,1]，该数组有6位，分别表示6种人脸动作特征的基础真值，6种人脸动作特征可以为：哭、笑、皱眉、光线强、侧脸、低头，则lst_face＝[0,1,0,1,0,1]的含义为：不存在哭、存在笑、不存在皱眉、存在光线强、不存在侧脸、存在低头。需要说明的是，本实施方式中，只是以特征标签用于描述上述6种人脸动作特征为例，在具体实现中并不以此为限，本领域技术人员可以根据实际需要进行设置。

步骤206，根据特征标签，在人脸素材库中确定与第一人脸匹配的人脸素材；

步骤207，将待换脸视频中的第一人脸替换为匹配的人脸素材，得到换脸后的视频。

其中，步骤206、步骤207和第一实施方式中的步骤103、步骤104大致相同，此处不再赘述。

与现有技术相比，本实施例中，获取预设的第二人脸的人脸素材集，人脸素材集中的人脸素材为未标注的人脸素材，当获取的人脸素材为连续的帧序列时，考虑到人脸经常处于移动中，连续的帧序列更容易体现人脸移动时人脸动作特征的变化。因此，当人脸素材为连续的帧序列时，通过提取连续的帧序列中每一帧的人脸特征，再根据预设的用于联合每一帧的人脸特征的联合函数，确定连续的帧序列对应的联合特征，即考虑到了连续的帧序列中每一帧的重要性，从而结合联合特征，确定连续的帧序列对应的人脸动作特征。有利于在待换脸视频中的第一人脸进行动作变换时，跟踪变化的人脸动作特征，从而利用在人脸素材库中匹配的视频级素材即连续的帧序列，对第一人脸进行视频级的替换，进一步提高了视频换脸的精准度，优化了视频换脸的效果。而且，由于，动作定位模型预先根据若干标注有不同动作类别的帧序列训练得到，即训练动作定位模型的数据来源于被标注的帧序列的真实类别数据，参考价值高，可使得预估的类别概率更加准确、可靠。从而，使得根据预估的类别概率确定的连续的帧序列对应的人脸动作特征更加准确，有效地提高了视频换脸的效果。

本发明的第三实施方式涉及一种视频换脸的方法。下面对本实施方式的视频换脸的方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须，图6是第三实施方式所述的视频换脸的方法的示意图，包括：

步骤301，确定待换脸视频中的第一人脸；

步骤302，获取第二人脸的人脸素材集；

其中，步骤301在第一实施方式中已经进行过描述，为避免重复此处不再赘述。

步骤303，对各人脸素材进行区域划分，得到各人脸素材对应的不同区域；

具体而言，终端可以根据预设的区域划分标准对第二人脸的各人脸素材进行区域划分，将第二人脸的人脸素材划分成不同的区域。其中，预设的区域划分标准可以根据实际需要进行设置，本实施方式对此不做具体限定。

在一个例子中，预设的区域划分标准为人脸五官，则终端可以根据人脸五官，各人脸素材划分成眉毛、眼睛、鼻子、嘴、耳朵五个区域。在另一个例子中，预设的区域划分标准为左脸和右脸，则终端可以根据左脸和右脸，将各人脸素材中划分成左脸区域和右脸区域。

步骤304，提取各人脸素材对应的不同区域的人脸特征；

也就是说，对各人脸素材对应的每个区域分别进行特征提取，得到各人脸素材对应的不同区域的人脸特征。比如，上述示例中将各人脸素材划分成眉毛、眼睛、鼻子、嘴、耳朵五个区域，则提取的不同区域的人脸特征可以包括：眉毛区域特征、眼睛区域特征、鼻子区域特征、嘴区域特征、耳朵区域特征。将人脸素材进行区域划分提取人脸特征，可以尽可能多地剖析人脸素材中的细节信息，提取到的人脸特征更加鲜明、完整。

步骤305，根据各人脸素材对应的不同区域的人脸特征，生成第二人脸的不同区域对应的人脸素材库；

在具体实现中，可以根据各人脸素材对应的不同区域的人脸特征，对各人脸素材标注区域人脸特征标签，根据各人脸素材标注的区域人脸特征标签，生成第二人脸的不同区域对应的人脸素材库。

在一个例子中，提取的不同区域的人脸特征包括：眉毛区域特征、眼睛区域特征、鼻子区域特征、嘴区域特征、耳朵区域特征，则对各人脸素材标注的区域人脸特征标签可以包括：眉毛区域特征标签、眼睛区域特征标签、鼻子区域特征标签、嘴区域特征标签、耳朵区域特征标签。根据各人脸素材标注的区域人脸特征标签，生成第二人脸的不同区域对应的人脸素材库包括：眉毛对应的眉毛素材库、眼睛对应的眼睛素材库、鼻子对应的鼻子素材库、嘴对应的嘴素材库、耳朵对应的耳朵素材库。

步骤306，根据特征标签，在各区域的人脸素材库中确定与第一人脸匹配的人脸素材；

具体而言，可以对第一人脸进行与步骤303相同的区域划分，也就是说，按照相同的区域划分标准进行划分，然后提取第一人脸的不同区域的人脸特征。接着，可以按照用户的个性化换脸要求，在各区域的人脸素材库中确定与第一人脸匹配的人脸素材。其中，个性化换脸要求可以理解为用户希望对第一人脸中的某一人脸区域进行替换，比如，只对第一人脸的眉毛、眼睛、鼻子、嘴、耳朵等五个区域中的任意一个或多个进行替换。终端的播放界面可以提供用于选择不同人脸区域的虚拟按键，或者用户可以直接通过终端输入希望替换的人脸区域。从而终端可以根据用户输入的内容，确定用户希望替换的人脸区域(以下称为目标区域)。终端在确定目标区域后，可以在各区域的人脸素材库中，确定目标区域对应的人脸素材库，比如，确定的目标区域为眼睛，则确定的目标区域对应的人脸素材库可以为眼睛素材库，眼睛素材库中的各人脸素材均标注有眼睛区域特征标签。接着，终端提取第一人脸的眼睛区域特征，根据第一人脸的眼睛区域特征和上述的眼睛区域特征标签，确定第一人脸的眼睛与眼睛素材库中各人脸素材的眼睛的匹配度，根据匹配度大小，确定与第一人脸匹配的人脸素材。

步骤307，将待换脸视频中的第一人脸替换为匹配的人脸素材，得到换脸后的视频；

也就是说，终端可以将待换脸视频中第一人脸的目标区域替换为匹配的人脸素材的目标区域，得到换脸后的视频。即，对第一人脸中的目标区域进行了替换，其中，目标区域至少包括以下任意之一：眼睛、鼻子、嘴、眉毛、耳朵。可以理解为，本实施方式中可以实现只对第一人脸的眉毛、眼睛、鼻子、嘴、耳朵等五个区域中的一个或多个区域进行替换。

与现有技术相比，本实施例中，对各所述人脸素材进行区域划分，将人脸素材划分成不同的区域，按照区域提取人脸特征，标注特征标签，生成第二人脸的不同区域对应的人脸素材库。将人脸素材进行区域划分提取人脸特征，可以尽可能多地剖析人脸素材中的细节信息，提取到的人脸特征更加鲜明、完整。对人脸进行区域划分并按区域提取特征，方便了对待换脸视频进行区域级的替换，提高了替换的效率，有利于满足用户的个性化替换需求。

需要说明的是，本实施例也可以是在第一、第二实施例基础上的改进。

本发明的第四实施方式涉及一种视频换脸的方法。下面对本实施方式的视频换脸的方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须，图7是第四实施方式所述的视频换脸的方法的示意图，包括：

步骤401，确定待换脸视频中的第一人脸；

步骤402，获取预设的第二人脸的人脸素材库；

步骤403，根据特征标签，在人脸素材库中确定与第一人脸匹配的人脸素材；

步骤404，将待换脸视频中的第一人脸替换为匹配的人脸素材，得到换脸后的视频；

其中，步骤401—404和第一实施方式中的步骤101—104大致相同，此处不再赘述。

步骤405，确定对换脸后的视频的下载限制方式；

具体而言，下载限制方式可以根据实际需要进行设置，比如可以是换脸之前预先设置安全密码、下载换脸视频时需要输入动态验证码、将换脸视频生成在用户指定的带有密码的网盘中等。需要说明的是，本实施方式中只是以上述几种下载限制方式为例，在具体实现中并不以此为限。

步骤406，利用下载限制方式，对换脸后的视频进行下载限制。

可以理解的是，用户进行视频换脸往往是为了满足对成为明星的渴望，如果视频被盗取并且流传到互联网中，很有可能会侵犯明星的肖像权，通过确定对换脸后的视频的下载限制方式，对换脸后的视频进行下载限制，可以有效提高视频换脸的安全性。

在一个例子中，用户在线上进行实时换脸，终端生成换脸后的视频后，用户下载此视频需要通过输入电话号码的方式来获得动态验证码，输入正确的动态验证码之后，才允许下载换脸后的视频。

在另一个例子中，用户在线下进行视频换脸操作，终端生成换脸后的视频后，用户导出此视频需要输入安全密码，安全密码可以由用户提前自行设定，输入正确的安全密码后，才允许导出换脸后的视频。

需要说明的是，本实施例也可以是在第一、第二、第三实施例基础上的改进。

与现有技术相比，本实施例中，确定对换脸后的视频的下载限制方式，通过下载限制方式对换脸后的视频进行下载限制，避免了视频被恶意传播带来的安全隐患，提高视频换脸过程中的安全性，并且保护用户的隐私权，避免用户侵犯他人肖像权。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第五实施方式涉及一种电子设备，如图8所示，包括：至少一个处理器501；以及，与所述至少一个处理器501通信连接的存储器502；其中，所述存储器502存储有可被所述至少一个处理器501执行的指令，所述指令被所述至少一个处理器501执行，以使所述至少一个处理器501能够执行上述各实施方式中的视频换脸的方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第六实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种视频换脸方法，其特征在于，包括：

确定待换脸视频中的第一人脸；

获取预设的第二人脸的人脸素材库；其中，所述人脸素材库中的各人脸素材标注有特征标签，所述特征标签至少包括用于表征人脸动作特征的动作标签；

根据所述特征标签，在所述人脸素材库中确定与所述第一人脸匹配的人脸素材；

将所述待换脸视频中的所述第一人脸替换为所述匹配的人脸素材，得到换脸后的视频。

2.根据权利要求1所述的视频换脸方法，其特征在于，所述获取预设的第二人脸的人脸素材库，包括：

获取所述第二人脸的人脸素材集；

提取所述人脸素材集中各人脸素材的人脸特征；其中，所述人脸特征包括人脸动作特征；

根据所述人脸特征对各所述人脸素材标注特征标签，生成所述预设的第二人脸的人脸素材库。

3.根据权利要求2所述的视频换脸方法，其特征在于，若所述人脸素材为连续的帧序列，通过以下方式提取人脸动作特征：

提取所述连续的帧序列中每一帧的人脸特征；

根据预设的联合函数，确定所述连续的帧序列对应的联合特征；其中，所述联合函数用于联合所述连续的帧序列中每一帧的人脸特征；

根据所述联合特征，确定所述连续的帧序列对应的人脸动作特征。

4.根据权利要求3所述的视频换脸方法，其特征在于，所述根据所述联合特征，确定所述连续的帧序列对应的人脸动作特征，包括：

根据用于预估不同人脸动作类别的类别概率的动作定位模型和所述联合特征，预估所述连续的帧序列分属不同人脸动作类别的类别概率；其中，所述动作定位模型预先根据若干标注有不同动作类别的帧序列训练得到；

根据所述连续的帧序列分属不同人脸动作类别的类别概率，确定所述连续的帧序列对应的人脸动作特征。

5.根据权利要求4所述的视频换脸方法，其特征在于，通过以下公式预估所述连续的帧序列分属不同人脸动作类别的类别概率：

其中，所述

为所述连续的帧序列分属不同人脸动作类别的类别概率，所述T为所述帧序列的帧数，所述σ(h(f(I_t，θ)，θ_cls))为所述帧序列中的第t帧分属不同人脸动作类别的类别概率，所述h(f(I_t，θ)，θ_cls)为所述联合特征，所述f(I_t，θ)为所述第t帧的特征向量，所述θ为预设的所述特征向量的学习参数，所述I_t为用于表征所述帧序列中的第t帧的帧向量，所述θ_cls为预设的所述联合函数的可训练参数。

6.根据权利要求2所述的视频换脸方法，其特征在于，所述获取所述预设的第二人脸的人脸素材集，包括：

开启播放所述待换脸视频的设备的摄像头，实时扫描所述第二人脸；

根据实时扫描的结果，获取所述第二人脸的人脸素材集；或者，

访问播放所述待换脸视频的设备的本地相册；

根据所述本地相册中的图片和/或视频，获取所述第二人脸的人脸素材集。

7.根据权利要求2所述的视频换脸方法，其特征在于，所述提取所述人脸素材集中的各人脸素材的人脸特征，包括：

对各所述人脸素材进行区域划分，得到各所述人脸素材对应的不同区域；

提取各所述人脸素材对应的不同区域的人脸特征；

所述根据所述人脸特征对各所述人脸素材标注特征标签，生成所述第二人脸的人脸素材库，包括：

根据各所述人脸素材对应的不同区域的人脸特征，生成所述第二人脸的不同区域对应的人脸素材库。

8.根据权利要求1所述的视频换脸方法，其特征在于，在所述得到换脸后的视频之后，还包括：

确定对所述换脸后的视频的下载限制方式；

利用所述下载限制方式，对所述换脸后的视频进行下载限制。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述的视频换方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的视频换脸方法。