CN110929617B

CN110929617B - 一种换脸合成视频检测方法、装置、电子设备及存储介质

Info

Publication number: CN110929617B
Application number: CN201911115108.4A
Authority: CN
Inventors: 李奇林; 吴子建; 孙翔宇
Original assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2023-05-30
Anticipated expiration: 2039-11-14
Also published as: CN110929617A

Abstract

本发明公开了一种换脸合成视频检测方法、装置、电子设备及存储介质，所述方法包括：针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息；根据每帧第一图像的类别信息确定所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。由于在本发明实施例中，视频检测模型用于对输入的图像进行二分类，确定出输入的图像是换脸合成图像还是未经过换脸合成的图像，根据每帧图像的类别信息确定出待检测的视频是换脸合成视频还是未经过换脸合成的视频。本发明实施例提供了一种能够有效检测换脸合成视频的技术方案。

Description

一种换脸合成视频检测方法、装置、电子设备及存储介质

技术领域

本发明涉及视频图像处理技术领域，尤其涉及一种换脸合成视频检测方法、装置、电子设备及存储介质。

背景技术

换脸合成视频是指把视频中的人面部替换成另一个人的面部，重点在于表情动作神态口型需要与原视频一致，从而与相应场景、音频等信息匹配。

通过替换脸部制造假视频的实践由来已久，但是由于技术限制，效果并不理想。近几年来人工智能AI技术取得较大进步，通过替换脸部制造假视频的效果相比传统方法提升巨大，受到越来越多的关注。AI技术被深入的运用到制造合成视频中，已经能够达到人眼难以分辨真假的程度，相应的换脸合成技术也开始从实验室走向民用，国内外各视频网站上已经开始出现大量的换脸合成视频。

换脸合成视频的检测是指输入一段视频，分析其中人脸部分是真实的还是被替换过的假脸。换脸技术滥用后患无穷，例如干扰选举、激化社会矛盾、煽动舆论、诈骗、敲诈勒索等，而随着直播平台兴起，巨大的视频流量已经无法单纯用人工方式进行监管，更何况现在很多合成视频人类难以分辨，目前还没有一种能够有效检测换脸合成视频的技术方案。

发明内容

本发明实施例提供了一种换脸合成视频检测方法、装置、电子设备及存储介质，用以实现对换脸合成视频的有效检测。

本发明实施例提供了一种换脸合成视频检测方法，所述方法包括：

针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息；

为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。

进一步地，所述针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型之前，所述方法还包括：

对待检测的视频进行分帧处理，将分帧处理后得到的每帧图像中，存在人脸区域、人脸区域的尺寸大于预设的尺寸阈值且清晰度达到预设的清晰度阈值的图像作为第一图像。

进一步地，所述为不同的类别信息分配不同的数值标签之后，确定每帧第一图像的类别信息对应的数值标签的平均值之前，所述方法还包括：

将所述每帧第一图像划分为预设数量的图像组；

针对每个图像组，若该图像组中的类别信息为换脸信息的第一图像的数量与类别信息为非换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的非换脸信息更新为换脸信息；若该图像组中的类别信息为非换脸信息的第一图像的数量与类别信息为换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的换脸信息更新为非换脸信息。

进一步地，所述为不同的类别信息分配不同的数值标签之后，将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息之前，所述方法还包括：

确定每帧第一图像的类别信息对应的数值标签的方差，判断所述方差是否小于预设的数值，如果是，将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息。

进一步地，所述视频检测模型的训练过程包括：

针对训练集中的每个第二图像，按照随机系数对该第二图像进行缩放处理，对缩放处理后的图像进行高斯模糊处理，得到第三图像，并为第三图像添加类别信息为非换脸信息的标签；分别确定该第二图像和该第三图像中的人脸区域的特征点，通过特征点匹配对该第三图像进行转换处理，得到第四图像；采用该第四图像中的人脸区域替换该第二图像中的人脸区域，得到第五图像，并为第五图像添加类别信息为换脸信息的标签；其中，该第三图像和第五图像为一组训练图像；

将每组训练图像输入到视频检测模型中，对所述视频检测模型进行训练。

进一步地，所述针对训练集中的每个第二图像，按照随机系数对该第二图像进行缩放处理之前，所述方法还包括：

将训练集中的每个图像中，存在人脸区域、人脸区域的尺寸大于预设的尺寸阈值且清晰度达到预设的清晰度阈值的图像作为第二图像。

进一步地，所述通过特征点匹配对该第三图像进行转换处理之后，得到第四图像之前，所述方法还包括：

确定该第二图像中人脸区域的颜色直方图，根据所述颜色直方图对转换处理后的第三图像进行颜色信息的调整，得到第六图像；对转换处理后的第三图像和该第六图像进行加权平均，得到第四图像。

进一步地，所述采用该第四图像中的人脸区域替换所述第二图像中的人脸区域，得到第五图像包括：

根据正弦分布规律，分别为该第四图像和第二图像中的人脸区域中人脸轮廓内侧和外侧的设定像素点分配权重值；其中，人脸轮廓处的像素点的权重值为0.5，第四图像人脸轮廓内侧的设定像素点中，距离人脸轮廓越远，对应的权重值越大；第四图像人脸轮廓外侧的设定像素点中，距离人脸轮廓越远，对应的权重值越小；第四图像和第二图像的设定像素点中，对应像素点的权重之和为1；

根据分配的权重值对第二图像和第四图像进行加权求和处理，得到第五图像。

进一步地，所述方法还包括：

将每个图像组中，存在类别信息替换的第一图像作为候选图像，以及将每个第一图像中，与确定的待检测视频的类别信息不一致的第一图像作为候选图像；

采用人脸识别算法和姿态估计算法，将所述候选图像中不同人脸及不同姿态的图像作为第二图像，对训练集进行更新。

另一方面，本发明实施例提供了一种换脸合成视频检测装置，所述装置包括：

输出模块，用于针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息；

确定模块，用于为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。

进一步地，所述装置还包括：

第一筛选模块，用于对待检测的视频进行分帧处理，将分帧处理后得到的每帧图像中，存在人脸区域、人脸区域的尺寸大于预设的尺寸阈值且清晰度达到预设的清晰度阈值的图像作为第一图像，并触发所述输出模块。

进一步地，所述装置还包括：

第一更新模块，用于将所述每帧第一图像划分为预设数量的图像组；针对每个图像组，若该图像组中的类别信息为换脸信息的第一图像的数量与类别信息为非换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的非换脸信息更新为换脸信息；若该图像组中的类别信息为非换脸信息的第一图像的数量与类别信息为换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的换脸信息更新为非换脸信息。

进一步地，所述装置还包括：

判断模块，用于确定每帧第一图像的类别信息对应的数值标签的方差，判断所述方差是否小于预设的数值，如果是，触发所述确定模块。

进一步地，所述装置还包括：

训练模块，用于针对训练集中的每个第二图像，按照随机系数对该第二图像进行缩放处理，对缩放处理后的图像进行高斯模糊处理，得到第三图像，并为第三图像添加类别信息为非换脸信息的标签；分别确定该第二图像和该第三图像中的人脸区域的特征点，通过特征点匹配对该第三图像进行转换处理，得到第四图像；采用该第四图像中的人脸区域替换该第二图像中的人脸区域，得到第五图像，并为第五图像添加类别信息为换脸信息的标签；其中，该第三图像和第五图像为一组训练图像；将每组训练图像输入到视频检测模型中，对所述视频检测模型进行训练。

进一步地，所述装置还包括：

第二筛选模块，用于将训练集中的每个图像中，存在人脸区域、人脸区域的尺寸大于预设的尺寸阈值且清晰度达到预设的清晰度阈值的图像作为第二图像。

进一步地，所述装置还包括：

调整模块，用于确定该第二图像中人脸区域的颜色直方图，根据所述颜色直方图对转换处理后的第三图像进行颜色信息的调整，得到第六图像；对转换处理后的第三图像和该第六图像进行加权平均，得到第四图像。

进一步地，所述训练模块，具体用于根据正弦分布规律，分别为该第四图像和第二图像中的人脸区域中人脸轮廓内侧和外侧的设定像素点分配权重值；其中，人脸轮廓处的像素点的权重值为0.5，第四图像人脸轮廓内侧的设定像素点中，距离人脸轮廓越远，对应的权重值越大；第四图像人脸轮廓外侧的设定像素点中，距离人脸轮廓越远，对应的权重值越小；第四图像和第二图像的设定像素点中，对应像素点的权重之和为1；根据分配的权重值对第二图像和第四图像进行加权求和处理，得到第五图像。

进一步地，所述装置还包括：

第二更新模块，用于将每个图像组中，存在类别信息替换的第一图像作为候选图像，以及将每个第一图像中，与确定的待检测视频的类别信息不一致的第一图像作为候选图像；采用人脸识别算法和姿态估计算法，将所述候选图像中不同人脸及不同姿态的图像作为第二图像，对训练集进行更新。

另一方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一项所述的方法步骤。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。

本发明实施例提供了一种换脸合成视频检测方法、装置、电子设备及存储介质，所述方法包括：针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息；为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。

在本发明实施例中，电子设备中配置有预先训练完成的视频检测模型，当需要对视频进行换脸合成检测时，将待检测的视频中的每帧第一图像输入到视频检测模型中，视频检测模型输出所述输入的第一图像是换脸合成图像还是未经过换脸合成的图像，综合考虑每帧第一图像是否是为换脸合成图像，来确定待检测的视频是否为换脸合成视频，即为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息，从而实现了对换脸合成视频的检测。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的换脸合成视频检测过程示意图；

图2为本发明实施例提供的换脸合成视频检测流程图；

图3为本发明实施例提供的在训练集中选取第二图像的流程图；

图4为本发明实施例提供的确定待检测的视频中的第一图像的流程图；

图5为本发明实施例提供的生成正负样本的流程图；

图6为本发明实施例提供的确定待检测视频的类别信息的流程图；

图7为本发明实施例提供的对训练集进行更新的流程图；

图8为本发明实施例提供的换脸合成视频检测装置结构示意图；

图9为本发明实施例提供的电子设备结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的换脸合成视频检测过程示意图，该过程包括以下步骤：

S101：针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息。

本发明实施例提供的换脸合成视频检测方法应用于具备图像处理能力的电子设备，该电子设备可以是PC、平板电脑等设备。

电子设备获取待检测的视频之后，对待检测的视频进行分帧处理，得到每帧图像，电子设备可以将待检测的视频中的每帧图像都作为第一图像。电子设备中配置有预先训练完成的视频检测模型，视频检测模型用于对输入的第一图像进行二分类，针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于视频检测模型，输出该第一图像是换脸图像的信息还是非换脸图像的信息。

S102：为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。

电子设备确定出每帧第一图像的类别信息之后，根据每帧第一图像的类别信息可以确定出待检测视频的类别信息。具体的，可以根据类别信息为换脸信息的第一图像的数量和类别信息为非换脸信息的第一图像的数量，确定待检测视频的类别信息。具体的，将数量较多的类别信息作为待检测视频的类别信息。

例如，待检测的视频中包括1000帧第一图像，其中，经过视频检测模型确定类别信息为换脸信息的第一图像的数量为900个，类别信息为非换脸信息的第一图像的数量为100个，则确定待检测的视频的类别信息为换脸信息，也就是说确定待检测的视频为经过换脸的合成视频。

为了使确定待检测视频的类别信息更准确，在根据每帧第一图像的类别信息确定所述待检测视频的类别信息时，为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息。

在本发明实施例中，电子设备为不同的类别信息分配不同的数值标签，例如换脸信息对应的数值标签为0，非换脸信息对应的数值标签为1。在确定出每帧第一图像的类别信息之后，计算定每帧第一图像的类别信息对应的数值标签的平均值，然后将与平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为待检测视频的类别信息。

例如，换脸信息对应的数值标签为0，非换脸信息对应的数值标签为1，预设的范围为0至0.2。在确定出每帧第一图像的类别信息之后，计算定每帧第一图像的类别信息对应的数值标签的平均值为0.9。0.9与1的差值为0.1，0.9与0的差值为0.9。可见与平均值的差值较小的类别信息为非换脸信息，并且0.9与1的差值为0.1，0.1在预设的范围0至0.2之间，因此确定待检测视频的类别信息为非换脸信息。

实施例2：

由于待检测的视频中可能存在不满足检测要求的图像，即使将这些不满足要求的图像输入预先训练完成的视频检测模型，也无法输出该图像的类别信息。还降低了换脸合成视频检测的效率，增加了检测过程的功耗。为了提高换脸合成视频检测的效率，并且降低检测过程的功耗，在上述实施例的基础上，在本发明实施例中，所述针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型之前，所述方法还包括：

在本发明实施例中，电子设备获取待检测的视频之后，对待检测的视频进行分帧处理，得到分帧处理后的每帧图像。然后针对每帧图像，首先通过人脸检测算法判断该帧图像中是否存在人脸图像，如果不存在人脸图像，则该帧图像对于换脸合成视频检测没有意义，直接滤除该帧图像，如果该帧图像存在人脸图像，则继续判断该帧图像中的人脸区域的尺寸是否大于预设的尺寸阈值，并且该帧图像的清晰度是否达到预设的清晰度阈值，当这两个条件都满足时，则将该帧图像作为第一图像，进行后续的换脸合成视频检测的步骤，如果任一条件不满足，则说明该图像的质量较差，视频检测模型无法输出准确的类别信息，对于换脸合成视频检测也没有积极意义，因此，也滤除该帧图像。

需要说明的是，本发明实施例中的清晰度可以用拉普拉斯系数表示，预设的清晰度阈值也就是预设的拉普拉斯系数阈值，例如是50，60等，当然也可以用其他的清晰度评价值表示，在本发明实施例中不进行限定。

由于在本发明实施例中，对待检测的视频进行分帧处理后，对得到的每帧图像进行筛选，将存在人脸区域的，并且满足质量要求的图像作为第一图像，进行后续的换脸合成视频检测步骤，对于换脸合成视频检测没有意义的图像直接滤除，因此提高了换脸合成视频检测的效率，并且降低了检测过程的功耗。

实施例3：

为了进一步使确定待检测视频的类别信息更准确，在上述各实施例的基础上，在本发明实施例中，所述为不同的类别信息分配不同的数值标签之后，确定每帧第一图像的类别信息对应的数值标签的平均值之前，所述方法还包括：

将所述每帧第一图像划分为预设数量的图像组；

由于视频检测模型输出的类别信息有可能出现错误，例如有可能将经过换脸的图像的类别信息误认为是非换脸信息，或者将未经过换脸的图像的类别信息误认为是换脸信息。但是这种错误在整个视频中是少数的，本发明实施例的作用便是消除视频检测模型输出的少数错误的类别信息。

具体的，在本发明实施例中，首先将每帧第一图像划分为预设数量的图像组，例如共有1000帧第一图像，可以将1000帧第一图像划分为20组，每组中包含的第一图像数量可以相同也可以不同，较佳的，可以平均划分，也就是每个图像组中包含50帧图像。

电子设备针对每个图像组，识别该图像组中的类别信息为换脸信息的第一图像的数量，以及类别信息为非换脸信息的第一图像的数量。电子设备中保存有预设的数量阈值，判断类别信息为换脸信息的第一图像的数量与类别信息为非换脸信息的第一图像的数量的差值是否大于预设的数量阈值，如果是，则将该图像组中的非换脸信息更新为换脸信息；如果否，则不进行更新。

若该图像组中的类别信息为非换脸信息的第一图像的数量与类别信息为换脸信息的第一图像的数量的差值大于预设的数量阈值，则将该图像组中的换脸信息更新为非换脸信息；否则不进行更新。

例如，某个图像组中包含50帧图像，预设的数量阈值为35帧，识别该图像组中的类别信息为换脸信息的第一图像的数量为45帧，以及类别信息为非换脸信息的第一图像的数量为5帧，类别信息为换脸信息的第一图像的数量与类别信息为非换脸信息的第一图像的数量的差值为40帧，大于预设的数量阈值，因此，将这5帧第一图像的类别信息更新为换脸信息。

由于在本发明实施例中，针对每个图像组，若该图像组中的类别信息为换脸信息的第一图像的数量与类别信息为非换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的非换脸信息更新为换脸信息；若该图像组中的类别信息为非换脸信息的第一图像的数量与类别信息为换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的换脸信息更新为非换脸信息。从而可以消除视频检测模型输出的少数错误的类别信息，因此进一步使确定待检测视频的类别信息更准确。

实施例4：

为了进一步使确定待检测视频的类别信息更准确，在上述各实施例的基础上，在本发明实施例中，所述为不同的类别信息分配不同的数值标签之后；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息之前，所述方法还包括：

在本发明实施例中，电子设备为不同的类别信息分配不同的数值标签之后，计算每帧第一图像的类别信息对应的数值标签的方差，电子设备中保存有预设的数值，该数值一般取较小的正数，例如0.1，0.2等。电子设备计算每帧第一图像的类别信息对应的数值标签的方差后，判断方差是否小于预设的数值，如果是，则说明确定出的第一图像的类别信息波动较小，也就说明确定的第一图像的类别信息较准确，此时进行后续的确定待检测视频的类别信息的步骤，从而使得确定待检测视频的类别信息更准确。

实施例5：

在本发明实施例中，对视频检测模型的训练过程进行详细说明。

所述视频检测模型的训练过程包括：

针对训练集中的每个第二图像，按照随机系数对该第二图像进行缩放处理，对缩放处理后的图像进行高斯模糊处理，得到第三图像，并为第三图像添加类别信息为非换脸信息的标签；分别确定该第二图像和该第三图像中的人脸区域的特征点，通过特征点匹配对该第三图像进行转换处理，得到第四图像；采用该第四图像中的人脸区域替换所述第二图像中的人脸区域，得到第五图像，并为第五图像添加类别信息为换脸信息的标签；其中，该第三图像和第五图像为一组训练图像；

电子设备中保存有训练集，电子设备可以将训练集中的每个图像作为第二图像。针对每个第二图像，按照随机系数对该第二图像进行缩放处理，随机系数可以是0.5、0.8、1.2、1.5、1.8等。对缩放处理后的图像进行高斯模糊处理，得到第三图像，其中高斯模糊处理时可以采用3*3核进行模糊处理。此时得到的第三图像认为是未经过换脸合成的图像，为第三图像添加类别信息为非换脸信息的标签。

电子设备分别确定该第二图像和该第三图像中的人脸区域的特征点，其中，可以分别在该第二图像和第三图像中的人脸区域上获取72个特征点，包括嘴角、眼角、鼻尖、上唇、下唇等位置的特征点，然后通过特征点匹配对该第三图像进行转换处理，得到第四图像，具体过程为，通过该第二图像和该第三图像中特征点匹配确定该第二图像和该第三图像的转换关系，将该转换关系运用到该第三图像中，对该第三图像进行转换处理，得到第四图像。其中，对该第三图像进行转换处理包括对该第三图像进行缩放、旋转、翻转、平移等处理。

电子设备采用该第四图像中的人脸区域替换该第二图像中的人脸区域，得到第五图像，第五图像为经过换脸的图像，因此为第五图像添加类别信息为换脸信息的标签；并且，将该第三图像和第五图像作为一组训练图像。

电子设备针对训练集中的每个第二图像，都可以生成一组训练图像，将每组训练图像输入到视频检测模型中，对视频检测模型进行训练。

采用本发明实施例提供的生成正负样本，也就是带有非换脸信息的标签和换脸信息的标签的图像的方法，能够更快速产生突出换脸痕迹的样本集，规避掉面部特征或背景差异对模型训练的影响，生成更为合理的神经网络模型。

在本发明实施例中，为了提高模型训练的效率，并且降低训练过程的功耗，在本发明实施例中，所述针对训练集中的每个第二图像，按照随机系数对该第二图像进行缩放处理之前，所述方法还包括：

在本发明实施例中，电子设备针对训练集中的每张图像，首先通过人脸检测算法判断该图像中是否存在人脸图像，如果不存在人脸图像，则该图像对于模型训练没有意义，直接滤除该图像，如果该图像存在人脸图像，则继续判断该图像中的人脸区域的尺寸是否大于预设的尺寸阈值，并且该帧图像的清晰度是否达到预设的清晰度阈值，当这两个条件都满足时，则将该图像作为第二图像，进行后续的模型训练的步骤，如果任一条件不满足，则说明该图像的质量较差，对于模型训练也没有积极意义，因此，也滤除该图像。

由于在本发明实施例中，对训练集中的每个图像进行筛选，将存在人脸区域的，并且满足质量要求的图像作为第二图像，进行后续的模型训练步骤，对于模型训练没有意义的图像直接滤除，因此提高了模型训练的效率，并且降低了模型训练过程的功耗。

为了使训练的视频监测模型准确率更高，在本发明实施例中，所述通过特征点匹配对该第三图像进行转换处理之后，得到第四图像之前，所述方法还包括：

在本发明实施例中，电子设备确定该第二图像中人脸区域的颜色直方图，然后根据颜色直方图对转换处理后的第三图像进行颜色信息的调整，得到第六图像。其中，根据颜色直方图对转换处理后的第三图像进行颜色信息的调整，得到第六图像的过程属于现有技术，在此不再对该过程进行赘述。

得到第六图像之后，电子设备分别为转换处理后的第三图像和第六图像分配不同的权重值，根据分配的权重值对转换处理后的第三图像和该第六图像进行加权平均，得到第四图像。

采用本发明实施例提供的方案，使得第四图像与第二图像的色度相一致，相当于增加了训练样本的相似度，这样训练出的视频检测模型准确率更高，更能适应难以分辨的视频检测。

在本发明实施例中，采用该第四图像中的人脸区域替换第二图像中的人脸区域，会导致人脸区域的轮廓线明显，出现“断崖”现象，影响模型训练的准确性，因此，为了使替换后人脸区域的轮廓线平滑，所述采用该第四图像中的人脸区域替换所述第二图像中的人脸区域，得到第五图像包括：

在本发明实施例中，为了实现平滑的贴图，需要引入“蒙板”的概念——蒙板是对第二图像和第四图像对应像素点像素值加权求和的依据，由各图面部特征点凸轮廓及其变换产生，我们对第二图像和第四图像按两图对应关系变换后的蒙板求并集，然后以边界为基准对两侧值进行平滑，即对阶跃做正弦化处理。使用“蒙板”的概念对合成后的图像进行后期处理以求更加逼真。

具体的，电子设备根据正弦分布规律，分别为该第四图像和第二图像中的人脸区域中人脸轮廓内侧和外侧的设定像素点分配权重值，其中，人脸轮廓处的像素点的权重值为0.5，第四图像人脸轮廓内侧的设定像素点中，距离人脸轮廓越远，对应的权重值越大；第四图像人脸轮廓外侧的设定像素点中，距离人脸轮廓越远，对应的权重值越小；第四图像和第二图像的设定像素点中，对应像素点的权重之和为1。第四图像和第二图像中人脸轮廓内外侧的设定像素点的权重值分布都为正弦曲线，两条正弦曲线对应像素点的权重值的和为1。其中设定像素点可以是人脸轮廓两侧，分别由轮廓向内和向外预设距离内的像素点，例如预设距离可以是100个像素点的距离，此时设定像素点为人脸轮廓内侧且靠近轮廓的100层像素点和人脸轮廓外侧且靠近轮廓的100层像素点。

然后根据分配的权重值对第二图像和第四图像进行加权求和处理，得到第五图像，此时得到的第五图像中人脸区域的轮廓平滑，更适用于对模型的训练。

另外，为了使训练得到的视频检测模型具备更高的准确率和适应性，在本发明实施例中，所述方法还包括：

在本发明实施例中，训练完成的视频检测模型在对待检测的视频检测完成后，将每个图像组中，存在类别信息替换的第一图像作为候选图像，以及将每个第一图像中，与确定的待检测视频的类别信息不一致的第一图像作为候选图像，然后采用人脸识别算法和姿态估计算法，将所述候选图像中不同人脸及不同姿态的图像作为第二图像，对训练集进行更新。其中，每个图像组中，存在类别信息替换的第一图像，以及每个第一图像中，与确定的待检测视频的类别信息不一致的第一图像都是训练完成的视频检测模型检测错误的难样本，将这些难样本中不同人脸及不同姿态的图像作为第二图像，对训练集进行更新，使得视频检测模型根据更新后的训练集继续进行训练，因此视频检测模型能够实现自我调整和校正，因此视频检测模型的自适应更强。

图2为本发明实施例提供的换脸合成视频检测流程图，如图2所示，将训练集中的每个图像中，存在人脸区域、人脸区域的尺寸大于预设的尺寸阈值且清晰度达到预设的清晰度阈值的图像作为第二图像。针对训练集中的每个第二图像，生成添加有非换脸信息的标签的第三图像和添加有换脸信息的标签的第五图像，该第三图像和第五图像为一组训练图像。将每组训练图像输入到视频检测模型中，对所述视频检测模型进行训练。对待检测的视频进行分帧处理，将分帧处理后得到的每帧图像中，存在人脸区域、人脸区域的尺寸大于预设的尺寸阈值且清晰度达到预设的清晰度阈值的图像作为第一图像。针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息。根据每帧第一图像的类别信息确定所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。将检测过程中的难样本作为第二图像，对训练集进行更新。

图3为本发明实施例提供的在训练集中选取第二图像的流程图，如图3所示，针对训练集中的每个图像，首先识别存在人脸区域的图像，然后在存在人脸区域的图像中筛除清晰度低的图像，再筛除人脸区域的尺寸过小的图像，保留的图像则作为第二图像。

图4为本发明实施例提供的确定待检测的视频中的第一图像的流程图，如图4所示，首先对待检测的视频进行分帧处理，针对分帧处理后的每帧图像，首先识别存在人脸区域的图像，然后在存在人脸区域的图像中筛除清晰度低的图像，再筛除人脸区域的尺寸过小的图像，保留的图像则作为第一图像。

图5为本发明实施例提供的生成正负样本的流程图，如图5所示，针对训练集中的每个第二图像，按照随机系数对该第二图像进行缩放处理，对缩放处理后的图像进行高斯模糊处理，得到第三图像，并为第三图像添加类别信息为非换脸信息的标签，作为正样本。分别确定该第二图像和该第三图像中的人脸区域的特征点，通过特征点匹配对该第三图像进行转换处理，确定该第二图像中人脸区域的颜色直方图，根据所述颜色直方图对转换处理后的第三图像进行颜色信息的调整，得到第六图像。对转换处理后的第三图像和该第六图像进行加权平均，得到第四图像。根据正弦分布规律，分别为该第四图像和第二图像中的人脸区域中人脸轮廓内侧和外侧的设定像素点分配权重值；其中，人脸轮廓处的像素点的权重值为0.5，第四图像人脸轮廓内侧的设定像素点中，距离人脸轮廓越远，对应的权重值越大；第四图像人脸轮廓外侧的设定像素点中，距离人脸轮廓越远，对应的权重值越小；第四图像和第二图像的设定像素点中，对应像素点的权重之和为1；根据分配的权重值对第二图像和第四图像进行加权求和处理，得到第五图像，并为第五图像添加类别信息为换脸信息的标签，作为负样本。

图6为本发明实施例提供的确定待检测视频的类别信息的流程图，如图6所示，针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息。为不同的类别信息分配不同的数值标签。将所述每帧第一图像划分为预设数量的图像组；针对每个图像组，若该图像组中的类别信息为换脸信息的第一图像的数量与类别信息为非换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的非换脸信息更新为换脸信息；若该图像组中的类别信息为非换脸信息的第一图像的数量与类别信息为换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的换脸信息更新为非换脸信息。确定每帧第一图像的类别信息对应的数值标签的方差，当方差小于预设的数值时，确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息。

图7为本发明实施例提供的对训练集进行更新的流程图，如图7所示，将每个图像组中，存在类别信息替换的第一图像作为候选图像，以及将每个第一图像中，与确定的待检测视频的类别信息不一致的第一图像作为候选图像；采用人脸识别算法和姿态估计算法，将所述候选图像中不同人脸及不同姿态的图像作为第二图像，对训练集进行更新。

实施例6：

图8为本发明实施例提供的换脸合成视频检测装置结构示意图，该装置包括：

输出模块81，用于针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息；

确定模块82，用于为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。

所述装置还包括：

第一筛选模块83，用于对待检测的视频进行分帧处理，将分帧处理后得到的每帧图像中，存在人脸区域、人脸区域的尺寸大于预设的尺寸阈值且清晰度达到预设的清晰度阈值的图像作为第一图像，并触发所述输出模块81。

所述装置还包括：

第一更新模块84，用于将所述每帧第一图像划分为预设数量的图像组；针对每个图像组，若该图像组中的类别信息为换脸信息的第一图像的数量与类别信息为非换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的非换脸信息更新为换脸信息；若该图像组中的类别信息为非换脸信息的第一图像的数量与类别信息为换脸信息的第一图像的数量的差值大于预设的数量阈值，将该图像组中的换脸信息更新为非换脸信息。

所述装置还包括：

判断模块85，用于确定每帧第一图像的类别信息对应的数值标签的方差，判断所述方差是否小于预设的数值，如果是，触发所述确定模块82。

所述装置还包括：

训练模块86，用于针对训练集中的每个第二图像，按照随机系数对该第二图像进行缩放处理，对缩放处理后的图像进行高斯模糊处理，得到第三图像，并为第三图像添加类别信息为非换脸信息的标签；分别确定该第二图像和该第三图像中的人脸区域的特征点，通过特征点匹配对该第三图像进行转换处理，得到第四图像；采用该第四图像中的人脸区域替换该第二图像中的人脸区域，得到第五图像，并为第五图像添加类别信息为换脸信息的标签；其中，该第三图像和第五图像为一组训练图像；将每组训练图像输入到视频检测模型中，对所述视频检测模型进行训练。

所述装置还包括：

第二筛选模块87，用于将训练集中的每个图像中，存在人脸区域、人脸区域的尺寸大于预设的尺寸阈值且清晰度达到预设的清晰度阈值的图像作为第二图像，触发所述训练模块86。

所述装置还包括：

调整模块88，用于确定该第二图像中人脸区域的颜色直方图，根据所述颜色直方图对转换处理后的第三图像进行颜色信息的调整，得到第六图像；对转换处理后的第三图像和该第六图像进行加权平均，得到第四图像。

所述训练模块86，具体用于根据正弦分布规律，分别为该第四图像和第二图像中的人脸区域中人脸轮廓内侧和外侧的设定像素点分配权重值；其中，人脸轮廓处的像素点的权重值为0.5，第四图像人脸轮廓内侧的设定像素点中，距离人脸轮廓越远，对应的权重值越大；第四图像人脸轮廓外侧的设定像素点中，距离人脸轮廓越远，对应的权重值越小；第四图像和第二图像的设定像素点中，对应像素点的权重之和为1；根据分配的权重值对第二图像和第四图像进行加权求和处理，得到第五图像。

所述装置还包括：

第二更新模块89，用于将每个图像组中，存在类别信息替换的第一图像作为候选图像，以及将每个第一图像中，与确定的待检测视频的类别信息不一致的第一图像作为候选图像；采用人脸识别算法和姿态估计算法，将所述候选图像中不同人脸及不同姿态的图像作为第二图像，对训练集进行更新。

实施例7：

在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，如图9所示，包括：处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信；

所述存储器903中存储有计算机程序，当所述程序被所述处理器901执行时，使得所述处理器901执行如下步骤：

基于同一发明构思，本发明实施例中还提供了一种电子设备，由于上述电子设备解决问题的原理与换脸合成视频检测方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、网络侧设备等。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口902用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在本发明实施例中处理器执行存储器上所存放的程序时，实现针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息；为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。在本发明实施例中，电子设备中配置有预先训练完成的视频检测模型，当需要对视频进行换脸合成检测时，将待检测的视频中的每帧第一图像输入到视频检测模型中，视频检测模型输出所述输入的第一图像是换脸合成图像还是未经过换脸合成的图像，综合考虑每帧第一图像是否是为换脸合成图像，来确定待检测的视频是否为换脸合成视频，即为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息，从而实现了对换脸合成视频的检测。

实施例8：

在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

基于同一发明构思，本发明实施例中还提供了一种计算机可读存储介质，由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与换脸合成视频检测方法相似，因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施，重复之处不再赘述。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

在本发明实施例中提供的计算机可读存储介质内存储计算机程序，计算机程序被处理器执行时实现针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息；为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。在本发明实施例中，电子设备中配置有预先训练完成的视频检测模型，当需要对视频进行换脸合成检测时，将待检测的视频中的每帧第一图像输入到视频检测模型中，视频检测模型输出所述输入的第一图像是换脸合成图像还是未经过换脸合成的图像，综合考虑每帧第一图像是否是为换脸合成图像，来确定待检测的视频是否为换脸合成视频，即为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息，从而实现了对换脸合成视频的检测。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种换脸合成视频检测方法，其特征在于，所述方法包括：

为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息；

所述为不同的类别信息分配不同的数值标签之后，确定每帧第一图像的类别信息对应的数值标签的平均值之前，所述方法还包括：

将所述每帧第一图像划分为预设数量的图像组；

2.如权利要求1所述的方法，其特征在于，所述针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型之前，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述为不同的类别信息分配不同的数值标签之后，将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述视频检测模型的训练过程包括：

5.如权利要求4所述的方法，其特征在于，所述针对训练集中的每个第二图像，按照随机系数对该第二图像进行缩放处理之前，所述方法还包括：

6.如权利要求4所述的方法，其特征在于，所述通过特征点匹配对该第三图像进行转换处理之后，得到第四图像之前，所述方法还包括：

7.如权利要求4所述的方法，其特征在于，所述采用该第四图像中的人脸区域替换所述第二图像中的人脸区域，得到第五图像包括：

8.如权利要求4所述的方法，其特征在于，所述方法还包括：

9.一种换脸合成视频检测装置，其特征在于，所述装置包括：

确定模块，用于为不同的类别信息分配不同的数值标签；确定每帧第一图像的类别信息对应的数值标签的平均值；将与所述平均值的差值较小的，且差值在预设的范围内的数值标签对应的类别信息作为所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息；

所述装置还包括：

10.如权利要求9所述的装置，其特征在于，所述装置还包括：

11.如权利要求9所述的装置，其特征在于，所述装置还包括：

12.如权利要求9所述的装置，其特征在于，所述装置还包括：

13.如权利要求12所述的装置，其特征在于，所述装置还包括：

第二筛选模块，用于将训练集中的每个图像中，存在人脸区域、人脸区域的尺寸大于预设的尺寸阈值且清晰度达到预设的清晰度阈值的图像作为第二图像，触发所述训练模块。

14.如权利要求13所述的装置，其特征在于，所述装置还包括：

15.如权利要求12所述的装置，其特征在于，所述训练模块，具体用于根据正弦分布规律，分别为该第四图像和第二图像中的人脸区域中人脸轮廓内侧和外侧的设定像素点分配权重值；其中，人脸轮廓处的像素点的权重值为0.5，第四图像人脸轮廓内侧的设定像素点中，距离人脸轮廓越远，对应的权重值越大；第四图像人脸轮廓外侧的设定像素点中，距离人脸轮廓越远，对应的权重值越小；第四图像和第二图像的设定像素点中，对应像素点的权重之和为1；根据分配的权重值对第二图像和第四图像进行加权求和处理，得到第五图像。

16.如权利要求12所述的装置，其特征在于，所述装置还包括：

17.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一项所述的方法步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法步骤。