CN113014914B

CN113014914B - 一种基于神经网络的单人换脸短视频的识别方法和系统

Info

Publication number: CN113014914B
Application number: CN202110109910.3A
Authority: CN
Inventors: 白冰; 郭忠武; 李国华; 殷松迁; 王荣芳; 韩煜; 纪军
Original assignee: Beijing Bohui Technology Inc
Current assignee: Beijing Bohui Technology Inc
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-11-01
Anticipated expiration: 2041-01-27
Also published as: CN113014914A

Abstract

本申请提供一种基于神经网络的单人换脸短视频的识别方法和系统。所述识别方法包括：从待识别单人短视频中抽取出单帧图像后，提取每个单帧图像中人脸区域对应的面部图像，利用神经网络模型确定面部图像经过面部修正的伪造概率，最后根据伪造概率大于预设伪造判定阈值的伪造图像的数量、每个面部图像的伪造概率以及多个预设阈值，确定待识别单人短视频的视频换脸概率。如此，仅对视频中部分单帧图像进行识别，提高了识别效率；同时，并不是一概而论地直接将所有面部图像的伪造概率的平均值作为视频换脸概率，而是根据伪造图像数量以及每个面部图像伪造概率的不同情况确定视频换脸概率，与待识别单人短视频的真实情景更为贴合，识别的准确性较高。

Description

一种基于神经网络的单人换脸短视频的识别方法和系统

技术领域

本申请涉及视频监测技术领域，特别涉及一种基于神经网络的单人换脸短视频的识别方法和系统。

背景技术

随着计算机视觉和图像处理技术的不断发展，现在人们已经能够做到通过深度学习的方法在视频中生成极其逼真的面部图像，进而替换掉视频中原有的面部图像。随着一些换脸程序的开源，比如Deepfake，换脸技术的应用门槛越来越低，目前通过手机即可实现一键换脸。然而，换脸技术的滥用也造成了很多不良影响，严重威胁了社会的和谐稳定，因此需要对换脸视频进行有效地识别。

视频本身的场景复杂度以及人物数量均存在差异，因此针对不同类型的视频，需要采用不同的识别方法来对换脸视频进行识别。而单人短视频是视频类型中的重要一类，单人短视频是指时间较短（比如30秒至1分钟）且只具有单一人物的视频，对单人短视频进行识别，通常是将单人短视频划分为多个单帧图像后，利用神经网络模型对每个单帧图像进行识别，确定单帧图像中人脸区域为伪造的概率，根据所有单帧图像伪造概率的平均值，确定单人短视频的伪造概率，进而确定单人短视频中人物的脸部图像是否为伪造。采用此种方法识别单人换脸短视频，需要对所有单帧图像进行识别，因此耗时相对较长、效率较低，此外，直接利用所有单帧图像伪造概率的平均值来对单人短视频进行判定，准确性也较低。

发明内容

本申请提供了一种基于神经网络的单人换脸短视频的识别方法和系统，可用于解决现有识别方法对单人换脸短视频的识别效率较低、准确性也较低的技术问题。

第一方面，本申请实施例提供一种基于神经网络的单人换脸短视频的识别方法，所述一种基于神经网络的单人换脸短视频的识别方法包括：

获取待识别单人短视频；

从所述待识别单人短视频中抽取多个单帧图像；

从各个单帧图像中提取人脸区域对应的面部图像；

将所述面部图像输入预设的伪造脸部检测模型进行特征提取和伪造预测，得到所述面部图像的伪造概率；所述伪造预测为识别所述面部图像是否经过面部修正；

确定所有面部图像中的伪造图像，所述伪造图像是指伪造概率大于预设伪造判定阈值的面部图像；

如果所有伪造图像的数量大于预设的目标阈值，则将所有伪造图像的伪造概率的平均值作为所述待识别单人短视频的视频换脸概率；所述视频换脸概率用于反映所述待识别单人短视频中的人脸区域为伪造的可能性；

如果所有伪造图像的数量小于或等于所述目标阈值，则根据每个面部图像的伪造概率、预设的目标范围以及所有面部图像的数量，确定伪造概率位于所述目标范围之内的目标面部图像的数量比例；

如果所述数量比例大于或等于预设的目标比例，则将所有目标面部图像的伪造概率的平均值作为所述视频换脸概率；否则，将所有面部图像的伪造概率的平均值作为所述视频换脸概率。

结合第一方面，在第一方面的一种可实现方式中，所述从各个单帧图像中提取人脸区域对应的面部图像，包括：

对各个单帧图像进行尺寸调整，得到多个输入图像；

提取每个输入图像中人脸区域对应的人脸位置坐标；

从各个单帧图像中提取所述人脸位置坐标范围内的面部图像。

结合第一方面，在第一方面的一种可实现方式中，所述对各个单帧图像进行尺寸调整，得到多个输入图像，包括：

如果所述单帧图像的宽边尺寸小于预设的第一阈值，则将所述单帧图像的尺寸与预设第一比例的乘积作为输入图像的尺寸；所述宽边为所述单帧图像的四条边中尺寸较大的边；

如果所述宽边尺寸大于或等于所述第一阈值，并且小于或等于预设的第二阈值，则将所述单帧图像的尺寸作为所述输入图像的尺寸；

如果所述宽边尺寸大于所述第二阈值，并且小于或等于预设的第三阈值，则将所述单帧图像的尺寸与预设第二比例的乘积作为所述输入图像的尺寸；

如果所述宽边尺寸大于所述第三阈值，则将所述单帧图像的尺寸与预设第三比例的乘积作为所述输入图像的尺寸。

结合第一方面，在第一方面的一种可实现方式中，所述提取每个输入图像中人脸区域对应的人脸位置坐标，包括：

将每个输入图像输入预设的面部检测器进行人脸区域识别，生成每个输入图像中人脸区域对应的人脸位置坐标。

结合第一方面，在第一方面的一种可实现方式中，在将所述面部图像输入预设的伪造脸部检测模型进行特征提取和伪造预测之前，所述一种基于神经网络的单人换脸短视频的识别方法还包括：

对所述面部图像进行预处理。

结合第一方面，在第一方面的一种可实现方式中，所述对所述面部图像进行预处理，包括：

按照预设的目标维度对所述面部图像进行分辨率调整；

对分辨率调整后的面部图像进行归一化处理。

结合第一方面，在第一方面的一种可实现方式中，所述目标阈值通过以下方式预设：

根据所有单帧图像的数量，预设第一目标阈值；

根据所有面部图像的数量和预设比例阈值，确定第二目标阈值；

将所述第一目标阈值和所述第二目标阈值中较大的阈值设置为目标阈值。

结合第一方面，在第一方面的一种可实现方式中，所述根据每个面部图像的伪造概率、预设的目标范围以及所有面部图像的数量，确定伪造概率位于所述目标范围之内的目标面部图像的数量比例，包括：

如果所述面部图像的伪造概率位于预设的目标范围之内，则将所述面部图像确定为目标面部图像；

根据所有目标面部图像的数量和所有面部图像的数量，确定所述目标面部图像的数量比例。

第二方面，本申请实施例提供一种基于神经网络的单人换脸短视频的识别系统，所述一种基于神经网络的单人换脸短视频的识别系统包括：

视频获取单元，用于获取待识别单人短视频；

单帧图像获取单元，用于从所述待识别单人短视频中抽取多个单帧图像；

面部图像提取单元，用于从各个单帧图像中提取人脸区域对应的面部图像；

伪造预测单元，用于将所述面部图像输入预设的伪造脸部检测模型进行特征提取和伪造预测，得到所述面部图像的伪造概率；所述伪造预测为识别所述面部图像是否经过面部修正；

伪造图像确定单元，用于确定所有面部图像中的伪造图像，所述伪造图像是指伪造概率大于预设伪造判定阈值的面部图像；

视频换脸概率确定第一单元，用于如果所有伪造图像的数量大于预设的目标阈值，则将所有伪造图像的伪造概率的平均值作为所述待识别单人短视频的视频换脸概率；所述视频换脸概率用于反映所述待识别单人短视频中的人脸区域为伪造的可能性；

数量比例确定单元，用于如果所有伪造图像的数量小于或等于所述目标阈值，则根据每个面部图像的伪造概率、预设的目标范围以及所有面部图像的数量，确定伪造概率位于所述目标范围之内的目标面部图像的数量比例；

视频换脸概率确定第二单元，用于如果所述数量比例大于或等于预设的目标比例，则将所有目标面部图像的伪造概率的平均值作为所述视频换脸概率；否则，将所有面部图像的伪造概率的平均值作为所述视频换脸概率。

结合第二方面，在第二方面的一种可实现方式中，所述面部图像提取单元包括：

输入图像确定子单元，用于对各个单帧图像进行尺寸调整，得到多个输入图像；

坐标提取子单元，用于提取每个输入图像中人脸区域对应的人脸位置坐标；

面部图像确定子单元，用于从各个单帧图像中提取所述人脸位置坐标范围内的面部图像。

结合第二方面，在第二方面的一种可实现方式中，所述输入图像确定子单元包括：

第一子模块，用于如果所述单帧图像的宽边尺寸小于预设的第一阈值，则将所述单帧图像的尺寸与预设第一比例的乘积作为输入图像的尺寸；所述宽边为所述单帧图像的四条边中尺寸较大的边；

第二子模块，用于如果所述宽边尺寸大于或等于所述第一阈值，并且小于或等于预设的第二阈值，则将所述单帧图像的尺寸作为所述输入图像的尺寸；

第三子模块，用于如果所述宽边尺寸大于所述第二阈值，并且小于或等于预设的第三阈值，则将所述单帧图像的尺寸与预设第二比例的乘积作为所述输入图像的尺寸；

第四子模块，用于如果所述宽边尺寸大于所述第三阈值，则将所述单帧图像的尺寸与预设第三比例的乘积作为所述输入图像的尺寸。

结合第二方面，在第二方面的一种可实现方式中，所述坐标提取子单元包括：

面部检测子模块，用于将每个输入图像输入预设的面部检测器进行人脸区域识别，生成每个输入图像中人脸区域对应的人脸位置坐标。

结合第二方面，在第二方面的一种可实现方式中，在所述伪造预测单元之前，所述一种基于神经网络的单人换脸短视频的识别系统还包括预处理单元；

所述预处理单元，用于对所述面部图像进行预处理。

结合第二方面，在第二方面的一种可实现方式中，所述预处理单元包括：

分辨率调整子单元，用于按照预设的目标维度对所述面部图像进行分辨率调整；

归一化处理子单元，用于对分辨率调整后的面部图像进行归一化处理。

结合第二方面，在第二方面的一种可实现方式中，所述目标阈值通过以下方式预设：

根据所有单帧图像的数量，预设第一目标阈值；

结合第二方面，在第二方面的一种可实现方式中，所述数量比例确定单元包括：

目标面部图像确定子单元，用于如果所述面部图像的伪造概率位于预设的目标范围之内，则将所述面部图像确定为目标面部图像；

数量比例确定子单元，用于根据所有目标面部图像的数量和所有面部图像的数量，确定所述目标面部图像的数量比例。

本申请实施例公开了一种基于神经网络的单人换脸短视频的识别方法和系统，该单人换脸短视频的识别方法中，从待识别单人短视频中抽取预设数量的单帧图像，并提取出每个单帧图像中人脸区域对应的面部图像，利用预设的神经网络模型对面部图像进行识别，确定面部图像经过面部修正的伪造概率，将伪造概率大于预设伪造判定阈值的面部图像确定为伪造图像，最后根据伪造图像的数量、每个面部图像的伪造概率以及多个预设阈值，确定出待识别单人短视频的视频换脸概率。如此，仅对待识别单人短视频中部分单帧图像进行伪造预测，无需对所有单帧图像均进行识别，大大缩短了检测时间，提高了识别效率；同时，并不是一概而论地直接将所有面部图像的伪造概率的平均值作为视频换脸概率，而是根据伪造图像的数量、每个面部图像的伪造概率以及多个预设阈值来确定视频换脸概率，与待识别单人短视频的真实情景较为贴合，识别的准确性较高。

附图说明

图1为本申请实施例提供的一种基于神经网络的单人换脸短视频的识别方法所对应的整体性流程示意图；

图2为本申请实施例提供的基于神经网络的单人换脸短视频的识别方法所对应的具体识别流程示意图；

图3为本申请实施例提供的一种基于神经网络的单人换脸短视频的识别系统的结构示意图；

图4为本申请实施例提供的单人换脸短视频的识别系统进行换脸识别的展示效果示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了解决现有技术对单人换脸短视频的识别效率较低、准确性也较低的技术问题，本申请通过以下实施例公开了一种基于神经网络的单人换脸短视频的识别方法和系统。需要说明的是，本申请实施例主要应用于单一人物且时间较短的单人短视频的识别。

如图1所示，为本申请实施例提供的一种基于神经网络的单人换脸短视频的识别方法所对应的整体性流程示意图，具体包括如下步骤：

步骤S101，获取待识别单人短视频。

步骤S102，从待识别单人短视频中抽取多个单帧图像。

步骤S103，从各个单帧图像中提取人脸区域对应的面部图像。

步骤S104，将面部图像输入预设的伪造脸部检测模型进行特征提取和伪造预测，得到面部图像的伪造概率。

步骤S105，确定所有面部图像中的伪造图像。

步骤S106，判断所有伪造图像的数量是否大于预设的目标阈值。如果所有伪造图像的数量大于预设的目标阈值，则执行步骤S107；如果所有伪造图像的数量小于或等于目标阈值，则执行步骤S108。

步骤S107，将所有伪造图像的伪造概率的平均值作为待识别单人短视频的视频换脸概率。

步骤S108，根据每个面部图像的伪造概率、预设的目标范围以及所有面部图像的数量，确定伪造概率位于目标范围之内的目标面部图像的数量比例。

步骤S109，判断数量比例是否大于或等于预设的目标比例。如果数量比例大于或等于预设的目标比例，则执行步骤S110；如果数量比例小于预设的目标比例，执行步骤S111。

步骤S110，将所有目标面部图像的伪造概率的平均值作为视频换脸概率。

步骤S111，将所有面部图像的伪造概率的平均值作为视频换脸概率。

具体来说，步骤S102中，抽取的单帧图像的数量是预先设定的，具体不作限定，需要说明的是，如果数量过多，比如等于待识别单人短视频划分的所有单帧图像的数量，则视频的识别效率会降低，如果数量过少，则准确率会降低。优选地，抽取的单帧图像的数量为30帧。

抽取单帧图像可以采用FFmpeg程序进行抽取，抽取的方式可以为按照预设间隔平均抽取。

采用上述低采样的方式从待识别单人短视频中抽取单帧图像，可以大大缩短检测时间，提高识别效率。

步骤S103中，从单帧图像中提取面部图像的方式有多种。一个示例中，可以通过以下方式提取面部图像：

对各个单帧图像进行尺寸调整，得到多个输入图像。

提取每个输入图像中人脸区域对应的人脸位置坐标。

从各个单帧图像中提取人脸位置坐标范围内的面部图像。

具体地，对各个单帧图像进行尺寸调整，得到多个输入图像，可以通过以下方式实现：

如果单帧图像的宽边尺寸小于预设的第一阈值，则将单帧图像的尺寸与预设第一比例的乘积作为输入图像的尺寸。其中，宽边为单帧图像的四条边中尺寸较大的边。优选地，第一阈值可以设置为300像素，预设第一比例可以设置为2倍。

如果宽边尺寸大于或等于第一阈值，并且小于或等于预设的第二阈值，则将单帧图像的尺寸作为输入图像的尺寸。优选地，第二阈值可以设置为1000像素。

如果宽边尺寸大于第二阈值，并且小于或等于预设的第三阈值，则将单帧图像的尺寸与预设第二比例的乘积作为输入图像的尺寸。优选地，第三阈值可以设置为1900像素，预设第二比例可以设置为0.5倍。

如果宽边尺寸大于第三阈值，则将单帧图像的尺寸与预设第三比例的乘积作为输入图像的尺寸。优选地，预设第三比例可以设置为0.33倍。

可以采用预设的面部检测器来提取每个输入图像中人脸区域对应的人脸位置坐标，即将每个输入图像输入预设的面部检测器进行人脸区域识别，生成每个输入图像中人脸区域对应的人脸位置坐标。其中，人脸位置用矩形框框出，人脸位置坐标为该矩形框的左上角坐标和右下角坐标。最后根据人脸位置坐标，从单帧图像中提取与该人脸位置坐标对应的面部图像。

需要说明的是，如果单帧图像中不存在人脸，则通过此步骤得到的面部图像为空，即未从单帧图像中提取出面部图像。进一步地，利用面部检测器可能会从单个单帧图像中提取出零、一或多个面部图像。

采用上述方法从单帧图像中提取面部图像，可以根据单帧图像的图像质量不同，对单帧图像进行预设的缩放，进而使得提取人脸区域时可以更加精准，生成的坐标也会更加准确，为后续伪造预测分析奠定了基础。

在其他可能的示例中，本领域技术人员可以根据经验和实际情况确定从单帧图像中提取面部图像的方式，比如可以直接截取，具体不作限定。

步骤S104中，伪造预测为识别面部图像是否经过面部修正。

伪造脸部检测模型为基于深度学习的卷积神经网络，可以提取面部图像的特征，并根据特征进行分类预测，得到面部图像是否经过面部修正的结果，以及经过面部修正的概率，也就是伪造概率。

在执行步骤S104之前，本申请实施例提供的单人换脸短视频的识别方法还包括对面部图像进行预处理。

具体的预处理方式包括：

按照预设的目标维度对面部图像进行分辨率调整。优选地，目标维度设为380×380，即将面部图像的分辨率调整为380×380维度的矢量数据。

对分辨率调整后的面部图像进行归一化处理。具体地，归一化处理为灰度处理，即将分辨率调整后的面部图像中每个像素点的RGB分量全部除以255，得到像素点对应的灰度值，该灰度值位于0至1之间。

步骤S105中，伪造图像是指伪造概率大于预设伪造判定阈值的面部图像。优选地，预设伪造判定阈值可以设置为0.8。

步骤S106中，以抽取30帧单帧图像为例，对各个预设的阈值进行说明。

目标阈值可以通过以下方式预设：

根据所有单帧图像的数量，预设第一目标阈值。优选地，第一目标阈值可以设置为11帧。

根据所有面部图像的数量和预设比例阈值，确定第二目标阈值。具体地，第二目标阈值为所有面部图像的数量除以预设比例阈值得到的结果。优选地，预设比例阈值可以设置为2.5。

将第一目标阈值和第二目标阈值中较大的阈值设置为目标阈值。

步骤S107中，视频换脸概率用于反映待识别单人短视频中的人脸区域为伪造的可能性。具体地，视频换脸概率会介于0到1之间，接近0表示视频为真实视频的可能性较高，接近1表示该视频被进行过面部修正的可能性较高，因此可以设置第一目标范围，比如0-0.2，以及设置第二目标范围，比如0.8-1.0，如果视频换脸概率位于第一目标范围内，则表示待识别单人短视频中的人脸没有经过修正，不是伪造；如果视频换脸概率位于第二目标范围内，则表示待识别单人短视频中的人脸经过了修正。

步骤S108中，具体通过以下方式确定伪造概率位于目标范围之内的目标面部图像的数量比例：

如果面部图像的伪造概率位于预设的目标范围之内，则将面部图像确定为目标面部图像。优选地，预设的目标范围可以设置为大于0且小于0.2。

根据所有目标面部图像的数量和所有面部图像的数量，确定目标面部图像的数量比例。具体地，将所有目标面部图像的数量除以所有面部图像的数量得到的结果，作为目标面部图像的数量比例。

步骤S109中，优选地，预设的目标比例可以设置为90%。

如此，采用上述方法确定待识别单人短视频的视频换脸概率，并不是一概而论地直接将所有面部图像的伪造概率的平均值作为视频换脸概率，而是根据伪造图像的数量、每个面部图像的伪造概率以及多个预设阈值来确定视频换脸概率，与待识别单人短视频的真实情景较为贴合，识别的准确性较高。

为了更加清楚地说明本申请实施例提出的单人换脸短视频的识别方法，图2示例性示出了本申请实施例提供的基于神经网络的单人换脸短视频的识别方法所对应的具体识别流程示意图，如图2所示，将单帧图像输入面部检测器提取人脸位置坐标，如果提取到了人脸位置坐标，则继续根据坐标提取面部图像，并利用伪造脸部检测模型确定伪造概率；如果没有提取到人脸位置坐标，则继续将下一个单帧图像输入面部检测器提取人脸位置坐标，如此循环，直至抽取的所有单帧图像都处理完毕，最后根据所有面部图像的伪造概率，确定待识别单人短视频的视频换脸概率。

下述为本申请系统实施例，可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节，请参照本申请方法实施例。

图3示例性示出了本申请实施例提供的一种基于神经网络的单人换脸短视频的识别系统的结构示意图。如图3所示，该系统具有实现上述基于神经网络的单人换脸短视频的识别方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该系统可以包括：视频获取单元301，单帧图像获取单元302、面部图像提取单元303、伪造预测单元304、伪造图像确定单元305、视频换脸概率确定第一单元306、数量比例确定单元307和视频换脸概率确定第二单元308。

视频获取单元301，用于获取待识别单人短视频。

单帧图像获取单元302，用于从待识别单人短视频中抽取多个单帧图像。

面部图像提取单元303，用于从各个单帧图像中提取人脸区域对应的面部图像。

伪造预测单元304，用于将面部图像输入预设的伪造脸部检测模型进行特征提取和伪造预测，得到面部图像的伪造概率。伪造预测为识别面部图像是否经过面部修正。

伪造图像确定单元305，用于确定所有面部图像中的伪造图像，伪造图像是指伪造概率大于预设伪造判定阈值的面部图像。

视频换脸概率确定第一单元306，用于如果所有伪造图像的数量大于预设的目标阈值，则将所有伪造图像的伪造概率的平均值作为待识别单人短视频的视频换脸概率。视频换脸概率用于反映待识别单人短视频中的人脸区域为伪造的可能性。

数量比例确定单元307，用于如果所有伪造图像的数量小于或等于目标阈值，则根据每个面部图像的伪造概率、预设的目标范围以及所有面部图像的数量，确定伪造概率位于目标范围之内的目标面部图像的数量比例。

视频换脸概率确定第二单元308，用于如果数量比例大于或等于预设的目标比例，则将所有目标面部图像的伪造概率的平均值作为视频换脸概率。否则，将所有面部图像的伪造概率的平均值作为视频换脸概率。

在一种可实现方式中，面部图像提取单元303包括：

输入图像确定子单元，用于对各个单帧图像进行尺寸调整，得到多个输入图像。

坐标提取子单元，用于提取每个输入图像中人脸区域对应的人脸位置坐标。

面部图像确定子单元，用于从各个单帧图像中提取人脸位置坐标范围内的面部图像。

在一种可实现方式中，输入图像确定子单元包括：

第一子模块，用于如果单帧图像的宽边尺寸小于预设的第一阈值，则将单帧图像的尺寸与预设第一比例的乘积作为输入图像的尺寸。宽边为单帧图像的四条边中尺寸较大的边。

第二子模块，用于如果宽边尺寸大于或等于第一阈值，并且小于或等于预设的第二阈值，则将单帧图像的尺寸作为输入图像的尺寸。

第三子模块，用于如果宽边尺寸大于第二阈值，并且小于或等于预设的第三阈值，则将单帧图像的尺寸与预设第二比例的乘积作为输入图像的尺寸。

第四子模块，用于如果宽边尺寸大于第三阈值，则将单帧图像的尺寸与预设第三比例的乘积作为输入图像的尺寸。

在一种可实现方式中，坐标提取子单元包括：

在一种可实现方式中，在伪造预测单元304之前，一种基于神经网络的单人换脸短视频的识别系统还包括预处理单元。

预处理单元，用于对面部图像进行预处理。

在一种可实现方式中，预处理单元包括：

分辨率调整子单元，用于按照预设的目标维度对面部图像进行分辨率调整。

在一种可实现方式中，目标阈值通过以下方式预设：

根据所有单帧图像的数量，预设第一目标阈值。

根据所有面部图像的数量和预设比例阈值，确定第二目标阈值。

在一种可实现方式中，数量比例确定单元307包括：

目标面部图像确定子单元，用于如果面部图像的伪造概率位于预设的目标范围之内，则将面部图像确定为目标面部图像。

数量比例确定子单元，用于根据所有目标面部图像的数量和所有面部图像的数量，确定目标面部图像的数量比例。

如此，本申请实施例公开了一种基于神经网络的单人换脸短视频的识别方法和系统，该单人换脸短视频的识别系统中，从待识别单人短视频中抽取预设数量的单帧图像，并提取出每个单帧图像中人脸区域对应的面部图像，利用预设的神经网络模型对面部图像进行识别，确定面部图像经过面部修正的伪造概率，将伪造概率大于预设伪造判定阈值的面部图像确定为伪造图像，最后根据伪造图像的数量、每个面部图像的伪造概率以及多个预设阈值，确定出待识别单人短视频的视频换脸概率。如此，仅对待识别单人短视频中部分单帧图像进行伪造预测，无需对所有单帧图像均进行识别，大大缩短了检测时间，提高了识别效率；同时，并不是一概而论地直接将所有面部图像的伪造概率的平均值作为视频换脸概率，而是根据伪造图像的数量、每个面部图像的伪造概率以及多个预设阈值来确定视频换脸概率，与待识别单人短视频的真实情景较为贴合，识别的准确性较高。

为了更加清楚地说明本申请实施例提供的单人换脸短视频的识别系统进行换脸识别的效果，如图4所示，为本申请实施例提供的单人换脸短视频的识别系统进行换脸识别的展示效果示意图，图4中，展示了A、B、C和D四个框中面部图像的伪造概率，分别对应于第2、4、5和6的概率值。利用本申请实施例提供的单人换脸短视频的识别系统对图4中的视频进行换脸识别，仅需3.84秒左右。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种基于神经网络的单人换脸短视频的识别方法，其特征在于，所述一种基于神经网络的单人换脸短视频的识别方法包括：

获取待识别单人短视频；

从所述待识别单人短视频中抽取多个单帧图像；

从各个单帧图像中提取人脸区域对应的面部图像；

2.根据权利要求1所述的一种基于神经网络的单人换脸短视频的识别方法，其特征在于，所述从各个单帧图像中提取人脸区域对应的面部图像，包括：

对各个单帧图像进行尺寸调整，得到多个输入图像；

提取每个输入图像中人脸区域对应的人脸位置坐标；

3.根据权利要求2所述的一种基于神经网络的单人换脸短视频的识别方法，其特征在于，所述对各个单帧图像进行尺寸调整，得到多个输入图像，包括：

4.根据权利要求3所述的一种基于神经网络的单人换脸短视频的识别方法，其特征在于，所述提取每个输入图像中人脸区域对应的人脸位置坐标，包括：

5.根据权利要求1所述的一种基于神经网络的单人换脸短视频的识别方法，其特征在于，在将所述面部图像输入预设的伪造脸部检测模型进行特征提取和伪造预测之前，所述一种基于神经网络的单人换脸短视频的识别方法还包括：

对所述面部图像进行预处理。

6.根据权利要求5所述的一种基于神经网络的单人换脸短视频的识别方法，其特征在于，所述对所述面部图像进行预处理，包括：

按照预设的目标维度对所述面部图像进行分辨率调整；

对分辨率调整后的面部图像进行归一化处理。

7.根据权利要求1所述的一种基于神经网络的单人换脸短视频的识别方法，其特征在于，所述目标阈值通过以下方式预设：

根据所有单帧图像的数量，预设第一目标阈值；

8.根据权利要求1所述的一种基于神经网络的单人换脸短视频的识别方法，其特征在于，所述根据每个面部图像的伪造概率、预设的目标范围以及所有面部图像的数量，确定伪造概率位于所述目标范围之内的目标面部图像的数量比例，包括：

9.一种基于神经网络的单人换脸短视频的识别系统，其特征在于，所述一种基于神经网络的单人换脸短视频的识别系统包括：

视频获取单元，用于获取待识别单人短视频；

10.根据权利要求9所述的一种基于神经网络的单人换脸短视频的识别系统，其特征在于，所述面部图像提取单元包括：