CN116052257A

CN116052257A - 多模态人脸防伪检测方法、装置、计算机设备及存储介质

Info

Publication number: CN116052257A
Application number: CN202310111917.8A
Authority: CN
Inventors: 苏红梅; 袁戟; 韦程琳; 周长源; 付森
Original assignee: Shenzhen Wanwuyun Technology Co ltd
Current assignee: Shenzhen Wanwuyun Technology Co ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-05-02

Abstract

本发明公开了多模态人脸防伪检测方法、装置、计算机设备及存储介质。该方法包括获取打卡图片并进行预处理，得到第一样本集和第二样本集，并按比例分别将第一样本集和第二样本集划分为训练集和验证集，得到第一训练集和第一验证集、第二训练集和第二验证集；将第一训练集输入改进的YOLOv7模型进行训练，得到第一权重模型并利用第一验证集中进行验证；将第二训练集输入原始YOLOv7模型进行训练，得到第二权重模型并利用第二验证集中进行验证；将待检测图片输入第一权重模型进行推理，判断待检测图片中的人脸是否为假脸，若是，则将待检测图片输入第二权重模型进行推理，以第二权重模型的推理结果为最终检测结果。该方法提高模型的检测性能。

Description

多模态人脸防伪检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及人脸检测技术领域，尤其涉及一种多模态人脸防伪检测方法、装置、计算机设备及存储介质。

背景技术

目前有些工作需要工作人员在对应考勤地点进行考勤打卡，并上传人员到场打卡的图片做考勤依据。为了完成打卡，有些工作人员用手机图片或者人像图片让他人代替其到对应的考勤地点进行打卡，从而伪造打卡记录，打卡的真实性难以确定，考勤记录人员需要对上传的打卡图片进行识别和判断，以确认真实的人脸图片和虚假的人脸图片。

发明内容

本发明实施例提供了一种多模态人脸防伪检测方法、装置、计算机设备及存储介质，旨在解决现有技术中难以对打卡图片进行真实性判别的技术问题。

第一方面，本发明实施例提供了一种多模态人脸防伪检测方法，其包括：

获取打卡图片，对所述打卡图片进行预处理，得到第一样本集和第二样本集，并按比例分别将所述第一样本集和第二样本集划分为训练集和验证集，得到第一训练集和第一验证集、第二训练集和第二验证集；

将所述第一训练集输入改进的YOLOv7模型进行训练，得到第一权重模型并利用所述第一验证集中的数据对所述第一权重模型进行验证，所述改进的YOLOv7模型包括在原始YOLOv7模型中主干网络中增加外部注意力模块，以及在原始YOLOv7模型头部网络的REP模块中增加频谱模块的分支；

将所述第二训练集输入原始YOLOv7模型进行训练，得到第二权重模型并利用所述第二验证集中的数据对所述第二权重模型进行验证；

将待检测图片输入所述第一权重模型进行推理，判断待检测图片中的人脸是否为假脸，若是，则将所述待检测图片输入所述第二权重模型进行推理，以所述第二权重模型的推理结果为最终检测结果。

第二方面，本发明实施例提供了一种多模态人脸防伪检测装置，其包括：

获取模块，用于获取打卡图片，对所述打卡图片进行预处理，得到第一样本集和第二样本集，并按比例分别将所述第一样本集和第二样本集划分为训练集和验证集，得到第一训练集和第一验证集、第二训练集和第二验证集；

第一训练模块，用于将所述第一训练集输入改进的YOLOv7模型进行训练，得到第一权重模型并利用所述第一验证集中的数据对所述第一权重模型进行验证，所述改进的YOLOv7模型包括在原始YOLOv7模型中主干网络中增加外部注意力模块，以及在原始YOLOv7模型头部网络的REP模块中增加频谱模块的分支；

第二训练模块，用于将所述第二训练集输入原始YOLOv7模型进行训练，得到第二权重模型并利用所述第二验证集中的数据对所述第二权重模型进行验证；

推理模块，用于将待检测图片输入所述第一权重模型进行推理，判断待检测图片中的人脸是否为非活体，若是，则将所述待检测图片输入所述第二权重模型进行推理，以所述第二权重模型的推理结果为最终检测结果。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的多模态人脸防伪检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的多模态人脸防伪检测方法。

本发明实施例提供了多模态人脸防伪检测方法、装置、计算机设备及存储介质。该方法包括获取打卡图片，对打卡图片进行预处理，得到第一样本集和第二样本集，并按比例分别将第一样本集和第二样本集划分为训练集和验证集，得到第一训练集和第一验证集、第二训练集和第二验证集；将第一训练集输入改进的YOLOv7模型进行训练，得到第一权重模型并利用第一验证集中的数据对第一权重模型进行验证，改进的YOLOv7模型包括在原始YOLOv7模型中主干网络中增加外部注意力模块，以及在原始YOLOv7模型头部网络的REP模块中增加频谱模块的分支；将第二训练集输入原始YOLOv7模型进行训练，得到第二权重模型并利用第二验证集中的数据对第二权重模型进行验证；将待检测图片输入第一权重模型进行推理，判断待检测图片中的人脸是否为假脸，若是，则将待检测图片输入第二权重模型进行推理，以第二权重模型的推理结果为最终检测结果。该方法基于改进的YOLOv7模型对打卡图片进行人脸防伪检测，通过在原始YOLOv7模型中主干网络的第二个CBS模块与第三个CBS模块之间增加外部注意力模块，以增强浅层特征图的语义表示，以及在原始YOLOv7模型中头部网络的REP模块中增加频谱模块，便于获取待检测图片的频谱图像进行频谱分析，提高模型的检测性能，加强模型的鲁棒性和泛化性能。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多模态人脸防伪检测方法的流程示意图；

图2为本发明实施例提供的多模态人脸防伪检测装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1为本发明实施例提供的多模态人脸防伪检测方法的流程示意图，该方法包括步骤S110～S140。

步骤S110、获取打卡图片，对所述打卡图片进行预处理，得到第一样本集和第二样本集，并按比例分别将所述第一样本集和第二样本集划分为训练集和验证集，得到第一训练集和第一验证集、第二训练集和第二验证集；

本实施例中，采集工地的打卡图片，和业务方确认违规打卡的规则，筛除无法辨认的低质量打卡图片。根据打卡图片中的人脸面积所占比例对打卡图片进行分组，以人脸面积大于或等于预设比例的打卡图片为第一样本集，以人脸面积小于预设比例的打卡图片为第二样本集；接着对第一样本集和第二样本集的打卡图片中的人脸进行标注，得到相应的标签信息，标签信息包括标签框的中心点坐标、长度、宽度和标签类别。

例如，对得到的打卡图片进行标注和划分，一组是人脸面积占比大于或等于预设比例的A样本集，一组是人脸面积占比小于预设比例的B样本集，然后将A样本集的70％作为第一训练集，剩下的30％作为第一验证集；以及，将B样本集的70％作为第二训练集，剩下的30％作为第二验证集。

需要注意的是，对打卡图片进行标注，即标注打卡图片中指定对象的相关信息。以第一样本集为例，以标注框对打卡图片中有无佩戴口罩的人员的脸部打上相应的标签信息，标签信息包含打卡图片中标签框的位置信息和标签类别。设打卡图片的标注框为K：

K∈R⁵＝{x,y,w,h,c}，

其中，x,y表示标注框的中心点坐标，w、h分别表示标注框的长度和高度，c表示标签所属类别(活体的标签：living，非活体的标签：no_lving)。同理，对第二样本集的打卡图片进行标注也和第一样本集的标注相同，所属标签可为手机phone、A4纸photo、拿手机的手hand_phone、拿A4纸的手hand_photo、人person。

需要注意的是，由于收集到的打卡图片的质量参差不齐，因此在制作样本集时需要作以下要求：1.训练集、验证集图片要求明确的标签，不可出现定义不明的图片；2.距离打卡摄像头不同距离的人员的图片数量需要等比例采集；3.面对打卡摄像头不同角度的人员的图片数量需要等比例采集。这些调整可以保证数据来源广泛以及更加贴近实际场景，从而保证训练模型的泛化性强。

步骤S120、将所述第一训练集输入改进的YOLOv7模型进行训练，得到第一权重模型并利用所述第一验证集中的数据对所述第一权重模型进行验证，所述改进的YOLOv7模型包括在原始YOLOv7模型中主干网络中增加外部注意力模块，以及在原始YOLOv7模型头部网络的REP模块中增加频谱模块的分支；

步骤S130、将所述第二训练集输入原始YOLOv7模型进行训练，得到第二权重模型并利用所述第二验证集中的数据对所述第二权重模型进行验证；

本实施例中，原始YOLOv7模型的主干网络为CNN网络，CNN具有平移不变性和局部性，缺乏长距离建模的能力，考虑将模型运用于真假脸判别的有效信息不一定完全分布在脸部区域，也有可能在取景画面的任何地方(如边框，摩尔纹等)，因此在原始YOLOv7模型中主干网络(Backbone网络)中增加外部注意力模块。例如：在主干网络(Backbone网络)的第二个CBS模块与第三个CBS模块之间增加外部注意力模块，CBS模块是Conv+BatchNorm+SiLU的集成模块，主干网络(Backbone网络)的第二个CBS模块输入外部注意力模块的是320*320*64的特征图，从外部注意力模块输出的还是320*320的特征图。通过改进的YOLOv7模型的主干网络对第一训练集中的打卡图片进行特征提取，以达到增强浅层特征图的语义表示的效果，在更大的区域上获得更丰富的特征信息，从而进一步提高主干网络的性能，与原始YOLOv7模型相比，引入外部注意力模块后的YOLOv7模型可以捕获空间和通道上的全局特征依赖关系，强化特征信息交互，从而有效地提升主干网络对浅层语义特征的提取能力。以及，将假脸的打卡图片与真脸的打卡图片转化生成频域图后进行对比，发现假脸的打卡图片的高频信息分布比较单一，仅沿着水平和垂直方向延伸，而真脸的打卡图片的高频信息从图像的中心向外呈发散状，可以发现伪造的打卡图片存在一些噪音，因此在原始YOLOv7模型中头部网络(Head网络)的REP模块中引出一个分支增加频谱模块，得到改进的YOLOv7模型。

本实施例中，对改进的YOLOv7模型进行训练，是将第一训练集输入改进的YOLOv7模型，得到第一训练集对应的第一预测结果；然后根据预置的损失函数计算第一预测结果和对应标签的第一预测损失，基于第一预测损失对改进的YOLOv7模型进行模型参数的迭代，得到第一权重模型；最后利用第一验证集中的数据对第一权重模型进行验证。

进一步的，对原始YOLOv7模型进行训练，是将第二训练集输入原始YOLOv7模型，得到第二训练集对应的第二预测结果；然后根据预置的损失函数计算第二预测结果和对应标签的第二预测损失，基于第二预测损失对原始YOLOv7模型进行进行模型参数迭代，得到第二权重模型；最后利用第二验证集中的数据对第二权重模型进行验证。

在一实施例中，第一权重模型和第二权重模型均训练250轮，在每一轮训练结束后，将对应的验证集的数据输入到当前训练得到的权重模型进行验证，以查看每一轮训练后权重模型的性能。验证测试过程如下：加载验证集的数据，模型前向推理得到推理结果，计算验证集误差，使用非极大值抑制来选取图片中置信度最高的标注框作为当前目标的预测值(删除与该预测框的重合度超过一定阈值的其它预测框)，保存预测结果。以第一样本集为例，标签所属类别(活体的标签：living，非活体的标签：no_lving)，即“是否是活体”为例，预测结果R为：

R^living，R^no_living＝{x，y，w，h，c，g}，

其中，x，y，w，h表示推理得到的预测框的坐标信息及长度信息和高度信息，c表示该预测框的类别(活体为living和非活体为no_living)，g表示预测框为某类别的置信度。

在一实施例中，步骤S120包括：

步骤S210、通过所述改进的YOLOv7模型的主干网络对所述第一训练集中的打卡图片进行特征提取，并利用所述外部注意力模块对特征提取过程进行语义表示增强处理；

步骤S220、通过所述改进的YOLOv7模型的头部网络对所述主干网络提取的特征进行预测，并利用所述频谱模块对预测的结果进行频谱分析。

本实施例中，加入一个采用外部注意力机制的外部注意力模块。该注意力机制是外部的，小的，可学习的和共享内存，且易于实现仅使用两个线性层和归一化层BN即可，方便替代现有方法的自注意力机制)。外部注意力具有线性的复杂度和隐式地考虑了不同特征图之间的关系，进一步将多头机制融入到外部注意力中，为图像分类提供一个全MLP架构，即外部注意力MLP(external attention MLP，EAMLP)从而为YOLOv7网络带来充分的全局信息，提升网络的容量，外部注意力模块的工作过程如下：

(1)通过以下方式计算输入像素和外部存储单元M∈R^S×d之间的注意力，S表示像素个数，d表示特征维度，R表示注意力矩阵：

A＝a_ij＝Norm(FM^T)，

F_out＝AM，

式中，a_ij表示M的第i个像素和第j行的相似度；M表示独立于输入的可学习参数，充当整体的记忆训练数据集；Norm操作为softmax函数，Fout提取到的特征；F表示输入外部注意力模块的特征；A表示从先验信息得到的注意力特征图，它以类似于自我注意的方式进行归一化。最后，通过A中的相似性来更新M中的输入特征。

(2)归一化，注意力图是通过矩阵乘法计算的。与余弦相似度不同，外部注意力模块对输入特征的规模敏感。为了避免这个问题，外部注意力采用双重归一化，分别归一化列和行，这种双重归一化被表述为：

其中，

表示第i个像素j行归一化，exp表示指数函数，

表示第i个像素和第j行的相似度，k表示第k行的标识，

表示第k个像素和第j行的相似度，

表示第i个像素k行归一化，ai,j表示第个像素和第行的列归一化；

(3)使用多头外部注意力进行特征提取：

h_i＝ExternalAttention(F_i,M_k,M_v)，

F_out＝MultiHead(F_i,M_k,M_v)＝Concat(h_i,...,h_H)w_o，

其中，h_i表示第i个头，H是头的总数量，w_o表示线性变换矩阵，M_k∈R^S×d和M_v∈R^S×d表示不同头的共享存储单元，F_i表示第i头的注意力特征，Concat表示合并函数。

此外，通过改进的YOLOv7模型的头部网络对主干网络提取的特征进行预测，并利用频谱模块对预测的结果进行频谱分析。分析过程如下：基于傅立叶变换，将预测的结果转化为频谱图；对频谱图进行归一化处理，将归一化处理的结果作为训练时的一个标签信息。训练中，从头部网络(Head网络)的中间引出一个分支，然后接入新的卷积层将通道降纬为1，然后和真实标签计算L2距离。

在一实施例中，预测损失包括定位损失、分类损失、置信度损失和傅里叶损失。

本实施例中，根据预测损失来优化模型(即改进的YOLOv7模型进和原始YOLOv7模型)输出的预测结果，随着训练轮次的增加，预测结果会逐渐逼近标签真实值。其中，定位损失用于计算预测框与标注框之间的误差；分类损失用于计算预测框与标注框的分类是否正确；置信度损失用于表征预测框的可信程度，值越大说明标注框中越可能存在目标；傅里叶损失用于计算真实值与标注框的L2距离。

进一步的，定位损失最常用的计算指标是交并比(Intersection of Union,IOU)，代表标注框与预测框的交并比，即标注框与预测框的交集面积与并集面积的比率。计算公式如下所示：

本申请采用CIOU作为定位损失，CIOU将标注框与预测框之间的中心距离、重叠率、尺寸以及惩罚项都考虑进去，使得预测框更加稳定，不会像IOU或者GIOU一样出现训练过程发散的问题，而惩罚因子把预测框长宽比拟合标注框的长宽比考虑进去，其计算公式如下：

其中，truth表示真实框，pred表示预测框，IOU(truth,pred)表示真实框和预测框的区域交并比，a表示权重系数，v表示真实框和预测框长度比的相似性，c表示真实框和预测框的外接矩形的对角线距离，p(b_predb_gt)表示真实框和预测框的中心位置的欧氏距离，w、h分别表示真实框的长和高，w^gt、h^gt分别表示预测框的长和高；

进一步的，分类损失和置信度损失均采用二元交叉熵损失函数，按如下公式计算预测损失L：：

其中，L_box表示定位损失，L_obj表示分类损失，L_cls表示置信度损失，L_FT表示傅里叶损失，N表示检测层的个数，λ₁、λ₂、λ₃、λ₄分别表示定位损失、分类损失、置信度损失和傅里叶损失的权重，i表示第i个检测层，S_i×S_i为该尺度被分割成的网络个数，B_i是标签分配到先验框的目标个数，F_p表示真实标签的位置；F_G表示预测标签的位置；

表示第j个坐标的损失；

表示第j个分类的损失；

表示第j个置信度的损失。

步骤S140、将待检测图片输入所述第一权重模型进行推理，判断待检测图片中的人脸是否为假脸，若是，则将所述待检测图片输入所述第二权重模型进行推理，以所述第二权重模型的推理结果为最终检测结果。

本实施例中，对待检测图片进行分组，得到人脸面积大于或等于预设比例的第一检测集和人脸面积小于预设比例的第二检测集；将第一检测集和第二检测集分别输入第一权重模型和第二权重模型中进行推理，得到第一推理结果和第二推理结果；若第一推理结果的置信度小于预设阈值，则表明对应的第一检测集的打卡图片的人脸面积小于预设比例，须将第一推理结果对应的第一检测集输入第二权重模型进行推理，以第二权重模型的推理结果为最终检测结果；若第一推理结果的置信度大于或等于预设阈值，则以第一推理结果为最终检测结果。

例如，将待检测图片进行分组，得到人脸面积大于或等于预设比例的A检测集和人脸面积小于预设比例的B检测集；将A检测集和B检测集分别输入第一权重模型和第二权重模型中进行推理，得到a推理结果和b推理结果；若a推理结果的置信度小于预设阈值，则将a推理结果对应的A检测集输入第二权重模型进行推理，以第二权重模型的推理结果为最终检测结果，若a推理结果的置信度大于或等于预设阈值，则以a推理结果为最终检测结果。

在一实施例中，若第二权重模型输出的最终检测结果为标签中的手机phone、A4纸photo、拿手机的手hand_phone、拿A4纸的手hand_photo中的一种，则表明对应的待检测图片为非活体，则最终检测结果为假脸的打卡图片。最后将最终检测结果推送到防伪平台，防伪平台将活体和非活体的打卡图片进行归类。

该方法基于改进的YOLOv7模型对打卡图片进行人脸防伪检测，通过在原始YOLOv7模型中主干网络的第二个CBS模块与第三个CBS模块之间增加外部注意力模块，以增强浅层特征图的语义表示，以及在原始YOLOv7模型中头部网络的REP模块中增加频谱模块，便于获取待检测图片的频谱图像进行频谱分析，提高模型的检测性能，加强模型的鲁棒性和泛化性能。

本发明实施例还提供一种多模态人脸防伪检测装置，该多模态人脸防伪检测装置用于执行前述多模态人脸防伪检测方法的任一实施例。具体地，请参阅图2，图2是本发明实施例提供的多模态人脸防伪检测装置的示意性框图。该多模态人脸防伪检测装置100可以配置于服务器中。

如图2所示，多模态人脸防伪检测装置100包括获取模块110、第一训练模块120、第二训练模块130、推理模块140。

获取模块110，用于获取打卡图片，对所述打卡图片进行预处理，得到第一样本集和第二样本集，并按比例分别将所述第一样本集和第二样本集划分为训练集和验证集，得到第一训练集和第一验证集、第二训练集和第二验证集；

第一训练模块120，用于将所述第一训练集输入改进的YOLOv7模型进行训练，得到第一权重模型并利用所述第一验证集中的数据对所述第一权重模型进行验证，所述改进的YOLOv7模型包括在原始YOLOv7模型中主干网络的第二个CBS模块与第三个CBS模块之间增加外部注意力模块，以及在原始YOLOv7模型头部网络的REP模块中增加频谱模块的分支；

第二训练模块130，用于将所述第二训练集输入原始YOLOv7模型进行训练，得到第二权重模型并利用所述第二验证集中的数据对所述第二权重模型进行验证；

推理模块140，用于将待检测图片输入所述第一权重模型进行推理，判断待检测图片中的人脸是否为非活体，若是，则将所述待检测图片输入所述第二权重模型进行推理，以所述第二权重模型的推理结果为最终检测结果。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的多模态人脸防伪检测方法。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上所述的多模态人脸防伪检测方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多模态人脸防伪检测方法，其特征在于，包括：

2.根据权利要求1所述的多模态人脸防伪检测方法，其特征在于，所述对所述打卡图片进行预处理，得到第一样本集和第二样本集，包括：

根据打卡图片中的人脸面积所占比例对所述打卡图片进行分组，以人脸面积大于或等于预设比例的打卡图片为第一样本集，以人脸面积小于预设比例的打卡图片为第二样本集；

对所述第一样本集和第二样本集的打卡图片中的人脸进行标注，得到相应的标签信息，所述标签信息包括标签框的中心点坐标、长度、宽度和标签类别。

3.根据权利要求1所述的多模态人脸防伪检测方法，其特征在于，所述将所述第一训练集输入改进的YOLOv7模型进行训练，包括：

通过所述改进的YOLOv7模型的主干网络对所述第一训练集中的打卡图片进行特征提取，并利用所述外部注意力模块对特征提取过程进行语义表示增强处理；

通过所述改进的YOLOv7模型的头部网络对所述主干网络提取的特征进行预测，并利用所述频谱模块对预测的结果进行频谱分析。

4.根据权利要求3所述的多模态人脸防伪检测方法，其特征在于，所述利用所述频谱模块对预测的结果进行频谱分析，包括：

基于傅立叶变换，将预测的结果转化为频谱图；

对所述频谱图进行归一化处理，将归一化处理的结果作为训练时的一个标签信息。

5.根据权利要求1所述的多模态人脸防伪检测方法，其特征在于，所述将所述第一训练集输入改进的YOLOv7模型进行训练，还包括：

根据预置的损失函数计算所述改进的YOLOv7模型输出的第一预测结果和对应标签的预测损失，并基于所述预测损失对所述改进的YOLOv7模型进行模型参数迭代，其中，所述预测损失包括定位损失、分类损失、置信度损失和傅里叶损失。

6.根据权利要求5所述的多模态人脸防伪检测方法，其特征在于，计算预测损失的过程，包括：

按以下公式计算所述预测损失L：

式中，L_box表示定位损失，L_obj表示分类损失，L_cls表示置信度损失，L_FT表示傅里叶损失，N表示检测层的个数，λ₁、λ₂、λ₃、λ₄分别表示定位损失、分类损失、置信度损失和傅里叶损失的权重，i表示第i个检测层，S_i×S_i为该尺度被分割成的网络个数，B_i是标签分配到先验框的目标个数，F_p表示真实标签的位置，F_G表示预测标签的位置，

表示第j个坐标的损失，

表示第j个分类的损失，

表示第j个置信度的损失。

7.根据权利要求1所述的多模态人脸防伪检测方法，其特征在于，将待检测图片输入所述第一权重模型进行推理，判断待检测图片中的人脸是否为假脸，若是，则将所述待检测图片输入所述第二权重模型进行推理，以所述第二权重模型的推理结果为最终检测结果，包括：

对所述待检测图片进行分组，得到人脸面积大于或等于预设比例的第一检测集和人脸面积小于预设比例的第二检测集；

将所述第一检测集和第二检测集分别输入所述第一权重模型和第二权重模型中进行推理，得到第一推理结果和第二推理结果；

若所述第一推理结果的置信度小于预设阈值，则将所述第一推理结果对应的第一检测集输入所述第二权重模型进行推理，以所述第二权重模型的推理结果为最终检测结果，若所述第一推理结果的置信度大于或等于预设阈值，则以所述第一推理结果为最终检测结果。

8.一种多模态人脸防伪检测装置，其特征在于，包括：

第一训练模块，用于将所述第一训练集输入改进的YOLOv7模型进行训练，得到第一权重模型并利用所述第一验证集中的数据对所述第一权重模型进行验证，所述改进的YOLOv7模型包括增加在原始YOLOv7模型中主干网络中的外部注意力模块，以及增加在原始YOLOv7模型中头部网络的REP模块中的频谱模块；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的多模态人脸防伪检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的多模态人脸防伪检测方法。