CN112686331B

CN112686331B - 伪造图像识别模型训练方法及伪造图像识别方法

Info

Publication number: CN112686331B
Application number: CN202110032849.7A
Authority: CN
Inventors: 张勇东; 李家铭; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2022-09-09
Anticipated expiration: 2041-01-11
Also published as: CN112686331A

Abstract

本公开提供了一种伪造图像识别模型训练方法，包括从数据集中提取多张样本图像，对多张样本图像中识别目标区域进行定位并裁剪，得到多张训练图像；构建初始二分类模型；对于每一张训练图像，使用空间域特征提取模块从训练图像中提取得到空间域特征，使用自适应频域特征提取模块从训练图像中提取得到频域特征；使用特征融合模块融合多个空间域特征和多个频域特征，得到多个训练特征；使用特征映射模块将多个训练特征映射到特征空间中，得到多个特征点，将多个特征点输入分类器中，得到多个训练结果；以及基于多个训练结果及其标签监督训练初始二分类模型，得到伪造图像识别模型。此外，本公开还提供了一种应用该模型的伪造图像识别方法。

Description

伪造图像识别模型训练方法及伪造图像识别方法

技术领域

本公开涉及人工智能领域，更具体地，涉及一种伪造图像识别模型训练方法及伪造图像识别方法。

背景技术

伪造图像识别的目的是给出输入图像是否伪造的判定。目前，伪造图像识别主要被视为图像识别领域中的二分类任务，其主要处理方式为使用损失函数为softmax的卷积神经网络有监督地学习差异性特征。然而，在实际应用中，因为softmax loss没有明确地约束类内紧凑性和类间的差异性，所以在其监督下学到的特征本质上差异性不够；其次，使用现有的滤波器组或者手工设计特征很难从多样化的输入中捕获频域上的差异。

因此，在实现本公开的过程中发现，相关技术没有具有自适应的频域特征生成方法，并且现有的损失函数对类内紧凑性和类间离散性的约束力不足。

发明内容

有鉴于此，本公开提供了一种伪造图像识别模型训练方法及伪造图像识别方法。

本公开的一个方面提供了一种伪造图像识别模型训练方法，包括：从数据集中提取多张样本图像，对上述多张样本图像中识别目标区域进行定位并裁剪，得到多张训练图像；使用空间域特征提取模块和自适应频域特征提取模块作为输入层，特征融合模块和特征映射模块作为中间层，分类器作为输出层构建初始二分类模型；对于每一张训练图像，使用上述空间域特征提取模块从上述训练图像中提取得到空间域特征，使用上述自适应频域特征提取模块从上述训练图像中提取得到频域特征；使用上述特征融合模块融合上述多个空间域特征和上述多个频域特征，得到多个训练特征；使用上述特征映射模块将上述多个训练特征映射到特征空间中，得到多个特征点，将上述多个特征点输入分类器中，得到多个训练结果；以及基于上述多个训练结果及其标签监督训练上述初始二分类模型，得到上述伪造图像识别模型。

根据本公开的实施例，上述使用上述自适应频域特征提取模块从上述训练图像中提取得到频域特征包括：将上述训练图像变换到一个颜色空间，得到多个颜色分量；使用数据预处理方法，将每一个上述颜色分量转换为一个第一三维张量；以及使用自适应频域信息挖掘方法将上述多个第一三维张量转换为频域特征。

根据本公开的实施例，上述使用数据预处理方法将每一个上述颜色分量转换为一个第一三维张量包括：将上述颜色分量切割成多个图像块，上述多个图像块的尺寸相同；使用空间域-频域转换方法，将上述多个图像块转换为多个频域分量；将上述多个频域分量分别变换成多个一维张量；以及将上述多个一维张量组合形成一个上述第一三维张量。

根据本公开的实施例，上述使用自适应频域信息挖掘方法将所有上述第一三维张量转换为频域特征包括：使用不同的卷积块分别对每一个上述颜色分量对应的上述第一三维张量进行处理，得到多个第二三维张量；将上述多个第二三维张量组合，得到一个第三三维张量；使用卷积和/或池化的方法处理上述第三三维张量，得到第四三维张量；以及利用注意力机制和一个卷积块增强上述第四三维张量的特征，得到上述频域特征。

根据本公开的实施例，上述使用上述特征融合模块融合上述多个空间域特征和上述多个频域特征，得到多个训练特征包括：将上述多个空间域特征和上述多个频域特征组合构成多个第一数据集合；使用激活函数和卷积块分别对上述多个第一数据集合进行处理，得到多个第二数据集合；以及使用批正则化处理上述多个第二数据集合，得到上述多个训练特征。

根据本公开的实施例，上述基于上述多个训练结果及其标签监督训练上述初始二分类模型，得到上述伪造图像识别模型包括：在上述初始二分类模型的特征空间中生成一个初始中心点；根据single-center loss函数和softmax loss函数定义上述网络模型的损失函数；使用上述损失函数根据上述多个训练结果及其标签计算得到损失值，并根据上述损失值调整上述初始二分类模型的模型参数中的一个或者多个以及上述初始中心点；以及在训练次数达到预设轮次或上述损失值达到预设值时，结束训练，得到上述伪造图像识别模型。

根据本公开的实施例，上述使用上述损失函数根据上述多个训练结果及其标签计算得到损失值包括：根据一部分上述训练结果的标签，将上述训练结果分为第一训练结果和第二训练结果；上述第一训练结果在上述特征空间中对应第一特征区域，上述第一特征区域包括一个或多个第一特征点；上述第二训练结果在上述特征空间中对应第二特征区域，上述第二特征区域包括一个或多个第二特征点；计算每一个上述第一特征点到上述初始中心点的平均距离，得到第一平均距离，计算每一个上述第二特征点到上述初始中心点的平均距离，得到第二平均距离；以及将上述第一平均距离和上述第二平均距离作为上述损失函数的参数，计算得到上述损失值。

根据本公开的实施例，上述single-center loss函数表示为：

其中，L_sc表示上述single-center loss函数，M_nat表示上述第一平均距离，M_man表示上述第二平均距离，m是一个预先设置的参数，D表示上述特征空间的维数。

根据本公开的实施例，上述损失函数表示为：

L＝L_softmax+λL_sc

其中，L表示上述损失函数，L_softmax表示上述softmax loss函数，λ是一个常数。

本公开的另一个方面提供了一种基于该伪造图像识别模型训练方法实现的伪造图像识别方法，包括：提取一张图像，对上述图像中识别目标区域进行定位并裁剪，得到识别图像；使用空间域特征提取模块从上述识别图像中提取得到识别空间域特征，使用自适应频域特征提取模块从上述识别图像中提取得到识别频域特征；使用特征融合模块融合上述识别空间域特征和上述识别频域特征，得到识别特征；以及使用特征映射模块将上述识别特征映射到特征空间中，得到识别特征点，将上述识别特征点输入分类器中，得到识别结果。

根据本公开的另一实施例，上述使用自适应频域特征提取模块从上述识别图像中提取得到识别频域特征包括：将上述识别图像变换到一个颜色空间，得到多个识别颜色分量；使用数据预处理方法，将每一个上述识别颜色分量转换为一个第五三维张量；以及使用自适应频域信息挖掘方法将上述多个第五三维张量转换为识别频域特征。

根据本公开的另一实施例，上述使用数据预处理方法，将每一个上述识别颜色分量转换为一个第五三维张量包括：将上述识别颜色分量切割成多个识别图像块，上述多个识别图像块的尺寸相同；使用空间域-频域转换方法，将上述多个识别图像块转换为多个识别频域分量；将上述多个识别频域分量分别变换成多个识别一维张量；以及将上述多个识别一维张量组合形成一个上述第五三维张量。

根据本公开的另一实施例，上述使用自适应频域信息挖掘方法将上述多个第五三维张量转换为识别频域特征包括：使用不同的卷积块分别对每一个上述识别颜色分量对应的上述第五三维张量进行处理，得到多个第六三维张量；将上述多个第六三维张量组合，得到一个第七三维张量；使用卷积和/或池化的方法处理上述第七三维张量，得到第八三维张量；以及利用注意力机制和一个卷积块增强上述第八三维张量的特征，得到上述识别频域特征。

根据本公开的另一实施例，上述使用特征融合模块融合上述识别空间域特征和上述识别频域特征，得到识别特征包括：将上述识别空间域特征和上述识别频域特征组合构成第三数据集合；使用激活函数和卷积块对上述第三数据集合进行处理，得到第四数据集合；以及使用批正则化处理上述第四数据集合，得到上述识别特征。

根据本公开实施例的伪造图像识别模型训练方法和伪造图像识别方法，采用了自适应频域特征提取方法，提升了数据间的差异性；同时采用了新的损失函数模型，提升了特征空间中类内的紧凑性和类间的差异性，至少部分解决了伪造图像识别模型约束力不够，容易出现过拟合或欠拟合的问题，提高了伪造图像识别的准确度。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的伪造图像识别模型训练方法100的流程图；

图2示意性示出了根据本公开实施例的自适应频域特征提取方法200的流程图；

图3示意性示出了根据本公开另一实施例的数据预处理方法300的示意图；

图4示意性示出了根据本公开实施例的特征融合方法400的流程图；

图5示意性示出了根据本公开实施例的模型训练过程500的流程图；

图6示意性示出了根据本公开实施例的伪造图像识别方法600的流程图；

图7示意性示出了根据本公开再一实施例的人脸伪造检测方法700的示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了上述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种伪造图像识别模型训练方法。该方法包括：从数据集中提取多张样本图像，对多张样本图像中识别目标区域进行定位并裁剪，得到多张训练图像；使用空间域特征提取模块和自适应频域特征提取模块作为输入层，特征融合模块和特征映射模块作为中间层，分类器作为输出层构建初始二分类模型；对于每一张训练图像，使用空间域特征提取模块从训练图像中提取得到空间域特征，使用自适应频域特征提取模块从训练图像中提取得到频域特征；使用特征融合模块融合多个空间域特征和多个频域特征，得到多个训练特征；使用特征映射模块将多个训练特征映射到特征空间中，得到多个特征点，将多个特征点输入分类器中，得到多个训练结果；以及基于多个训练结果及其标签监督训练初始二分类模型，得到伪造图像识别模型。

图1示意性示出了根据本公开实施例的伪造图像识别模型训练方法100的流程图。

如图1所示，该方法100包括操作S110～S160。

在操作S110，从数据集中提取多张样本图像，对多张样本图像中识别目标区域进行定位并裁剪，得到多张训练图像。

根据本公开的实施例，训练所需的图像应包括覆盖各种识别要素的图像。例如，在一个实施例中，需要训练一个可以鉴别真假人脸的图像识别模型，那么训练时需要使用包含真实人脸和伪造人脸的图像数据。同时，训练所用的图像可以是各种已有数据集中的图像，也可以是从视频中采样得到的图像、拍摄得到的图像等。

根据本公开的实施例，图像中的伪造目标区域包括但不限于人脸、动物、车辆等，对图像中伪造目标区域进行定位可以采用已有的图像识别方法，例如可以采用人脸检测器得到图像中面部区域的坐标等。

为了降低定位错误产生的随机误差，根据本公开的实施例，定位得到目标图像区域后，会将边界扩大一定比例再进行裁剪，扩大的比例一般在1.1～1.5倍之间，但本公开的实施例并不限制图像区域扩大的比例。将扩大后的区域裁剪并将其视为定位得到的目标图像。

根据本公开的实施例，为了便于模型的训练，会在将目标图像输入网络模型之前，统一所有输入图像的尺寸，例如将所有的输入图像裁剪为299×299个像素点。

输入图像数据会带有与识别目标无关的图像特征，因此，在图像数据输入到神经网络模型之前，会使用特征提取方法获取目标特征；同时，为了避免过大的数据量带来的软件硬件上的压力，会将输入图像数据降维处理以节约计算资源。在操作S130，使用不同的图像数据预处理方法，从图像数据中提取识别目标的特征。

在操作S120，使用空间域特征提取模块和自适应频域特征提取模块作为输入层，特征融合模块和特征映射模块作为中间层，分类器作为输出层构建初始二分类模型。

在操作S130，对于每一张训练图像，使用空间域特征提取模块从训练图像中提取得到空间域特征，使用自适应频域特征提取模块从训练图像中提取得到频域特征。

根据本公开的实施例，图像数据的空间域特征提取可以采用已有的神经网络模型实现，如Inception模型中的多尺寸卷积核、Bottleneck模型的多层小尺寸卷积核、Xception模型的输入流等，也可以使用在图像数据库中经过预训练的现有网络模型。

根据本公开的实施例，自适应频域特征提取方法由数据预处理和自适应频域信息挖掘方法两部分组成，数据预处理主要是将图像数据转换成频域数据，自适应频域信息挖掘方法可以将频域数据的特征增强。数据预处理和自适应频域信息挖掘方法的具体实施方式在后续实施例中描述。

在操作S140，使用特征融合模块融合多个空间域特征和多个频域特征，得到多个训练特征。

根据本公开的实施例，将空间域特征和频域特征融合后再输入网络进行训练，可以在参数量和计算量没有显著增加的情况下，有效融合空间域和频域的特征。空间域特征和频域特征的特征融合方法的具体实施方式在后续实施例中描述。

在操作S150，使用特征映射模块将多个训练特征映射到特征空间中，得到多个特征点，将多个特征点输入分类器中，得到多个训练结果。

在操作S160，基于多个训练结果及其标签监督训练初始二分类模型，得到伪造图像识别模型。

根据本公开实施例的伪造图像识别模型训练方法，采用了自适应频域特征提取方法和新的损失函数模型，提升了训练样本的差异性和训练过程中类间的差异性和类内的紧凑性，提高了伪造图像识别的准确度。

图2示意性示出了根据本公开实施例的自适应频域特征提取方法200的流程图。

如图2所示，该方法包括操作S201～S203，并且，操作S201～S203可借助方法100中操作S130中的自适应频域特征提取模块实现。

在操作S201，将训练图像变换到一个颜色空间，得到多个颜色分量。

颜色分量是指图像数据在通过一个特定的映射函数得到的具有特定色彩的图像，所有颜色分量的集合就是颜色空间。根据本公开的实施例，颜色空间包括但不限于RGB颜色空间、HSV颜色空间、YcbCr颜色空间等。颜色分量的数量根据所选的颜色空间不同也有所区别。

根据本公开的实施例，颜色分量映射到向量空间中表现为一个二维向量，且其尺寸等同于第一图像数据的尺寸。

在操作S202，使用数据预处理方法，将每一个颜色分量转换为一个第一三维张量。

根据本公开的实施例，数据预处理方法包括：将颜色分量切割成多个图像块，多个图像块的尺寸相同；使用空间域-频域转换方法，将多个图像块转换为多个频域分量；将多个频域分量分别变换成多个一维张量；将多个一维张量组合形成一个第一三维张量。

根据本公开的实施例，空间域-频域转换方法主要用于将信号谱转换为能量谱，从而得到更多的特征信息。空间域-频域转换方法包括但不限于傅里叶变换、拉氏变换、离散余弦变换等。

根据本公开的实施例，每一个一维张量就是颜色分量在图像块区域表现出来的频域特征分量，将这些频域特征分量按照所对应图像块的原位置关系组合，即可得到一个三维张量。

需要注意的是，本发明并不限制图像切割和空间域-频域转换的先后顺序，也就是说，在另一个实施例中，可以先将颜色分量通过空间域-频域转换方法转换为频域分量，再对频域分量进行切割得到频域图像块，然后将频域图像块转换为一维张量。

图3示意性示出了根据本公开另一实施例的数据预处理方法300的示意图。

如图3所示，在本公开的另一实施例中，从训练集中选取输入图像301，输入图像301的形状为200×200×1，将其变换到Ycbcr颜色空间中，得到三个颜色分量302，每一个颜色分量302的形状为200×200×1。每一个颜色分量上实施8×8的二维离散余弦变换(Discrete Cosine Transform，DCT)，得到频域分量303。将频域分量切割成多个8×8的图像块，将每一个8×8的图像块被变换为长度为64的一维张量。选择每一个一维张量的某一频率对应的DCT系数，按照原本图像块的位置关系，组成一个25×25的频域向量，每个颜色分量302的所有频域向量组成形状为25×25×64的矩阵304，将三个颜色分量对应的矩阵304组合在一起构成了一个形状为25×25×192的三维张量305。

根据本公开的另一实施例，为了平衡不同频率上能量分布的差异，根据训练集中各个图像计算出的均值和方差，对每一个频率对应的频域向量进行正则化处理。

根据本公开的另一实施例，由于使用了类似JPEG压缩标准的处理方法，所以可以使用常用压缩算法的加速工具来提高实施例的预处理效率，并且避免了压缩产生的瑕疵带来的随机误差。

根据本公开的另一个实施例，通过数据预处理，将原本形状为200×200的图像提取为形状为25×25的图像特征，降低了输入数据的维度，图像样本数从1个增加到了192个，有助于模型得到充分训练。

在操作S203，使用自适应频域信息挖掘方法将多个第一三维张量转换为频域特征。

根据本公开的实施例，自适应频域信息挖掘方法包括：使用不同的卷积块分别对每一个颜色分量对应的第一三维张量进行处理，得到多个第二三维张量；将多个第二三维张量组合，得到一个第三三维张量；使用卷积和/或池化的方法处理第三三维张量，得到第四三维张量；以及利用注意力机制和一个卷积块增强第四三维张量的特征，得到频域特征。

根据本公开的实施例，卷积块的尺寸和步长并不受限，卷积块可以是3×3、4×4的卷积核等。

根据本公开的实施例，卷积层和池化层的层数并不受限，其结构可以是单独一个卷积层或单独一个池化层，也可以是一个卷积层和一个或多个池化层的组合，也可以是多个卷积层和一个或多个池化层的组合。卷积层的卷积核尺寸和池化层尺寸并不受限，池化层的类型可以包括最大池化层、平均池化层等。

根据本公开的实施例，将来自不同颜色分量的特征相互交互，用以提高模型的鲁棒性，注意力机制包括SEBlock模块等，用于增强所提取的特征。

图4示意性示出了根据本公开实施例的特征融合方法400的流程图。

如图4所示，该方法包括操作S401～S403，并且，操作S401～S403可借助方法100中操作S140中的特征融合模块实现。

在操作S401，将多个空间域特征和多个频域特征组合构成多个第一数据集合。

在操作S402，使用激活函数和卷积块分别对多个第一数据集合进行处理，得到多个第二数据集合。

在操作S403，使用批正则化处理多个第二数据集合，得到多个训练特征。

根据本公开的实施例，例如，使用ReLU激活函数减弱或消除第一数据集合中不必要的数据，然后采用一个1×1的卷积核对第一数据集合中的特征进行融合，再使用批正则化消除空间域特征和频域特征间在量级上的差异，得到训练特征。

图5示意性示出了根据本公开实施例的模型训练过程500的流程图。

如图5所示，该方法包括操作S501～S504，并且，操作S501～S504可用于实现方法100中的操作S160。

在操作S501，在初始二分类模型的特征空间中生成一个初始中心点。

根据本公开的实施例，初始二分类模型中包含多个模型参数，初始中心点是特征空间中的一个随机点，其具体值会随着训练的过程进行更迭。

在操作S502，根据single-center loss函数和softmax loss函数定义网络模型的损失函数。

根据本公开的实施例，基于triplet loss函数、center loss函数等，定义一个新的损失函数，即single-center loss函数。在本公开的实施例中，用于训练网络模型的损失函数是受softmax loss函数约束的single-center loss函数。

根据本公开的实施例，损失函数表示为：

L＝L_softmax+λL_sc (1)

其中，L_softmax表示softmax loss函数，Lsc表示single-center loss函数，λ是一个常数，用于平衡single-center loss函数和softmax loss函数。

在操作S503，使用损失函数根据多个训练结果及其标签计算得到损失值，并根据损失值调整初始二分类模型的模型参数中的一个或者多个以及初始中心点。

根据本公开的实施例，根据一部分训练结果的标签，将训练结果分为第一训练结果和第二训练结果；第一训练结果在特征空间中对应第一特征区域，第一特征区域包括一个或多个第一特征点；第二训练结果在特征空间中对应第二特征区域，第二特征区域包括一个或多个第二特征点；计算每一个第一特征点到初始中心点的平均距离，得到第一平均距离，计算每一个第二特征点到初始中心点的平均距离，得到第二平均距离；以及将第一平均距离和第二平均距离作为损失函数的参数，计算得到损失值。

根据本公开的实施例，定义single-center loss函数为：

其中，M_nat表示第一平均距离，M_man表示第二平均距离，m是一个预先设置的参数；D表示特征空间的维数。

M_nat和M_man的计算方法定义如下：

其中其中Ω_nat表示第一识别结果对应的第一样本集合；Ω_man表示第二识别结果对应的第二样本集合；f_i表示使用网络模型将样本i映射到特征空间中的得到的值；C表示中心点的值。

根据本公开的实施例，根据第一平均距离和第二平均距离作为损失函数的参数，计算得到损失值，计算公式如下：

其中，

表示一个指示函数，定义如下：

其中，x表示一种条件，例如L＞0等。

根据本公开的实施例，中心点C的值随机初始化，并且基于每个批次的数据而不是整个数据集进行更新，single-center loss函数和softmax loss函数组合形成的损失函数有利于学习到更具差异性的特征。

在操作S504，在训练次数达到预设轮次或损失值达到预设值时，结束训练，得到伪造图像识别模型。

图6示意性示出了根据本公开实施例的伪造图像识别方法600的流程图。

如图6所示，该方法包括操作S601～S604。

在操作S601，提取一张图像，对图像中识别目标区域进行定位并裁剪，得到识别图像。

根据本公开的实施例，操作S601可根据方法100中的操作S110完成。

在操作S602，使用空间域特征提取模块从识别图像中提取得到识别空间域特征，使用自适应频域特征提取模块从识别图像中提取得到识别频域特征。

根据本公开的实施例，操作S602可根据方法100中的操作S130完成。

在操作S603，使用特征融合模块融合识别空间域特征和识别频域特征，得到识别特征。

根据本公开的实施例，操作S603可根据方法100中的操作S140完成。

在操作S604，使用特征映射模块将识别特征映射到特征空间中，得到识别特征点，将识别特征点输入分类器中，得到识别结果。

根据本公开的实施例，操作S604可根据方法100中的操作S150完成。

根据本公开的实施例，将识别特征通过网络模型映射到特征空间中，得到识别特征点，并使用分类器解析识别特征点，得到伪造图像识别结果。分类器可以选择softmax分类器、PCA分类器等。

如图7所示，根据本公开的再一实施例，人脸伪造检测方法包括人脸图像提取模块701、空间域特征提取模块702、自适应频域特征生成模块703、自适应频域信息挖掘模块704、融合模块705、特征映射模块706、特征空间707和分类器708。

根据本公开的再一实施例，按照根据用户输入的训练参数，按照方法100的操作S110～S150完成网络模型的训练。例如，使用卷积神经网络作为模型的基础构架，一次输入64张人脸图像，整个网络使用随机梯度下降法优化，动量设为0.9，权值衰减系数设置为1e-4，学习率采用余弦变换，学习率设置为0.001。损失函数中心点的学习率为λ的倒数，梯度切割到-0.01和0.01之间。

根据本公开的再一实施例，人脸图像提取模块701用于完成操作S110，从真实视频和伪造视频中进行采样并裁剪。例如，在数据集为FF++的情况下，每个真实视频采样80帧，每个虚假视频采样20帧，解码出的帧，经过一个人脸检测器得到面部区域的坐标，边界扩大1.3倍后裁出人脸图像，在输入网络之前，所有的输入图像统一被裁剪到299×299。

根据本公开的再一实施例，空间域特征提取模块702用于完成操作S130，提取图像的空间域特征。例如，将输入的图像数据转换为RGB图像，并将RGB图像使用Xception的进入流进行处理，得到空间域特征。

根据本公开的再一实施例，自适应频域特征生成模块703和自适应频域信息挖掘模块704用于完成操作S130，提取图像的频域特征并进行特征增强处理。在本公开的再一实施例中，在提取到频域特征后，使用了3个卷积层、2个全连接层和1个最大池化层对频域特征进行处理。

根据本公开的再一实施例，融合模块705用于完成操作S140，将空间域特征和频域特征进行融合。例如，使用一个1×1的卷积核作为融合模块705，可以在参数量和计算量没有显著增加的情况下，有效的融合空间域和频域的特征。

根据本公开的再一实施例，在空间域和频域的特征经过融合模块705后，输入到Xception的中间流和离去流，得到深层的图像特征。

根据本公开的再一实施例，特征映射模块706用于将图像特征映射到特征空间中。

根据本公开的再一实施例，特征空间707用于根据已训练好模型的参数，得到特征点在特征空间中的位置。

根据本公开的再一实施例，分类器708使用一个分类器对特征空间中的位置信息进行解析，得到人脸检测结果。

根据本公开的实施例，提出了一种使用自适应频域特征提取方法和新的损失函数模型的网络训练方法，提升了训练样本的差异性和训练过程中类间的差异性和类内的紧凑性，提高了伪造图像识别的准确度。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种伪造图像识别模型训练方法，包括：

从数据集中提取多张样本图像，对多张所述样本图像中识别目标区域进行定位并裁剪，得到多张训练图像；

使用空间域特征提取模块和自适应频域特征提取模块作为输入层，特征融合模块和特征映射模块作为中间层，分类器作为输出层构建初始二分类模型；

对于每一张训练图像，使用所述空间域特征提取模块从所述训练图像中提取得到空间域特征，使用所述自适应频域特征提取模块从所述训练图像中提取得到频域特征；

使用所述特征融合模块融合多个所述空间域特征和多个所述频域特征，得到多个训练特征；

使用所述特征映射模块将多个所述训练特征映射到特征空间中，得到多个特征点，将多个所述特征点输入分类器中，得到多个训练结果；以及

基于多个所述训练结果及其标签监督训练所述初始二分类模型，得到所述伪造图像识别模型；

其中，所述使用所述自适应频域特征提取模块从所述训练图像中提取得到频域特征包括：

将所述训练图像变换到一个颜色空间，得到多个颜色分量；

使用数据预处理方法，将每一个所述颜色分量转换为一个第一三维张量；以及

使用自适应频域信息挖掘方法将多个所述第一三维张量转换为频域特征；

其中，所述使用自适应频域信息挖掘方法将多个所述第一三维张量转换为频域特征包括：

使用不同的卷积块分别对每一个所述颜色分量对应的所述第一三维张量进行处理，得到多个第二三维张量；

将多个所述第二三维张量组合，得到一个第三三维张量；

使用卷积和/或池化的方法处理所述第三三维张量，得到第四三维张量；以及

利用注意力机制和一个卷积块增强所述第四三维张量的特征，得到所述频域特征；

其中，所述基于多个所述训练结果及其标签监督训练所述初始二分类模型，得到所述伪造图像识别模型包括：

在所述初始二分类模型的特征空间中生成一个初始中心点；

根据single-center loss函数和softmax loss函数定义所述初始二分类模型的损失函数；

使用所述损失函数根据多个所述训练结果及其标签计算得到损失值，并根据所述损失值调整所述初始二分类模型的模型参数中的一个或者多个以及所述初始中心点；以及

在训练次数达到预设轮次或所述损失值达到预设值时，结束训练，得到所述伪造图像识别模型；

其中，所述使用所述损失函数根据多个所述训练结果及其标签计算得到损失值包括：

根据一部分所述训练结果的标签，将所述训练结果分为第一训练结果和第二训练结果；

所述第一训练结果在所述特征空间中对应第一特征区域，所述第一特征区域包括一个或多个第一特征点；

所述第二训练结果在所述特征空间中对应第二特征区域，所述第二特征区域包括一个或多个第二特征点；

计算每一个所述第一特征点到所述初始中心点的平均距离，得到第一平均距离，计算每一个所述第二特征点到所述初始中心点的平均距离，得到第二平均距离；以及

将所述第一平均距离和所述第二平均距离作为所述损失函数的参数，计算得到所述损失值；

其中，所述single-center loss函数表示为：

其中，L_sc表示所述single-center loss函数，M_nat表示所述第一平均距离，M_man表示所述第二平均距离，m是一个预先设置的参数，D表示所述特征空间的维数。

2.根据权利要求1所述的方法，其中，所述使用数据预处理方法将每一个所述颜色分量转换为一个第一三维张量包括：

将所述颜色分量切割成多个图像块，多个所述图像块的尺寸相同；

使用空间域-频域转换方法，将多个所述图像块转换为多个频域分量；

将多个所述频域分量分别变换成多个一维张量；以及

将多个所述一维张量组合形成一个所述第一三维张量。

3.根据权利要求1所述的方法，其中，所述使用所述特征融合模块融合多个所述空间域特征和多个所述频域特征，得到多个训练特征包括：

将多个所述空间域特征和多个所述频域特征组合构成多个第一数据集合；

使用激活函数和卷积块分别对多个所述第一数据集合进行处理，得到多个第二数据集合；以及

使用批正则化处理多个所述第二数据集合，得到多个所述训练特征。

4.根据权利要求1所述的方法，其中：

所述损失函数表示为：

L＝L_softmax+λL_sc

其中，L表示所述损失函数，L_softmax表示所述softmax loss函数，λ是一个常数。

5.一种使用权利要求1～4中任意一项所述的模型训练方法实现的伪造图像识别方法，包括：

提取一张图像，对所述图像中识别目标区域进行定位并裁剪，得到识别图像；

使用空间域特征提取模块从所述识别图像中提取得到识别空间域特征，使用自适应频域特征提取模块从所述识别图像中提取得到识别频域特征；

使用特征融合模块融合所述识别空间域特征和所述识别频域特征，得到识别特征；以及

使用特征映射模块将所述识别特征映射到特征空间中，得到识别特征点，将所述识别特征点输入分类器中，得到识别结果。