CN112598643A - 深度伪造图像检测及模型训练方法、装置、设备、介质 - Google Patents
深度伪造图像检测及模型训练方法、装置、设备、介质 Download PDFInfo
- Publication number
- CN112598643A CN112598643A CN202011533466.XA CN202011533466A CN112598643A CN 112598643 A CN112598643 A CN 112598643A CN 202011533466 A CN202011533466 A CN 202011533466A CN 112598643 A CN112598643 A CN 112598643A
- Authority
- CN
- China
- Prior art keywords
- image
- loss function
- network
- apn
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了一种深度伪造图像检测及模型训练方法、装置、设备、介质和产品,涉及图像处理技术领域,具体涉及深度学习、计算机视觉等人工智能技术领域。该训练方法包括:根据第一图像和APN输出的ROI信息,获取第一ROI图像;根据ROI信息和第二图像,获取第二ROI图像;采用孪生网络,分别对应上述两个ROI图像提取第一图像特征向量和第二图像特征向量;计算上述两个图像特征向量的距离,根据距离计算APN的损失函数,使得APN的训练目标为最大化所述距离;根据APN的损失函数确定所述检测模型的损失函数,并根据所述检测模型的损失函数训练所述检测模型。本公开可以提高APN的准确度,进而提高深度伪造图像检测的准确度。
Description
技术领域
本公开涉及图像处理技术领域,具体涉及深度学习、计算机视觉等人工智能技术领域,尤其涉及一种深度伪造图像检测及模型训练方法、装置、设备和介质。
背景技术
人工智能(Artificial Intelligence,AI)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
深度伪造(deepfake)是指利用AI技术,对图像、视频和音频进行超现实的数字伪造。当将深度伪造应用到人脸时,可以生成脸部表情自然、效果逼真的换脸效果,这会给人类和社会安全造成很大影响。
相关技术中,采用通用分类模型检测深度伪造人脸图像,该通用分类模型基于样本图像及其对应的类别标签训练后得到。
发明内容
本公开提供了一种深度伪造图像检测及模型训练方法、装置、设备、存储介质和程序产品。
根据本公开的一方面,提供了一种深度伪造图像检测模型的训练方法,所述检测模型包括APN,所述方法包括:根据第一图像和所述APN输出的ROI信息,获取第一ROI图像;根据所述ROI信息和第二图像,获取第二ROI图像,所述第一图像和所述第二图像是相互对应的一对真伪图像;采用孪生网络,分别提取所述第一ROI图像的第一图像特征向量和所述第二ROI图像的第二图像特征向量;计算所述第一图像特征向量和所述第二图像特征向量的距离,并根据所述距离计算所述APN的损失函数,所述损失函数使得所述APN的训练目标为最大化所述距离;根据所述APN的损失函数确定所述检测模型的损失函数,并根据所述检测模型的损失函数训练所述检测模型。
根据本公开的另一方面,提供了一种深度伪造图像的检测方法,包括:采用分类网络,提取待检测图像的图像特征向量,以及,根据所述图像特征向量获取待检测图像的第一检测类别概率;采用APN,根据所述图像特征向量获取ROI信息;其中,所述APN是基于最大化距离训练后得到的,所述距离为成对图像特征向量的距离,所述成对图像特征向量采用共享网络参数对成对ROI图像样本进行特征提取得到,所述成对ROI图像根据相互对应的一对真伪图像得到;根据所述ROI信息和所述待检测图像,获取待检测ROI图像;采用深度神经网络,获取所述待检测ROI图像的第二检测类别概率;对所述第一检测类别概率和所述第二检测类别概率进行加权求和,并根据加权求和后的概率确定所述待检测图像是否为深度伪造图像。
根据本公开的另一方面,提供了一种深度伪造图像检测模型的训练装置,所述检测模型包括APN,所述装置包括:第一获取单元,用于根据第一图像和所述APN输出的ROI信息,获取第一ROI图像;第二获取单元,用于根据所述ROI信息和所述第二图像,获取第二ROI图像,所述第一图像和所述第二图像是相互对应的一对真伪图像;孪生提取单元,用于采用孪生网络,分别提取所述第一ROI图像的第一图像特征向量和所述第二ROI图像的第二图像特征向量;第一计算单元,用于计算所述第一图像特征向量和所述第二图像特征向量的距离,并根据所述距离计算所述APN的损失函数,所述损失函数使得所述APN的训练目标为最大化所述距离;训练单元,用于根据所述APN的损失函数确定所述检测模型的损失函数,并根据所述检测模型的损失函数训练所述检测模型。
根据本公开的另一方面,提供了一种深度伪造图像的检测装置,包括:第一分类单元,用于采用分类网络,提取待检测图像的图像特征向量,以及,根据所述图像特征向量获取待检测图像的第一检测类别概率;定位单元,用于采用APN,根据所述图像特征向量获取ROI信息;其中,所述APN是基于最大化距离训练后得到的,所述距离为成对图像特征向量的距离,所述成对图像特征向量采用共享网络参数对成对ROI图像样本进行特征提取得到,所述成对ROI图像根据相互对应的一对真伪图像得到;获取单元,用于根据所述ROI信息和所述待检测图像,获取待检测ROI图像;第二分类单元,用于采用深度神经网络,获取所述待检测ROI图像的第二检测类别概率;识别单元,用于对所述第一检测类别概率和所述第二检测类别概率进行加权求和,并根据加权求和后的概率确定所述待检测图像是否为深度伪造图像。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
根据本公开的技术方案,可以提高深度伪造图像的检测准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是根据本公开第七实施例的示意图;
图8是用来实现本公开实施例的深度伪造图像检测模型的训练方法、深度伪造图像的检测方法中任一方法的电子设备的示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
相关技术中,采用通用分类模型,检测深度伪造人脸图像,该通用分类模型基于样本图像及其对应的类别标签训练后得到。但是,通用分类模型的检测粒度较粗,监督信号仅是类别标签,而深度伪造人脸图像,与真实人脸图像的差异仅在于边缘、纹理等微小差异。相关技术中的上述检测方案难以注意到这些微小差异,识别准确度低。
为了解决上述的深度伪造图像的检测准确度低的问题,本公开提供如下一些实施例。
图1是根据本公开第一实施例的示意图。本实施例提供一种深度伪造图像检测模型的训练方法,所述检测模型包括注意力提取网络(Attention Proposal Network,APN),所述方法包括:
101、根据第一图像和所述APN输出的感兴趣区域(Region OfInterest,ROI)信息,获取第一ROI图像。
102、根据所述ROI信息和第二图像,获取第二ROI图像,所述第一图像和所述第二图像是相互对应的一对真伪图像。
103、采用孪生网络,分别提取所述第一ROI图像的第一图像特征向量和所述第二ROI图像的第二图像特征向量。
104、计算所述第一图像特征向量和所述第二图像特征向量的距离,并根据所述距离计算所述APN的损失函数,所述损失函数使得所述APN的训练目标为最大化所述距离。
105、根据所述APN的损失函数确定所述检测模型的损失函数,并根据所述检测模型的损失函数训练所述检测模型。
可以理解的是,由于视频是图像帧的序列,因此,本公开实施例中的图像可以包括图片格式的图像,也可以包括视频中每帧的图像。
第一图像可以是训练样本中的真实图像,也可以是训练样本中的伪造图像。
ROI一般为正方形,相应的,ROI信息一般可以用(tx,ty,tl)表示,其中,(tx,ty)是ROI的中心点坐标,tl是ROI边长的一半。
APN可以基于第一图像的图像特征向量确定并输出ROI信息,图像特征向量可以采用分类网络提取。分类网络比如为卷积神经网络,初始时,可以采用卷积神经网络的最后一层卷积层(比如vgg19的conv5_4)具有最高响应值(highest response)的区域,用该区域的中心点坐标和原图(第一图像)边长的一半来初始化(tx,ty,tl)。
在获取ROI信息后,可以根据ROI信息和第一图像获取第一ROI图像。比如,基于ROI信息对第一图像进行裁剪,裁剪后的图像的大小与ROI大小一致,另外,因为一般图像处理时图像尺寸要求是标准尺寸,所以再对裁剪后的图像进行放大处理,放大到标准尺寸,之后,将裁剪以及放大处理后的图像作为第一ROI图像。
本公开实施例中,为了强化真实图像与伪造图像之间的差异性,还需要获取第二图像,第二图像和第一图像是相互对应的一对真伪图像。比如,第一图像是伪造图像,则第二图像选择为与第一图像对应的真实图像,反之亦然。与一般的分类数据不同,深度伪造数据除了真实类别标签外,还有配对信息。比如深度伪造检测挑战(DeepFake DetectionChallenge,DFDC)、DeepfakeTIMIT、FaceForensics等数据集,除了提供真实类别标签,也提供伪造人脸对应的源真实人脸的配对信息。因此,基于已有数据集提供的配对信息可以获取到与第一图像配对的第二图像。获取到第二图像后,采用与第一图像一致的裁剪和放大处理后得到第二ROI图像。
获取到第一ROI图像和第二ROI图像后,可以将其输入到深度神经网络中以提取相应的图像特征向量。此处的深度神经网络也可以为卷积神经网络,基础网络结构比如为:vgg、resne(x)t、densenet、xception等。
为了去除第一图像和第二图像中的大量冗余语义特征,以突出第一图像和第二图像的差异,对第一ROI图像和第二ROI图像进行处理的深度神经网络是包括孪生网络的深度神经网络,即,提取第一ROI图像的第一图像特征向量以及提取第二ROI图像的第二图像特征向量采用孪生网络实现,即提取第一图像特征向量和第二图像特征向量采用的网络参数是相同的。
为了更好地确定第一ROI图像和第二ROI图像之间的差异性区域,第二卷积神经网络可以作为一种感知网络,相应的,在确定APN损失函数时,可以基于感知损失(perceptualloss)确定。
基于感知网络,可以计算第一图像特征向量和第二图像特征向量的距离,比如,欧氏距离,并基于该欧氏距离确定APN的损失函数,以便在训练APN时,最大化该欧氏距离。
本实施例中,通过计算第一图像特征向量和第二图像特征向量的距离,基于该距离确定的APN的损失函数,使得训练APN时最大化该距离,可以将真实图像和伪造图像感知的差异性作为监督信号,寻找感知差异性大的区域作为ROI,从而可以定位出真伪图像之间更具有差异性的ROI,进而提高深度伪造图像的检测准确度。
下面以一对真伪人脸图像为例,给出深度伪造图像检测模型的训练过程的另一实施例。
图2是根据本公开第二实施例的示意图。本实施例提供了一种深度伪造图像检测模型的训练方法,结合图3,该检测模型包括:分类网络(图3中表示为第一卷积神经网络)、APN和深度神经网络(图3中表示为第二卷积神经网络),该方法包括:
201、采用分类网络提取第一图像的图像特征向量。
202、根据所述图像特征向量确定所述第一图像的第一预测类别概率,并根据所述第一预测类别概率和所述第一图像的真实类别标签,计算所述分类网络的损失函数。
203、采用APN,根据所述图像特征向量,输出ROI信息。
204、根据所述第一图像和所述ROI信息获取第一ROI图像。
205、获取第二图像,以及,根据所述ROI信息和所述第二图像,获取第二ROI图像,所述第一图像和所述第二图像是相互对应的一对真伪图像。
206、采用深度神经网络中的孪生网络,分别提取所述第一ROI图像的第一图像特征向量和所述第二ROI图像的第二图像特征向量。
207、计算所述第一图像特征向量和所述第二图像特征向量的距离,并根据所述距离计算所述APN的损失函数,所述损失函数使得所述APN的训练目标为最大化所述距离。
208、采用所述深度神经网络的分类部分,根据所述第一图像特性向量确定所述第一图像的第二预测类别概率,并根据所述第二预测类别概率和所述第一图像的真实类别标签,计算所述深度神经网络的分类损失函数。
209、根据所述第一预测类别概率中正确样本概率和所述第二预测类别概率中正确样本概率,计算所述深度神经网络的排序损失函数。
210、根据所述分类损失函数和所述排序损失函数,计算所述深度神经网络的损失函数。
211、根据所述APN的损失函数、所述分类网络的损失函数和所述深度神经网络的损失函数,训练所述深度伪造图像检测模型。
针对201-202:
分类网络比如为卷积神经网络(Convolutional Neural Network,CNN),更为具体的,基础网络结构比如为:vgg、resne(x)t、densenet、xception等。为了与后续卷积神经网络区分,此处的卷积神经网络可以称为第一卷积神经网络。图像特征向量比如包括颜色、边缘、纹理等,采用CNN提取图像特征向量的过程可以采用相关技术实现,在此不再详述。
如图3所示,第一卷积神经网络的基础网络结构采用带批标准化(BatchNormalization,BN)的vgg19。图3中用不同填充方式分别表示卷积层(convolution)、池化层(pooling)和全连接层(fully connected layer,FC)。其中,卷积层的参数为卷积核大小(kernel size)=3×3,卷积步长(stride)=1,填充大小(padding)=1;池化层的参数为采样核大小(kenerl size)=2×2,采样步长(stride)=2。图3中每个卷积层后的BN层和激活层(Rectified Linear Unit,ReLU)进行省略。
由于分类的类别数为2(真实人脸与伪造人脸两类),所以最后一个全连接层的输出节点的个数为2个。最后的全连接层输出经过归一化函数(softmax),将全连接层的输出值映射到两个类别的概率上。本实施例中,上述的两个类别的概率可以称为第一预测类别概率。
softmax函数的公式为:
其中,xi表示全连接层的输出向量的第i个元素,xj表示全连接层的输出向量的第j个元素。本实施例中,1≤i,j≤2。
二分类网络的损失函数一般采用二分类交叉熵损失函数(Binary cross entropyloss),其公式是:
loss=-∑iyilog(pi) (2)
其中,pi表示全连接层的输出向量的第i个元素经过softmax归一化后的类别概率,即,pi=softmax(x)i;yi表示独热编码(one-hot)的真实类别标签,其具体形式是:
其中,Y是真实类别标签,i=Y表示样本i属于第Y类,i≠Y表示样本i不属于第Y类。
模型训练时,可能存在过拟合的问题。过拟合的原因一方面可能是因为训练数据中的错误标签,另一方面,在深伪图像检测时,实验表明在训练集之外模型泛化能力较差。基于错误标签或者泛化能力较差的原因,第一卷积神经网络可能存在过拟合的问题,为了解决这一问题,本公开还可以提供如下一些实施例。
一些实施例中,第一卷积神经网络的损失函数采用标签平衡(label smooth)的交叉熵损失函数,即,公式(3)中yi变成软独热编码(soft one-hot)形式,其具体形式是:
其中,K为类别数,本实施例中K=2;ε为超参数,通常较小。本公开实施例中,如未特别说明,超参数是指模型训练之前设置好的固定值,该固定值可以根据经验设置。
因此,根据公式(2)可以计算得到第一卷积神经网络的损失函数,其中的pi为第一预测类别概率,yi是根据公式(4)确定的,Y是真实类别标签。
本实施例中,基于分类网络可以提取出图像特征向量,以便基于该图像特征向量确定ROI信息,以及进行第一次的类别预测。
本实施例中,通过采用标签平滑的交叉熵损失函数,由于标签平滑的交叉熵损失函数是一种正则化的策略,可以减轻第一卷积神经网络训练过程中的过拟合问题。
针对203-205:
APN用于提取ROI信息,如图3所示,APN的结构是两个全连接层,与第一卷积神经网络的最后一个卷积层(比如,vgg19的conv5_4)连接,conv5_4是指第五阶段(stage5)的第四个卷积层。APN的两个全连接层的输出节点个数分别为1024和3。第二个全连接层的3个输出节点分别对应tx,ty,tl。本实施例中,ROI是正方形,(tx,ty)是ROI的中心点坐标,tl是ROI边长的一半。因此,ROI左上、右下两点坐标如下:
其中,下标tl表示左上点,下标br表示右下点。
本实施例中,APN是可训练的,为了使APN是可训练的,基于ROI信息提取ROI图像时采取对原始图像进行软裁剪的方式,通过软裁剪可以保证算子的可导性,使得梯度可以反向传播,从而使得APN是可训练的。
软裁剪的过程是待裁剪的原始图像与掩码(Mask)进行元素逐点相乘(element-wise multiplication)得到裁剪区域图像,即ROI图像,公式为:
Xatt=X⊙M(tx,ty,tl) (6)
其中Mask的公式如下:
M(·)=[h(x-tx(tl))-h(x-tx(br))]·[h(y-ty(tl))-h(y-ty(br))] (7)
其中,h(x)是sigmoid函数,其表达式是:
k是超参数,当k足够大,h(x)近似于单位阶跃函数,此时对于掩码Mask相当于ROI内部像素为1,外部为0,即直接裁剪。
本实施例中,没有采用直接裁剪,而采用上述的软裁剪,使得对APN的软裁剪与直接裁剪近似等价,并且,使得APN的参数梯度可以进行反向传播,从而端到端的优化APN输出的ROI信息(tx,ty,tl)。
对原始图像软裁剪得到裁剪后的图像后,可以对裁剪后的图像进行放大处理,以得到标准尺寸的图像。放大处理时,可以采用双线性插值的方式。原始图像包括第一图像和第二图像,第二图像的获取过程可以参见上述实施例,在此不再详述。对应第一图像,经过软裁剪和放大处理后的图像可以称为第一ROI图像,对应第二图像,经过软裁剪和放大处理后的图像可以称为第二ROI图像。可以理解的是,由于深伪数据集真假人脸的数据像素是一一对应的关系,因此,对第一图像和第二图像的处理过程,比如上述的软裁剪和放大处理,以及其他数据增强处理(如随机翻转、随机裁剪、随机填充等)采用相同的处理方式,保证处理后的配对数据像素依然一一对应。另外,深度伪造人脸图像检测时,在分类之前一般还包括人脸检测,即,深度伪造人脸图像检测时,可以采用串联的检测器和分类器实现。检测器用于在输入图像中检测出人脸图像,比如标记出预测框,并对预测框外扩一定范围后,对输入图像进行裁剪得到人脸图像。分类器用于检测该人脸图像的真伪。相关技术中,分类器采用的是通用分类模型进行检测,存在检测准确度不足的问题。而本公开实施例中,采用的是深度伪造图像检测模型。因此,一些实施例中,第一图像和第二图像可以均为人脸图像,人脸图像可以采用相关检测器进行检测后得到。
相关技术中,得到人脸图像后,是对人脸图像进行缩小处理,缩小到标准尺寸,之后再对缩小后的人脸图像进行分类检测。由于采用缩小后的人脸图像,相对于原始的人脸图像会降低分辨率,进一步影响检测准确度。
而本实施例中,如上所示,ROI图像是在原始的人脸图像(即第一图像或第二图像)的基础上进行了裁剪,可以至少保持原始的人脸图像的分辨率,并且,经过放大处理后还会提高分辨率,因此,第二卷积神经网络还可以实现细粒度分类,进一步提高检测准确度。
针对206-209:
深度神经网络可以为卷积神经网络,本实施例中称为第二卷积神经网络。如图3所示,第二卷积神经网络的基础网络结构以vgg19为例。
一些实施例中,为了提高深度伪造图像检测模型的识别效果,第二卷积神经网络和第一卷积神经模型即使采用相同的基础网络结构,其参数也并不共享,这是因为两者输入图像的分辨率不同。
第二卷积神经网络一方面用于输出成对图像(第一ROI图像和第二ROI图像)的两个图像特征向量,以基于该两个图像特征向量计算距离,并基于该距离确定APN的损失函数,根据该APN的损失函数对APN进行训练,以提取出图像中更能区分出真伪图像的差异性的ROI信息;另一方面用于识别ROI图像是真实人脸图像还是伪造人脸图像。
图像特征向量可以选择包括不同阶段的卷积层对应的激活层输出的特征图(feature map)。比如,参见图3,第二卷积神经网络有5个阶段(stage)的卷积层,每个阶段的最后一个卷积层,通过BN层连接到该阶段的激活层,前4个阶段的各个阶段的卷积层对应的激活层输出的特征图比如分别表示为:relu1_2、relu2_2、relu3_4、relu4_4,则第一图像特征向量可以包括:第一ROI图像对应的relu1_2、relu2_2、relu3_4、relu4_4,第二图像特征向量可以包括:第二ROI图像对应的relu1_2、relu2_2、relu3_4、relu4_4。
APN的损失函数的计算公式为:
其中,分别是两个成对的训练样本,本实施例中,即为第一ROI图像和第二ROI图像;φj(y)表示样本y的第j个特征图,表示样本的第j个特征图;表示两个特征图之间的欧氏距离;Cj,Hj,Wj分别是第j个特征图的通道数(channel)、高度(height)、宽度(width);margin是超参数,表示最小类间间隔;tl表示ROI边长的一半;k是一个较小的超参数,表示tl在损失函数中的权重。
通过该损失函数的计算公式可知,当两个图像特征向量的距离越大,该损失函数越小,即APN的训练目标是最大化该距离。通过最大化该距离,可以去除成对图像(第一ROI图像和第二ROI图像)中的冗余语义信息,保留真实人脸图像和伪造人脸图像的差异区域,以基于该差异区域进行更好地识别。与0值比较取max作用是损失函数非负的特性。
在孪生网络的表征上,比如,形象化的,可以有两个神经网络,该两个神经网络是共享模型参数的,两个神经网络中的每个神经网络各输入一个图像,经过神经网络后输出对应的图像特征向量。或者,在代码实现上,孪生网络是一个网络,分别对应每个图像执行一次,分别输出对应的图像特征向量。图3中以一个网络为例进行说明。另外,由于APN是基于该孪生网络输出的特征向量之间的距离进行训练的,所以,可以称为APN采用了孪生注意力机制。
第二卷积神经网络的作用除了提取成对图像的图像特征向量之外,还用作ROI图像的细粒度特征提取和分类。ROI图像经过双线性插值放大后,相较于原始图像(第一图像),其分辨率会更高,便于提取细粒度特征。
第二卷积神经网络可以分为两个部分,一个部分是孪生网络,另一个部分是分类部分,即,参见图3,stage4卷积层之前(包括stage4)的部分为孪生网络,之后部分为分类部分。
对于第二卷积神经网络的孪生网络部分,可以参见上述相关说明。
对于第二卷积神经网络的分类部分,与第一卷积神经网络的分类部分类似,同样修改最后一个全连接层的输出节点的个数为2个以满足二分类的任务,再经过softmax函数和二分类交叉熵损失,其公式和公式(1)~(3)相同。与第一卷积神经网络不同的是,第二卷积神经网络分类不再采用平滑标签,直接采用二分类交叉熵损失函数。该二分类交叉熵损失函数作为第二卷积神经网络的分类损失函数。
另外,第二卷积神经网络中还有个排序损失函数,其公式是:
其中,分别是第一卷积神经网络和第二卷积神经网络输出的正确样本概率,比如,以第一卷积神经网络为例,假设第一图像是伪造图像,则是第一卷积神经网络输出的预测为伪造类别的概率。该损失函数迫使第二卷积神经网络输出比第一卷积神经网络具有更高置信度的预测。
可以理解的是,不同公式中用的超参数名称即使相同,比如,公式(9)和公式(10)中都有超参数margin,但是这些不同公式中的同一个名称的超参数是相互独立的,并不代表其值相同,可以根据经验对应不同公式选择合适的值,可能相同或不同。
本实施例中,通过具有孪生网络的深度神经网络,可以提取出成对的特征向量,以用于APN的训练,还可以进行第二次类别预测。另外,通过排序损失函数,可以迫使第二次类别预测的准确度高于第一次类别预测的准确度。
针对211:
如图3所示,深度伪造图像检测模型包括三个部分,分别是第一卷积神经网络、APN和第二卷积神经网络,在训练时,可以同步训练这三个网络,或者,也可以分阶段交替训练,分阶段是将第一卷积神经网络和APN分为一个阶段,第二卷积神经网络分为一个阶段。相应的,这两种训练方式分别是:
第一种:根据所述APN的损失函数、所述分类网络的损失函数和所述深度神经网络的损失函数,计算所述总损失函数;同步更新所述分类网络的网络参数、所述APN的网络参数和所述深度神经网络的网络参数,直至所述总损失函数收敛。
第二种:根据所述APN的损失函数和所述分类网络的损失函数,计算所述第一阶段训练的损失函数;将所述深度神经网络的损失函数作为所述第二阶段训练的损失函数;交替进行所述第一阶段训练和所述第二阶段训练,直至所述第一阶段训练的损失函数和所述第二阶段训练的损失函数均收敛;所述第一阶段训练包括:固定所述深度神经网络的网络参数,同步更新所述分类网络的网络参数和所述APN的网络参数;所述第二阶段训练包括:固定所述分类网络的网络参数和所述APN的网络参数,更新所述深度神经网络的网络参数。
本实施例中,通过采用不同的训练方式,可以提高灵活性。
上述描述了深度伪造图像检测模型的训练过程,在检测阶段,可以基于该训练完成的模型进行深度伪造图像的检测。
图4是本公开第四实施例的示意图。该实施例提供一种深度伪造图像的检测方法。如图4所示,该方法包括:
401、采用分类网络,提取待检测图像的图像特征向量,以及,根据所述图像特征向量获取待检测图像的第一检测类别概率。
402、采用APN,根据所述图像特征向量获取ROI信息;其中,所述APN是基于最大化距离训练后得到的,所述距离为成对图像特征向量的距离,所述成对图像特征向量采用共享网络参数对成对ROI图像样本进行特征提取得到,所述成对ROI图像根据相互对应的一对真伪图像得到。
403、根据所述ROI信息和所述待检测图像,获取待检测ROI图像。
404、采用深度神经网络,获取所述待检测ROI图像的第二检测类别概率。
405、对所述第一检测类别概率和所述第二检测类别概率进行加权求和,并根据加权求和后的概率确定所述待检测图像是否为深度伪造图像。
检测阶段的模型结构也可以参照图3,与图3不同的是,在检测阶段,第二卷积神经网络只需要输入待检测图像对应的ROI图像,并非在训练阶段的成对ROI图像。基于图3所示的网络结构,可以基于第一卷积神经网络输出的第一检测类别概率和第二卷积神经网络输出的第二检测类别概率识别待检测图像是真实图像还是伪造图像,比如,经过加权后,伪造类别的概率大于真实类别的概率,则确定待检测图像为伪造图像。
另外,参见上述实施例中的相关内容,本实施例的待检测图像可以具体是指检测器输出的人脸图像。
本实施例中,APN根据成对ROI图像对应的图像特征向量的距离进行训练,训练目标是最大化该距离,成对ROI图像是相互匹配的一对真伪图像对应的ROI图像,因此,基于该最大化距离的训练方式,可以突出真伪图像中的差异性区域,可以在检测时更准确地定位出需要关注的区域,进而提高检测准确度。
图5是本公开第五实施例的示意图,该实施例提供一种深度伪造图像检测模型的训练装置。如图5所示,所述检测模型包括APN,该装置500包括第一获取单元501、第二获取单元502、孪生提取单元503、第一计算单元504和训练单元505。
第一获取单元501用于根据第一图像和所述APN输出的ROI信息,获取第一ROI图像;第二获取单元502用于根据所述ROI信息和第二图像,获取第二ROI图像,所述第一图像和所述第二图像是相互对应的一对真伪图像;孪生提取单元503用于采用孪生网络,分别提取所述第一ROI图像的第一图像特征向量和所述第二ROI图像的第二图像特征向量;第一计算单元504用于计算所述第一图像特征向量和所述第二图像特征向量的距离,并根据所述距离计算所述APN的损失函数,所述损失函数使得所述APN的训练目标为最大化所述距离;训练单元505用于根据所述APN的损失函数确定所述检测模型的损失函数,并根据所述检测模型的损失函数训练所述检测模型。
一些实施例中,如图6所示,深度伪造图像检测模型的训练装置600包括:第一获取单元601、第二获取单元602、孪生提取单元603、第一计算单元604和训练单元605,所述检测模型还包括分类网络,所述装置还包括:特征提取单元606。特征提取单元606用于采用所述分类网络获取所述第一图像的图像特征向量,以使所述APN根据所述图像特征向量输出所述ROI信息。
一些实施例中,如图6所示,该装置600还包括:第二计算单元607。第二计算单元607用于根据所述图像特征向量确定所述第一图像的第一预测类别概率,并根据所述第一预测类别概率和所述第一图像的真实类别标签,计算所述分类网络的损失函数,所述分类网络的损失函数为:标签平滑的交叉熵损失函数。
一些实施例中,所述检测模型还包括深度神经网络,所述孪生网络为深度神经网络的共享部分,所述深度神经网络还包括分类部分,如图6所示,该装置600还包括:第三计算单元608、第四计算单元609和第五计算单元610。第三计算单元608用于采用所述深度神经网络的分类部分,根据所述第一图像特性向量确定所述第一图像的第二预测类别概率,并根据所述第二预测类别概率和所述第一图像的真实类别标签,计算所述深度神经网络的分类损失函数;第四计算单元609用于根据所述第一预测类别概率中的正确样本概率和所述第二预测类别概率中的正确样本概率,计算所述深度神经网络的排序损失函数;第五计算单元610用于根据所述分类损失函数和所述排序损失函数,计算所述深度神经网络的损失函数。
一些实施例中,所述检测模型的损失函数为总损失函数,如图6所示,训练单元605可以包括总损失函数计算模块6051和第一训练模块6052。总损失函数计算模块6051用于根据所述APN的损失函数、所述分类网络的损失函数和所述深度神经网络的损失函数,计算所述总损失函数;第一训练模块6052用于同步更新所述分类网络的网络参数、所述APN的网络参数和所述深度神经网络的网络参数,直至所述总损失函数收敛。
一些实施例中,所述检测模型的损失函数包括第一阶段训练的损失函数,训练单元605可以包括:第一损失函数计算模块、第二损失函数计算模块和第二训练模块,第一损失函数计算模块用于根据所述APN的损失函数和所述分类网络的损失函数,计算所述第一阶段训练的损失函数;第二损失函数计算模块用于将所述深度神经网络的损失函数作为第二阶段训练的损失函数;第二训练模块,用于交替进行所述第一阶段训练和所述第二阶段训练,直至所述第一阶段训练的损失函数和所述第二阶段训练的损失函数均收敛;所述第一阶段训练包括:固定所述深度神经网络的网络参数,同步更新所述分类网络的网络参数和所述APN的网络参数;所述第二阶段训练包括:固定所述分类网络的网络参数和所述APN的网络参数,更新所述深度神经网络的网络参数。
本实施例中,通过计算第一图像特征向量和第二图像特征向量的距离,基于该距离确定的APN的损失函数,使得训练APN时最大化该距离,可以将真实图像和伪造图像感知的差异性作为监督信号,寻找感知差异性大的区域作为ROI,从而可以定位出真伪图像之间更具有差异性的ROI,进而提高深度伪造图像的检测准确度。基于分类网络可以提取出图像特征向量,以便基于该图像特征向量确定ROI信息,以及进行第一次的类别预测。通过采用标签平滑的交叉熵损失函数,由于标签平滑的交叉熵损失函数是一种正则化的策略,可以减轻第一卷积神经网络训练过程中的过拟合问题。通过具有共享网络参数的深度神经网络,可以提取出成对的特征向量,以用于APN的训练,还可以进行第二次类别预测。另外,通过排序损失函数,可以迫使第二次类别预测的准确度高于第一次类别预测的准确度。通过采用不同的训练方式,可以提高灵活性。
图7是本公开第七实施例的示意图,该实施例提供一种深度伪造图像的检测装置。如图7所示,该装置700包括第一分类单元701、定位单元702、获取单元703、第二分类单元704和识别单元705。
第一分类单元701用于采用分类网络,提取待检测图像的图像特征向量,以及,根据所述图像特征向量获取待检测图像的第一检测类别概率;定位单元702用于采用APN,根据所述图像特征向量获取ROI信息;其中,所述APN是基于最大化距离训练后得到的,所述距离为成对图像特征向量的距离,所述成对图像特征向量采用共享网络参数对成对ROI图像样本进行特征提取得到,所述成对ROI图像根据相互对应的一对真伪图像得到;获取单元703用于根据所述ROI信息和所述待检测图像,获取待检测ROI图像;第二分类单元704用于采用深度神经网络,获取所述待检测ROI图像的第二检测类别概率;识别单元705用于对所述第一检测类别概率和所述第二检测类别概率进行加权求和,并根据加权求和后的概率确定所述待检测图像是否为深度伪造图像。
本实施例中,APN根据成对ROI图像对应的图像特征向量的距离进行训练,训练目标是最大化该距离,成对ROI图像是相互匹配的一对真伪图像对应的ROI图像,因此,基于该最大化距离的训练方式,可以突出真伪图像中的差异性区域,可以在检测时更准确地定位出需要关注的区域,进而提高检测准确度。
可以理解的是,本公开的不同实施例中相同或相应的内容可以相互参考,实施例中未做详细说明的内容,可以参见其他实施例的相关内容。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如深度伪造图像检测模型的训练方法或者深度伪造图像的检测方法。例如,在一些实施例中,深度伪造图像检测模型的训练方法或者深度伪造图像的检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的深度伪造图像检测模型的训练方法或者深度伪造图像的检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行深度伪造图像检测模型的训练方法或者深度伪造图像的检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (17)
1.一种深度伪造图像检测模型的训练方法,所述检测模型包括注意力提取网络APN,所述方法包括:
根据第一图像和所述APN输出的感兴趣区域ROI信息,获取第一ROI图像;
根据所述ROI信息和第二图像,获取第二ROI图像,所述第一图像和所述第二图像是相互对应的一对真伪图像;
采用孪生网络,分别提取所述第一ROI图像的第一图像特征向量和所述第二ROI图像的第二图像特征向量;
计算所述第一图像特征向量和所述第二图像特征向量的距离,并根据所述距离计算所述APN的损失函数,所述损失函数使得所述APN的训练目标为最大化所述距离;
根据所述APN的损失函数确定所述检测模型的损失函数,并根据所述检测模型的损失函数训练所述检测模型。
2.根据权利要求1所述的方法,其中,所述检测模型还包括分类网络,所述方法还包括:
采用所述分类网络获取所述第一图像的图像特征向量,以使所述APN根据所述图像特征向量输出所述ROI信息。
3.根据权利要求2所述的方法,其中,还包括:
根据所述图像特征向量确定所述第一图像的第一预测类别概率,并根据所述第一预测类别概率和所述第一图像的真实类别标签,计算所述分类网络的损失函数,所述分类网络的损失函数为:标签平滑的交叉熵损失函数。
4.根据权利要求3所述的方法,其中,所述检测模型还包括深度神经网络,所述孪生网络为所述深度神经网络的共享部分,所述深度神经网络还包括分类部分,所述方法还包括:
采用所述深度神经网络的分类部分,根据所述第一图像特性向量确定所述第一图像的第二预测类别概率,并根据所述第二预测类别概率和所述第一图像的真实类别标签,计算所述深度神经网络的分类损失函数;
根据所述第一预测类别概率中的正确样本概率和所述第二预测类别概率中的正确样本概率,计算所述深度神经网络的排序损失函数;
根据所述分类损失函数和所述排序损失函数,计算所述深度神经网络的损失函数。
5.根据权利要求4所述的方法,其中,所述检测模型的损失函数为总损失函数,所述根据所述APN的损失函数确定所述检测模型的损失函数,并根据所述检测模型的损失函数训练所述检测模型,包括:
根据所述APN的损失函数、所述分类网络的损失函数和所述深度神经网络的损失函数,计算所述总损失函数;
同步更新所述分类网络的网络参数、所述APN的网络参数和所述深度神经网络的网络参数,直至所述总损失函数收敛。
6.根据权利要求4所述的方法,其中,所述检测模型的损失函数包括第一阶段训练的损失函数,所述根据所述APN的损失函数确定所述检测模型的损失函数,并根据所述检测模型的损失函数训练所述检测模型,包括:
根据所述APN的损失函数和所述分类网络的损失函数,计算所述第一阶段训练的损失函数;
将所述深度神经网络的损失函数作为第二阶段训练的损失函数;
交替进行所述第一阶段训练和所述第二阶段训练,直至所述第一阶段训练的损失函数和所述第二阶段训练的损失函数均收敛;
所述第一阶段训练包括:固定所述深度神经网络的网络参数,同步更新所述分类网络的网络参数和所述APN的网络参数;
所述第二阶段训练包括:固定所述分类网络的网络参数和所述APN的网络参数,更新所述深度神经网络的网络参数。
7.一种深度伪造图像的检测方法,包括:
采用分类网络,提取待检测图像的图像特征向量,以及,根据所述图像特征向量获取待检测图像的第一检测类别概率;
采用注意力提取网络APN,根据所述图像特征向量获取感兴趣区域ROI信息;其中,所述APN是基于最大化距离训练后得到的,所述距离为成对图像特征向量的距离,所述成对图像特征向量采用共享网络参数对成对ROI图像样本进行特征提取得到,所述成对ROI图像根据相互对应的一对真伪图像得到;
根据所述ROI信息和所述待检测图像,获取待检测ROI图像;
采用深度神经网络,获取所述待检测ROI图像的第二检测类别概率;
对所述第一检测类别概率和所述第二检测类别概率进行加权求和,并根据加权求和后的概率确定所述待检测图像是否为深度伪造图像。
8.一种深度伪造图像检测模型的训练装置,所述检测模型包括注意力提取网络APN,所述装置包括:
第一获取单元,用于根据第一图像和所述APN输出的感兴趣区域ROI信息,获取第一ROI图像;
第二获取单元,用于根据所述ROI信息和所述第二图像,获取第二ROI图像,所述第一图像和所述第二图像是相互对应的一对真伪图像;
孪生提取单元,用于采用孪生网络,分别提取所述第一ROI图像的第一图像特征向量和所述第二ROI图像的第二图像特征向量;
第一计算单元,用于计算所述第一图像特征向量和所述第二图像特征向量的距离,并根据所述距离计算所述APN的损失函数,所述损失函数使得所述APN的训练目标为最大化所述距离;
训练单元,用于根据所述APN的损失函数确定所述检测模型的损失函数,并根据所述检测模型的损失函数训练所述检测模型。
9.根据权利要求8所述的装置,其中,所述检测模型还包括分类网络,所述装置还包括:
特征提取单元,用于采用所述分类网络获取所述第一图像的图像特征向量,以使所述APN根据所述图像特征向量输出所述ROI信息。
10.根据权利要求9所述的装置,其中,还包括:
第二计算单元,用于根据所述图像特征向量确定所述第一图像的第一预测类别概率,并根据所述第一预测类别概率和所述第一图像的真实类别标签,计算所述分类网络的损失函数,所述分类网络的损失函数为:标签平滑的交叉熵损失函数。
11.根据权利要求10所述的装置,其中,所述检测模型还包括深度神经网络,所述孪生网络为深度神经网络的共享部分,所述深度神经网络还包括分类部分,所述装置还包括:
第三计算单元,用于采用所述深度神经网络的分类部分,根据所述第一图像特性向量确定所述第一图像的第二预测类别概率,并根据所述第二预测类别概率和所述第一图像的真实类别标签,计算所述深度神经网络的分类损失函数;
第四计算单元,用于根据所述第一预测类别概率中的正确样本概率和所述第二预测类别概率中的正确样本概率,计算所述深度神经网络的排序损失函数;
第五计算单元,用于根据所述分类损失函数和所述排序损失函数,计算所述深度神经网络的损失函数。
12.根据权利要求11所述的装置,其中,所述检测模型的损失函数为总损失函数,所述训练单元包括:
总损失函数计算模块,用于根据所述APN的损失函数、所述分类网络的损失函数和所述深度神经网络的损失函数,计算所述总损失函数;
第一训练模块,用于同步更新所述分类网络的网络参数、所述APN的网络参数和所述深度神经网络的网络参数,直至所述总损失函数收敛。
13.根据权利要求11所述的装置,其中,所述检测模型的损失函数包括第一阶段训练的损失函数,所述训练单元包括:
第一损失函数计算模块,用于根据所述APN的损失函数和所述分类网络的损失函数,计算所述第一阶段训练的损失函数;
第二损失函数计算模块,用于将所述深度神经网络的损失函数作为第二阶段训练的损失函数;
第二训练模块,用于交替进行所述第一阶段训练和所述第二阶段训练,直至所述第一阶段训练的损失函数和所述第二阶段训练的损失函数均收敛;所述第一阶段训练包括:固定所述深度神经网络的网络参数,同步更新所述分类网络的网络参数和所述APN的网络参数;所述第二阶段训练包括:固定所述分类网络的网络参数和所述APN的网络参数,更新所述深度神经网络的网络参数。
14.一种深度伪造图像的检测装置,包括:
第一分类单元,用于采用分类网络,提取待检测图像的图像特征向量,以及,根据所述图像特征向量获取待检测图像的第一检测类别概率;
定位单元,用于采用注意力提取网络APN,根据所述图像特征向量获取感兴趣区域ROI信息;其中,所述APN是基于最大化距离训练后得到的,所述距离为成对图像特征向量的距离,所述成对图像特征向量采用共享网络参数对成对ROI图像样本进行特征提取得到,所述成对ROI图像根据相互对应的一对真伪图像得到;
获取单元,用于根据所述ROI信息和所述待检测图像,获取待检测ROI图像;
第二分类单元,用于采用深度神经网络,获取所述待检测ROI图像的第二检测类别概率;
识别单元,用于对所述第一检测类别概率和所述第二检测类别概率进行加权求和,并根据加权求和后的概率确定所述待检测图像是否为深度伪造图像。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的训练方法,或者,权利要求7所述的检测方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的训练方法,或者,权利要求7所述的检测方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的训练方法,或者,权利要求7所述的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011533466.XA CN112598643B (zh) | 2020-12-22 | 2020-12-22 | 深度伪造图像检测及模型训练方法、装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011533466.XA CN112598643B (zh) | 2020-12-22 | 2020-12-22 | 深度伪造图像检测及模型训练方法、装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112598643A true CN112598643A (zh) | 2021-04-02 |
CN112598643B CN112598643B (zh) | 2023-06-23 |
Family
ID=75200178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011533466.XA Active CN112598643B (zh) | 2020-12-22 | 2020-12-22 | 深度伪造图像检测及模型训练方法、装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598643B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283368A (zh) * | 2021-06-08 | 2021-08-20 | 电子科技大学中山学院 | 一种模型训练方法、人脸属性分析方法、装置及介质 |
CN113344131A (zh) * | 2021-06-30 | 2021-09-03 | 商汤国际私人有限公司 | 网络训练方法及装置、电子设备和存储介质 |
CN113408638A (zh) * | 2021-06-30 | 2021-09-17 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备和计算机存储介质 |
CN113554597A (zh) * | 2021-06-23 | 2021-10-26 | 清华大学 | 一种基于脑电特征的图像质量评价方法及装置 |
CN113591918A (zh) * | 2021-06-29 | 2021-11-02 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法、装置和设备 |
CN113705362A (zh) * | 2021-08-03 | 2021-11-26 | 北京百度网讯科技有限公司 | 图像检测模型的训练方法、装置、电子设备及存储介质 |
CN113870254A (zh) * | 2021-11-30 | 2021-12-31 | 中国科学院自动化研究所 | 目标对象的检测方法、装置、电子设备及存储介质 |
CN115147661A (zh) * | 2022-07-25 | 2022-10-04 | 浙大城市学院 | 一种染色体分类方法、装置、设备及可读存储介质 |
CN115311525A (zh) * | 2022-10-08 | 2022-11-08 | 阿里巴巴(中国)有限公司 | 深度伪造检测方法及对应装置 |
CN117392672A (zh) * | 2023-12-11 | 2024-01-12 | 季华实验室 | 流式细胞分类模型的获取方法、分类方法及相关设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014115148A1 (en) * | 2013-01-24 | 2014-07-31 | Tylerton International Holdings Inc. | Body structure imaging |
WO2017146714A1 (en) * | 2016-02-25 | 2017-08-31 | InAuth, Inc. | Systems and methods for recognizing and categorizing a device |
CN107516306A (zh) * | 2016-06-15 | 2017-12-26 | 安克生医股份有限公司 | 呼吸中止症评估方法及其系统 |
CN108805200A (zh) * | 2018-06-08 | 2018-11-13 | 中国矿业大学 | 基于深度孪生残差网络的光学遥感场景分类方法及装置 |
CN109886141A (zh) * | 2019-01-28 | 2019-06-14 | 同济大学 | 一种基于不确定性优化的行人再辨识方法 |
CN110458249A (zh) * | 2019-10-10 | 2019-11-15 | 点内(上海)生物科技有限公司 | 一种基于深度学习与概率影像组学的病灶分类系统 |
CN111079785A (zh) * | 2019-11-11 | 2020-04-28 | 深圳云天励飞技术有限公司 | 一种图像识别方法、装置及终端设备 |
-
2020
- 2020-12-22 CN CN202011533466.XA patent/CN112598643B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014115148A1 (en) * | 2013-01-24 | 2014-07-31 | Tylerton International Holdings Inc. | Body structure imaging |
WO2017146714A1 (en) * | 2016-02-25 | 2017-08-31 | InAuth, Inc. | Systems and methods for recognizing and categorizing a device |
CN107516306A (zh) * | 2016-06-15 | 2017-12-26 | 安克生医股份有限公司 | 呼吸中止症评估方法及其系统 |
CN108805200A (zh) * | 2018-06-08 | 2018-11-13 | 中国矿业大学 | 基于深度孪生残差网络的光学遥感场景分类方法及装置 |
CN109886141A (zh) * | 2019-01-28 | 2019-06-14 | 同济大学 | 一种基于不确定性优化的行人再辨识方法 |
CN110458249A (zh) * | 2019-10-10 | 2019-11-15 | 点内(上海)生物科技有限公司 | 一种基于深度学习与概率影像组学的病灶分类系统 |
CN111079785A (zh) * | 2019-11-11 | 2020-04-28 | 深圳云天励飞技术有限公司 | 一种图像识别方法、装置及终端设备 |
Non-Patent Citations (3)
Title |
---|
JIANLONG FU 等: "Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 4476 - 4484 * |
张安琪;: "基于孪生卷积神经网络与三元组损失函数的图像识别模型", 电子制作, no. 21, pages 49 - 50 * |
武随烁;杨金福;单义;许兵兵;: "使用孪生注意力机制的生成对抗网络的研究", 计算机科学与探索, no. 05, pages 833 - 840 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283368B (zh) * | 2021-06-08 | 2023-10-20 | 电子科技大学中山学院 | 一种模型训练方法、人脸属性分析方法、装置及介质 |
CN113283368A (zh) * | 2021-06-08 | 2021-08-20 | 电子科技大学中山学院 | 一种模型训练方法、人脸属性分析方法、装置及介质 |
CN113554597A (zh) * | 2021-06-23 | 2021-10-26 | 清华大学 | 一种基于脑电特征的图像质量评价方法及装置 |
CN113554597B (zh) * | 2021-06-23 | 2024-02-02 | 清华大学 | 一种基于脑电特征的图像质量评价方法及装置 |
CN113591918A (zh) * | 2021-06-29 | 2021-11-02 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法、装置和设备 |
CN113591918B (zh) * | 2021-06-29 | 2024-02-06 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、图像处理方法、装置和设备 |
CN113344131A (zh) * | 2021-06-30 | 2021-09-03 | 商汤国际私人有限公司 | 网络训练方法及装置、电子设备和存储介质 |
CN113408638A (zh) * | 2021-06-30 | 2021-09-17 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备和计算机存储介质 |
CN113705362B (zh) * | 2021-08-03 | 2023-10-20 | 北京百度网讯科技有限公司 | 图像检测模型的训练方法、装置、电子设备及存储介质 |
CN113705362A (zh) * | 2021-08-03 | 2021-11-26 | 北京百度网讯科技有限公司 | 图像检测模型的训练方法、装置、电子设备及存储介质 |
CN113870254B (zh) * | 2021-11-30 | 2022-03-15 | 中国科学院自动化研究所 | 目标对象的检测方法、装置、电子设备及存储介质 |
CN113870254A (zh) * | 2021-11-30 | 2021-12-31 | 中国科学院自动化研究所 | 目标对象的检测方法、装置、电子设备及存储介质 |
CN115147661A (zh) * | 2022-07-25 | 2022-10-04 | 浙大城市学院 | 一种染色体分类方法、装置、设备及可读存储介质 |
CN115311525A (zh) * | 2022-10-08 | 2022-11-08 | 阿里巴巴(中国)有限公司 | 深度伪造检测方法及对应装置 |
CN115311525B (zh) * | 2022-10-08 | 2023-03-14 | 阿里巴巴(中国)有限公司 | 深度伪造检测方法及对应装置 |
CN117392672A (zh) * | 2023-12-11 | 2024-01-12 | 季华实验室 | 流式细胞分类模型的获取方法、分类方法及相关设备 |
CN117392672B (zh) * | 2023-12-11 | 2024-03-19 | 季华实验室 | 流式细胞分类模型的获取方法、分类方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112598643B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598643B (zh) | 深度伪造图像检测及模型训练方法、装置、设备、介质 | |
US11367271B2 (en) | Similarity propagation for one-shot and few-shot image segmentation | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN113971751A (zh) | 训练特征提取模型、检测相似图像的方法和装置 | |
CN111401521B (zh) | 神经网络模型训练方法及装置、图像识别方法及装置 | |
CN113239807B (zh) | 训练票据识别模型和票据识别的方法和装置 | |
Zhou et al. | A lightweight hand gesture recognition in complex backgrounds | |
WO2022152009A1 (zh) | 目标检测方法、装置、设备以及存储介质 | |
WO2022161302A1 (zh) | 动作识别方法、装置、设备、存储介质及计算机程序产品 | |
CN114612743A (zh) | 深度学习模型的训练方法、目标对象识别方法和装置 | |
CN111439267A (zh) | 一种舱内环境的调整方法及装置 | |
CN113255557A (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN114842238A (zh) | 一种嵌入式乳腺超声影像的识别方法 | |
CN116802683A (zh) | 图像的处理方法和系统 | |
CN114120454A (zh) | 活体检测模型的训练方法、装置、电子设备及存储介质 | |
Yuan et al. | A cross-scale mixed attention network for smoke segmentation | |
CN113869253A (zh) | 活体检测方法、训练方法、装置、电子设备及介质 | |
CN113255501A (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
Cai et al. | Efficient facial expression recognition based on convolutional neural network | |
CN112560848B (zh) | 兴趣点poi预训练模型的训练方法、装置及电子设备 | |
CN114913339A (zh) | 特征图提取模型的训练方法和装置 | |
CN111814865A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
Li | Special character recognition using deep learning | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |