CN115424036A - 基于像素级注意力机制的深度伪造图像检测方法和系统 - Google Patents

基于像素级注意力机制的深度伪造图像检测方法和系统 Download PDF

Info

Publication number
CN115424036A
CN115424036A CN202211153622.9A CN202211153622A CN115424036A CN 115424036 A CN115424036 A CN 115424036A CN 202211153622 A CN202211153622 A CN 202211153622A CN 115424036 A CN115424036 A CN 115424036A
Authority
CN
China
Prior art keywords
pixel
attention mechanism
feature
level attention
image detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211153622.9A
Other languages
English (en)
Inventor
涂梅林
张光斌
姚灿荣
吴俊毅
高志鹏
赵建强
杜新胜
金辉
韩名羲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202211153622.9A priority Critical patent/CN115424036A/zh
Publication of CN115424036A publication Critical patent/CN115424036A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

公开了基于像素级注意力机制的深度伪造图像检测方法和系统,包括在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息Fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征Fii;将特征Fii再经过一个1*1卷积和Sigmoid激活函数得到增强后的特征信息;将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。本发明提出的像素级注意力机制模块较为灵活,可以随意插入不同卷积层之后,而且在推理过程中不会增加太多参数量和运算量。

Description

基于像素级注意力机制的深度伪造图像检测方法和系统
技术领域
本发明涉及图像检测的技术领域,尤其是基于像素级注意力机制的深度伪造图像检测方法和系统。
背景技术
深度伪造检测技术已经利用卷积神经网络取得许多卓越显著的性能,其主要依靠的是卷积神经网络对高层语义信息的获取,并在分类损失的约束下不断优化和拟合。目前的深度伪造检测算法主要是通过增加数据量,提升模型的准确率和泛化性。对于所有卷积神经网络而言,大规模的数据量可以提升模型的准确率。然而,通过数据层面提升模型泛化性,会使得模型完全依靠大规模数据,无法从卷积神经网络本身来优化模型的特征学习能力。因此,如何使模型本身能具有挖掘显著特征信息的能力是一个具有挑战性的问题。
目前的深度伪造检测算法主要是依靠先进的主干网络和大规模的数据量,使得模型在伪造数据进行拟合。然而,目前的算法主要是依靠更换更强表征力的卷积神经网络和不断增加数据量,从而来提升模型的准确率和泛化性。现有的算法缺乏从特征层面来考虑深度伪造检测算法。现有的主干网络由于多层卷积层的设计,特征信息在前向传播过程中不断被平滑化。即,前一个卷积层的特征信息送入后一个卷积层,更多的是当前平均化的特征信息,而不是显著的特征信息。深度伪造检测算法不同于其他计算视觉任务,在深度伪造检测算法中应该保证前向传播的是显著的特征信息。
深度伪造检测网络被看作是一个二分类问题,利用卷积神经网络提取高层语义信息,在分类损失的约束下进行判别真实和伪造图像。卷积神经网络在深度伪造检测上取得较好的性能,目前各种算法主要是通过增加数据量来增加算法的泛化性和鲁棒性。然而,现有的算法却忽略了一个问题,卷积神经网络对图像的特征提取从底层轮廓信息逐渐到高层语义信息,特征信息趋于平滑化,网络对所有信息的关注度是一样的。对于深度伪造检测算法,应该去关注前一个卷积层获取的特征信息是否有将显著的信息传给下一个卷积层,应该去增强显著信息的特征表达,而不是使得所有特征信息平滑化。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于像素级注意力机制的深度伪造图像检测方法和系统,以解决上述技术问题。
根据本发明的一个方面,提出了基于像素级注意力机制的深度伪造图像检测方法,包括:
S1:在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息Fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征Fii;,
S2:将特征Fii再经过一个1*1卷积和Sigmoid激活函数得到增强后的特征信息;
S3:将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
在一些具体的实施例中,主干网络为ResNet50网络,ResNet50网络包括四个提取特征的阶段。
在一些具体的实施例中,每个特征提取的方式为Fi=(Bi{xii}),其中,Bi代表主干网络ResNet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
在一些具体的实施例中,S1中对特征信息Fi进行通道压缩具体为从C个通道压缩至3个通道。
在一些具体的实施例中,S2中特征Fii再经过一个1*1卷积和Sigmoid激活函数得到维度为H×W×C的特征,经过Sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜。
在一些具体的实施例中,标签平滑正则化的交叉嫡损失函数具体为:
Figure BDA0003857371090000021
其中,ε∈[0,1],K表示类别数,p(k)表示预测属于类别k的概率。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
根据本发明的第三方面,提出了基于像素级注意力机制的深度伪造图像检测系统,系统包括:
像素级注意力机制模块插入单元,配置用于在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息Fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征Fii
特征增强单元,配置用于将特征Fii再经过一个1*1卷积和Sigmoid激活函数得到增强后的特征信息;
约束单元:配置用于将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
在一些具体的实施例中,主干网络为ResNet50网络,ResNet50网络包括四个提取特征的阶段,每个特征提取的方式为Fi=(Bi{xii}),其中,Bi代表主干网络ResNet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
在一些具体的实施例中,像素级注意力机制模块插入单元中对特征信息Fi进行通道压缩具体为从C个通道压缩至3个通道。
在一些具体的实施例中,特征增强单元中特征Fii再经过一个1*1卷积和Sigmoid激活函数得到维度为H×W×C的特征,经过Sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜。
在一些具体的实施例中,标签平滑正则化的交叉嫡损失函数具体为:
Figure BDA0003857371090000031
其中,ε∈[0,1],K表示类别数,p(k)表示预测属于类别k的概率。
本发明提出了一种基于像素级注意力机制的深度伪造图像检测方法和系统,通过引入一个像素级的注意力机制模块,来增强每个阶段特征信息的表达,使得在神经网络前向传播的是显著的特征信息。本发明提出的像素级的注意力机制模块较为灵活,可以随意插入不同卷积层之后,而且在推理过程中不会增加太多参数量和运算量。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例的基于像素级注意力机制的深度伪造图像检测方法的流程图;
图2是本申请的一个具体的实施例的基于像素级注意力机制的深度伪造图像检测方法的算法框架图;
图3是本申请的一个实施例的基于像素级注意力机制的深度伪造图像检测系统的框架图;
图4是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例的基于像素级注意力机制的深度伪造图像检测方法,图1示出了根据本申请的实施例的基于像素级注意力机制的深度伪造图像检测方法的流程图。如图1所示,该方法包括:
S101:在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息Fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征Fii
在具体的实施例中,主干网络为ResNet50网络,ResNet50网络包括四个提取特征的阶段,每个特征提取的方式为Fi=(Bi{xii}),其中,Bi代表主干网络ResNet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
在具体的实施例中,对特征信息Fi进行通道压缩具体为从C个通道压缩至3个通道。
S102:将特征Fii再经过一个1*1卷积和Sigmoid激活函数得到增强后的特征信息。
在具体的实施例中,特征Fii再经过一个1*1卷积和Sigmoid激活函数得到维度为H×W×C的特征,经过Sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜,H表示图像的高,W表示图像的宽,C为通道数。
S103:将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
在具体的实施例中,标签平滑正则化的交叉嫡损失函数具体为:
Figure BDA0003857371090000051
其中,ε∈[0,1],K表示类别数,p(k)表示预测属于类别k的概率。
图2示出了根据本发明的一个具体的实施例的基于像素级注意力机制的深度伪造图像检测方法的算法框架图,如图2所示,该框架适用于各种主干网络,像素级注意力机制模块可插入各种主干网络中,本实施例中以ResNet50作为示例,包括以下步骤:
步骤S1:如图2所示,以ResNet50为主干网络作为示例。ResNet50主要包括4个提取特征的阶段,本发明提出的像素级注意力机制模块可以插入任何一个阶段,增强特征信息的表达。ResNet50每个特征提取方式如下表达式所示:Fi=(Bi{xii}),其中,Bi代表主干网络ResNet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
步骤S2:为了保证特征信息的前向传播,在每个特征之后都插入像素级注意力机制模块。首先利用一个1*1卷积对特征信息Fi对行通道压缩,从C个通道压缩至3个通道,然后将降维后的特征和原始图像进行相加得到Fii
步骤S3:将和原图相加后的特征信息Fii再经过一个1*1卷积和Sigmoid激活函数,重新得到维度为H×W×C的特征,但是这个特征已经过Sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜,已经对显著信息进一步增强。
步骤S4:将增强后的特征信息作为下一个特征提取阶段的输入,然后每个阶段获取的特征信息,都重复经过步骤S2和S3进行特征信息增强。
步骤S5:整个框架算法采用常的分类损失函数为交叉熵损失函数,并采用标签平滑正则化策略来防止算法过拟合,标签平滑正则化的交叉熵损失函数如下式所示:
Figure BDA0003857371090000052
其中ε∈[0,1],K是类别数,p(k)代表预测属于类别k的概率。
本发明提出的基于像素级注意力机制的深度伪造检测算法,通过引入一个像素级的注意力机制模块,来增强每个阶段特征信息的表达,使得在神经网络前向传播的是显著的特征信息。本发明提出的像素级注意力机制模块较为灵活,可以随意插入不同卷积层之后,而且在推理过程中不会增加太多参数量和运算量。
继续参考图3,图3示出了根据本发明的实施例的基于像素级注意力机制的深度伪造图像检测系统的框架图。该系统具体包括像素级注意力机制模块插入单元301、特征增强单元302和约束单元303。像素级注意力机制模块插入单元301配置用于在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息Fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征Fii;特征增强单元302配置用于将特征Fii再经过一个1*1卷积和Sigmoid激活函数得到增强后的特征信息;约束单元303配置用于将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
下面参考图4,其示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息Fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征Fii;将特征Fii再经过一个1*1卷积和Sigmoid激活函数得到增强后的特征信息;将增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.基于像素级注意力机制的深度伪造图像检测方法,其特征在于,包括:
S1:在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息Fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征Fii
S2:将所述特征Fii再经过一个1*1卷积和Sigmoid激活函数得到增强后的特征信息;
S3:将所述增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
2.根据权利要求1所述的基于像素级注意力机制的深度伪造图像检测方法,其特征在于,所述主干网络为ResNet50网络,所述ResNet50网络包括四个提取特征的阶段。
3.根据权利要求2所述的基于像素级注意力机制的深度伪造图像检测方法,其特征在于,每个所述特征提取的方式为Fi=(Bi{xii}),其中,Bi代表主干网络ResNet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
4.根据权利要求1所述的基于像素级注意力机制的深度伪造图像检测方法,其特征在于,所述S1中对所述特征信息Fi进行通道压缩具体为从C个通道压缩至3个通道。
5.根据权利要求1所述的基于像素级注意力机制的深度伪造图像检测方法,其特征在于,所述S2中所述特征Fii再经过一个1*1卷积和Sigmoid激活函数得到维度为H×W×C的特征,经过Sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜。
6.根据权利要求1所述的基于像素级注意力机制的深度伪造图像检测方法,其特征在于,所述标签平滑正则化的交叉嫡损失函数具体为:
Figure FDA0003857371080000011
Figure FDA0003857371080000012
其中,ε∈[0,1],K表示类别数,p(k)表示预测属于类别k的概率。
7.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至6任一项所述的方法。
8.基于像素级注意力机制的深度伪造图像检测系统,其特征在于,所述系统包括:
像素级注意力机制模块插入单元,配置用于在图像检测的主干网络中的提取特征之后插入像素级注意力机制模块,利用一个1*1卷积对特征信息Fi进行通道压缩,压缩通道并将降维后的特征和原始图像相加得到特征Fii
特征增强单元,配置用于将所述特征Fii再经过一个1*1卷积和Sigmoid激活函数得到增强后的特征信息;
约束单元:配置用于将所述增强后的特征信息作为下一特征提取阶段的输入,重复进行前述步骤进行特征信息增强,并利用标签平滑正则化的交叉嫡损失函数进行约束。
9.根据权利要求8所述的基于像素级注意力机制的深度伪造图像检测系统,其特征在于,所述主干网络为ResNet50网络,所述ResNet50网络包括四个提取特征的阶段,每个所述特征提取的方式为Fi=(Bi{xii}),其中,Bi代表主干网络ResNet50第i个特征提取过程,xi代表输入的人脸图像,θi代表第i个特征提取过程涉及的参数。
10.根据权利要求8所述的基于像素级注意力机制的深度伪造图像检测系统,其特征在于,像素级注意力机制模块插入单元中对所述特征信息Fi进行通道压缩具体为从C个通道压缩至3个通道。
11.根据权利要求8所述的基于像素级注意力机制的深度伪造图像检测系统,其特征在于,所述特征增强单元中所述特征Fii再经过一个1*1卷积和Sigmoid激活函数得到维度为H×W×C的特征,经过Sigmoid逐个对像素进行激活,形成了像素级的注意力掩膜。
12.根据权利要求8所述的基于像素级注意力机制的深度伪造图像检测系统,其特征在于,所述标签平滑正则化的交叉嫡损失函数具体为:
Figure FDA0003857371080000021
Figure FDA0003857371080000022
其中,ε∈[0,1],K表示类别数,p(k)表示预测属于类别k的概率。
CN202211153622.9A 2022-09-21 2022-09-21 基于像素级注意力机制的深度伪造图像检测方法和系统 Pending CN115424036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211153622.9A CN115424036A (zh) 2022-09-21 2022-09-21 基于像素级注意力机制的深度伪造图像检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211153622.9A CN115424036A (zh) 2022-09-21 2022-09-21 基于像素级注意力机制的深度伪造图像检测方法和系统

Publications (1)

Publication Number Publication Date
CN115424036A true CN115424036A (zh) 2022-12-02

Family

ID=84203953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211153622.9A Pending CN115424036A (zh) 2022-09-21 2022-09-21 基于像素级注意力机制的深度伪造图像检测方法和系统

Country Status (1)

Country Link
CN (1) CN115424036A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690920A (zh) * 2023-01-03 2023-02-03 智慧眼科技股份有限公司 医疗身份认证的可信活体检测方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690920A (zh) * 2023-01-03 2023-02-03 智慧眼科技股份有限公司 医疗身份认证的可信活体检测方法及相关设备

Similar Documents

Publication Publication Date Title
US10635979B2 (en) Category learning neural networks
US11256960B2 (en) Panoptic segmentation
CN114913565B (zh) 人脸图像检测方法、模型训练方法、装置及存储介质
US11741578B2 (en) Method, system, and computer-readable medium for improving quality of low-light images
CN116258719B (zh) 基于多模态数据融合的浮选泡沫图像分割方法和装置
CN112668588B (zh) 车位信息生成方法、装置、设备和计算机可读介质
CN114170167B (zh) 基于注意力引导上下文校正的息肉分割方法和计算机设备
CN113822209A (zh) 高光谱图像识别方法、装置、电子设备及可读存储介质
US20230377097A1 (en) Laparoscopic image smoke removal method based on generative adversarial network
JP2023507248A (ja) 物体検出および認識のためのシステムおよび方法
CN111899251A (zh) 一种区分伪造来源和目标区域的copy-move型伪造图像检测方法
CN115424036A (zh) 基于像素级注意力机制的深度伪造图像检测方法和系统
CN114037985A (zh) 信息提取方法、装置、设备、介质及产品
CN111932577A (zh) 文本检测方法、电子设备及计算机可读介质
CN111444807A (zh) 目标检测方法、装置、电子设备和计算机可读介质
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN115222750A (zh) 基于多尺度融合注意力的遥感图像分割方法及系统
CN115346278A (zh) 图像检测方法、装置、可读介质及电子设备
CN106446844B (zh) 姿势估计方法和装置、计算机系统
Zhou et al. FANet: Feature aggregation network for RGBD saliency detection
CN112633260B (zh) 视频动作分类方法、装置、可读存储介质及设备
CN115641317A (zh) 面向病理图像的动态知识回溯多示例学习及图像分类方法
CN115546907A (zh) 一种多尺度特征聚合的活体检测方法和系统
CN114463537A (zh) 一种车牌的识别方法、装置、终端及可读存储介质
CN113705666A (zh) 分割网络训练方法、使用方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination