CN116385407A

CN116385407A - 一种基于多尺度可疑预测框的资质证书图像篡改检测方法

Info

Publication number: CN116385407A
Application number: CN202310374863.4A
Authority: CN
Inventors: 程旭; 严梦迪; 付章杰
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-07-04

Abstract

本发明提供一种基于多尺度可疑预测框的资质证书图像篡改检测方法，涉及图像被动取证篡改检测领域。包括将待测图像输入到第一分支，对预测出的可疑框与Mask框进行优化得到预测框；将待测图像输入到第二分支，检测出图像经过篡改的区域，并进行篡改区域预测图输出；将得到的预测框和篡改区域预测图进行融合，得到最终的掩码输出；所述第一分支为可疑区域检测分支；所述第二分支为篡改区域检测分支该基于多尺度可疑预测框的资质证书图像篡改检测方法。通过利用多尺度可疑预测框来框定篡改区域和多尺度特征提取定位篡改区域相结合，解决了现有技术中对篡改区域大小不一及检测精度低以及检测效率低下的问题。

Description

一种基于多尺度可疑预测框的资质证书图像篡改检测方法

技术领域

本发明涉及图像被动取证篡改检测技术领域，具体为一种基于多尺度可疑预测框的资质证书图像篡改检测方法。

背景技术

图像篡改检测技术是一种通过分析数字图像的特征来对图像真实性、完整性进行鉴别的取证技术。该技术在信息安全、数据通信等多方面都发挥着重要作用，对保障数据安全、维护社会稳定都具有重要意义。当前国内外学术界对图像篡改检测的研究主要集中在自然图像篡改检测，但日常带来风险损失的假图通常是资质证书、电子证件等。近年来，大量诈骗违法人员引入伪造各类证件、转账记录等技术手段实施诈骗，识别难度大大增加。现有的篡改检测方法直接应用到这些新类型图像时，准确性能大幅下降，检测效率相比自然图像也是非常低下。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于多尺度可疑预测框的资质证书图像篡改检测方法，通过利用多尺度可疑预测框来框定篡改区域和多尺度特征提取定位篡改区域相结合，解决了现有技术中对篡改区域大小不一及检测精度低以及检测效率低下的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于多尺度可疑预测框的资质证书图像篡改检测方法，包括：

将待测图像输入到第一分支，对预测出的可疑框与Mask框进行优化得到预测框；

将待测图像输入到第二分支，检测出图像经过篡改的区域，并进行篡改区域预测图输出；

将得到的预测框和篡改区域预测图进行融合，得到最终的掩码输出；

所述第一分支为可疑区域检测分支；

所述第二分支为篡改区域检测分支。

优选的，所述可疑区域检测分支具体包括使用Focus模块隔像素取值，获得四个独立的特征层，并将其堆叠得到扩充四倍的输入通道，经过跨阶段部分网络模块进行特征提取，加入通过不同池化核大小的最大池化进行特征提取的空间金字塔网络结构；得到的特征图在YOLOv5模型的特征金字塔结构中引入了跨阶段部分网络结构，对多特征层进行特征提取，提取出三个特征层：中间层，中下层，底层；利用这三个特征层进行特征金字塔层的构建，特征金字塔可以将不同分辨率的特征层进行特征融合；设置新的transformer预测头来代替YOLOv5模型之前的预测头部分，transformer预测头可以捕获全局信息和丰富的上下文信息，得到可疑区域框。

优选的，所述将待测图像输入到第一分支，对预测出的可疑框与Mask框进行优化得到预测框，具体包括：

将待测图像输入到基于YOLOv5模型的可疑区域检测分支进行处理，经过Focus模块对待测图像进行切片，经过Conv基本卷积模块和跨阶段部分网络模块对残差特征进行学习，跨阶段部分网络模块通过cancat实现通道数的增加，经过空间金字塔池化模块对高层特征进行提取并融合；

Neck结构设计沿用特征金字塔结构，自顶向下在所有尺度上构建出高级语义特征图，在Neck结构中新加入了卷积注意力模块，沿着通道和空间的两个独立维度依次腿短注意力图，在将注意力图与输入特征图相乘得到自适应特征细化；经过的预测头主体是三个基于transformer的检测器，第一层是多头注意力层，第二层是全连接层，使用transformer预测头增加了捕获图像不同信息的能力，得到可疑预测框，并将其与Mask框进行交并比的优化计算，得到最终预测框。

优选的，所述篡改区域检测分支具体包括：

待测图像输入基于MobileNetV3的模型中利用SENet注意力机制对网络进行特征重新校准，选择性强调信息性特征，并抑制无用的特征，并使用新的激活函数在提高检测精度的同时减少了时间损耗；使用长短期记忆网络帮助识别频域边缘特征，将校准通道权重后得到的特征与边缘特征融合，通过掩码预测模块输出该分支的篡改区域预测图。

优选的，所述将待测图像输入到第二分支，检测出图像经过篡改的区域，并进行篡改区域预测图输出，具体包括：

待测图像输入到基于MobileNetv3的篡改区域检测分支中，利用神经体系结构搜索方法进行粗略解构的搜索并选出一组最优配置，利用SENet自动获取每个特征通道的重要程度，在保持轻量级的基础上提取多尺度特征；加入的长短时记忆网络学习图像块之间的相关度，学习篡改边界上的空间差异信息，在频域中捕捉篡改区域和真实区域之间边界上的差异特征，最后经过由卷积层组成的掩码输出模块得到最终篡改区域预测图。

优选的，所述将得到的预测框和篡改区域预测图进行融合，得到最终的掩码输出，具体包括：

可疑区域检测分支得到的可疑预测框和篡改区域检测分支得到的篡改区域预测图在CIoU损失函数的优化计算下，不断回归，得到最为符合且准确的篡改检测图，并作为最终的掩码结果输出。

优选的，所述可疑区域检测分支所使用的损失函数是DIoU损失函数，计算公式为：

其中，B和B^gt分别表示检测框和ground truth框，c表示能同时覆盖预测框和ground truth框的最小矩形的对角线距离；

所述篡改区域检测分支使用的损失函数是交叉熵损失函数，计算公式为：

其中，G_k代表的是真实值标签，P_k代表的预测输出的标签。

优选的，所述可疑区域检测分支与所述篡改区域检测分支的结果融合过程中使用的损失函数为CIoU损失函数，计算公式如下：

其中，α是用于平衡比例的参数，v是用来描述预测框和ground truth的长宽比例一致性的参数；

整个模型总的损失函数为：

L＝L_DIoU+L_CIoU+L_CR。

第二方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

第三方面，提供了一种计算设备，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

(三)有益效果

本发明一种基于多尺度可疑预测框的资质证书图像篡改检测方法，可疑区域检测分支能够利用其CSP结构和transformer预测头对特征进行更为灵活地提取，能够自适应特征尺度，对小区域篡改检测更为敏感，在损失函数和Mask框的帮助下优化计算出更为准确的预测框；篡改区域检测分支从轻量高效的角度出发，利用SENet和LSTM学习篡改边界上的空间差异信息，更好地鉴别出真实区域和篡改区域的不一致，得到篡改区域的预测图、预测图与预测框相结合进行优化，得到最终篡改区域的准确定位，相比于现有技术，本发明所提出的方法在定位资质证书图像篡改区域的准确率上有大幅提升。

附图说明

图1为本发明资质证书图像篡改检测方法流程示意图；

图2为本发明资质证书图像篡改检测方法的模型图；

图3为本发明实施例中CSP跨阶段部分网络结构示意图；

图4为本发明实施例中SPP空间金字塔网络结构示意图；

图5为本发明实施例中transformer预测头结构图示意图。

具体实施方式

下面将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本发明实施例提供基于多尺度可疑预测框的资质证书图像篡改检测方法，包括以下步骤：

S10，将待测的图像输入到可疑区域检测分支和篡改区域检测分支中，分别进行处理。

第一个分支是基于YOLOv5模型的可疑区域检测分支，使用Focus模块隔像素取值，获得四个独立的特征层，并将其堆叠得到扩充四倍的输入通道，再经过跨阶段部分网络(Cross Stage Partial Network，CSP)模块进行特征提取，同时为了提高网络的感受野，又加入了通过不同池化核大小的最大池化进行特征提取的空间金字塔网络(SpatialPyramid Pooling network,SPP)结构，请参阅图4。得到的特征图在YOLOv5的特征金字塔(Feature Pyramid Networks,FPN)特征金字塔结构中引入了CSP结构，对多特征层进行特征提取，提取出三个特征层：中间层，中下层，底层。利用这三个有效特征层进行FPN层的构建，特征金字塔可以将不同分辨率的特征层进行特征融合。请参阅图5，设置新的transformer预测头(Transformer Head,TFE)来代替YOLO模型之前的预测头部分，transformer预测头可以捕获全局信息和丰富的上下文信息，得到可疑区域框。将可疑区域框与提前处理过的Mask框通过DIoU损失函数进一步优化得到可疑区域检测模块的最终预测框。

第二个分支是篡改区域检测分支，待测图像输入基于MobileNetV3的模型中利用SENet注意力机制对网络进行特征重新校准，选择性强调信息性特征，并抑制不太有用的特征，并使用新的激活函数在提高检测精度的同时减少了时间损耗；之后使用长短期记忆网络(Long Short-term Memory,LSTM)帮助识别频域边缘特征，将校准通道权重后得到的特征与边缘特征融合，从而更好地鉴别类间差异特征，最后通过掩码预测模块输出该分支的篡改区域预测图。将两个分支得到的预测框和预测图再通过CIoU损失函数优化得到最终的掩码输出。

S20，待测图像输入到可疑区域检测分支中，通过基于YOLO的可疑区域检测分支进行可疑预测框的输出，再与提前处理好的Mask框通过DIoU损失函数进行优化得到本分支的预测框结果。

S30，待测图像输入到篡改区域检测分支中，针对篡改区域，利用mobilenetv3进行多尺度特征的提取，利用LSTM识别篡改区域边界特征，然后通过对比篡改区域特征与真实区域特征的不一致性来得到篡改区域预测图。

S40，可疑区域检测分支得到的可疑预测框和篡改区域检测分支得到的篡改区域预测图在CIoU损失函数的优化计算下，不断回归，得到最为符合且准确的篡改检测图，并作为最终的掩码结果输出。

步骤S10中，将待测图像分别输入到可疑区域检测分支和篡改检测分支中进行处理，其解构示意图如图2所示。

步骤S20中，将待测的图像首先输入可疑区域检测分支中，经过Focus块对图像进行切片操作，在一张图像中每隔一个像素拿到一个值，类似于邻近下采样得到四张图片，同时没有信息丢失，将W、H信息集中到通道空间，得到没有信息丢失的二倍下采样特征图，请参阅图3，经过CSP结构处理，提取更为细粒度的特征，CSP结构中的残差结构可以增加层与层之间反向传播的梯度值，避免因为加深而带来的梯度消失，其结构图如图3所示。经过前面结构的特征提取之后，再经过Neck的FPN结构进一步提取图像中的信息，加强网络特征融合能力，在Neck结构中新加入了CBAM注意力模块，沿着通道和空间的两个独立维度依次推断注意力图，然后在将注意力图与输入特征图相乘得到自适应特征细化。最后经过的预测头主体是三个基于transformer的检测器，第一层是多头注意力层，第二层是全连接层，使用transformer预测头增加了捕获图像不同信息的能力，得到可疑预测框，并将其与Mask框进行交并比的优化计算，得到该分支的最终预测框。

步骤S30中，待测图像输入到基于MobileNetv3的篡改区域检测分支中，利用神经体系结构搜索方法进行粗略解构的搜索并选出一组最优配置，利用SENet自动获取每个特征通道的重要程度，在保持轻量级的基础上提取多尺度特征；加入的长短时记忆网络学习图像块之间的相关度，并依赖对数似然距离，学习篡改边界上的空间差异信息，在频域中捕捉篡改区域和真实区域之间边界上的差异特征，最后经过由卷积层组成的掩码输出模块得到该分支的最终篡改区域预测图。

步骤S40中，可疑区域检测分支得到的可疑预测框和篡改区域检测分支得到的篡改区域预测图在CIoU损失函数的优化计算下，不断回归，得到最为符合且准确的篡改检测图，并作为最终的掩码结果输出。不同分支及两个分支结果融合时所使用的损失函数不同，可疑区域检测分支所使用的损失函数是DIoU损失函数，对尺度不敏感，能够直接最小化两个目标框的距离，且回归特别快，计算公式如下：

其中B和B^gt分别表示检测框和ground truth框，c表示能同时覆盖预测框和groundtruth框的最小矩形的对角线距离。

篡改区域检测分支使用的损失函数是交叉熵损失函数，计算公式如下：

其中G_k代表的是真实值标签，P_k代表的预测输出的标签。

两个分支的结果融合过程中使用的损失函数为CIoU损失函数，能够在加速收敛的同时更好地描述重叠信息。其计算公式如下：

其中α是用于平衡比例的参数，v是用来描述预测框和ground truth的长宽比例一致性的参数。

整个模型总的损失函数为：

L＝L_DIoU+L_CIoU+L_CR。

本申请的实施例可提供为方法或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于多尺度可疑预测框的资质证书图像篡改检测方法，其特征在于，包括：

所述第一分支为可疑区域检测分支；

所述第二分支为篡改区域检测分支。

2.根据权利要求1所述的一种基于多尺度可疑预测框的资质证书图像篡改检测方法，其特征在于：所述可疑区域检测分支具体包括使用Focus模块隔像素取值，获得四个独立的特征层，并将其堆叠得到扩充四倍的输入通道，经过跨阶段部分网络模块进行特征提取，加入通过不同池化核大小的最大池化进行特征提取的空间金字塔网络结构；得到的特征图在YOLOv5模型的特征金字塔结构中引入了跨阶段部分网络结构，对多特征层进行特征提取，提取出三个特征层：中间层，中下层，底层；利用这三个特征层进行特征金字塔层的构建，特征金字塔可以将不同分辨率的特征层进行特征融合；设置新的transformer预测头来代替YOLOv5模型之前的预测头部分，transformer预测头可以捕获全局信息和丰富的上下文信息，得到可疑区域框。

3.根据权利要求2所述的一种基于多尺度可疑预测框的资质证书图像篡改检测方法，其特征在于：所述将待测图像输入到第一分支，对预测出的可疑框与Mask框进行优化得到预测框，具体包括：

4.根据权利要求1所述的一种基于多尺度可疑预测框的资质证书图像篡改检测方法，其特征在于：所述篡改区域检测分支具体包括：

待测图像输入基于Mobi leNetV3的模型中利用SENet注意力机制对网络进行特征重新校准，选择性强调信息性特征，并抑制无用的特征，并使用新的激活函数在提高检测精度的同时减少了时间损耗；使用长短期记忆网络帮助识别频域边缘特征，将校准通道权重后得到的特征与边缘特征融合，通过掩码预测模块输出该分支的篡改区域预测图。

5.根据权利要求4所述的一种基于多尺度可疑预测框的资质证书图像篡改检测方法，其特征在于：所述将待测图像输入到第二分支，检测出图像经过篡改的区域，并进行篡改区域预测图输出，具体包括：

待测图像输入到基于Mobi leNetv3的篡改区域检测分支中，利用神经体系结构搜索方法进行粗略解构的搜索并选出一组最优配置，利用SENet自动获取每个特征通道的重要程度，在保持轻量级的基础上提取多尺度特征；加入的长短时记忆网络学习图像块之间的相关度，学习篡改边界上的空间差异信息，在频域中捕捉篡改区域和真实区域之间边界上的差异特征，最后经过由卷积层组成的掩码输出模块得到最终篡改区域预测图。

6.根据权利要求1所述的一种基于多尺度可疑预测框的资质证书图像篡改检测方法，其特征在于：所述将得到的预测框和篡改区域预测图进行融合，得到最终的掩码输出，具体包括：

7.根据权利要求1所述的一种基于多尺度可疑预测框的资质证书图像篡改检测方法，其特征在于：所述可疑区域检测分支所使用的损失函数是DIoU损失函数，计算公式为：

其中，B和B^gt分别表示检测框和ground truth框，c表示能同时覆盖预测框和groundtruth框的最小矩形的对角线距离，ρ²表示计算两个中心点的欧氏距离；

其中，G_k代表的是真实值标签，P_k代表的预测输出的标签，k代表类别数量。

8.根据权利要求1所述的一种基于多尺度可疑预测框的资质证书图像篡改检测方法，其特征在于：所述可疑区域检测分支与所述篡改区域检测分支的结果融合过程中使用的损失函数为CIoU损失函数，计算公式如下：

其中，α是用于平衡比例的参数，v是用来描述预测框和ground truth的长宽比例一致性的参数，ρ²表示计算两个中心点的欧氏距离；

整个模型总的损失函数为：

L＝L_DIoU+L_CIoU+L_CR。

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。

10.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述的方法中的任一方法的指令。