CN117173713A

CN117173713A - 一种基于u型网络的文本篡改检测方法、装置以及设备

Info

Publication number: CN117173713A
Application number: CN202310873345.7A
Authority: CN
Inventors: 晏榕; 张志远; 洪镇宇
Original assignee: Xiamen International Bank Co ltd
Current assignee: Xiamen International Bank Co ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-12-05
Anticipated expiration: 2043-07-17
Also published as: CN117173713B

Abstract

本发明公开了一种基于U型网络的文本篡改检测方法、装置、设备及存储介质，其包括：获取待检测文本图像，并对所述待检测文本图像进行尺寸调整；通过预训练完成的检测模型对调整后的所述待检测文本图像进行检测，得到预测掩码图，其中，所述检测模型通过所构建的U型网络以及基于预设的损失函数进行训练得到；根据所述预测掩码图确定所述待检测文本图像的文本篡改区域。能够对输入的待检测文本图像进行更小区域的篡改特征的识别，提升对篡改区域识别的准确率。

Description

一种基于U型网络的文本篡改检测方法、装置以及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于U型网络的文本篡改检测方法、装置以及设备。

背景技术

随着图像处理技术的低门槛发展，对票据凭证等文本类数字图像通过肉眼无法察觉到的篡改编辑已经变得非常简单，通过实际调研可知，银行行业内普遍存在文本类图像篡改，如贷后走访后客户经理上传的票据凭证被篡改。由于文本包含重要信息，文本中的语句或数字的变化都将扭曲整个语义信息。因此，防止文本类图像被篡改尤为重要。

由于篡改手段的多样性、篡改文本的隐蔽性，文本篡改检测目前存在众多难点，近年来，图像取证受到了学术界与工业界的广泛关注，但大多数研究都集中于自然场景类图像，如被篡改的是汽车或人物等，而由于文本类图像篡改区域可以很小、篡改区域隐蔽性更强等特点，对文本类图像篡改检测更具有难度。目前对文本类图像的篡改检测存在局限性，主要体现在采用卷积神经网络的模型只能提取到感受野内部像素之间的关系，缺少全局特征信息，导致篡改识别不准确。

发明内容

有鉴于此，本发明的目的在于提出一种基于U型网络的文本篡改检测方法、装置以及设备，旨在解决现有的关于篡改文本图像的识别精度低等问题。

为实现上述目的，本发明提供一种基于U型网络的文本篡改检测方法，所述方法包括：

获取待检测文本图像，并对所述待检测文本图像进行尺寸调整；

通过预训练完成的检测模型对调整后的所述待检测文本图像进行检测，得到预测掩码图，其中，所述检测模型通过所构建的U型网络以及基于预设的损失函数进行训练得到；

根据所述预测掩码图确定所述待检测文本图像的文本篡改区域。

优选的，所述U型网络的网络结构包括编码模块，所述编码模块包括全局特征提取模块以及局部特征提取模块；其中，

通过所述全局特征提取模块对所述待检测文本图像进行全局特征编码，得到第一分支特征图；

通过所述局部特征提取模块对所述待检测文本图像进行局部特征编码，得到第二分支特征图。

优选的，所述全局特征提取模块的网络结构包括Dualtransformer层以及PatchMerging层；所述通过所述全局特征提取模块对所述待检测文本图像进行全局特征编码，包括：

对所述待检测文本图像进行重叠分片编码，将得到的特征图输入至所述全局特征提取模块中的Dualtransformer层以及PatchMerging层进行特征提取和下采样操作。

优选的，所述U型网络的网络结构还包括过渡连接模块；通过所述过渡连接模块将所述第一分支特征图以及所述第二分支特征图进行特征拼接，得到融合特征图。

优选的，所述U型网络的网络结构还包括解码模块；通过所述解码模块对所述融合特征图进行特征解码，得到分类预测结果。

优选的，所述解码模块的网络结构包括Dual transformer层以及PatchExpanding层；所述通过所述解码模块对所述融合特征图进行特征解码，包括：

通过所述解码模块中的Dualtransformer层对所述融合特征图进行特征优化后，将得到的特征图输入至所述解码模块中的PatchExpanding层进行上采样操作。

优选的，所述损失函数为Loss＝0.6L_dice+0.4L_ce；其中，

L_ce＝-∑_i∈I||m_ilog(p_i)+(1-m_i)log(1-p_i)||₁，式中p_i表示样本i预测为正类的概率，m_i表示样本i的真值；

式中y_i和/>分别表示像素i的标签值和预测值，N表示像素点总个数。

为实现上述目的，本发明还提供一种基于U型网络的文本篡改检测装置，所述装置包括：

获取单元，用于获取待检测文本图像，并对所述待检测文本图像进行尺寸调整；

检测单元，用于通过预训练完成的检测模型对调整后的所述待检测文本图像进行检测，得到预测掩码图，其中，所述检测模型通过所构建的U型网络以及基于预设的损失函数进行训练得到；

确定单元，用于根据所述预测掩码图确定所述待检测文本图像的文本篡改区域。

为了实现上述目的，本发明还提出一种设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如上述实施例所述的一种基于U型网络的文本篡改检测方法的步骤。

为了实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如上述实施例所述的一种基于U型网络的文本篡改检测方法的步骤。

有益效果：

以上方案，通过包括U型网络所构建的检测模型是基于图像像素级的分类，能够对输入的待检测文本图像进行更小区域的篡改特征的识别，大大提高识别的效率和精度。

以上方案，通过全局特征提取模块以及局部特征提取模块能够同时捕获画面全局与局部信息，具有较强的处理文本图像前后文序列数据的能力，提升对篡改区域识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于U型网络的文本篡改检测方法的流程示意图。

图2为本发明一实施例提供的文本图像篡改检测的流程示意图。

图3为本发明一实施例提供的文本图像检测前后的示意图。

图4为本发明一实施例提供的检测模型的总体网络结构示意图。

图5为本发明一实施例提供的重叠分片编码的网络结构示意图。

图6为本发明一实施例提供的Dual transformer层的网络结构示意图。

图7为本发明一实施例提供的Patch Merging层的网络结构示意图。

图8为本发明一实施例提供的一种基于U型网络的文本篡改检测装置的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

以下结合实施例详细阐述本发明的内容。

目前的文本图像篡改检测主要包括采用卷积神经网络的模型应用于文本类图像篡改图像，只能提取到感受野内部像素之间的关系，缺少全局特征信息；而使用transformer的网络提取的局部信息能力不够强，对细节特征提取不够。基于此，本发明提出一种基于U型网络的文本篡改检测方法，能够对输入的待检测文本图像进行更小区域的篡改特征的识别，能够同时捕获画面全局与局部信息，提升对篡改区域识别的准确率。从而能够辅助审核人员对客户经理在贷后走访后上传的票据凭证等文本图像起到核查监督的作用。

参照图1所示为本发明一实施例提供的一种基于U型网络的文本篡改检测方法的流程示意图。

本实施例中，该方法包括：

S11，获取待检测文本图像，并对所述待检测文本图像进行尺寸调整。

S12，通过预训练完成的检测模型对调整后的所述待检测文本图像进行检测，得到预测掩码图，其中，所述检测模型通过所构建的U型网络以及基于预设的损失函数进行训练得到。

S13，根据所述预测掩码图确定所述待检测文本图像的文本篡改区域。

在本实施例中，如图2所示，首先加载文本类图像篡改检测模型的网络结构，加载训练好的参数，将参数加载至检测模型中，接着加载待检测文本图像，并对该图像进行尺寸调整至合适大小，经网络结构中的编码模块获得待检测文本图像的特征图，其中，包括将尺寸调整后的待检测文本图像输入卷积神经网络分支进行局部特征编码以及transformer分支进行全局特征编码(在输入该分支之前，先对待检测文本图像进行重叠分片编码)，得到第一分支特征图和第二分支特征图，再经网络结构中的解码模块将特征图进一步优化，此外，解码模块通过跳跃连接编码器增强细节保留，以实现编码器与解码器在不同分辨率上的特征聚合，进而通过上采样将篡改区域展示在图像上，得到预测结果图，如图3所示(图3中左边为待处理文本图像、中间为GroundTruth(指真实篡改区域图像，用来对模型预测结果图进行校准，衡量模型预测结果图的准确性)、右边为预测结果图，在预测结果图中白色高亮区域为输出的预测篡改区域)。

其中，所述U型网络的网络结构包括编码模块，所述编码模块包括全局特征提取模块以及局部特征提取模块，其中，

进一步的，所述全局特征提取模块的网络结构包括Dual transformer层以及Patch Merging层；所述通过所述全局特征提取模块对所述待检测文本图像进行全局特征编码，包括：

对所述待检测文本图像进行重叠分片编码，将得到的特征图输入至所述全局特征提取模块中的Dual transformer层以及PatchMerging层进行特征提取和下采样操作。

进一步的，所述U型网络的网络结构还包括过渡连接模块；通过所述过渡连接模块将所述第一分支特征图以及所述第二分支特征图进行特征拼接，得到融合特征图。

进一步的，所述U型网络的网络结构还包括解码模块；通过所述解码模块对所述融合特征图进行特征解码，得到分类预测结果。

其中，所述解码模块的网络结构包括Dual transformer层以及Patch Expanding层；所述通过所述解码模块对所述融合特征图进行特征解码，包括：

通过所述解码模块中的Dual transformer层对所述融合特征图进行特征优化后，将得到的特征图输入至所述解码模块中的Patch Expanding层进行上采样操作。

如图4所示。在本实施例中，U型网络的网络结构包括编码模块、解码模块和过渡连接模块，该编码模块包括全局特征提取模块、局部特征提取模块。其中，全局特征提取模块为transformer分支，通过将待检测文本图像进行重叠分片编码，再输入两组Dualtransformer层+Patch Merging层模块进行特征提取和下采样，缩小分辨率，再接入一个Dual transformer层，进行进一步特征提取。而局部特征提取模块为卷积神经网络分支，其网络结构为resnet残差网络。过渡连接模块将全局特征提取模块和局部特征提取模块输出的transformer分支特征图和卷积神经网络分支特征图进行拼接，经过一层卷积核大小3×3的卷积层调整输出特征图尺寸，得到分辨率不变，通道数减半的融合特征图，将融合特征图输入到解码模块。解码模块包括三组Dual transformer层+Patch Expanding层，其中Dual transformer层将过渡连接模块输入的融合特征图进行进一步特征优化，PatchExpanding层进行上采样操作，最终上采样至原始图像尺寸。此外，解码模块通过跳跃连接编码器增强细节保留，跳跃连接实现编码器与解码器在不同分辨率上的特征聚合。基于该U型网络的网络结构训练得到的检测模型进行文本篡改检测具有较高的准确率，其在特征提取上具有更好的表征能力，允许模型从序列中任意位置获取信息，有利于处理文本类图像这种具备序列特性的图像，且网络结构中使用的跳跃连接有助于实现边缘特征的找回。此外，该模型利用transformer结构大大减少了计算资源，提升了模型运行速度。

在待检测文本图像输入Dual transformer层之前先将文本图像做重叠分片编码，如图5所示，将文本类图像尺寸设置为224*224，经64个7×7的卷积核卷积后将每个张量展平，得到3136×64的输出特征图。

如图6所示，结合了空间注意力和通道注意力的Dual transformer层可以增强捕获篡改特征的能力。其过程通过如下公式表示：

DUALTransformer(T_block)＝MLP₂(T_block)+T_block

其中，

MLP₂(T_block)＝MLP(LN(T_block))

T_block(E_block，Q₂，K₂，V₂)＝T(MLP₁(E_block)+E_block)+MLP₁(E_block)

公式中，T_block中T为通道注意力块，Q₂，K₂，V₂表示通道注意力块输入特征E_block的queries、keys、和values，MLP为视觉transformer中常见的MLP结构，该结构为全连接层+GELU+全连接层，而MLP₁、MLP和E_block为：

MLP₁(E_block)＝MLP(LN(E_block))

MLP(X)＝FC(GELU(DW-Conv(FC(X))))

E_block(X，Q₁，K₁，V₁)＝E(Q₁，K₁，V₁)+V₁

公式中E为空间注意力块，Q₁，K₁，V₁表示输入特征图的X的queries、keys、和values，FC为全连接层，DW表示深度可分离卷积，Conv表示普通卷积。

如图7所示，采用Patch Merging层进行下采样，以重叠分片编码后第一个PatchMerging层为例，输入特征图(尺寸：)在行和列方向上，按位置间隔2抽取元素，拼成新的patch，再把所有patch按特征图通道方向进行联接，形成一整个张量(尺寸：)，经过Layer Norm归一化后，再通过一个全连接层线性变换按通道降维，此时输入的特征图尺寸由原来的/>变为/>

而Patch Expanding层为Patch Merging层的逆操作。以过渡连接模块后第一个Patch Expanding层为例，将输入特征图(尺寸：)的特征维度经线性层增加到原来尺寸的两倍(尺寸：/>)，然后将输出张量重新排列使得分辨率扩展两倍，特征维度降低(尺寸：/>)。

进一步的，所述检测模型的训练过程，包括：

构造训练样本，训练样本包括正常文本类图像及其标签、以及被篡改的文本类图像，比如包括票据凭证发票等及其标签；

构造损失函数，将训练样本输入基于U型网络所构建的模型进行训练、并通过预设的损失函数进行优化，得到训练完成的检测模型。进而将待检测文本图像调整尺寸后输入训练得到的检测模型，得到样本像素级别的分类，输出预测掩码图，该预测掩码图中白色高亮区域为检测模型给出的预测篡改区域。其中，损失函数为：Loss＝0.6L_dice+0.4L_ce；即损失函数由交叉熵损失L_ce和损伤函数L_dice构成，在本实施例中，通过以上两种损失函数的结合不仅能提高像素级分类准确率，还可以评估预测结果图像与真实篡改区域图像之间的相似度。交叉熵损失函数为：

式中，p_i表示样本i预测为正类的概率，即每个像素点分类为篡改区域的概率；m_i表示样本i的真值，即该像素点属于篡改区域的标签，属于篡改区域则为1否则为0；I表示所有像素点。

而损伤函数为：

式中y_i和分别表示像素i的标签值和预测值，N表示像素点总个数。

参照图8所示为本发明一实施例提供的一种基于U型网络的文本篡改检测装置的结构示意图。

在本实施例中，该装置80包括：

获取单元81，用于获取待检测文本图像，并对所述待检测文本图像进行尺寸调整；

检测单元82，用于通过预训练完成的检测模型对调整后的所述待检测文本图像进行检测，得到预测掩码图，其中，所述检测模型通过所构建的U型网络以及基于预设的损失函数进行训练得到；

确定单元83，用于根据所述预测掩码图确定所述待检测文本图像的文本篡改区域。

该装置80的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明实施例还提供一种设备，该设备包括如上所述的基于U型网络的文本篡改检测装置，其中，基于U型网络的文本篡改检测装置可以采用图8实施例的结构，其对应地，可以执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，详细可以参见上述实施例中的相关记载，此处不再赘述。

所述设备包括：手机、数码相机或平板电脑等具有拍照功能的设备，或者具有图像处理功能的设备，或者具有图像显示功能的设备。所述设备可包括存储器、处理器、输入单元、显示单元、电源等部件。

其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括摄像头，还可包括触敏表面(例如触摸显示屏)以及其他输入设备。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现图1所示的基于U型网络的文本篡改检测方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于U型网络的文本篡改检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于U型网络的文本篡改检测方法，其特征在于，所述U型网络的网络结构包括编码模块，所述编码模块包括全局特征提取模块以及局部特征提取模块；其中，

3.根据权利要求2所述的一种基于U型网络的文本篡改检测方法，其特征在于，所述全局特征提取模块的网络结构包括Dualtransformer层以及PatchMerging层；所述通过所述全局特征提取模块对所述待检测文本图像进行全局特征编码，包括：

4.根据权利要求2所述的一种基于U型网络的文本篡改检测方法，其特征在于，所述U型网络的网络结构还包括过渡连接模块；通过所述过渡连接模块将所述第一分支特征图以及所述第二分支特征图进行特征拼接，得到融合特征图。

5.根据权利要求4所述的一种基于U型网络的文本篡改检测方法，其特征在于，所述U型网络的网络结构还包括解码模块；通过所述解码模块对所述融合特征图进行特征解码，得到分类预测结果。

6.根据权利要求5所述的一种基于U型网络的文本篡改检测方法，其特征在于，所述解码模块的网络结构包括Dualtransformer层以及Patch Expanding层；所述通过所述解码模块对所述融合特征图进行特征解码，包括：

7.根据权利要求1所述的一种基于U型网络的文本篡改检测方法，其特征在于，所述损失函数为Loss＝0.6L_dice+0.4L_ce；其中，

L_ce＝-∑_i∈I||m_ilogp_i+(1-m_i)log1-p_i||₁，式中p_i表示样本i预测为正类的概率，m_i表示样本i的真值；

8.一种基于U型网络的文本篡改检测装置，其特征在于，所述装置包括：

9.一种设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1至7任意一项所述的一种基于U型网络的文本篡改检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至7任意一项所述的一种基于U型网络的文本篡改检测方法的步骤。