CN113283418B

CN113283418B - 一种文本检测攻击方法

Info

Publication number: CN113283418B
Application number: CN202110403509.0A
Authority: CN
Inventors: 陈力军; 刘佳; 唐啸晨; 汪付星
Original assignee: Jiangsu Tuke Robot Co ltd; Nanjing University
Current assignee: Jiangsu Tuke Robot Co ltd; Nanjing University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2024-04-09
Anticipated expiration: 2041-04-15
Also published as: CN113283418A

Abstract

本发明涉及一种文本检测攻击方法，其中，基于场景文本检测的目标任务，形成含有文本区域的第一图像，所述方法包括：在第一图像上添加规则形状的涂鸦区域得到第二图像；对所述第二图像进行随机透视变换获得若干不同视角和距离下的第三图像，对第三图像添加随机噪声和背景形成第四图像组成训练集；将所述训练集输入到文本检测网络模型中；根据第四图像其上区域的不同将其划分为涂鸦区域、文本区域及背景区域，并在相应区域覆盖对应掩膜；对不同区域分别执行不同的损失函数计算以实现对文本检测模型的攻击。本发明的攻击方法能够减少涂鸦的可见性同时使训练集具有一定攻击性，为文本检测模型的进一步改进提高参考。

Description

一种文本检测攻击方法

技术领域

本发明涉及深度学习算法领域，具体涉及一种文本检测攻击方法。

背景技术

深度学习是在计算机视觉、自然语言处理等领域广泛使用的一种技术，属于机器学习范围内，具体是以神经网络为基本结构，从数据中提取特征的算法。

相对于OCR(Optical Character Recognition,光学字符识别)而言，场景文本检测所针对的对象是自然场景下的物体图片(包含文本区域)，识别难度较高。由于场景文本检测在自动驾驶，机器人导航等众多领域均有应用，且通常均是采用深度学习算法来实现上述文本检测的目的，因此，基于场景文本检测背景下进一步改进深度学习算法具有重要意义，而通过对深度学习模型进行攻击可以达到改进深度学习算法的目的，上述攻击需要将训练集输入到深度学习模型中。现有技术中，尚未存在基于场景文本检测任务下对文本检测模型(属于深度学习领域)进行攻击的方法。

发明内容

为了克服现有技术中存在的问题，本发明提供一种文本检测攻击方法，能够减少涂鸦的可见性同时使训练集具有一定攻击性，为文本检测模型的进一步改进提高参考。

基于上述目的，本发明的技术方案如下：

一种文本检测攻击方法，其中，基于场景文本检测的目标任务，形成含有文本区域的第一图像，所述方法包括：在第一图像上添加规则形状的涂鸦区域得到第二图像；对所述第二图像进行随机透视变换获得若干不同视角和距离下的第三图像，对第三图像添加随机噪声和背景形成第四图像组成训练集；将所述训练集输入到文本检测网络模型中；根据第四图像其上区域的不同将其划分为涂鸦区域、文本区域及背景区域，并在相应区域覆盖对应掩膜；对不同区域分别执行不同的损失函数计算以实现对文本检测模型的攻击。

其中，所述涂鸦区域包括第一涂鸦区域与第二涂鸦区域，其分别设置在第一图像中文本区域的上下两侧。

其中，所述文本检测网络模型为EAST。

其中，所述损失函数包括对所述涂鸦区域进行训练的第一损失函数；对所述文本区域进行训练的第二损失函数以及基于人类视觉系统对涂鸦强度进行评估的第三损失函数。

其中，所述第三损失函数包括：所述第四图像与所述第一图像之间的颜色差异函数；所述第四图像的边缘信息评估函数及其纹理信息评估函数。

其中，所述边缘信息评估函数为梯度函数；所述纹理信息评估函数为颜色空间方差函数。

本发明具有以下有益效果：

本发明方法通过在第一图像上添加规则形状的涂鸦区域再对其进行随机透视变换处理，并添加随机噪声和背景形成若干不同视角和距离下的第四图像，组成训练集；用此方法生成的训练集使得第四图像中的文本依旧可读；接着，将上述生成的训练集输入至文本检测模型中，通过对第四图像中的涂鸦区域执行第一损失函数，对文本区域执行第二损失函数，并使用第三损失函数评估涂鸦对第一图像的干扰强度，能够减少涂鸦的可见性同时使训练集具有一定攻击性，为文本检测模型的进一步改进提高参考。

下文将结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例，附图中相同的附图标记标示了相同或类似的部件或部分，本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为本发明方法的流程示意图；

图2为涂鸦区域的设置位置示意图；

图3为不同视角下的图像变换示意图；

图4为在涂鸦区域覆盖掩膜的示意图；

图5为在文本区域覆盖掩膜的示意图；

图6为将背景区域的损失置为0的示意图；

图7为使用本发明方法进行攻击的示意图，其中，图7(b)为对图7(a)进行攻击的结果示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

对本发明中所涉术语解释如下：

对抗样本是指，对于一张待检测的图片(包含文本区域)而言，使用文本检测模型已能够检测出该图片所包含的文本，此时对该图片添加某些不影响观察者对图片中文本区域的理解判断的扰动后，即可以达到误导该文本检测模型，使其输出错误判断结果的算法。因此，本发明中的第二图像、第三图像、第四图像均属于对抗样本。值得注意的是，对抗样本存在一个重要特性，即可迁移性。可迁移性是指，当某个对抗样本能够成功攻击某个文本检测模型时，则该对抗样本也有可能对其它完全不同的文本检测模型产生攻击效果。

涂鸦是指，施加到图片上的干扰，即通过文本检测模型的反向传播算法更新的区域。

常规目标检测是指，在计算机视觉的目标检测任务场景中，使用两条边均垂直于图片边界的水平矩形框来作为目标检测框，其中，该水平矩形框一般包括中心位置、矩形框高度、矩形框宽度三种信息。

旋转目标检测是指，相对于常规目标检测，自然场景下的规则文本可能是倾斜的，即多出一个角度信息，将这种目标检测物体含有角度的检测任务称为旋转目标检测。常见的旋转目标检测有遥感目标检测和自然场景文本检测等。

场景文本检测是指，检测自然场景图像中所包含的文本信息，为后续的文本检测识别与分析做好准备。

过拟合是指，一种影响文本检测模型精度的常见现象，是由于文本检测模型的表达能力过强，而在使用训练集进行训练的过程中错误地提取了和目标数据分布无关的噪声作为数据特征。其中，训练集不能包含现实场景中的所有输入是发生过拟合的主要原因，因此，利用训练集对文本检测模型进行训练会导致模型输出结果只能无限逼近于作为训练集使用的数据分布而与实际场景中存在的数据分布并不一致。当过拟合发生时，最明显的现象就是文本检测模型的训练集上输出的评估指标不断提高，但在测试集上的评估指标不变甚至慢慢下降。

如图1所示，为本发明方法的流程示意图，本发明方法包括以下步骤：基于场景文本检测的目标任务，形成含有文本区域的第一图像；在第一图像上添加规则形状的涂鸦区域得到第二图像；对所述第二图像进行随机透视变换获得若干不同视角和距离下的第三图像，对第三图像添加随机噪声和背景形成第四图像组成训练集；再将生成的训练集输入至文本检测模型中，得到文本区域检测结果，检测结果一般以检测框形式输出。

生成训练集：

在第一图像(包含文本区域)上添加规则形状的涂鸦区域获得第二图像，好处在于：针对场景文本检测背景下的现实物体制作对抗样本时，通常需要一组距离、视角、光照、背景等存在变化的图片，对于这样一组图片来说，仅对其施加更改图片中几个像素的微小涂鸦，无法误导文本检测模型输出正确结果；而采用修改整幅图像中位置像素的方法来制作对抗样本，会受到该物体表面平滑度及周围环境变化的影响，导致涂鸦几乎不太可能精确地添加到对应位置的像素上。因此，本发明方法是在第一图像(包含文本区域)上添加规则形状的涂鸦区域，能够增强涂鸦的干扰效果同时可将涂鸦精确的添加到第一图像对应位置的像素上。

出于第四图像对第一图像添加涂鸦后不影响观察者对其图片中所包含的文本区域的含义进行理解的制作要求，并结合第一图像中文本区域的特性(长宽比通常较大)，如图2所示，本发明将第一涂鸦区域11及第二涂鸦区域13分别设置在文本区域12的上下两侧，具体包括：

首先，计算包含有文本区域12所在位置四边形的最小旋转矩形，得到该最小旋转矩形的长边、短边，并分别设为a、b；其次，根据第一图像中文本区域12的具体尺寸确定第一涂鸦区域11、第二涂鸦区域13的基本参数(宽度、高度、间距)，示例性的，设定第一涂鸦区域11沿文本区域12所在最小旋转矩形长边的方向长度为w，即第一涂鸦区域11的宽度为w；设定第一涂鸦区域11的高度0.3h，距离最小旋转矩形上长边的距离为0.1h，即间距为0.1h。可以理解的，第二涂鸦区域13的基本参数与第一涂鸦区域11的相同。

其中，将第一涂鸦区域11及第二涂鸦区域13分别设置在文本区域12的上下两侧的好处在于：由于池化目标像素周围的相邻像素会受到池化的影响，所以当若干图像的池化层被堆叠起来后，当涂鸦设置在文本区域以外时也可以影响到较远处像素的得分图生成；且图像中文本区域的长宽比通常较大，因此，结合池化的上述特征，本发明仅在第一图像文本区域的上下两侧设置涂鸦区域，而无需在文本区域的左右两侧也设置涂鸦区域。其中，池化是一种形式的降采样，即将输入图像分为若干个矩形区域，计算每个子区域的特定特征输出。常见有取每个子区域最大值的“最大池化”，或者取子区域平均值的“平均池化”，属于现有技术。本发明用于压缩特征图尺寸，减小深度学习模型大小及计算量。

接着，在涂鸦区域添加完成得到第二图像后，要使得文本检测模型对第二图像中的文本区域不敏感，即抑制文本区域的对应位置生成检测框，上述目的是通过对第二图像施加随机透视变换来实现的。

具体的，是对非极大值抑制算法进行攻击(Non-Maximum Suppression,NMS)，其中，非极大值抑制是一种用于过滤文本检测模型检测结果中冗余检测框的算法，属于现有技术。对其原理简要介绍如下：由于大部分文本检测模型的核心都是利用滑动窗口在图片上移动，同时使用不同尺寸的边框在文本可能的位置上生成相应大小的检测框，因此，可以理解的上述检测结果中往往会包含有大量的、互相间高度重叠的检测框。为了从上述高度重叠的检测框中选出效果最好的检测框，在上述文本检测模型中就需要使用NMS算法来去除掉多余的检测框。

其中，NMS算法操作流程大致为：将所有检测框以得分大小顺序排列；取得分最大的检测框；去除掉所有与该检测框交并比(Intersection over union,IoU)大于设定的某个阈值的检测框，再取次大的检测框，重复上述操作；最后保留下来的检测框即为NMS算法去重后的检测框。

接着，对NMS算法进行攻击，具体的，为增强涂鸦区域的干扰强度，使用随机透视变换来模拟物理上观察者的视角及距离的变化，即对第二图像施加随机透视变换；其中，透视变换是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，在破坏原有的投影光线束的情形下，仍能保持承影面上投影几何图形不变的变换。其数学表达形式为：

其中，当z取1时，x和y为像素在原图像上的位置坐标；x_′和y_′是像素完成透视变换后的新位置坐标；a₁₁、a₁₂、a₂₁、a₂₂等于线性变换中的2×2矩阵，其中，a₃₁、a₃₂用于控制平移，a₁₃、a₂₃用于控制透视变换；a₃₃同z一样仅用于控制其它参数倍率，一般设为1。

接着，设定几个与观察者位置相关的参数，令垂直图片方向为z轴，沿着图片宽、高方向分别为x轴和y轴，再设定图片缩放及平移比例。具体的，考虑到实际观察情况，可以将x轴和y轴上的旋转角度区间范围设定相对大，而将z轴上的旋转角度区间范围设定相对小。通过每次从旋转角度区间、缩放平移比例中的随机取值，从而生成透视变换矩阵来对原图像进行变换，即可以模拟出图像在不同视角和距离下的观察情况，示例性的，如图3所示，即为不同视角下的图像变换情况。

采用随机透视变换算法的好处在于：当涂鸦区域被添加在第一图像上以后，可得到具有固定角度的第二图像，其中，固定角度是指观察者的正面视角；但由于观察者的视角和距离多变，若仅将第二图像输入文本检测模型，则无法得到从各个角度都能干扰文本检测模型输出结果的鲁棒对抗样本。因此，需要对第二图像施加随机透视变换，获得若干不同视角和距离下的第三图像。

可以理解的，由于观察者位置不同可能导致其他物理条件(光照、环境等)发生变化，以及图片还可能存在侧面信息不丰富等问题，因此，为消除上述已知信息的影响，可以通过对经上述随机透视变换得到的第三图像添加随机光照、椒盐噪声及随机背景，以此方式来进行相应补偿。

示例性的，在将涂鸦区域添加到第一图像上、对第二图像施加随机透视变换、对第三图像添加随机噪声和背景上述三个步骤后，即可得到一组第四图像，该组图像即为训练集，接下来将训练集输入到文本检测模型中以对其进行攻击。

攻击文本检测模型：

攻击要达到的目标主要包括两个部分，即在不影响观察者理解第四图像的文本含义、其上的涂鸦区域尽量不引起观察者注意的前提下达到：第一目标：对文本检测模型隐藏真实文本区域；第二目标：使文本检测模型误检测涂鸦区域为文本区域。

由于对抗样本的可迁移性，本发明中采用对EAST文本检测模型(EAST模型为论文EAST:An Efficient and Accurate Scene Text Detector所提出的模型，属于现有技术)进行攻击，对其原理简要介绍如下：

EAST是一种基于深度学习的文本检测网络模型。该网络结构中使用一个PVANet作为主干结构用于特征提取，同时提取不同尺寸上的特征图进行融合，用于检测图像中可能出现的不同尺度上的文本区域。其中，EAST的RBOX输出包含检测框位置、大小及角度信息。

其中，EAST输出的特征图主要包括得分图(score map)和旋转矩形(rotated box,RBOX)；其中，得分图上的每个像素代表输入图像在对应位置的像素属于文本区域的概率(也称预测得分图)；RBOX一共输出5个通道，分为边界框偏移通道(4个)和角度偏移通道(1个)，其中，4个边界框偏移通道分别代表该通道位置上的像素点到文本检测框的上边框、下边框、左边框、右边框的距离(4个边界框偏移通道总称为边界框偏移图)；角度偏移通道(也称角度输出图)用来表示各像素点上文本检测框的旋转角度。值得注意的是，上述检测框的位置是相对于文本区域的上下左右方位而言的。此外，由于文本区域区别于常规物体，若不能保证文本检测框的方位，将可能把检测出的代表错误方位的检测框输入到后续的文本检测模型中，给后续的文本检测任务造成不必要的困难。

接着，结合EAST模型特征图输出的上述特点，设计关于攻击EAST文本检测模型的损失函数，具体的，根据第四图像上的区域(涂鸦区域、文本区域、背景区域)制作对应的掩膜，以此来保证在不同区域上执行不同的损失函数计算。结合前述第一目标及第二目标的要求，且对抗样本的生成与背景区域无关，因此，本发明中将背景区域的损失直接置为0，其中，图4为在涂鸦区域覆盖掩膜的示意图；图5为在文本区域覆盖掩膜的示意图；图6为将背景区域的损失置为0的示意图。

此外，涂鸦区域是三种区域中仅有的可以添加干扰的区域，因此，需要在涂鸦区域添加相应干扰，从而诱导文本检测模型在涂鸦区域上检测出文本即出现检测框。为了训练文本检测模型在涂鸦区域显示出检测框，需要设计第一损失函数令涂鸦区域在score map上的得分最大化，并且由于通常情况下文本检测模型在输出的最后会过滤掉所有尺寸小于某一阈值的检测框，因此，本发明方法还需要使涂鸦区域在RBOX即检测框尺寸通道上的距离最大化，即最大化涂鸦区域上可能出现的检测框尺寸。

其中，最大化涂鸦区域的检测框尺寸也有利于提高与文本区域的检测框之间的交并比IoU，因此，通过NMS算法来抑制文本区域检测框生成。而对于RBOX通道中的角度信息，因为实验表明是否设计相关函数对结果影响不大，因此，本发明中不使用涂鸦区域输出的角度信息。

为对文本检测模型实现文本区域隐藏的目的，需要在文本区域上最小化经前述训练所输出的score map得分和RBOX通道上文本检测框的尺寸。这样即可减少检测框在文本区域生成，同时尽量减小检测框的尺寸使文本检测模型过滤掉这部分检测框。

结合上述分析，本发明设计的损失函数包括第一损失函数(对应于涂鸦区域)和第二损失函数(对应于文本区域)，具体如下：

loss_model＝loss_patch+loss_text (2)

其中：

对涂鸦区域执行上述第一损失函数即公式(3)，对文本区域执行上述第二损失函数即公式(4)，上述公式中，loss_patch和loss_text分别表示预测输出在涂鸦区域和文本区域的第一损失函数、第二损失函数；patch_true表示涂鸦区域掩膜；patch_score和patch_geo表示预测得分图和边界框偏移图在涂鸦区域的输出。text_true、text_score、text_geo、text_angle分别是文本区域掩膜、预测得分图、边界框偏移图和角度输出图。

本发明所设计的损失函数能够实现对文本区域的隐藏攻击以及对涂鸦区域的显示攻击，既可成功破坏文本检测模型在文本区域生成检测框，同时在涂鸦区域生成错误的检测框，从而使后续的文本识别模型识别出大量无意义的错误文本。此外，本发明还需使用基于人类视觉系统对涂鸦强度进行评估的第三损失函数来评估添加在涂鸦区域上的干扰强度，并将该第三损失函数加入到上述损失函数中。

基于人类视觉系统对涂鸦强度进行评估的第三损失函数设计如下：

为尽可能消除文本检测模型在使用训练集进行训练的过程中出现的过拟合现象同时结合本发明所要制造的对抗样本需要尽可能满足对第一图像进行最小涂鸦(尽量使观察者察觉不到)但涂鸦后的第四图像又能够被观察者正常理解(即图片传达的内容不受影响)。

结合场景文本检测的要求，以观察者的角度同时满足上述两个条件，就要基于人类视觉系统的固有特性(指人类由于人眼的生理构造及观察者的心理因素影响在观察图像时表现出的一些特质)来设计评估涂鸦强度的第三损失函数，结合相关研究及普通人的生活经验可知，人类视觉系统具有以下特点：

HSV特性：HSV(Hue,Saturation,Value)，H、S、V分别代表色调、饱和度、明度。颜色空间在图像处理中经常被使用，相比于更常见的RGB颜色空间，HSV颜色空间的表达更接近于人类视觉对颜色的感知。在HSV颜色空间下，色彩的表达主要由色调、饱和度和亮度三个维度来衡量。色调指色彩所在的光谱颜色；饱和度指色彩在色调方向上的强弱；亮度指色彩在颜色空间中的明暗强度。在HSV颜色空间上，三个维度上相同的干扰对于人眼的刺激程度并不相同，一般在人眼感知的敏感程度上，色调大于饱和度大于亮度。

形状关注：人类的视觉观察行为同时受到生理因素和心理因素的影响，对心理因素的研究表明，人们对于图片各个区域的感兴趣程度并不相同，以几何形状为例，人们对于边缘部分往往更加注意；在观察各个位置的边缘部分组成物体轮廓后，各区域上的纹理细节越多，则越会吸引到人眼视觉的关注。最后，图片区域上的相对亮度变化也会引起人类视觉系统敏感度变化。区别于绝对亮度，研究表明人眼对于亮度的感知主要依赖于目标与背景之间的亮度差，即这里表述的相对亮度。以上几个因素都会影响到图片上各个区域对于人类视觉系统的刺激程度。

空间关注：受生理结构影响，人眼仅在其中央部分具有很高的分辨率，因此人们在观察一张图片时，仅能分辨其中的一小部分，并且在察看图片时，首先会先注意到其中的中心部分，因为人们下意识里总会觉得中央的部分最为重要，即人们在观察图片时注意力具有一种中央偏向性。

对上述人类视觉特性进行数学描述具体为：

人眼在观察颜色时，首先注意到颜色的色调，其次会注意到颜色的饱和度。根据这些特征，使用现有技术中对颜色的表示方式，并通过该表示方式衡量两种颜色间的差异。

令颜色表达值为：

Color_value＝9H+3S+V

则有：

由上述公式，可以得到在HSV颜色空间上构造的涂鸦干扰颜色差异为：

其中，C₁和C₂分别代表两种进行对比的颜色，在本发明中即指第一图像中原像素颜色和添加涂鸦后第四图像的像素颜色；Img(i，j)指图像在坐标(i，j)处的颜色。

Diff(Img₁，Img₂)是用来表达颜色差异的函数，函数值越大代表两张图像的颜色差异越大；否则，则说明差异越小。根据公式，即可推算出该图像在添加涂鸦前后的颜色差异。

接着，由于人眼系统对于边缘和纹理的敏感度也高于平滑的过渡区域，因此本发明方法除了表达上述颜色差异以外，还需要加入对边缘和纹理强度的评估。本发明中使用梯度(现有技术)来描述边缘信息，即：

此外，纹理特征是属于图像全局性的特征，是指图像中可能出现的周期性的、或者以某些规律变化的特征表现属性。纹理特征具有以下基本特性：1.一种或多种局部序列周期性重复2.非随机排列3.区域内可感知为一个统一的整体。本发明采用颜色空间方差函数(属于现有技术)来简单描述纹理特征：其中，方差是描述一组数据离散程度的一种度量方式。在本发明所限定的场景文本检测中，方差越大，代表区域内纹理信息越丰富，即越容易引起观察者的观察兴趣；反之，则越易为观察者所忽视。将纹理信息表达为：

此外，涂鸦区域所在的空间位置也是影响人眼视觉敏感度的重要因素，但经过实验尝试，当涂鸦区域与文本区域的距离过远时，添加在涂鸦区域的干扰将很难再抑制文本区域的检测框生成。因此本发明中暂不引入相关评估。

综上所述，本发明采用基于人类视觉系统的而设计的第三损失函数来评估涂鸦的干扰强度，包括HSV空间强度评估、边缘特征强度评估和纹理特征强度评估，将上述三个评估函数(公式(5)、(6)、(7))融合后加入到前述损失函数(公式(2))中即可开始进行对文本检测模型的攻击训练。

融合后的损失函数loss_img为：

loss_img＝loss_model+loss_regular

＝loss_patch+loss_text+loss_regular

＝loss_patch+loss_text+Diff(img)+Grad(img)

+Fabric(img)

(8)

公式(8)中各参数含义可参见上文，此处不再赘述。

如图7(b)所示，为使用本发明所设计的损失函数(公式(8))对图7(a)进行攻击的示意图，可见本发明方法能够明显降低涂鸦区域的可见性同时也保证了涂鸦对图片的攻击效果。

示例性的，为验证本发明所设计的损失函数(公式(8))的效果，选取了包含有印刷文本、指示牌文本和浮雕文本三类文本的一个小型数据集作为实验对象。对承载上述文本的图像添加涂鸦区域、使用随机透视变换来制作多角度和距离下的模拟图像训练集；将上述训练集输入到EAST文本检测模型中进行攻击得到输出结果；此外，根据对抗样本的可迁移性，将上述训练集输入商用文本检测模型系统中测试对抗样本的攻击效果，其中，本次实验选用的商用文本检测模型系统为腾讯云文本检测OCR。

为了对上述攻击结果进行更详细的分析，本发明分开计算隐藏攻击和误显示攻击的成功率。具体的，隐藏攻击的计算如下：

将隐藏攻击的结果根据文本检测模型在文本区域检出的文本框分为以下三种：

1、未检出：未出现检测框或者检测框过小而没有覆盖任何一个完整字符；2、检出字符：出现的检测框能够覆盖一个或多个字符，但未能覆盖所有字符；3、全检出：出现的检测框完整覆盖所有文本区域。

在以上三种攻击类型中，结果属于第1种的“未检出型”或者属于第2种的“检出字符型”即判定本次隐藏攻击成功；若出现第3种的“全检出型”则判定本次隐藏攻击失败。

根据上述判定条件，将依据本发明方法生成的训练集输入到待攻击的文本检测模型EAST中，并进行分析处理后，有以下攻击结果：

	总数	全检出	检出字符	未检出	攻击成功
						数目	120	15	39	66	39+66
比率	100％	12.5％	32.5％	55％	87.5％

此外，将前述训练集输入商业文本检测模型系统(腾讯云文本检测OCR)中，可以达到隐藏攻击的效果，成功率为55.8％；此外，误显示攻击是指，只要文本检测模型在非文本区域检出文本即判定本次误显示攻击成功，经过实验者大量实验表明，利用本发明方法生成的训练集输入商业文本检测模型系统(腾讯云文本检测OCR)中误显示攻击的成功率为75.8％。

基于对抗样本的可迁移性，前述训练集对其他商用OCR系统也能起到一定的攻击效果。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种文本检测攻击方法，其特征在于，基于场景文本检测的目标任务，形成含有文本区域的第一图像，所述方法包括：在第一图像上添加规则形状的涂鸦区域得到第二图像；对所述第二图像进行随机透视变换获得若干不同视角和距离下的第三图像，对第三图像添加随机噪声和背景形成第四图像组成训练集；将所述训练集输入到文本检测网络模型中；根据第四图像其上区域的不同将其划分为涂鸦区域、文本区域及背景区域，并在相应区域覆盖对应掩膜；对不同区域分别执行不同的损失函数计算以实现对文本检测模型的攻击；所述损失函数包括对所述涂鸦区域进行训练的第一损失函数；对所述文本区域进行训练的第二损失函数以及基于人类视觉系统对涂鸦强度进行评估的第三损失函数；loss_model＝loss_patch+loss_text(1)

其中：对涂鸦区域执行上述第一损失函数即公式(2)，对文本区域执行上述第二损失函数即公式(3)，上述公式中，loss_patch和loss_text分别表示预测输出在涂鸦区域和文本区域的第一损失函数、第二损失函数；patch_true表示涂鸦区域掩膜；patch_score和patch_geo表示预测得分图和边界框偏移图在涂鸦区域的输出；text_true、text_score、text_geo、text_angle分别是文本区域掩膜、预测得分图、边界框偏移图和角度输出图；所述第三损失函数包括：所述第四图像与所述第一图像之间的颜色差异函数；所述第四图像的边缘信息评估函数及其纹理信息评估函数。

2.根据权利要求1所述的方法，其特征在于，所述涂鸦区域包括第一涂鸦区域与第二涂鸦区域，其分别设置在第一图像中文本区域的上下两侧。

3.根据权利要求2所述的方法，其特征在于，所述文本检测网络模型为EAST。

4.根据权利要求1所述的方法，其特征在于，所述边缘信息评估函数为梯度函数；所述纹理信息评估函数为颜色空间方差函数。