CN112232305A

CN112232305A - 图像检测方法、装置、电子设备及介质

Info

Publication number: CN112232305A
Application number: CN202011301110.3A
Authority: CN
Inventors: 许庆堂; 陆堃彪; 张青清; 陈磊
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-01-15
Anticipated expiration: 2040-11-19
Also published as: CN112232305B

Abstract

本发明公开了一种图像检测方法、装置、电子设备及介质。该方法包括：分别提取目标图像中的字体特征以及图像特征，得到字体特征向量矩阵以及图像特征向量矩阵；将字体特征向量矩阵以及图像特征向量矩阵进行拼接，得到第一向量矩阵；将第一向量矩阵中的第一特征向量输入预先训练的循环神经网络，得到第二向量矩阵；第二向量矩阵包括第一特征向量以及第一特征向量之间的空间序列信息；根据第二向量矩阵，确定目标图像中是否存在篡改区域。根据本发明实施例，能够解决图像篡改检测时准确度和完整性较低的问题。

Description

图像检测方法、装置、电子设备及介质

技术领域

本发明属于图像检测技术领域，尤其涉及一种图像检测方法、装置、电子设备及介质。

背景技术

在日常生活的许多场景中，用户需要向电子设备上传包含文本的图像，例如商户注册时需要上传身份证、营业执照等证照图像，这种证照图像即包含用于提醒用户信息的文本内容。但是，随着图像编辑软件的普及，用户很容易就能够对图像中的文本进行篡改，进而使用篡改图像进行登录注册等操作，这种操作属于违规甚至违法行为。因此，需要对图像中的文本是否被篡改进行检测。

现有的图像篡改检测方法中，通常仅基于图像色彩、纹理、光线等底层特征是否存在特征差异，来识别图像中是否存在篡改区域，但是这种方式，对于文本进行检测时的准确度较低。

并且，由于文本的字符之间存在顺序性和关联性，但是现有的图像篡改检测方法仅是对图像中的具有封闭边界的物体进行独立识别，即通常会将每个字符独立进行检测，导致文本检测时的完整性也较低。

因此，如何提供一种检测准确度和完整性较好的图像检测方法是本发明所要解决的问题。

发明内容

本发明实施例提供了一种图像检测方法、装置、电子设备及介质，能够解决图像篡改检测时准确度和完整性较低的问题。

第一方面，本发明实施例提供一种图像检测方法，包括：

分别提取目标图像中的字体特征以及图像特征，得到字体特征向量矩阵以及图像特征向量矩阵；

将所述字体特征向量矩阵以及图像特征向量矩阵进行拼接，得到第一向量矩阵；

将所述第一向量矩阵中的第一特征向量输入预先训练的循环神经网络，得到第二向量矩阵；所述第二向量矩阵包括所述第一特征向量以及所述第一特征向量之间的空间序列信息；

根据所述第二向量矩阵，确定所述目标图像中是否存在篡改区域。

第二方面，本发明实施例提供了一种图像检测装置，包括：

特征提取模块，用于分别提取目标图像中的字体特征以及图像特征，得到字体特征向量矩阵以及图像特征向量矩阵；

拼接模块，用于将所述字体特征向量矩阵以及图像特征向量矩阵进行拼接，得到第一向量矩阵；

空间提取模块，用于将所述第一向量矩阵中的第一特征向量输入预先训练的循环神经网络，得到第二向量矩阵；所述第二向量矩阵包括所述第一特征向量以及所述第一特征向量之间的空间序列信息；

篡改确定模块，用于根据所述第二向量矩阵，确定所述目标图像中是否存在篡改区域。

第三方面，本发明实施例提供一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面所述的图像检测方法。

第四方面，本发明实施例提供一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面所述的图像检测方法。

本发明实施例中，会对目标图像中的字体特征以及图像特征进行提取，从而得到字体特征向量矩阵以及图像特征向量矩阵，后续将字体特征向量矩阵以及图像特征向量矩阵拼接得到第一向量矩阵，并将第一向量矩阵中的各行第一特征向量依次输入循环神经网络，循环神经网络能够根据第一特征向量的输入顺序进行序列记忆，并提取出各个第一特征向量之间的空间序列信息，后续根据包含空间序列信息的第二向量矩阵来定位目标图像中的篡改区域。本发明实施例中，综合利用字体特征和图像特征进行篡改区域的识别，因此能够较为准确的检测出目标图像中的文本是否被篡改，文本检测的准确度更高。并且，本发明实施例综合考虑了各个文本之间的空间序列信息，因此能够对具有关联顺序的文本进行整体识别和检测，图像检测的完整性更好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的图像检测方法的流程示意图；

图2是本发明一个实施例提供的一个特征点处配置的候选框的示意图；

图3是本发明一个实施例提供的目标区域选择框的示意图；

图4是本发明一个实施例提供的图像检测装置的结构示意图

图5是本发明实施例提供的一种电子设备的硬件结构示意图

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

如背景技术，目前的图像篡改检测方法中，一方面仅考虑图像色彩、纹理、光线等特征，这种情况下，在检测图像中的文本是否被篡改时，若文本的色彩、纹理和光线等均未发生变化，但是文本字体、粗细或字号等发生变化的话，则无法准确的识别出来，因此对于文本篡改的检测准确性较低。

另一方面，在现有的图像篡改检测方法中，会视为每一个物体都有一个定义良好的封闭边界，进而基于该封闭边界进行单独的检测。因此，这种方式，会对每个字符进行单独检测，而忽视了文本之间的联系。并且，由于文本并不存在这种明晰的封闭边界，因此在对文本进行篡改时，文本间的字符间隔处，也可能存在部分篡改区域，但是目前的图像篡改检测中，无法准确的识别出这部分篡改区域。因此，文本篡改检测的完整性较差。

为了解决上述技术问题，本发明实施例提供了一种图像检测方法、装置、电子设备及介质。下面首先对本发明实施例所提供的图像检测方法进行介绍。

参见图1，图1示出了本发明一个实施例提供的图像检测方法的流程示意图。该方法包括以下步骤：

S110，分别提取目标图像中的字体特征以及图像特征，得到字体特征向量矩阵以及图像特征向量矩阵。

本发明实施例中的目标图像指的是包含文本的图像，目标图像可以为证照图像，如身份证图像、营业执照图像等，或者目标图像也可以是其他包含文本的图像，本发明对此不作限定。

由于包含文本的图像中，除了图像本身的特征之外，还会存在文本特有的一些特征，因此通过同时目标图像中的字体特征和图像特征，来进行后续的文本篡改识别，能够更加准确的判断目标图像中的文本是否被篡改。

其中，这里的字体特征可以包括以下至少一项：字体类型、字号、字体粗细、字体颜色、是否有下划线、是否为斜体等。图像特征可以包括以下任意一项：噪声、图像梯度、电子证照应用(ELA)、光线方向。此外，字体特征和图像特征还可以包含其他特征，本发明对此不作限定。

此外，这里的字体特征向量矩阵包括多个字体特征向量，即所提取到的字体特征通过向量的形式构成了矩阵。同理，这里的图像特征向量矩阵包括多个图像特征向量，即所提取到的图像特征通过向量的形式构成了矩阵。

S120，将字体特征向量矩阵以及图像特征向量矩阵进行拼接，得到第一向量矩阵。

为了方便后续能够综合字体特征与图像特征进行篡改区域检测，这里将字体特征向量矩阵以及图像特征向量矩阵进行拼接。这里的拼接指的是将两者顺序连接为一个大的矩阵。举例来看，假设字体特征向量矩阵以及图像特征向量矩阵均为M×N的矩阵，则两者拼接后的第一向量矩阵可以为2M×N的矩阵。

此外，为了方便后续循环神经网络对第一向量矩阵进行处理，还可以对第一向量矩阵进行转置，后续将转置后的第一向量矩阵输入循环神经网络。

另外，上述矩阵可以通过特征图的形式体现，例如字体特征向量矩阵以及图像特征向量矩阵均通过B×C×H×W的特征图体现。其中，B为批次数量，即S110中执行特征提取操作的模型在训练过程中单次输入的图片张数；C为特征提取时的通道数量；H为特征图的高，即矩阵的行数；W为特征图的宽，即矩阵的列数。后续拼接并转置后得到的第一向量矩阵即为(B2H)×C×W。

S130，将第一向量矩阵中的第一特征向量输入预先训练的循环神经网络，得到第二向量矩阵；第二向量矩阵包括第一特征向量以及第一特征向量之间的空间序列信息。

这里的循环神经网络可以为RNN模型，或者也可以循环神经网络(RecurrentNeural Network，RNN)，模型中的双向长短时记忆模型(Bi-directional Long Short-TermMemory，Bi-LSTM)，但也可以使用门控循环单元(Gated Recurrent Unit，GRU)等其他变种循环神经网络。本发明不限定循环神经网络的具体类型。

下面以循环神经网络为Bi-LSTM网络为例，以批次大小batch＝B，最大时长Tmax＝W，将第一向量矩阵中的每一行第一特征向量依次输入Bi-LSTM网络，Bi-LSTM网络提取各个第一特征向量之间的相互关系特征，从而得到各个第一特征向量之间的空间序列信息，这里的空间序列信息指的是各个第一特征向量对应的特征点之间是否有联系以及联系的方向。例如，“营业执照”中“营业”和“执照”之间就存在联系，联系的方向是从“营业”到“执照”。Bi-LSTM网络输出包含空间序列信息的第二向量矩阵，这里的第二向量矩阵可以为(B2H)×W×256的特征图。

S140，根据第二向量矩阵，确定目标图像中是否存在篡改区域。

其中，上述步骤S140可以是由区域生成网络(Region Proposal Network，RPN)网络实现的，为了使第二向量矩阵能够满足RPN网络的输入要求，可以通过一个卷积层对第二向量矩阵进行转置以及大小调整，例如将(B2H)×W×256特征图，经过卷积层后转换为B×512×H×W的特征图。本发明不限定执行上述S140的网络类型，也不限定是否需要对第二向量矩阵进行调整。

下面对上述各个步骤进行详细描述。

在一些实施例中，在图像特征为噪声特征的情况下，上述S110可以包括：

S112，通过RGB通道获取目标图像的RGB信息。

这里的RGB信息指的是目标图像中各个像素点的色彩特征图。

S114，通过脉冲神经元模型(steganalysis rich model，SRM)的过滤层从RGB信息中获取目标图像的噪声信息。

即通过噪声通道获取目标图像的噪声信息。

通过SRM模型的过滤层，能够将RGB信息中的噪声信息提取出来，从而得到单纯的噪声特征图，噪声特征图中包含各个像素点的噪声信息。

S116，通过预先训练的深度神经网络分别对RGB信息和噪声信息进行特征提取，得到字体特征向量矩阵以及噪声特征向量矩阵；字体特征向量矩阵包括字体特征，噪声特征向量矩阵包括噪声特征。

本实施例中，首先通过双通道同时获取目标图像中的RGB信息和噪声信息，后续通过深度神经网络分别对双通道提取到的信息进行特征提取，来得到字体特征和噪声特征。通过字体特征和噪声特征两者能够更加突出的体现目标图像中的文本特征，后续基于字体特征和噪声特征共同进行后续的文本篡改检测时，字体特征和噪声特征也能够更加突出的体现出正常文本与篡改文本之间的区别，从而提高了文本篡改检测的准确性。

在进一步的实施例中，上述S116可以包括：

S1161，将RGB信息和噪声信息输入深度神经网络。

其中，这里预先可以通过字体图像库中的标准字体，如华文宋体、华文黑体等对该深度神经网络模型进行训练，使深度神经网络模型能够学习各类字体特征，方便后续对字体特征的提取，使训练完成后的深度神经网络模型能够构建RGB信息与字体特征之间的映射关系。此外，还可以预先通过噪声图对该深度神经网络模型进行训练，使训练完成后的深度神经网络模型能够构建噪声信息与噪声特征之间的映射关系。

此外，上述深度神经网络模型可以为卷积神经网络(Convolutional NeuralNetwork，CNN)模型(VGG16)，本发明不限定深度神经网络模型的具体类型。

S1163，通过深度神经网络中的多个卷积层对RGB信息进行卷积，得到第一字体矩阵。

S1165，通过多个卷积层对噪声信息进行卷积，得到第一噪声矩阵。

在深度神经网络为CNN模型(VGG16)的情况下，则CNN模型中的各个卷积层会分别对RGB信息以及噪声信息进行卷积，来进行特征提取，其中，可以取第5个卷积层的输出作为第一字体矩阵以及第一噪声矩阵，第一字体矩阵以及第一噪声矩阵介可以通过大小为B×C×H×W的特征图体现。由于VGG16网络中第5个卷积层相对于原图的下采样倍数为16，也就是输出的特征图中的每个特征点对应目标图像中的16个像素。

其中，S1163与S1165并行执行。

S1167，通过深度神经网络中的滑动卷积层对第一字体矩阵进行滑动卷积，得到字体特征向量矩阵。

S1169，通过滑动卷积层对第一噪声矩阵进行滑动卷积，得到噪声特征向量矩阵。

在深度神经网络为CNN模型(VGG16)的情况下，CNN模型中会设置有一个滑动卷积层。滑动卷积层会在上述第一字体矩阵以及第一噪声矩阵对应的特征图上各滑动一个3*3的卷积窗口，该卷积窗口用于共享卷积运算，滑动卷积完成后，会使得卷积后的特征图中每一个特征点都融合了周围3*3的区域内的CNN空间特征信息，该滑动卷积层输出的字体特征向量矩阵以及噪声特征向量矩阵均为B×C×H×W大小的特征图。

其中，S1167与S1169并行执行。

在本实施例中，通过深度神经网络来对噪声信息以及RGB信息进行特征提取，在提取过程中，由于卷积层会设置有下采样倍率，从而使得特征提取后的特征图中的每个特征点均对应目标图像中的多个像素点，并且后续还进一步通过滑动卷积层进行了滑动卷积，从而使特征点进一步融合了周围区域内的空间特征信息，从而使得特征提取完成后所输出的特征图中的每个特征点均能够更加突出的反映更多的像素信息，使得后续基于特征点所包含的信息来计算是否存在篡改区域时，计算结果更加清晰准确。

由于目前的图像篡改检测方法使用的检测框长宽比较为接近，即用于框选图像内待测对象的检测框的尺寸较大，且由单一检测框来完成待测对象的定位。这种情况下，在待测对象为文本时，由于文本整体大多数以狭长矩形形式存在，由于文本长度以及字号大小的影响，导致文本整体区域的长宽比会存在较大的变化范围，因此利用单一固定尺寸的检测框很难准确检测到文本的边界。

基于此，在另一些实施例中，上述S140可以包括：

S142，为第二向量矩阵中的每个特征点配置N个候选框。

其中，N为大于1的正整数；各个候选框的在第一坐标轴方向上的第一宽度相同，且各个候选框在第二坐标轴方向上的第二宽度不同；第一坐标轴为目标图像中与文本方向平行的坐标轴。

举例来看，假设目标图像中的文本方向为水平方向，则第一坐标轴为x轴，第二坐标轴为y轴。各个候选框的水平宽度相同，但垂直高度不同。假设目标图像中的文本方向为竖直方向，则第一坐标轴为y轴，第二坐标轴为x轴。各个候选框的垂直高度相同，但水平宽度不同。

假设N＝10，文本方向为水平，则会为每个特征点配置10个宽度相同，高度不同的候选框。如图2所示，图2是本发明一个实施例提供的一个特征点处配置的候选框的示意图。其中，第一个候选框内包含了11个特征点(候选框虽然是基于一个特征点配置的，但由于候选框具有较大的范围，因此也可能将其他特征点圈进框内)，每个特征点对应16个像素点，因此，图2中第一候选框对应11*16个像素点，第二候选框对应16*16像素点，第三候选框对应23*16像素点，以此类推，最后一个候选框对应283*16像素点。当然图2仅是一种示例，候选框的大小本发明不作限定。

可选的，各个候选框的中心点的第一坐标与特征点的第一坐标相同。例如，第一坐标为x坐标，则候选框的中心点的x坐标与自身对应的特征点的x坐标相同。

S144，确定与候选框对应的字体特征以及图像特征。

该步骤将在后续进行描述。

S146，基于与候选框对应的字体特征以及图像特征，计算各个候选框对应的分值。

这里可以。通过预先训练的softmax根据对各个候选框对应的字体特征以及图像特征，对候选框进行打分，得到打分分值，分值可以计作s＝[p_text,p_No-text]。

S148，根据分值，确定目标图像中是否存在篡改区域。

其中，分值越高，表明该部分被篡改的可能性越大。反之，分值越低，表明该部分未被篡改的可能性越大。

本实施例中为每个特征点分别设置了候选框，利用多个较小的候选框来替代单一较大尺寸的检测框，每个候选框会框选单个字符或多个字符或字符的一部分，这种方式更加适用于文本篡改检测的场景。且后续基于候选框所对应的字体特征以及图像特征来计算每个候选框对应的分值，通过分值能够直观的反映候选框内的区域被篡改的可能性，基于分值来确定目标图像是否存在篡改区域较为直观准确。

在进一步的实施例中，上述S144可以包括：

根据每个特征点对应的空间序列信息，确定每个特征点的坐标；

根据每个特征点的坐标以及特征点对应的候选框的第二宽度，确定各个候选框包含的像素点；

根据第二向量矩阵包含的第一特征向量，确定每个候选框包含的像素点对应的字体特征以及图像特征。

由于第二向量矩阵中包含每个特征点的空间序列信息，因此，根据特征点的控件序列信息能够得到特征点的XY坐标，假设目标图像的文本方向为水平方向，第二宽度为垂直高度，则各个候选框的中心点的x坐标与自身对应的特征点的x坐标相同，因此，这种情况下，只需要知道候选框的中心点的y坐标以及候选框的高度，即可确定候选框在目标图像中对应的位置。

在确定候选框的中心点的y坐标时，为了简化计算过程，提升模型运算速度，可选的，每个特征点对应的N个候选框的第二高度可以按照相同的步长递增。如第一个候选框的第二高度为1个单位，第二个候选框的第二高度为2个单位，依次类推，且各个候选框的第二高度的增长方向相同，例如第二宽度为垂直高度的话，则各个候选框的第二高度沿y轴负方向逐渐增加、或者沿y轴正负方向双向增加等。这种情况下，只需要根据候选框包含的单位个数以及第二高度的增长方向以及特征点的y坐标，即可确定候选框中心点的y坐标。例如，特征点的y坐标为y0，第一候选框的第二高度为1，则第一候选框的中心点的y坐标为y0；第二候选框的第二高度为2，第二高度的增长方向为y轴负方向，则第二候选框的中心点的y坐标为y0-1，依次类推。

本实施例中，根据特征点所对应的空间序列信息来确定特征点的坐标，进而基于特征点的坐标以及候选框的高度来确定候选框在目标图像中的位置，从而确定候选框所包含的像素点。由于根据第二向量矩阵中包含的信息，能够获得各个像素点所对应的字体特征以及图像特征，因此，在确定候选框包含的像素点后，即能够从第二向量矩阵中获取到候选框所对应的字体特征和图像特征，从而方便后续根据字体特征以及图像特征来进行分值计算。这种方式能够较为简单的确定候选框的位置，简化了候选框的定位操作的。

在另一些实施例中，上述S148可以包括：

S1481，将每个特征点对应的N个候选框中分值最高的候选框，作为特征点的区域选择框；

S1483，确定是否存在分值大于预设分值阈值的目标区域选择框；

S1485，将目标区域选择框中的区域作为篡改区域。

本实施例中在对各个候选框进行打分之后，会根据分值的大小筛选出每个特征点所对应的N个候选框中分值最高的一个候选框，作为该特征点所对应的区域选择框，即完成N比1的筛选。这种情况下能够使得所筛选出来的区域选择框尽可能的贴合该特征点位置处的文本边界，从而使得后续基于目标区域选择框所构成的篡改区域更为准确。

在一些具体实施例中，上述S1485可以包括：

将目标区域选择框进行连通，得到至少一个连通域，将至少一个连通域作为篡改区域。

在前述步骤中，通过计算各个区域选择框的分值，能够确定各个区域选择框的分值是否大于预设分值阈值，其中将分值大于预设分值阈值的区域选择框作为目标区域选择框，目标区域选择框中的区域视为被篡改。由于目标区域选择框的面积可能较小，因此，为了方便后续工作人员进行识别，本实施例中将目标区域选择框进行了连通，形成了至少一个连通域。该至少一个连通域能够尽可能的将篡改区域完整的包裹起来，从而使得后续工作人员能够基于连通域的范围较为直观的确定篡改区域，并且将目标区域选择框进行连通后，也方便了电子设备对篡改区域的边界进行记录。

由于在目标图像中，可能存在多行文本，各行文本之间彼此并无关联。每行文本中也可能存在互不关联的多段文本。这种情况下，若互不关联的几段文本中均存在被篡改的区域，则需要保证后续所确定的篡改区域的准确性，避免所确定的篡改区域中包含未被篡改的部分。

基于此，在进一步的实施例中，上述将目标区域选择框进行连通，得到至少一个连通域，可以包括：

将各个目标区域选择框进行两两比对，将满足预设条件的两个目标区域选择框组成一个分组；预设条件为第二坐标的重合率大于预设重合率阈值且第一坐标的差值小于预设距离阈值；

将包含有相同目标区域选择框的分组进行顺序连通，得到至少一个连通域。如图3所示，图3是本发明一个实施例提供的目标区域选择框的示意图，其中，编号1-5的目标区域选择框在水平方向和垂直方向上位置均较为接近，因此，编号1-5的目标区域选择框中相邻的两个目标区域选择框均可以两两组合，后续编号1-5的目标区域选择框可以构成一个连通域。同理，编号6-10的目标区域选择框也可以构成一个连通域。但是两个连通域彼此不连通。

举例来看，假设预设重合率阈值为0.7，预设距离阈值为50个像素间距，目标图像中的文本方向为水平方向。第一坐标轴为x轴，则每行文本上的目标区域选择框沿x轴方向顺序排列。若目标图像中包含多行文，一行文本中还包括多段互不关联的文本。这种情况下，本实施例中，会将目标区域选择框进行两两比对，若两个目标区域选择框的水平距离小于50px(px为像素单位)，且两个目标区域选择框的垂直重合率(vertical overlap)>0.7，则将这两个目标区域选择框组成一个分组，例如A和B一组，B和C一组等，当完成所有分组后，顺序连通具有相同目标区域选择框的分组。例如，AB组和BC组，具有相同的B，因此可以连通，连通完毕后能够获得至少一个连通域。

在本实施例中，在目标图像中的文本方向与第一坐标轴平行时，假设目标图像中的文本方向为水平方向，第一坐标轴为x轴。则本实施例会将各行文本中的目标区域选择框进行连通。在连通过程中，能够连通的两个目标区域选择框的第二坐标的重合率需要大于预设重合率阈值，是为了保证同组内的目标区域选择框在第二方向上的坐标范围较为接近，如第一坐标轴为x轴时，则保证同组内的目标区域选择框垂直位置较为接近，该限制条件能够避免不同行或不同列的文本被圈入同一个连通域内。在连通过程中，能够连通的两个目标区域选择框的第一坐标的差值也需要小于预设距离阈值，是为了保证同组内的目标区域选择框第一方向上的距离较为接近，该限制条件能够避免同一行或同一列内的相互独立的文本被圈入同一连通域内。可见，本实施例能够使得每行文本中被篡改的部分均单独形成一个连通域，在目标图像中的多行文本中均存在被篡改的区域时，会形成多个连通域。这种方式能够避免将各行彼此无关的文本圈至同一个连通域内，也避免了篡改区域中包含了未被篡改的图像部分，提高了后续所确定的篡改区域的准确性。

在一些实施例中，在上述S1481之后，还可以包括：

输出各个区域选择框的分值。

在本实施例中，在计算得到各个区域选择框的分值后，可以对区域选择框的分值进行输出，输出方式可以包括显示或者语音输出等。本发明对此不做限定。通过输出区域选择框的分值，使得后续工作人员能够根据区域选择框的分值来确定是否存在图像篡改，并且能够了解目标图像中被篡改的区域大小以及具体的区域位置等，从而方便工作人员对目标图像进行后续处理。

在再一些实施例中，在目标图像中存在篡改区域的情况下，上述方法还可以包括：

对目标区域选择框的中心点的坐标以及目标区域选择框的第二宽度进行校准，得到校准后的目标区域选择框。

在本实施例中，在确定目标区域选择框之后，为了进一步保证目标区域选择框位置的准确性，还对目标区域选择框的位置进行了校准。由于在前述实施例中，目标区域选择框的位置是基于目标区域选择框的中心点坐标以及目标区域选择框的第二宽度来确定的，而目标区域选择框中心点的第一坐标即为特征点的第一坐标，由于特征点的坐标基本是准确的，因此，仅需要对目标区域选择框的中心点的第二坐标进行校准即可。

可选的，这里的校准方式，可以是对目标区域选择框的中心点的坐标以及目标区域选择框的第二宽度进行回归计算。回归计算的关系式可以为：

其中，v＝(v_c,vh)是回归前的目标区域选择框坐标到回归后的目标区域选择框坐标的映射；c_y是回归后的目标区域选择框的中心点的第二坐标，h是回归后目标区域选择框的第二宽度。

是回归前的目标区域选择框坐标到作为训练样本的区域选择框坐标的映射；

是作为训练样本的区域选择框的中心点的第二坐标，h^*是作为训练样本的区域选择框的第二宽度。

和h_a是目标区域选择框的中心点的第二坐标，h_a是目标区域选择框的第二宽度。

当然，以上仅为一种校准方式。此外也可以采用其他的校准方式进行校准，本申请对此不作限定。

在另一些实施例中，在目标图像中存在篡改区域的情况下，该方法还可以包括：

输出篡改区域在目标图像中的位置。

本实施例中，在检测到目标图像中存在篡改区域时，会将篡改区域在目标图像中的位置进行输出，从而使得后续工作人员或者需要利用该目标图像进行登陆或注册等操作的系统，能够了解到该目标图像已被篡改，并且能够确认篡改区域的位置。这种方式一方面能够避免非法用户依据篡改图像进行登录或注册等操作，提高安全性。另一方面，也能够使工作人员基于篡改区域的位置进行后续的处理。

可选的，上述输出篡改区域在目标图像中的位置可以包括：在目标图像上显示篡改区域的区域位置标识。这里的区域位置标识可以是边界框，边界框的颜色可以为红色或绿色等，边界框的形状取决于篡改区域的形状。此外，还可以在目标图像上通过箭头指示边界框的位置，并且箭头中还可以显示提示信息，提示信息用于指示用户该边界框内为篡改区域。当然，以上仅为一种输出方式，还可以通过其他方式输出篡改区域的位置，本发明对此不作限定。

基于与上述方法实施例相同的发明构思，本发明实施例还提供了一种图像检测装置，参见图4，图4示出了本发明一个实施例提供的图像检测装置的结构示意图。该装置包括：

特征提取模块210，用于分别提取目标图像中的字体特征以及图像特征，得到字体特征向量矩阵以及图像特征向量矩阵；

拼接模块220，用于将字体特征向量矩阵以及图像特征向量矩阵进行拼接，得到第一向量矩阵；

空间提取模块230，用于将第一向量矩阵中的第一特征向量输入预先训练的循环神经网络，得到第二向量矩阵；第二向量矩阵包括第一特征向量以及第一特征向量之间的空间序列信息；

篡改确定模块240，用于根据第二向量矩阵，确定目标图像中是否存在篡改区域。

在一些实施例中，特征提取模块210可以包括：

RGB提取单元，用于通过RGB通道获取目标图像的RGB信息。

噪声提取单元，用于通过脉冲神经元模型的过滤层从RGB信息中获取目标图像的噪声信息。

特征提取单元，用于通过预先训练的深度神经网络分别对RGB信息和噪声信息进行特征提取，得到字体特征向量矩阵以及噪声特征向量矩阵；字体特征向量矩阵包括字体特征，噪声特征向量矩阵包括噪声特征。

在进一步的实施例中，上述特征提取单元可以包括：

输入单元，用于将RGB信息和噪声信息输入深度神经网络。

第一卷积单元，用于通过深度神经网络中的多个卷积层对RGB信息进行卷积，得到第一字体矩阵。

第二卷积单元，用于通过多个卷积层对噪声信息进行卷积，得到第一噪声矩阵。

第三卷积单元，用于通过深度神经网络中的滑动卷积层对第一字体矩阵进行滑动卷积，得到字体特征向量矩阵。

第四卷积单元，用于通过滑动卷积层对第一噪声矩阵进行滑动卷积，得到噪声特征向量矩阵。

在另一些实施例中，上述篡改确定模块240可以包括：

候选框配置单元，用于为第二向量矩阵中的每个特征点配置N个候选框。

特征确定单元，用于确定与候选框对应的字体特征以及图像特征。

分值计算单元，用于基于与候选框对应的字体特征以及图像特征，计算各个候选框对应的分值。

区域确定单元，用于根据分值，确定目标图像中是否存在篡改区域。

在进一步的实施例中，上述特征确定单元可以包括：

坐标确定单元，用于根据每个特征点对应的空间序列信息，确定每个特征点的坐标；

像素点确定单元，用于根据每个特征点的坐标以及特征点对应的候选框的第二宽度，确定各个候选框包含的像素点；

向量特征确定单元，用于根据第二向量矩阵包含的第一特征向量，确定每个候选框包含的像素点对应的字体特征以及图像特征。

在另一些实施例中，上述区域确定单元可以包括：

选择框确定单元，用于将每个特征点对应的N个候选框中分值最高的候选框，作为特征点的区域选择框；

目标框确定单元，用于确定是否存在分值大于预设分值阈值的目标区域选择框；

篡改区域确定单元，用于将目标区域选择框中的区域作为篡改区域。

在一些具体实施例中，上述篡改区域确定单元可以用于：

本实施例中将目标区域选择框进行了连通，形成了至少一个连通域。该至少一个连通域能够尽可能的将篡改区域完整的包裹起来，从而使得后续工作人员能够基于连通域的范围较为直观的确定篡改区域，并且将目标区域选择框进行连通后，也方便了电子设备对篡改区域的边界进行记录。

在进一步的实施例中，上述篡改区域确定单元具体可以用于：

将各个目标区域选择框进行两两比对，将满足预设条件的两个目标区域选择框组成一个分组；预设条件为第二坐标的重合率大于预设重合率阈值且第一坐标的差值小于预设距离阈值；将包含有相同目标区域选择框的分组进行顺序连通，得到至少一个连通域。

本实施例能够使得每行文本中被篡改的部分均单独形成一个连通域，在目标图像中的多行文本中均存在被篡改的区域时，会形成多个连通域。这种方式能够避免将各行彼此无关的文本圈至同一个连通域内，也避免了篡改区域中包含了未被篡改的图像部分，提高了后续所确定的篡改区域的准确性。

在一些实施例中，该装置还可以包括：

分值输出模块，用于输出各个区域选择框的分值。

在再一些实施例中，该装置还可以包括：

校准模块，用于在目标图像中存在篡改区域的情况下，对目标区域选择框的中心点的坐标以及目标区域选择框的第二宽度进行校准，得到校准后的目标区域选择框。

在另一些实施例中，该装置还可以包括：

位置输出模块，用于在目标图像中存在篡改区域的情况下，输出篡改区域在目标图像中的位置。

本申请实施例提供的图像检测装置能够实现前述方法实施例中实现的各个过程，为避免重复，这里不再赘述。

图5示出了本发明实施例提供的一种电子设备的硬件结构示意图。

在电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种图像检测方法。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在综合网关容灾设备的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

在一个示例中，电子设备还可包括通信接口303和总线310。其中，如图5所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的图像检测方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种图像检测方法。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种图像检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二向量矩阵，确定所述目标图像中是否存在篡改区域，包括：

为所述第二向量矩阵中的每个特征点配置N个候选框，N为大于1的正整数；各个所述候选框的在第一坐标轴方向上的第一宽度相同，且各个所述候选框在第二坐标轴方向上的第二宽度不同；所述第一坐标轴为所述目标图像中与文本方向平行的坐标轴；

确定与所述候选框对应的字体特征以及图像特征；

基于与所述候选框对应的所述字体特征以及图像特征，计算各个所述候选框对应的分值；

根据所述分值，确定所述目标图像中是否存在篡改区域。

3.根据权利要求2所述的方法，其特征在于，所述确定与所述候选框对应的字体特征以及图像特征，包括：

根据每个所述特征点对应的所述空间序列信息，确定每个所述特征点的坐标；

根据每个所述特征点的坐标以及所述特征点对应的所述候选框的第二宽度，确定各个所述候选框包含的像素点；

根据所述第二向量矩阵包含的所述第一特征向量，确定每个所述候选框包含的像素点对应的字体特征以及图像特征。

4.根据权利要求2所述的方法，其特征在于，所述根据所述分值，确定所述目标图像中是否存在篡改区域，包括：

将每个所述特征点对应的N个所述候选框中分值最高的候选框，作为所述特征点的区域选择框；

确定是否存在分值大于预设分值阈值的目标区域选择框；

将所述目标区域选择框中的区域作为所述篡改区域。

5.根据权利要求4所述的方法，其特征在于，在所述目标图像中存在所述篡改区域的情况下，所述方法还包括：

对所述目标区域选择框的中心点的坐标以及所述目标区域选择框的第二宽度进行校准，得到校准后的所述目标区域选择框。

6.根据权利要求4或5所述的方法，其特征在于，所述将所述目标区域选择框中的区域作为所述篡改区域，包括：

将所述目标区域选择框进行连通，得到至少一个连通域，将所述至少一个连通域作为所述篡改区域。

7.根据权利要求6所述的方法，其特征在于，所述将所述目标区域选择框进行连通，得到至少一个连通域，包括：

将各个所述目标区域选择框进行两两比对，将满足预设条件的两个所述目标区域选择框组成一个分组；所述预设条件为第二坐标的重合率大于预设重合率阈值且第一坐标的差值小于预设距离阈值；

将包含有相同目标区域选择框的所述分组进行顺序连通，得到所述至少一个连通域。

8.根据权利要求4所述的方法，其特征在于，所述将每个所述特征点对应的N个所述候选框中分值最高的候选框，作为所述特征点的区域选择框之后，还包括：

输出各个所述区域选择框的分值。

9.根据权利要求1所述的方法，其特征在于，所述图像特征包括以下任意一项：

噪声、图像梯度、电子证照应用ELA、光线方向。

10.根据权利要求9所述的方法，其特征在于，在所述图像特征为噪声特征的情况下，所述分别提取目标图像中的字体特征以及图像特征，得到字体特征向量矩阵以及图像特征向量矩阵，包括：

通过RGB通道获取所述目标图像的RGB信息；

通过脉冲神经元模型的过滤层从所述RGB信息中获取所述目标图像的噪声信息；

通过预先训练的深度神经网络分别对所述RGB信息和所述噪声信息进行特征提取，得到所述字体特征向量矩阵以及噪声特征向量矩阵；所述字体特征向量矩阵包括所述字体特征，所述噪声特征向量矩阵包括噪声特征。

11.根据权利要求10所述的方法，其特征在于，所述通过预先训练的深度神经网络分别对所述RGB信息和所述噪声信息进行特征提取，得到所述字体特征向量矩阵以及噪声特征向量矩阵，包括：

将所述RGB信息和所述噪声信息输入所述深度神经网络；

通过所述深度神经网络中的多个卷积层对所述RGB信息进行卷积，得到第一字体矩阵；

通过所述多个卷积层对所述噪声信息进行卷积，得到第一噪声矩阵；

通过所述深度神经网络中的滑动卷积层对所述第一字体矩阵进行滑动卷积，得到所述字体特征向量矩阵；

通过所述滑动卷积层对所述第一噪声矩阵进行滑动卷积，得到所述噪声特征向量矩阵。

12.根据权利要求1所述的方法，其特征在于，在所述目标图像中存在所述篡改区域的情况下，所述方法还包括：

输出所述篡改区域在所述目标图像中的位置。

13.一种图像检测装置，其特征在于，包括：

14.一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-12中任意一项所述的图像检测方法。

15.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-12中任意一项所述的图像检测方法。