CN112052863B

CN112052863B - 一种图像检测方法及装置、计算机存储介质、电子设备

Info

Publication number: CN112052863B
Application number: CN202011108390.6A
Authority: CN
Inventors: 付晓; 刘昊岳; 沈程秀; 刘设伟
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2023-08-25
Anticipated expiration: 2040-10-16
Also published as: CN112052863A

Abstract

本公开涉及图像处理领域，提供了一种图像检测方法及装置、计算机存储介质、电子设备，图像检测方法包括：获取待检测图像的噪声图，通过残差神经网络获取待检测图像的语义特征和噪声图的噪声语义特征；根据语义特征通过区域选取单元确定多个第一区域和与各第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域；根据噪声语义特征和语义特征通过区域精修单元确定各第二区域对应的第二置信度，将满足第二阈值的第二置信度所对应的第二区域作为目标区域；根据语义特征通过图像分割单元确定待检测图像的置信度分布图，根据目标区域和置信度分布图确定待检测图像的目标置信度。本公开提高了图像检测的准确率。

Description

一种图像检测方法及装置、计算机存储介质、电子设备

技术领域

本公开涉及图像处理技术领域，特别涉及一种图像检测方法、一种图像检测装置、计算机可读存储介质及电子设备。

背景技术

随着机器学习在图像处理技术领域的发展，现有的图像检测技术大都采用机器学习来对图像中的目标区域进行检测。现有的图像检测模型分为两类，一类是基于目标框检测的模型，例如RGB-N模型；另一类是基于像素点分割的模型，例如HLED模型，但上述检测方法对目标区域的误检率高。

鉴于此，本领域亟需开发一种新的图像检测方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种图像检测方法、图像检测装置、计算机可读存储介质及电子设备，进而至少在一定程度上提高图像检测的准确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种图像检测方法，应用于图像检测系统，所述图像检测系统包括残差神经网络、区域选取单元、区域精修单元和图像分割单元，所述方法包括：获取待检测图像对应的噪声图，分别将所述待检测图像和所述噪声图输入所述残差神经网络中，以获取所述待检测图像的语义特征和所述噪声图的噪声语义特征；根据所述语义特征通过所述区域选取单元确定多个第一区域和与各所述第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域；根据所述噪声语义特征和所述语义特征通过所述区域精修单元确定各所述第二区域对应的第二置信度，并将满足第二阈值的第二置信度所对应的第二区域作为目标区域；根据所述语义特征通过所述图像分割单元确定所述待检测图像的置信度分布图，根据所述目标区域和所述置信度分布图确定所述待检测图像的目标置信度。

在本公开的一些示例性实施例中，所述区域选取单元包括第一卷积神经网络层、第一感兴趣区域池化层和第一分类器和第一回归器；根据所述语义特征通过所述区域选取单元确定多个第一区域和与各所述第一区域对应的第一置信度，包括：在所述待检测图像中获取多个检测区域；分别将与各所述检测区域对应的语义特征输入所述第一卷积神经网络层，通过所述第一卷积神经网络层进行特征提取，以得到与各所述检测区域对应的深度语义特征；分别将与各所述检测区域对应的深度语义特征输入所述第一感兴趣区域池化层，通过所述第一感兴趣区域池化层进行特征提取，以得到与各所述检测区域对应的感兴趣语义特征；分别将各所述检测区域和与各所述检测区域对应的感兴趣语义特征输入所述第一分类器和所述第一回归器中，以得到多个所述第一区域和与各所述第一区域对应的第一置信度。

在本公开的一些示例性实施例中，分别将各所述检测区域和与各所述检测区域对应的感兴趣语义特征输入所述第一分类器和所述第一回归器中，以得到多个所述第一区域和与各所述第一区域对应的第一置信度，包括：分别将各所述检测区域与各所述检测区域对应的感兴趣语义特征输入所述第一回归器中，以得到各所述检测区域对应的偏移值，根据各所述检测区域对应的偏移值确定多个所述第一区域；分别将各所述检测区域与各所述检测区域对应的感兴趣语义特征输入所述第一分类器中，以得到各所述第一区域对应的第一置信度。

在本公开的一些示例性实施例中，所述区域精修单元包括第二感兴趣区域池化层、双线性池化层和第二分类器和第二回归模器；所述噪声语义特征通过所述区域精修单元确定各所述第二区域对应的第二置信度，包括：根据所述噪声语义特征和所述语义特征获取各所述第一区域对应的噪声语义特征；分别将各所述第一区域对应的噪声语义特征输入所述第二感兴趣区域池化层，通过所述第二感兴趣区域池化层进行特征提取，以得到与各所述第一区域对应的感兴趣噪声语义特征；分别将各所述第一区域对应的感兴趣噪声语义特征和感兴趣语义特征输入所述双线性池化层，通过所述双线性池化层进行特征融合，以得到与各所述第一区域对应的融合语义特征；分别将各所述第一区域对应的融合语义特征输入所述第二分类器和所述第二回归器中，以得到多个所述第二区域和与各所述第二区域对应的第二置信度。

在本公开的一些示例性实施例中，分别将各所述第一区域对应的融合语义特征输入所述第二分类器和所述第二回归器中，以得到多个所述第二区域和与各所述第二区域对应的第二置信度，包括：分别将各所述第一区域与各所述第一区域对应的融合语义特征输入所述第二回归器中，以得到各所述第一区域对应的偏移值，根据各所述第一区域对应的偏移值确定所述第二区域；分别将各所述第一区域与各所述第一区域对应的融合语义特征输入所述第二分类器中，以得到所述第二区域对应的第二置信度。

在本公开的一些示例性实施例中，所述图像分割单元包括反卷积神经网络层、上采样层和第三分类器；根据所述语义特征通过所述图像分割单元确定所述待检测图像的置信度分布图，包括：将所述语义特征输入所述反卷积神经网络层，通过所述反卷积神经网络层进行特征还原，以得到与所述语义特征对应的图像特征；将所述图像特征输入所述上采样层，通过所述上采样层进行特征扩充，以得到与所述待检测图像对应的特征分布图；将所述特征分布图输入所述第三分类器中，以得到所述待检测图像的置信度分布图。

在本公开的一些示例性实施例中，根据所述目标区域和所述置信度分布图确定所述待检测图像的目标置信度，包括：根据所述目标区域在所述置信度分布图上获取与所述目标区域对应的多个置信度；根据所述多个置信度计算置信度均值，将所述置信度均值作为所述目标区域的目标置信度，并根据所述目标区域的目标置信度确定所述待检测区域的目标置信度。

在本公开的一些示例性实施例中，所述方法还包括：获取多个真实图像和与各所述真实图像对应的造假图像，根据各所述真实图像和与各所述真实图像对应的造假图像生成多个训练样本对；其中，各所述造假图像上包括造假区域；获取各所述训练样本对对应的的训练噪声样本对，所述训练噪声样本对包括真实噪声图和造假噪声图；将各所述训练样本对和各所述训练噪声样本对输入至所述待训练图像检测系统，根据各所述训练样本对和各所述训练噪声样本对对所述待训练图像检测系统进行训练，以获得所述图像检测系统。

在本公开的一些示例性实施例中，所述待训练图像检测系统包括所述待训练残差神经网络、待训练区域选取单元、待训练区域精修单元和待训练图像分割单元；根据各所述训练样本对和各所述训练噪声样本对对所述待训练图像检测系统进行训练，以获得所述图像检测系统，包括：将各所述训练样本对输入至所述待训练残差神经网络，通过所述待训练残差神经网络进行特征提取，以获得与各所述训练样本对对应的语义特征对，所述语义特征对包括造假语义特征和真实语义特征；将各所述训练噪声样本对输入至所述待训练残差神经网络，通过所述待训练残差神经网络进行特征提取，以获得与各所述训练噪声样本对对应的噪声语义特征对，所述噪声语义特征对包括造假噪声语义特征和真实噪声语义特征；将各所述语义特征对输入所述待训练区域选取单元，通过所述待训练区域选取单元进行特征提取，以获得第一分类损失函数和第一回归损失函数；将各所述语义特征对和各所述噪声语义特征对输入所述待训练区域精修单元，通过所述待训练区域精修单元进行特征提取，以获得第二分类损失函数和第二回归损失函数；将各所述造假语义特征输入所述待训练图像分割单元，通过所述待训练图像分割单元进行特征提取，以获得第三分类损失函数；根据所述第一分类损失函数、所述第一回归损失函数、所述第二分类损失函数、所述第二回归损失函数和所述第三分类损失函数确定目标损失函数，通过调整所述待训练残差神经网络、所述待训练区域选取单元、所述待训练区域精修单元和所述待训练图像分割单元的参数，直至所述目标损失函数达到最小，以获得所述图像检测系统。

在本公开的一些示例性实施例中，所述方法还包括：在所述造假图像中获取多个检测框，并计算所述检测框与所述造假区域的重叠率；在所述重叠率大于等于第一重叠阈值时，将所述检测框作为造假样本框；在所述重叠率小于等于第二重叠阈值时，将所述检测框作为真实样本框，所述第一重叠阈值大于第二重叠阈值；根据所述造假样本框在所述所述语义特征对中确定第一造假语义特征样本和第一真实语义特征样本。

在本公开的一些示例性实施例中，根据所述造假样本框在所述所述语义特征对中确定造假语义特征样本和和真实语义特征样本，包括：在所述造假语义特征中获取与所述造假样本框对应的造假语义特征，并将与所述造假样本框对应的造假语义特征作为所述第一造假语义特征样本；在所述造假语义特征中获取与所述真实样本框对应的造假语义特征，并将除过所述造假语义特征样本的造假语义特征作为所述第一真实语义特征样本；在所述真实语义特征中获取与所述造假样本框对应的真实语义特征，并将与所述造假样本框对应的真实语义特征作为所述第一真实语义特征样本。

在本公开的一些示例性实施例中，将各所述语义特征对输入所述待训练区域选取单元，通过所述待训练区域选取单元进行特征提取，以获得第一分类损失函数和第一回归损失函数，包括：根据所述第一造假语义特征样本和所述第一真实语义特征样本确定与所述第一造假语义特征样本和所述第一真实语义特征样本对应的第一置信度标签和第一偏移值标签；分别将所述第一造假语义特征样本和所述第一真实语义特征样本输入所述待训练所述待训练区域选取单元，通过所述待训练区域选取单元进行特征提取，以获取与所述第一造假语义特征样本和所述第一真实语义特征样本对应的第一预测置信度和第一预测偏移值；根据所述第一预测置信度与所述第一置信度标签确定所述第一分类损失函数，并根据所述第一预测偏移值与所述第一偏移值标签确定所述第一回归损失函数。

在本公开的一些示例性实施例中，将各所述语义特征对和各所述噪声语义特征对输入所述待训练区域精修单元，通过所述待训练区域精修单元进行特征提取，以获得第二分类损失函数和第二回归损失函数，包括：在所述第一预测置信度满足所述第一阈值时，将所述第一预测置信度对应的第一造假语义特征样本作为第二造假语义特征样本；在所述真实语义特征中获取与所述第二造假语义特征样本对应的真实语义特征，并将所述与所述第二造假语义特征样本对应的真实语义特征作为第二真实语义特征样本；根据所述第二造假语义特征样本在所述造假噪声语义特征中获取所述第二造假噪声语义特征样本，根据所述第二真实语义特征样本在所述真实噪声语义特征获取第二真实语义特征样本；将所述第二造假语义特征样本、所述第二真实语义特征样本、所述第二造假噪声语义特征样本和所述第二真实语义特征样本输入所述待训练区域精修单元，以获得第二分类损失函数和第二回归损失函数。

在本公开的一些示例性实施例中，所述待训练区域精修模块包括待训练双线性池化层；将所述第二造假语义特征样本、所述第二真实语义特征样本、所述第二造假噪声语义特征样本和所述第二噪声真实语义特征样本输入所述待训练区域精修单元，以获得第二分类损失函数和第二回归损失函数，包括：根据所述第二造假语义特征样本、所述第二真实语义特征样本确定与所述第二造假语义特征样本和所述第二真实语义特征样本对应的第二置信度标签和第二偏移值标签；将所述第二造假语义特征样本、所述第二真实语义特征样本、所述第二造假噪声语义特征样本和所述第二真实语义特征样本输入所述待训练双线性池化层，通过所述待训练双线性池化层进行特征融合，以获得造假融合特征样本和真实融合特征样本；根据所述造假融合特征样本和真实融合特征样本确定第二预测置信度和第二预测偏移值，根据所述第二预测置信度与所述第二置信度标签确定所述第二分类损失函数，并根据所述第二预测偏移值与所述第二偏移值标签确定所述第二回归损失函数。

在本公开的一些示例性实施例中，将各所述造假语义特征输入所述待训练图像分割单元，通过所述待训练图像分割单元进行特征提取，以获得第三分类损失函数，包括：获取所述造假区域的造假像素点，根据所述造假像素点确定所述造假图像上各像素对应的置信度分布标签；将所述造假语义特征输入所述待训练图像分割单元，通过所述待训练图像分割单元进行特征提取，以获得与所述造假语义特征对应的预测置信度分布；根据所述预测置信度分布和所述置信度分布标签确定所述第三分类损失函数。

根据本公开的一个方面，提供一种图像检测装置，应用于图像检测系统，所述图像检测系统包括残差神经网络、区域选取单元、区域精修单元和图像分割单元，所述方法包括：特征获取模块，用于获取待检测图像对应的噪声图，分别将所述待检测图像和所述噪声图输入残差神经网络中，以获取所述待检测图像的语义特征和所述噪声图的噪声语义特征；区域选取模块，用于根据所述语义特征通过所述区域选取单元确定多个第一区域和与各所述第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域；区域精修模块，用于根据所述噪声语义特征和所述语义特征通过所述区域精修单元确定各所述第二区域对应的第二置信度，并将满足第二阈值的第二置信度所对应的第二区域作为目标区域；置信度确定模块，用于根据所述语义特征通过所述图像分割单元确定所述待检测图像的置信度分布图，根据所述目标区域和所述置信度分布图确定所述待检测图像的目标置信度。

根据本公开的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中所述的图像检测方法。

根据本公开的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的图像检测方法。

由上述技术方案可知，本公开示例性实施例中的图像检测方法及装置、计算机可读存储介质、电子设备至少具备以下优点和积极效果：

本公开的图像检测方法应用于图像检测系统，该图像检测系统包括残差神经网络、区域选取单元、区域精修单元和图像分割单元。该图像检测方法首先获取待检测图像对应的噪声图，分别将待检测图像和噪声图输入残差神经网络中，以获取待检测图像的语义特征和噪声图的噪声语义特征；接着根据语义特征通过区域选取单元确定多个第一区域和与各第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域；然后，根据噪声语义特征和语义特征通过区域精修单元确定各第二区域对应的第二置信度，并将满足第二阈值的第二置信度所对应的第二区域作为目标区域；最后，根据语义特征通过图像分割单元确定待检测图像的置信度分布图，根据目标区域和置信度分布图确定待检测图像的目标置信度。

本公开中的图像检测方法一方面，能够根据残差神经网络、区域选取单元、区域精修单元和图像分割单元对待检测图像进行处理，通过多层处理，提高了图像检测的准确率；另一方面，区域精修单元通过使用噪声语义特征和语义特征确定第二区域和第二置信度，降低了图像检测的误检率；又一方面，通过残差神经网络对待检测图像进行特征提取，再将提取的语义特征输入至区域选取单元、区域精修单元和图像分割单元，节省了系统损耗。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开的一实施例的图像检测方法的流程示意图；

图2示意性示出了根据本公开的一实施例的图像检测系统的结构示意图；

图3示意性示出了根据本公开的一实施例的确定第一区域和第一置信度的方法流程示意图；

图4示意性示出了根据本公开的一实施例的确定第二区域和第二置信度的方法流程示意图；

图5示意性示出了根据本公开的一实施例的确定置信度分布图的方法流程示意图；

图6示意性示出了根据本公开的一实施例的待训练图像检测系统的结构示意图；

图7示意性示出了根据本公开的一实施例的对待训练图像检测系统进行训练的方法流程示意图；

图8示意性示出了根据本公开的一实施例的确定第一真实语义特征样本和第一造假语义特征样本的方法流程示意图；

图9示意性示出了根据本公开的一实施例的确定第二真实语义特征样本和第二造假语义特征样本的方法流程示意图；

图10示意性示出了根据本公开的一实施例的获取第三分类损失函数的方法流程示意图；

图11示意性示出了根据本公开的一实施例的图像检测装置的框图；

图12示意性示出了根据本公开的一实施例的电子设备的模块示意图；

图13示意性示出了根据本公开的一实施例的程序产品示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本公开的一个实施例中提出了一种图像检测方法，图1示出了图像检测方法的流程示意图，如图1所示，该图像检测方法至少包括以下步骤：

步骤S110：获取待检测图像对应的噪声图，分别将待检测图像和噪声图输入残差神经网络中，以获取待检测图像的语义特征和噪声图的噪声语义特征；

步骤S120：根据语义特征通过区域选取单元确定多个第一区域和与各第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域；

步骤S130：根据噪声语义特征和语义特征通过区域精修单元确定各第二区域对应的第二置信度，并将满足第二阈值的第二置信度所对应的第二区域作为目标区域；

步骤S140：根据语义特征通过图像分割单元确定待检测图像的置信度分布图，根据目标区域和置信度分布图确定待检测图像的目标置信度。

本公开实施例中的图像检测方法一方面，能够根据残差神经网络、区域选取单元、区域精修单元和图像分割单元对待检测图像进行处理，通过多层处理，提高了图像检测的准确率；另一方面，区域精修单元通过使用噪声语义特征和语义特征确定第二区域和第二置信度，降低了图像检测的误检率；又一方面，通过残差神经网络对待检测图像进行特征提取，再将提取的语义特征输入至区域选取单元、区域精修单元和图像分割单元，节省了系统损耗。

需要说明的是，本公开示例性实施方式的图像检测方法应用于图像检测系统，图2示出了图像检测系统的结构示意图，如图2所示，图像检测系统200包括残差神经网络210，在残差神经网络210之后，分别设置有区域选取单元220、区域精修单元230和图像分割单元240，区域选取单元220包括依次设置的第一卷积神经网络层221和第一感兴趣区域池化层222，在第一感兴趣区域池化层222之后，还设置有第一分类器223和第一回归器224；区域精修单元230包括依次设置的第二感兴趣区域池化层231和双线性池化层232，在双线性池化层232之后，还设置有第二分类器233和第二回归器234；图像分割单元240包括依次设置的反卷积神经网络层241、上采样层242和第三分类器243。

为了使本公开的技术方案更清晰，接下来对图像检测方法的各步骤进行说明。

在步骤S110中，获取待检测图像对应的噪声图，分别将待检测图像和噪声图输入残差神经网络210中，以获取待检测图像的语义特征和噪声图的噪声语义特征。

在本公开的示例性实施例中，待检测图像可以是RGB图像，将待检测图像输入噪声滤波器中进行处理，以获取待检测图像对应的噪声图。其中，该噪声滤波器可以是一个或多个噪声滤波器，该噪声滤波器可以是均值滤波器、均值滤波器和中值滤波器等图像噪声处理滤波器，本公开对噪声滤波器的类型和个数不作具体限定。

举例而言，可以采用球面辐射模式共模滤波器(SRM)对待检测图像进行处理，得到待检测图像对应的噪声图。具体地，SRM噪声滤波器可以由第一噪声滤波器、第二噪声滤波器和第三噪声滤波器组成，第一噪声滤波器、第二噪声滤波器和第三噪声滤波器的滤波矩阵可以如公式1至公

式3所示：

其中，f₁指的是第一噪声滤波器的滤波矩阵，f₂指的是第二噪声滤波器的滤波矩阵，f₃指的是第三噪声滤波器的滤波矩阵。

根据第一噪声滤波器、第二噪声滤波器和第三噪声滤波器对待检测图像进行处理，处理过程如公式(4)所示：

Noise＝(img*f₁+img*f₂+img*f₃)/3 (4)

其中，Noise表示噪声图，img表示待检测图像。

另外，在利用公式(4)对待检测图像进行处理之前，可以根据SRM噪声滤波器进行滑窗的窗口大小对待检测图像进行预处理，其中，在每一噪声滤波器对待检测图像进行滤波处理之前，均可以对待检测图像进行预处理。比如，若第一滤波器的窗口大小为5x5，则可以在待检测图像的每一像素周围添加一圈宽度为4的边界，该宽度为4的边界的像素值为0；若第二滤波器的窗口大小为3x3，则可以在待检测图像的每一像素周围添加一圈宽度为2的边界，该宽度为2的边界的像素值为0；若第三滤波器的窗口大小为2x2，则可以在待检测图像的每一像素周围添加一圈宽度为1的边界，即在每一像素周围添加4个像素值为0的像素点。

在本公开的示例性实施例中，残差神经网络210(resnet)可以是任一可以提取图像的深度语义特征的神经网络结构，比如，可以是resnet20网络，还可以是resnet50网络等，本公开对此不作具体限定。本实施例采用resnet50网络为例，resnet50网络可以包括4个卷积模块，每个卷积模块中包括一个或多个卷积神经网络，每个卷积模块中包含的卷积神经网络的个数可以不同，也可以相同，本公开对此不作具体限定。

在本公开的示例性实施例中，将待检测图像输入残差神经网络210中，通过残差神经网络210对待检测图像进行特征提取，以得到与待检测图像对应的语义特征。具体地，将待检测图像输入残差神经网络210中，通过该残差神经网络210对待检测图像进行特征提取，将第4个卷积神经网络的输出结果作为待检测图像的语义特征。

在本公开的示例性实施例中，将噪声图输入残差神经网络210中，通过残差神经网络210对噪声图进行特征提取，以得到与噪声图对应的噪声语义特征。具体地获得噪声语义特征的方法和上述获得语义特征的方法相同，在此不作赘述。

在步骤S120中，根据语义特征通过区域选取单元220确定多个第一区域和与各第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域。

在本公开的示例性实施例中，第一区域为待检测图像中的任一区域，第一置信度为第一区域为造假区域的概率，该第一置信度可以是0至1(包括0和1)之间的任一数。

在本公开的示例性实施例中，图3示出了确定第一区域和第一置信度的方法流程示意图，如图3所示，该流程至少包括步骤S310至步骤S340，详细介绍如下：

在步骤S310中，在待检测图像中获取多个检测区域。

在本公开的示例性实施例中，可以基于锚框机制在待检测图像中通过选框确定多个检测区域，比如，利用Faster_Rcnn模型的Anchor机制进行选框，在待检测图像上以任一像素点为中心，设置多个不同大小的框，可以是水平矩形框。通过选框可以选中待检测图像中的所有像素，在多个检测区域中存在重叠的部分。

在步骤S320中，分别将与各检测区域对应的语义特征输入第一卷积神经网络层221，通过第一卷积神经网络层221进行特征提取，以得到与各检测区域对应的深度语义特征。

在本公开的示例性实施例中，该第一卷积神经网络层221可以由一层或多层卷积神经网络组成，比如，可以由两层卷积神经网络组成，本公开对此不作具体限定。

另外，还会将该检测区域的位置信息输入该第一卷积神经网络中，该位置信息可以是检测区域四个顶点的坐标，还可以是检测区域在横坐标和纵坐标的取值范围，比如，[4,6,7,18]表示横坐标从4到6，纵坐标从7到18的区域。

在步骤S330中，分别将与各检测区域对应的深度语义特征输入第一感兴趣区域池化层222，通过第一感兴趣区域池化层222进行特征提取，以得到与各检测区域对应的感兴趣语义特征。

在本公开的示例性实施例中，在利用第一卷积神经网络层221和第一感兴趣区域池化层222进行特征提取时，保留检测区域的位置信息。

在步骤S340中，分别将各检测区域和与各检测区域对应的感兴趣语义特征输入第一分类器223和第一回归器224中，以得到多个第一区域和与各第一区域对应的第一置信度。

在本公开的示例性实施例中，分别将各检测区域与各检测区域对应的感兴趣语义特征输入第一回归器224中，以得到各检测区域对应的偏移值，根据各检测区域对应的偏移值确定多个第一区域。

其中，该偏移值指的是检测区域的位置坐标差值，具体可以是检测区域四个坐标的差值。比如，若检测区域的位置信息是[4,6,7,18]，第一回归器224输出的偏移值是[0,1,0,-6]，通过检测区域和偏移值确定的第一区域的位置信息为[4,7,7,12]。

在本公开的示例性实施例中，分别将各检测区域与各检测区域对应的感兴趣语义特征输入第一分类器223中，以得到与各第一区域对应的第一置信度。

在本公开的示例性实施例中，第一分类器223可以是softmax分类器，还可以是logistic分类器，还可以是boosting分类器，adaboost分类器等，本公开对此不作具体限定。

在本公开的示例性实施例中，第一置信度可以包括该第一区域为造假区域的概率，将第一置信度与第一阈值进行比较；若第一置信度大于等于第一阈值，则将第一置信度对应的第一区域作为第二区域，其中，第一阈值的大小可以根据实际情况进行设定，比如，可以是0.5，还可以是0.6，本公开对此不作具体限定。

继续参数图1所示，在步骤S130中，根据噪声语义特征和语义特征通过区域精修单元230确定各第二区域对应的第二置信度，并将满足第二阈值的第二置信度所对应的第二区域作为目标区域。

在本公开的示例性实施例中，第二区域为第一区域中的任一区域，第二置信度为第二区域为造假区域的概率，该第二置信度可以是0至1(包括0和1)之间的任一数。

在本公开的示例性实施例中，图4示出了确定第二区域和第二置信度的方法流程示意图，如图4所示，该流程至少包括步骤S410至步骤S440，详细介绍如下：

在步骤S410中，根据噪声语义特征获取各第一区域对应的噪声语义特征。

在本公开的示例性实施例中，在步骤S110中，可以只将待检测图像输入残差神经网络210中，获取待检测图像的语义特征。在通过区域选取单元220确定第一区域和第一区域对应的第一置信度之后，再将第一区域对应的图像信息输入残差神经网络210，获取第一区域对应的噪声语义特征。

当然，也可以在获取待检测图像的语义特征时，同时获取噪声图的噪声语义特征。然后在通过区域选取单元220确定了第一区域和第一区域对应的第一置信度之后，再在噪声图的噪声语义特征中，获取第一区域对应的噪声语义特征。

在步骤S420中，分别将各第一区域对应的噪声语义特征输入第二感兴趣区域池化层231，通过第二感兴趣区域池化层231进行特征提取，以得到与各第一区域对应的感兴趣噪声语义特征。

在本公开的示例性实施例中，除了将各第二区域对应的噪声语义特征和语义特征输入该区域精修单元230进行特征提取外，还将第二区域对应的位置信息输入该区域精修单元230中，以获得第一区域对应的偏移值。

在步骤S430中，分别将各第一区域对应的感兴趣噪声语义特征和感兴趣语义特征输入双线性池化层232，通过双线性池化层232进行特征融合，以得到与各第一区域对应的融合语义特征。

在本公开的示例性实施例中，在双线性池化层232后可以增加一个全连接层，构成压缩双线性池化层，用于降低由于融合感兴趣语义特征和感兴趣噪声语义特征后融合语义特征的维度。

在步骤S440中，分别将各第一区域对应的融合语义特征输入第二分类器233和第二回归器234中，以得到多个第二区域和与各第二区域对应的第二置信度。

在本公开的示例性实施例中，分别将各第一区域与各第一区域对应的融合语义特征输入第二回归器234中，以得到各第一区域对应的偏移值，根据各第一区域对应的偏移值确定第二区域。

其中，该第一区域偏移值和上述偏移值的概念相同，指的是第一区域的位置坐标差值，具体可以是第一区域四个坐标的差值。比如，若第一区域的位置信息为[4,7,7,12]，第二回归器234输出的偏移值是[0,1,1,2]，则通过第一区域和第一区域的偏移值确定的第二区域的位置信息为[4,8,8,14]。

在本公开的示例性实施例中，分别将各第一区域与各第一区域对应的融合语义特征输入第二分类器233中，以得到第二区域对应的第二置信度。

在本公开的图像检测方法中，由于原始图像存在一个特定的相机噪声，但造假图像因为被人为改动，造假区域处的噪声就会与原始图像不同，本公开的区域精修单元230通过使用噪声语义特征和语义特征进行融合，采用融合后的融合语义特征会将原始图像上的特征和噪声特征进行合并，提高了网络学习的准确性，进一步提高了图像检测的准确率。

在本公开的示例性实施例中，第二置信度可以包括该二区域为造假区域的概率，将第二置信度与第二阈值进行比较；若第二置信度大于等于第二阈值，则将第二置信度对应的第二区域作为目标区域，其中，第二阈值的大小可以根据实际情况进行设定，比如，可以是0.85，还可以是0.8，本公开对此不作具体限定。

继续参照图1所示，在步骤S140中，根据语义特征通过图像分割单元240确定待检测图像的置信度分布图，根据目标区域和置信度分布图确定待检测图像的目标置信度。

在本公开的示例性实施例中，根据语义特征通过图像分割单元240确定待检测图像的置信度分布图可以在步骤S120之前，也可以在步骤S130之前，也可以与步骤S120或步骤S130同时进行，还可以是在步骤S130之后，本公开对确定置信度分布图的顺序不作具体限定。

在本公开的示例性实施例中，该图像分割单元240可以包括一组反卷积神经网络层241加上采样层242，也可以是两组反卷积神经网络层241加上采样层242，比如，图像分割单元240的结构可以是第一反卷积神经网络层、第一上采样层、第二反卷积神经网络层、第二上采样层和第三分类器243。当然，该图像分割单元240还可以包括三组反卷积神经网络层加上采样层242，本公开对此不作具体限定。

在本公开的示例性实施例中，图5示出了确定置信度分布图的方法流程示意图，如图5所示，该流程至少包括步骤S510至步骤S530，详细介绍如下：

在步骤S510中，将语义特征输入反卷积神经网络层241，通过反卷积神经网络层241进行特征还原，以得到与语义特征对应的图像特征。

在本公开的示例性实施例中，该语义特征可以是待检测图像对应的所有语义特征。反卷积神经网络层241的层数可以与残差神经网络210中的卷积神经网络的层数相对应。

在步骤S520中，将图像特征输入上采样层242，通过上采样层242进行特征扩充，以得到与待检测图像对应的特征分布图。

在本公开的示例性实施例中，上采样层242可以采用最近邻插值、双线性插值或中值插值等方法，本公开对此不作具体限定。

在本公开的示例性实施例中，特征分布图包括在待检测图像的每个像素点处分布有图像特征。

在步骤S530中，将特征分布图输入第三分类器243中，以得到待检测图像的置信度分布图。

在本公开的示例性实施例中，置信度分布图包括在待检测图像上分布着每个像素点的置信度，即在每个像素点处分布有该像素点为造假像素点的概率。

在本公开的示例性实施例中，根据目标区域在置信度分布图上获取与目标区域对应的多个置信度；根据多个置信度计算置信度均值，将置信度均值作为目标区域的目标置信度，并根据目标区域的目标置信度确定待检测区域的目标置信度。

具体地，根据目标区域的位置信息在置信度分布图上获取目标区域内的所有置信度，将所有置信度进行求和并计算均值，得到该目标区域对应的目标置信度。

在本公开的示例性实施例中，可以根据目标置信度判断待检测图像的真假，具体地，将目标置信度与置信度阈值进行比较；若目标置信度大于等于置信度阈值，则判定该待检测图像为造假图像；若目标置信度小于置信度阈值，则判定该待检测图像为真实图像。其中，置信度阈值可以根据实际情况进行设定，比如，置信度阈值可以是0.9，还可以是0.95等，本公开对此不作具体限定。

在本公开的示例性实施例中，在通过图像检测系统200对待检测图像进行检测之前，需要对待训练图像检测系统进行训练，以得到图像检测系统200。图6示出了待训练图像检测系统的结构示意图，如图6所示，该待训练图像检测系统600包括设置的待训练残差神经网络610，在待训练残差神经网络610之后，还包括依次设置的待训练区域选取单元620、待训练区域精修单元630和待训练图像分割单元640，待训练区域选取单元620包括依次设置的待训练第一卷积神经网络层621和待训练第一感兴趣区域池化层622，在待训练第一感兴趣区域池化层622之后，还设置有待训练第一分类器623和待训练第一回归器624；待训练区域精修单元630包括依次设置的待训练第二感兴趣区域池化层631和待训练双线性池化层632，在待训练双线性池化层632之后，还设置有待训练第二分类器633和待训练第二回归器634；待训练图像分割单元640包括依次设置的待训练反卷积神经网络层641、待训练上采样层642和待训练第三分类器643。

在本公开的示例性实施例中，对待训练图像检测系统600的训练过程包括：

首先，获取多个真实图像和与各真实图像对应的造假图像，根据各真实图像和与各真实图像对应的造假图像生成多个训练样本对。

在本公开的示例性实施例中，该造假图像上包括造假区域，造假图像和真实图像除过造假区域外，所有信息均相同。可以将真实图像在图像处理软件上进行涂抹或将其它图像上的某一区域复制粘贴在该图像上等处理方法，得到包含有造假区域的造假图像。对该真实图像进行处理得到造假图像的方法可以是多种处理方法，本公开对此不作具体限定。

接着，获取各训练样本对对应的的训练噪声样本对，训练噪声样本对包括真实噪声图和造假噪声图。

在本公开的示例性实施例中，将各真实图像与各造假图像分别输入噪声滤波器中，通过该噪声滤波器进行噪声滤波处理，以得到与各真实图像和各造假图像对应的真实噪声图和造假噪声图。

最后，将各训练样本对和各训练噪声样本对输入至待训练图像检测系统600，根据各训练样本对和各训练噪声样本对对待训练图像检测系统600进行训练，以获得图像检测系统200。

在本公开的示例性实施例中，在将各训练样本对和各训练噪声样本对输入待训练图像检测系统600进行训练时，还会将各训练样本对和各训练噪声样本对所对应的位置信息同时输入待训练图像检测系统600中，在整个训练的过程中，样本的特征信息始终与位置信息相对应。

具体地：图7示出了对待训练图像检测系统600进行训练的方法流程示意图，如图7所示，该流程至少包括步骤S710至步骤S760，详细介绍如下：

在步骤S710中，将各训练样本对输入至待训练图像检测系统610，通过待训练图像检测系统610进行特征提取，以获得与各训练样本对对应的语义特征对。

在本公开的示例性实施例中，语义特征对包括造假语义特征和真实语义特征。该待训练图像检测系统610可以包括一个或多个待训练卷积模块，每个待训练卷积模块可以包括一个或多个待训练卷积神经网络。比如，待训练图像检测系统610可以包括4个待训练卷积模块，每个待训练卷积模块可以包括三个待训练卷积神经网络，本公开对此不作具体限定。

在步骤S720中，将各训练噪声样本对输入至待训练图像检测系统610，通过待训练图像检测系统610进行特征提取，以获得与各训练噪声样本对对应的噪声语义特征对。

在本公开的示例性实施例中，噪声语义特征对包括造假噪声语义特征和真实噪声语义特征。

在步骤S730中，将各语义特征对输入待训练区域选取单元620，通过待训练区域选取单元620进行特征提取，以获得第一分类损失函数和第一回归损失函数。

在本公开的示例性实施例中，图8示出了确定第一真实语义特征样本和第一造假语义特征样本的方法流程示意图，如图8所示，该流程至少包括步骤S810至步骤S840，详细介绍如下：

在步骤S810中，在造假图像中获取多个检测框，并计算检测框与造假区域的重叠率。

在本公开的示例性实施例中，可以基于锚框机制在造假图像中获取多个检测框，其锚框机制与上述实施例中在待检测图像中获取多个检测区域的方法相同，在此不作赘述。

在本公开的示例性实施例中，计算检测框与造假区域之间的重叠率的计算方法可以包括：首先，根据检测框的位置信息和造假区域的位置信息确定检测框与造假区域之间相互重叠部分的面积；接着，确定检测框与造假区域之间构成的并集区域的面积；最后，利用相互重叠部分的面积除以并集区域的面积，以得到检测框与造假区域的重叠率。

在步骤S820中，在重叠率大于等于第一重叠阈值时，将检测框作为造假样本框。

在本公开的示例性实施例中，第一重叠阈值可以根据实际情况进行设定，比如，该第一重叠阈值可以是70％，还可以是75％，本公开对此不作具体限定。

在步骤S830中，在重叠率小于等于第二重叠阈值时，将检测框作为真实样本框。

在本公开的示例性实施例中，第一重叠阈值大于第二重叠阈值，第二重叠阈值可以根据实际情况进行设定，比如，该第二重叠阈值可以是30％，还可以是25％，本公开对此不作具体限定。

在步骤S840中，根据造假样本框在语义特征对中确定第一造假语义特征样本和第一真实语义特征样本。

在本公开的示例性实施例中，在造假语义特征中获取与造假样本框对应的造假语义特征，并将与造假样本框对应的造假语义特征作为第一造假语义特征样本。

在本公开的示例性实施例中，第一真实语义特征样本由两部分组成，第一部分是：在造假语义特征中获取与真实样本框对应的造假语义特征，并将除过造假语义特征样本的造假语义特征作为第一真实语义特征样本。第二部分是：在真实语义特征中获取与造假样本框对应的真实语义特征，并将与造假样本框对应的真实语义特征作为第一真实语义特征样本。

本公开的图像检测方法一方面，利用造假图像上的造假区域和真实图像上与造假区域对应的区域进行训练区域精修单元230，可以有效地使区域精修单元230学习到真实图像的特征，很大程度上减少了图像检测系统200对真实图像的误检情况；另一方面，利用造假区域与造假区域周围其它区域上的特征进行训练精修单元，促进了图像检测系统200精确检测造假区域的能力，提高了造假区域的检测准确率。

在本公开的示例性实施例中，根据第一造假语义特征样本和第一真实语义特征样本进行特征提取，以获得第一分类损失函数和第一回归损失函数的过程，可以包括如下步骤：

首先，根据第一造假语义特征样本和第一真实语义特征样本确定与第一造假语义特征样本和第一真实语义特征样本对应的第一置信度标签和第一偏移值标签。

在本公开的示例性实施例中，第一造假语义特征样本对应的第一置信度标签是1，第一真实语义特征样本对应的第一置信度标签是0。第一造假语义特征样本和第一真实语义特征样本对应的第一偏移值标签是造假样本框所对应的的位置与造假区域所对应的位置之间的偏移量，即，是造假样本框位置对应的四个坐标与造假区域位置对应的四个坐标之间的差值。

然后，分别将第一造假语义特征样本和第一真实语义特征样本输入待训练区域选取单元620，通过待训练区域选取单元620进行特征提取，以获取与第一造假语义特征样本和第一真实语义特征样本对应的第一预测置信度和第一预测偏移值。

在本公开的示例性实施例中，首先，分别将第一造假语义特征样本和第一真实语义特征样本输入待训练第一卷积神经网络层621，通过待训练第一卷积神经网络层621进行特征提取，以得到与各第一造假语义特征样本和各第一真实语义特征样本对应的深度语义特征；接着，将第一造假语义特征样本和第一真实语义特征样本对应的深度语义特征输入待训练第一感兴趣区域池化层622，通过待训练第一感兴趣区域池化层622进行特征提取，以得到与各第一造假语义特征样本和各第一真实语义特征样本对应的感兴趣语义特征；最后，分别将各第一造假语义特征样本和各第一真实语义特征样本对应的感兴趣语义特征输入待训练第一分类器623和待训练第一回归器624中，以得到与各第一造假语义特征样本和各第一真实语义特征样本对应的第一预测置信度和第一预测偏移值。

最后，根据第一预测置信度与第一置信度标签确定第一分类损失函数，并根据第一预测偏移值与第一偏移值标签确定第一回归损失函数。

在本公开的示例性实施例中，该第一分类损失函数和第一回归损失函数可以是交叉熵损失函数，还可以是smooth损失函数，还可以是其它类型的损失函数。且该第一分类损失函数和第一回归损失函数可以相同，也可以不同，比如，该第一分类损失函数可以是交叉熵损失函数，该第一回归损失函数可以是smooth_L1损失函数，本公开对第一分类损失函数和第一回归损失函数的类型不作具体限定。

继续参照图7所示，在步骤S740中，将各语义特征对和各噪声语义特征对输入待训练区域精修单元630，通过待训练区域精修单元630进行特征提取，以获得第二分类损失函数和第二回归损失函数。

在本公开的示例性实施例中，图9示出了确定第二真实语义特征样本和第二造假语义特征样本的方法流程示意图，如图9所示，该流程至少包括步骤S910至步骤S940，详细介绍如下：

在步骤S910中，在第一预测置信度满足第一阈值时，将第一预测置信度对应的第一造假语义特征样本作为第二造假语义特征样本。

在本公开的示例性实施例中，该第一阈值可以根据实际情况进行设定，比如，可以根据训练的结果进行调整，可以根据目标损失函数的值，还可以根据第二分类损失函数和第二回归损失函数的值进行调整，本公开对此不作具体限定。

在步骤S920中，在真实语义特征中获取与第二造假语义特征样本对应的真实语义特征，并将与第二造假语义特征样本对应的真实语义特征作为第二真实语义特征样本。

在本公开的示例性实施例中，根据第二造假语义特征样本的位置信息在真实语义特征中获取第二真实语义特征样本。

在步骤S930中，根据第二造假语义特征样本在造假噪声语义特征中获取第二造假噪声语义特征样本，根据第二真实语义特征样本在真实噪声语义特征获取第二真实语义特征样本。

在本公开的示例性实施例中，根据第二造假语义特征样本的位置信息在造假噪声语义特征中获取第二造假噪声语义特征样本，根据第二真实语义特征样本的位置信息在真实噪声语义特征获取第二真实语义特征样本。

在步骤S940中，将第二造假语义特征样本、第二真实语义特征样本、第二造假噪声语义特征样本和第二真实语义特征样本输入待训练区域精修单元630，以获得第二分类损失函数和第二回归损失函数。

在本公开的示例性实施例中，根据第二造假语义特征样本、第二真实语义特征样本、第二造假噪声语义特征样本和第二真实语义特征样本进行特征提取，以获得第二分类损失函数和第二回归损失函数的过程，可以包括如下步骤：

首先，根据第二造假语义特征样本、第二真实语义特征样本确定与第二造假语义特征样本和第二真实语义特征样本对应的第二置信度标签和第二偏移值标签。

在本公开的示例性实施例中，第二造假语义特征样本对应的第二置信度标签是1，第二真实语义特征样本对应的第二置信度标签是0。第二造假语义特征样本和第二真实语义特征样本对应的第二偏移值标签是第二造假语义特征样本和第二真实语义特征样本所对应的的位置与造假区域所对应的位置之间的偏移量，即，是第二造假语义特征样本和第二真实语义特征样本位置对应的四个坐标与造假区域对应的四个坐标之间的差值。

然后，将第二造假语义特征样本、第二真实语义特征样本、第二造假噪声语义特征样本和第二真实噪声语义特征样本输入待训练双线性池化层632，通过待训练双线性池化层632进行特征融合，以获得造假融合特征样本和真实融合特征样本。

在本公开的示例性实施例中，在根据第二造假语义特征样本、第二真实语义特征样本、第二造假噪声语义特征样本和第二真实噪声语义特征样本进行特征融合之前，还可以获取第二造假语义特征样本、第二真实语义特征样本对应的感兴趣语义特征。并将第二造假噪声语义特征样本和第二真实噪声语义特征样本输入待训练第二感兴趣区域池化层631，通过待训练第二感兴趣区域池化层631进行特征提取，以得到与各第二造假噪声语义特征样本和第二真实噪声语义特征样本对应的感兴趣噪声语义特征。

最后，根据造假融合特征样本和真实融合特征样本确定第二预测置信度和第二预测偏移值，根据第二预测置信度与第二置信度标签确定第二分类损失函数，并根据第二预测偏移值与第二偏移值标签确定第二回归损失函数。

在本公开的示例性实施例中，分别将各第二造假语义特征样本和各第二真实语义特征样本对应的感兴趣语义特征输入待训练第二分类器633和待训练第二回归器634中，以得到与各第二造假语义特征样本和各第二真实语义特征样本对应的第二预测置信度和第二预测偏移值。

在本公开的示例性实施例中，该第二分类损失函数和第二回归损失函数可以是交叉熵损失函数，还可以是smooth损失函数，还可以是其它类型的损失函数。且该第二分类损失函数和第二回归损失函数可以相同，也可以不同，比如，该第二分类损失函数可以是交叉熵损失函数，该第二回归损失函数可以是smooth_L1损失函数，本公开对第二分类损失函数和第二回归损失函数的类型不作具体限定。

继续参照图7所示，在步骤S750中，将各造假语义特征输入待训练图像分割单元640，通过待训练图像分割单元640进行特征提取，以获得第三分类损失函数。

图10示出了获取第三分类损失函数的方法流程示意图，如图10所示，该流程至少包括步骤S1010至步骤S1030，详细介绍如下：

在步骤S1010中，获取造假区域的造假像素点，根据造假像素点确定造假图像上各像素点对应的置信度分布标签。

在本公开的示例性实施例中，将造假区域上的造假像素点对应的置信度设置为1，将造假图像上除过造假区域的像素点对应的置信度设置为0，以获取造假图像上的置信度分布标签。

在步骤S1020中，将造假语义特征样本输入待训练图像分割单元640，通过待训练图像分割单元640进行特征提取，以获得与造假语义特征对应的预测置信度分布。

在本公开的示例性实施例中，将造假语义特征输入待训练图像分割单元640进行训练的过程详细介绍如下：

首先，将造假语义特征输入待训练反卷积神经网络层641，通过待训练反卷积神经网络层641进行特征还原，以得到与造假语义特征对应的图像特征。

接着，将造假语义特征对应的图像特征输入待训练上采样层642，通过待训练上采样层642进行特征扩充，以得到与造假图像对应的造假特征分布图。造假特征分布图包括在造假图像的每个像素点处分布有造假语义特征对应的图像特征。

最后，将造假特征分布图输入待训练第三分类器643中，以得到造假图像上的预测置信度分布图。其中，预测置信度分布图包括在造假图像上分布着每个像素点的预测置信度，即在每个像素点处分布有该像素点为造假像素点的概率。

在步骤S1030中，根据预测置信度分布和置信度分布标签确定第三分类损失函数。

在本公开的示例性实施例中，该第三分类损失函数可以是交叉熵损失函数，还可以是smooth损失函数，还可以是其它类型的损失函数。比如，该第三分类损失函数可以是交叉熵损失函数，本公开对第三分类损失函数的类型不作具体限定。

继续参照图7所示，在步骤S760中，根据第一分类损失函数、第一回归损失函数、第二分类损失函数、第二回归损失函数和第三分类损失函数确定目标损失函数，通过调整待训练图像检测系统610、待训练区域选取单元620、待训练区域精修单元630和待训练图像分割单元640的参数，直至目标损失函数达到最小，以获得图像检测系统200。

在本公开的示例性实施例中，可以根据目标损失函数通过优化器自动调整待训练图像检测系统610、待训练区域选取单元620、待训练区域精修单元630和待训练图像分割单元640的参数。其中，优化器可以是Adam优化器，还可以是AdaDelta优化器等，本公开对此不作具体限定。比如，将目标损失函数输入Adam优化器中，通过Adam优化器自动调整参数。

在本公开的示例性实施例中，还可以根据第一分类损失函数和/或第一回归损失函数调整待训练区域选取单元620的参数，以获得区域选取单元220。

在本公开的示例性实施例中，还可以根据第二分类损失函数和/或第二回归损失函数调整待训练区域精修单元630的参数，以获得区域精修单元230。

在本公开的示例性实施例中，还可以根据第三分类损失函数调整待训练图像分割单元640的参数，以获得图像分割单元240。

在本公开的示例性实施例中，可以根据第一分类损失函数和/或第一回归损失函数和/或第二分类损失函数和/或第二回归损失函数和/或第三分类损失函数调整待训练图像检测系统600的参数，以获得图像检测系统200。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。本发明提供的上述方法还可以由GPU执行，或由CPU和GPU联合执行。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

以下介绍本公开的装置实施例，可以用于执行本公开上述的图像检测方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的图像检测方法的实施例。

图11示意性示出了根据本公开的一个实施例的图像检测装置的框图。

参照图11所示，根据本公开的一个实施例的图像检测装置1100，该图像检测装置1100应用于图像检测系统200，该图像检测系统200包括残差神经网络210、区域选取单元220、区域精修单元230和图像分割单元240。该图像检测装置1100包括：特征获取模块1101、区域选取模块1102、区域精修模块1103和置信度确定模块1104。具体地：

特征获取模块1101，用于获取待检测图像对应的噪声图，分别将待检测图像和噪声图输入残差神经网络210中，以获取待检测图像的语义特征和噪声图的噪声语义特征；

区域选取模块1102，用于根据语义特征通过区域选取单元220确定多个第一区域和与各第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域；

区域精修模块1103，用于根据噪声语义特征和语义特征通过区域精修单元230确定各第二区域对应的第二置信度，并将满足第二阈值的第二置信度所对应的第二区域作为目标区域；

置信度确定模块1104，用于根据语义特征通过图像分割单元240确定待检测图像的置信度分布图，根据目标区域和置信度分布图确定待检测图像的目标置信度。

在本公开的示例性实施例中，区域选取模块1102还可以用于在待检测图像中获取多个检测区域；分别将与各检测区域对应的语义特征输入第一卷积神经网络层221，通过第一卷积神经网络层221进行特征提取，以得到与各检测区域对应的深度语义特征；分别将与各检测区域对应的深度语义特征输入第一感兴趣区域池化层222，通过第一感兴趣区域池化层222进行特征提取，以得到与各检测区域对应的感兴趣语义特征；分别将各检测区域和与各检测区域对应的感兴趣语义特征输入第一分类器223和第一回归器224中，以得到多个第一区域和与各第一区域对应的第一置信度，其中，区域选取单元220包括第一卷积神经网络层221、第一感兴趣区域池化层222和第一分类器223和第一回归器224。

在本公开的示例性实施例中，区域选取模块1103还可以用于根据噪声语义特征获取各第一区域对应的噪声语义特征；分别将各第一区域对应的噪声语义特征输入第二感兴趣区域池化层231，通过第二感兴趣区域池化层231进行特征提取，以得到与各第一区域对应的感兴趣噪声语义特征；分别将各第一区域对应的感兴趣噪声语义特征和感兴趣语义特征输入双线性池化层232，通过双线性池化层232进行特征融合，以得到与各第一区域对应的融合语义特征；分别将各第一区域对应的融合语义特征输入第二分类器233和第二回归器234中，以得到多个第二区域和与各第二区域对应的第二置信度，其中，区域精修单元230包括第二感兴趣区域池化层231、双线性池化层232和第二分类器233和第二回归器234。

在本公开的示例性实施例中，区域选取模块1104还可以用于将语义特征输入反卷积神经网络，通过反卷积神经网络进行特征还原，以得到与语义特征对应的图像特征；将图像特征输入上采样层242，通过上采样层242进行特征扩充，以得到与待检测图像对应的特征分布图；将特征分布图输入第三分类器243中，以得到待检测图像的置信度分布图，其中，图像分割单元240包括反卷积神经网络层241、上采样层242和第三分类器243。

在本公开的示例性实施例中，区域选取模块1104还可以用于根据目标区域在置信度分布图上获取与目标区域对应的多个置信度；根据多个置信度计算置信度均值，将置信度均值作为目标区域的目标置信度，并根据目标区域的目标置信度确定待检测区域的目标置信度。

在本公开的示例性实施例中，该图像检测装置1100还可以包括训练模块(图中未示出)，该训练模块用于获取多个真实图像和与各真实图像对应的造假图像，根据各真实图像和与各真实图像对应的造假图像生成多个训练样本对；其中，各造假图像上包括造假区域；获取各训练样本对对应的的训练噪声样本对，训练噪声样本对包括真实噪声图和造假噪声图；将各训练样本对和各训练噪声样本对输入至待训练图像检测系统600，根据各训练样本对和各训练噪声样本对对待训练图像检测系统600进行训练，以获得图像检测系统200。

上述各图像检测装置的具体细节已经在对应的图像检测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图12来描述根据本发明的这种实施方式的电子设备1200。图12显示的电子设备1200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230、显示单元1240。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1210执行，使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1210可以执行如图1中所示的步骤S110，获取待检测图像对应的噪声图，分别将待检测图像和噪声图输入残差神经网络210中，以获取待检测图像的语义特征和噪声图的噪声语义特征；步骤S120，根据语义特征通过区域选取单元220确定多个第一区域和与各第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域；步骤S130，根据噪声语义特征和语义特征通过区域精修单元230确定各第二区域对应的第二置信度，并将满足第二阈值的第二置信度所对应的第二区域作为目标区域；步骤S140，根据语义特征通过图像分割单元240确定待检测图像的置信度分布图，根据目标区域和置信度分布图确定待检测图像的目标置信度。

存储单元1220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)12201和/或高速缓存存储单元12202，还可以进一步包括只读存储单元(ROM)12203。

存储单元1220还可以包括具有一组(至少一个)程序模块12205的程序/实用工具12204，这样的程序模块12205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1200也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得观众能与该电子设备1200交互的设备通信，和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且，电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图12所示，网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图13所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品1300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种图像检测方法，其特征在于，应用于图像检测系统，所述图像检测系统包括残差神经网络、区域选取单元、区域精修单元和图像分割单元，所述方法包括：

获取待检测图像对应的噪声图，分别将所述待检测图像和所述噪声图输入所述残差神经网络中，以获取所述待检测图像的第一语义特征和所述噪声图的噪声语义特征；

根据所述第一语义特征通过所述区域选取单元确定多个第一区域和与各所述第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域；

根据所述噪声语义特征和所述第一语义特征通过所述区域精修单元确定各所述第二区域对应的第二置信度，并将满足第二阈值的第二置信度所对应的第二区域作为目标区域；

根据所述噪声语义特征和所述第一语义特征通过所述图像分割单元确定所述待检测图像的置信度分布图，根据所述目标区域和所述置信度分布图确定所述待检测图像的目标置信度；

其中，所述区域精修单元包括第二感兴趣区域池化层、双线性池化层和第二分类器和第二回归器；

所述噪声语义特征和所述第一语义特征通过所述区域精修单元确定各所述第二区域对应的第二置信度，包括：

根据所述噪声语义特征获取各所述第一区域对应的噪声语义特征；

分别将各所述第一区域对应的噪声语义特征输入所述第二感兴趣区域池化层，通过所述第二感兴趣区域池化层进行特征提取，以得到与各所述第一区域对应的感兴趣噪声语义特征；

分别将各所述第一区域对应的感兴趣噪声语义特征和感兴趣语义特征输入所述双线性池化层，通过所述双线性池化层进行特征融合，以得到与各所述第一区域对应的融合语义特征；

分别将各所述第一区域对应的融合语义特征输入所述第二分类器和所述第二回归器中，以得到多个所述第二区域和与各所述第二区域对应的第二置信度；

其中，所述图像分割单元包括反卷积神经网络层、上采样层和第三分类器；

根据所述噪声语义特征和所述第一语义特征通过所述图像分割单元确定所述待检测图像的置信度分布图，包括：

将所述噪声语义特征和所述第一语义特征输入所述反卷积神经网络层，通过所述反卷积神经网络层进行特征还原，以得到对应的图像特征；

将所述图像特征输入所述上采样层，通过所述上采样层进行特征扩充，以得到与所述待检测图像对应的特征分布图；

将所述特征分布图输入所述第三分类器中，以得到所述待检测图像的置信度分布图。

2.根据权利要求1所述的图像检测方法，其特征在于，所述区域选取单元包括第一卷积神经网络层、第一感兴趣区域池化层和第一分类器和第一回归器；

根据所述第一语义特征通过所述区域选取单元确定多个第一区域和与各所述第一区域对应的第一置信度，包括：

在所述待检测图像中获取多个检测区域；

分别将与各所述检测区域对应的第一语义特征输入所述第一卷积神经网络层，通过所述第一卷积神经网络层进行特征提取，以得到与各所述检测区域对应的深度语义特征；

分别将与各所述检测区域对应的深度语义特征输入所述第一感兴趣区域池化层，通过所述第一感兴趣区域池化层进行特征提取，以得到与各所述检测区域对应的感兴趣语义特征；

分别将各所述检测区域和与各所述检测区域对应的感兴趣语义特征输入所述第一分类器和所述第一回归器中，以得到多个所述第一区域和与各所述第一区域对应的第一置信度。

3.根据权利要求2所述的图像检测方法，其特征在于，分别将各所述检测区域和与各所述检测区域对应的感兴趣语义特征输入所述第一分类器和所述第一回归器中，以得到多个所述第一区域和与各所述第一区域对应的第一置信度，包括：

分别将各所述检测区域与各所述检测区域对应的感兴趣语义特征输入所述第一回归器中，以得到各所述检测区域对应的偏移值，根据各所述检测区域对应的偏移值确定多个所述第一区域；

分别将各所述检测区域与各所述检测区域对应的感兴趣语义特征输入所述第一分类器中，以得到各所述第一区域对应的第一置信度。

4.根据权利要求1所述的图像检测方法，其特征在于，分别将各所述第一区域对应的融合语义特征输入所述第二分类器和所述第二回归器中，以得到多个所述第二区域和与各所述第二区域对应的第二置信度，包括：

分别将各所述第一区域与各所述第一区域对应的融合语义特征输入所述第二回归器中，以得到各所述第一区域对应的偏移值，根据各所述第一区域对应的偏移值确定所述第二区域；

分别将各所述第一区域与各所述第一区域对应的融合语义特征输入所述第二分类器中，以得到所述第二区域对应的第二置信度。

5.根据权利要求1所述的图像检测方法，其特征在于，根据所述目标区域和所述置信度分布图确定所述待检测图像的目标置信度，包括：

根据所述目标区域在所述置信度分布图上获取与所述目标区域对应的多个置信度；

根据所述多个置信度计算置信度均值，将所述置信度均值作为所述目标区域的目标置信度，并根据所述目标区域的目标置信度确定所述待检测图像的目标置信度。

6.一种图像检测装置，其特征在于，应用于图像检测系统，所述图像检测系统包括残差神经网络、区域选取单元、区域精修单元和图像分割单元，所述装置包括：

特征获取模块，用于获取待检测图像对应的噪声图，分别将所述待检测图像和所述噪声图输入残差神经网络中，以获取所述待检测图像的第一语义特征和所述噪声图的噪声语义特征；

区域选取模块，用于根据所述第一语义特征通过所述区域选取单元确定多个第一区域和与各所述第一区域对应的第一置信度，并将满足第一阈值的第一置信度所对应的第一区域作为第二区域；

区域精修模块，用于根据所述噪声语义特征和所述第一语义特征通过所述区域精修单元确定各所述第二区域对应的第二置信度，并将满足第二阈值的第二置信度所对应的第二区域作为目标区域；

置信度确定模块，用于根据所述噪声语义特征和所述第一语义特征通过所述图像分割单元确定所述待检测图像的置信度分布图，根据所述目标区域和所述置信度分布图确定所述待检测图像的目标置信度；

所述区域精修模块还用于：根据所述噪声语义特征获取各所述第一区域对应的噪声语义特征；分别将各所述第一区域对应的噪声语义特征输入所述第二感兴趣区域池化层，通过所述第二感兴趣区域池化层进行特征提取，以得到与各所述第一区域对应的感兴趣噪声语义特征；分别将各所述第一区域对应的感兴趣噪声语义特征和感兴趣语义特征输入所述双线性池化层，通过所述双线性池化层进行特征融合，以得到与各所述第一区域对应的融合语义特征；分别将各所述第一区域对应的融合语义特征输入所述第二分类器和所述第二回归器中，以得到多个所述第二区域和与各所述第二区域对应的第二置信度；

所述置信度确定模块还用于：将所述噪声语义特征和所述第一语义特征输入所述反卷积神经网络层，通过所述反卷积神经网络层进行特征还原，以得到对应的图像特征；将所述图像特征输入所述上采样层，通过所述上采样层进行特征扩充，以得到与所述待检测图像对应的特征分布图；将所述特征分布图输入所述第三分类器中，以得到所述待检测图像的置信度分布图。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至5中任一项所述的图像检测方法。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的图像检测方法。