CN109934216B

CN109934216B - 图像处理的方法、装置、计算机可读存储介质

Info

Publication number: CN109934216B
Application number: CN201711378911.8A
Authority: CN
Inventors: 顾子晨; 龚怡宏; 陶小语
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2021-05-11
Anticipated expiration: 2037-12-19
Also published as: CN109934216A

Abstract

本申请提供了一种图像处理的方法和装置。该方法包括：将待检测图像划分为互不重叠的Q个网格，其中，Q为大于1的整数，该Q个网格中的第p个网格属于K(p)个区域，其中，p＝1，2，…，Q，K(p)为大于1的整数，该K(p)个区域在该待检测图像上占用的区域不同；针对该K(p)个区域中任意一个区域在高层特征图上截取子特征图，根据特征图对该K(p)个区域内待检测目标进行分类和定位。本申请可以使同一个位置被划分到不同尺度的区域上，这样在高层特征图上可以提取对应该位置的不同尺度的子特征图，使得在该位置提取到的子特征图更加全面和准确，从而能够提高生成的目标候选区域的质量，提升目标检测系统的性能。

Description

图像处理的方法、装置、计算机可读存储介质

技术领域

本申请涉及图像处理领域，并且更具体地，涉及一种图像处理的方法、装置、计算机可读存储介质。

背景技术

目标检测是计算机视觉领域的一项基本任务，旨在识别并定位出图像或视频中感兴趣的目标，在工业界有着非常广泛的应用。目标检测需要识别出图像中出现的属于预定义类别的目标，并以检测框的形式准确地定位每一个目标。因而，目标检测任务主要面临着两方面的挑战：

(1)需要将目标从复杂的背景中区分出来；

(2)需要调优目标的候选框，使他们更加接近目标真实边框，来获取更高的准确度。

随着深度学习的出现，近期的目标检测系统大都基于深度神经网络。现有的卷积神经网络目标检测系统通常分为候选框生成和候选框区域内的目标分类两个阶段。在候选框区域内的目标分类阶段，通常做法是将预训练的卷积网络作为特征提取模块嵌入到目标检测系统中，并在特定的检测任务上进行优化。例如，基于区域的卷积网络加速版(fastregion-based convolutional neural network，Fast R-CNN)目标检测器，将卷积网络嵌入作为特征提取模块，对每个候选区域提取特征并进行分类和定位。

而关于候选区域的生成，业内性能领先的目标检测系统多采用候选区域网络(region proposal network，RPN)来实现。然而，RPN网络在目标判别上存在着一些问题。一方面，RPN仅采用“目标/非目标”二类标签进行训练，学习得到的分类器缺少对复杂特征的判别力，预测时容易将背景误报为目标。另一方面，RPN在卷积神经网络(convolutionalneural network，CNN)的高层特征上采用3×3的滑动窗口提取特征，这会造成较大目标的感受野远小于目标本身的尺度，导致目标信息的丢失。

鉴于上述问题，一些研究工作试图直接将RPN的二类分类层改为多类分类层，但是根据固定的3×3的滑动窗口提取的特征来预测多类目标，效果并不好，因而生成的目标候选区域质量不高，导致目标检测系统性能较差。

发明内容

本申请提供一种图像处理的方法、装置、计算机可读存储介质，能够提高生成的目标候选区域的质量，从而提升目标检测系统的性能。

第一方面，提供了一种图像处理方法，包括：将待检测图像划分为互不重叠的Q个网格，其中，Q为大于1的整数，所述Q个网格中的第p个网格属于K(p)个区域，其中，p＝1，2，…，Q，K(p)为大于1的整数，所述K(p)个区域在所述待检测图像上占用的区域不同；遍历p的所有取值，针对所述K(p)个区域中第p(a)个区域进行以下处理，其中，p(a)＝1,2，…，K(p)：确定所述第p(a)个区域在所述待检测图像的高层特征图的第一对应区域，将所述第一对应区域作为所述第p(a)个区域的第一子特征图，所述高层特征图是所述待检测图像经过预设的多层卷积神经网络计算得到的；根据所述第一子特征图和预设类别信息，计算所述第p(a)个区域中的待检测目标分别属于各个类别的概率，所述预设类别信息包括待检测目标的至少一个类别的类别信息，所述第p(a)个区域的锚窗与所述第p(a)个区域在所述待检测图像上占用的区域相同；选择概率大于第一预设值的第一类别；确定所述第一类别的第一目标候选区域相对于所述第p(a)个区域的锚窗的第一偏移量；根据所述第一偏移量，以及所述第p(a)个区域的锚窗的坐标，计算所述第一类别的第一目标候选区域的坐标；根据所述第一类别的第一目标候选区域的坐标和类别，得到所述待检测目标的类别和坐标。

上述技术方案中每个网格属于至少两个不同的区域，意味着同一个位置被划分到不同尺度的区域上，这样在高层特征图上可以提取对应该位置的不同尺度的子特征图，使得在该位置提取到的子特征图更加全面和准确，从而能够提高生成的目标候选区域的质量，提升目标检测系统的性能。

此外，上述技术方案为K(p)个区域分别设置一个与K(p)区域中的每个区域在待检测图像上占用的区域相同的锚窗，这样可以用较少的锚窗覆盖各目标的位置和尺度，从而提升目标检测系统的性能。

在一种可能的实现方式中，在将所述待检测图像划分为互不重叠的Q个网格之前，所述方法还包括：根据所述至少一个类别的类别信息，确定所述K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例，其中，所述K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例相同。

上述技术方案根据待检测目标的类别信息，确定K(p)个区域的尺度，这样对于不同尺度的目标，可以提取与其尺度相应的子特征图，使得提取到的子特征图更加全面和准确，从而能够提高生成的目标候选框区域的质量，提升目标检测系统的性能。

在一种可能的实现方式中，所述K(p)个区域占用的网格数量，在宽度方向上按照第一网格数量递增；和/或，所述K(p)个区域占用的网格数量，在高度方向上按照第二网格数量递增。

上述技术方案中，K(p)个区域在宽度方向上和/或在高度方向上占用的网格数量递增，使得K(p)个区域至少部分较大的区域包括至少一个较小的区域，使得提取到的子特征图更加全面和准确，从而能够提高生成的目标候选框区域的质量，提升目标检测系统的性能。

在一种可能的实现方式中，在所述确定所述第p(a)个区域在所述待检测图像的高层特征图的对应区域，将所述对应区域作为所述第p(a)个区域的第一子特征图之后，以及，在所述根据所述第一子特征图和预设类别信息，计算所述第p(a)个区域中的待检测目标分别属于各个类别的概率之前，所述方法还包括：对所述第p(a)个区域的第一子特征图按照变换算法进行尺度变换，使得所述第p(a)个区域的第一子特征图的尺度与预设尺度一致，所述变换算法包括降采样。

上述技术方案将尺度不同的子特征图变换为尺度相同的子特征图之后再计算概率，使得得到的概率更加准确，进而能够提高生成的目标候选区域的质量，从而提升目标检测系统的性能。

在一种可能的实现方式当中，所述对所述第p(a)个区域的子特征图按照变换算法进行尺度变换，包括：根据所述第p(a)个区域的第一子特征图的尺度和所述预设尺度，计算采样窗口；使用所述采样窗口，遍历所述第p(a)个区域的第一子特征图；将遍历过程中每次采样得到的特征中的最大值，作为所述采样窗口所在当前位置的采样输出，以得到所述第p(a)个区域的第一子特征图。

上述技术方案通过最大值降采样的方法得到尺度相同的子特征图，便于后续的计算，并且可以减少参数和计算量，从而提升目标检测系统的性能。

在一种可能的实现方式中，所述根据所述第一类别的第一目标候选区域的坐标和类别，得到所述待检测目标的类别和坐标，包括：将所述第一类别的第一目标候选区域，以预设步长，向至少一个方向偏移，得到所述第一类别的第二目标候选区域；根据所述第一类别的第一目标候选区域和所述第一类别的第二目标候选区域，得到所述待检测目标的类别和坐标。

上述技术方案在第一初步目标候选区域所在位置进一步生成第二初步目标候选区域，可以得到对该位置更密集的采样，进而能够提高生成的目标候选框的质量，从而提升目标检测系统的性能。

在一种可能的实现方式中，所述根据所述第一类别的第一目标候选区域和所述第一类别的第二目标候选区域，得到所述待检测目标的类别和坐标，包括：针对所述第一类别的第一目标候选区域和所述第一类别的第二目标候选区域中的第p(a，b)个目标候选区域进行以下处理，其中，所述第一目标候选区域和所述第二目标区域的区域总数量为L(a)，所述p(a，b)＝1,2，…，L(a)：确定所述第p(a，b)个目标候选区域在所述高层特征图的第二对应区域，将所述第二对应区域作为第二子特征图；根据所述第二子特征图和所述预设类别信息，计算所述第p(a，b)个目标候选区域中的待检测目标分别属于各个类别的概率；选择概率大于第二预设值的第二类别；确定所述第二类别的第三目标候选区域相对于所述第p(a，b)个目标候选区域的第二偏移量；根据所述第二偏移量，以及所述第p(a，b)个目标候选区域的坐标，计算所述第二类别的第三目标候选区域的坐标；根据所述第二类别的第三目标候选区域的坐标和类别，使用非极大值抑制NMS算法，得到所述待检测目标的类别和坐标。

上述技术方案对质量更高的目标候选区域进一步分类和定位，从而可以进一步提高得到的目标候选区域的质量，提升目标检测系统的性能。

第二方面，提供了一种图像处理装置，包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的模块。

第三方面，提供了一种图像处理装置，包括存储器和处理器，所述存储器用于存储计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被执行时，所述处理器用于执行上述第一方面或第一方面的任意可能的实现方式中的方法。

第四方面，提供了一种计算机存储介质，包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如上述第一方面或第一方面的任意可能的实现方式中所述的方法。

第五方面，提供了一种包含指令的计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如上述第一方面或第一方面的任意可能的实现方式中所述的方法。

附图说明

图1是可应用本申请实施例的系统架构的示意图。

图2是现有RPN网络产生目标候选框的方法的示意图。

图3是本申请实施例提供的图像处理方法的示意性流程图。

图4是本申请实施例中在待检测图像上划分区域的示意图

图5是图3中310中的一种可能的实现方式的示意性流程图。

图6是本申请另一实施例提供的图像处理方法的示意性流程图。

图7是是本申请另一实施例提供的图像处理方法的示意性流程图。

图8是本申请实施例生成目标候选框的方法的示意图。

图9是图3、图6和图7中370的一种可能的实现方式的示意性流程图。

图10是图3、图6和图7中370的另一种可能的实现方式的示意性流程图。

图11是应用本申请实施例和现有RPN网络的目标召回率变化曲线的示意图。

图12是应用本申请实施例和现有RPN网络的目标覆盖率的示意图。

图13是本申请实施例提供的图像处理装置的示意性结构图。

图14是本申请另一实施例提供的图像处理装置的示意性结构图。

图15是本申请另一实施例提供的图像处理装置的示意性结构图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了方便理解本申请的技术方案，首先对现有的技术方案进行介绍。

目标检测的关键在于精准地将感兴趣的目标从场景中定位出来，并正确的判定目标的类别。目标检测系统通常采用两阶段来定位和识别感兴趣的目标，即候选区域阶段与区域检测阶段。候选区域阶段旨在从目标可能出现的位置、尺度中找到几百或上千个目标候选框，使目标被全部包含在这些目标候选框中。区域检测阶段对这些目标候选框中潜在的目标进行进一步识别、定位，从而准确的判定出目标的类别。目标检测系统可以采用以下技术方案。首先，基于几何特征或图分割算法计算生成目标的候选框，例如，基于几何特征的候选框算法(二值规范化梯度(binarized normed gradients，BING)算法、边界候选框(edgeboxes)算法等)，基于图分割的候选框算法(选择性搜索(selective search，SS)算法、多尺度组合分组(multiscale combinatorial grouping，MCG)算法、约束参数最小割(constrained parametric min-cuts，CPMC)算法等)。其次，基于人工设计的局部描述子，例如，尺度不变特征变换(scale-invariant feature transform，SIFT)、方向梯度直方图(histogram of oriented gradient，HOG)、局部二值特征(local binary patterns，LBP)等，对每个目标候选框提取特征。然后，使用支持向量机(support vector machine，SVM)或自适应提升(adaptive boosting，Adaboost)分类器对候选框特征进行打分。最后，选取得分显著的目标候选框，采用非极大值抑制(non-maximum suppression，NMS)算法进行合并。

上文提到的目标检测系统在深度学习出现前有着较多的应用，但受限于较简单的模型复杂度和较小的训练数据规模，在实际的目标检测任务上精度有限。为了达到更精确的检测结果，该目标检测系统需要产生质量较好的目标候选框，但同时也意味着更高的计算代价。例如，基于Selective Search算法产生候选框，单张图片需要2s的计算时间。此外，使用人工设计的局部描述子提取的特征表达能力有限，无法应对真实场景下复杂的环境和角度、外观多变的目标，精度有限。该目标检测系统受限于两阶段的检测框架，因而无法高效地进行端对端的检测。

随着深度学习的出现，近期的目标检测系统大都基于深度神经网络。现有的卷积神经网络目标检测系统通常分为目标候选框生成和候选框区域内的目标分类两个阶段，如图1所示，将待检测图像输入到候选区域网络，经过候选区域网络生成目标候选框，再将目标候选框输入到区域内目标分类网络中进行分类和定位，实现目标检测。目前，基于深度卷积神经网络，候选区域阶段通用的模型为RPN，而区域检测阶段通用的模型为Fast R-CNN。

图2是现有RPN网络产生目标候选框的方法的示意图，如图2所示，在目标候选框生成阶段，RPN网络在卷积网络高层特征图上，使用3×3的滑窗滤波器来捕获图像各个位置的特征，并将各个位置的特征分别对应到k个不同尺度和宽高比的锚窗上，例如，位置A对应k个不同尺度和宽高比的锚窗，位置B同样对应k个不同尺度和宽高比的锚窗，并且位置A和位置B分别对应的k个锚窗尺度和宽高比相同。生成目标候选框时，将各个位置的特征输入到一个中间层(例如，回归网络、全连接网络等)中，对每个锚窗判定“目标/非目标”二类得分，得到2k个得分，并计算相应的坐标(包括中心点横纵坐标、宽度和高度)。选取目标得分高的锚窗，并将坐标换算为目标候选框。

采用RPN网络生成目标候选框，一方面，在卷积网络高层特征图上，仅使用一个3×3的滑窗提取的特征来判定相应位置处是否为目标，但是较小的滑窗对应的目标感受野较小，会造成检测大物体只利用了物体中心部分的特征，容易与纹理、颜色相似的背景区块混淆，造成误报，进而引起随后的Fast R-CNN检测器容易产生背景误检。另一方面，RPN在训练回归网络时仅将图像中的元素判定为“目标/非目标”，而没有充分使用物体的类别标注，这会导致模型难以学到目标类别所关联的特征，从而缺乏对目标的判别力。

针对上述问题，本申请实施例提供一种图像处理的方法，能够提高生成的目标候选框的质量，从而提升目标检测系统的性能。

本申请实施例提供的图像处理的方法可以应用于目标检测系统的训练过程中，也可以应用于目标检测系统的检测或实际使用过程中，本申请对此不做限定。

本申请实施例可应用于图1所示的场景中，下面结合图3对本申请实施例进行详细描述。

图3是本申请实施例提供的图像处理的方法的示意性流程图。图3的方法可以由图像处理装置执行。该图像处理装置可以是独立的装置，也可以是目标检测系统中的一部分。图3的方法可以包括以下内容中的至少部分内容。

在310中，将待检测图像划分为互不重叠的Q个网格，其中，Q为大于1的整数，该Q个网格中的第p个网格属于K(p)个区域，其中，p＝1，2，…，Q，K(p)为大于1的整数，该K(p)个区域在该待检测图像上占用的区域不同。

在320中，确定该K(p)个区域中第p(a)个区域在该待检测图像的高层特征图的第一对应区域，将该第一对应区域作为该第p(a)个区域的第一子特征图，其中，p(a)＝1,2，…，K(p)。

在330中，根据该第一子特征图和预设类别信息，计算该第p(a)个区域中的待检测目标分别属于各个类别的概率。

其中，该预设类别信息包括至少一个类别的类别信息，该第p(a)个区域的锚窗与该第p(a)个区域在待检测图像上占用的区域相同。

在340中，选择概率大于第一预设值的第一类别。

在350中，确定该第一类别的第一目标候选区域相对于该第p(a)个区域的锚窗的第一偏移量。

在360中，根据该第一偏移量，以及该第p(a)个区域的锚窗的坐标，计算该第一类别的第一目标候选区域的坐标。

在370中，根据该第一类别的第一目标候选区域的坐标和类别，得到该待检测目标的类别和坐标。

可选地，目标候选区域可以目标候选框的形式呈现。

可选地，待检测目标的坐标包括位置坐标和尺度坐标，可以用于换算出待检测目标的所在区域，例如，待检测目标的坐标可以是b＝(x,y,w,h)的形式，其中x和y可以表示目标所在区域的中心点，w可以表示目标所在区域的宽度，h可以表示目标所在区域的高度，可以体现出目标的位置和尺度。

可选地，上述技术方案仅以该K(p)个区域中的每个区域与锚窗一一对应为例，对本申请不构成限定，若情况允许，该多个区域中的每个区域也可以与多个尺度不同的锚窗对应。

下面分别对310-370进行详细描述。

其中，K(p)表示第p个网格对应的至少两个区域。

应理解，待检测图像可以是单独的图片，当被检测的对象为视频，待检测图像也可以是视频中的每一帧图像。

可选地，当目标检测图像被划分为目标检测训练集和目标检测测试集时，目标检测训练集用于训练目标检测系统，目标检测测试集用于测试目标检测系统或者进行实际检测。该待检测图像可以是目标检测训练集中的图像，也可以是目标检测测试集中的图像。

可选地，当本申请实施例用于目标检测系统的训练过程时，从目标检测训练集中给定一个目标检测训练样本。

例如，给定一个目标检测训练样本(X,B)_i，其中i表示样本编号，X表示红绿蓝(redgreen blue，RGB)三通道输入图像，B＝{(b^*,c^*)_m|m＝1,...,M}表示图中M个待检测目标的边框真值b^*和类别真值c^*，其中b^*＝(x^*,y^*,w^*,h^*)表示边框的中心点坐标和宽高，c^*∈{0,1,...,C}表示类标签取值(共C类)，c^*＝0表示标签为负类(背景类)。

可选地，互不重叠的Q个网格为互不重叠的至少两个网格。

应理解，Q个网格之间互不重叠，意味着待检测图像中的每一部分图像仅被划分到一个网格中，并且待检测图像被Q个网格完全覆盖。

将待检测图像划分为互不重叠的Q个网格有很多种实现方式，本申请实施例不作具体限定。

可选地，将待检测图像平均划分为M×N个网格，其中M为高度方向上待检测图像被划分的网格数量，N为宽度方向上待检测图像被划分的网格数量。

应理解，高度方向和宽度方向仅仅是为了阐述方便，并不特指竖直方向和水平方向，而仅表示相对的方向，例如，随网格划分的形式不同，高度方向和宽度方向可以是相互垂直的，也可以是不垂直的。

可选地，每个网格可以占用至少一个像素点。

可选地，M×N个网格的大小可以相同，也可以大小不相同。

可选地，Q个网格中的第p(a)个网格可以是Q个网格中的任意一个网格，因此，Q个网格中的任意一个网格，都属于至少两个区域。

可选地，K(p)个区域在该待检测图像上占用的区域不同可以是K(p)个区域的尺度不同，也就意味着任意一个区域的尺度与其余K(p)-1个区域的尺度不同。

可选地，区域尺度用于表征区域在宽度方向上和高度方向上所占的网格的数量。

可选地，K(p)个区域的尺度不同可以是在高度方向上和/或宽度方向上占用的网格数量不同，也可以是K(p)个区域占用的网格不同。

可选地，不同网格对应的区域数量可以相同，也可以不同，例如K(1)＝4，K(2)＝4，K(3)＝8。

可选地，对于同一个网格的K(p)个区域，K(p)个区域之间部分重叠，对于不同网格的多组K(p)个区域之间可以全部重叠或者部分重叠，也可以相互不重叠。

可选地，该多个区域中较大的区域包括至少一个较小的区域，意味着较大的区域至少与一个较小的区域的全部区域重叠。其中，同一区域尺度的多个较大的区域包括的较小的区域可以是不同的区域。

可选地，K(p)个区域可以通过遍历Q个网格得到。

可选地，可以按照至少两个区域尺度遍历Q个网格，每种区域尺度可以对应至少一个区域，同一区域尺度对应的多个区域可以部分重叠，也可以存在不重叠的部分。

按照至少两个区域尺度遍历Q个网格有很多种实现方式，本申请实施例不做具体限定。

可选地，可以将该待检测图像平均划分为M×N个网格，在按照至少一个区域尺度中的每个区域尺度，遍历该M×N的网格，得到该多个区域，其中，该每个区域尺度宽度方向占用至少一个网格以及高度方向占用至少一个网格。

可选地，M和N可以相同，也可以不同，具体可以根据待检测图像的大小确定和/或实际需求确定。

应理解，平均划分得到的M×N个网格之间的宽高均相同，但本申请实施例并不限于此，不同网格的宽和/或高也可以不相同。可选地，对于特定的区域尺度，在宽度方向和高度方向上占用的网格的数量可以相同，例如，高度方向上占用1个网格且宽度方向上占用1个网格，或者，高度方向上占用2个网格且宽度方向上占用2个网格；在宽度方向和高度方向上占用的网格的数量也可以不相同，例如，高度方向上占用1个网格且宽度方向上占用2个网格，或者，高度方向上占用2个网格且宽度方向上占用3个网格。

可选地，针对特定的区域尺度，遍历可以是指每个网格都被划分到至少一个区域。

可选地，针对一个区域尺度，可以区域不重叠的遍历，此时，一个网格仅被划分到一个区域，例如，如图4所示，针对区域尺度2×2(宽度方向占用2个网格，高度方向占用2个网格)，可以首先将网格1、2、10和11划分为一个区域，然后将网格3、4、12和13划分为一个区域，然后再将网格5、6、14和15划分为一个区域，依次遍历待检测图像。

可选地，针对一个区域尺度，也可以区域有重叠的遍历，此时，至少部分网格中的每个网格可以被划分到多个区域，例如，首先将网格1、2、10和11划分为一个区域，然后将网格2、3、11和12划分为一个区域，然后再将网格3、4、12和13划分为一个区域，依次遍历待检测图像。

上述针对特定的区域尺度的遍历方式仅为示例，对本申请实施例不构成限定。

遍历该M×N个网格可以有多种实现方式，本申请实施例不做具体限定。

作为一个示例，依然参见图4，可以先将待检测图像划分成大小相同的多个网格，针对各个的网格遍历可能的区域尺度的区域，得到该多个区域，例如，针对网格1遍历可能的区域尺度的区域，以每个区域尺度的宽和高相同为例，则遍历1×1、2×2、3×3、4×4、5×5、6×6、7×7的区域尺度，具体地，将网格1划分为一个区域，将网格1、2、10和11划分为一个区域，将网格1、2、3、10、11、12、19、20和21划分为一个区域，将网格1、2、3、4、10、11、12、13、19、20、21、22、26、27、28和29划分为一个区域，将网格1、2、3、4、5、10、11、12、13、14、19、20、21、22、23、26、27、28、29、30、33、34、35、36和37，将网格1、2、3、4、5、6、10、11、12、13、14、15、19、20、21、22、23、24、26、27、28、29、30、31、33、34、35、36、38、40、41、42、43、44和45划分为一个区域，将网格1、2、3、4、5、6、7、10、11、12、13、14、15、16、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52和53划分为一个区域。

应理解，上述遍历方式中区域尺度由大到小仅为示例，本申请实施例不限于此，例如还可以是从小到大，随机尺度等。

作为另一个示例，同样可以先将待检测图像划分成大小相同的多个网格，针对不同区域尺度，遍历待检测图像的每个位置，得到该多个区域，例如，针对区域尺度2×2，以有重叠部分的遍历方式为例，可以依次将网格1、2、10和11划分为一个区域，将网格2、3、11和12划分为一个区域，将网格3、4、12和13划分为一个区域，将网格4、5、13和14划分为一个区域，将网格5、6、14和15划分为一个区域，将网格6、7、15和16划分为一个区域，将网格7、8、16和17划分为一个区域，将网格8、9、17和18划分为一个区域，将网格10、11、19和20划分为一个区域，将网格11、12、20、21划分为一个区域，…，以此类推。

应理解，上述遍历方式中从左到右、从上到下的遍历顺序仅为示例，本申请实施例不限于此，例如还可以是从左到右、从下到上，从右到左、从上到下，从右到左、从下到上，顺序随机等。

应理解，遍历过程可以有多种实现方式，例如，以固定步长遍历、随机遍历等，本申请实施例不做具体限定。

还应理解，图4中网格的划分仅为示例，对本申请实施例不构成限定。

遍历M×N个网格也就是遍历该待检测图像，上述技术方案得到位置和尺度不同的区域，可以使不同尺度的目标被划分到相应尺度的区域，这样对于不同尺度的目标可以提取与其尺度相应的区域的子特征图，从而能够提高生成的目标候选区域的质量，提升目标检测系统的性能。

可选地，该K(p)个区域在宽度方向上占用的网格数量不同，和/或，该K(p)个区域在高度方向上占用的网格数量不同。

可选地，该K(p)个区域占用的网格数量，在宽度方向上递增，和/或，该K(p)个区域占用的网格数量，在高度方向上递增；该K(p)个区域在宽度方向上占用的网格数量呈等差排列，和/或，该K(p)个区域在高度方向上占用的网格数量呈等差排列。

可选地，该K(p)个区域占用的网格数量，在宽度方向上按照第一网格数量递增，和/或，该K(p)个区域占用的网格数量，在高度方向上按照第二网格数量递增；该K(p)个区域在宽度方向上占用的网格数量按照第一网格数量呈等差排列，和/或，该K(p)个区域在高度方向上占用的网格数量按照第二网格数量呈等差排列。

可选地，该K(p)个区域在宽度方向上占用的网格数量按照第一网格数量呈递增的等差排列，和/或，该K(p)个区域在高度方向上占用的网格数量按照第二网格数量呈递增的等差排列。

可选地，该K(p)个区域在宽度方向上占用的网格数量按照第一网格数量递增，并且，在高度方向上占用的网格数量不变或者按照第二网格数量递增；该至少一个区域尺度在高度方向上占用的网格数量按照第二网格数量递增，并且，在宽度方向上占用的网格数量不变或者按照第一网格数量递增。

可选地，该K(p)个区域在宽度方向上占用的网格数量按照第一网格数量呈递增的等差排列，并且，在高度方向上占用的网格数量不变或者按照第二网格数量呈递增的等差排列；该K(p)个区域在高度方向上占用的网格数量按照第二网格数量呈递增的等差排列，并且，在宽度方向上占用的网格数量不变或者按照第一网格数量呈递增的等差排列。

可选地，第一网格数量与第二网格数量可以相同，也可以不同。

应理解，当K(p)个区域按照至少两个区域尺度遍历Q个网格得到时，该至少两个区域尺度在宽度方向占用的网格递增表示在宽度方向上，不同的区域尺度占用的网格数量不同，并不代表在按照区域尺度进行遍历时，按照宽度方向占用的网格递增进行遍历，和/或，该至少一个区域尺度在高度方向占用的网格递增表示在高度方向上，不同的区域尺度占用的网格数量不同，并不代表在按照区域尺度进行遍历时，按照高度方向占用的网格递增进行遍历。

上述技术方案中，K(p)个区域在宽度方向上和/或在高度方向上占用的网格数量递增，使得K(p)个区域至少部分较大的区域包括至少一个较小的区域，使得提取到的子特征图更加全面和准确，从而能够提高生成的目标候选区域的质量，提升目标检测系统的性能。

作为示例而非限定，图5是图3中310中的一种可能的实现方式的示意图。如图5所示，将待检测图像固定划分为不同空间位置、尺度的区域。

划分时，先将输入图像(也即待检测图像)均分为7×9的网格，然后按照区域尺度1×1、2×2…7×7，依次遍历待检测图像，得到N_S(图中为186)个不同尺度、位置的区域，并能覆盖输入图像的各个部分。这些区域构成了网格划分集R_S＝{s_i|s_i＝(x_s,y_s,w_s,h_s)_i,i＝1,...,N_S}，其中N_S为网格区域的数量，s_i＝(x_s,y_s,w_s,h_s)_i表示区域s_i的中心点坐标和宽度、高度。

应理解，上述实现方式仅以将输入图像均分为7×9的网格为例，本申请实施例不限于此，例如还可以是将输入图像均分为7×8的网格，还可以是将输入图像均分为9×9的网格。

应理解，上述实现方式仅以按照区域尺度1×1、2×2…7×7，依次遍历待检测图像为例，本申请实施例不限于此，例如还可以是按照区域尺度1×2、2×3…7×8，依次遍历待检测图像，还可以是按照区域尺度7×7、5×5…1×1，依次遍历待检测图像。

上述技术方案得到位置和尺度不同的区域，可以使不同尺度的目标被划分到相应尺度的区域，这样对于不同尺度的目标可以提取与其尺度相应的区域的子特征图，从而能够提高生成的目标候选区域的质量，提升目标检测系统的性能。

图6是本申请另一实施例提供的图像处理方法的示意性流程图。如图6所示，在310之前，还可以执行610。

在610中，根据至少一个类别的类别信息，确定该K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例。

可选地，待检测目标的类别信息可以是预设的，也可以是以其他方式输入系统中的。

可选地，根据待检测目标的类别信息确定该K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例，也即，该K(p)个区域的宽高比。例如，针对行人，可以固定高比宽为2；针对汽车，固定高比宽为0.5；如果是通用物体，用1即可。

可选地，对于同一个网格，该K(p)个区域的宽高比相同。

可选地，对于不同网格，每组K(p)个区域之间，宽高比可以相同，也可以宽高比不同。

可选地，该K(p)个区域的宽高比可以是固定的，也可以根据检测目标的不同发生变化。

可选地，待检测目标的类别信息包括至少一个待检测目标的类别信息，根据至少一个待检测目标的类别信息，确定该K(p)个区域的宽高比，可以是根据至少一个待检测目标的类别信息中包含的待检测目标的预估尺度，确定该K(p)个区域的宽高比。

应理解，待检测目标的预估尺度仅是一个粗略的估计，比如，待检测目标为人和树，那么可以粗略估计待检测目标是长条形的，可以预设小于1的宽高比。

上述技术方案根据待检测目标的类别信息，确定K(p)个区域的尺度，这样对于不同尺度的目标，可以提取与其尺度相应的子特征图，使得提取到的子特征图更加全面和准确，从而能够提高生成的目标候选区域的质量，提升目标检测系统的性能。

其中，p(a)表示第p个网格对应的K(p)个区域中的第a个区域。

高层特征图与该待检测图像有对应关系，可以是该待检测图像在大规模图像分类数据集上预训练的多层卷积神经网络处理得到的。

可选地，预训练的多层卷积神经网络可以是能够实现将待检测图像转化为高层特征图的现有技术中的多层卷积神经网络，本申请实施例不作具体限定。

高层特征图可以用于表征待检测图像的高层特征。

应理解，对于一张图片来说，像素级特征是没有价值的，特征是具有结构性的时候，才能更好的反应这幅图像。因此可通过卷积神经网络把底层特征表达一层层的抽象到高层特征表示，例如，像素级特征表示的图像，在第一层学习后得到梯度级图像表示，再上一层学习后得到目标部分级图像表示，再次学习后得到整个目标结构模型特征。

可选地，可以选取卷积神经网络，以便生成高层特征图。

作为示例而非限定，设选定的卷积神经网络含L个卷积层，输入信号前向传播时，卷积层特征图的递归计算如下：

X^(l)＝f(W^(l)*X^(l-1)+b^(l)),l＝1,…,L；X⁽⁰⁾≡X

其中，X^(l)表示选定的卷积神经网络模型第l层的特征图，*表示卷积运算，b^(l)表示第层偏置向量，W^(l)表示第l层的权重矩阵，f(·)表示非线性激活函数。

作为示例而非限定，非线性激活函数使用修正线性单元(rectified linearunits，ReLU)函数，其形式如下所示：

f(x)＝max(0,x)

经过ReLU函数激活后，正激励的响应值被保留，负激励的响应值被归0。

作为示例而非限定，本申请实施例选定卷积神经网络模型的最高层卷积层，即第L层，计算高层特征图

其中C^(L)为高层特征图的通道数，H^(L)为高层特征图的高度，W^(L)为高层特征图的宽度。

应理解，子特征图是高层特征图的一部分。提取该多个区域中每个区域的第一子特征图，也就是在高层特征图上截取相应的区域。

作为示例而非限定，将在待检测图像上得到的区域映射到最高层卷积层特征图。

映射时，先计算高层特征图尺度缩放比例r≈(H^(L)/H⁽⁰⁾,W^(L)/W⁽⁰⁾)，其中H⁽⁰⁾、W⁽⁰⁾分别为输入图像的高度、宽度。然后将每一个区域s_i∈R_S的坐标按比例r≈(H^(L)/H⁽⁰⁾,W^(L)/W⁽⁰⁾)缩放变换，得到高层特征图上的区域集合R_S′＝{s_i′|s_i′＝(x_s′,ys′,w_s′,h_s′)_i,i＝1,...,N_S}，具体计算方法如下：

b₀＝x_s-w_s/2,b₁＝y_s-h_s/2,b₀′＝b₀W^(L)/W⁽⁰⁾,b₁′＝b₁H^(L)/H⁽⁰⁾

w_s′＝w_sW^(L)/W⁽⁰⁾,h_s′＝h_sH^(L)/H⁽⁰⁾,x_s＝b₀′+w_s′/2,y_s＝b₁′+h_s′/2

进一步地，根据区域映射的结果，在高层特征图上截取区域特征(也即第一子特征图)

应理解，当该K(p)个区域中较大的区域包括较小的区域时，也即较小的区域全部落入较大的区域，在高层特征图上同一位置可能会被多次截取。

考虑到上述技术方案截取得到的各个第一子特征图的尺度并不相同，这样有可能会使后续计算不易实现和结果不公平，为此提供了如图7所示的方法。

图7是本申请另一实施例提供的图像处理方法的示意性流程图。

可选地，如图7所示，在确定该第p(a)个区域在该待检测图像的高层特征图的对应区域，将该对应区域作为该第p(a)个区域的第一子特征图之后，以及，在根据该第一子特征图和预设类别信息，计算该第p(a)个区域中的待检测目标分别属于各个类别的概率之前，即在320之后，以及，在330之前，还可以包括710。

在710中，对该第p(a)个区域的第一子特征图按照变换算法进行尺度变换，使得该第p(a)个区域的第一子特征图的尺度与预设尺度一致，该变换算法包括降采样。

可选地，当多个该第一子特征图中只有部分第一子特征图尺度与预设尺度不相同时，只需要对尺度不相同的第一中特征图进行尺度变换，最终使得全部第一子特征图尺度一致

上述技术方案将尺度不同的子特征图变换为尺度相同的子特征图之后再计算类别概率，使得得到的类别概率更加准确，进而能够提高生成的目标候选区域的质量，从而提升目标检测系统的性能。

可选地，通过降采样的方式进行尺度变换。

上述技术方案通过降采样的方法得到尺度相同的子特征图，便于后续的计算，并且可以减少参数和计算量，从而提升目标检测系统的性能。

应理解，还可以通过其他方式进行尺度变换，例如直接压缩等。

可选地，采用最大值降采样的方法进行降采样。

可选地，根据该多个第一子特征图的尺度和预设降采样尺度，计算采样窗口；使用该采样窗口，遍历该至少部分第一子特征图中每一个第一子特征图；将遍历过程中每次采样得到的特征中的最大值，作为该采样窗口所在当前位置的采样输出。'

作为示例而非限定，降采样时，先在高层特征图X^(L)上截取区域s_i对应的子特征图

接着计算采样窗口宽高分别为s_i(W^(L))/W_i ^(L)、s_i(H^(L))/H_i ^(L)，采样步长为1；然后使用采样窗口在子特征图

上以步长1沿水平方向逐行扫描，对扫描

经过的局部区域的特征取最大值，作为该位置的采样输出，直至遍历完所有位置，得到采样结果

例如，要将36×12的第一子特征图的降采样到6×6，采样窗口宽为36÷6＝6，高为12÷6＝2，得到6×2的采样窗口。

应理解，对任意一个区域si′∈R_S′，设降采样后的特征图

其中C^(L)为特征图的通道数，降采样后保持不变；

为降采样得到的特征图的高度，

为降采样得到的特征图的宽度。

对区域集合R_S中的每个区域，依次降采样，得到相应的采样结果集合

其中ds表示降采样操作。

上述技术方案通过最大值降采样的方法得到尺度相同的子特征图，便于后续的计算，并且可以减少参数和计算量，从而提升目标检测系统的性能。应理解，还可以通过其他方式进行降采样，例如均值降采样等。

可选地，将每个区域的采样结果

按列序展开为一维列向量

构成区域特征集

在330中，根据该第一子特征图和预设类别信息，计算该第p(a)个区域中的待检测目标分别属于中各个类别的概率。

锚窗，也可以称为锚、锚点、锚框、anchor，本申请实施例以锚窗为例进行描述。锚窗是用于计算目标候选区域的相对坐标系，本申请实施例可以以锚窗为基准计算目标候选区域的位置和尺度，以便生成目标候选区域。

应理解，该概率为第p(a)个区域中待检测目标属于每一个类别的类别概率。

可选地，预设类别信息为待检测目标的类别信息，预设类别信息可以随目标检测系统要检测的目标的不同而不同，例如，应用于交通场景的目标检测系统，待检测目标可能为各种汽车，预设类别信息就可以是各种汽车的类别信息；应用于人流场景的目标检测系统，待检测目标可能是人、车，那么预设类别信息就可以是各种汽车和人的类别信息，换言之，根据实际情况，需要检测哪些类别的目标，就可以设置相应类别的类别信息。

可选地，预设类别信息可以包括各个类别的尺度信息，以便对对待检测图像中包含的目标进行判断。

可选地，预设类别信息中的各个类别可以与用于预估区域尺度的各个类别一致。

可选地，预设类别信息中各个类别可以包括背景类，也可以不包括背景类。当预设类别信息中各个类别可以包括背景类时，在判断概率是否大于预设值的时候，可以不对背景类得到的概率进行判断。

可选地，上述技术方案仅以类别信息预设在目标检测系统中为例，不对本申请构成限定，类别信息也可以是以其他形式输入到系统中的。

可选地，可以针对某一个特定类别计算概率，例如，预设类别是“马”，仅计算第p(a)个区域中待检测目标针对于“马”这个类别的概率，从而识别待检测图像中所有的“马”。也可以是针对或者某些特定类别计算概率，例如，预设类别是“人”、“车”、“马”，则计算第p(a)个区域中待检测目标针对于“人”、“车”、“马”的概率，从而识别待检测图像中的所有的“人”、“车”、“马”。

作为示例而非限定，将每一个区域特征x∈X依次输入到一个回归网络中，在网络的高层计算得到该区域所含目标的类别向量

和相对坐标偏移

其中(C+1)表示C个目标类和1个背景类，而坐标偏移矩阵存放着初级目标候选区域在每一类上相对于区域s_i∈R_S的坐标偏移。

可选地，设回归网络共L_H个层，特征向量递归计算如下：

a^(l)＝f(W^(l)a^(l-1)+b^(l))

其中，a^(l)表示选定的全连接网络第l层特征，b^(l)表示第层偏置向量，W^(l)表示第l层的权重矩阵，f(·)表示非线性激活函数ReLU。

应理解，相对坐标偏移(也即偏移量)在计算概率之前就算，还是在计算概率之后计算，对本申请实施例不构成限定。例如，可以在计算概率的同时全部计算每个类别在每个锚窗上的相对坐标偏移，也可以在选择第一类别之后，只计算第一类别对应的目标候选区域相对于锚窗的相对坐标偏移。

作为示例而非限定，回归网络的输出层为两个平行的层，分别对应类别概率向量

和相对坐标偏移

由隐层计算输入特征x∈X得到。

可选地，类别向量p经由softmax作归一化处理，表示各类上的概率；坐标偏移被展开为一维向量

参与计算。

可选地，当本申请实施例应用于目标检测系统的训练过程中时，需要根据输入图像的物体类别、坐标标注，对回归网络的输出层计算类别引导的损失函数：

L_CARPN(y,c_k,Δb,Δb_k)＝L_cls(y,c_k)+λ{c_k≥1}L_reg(Δb,Δb_k)

其中，L_cls(y,c_k)为分类损失函数。

可选地，采用多类softmax损失函数：

L_reg(Δb,Δb_k)为坐标回归损失函数，采用smooth L1损失函数：

上述技术方案，类别信息引入到了目标候选区域生成阶段，在训练候选区域回归网络时，使用多类损失函数取代传统的二类损失函数，使得回归网络学到的特征与目标的具体类别相关，从而提升了对目标和背景的区分能力。

应理解，当采用二类分类层时，对应的损失函数也为二类损失函数。

在340中，选择概率大于第一预设值的第一类别。

可选地，该第一类别可以是类别概率大于第一预设值的多个类别，例如，预设值为30％，当属于人、车、马的概率分别为20％、35％、45％时，第一类别可以是车和马；预设值为30％，当属于人、车、马的概率分别为30％、35％、35％时，第一类别可以是人、车和马。

可选地，该第一类别的第一目标候选区域可以是多个区域，例如，第一类别为车和马，那么第一类别的第一目标候选区域就可以是车的第一目标候选区域和马的第一目标候选区域。

可选地，针对所有类别可以仅设置一个预设值，也可以针对每个类别设置多个预设值，例如，可以是针对人、车和马，设置预设值为30％，也可以是针对人，设置预设值为20％，针对车和马，设置预设值为25％，本申请实施例不作具体限定。

可选地，选取得分较高的正类(也即目标类或者非背景类)对应的目标候选区域作为初步的目标候选区域，例如，可以选取得分超过预设分数的正类对应的目标候选区域作为初步的目标候选区域，也可以选取得分较高的若干个正类对应的目标候选区域作为初步的目标候选区域。

作为示例而非限定，以设置一个预设分数为例，对p＝[p₀ p₁ … p_C]中每一个正类的概率p_j,j≥1，取满足阈值条件p_j＞thresh的索引j，然后从B中取出相应的偏移Δb_j＝(Δx,Δy,Δw,Δh)_j，换算得到目标候选区域b_j＝(x,y,w,h)_j：

x＝x_s+w_sΔx,y＝y_s+h_sΔy,w＝w_sexp(Δw),h＝h_sexp(Δh)

以此计算出所有满足条件的目标区域作为初步的目标候选区域集合R_Prior＝{b_j|b_j＝(x,y,w,h)_j,p_j＞t,j＝1,...,C}。其中，t表示类别得分的阈值，得分低于此阈值的类别降被忽略掉。

其中，t和thresh可以为同一值。

上述技术方案选择得概率高的类别，计算概率高的类别的目标候选区域的坐标，这样可以使得分低的类别被忽略掉，从而能够提高生成的目标候选区域的质量，从而提升目标检测系统的性能。

作为示例而非限定，结合图8对本申请实施例的技术方案进行进一步解释。

本申请实施例为了解决目标检测领域通用的RPN网络的判别性能问题，提出了一种基于类别引导的候选区域网络(class aware region proposal network，CARPN)，将待检测目标的类别信息(类别数量大于2)加入CARPN网络的训练中，使得CARPN网络生成的候选区域中带有候选区域的目标类别得分，令目标检测系统具备更好的判别力。此外，CARPN网络采用了新的锚窗生成策略，将待检测图像划分为M×N的网格，枚举各位置、尺度的网格映射到高层特征图上；提取每个网格的特征，并池化为固定尺度的特征向量，对每个网格设置一个同网格大小相同锚窗用于坐标回归。因而，可以用较少的锚窗覆盖各目标位置和尺度。

图8是本申请实施例生成目标候选框的方法的示意图。如图8所示，在目标候选框生成阶段，将待检测图像划分为7×9的网格，枚举各位置、尺度的网格映射到高层特征图上，这样可以将不同尺度的目标划分到相应尺度的区域中，例如，对于目标1，划分到一个5×5的区域，并为该5×5的区域设置一个5×5的锚窗，将该5×5的区域映射到高层特征图上，得到一个5×5的窗口用于提取特征。然后将提取到的特征进行降采样，得到固定尺度的特征向量。将固定尺度的特征向量输入到中间层(例如，回归网络、全连接网络)，得到针对该5×5的锚窗的在(C+1)个类别上的得分和4(C+1)个坐标(包括中心点横纵坐标、宽度和高度)。选择该(C+1)个得分中大于预设分数的，根据其对应的坐标生成目标候选区域。

上述技术方案通过设计一种多尺度的采样网格，能用较少的锚窗完整的覆盖各种尺度的目标，从而使锚窗对应区域的目标信息在卷积神经网络高层得到了完整保留，增强了目标候选区域分类器的判别力，从而提升目标检测系统的性能。

此外，上述技术方案为尺度不同的多个区域分别设置一个与多个区域中的每个区域的位置和尺度相同锚窗，这样可以用较少的锚窗覆盖各目标的位置和尺度，从而提升目标检测系统的性能。

如图9所示，在910中，将该第一类别的第一目标候选区域，以预设步长，向至少一个方向偏移，得到该第一类别的第二目标候选区域。

在920中，根据该第一类别的第一目标候选区域和该第一类别的第二目标候选区域，得到该待检测目标的类别和坐标。

应理解，本申请实施例对向几个方向偏移，偏移几步不做具体限定。

作为示例而非限定，向上、下、左、右和四个对角共八个方向偏移。对每一个第一初步目标候选区域，以预设步长向八个方向偏移，得到对该位置较密集的采样。设向各方向偏移的步数为，则每个第一初步目标候选区域的候选框偏移产生个新的目标候选区域(包括原来的目标候选区域，即第一初步目标候选区域)。所有偏移得到的新的目标候选区域构成了目标候选区域。

上述技术方案在第一初步目标候选区域所在位置进一步生成第二初步目标候选区域，可以得到对该位置更密集的采样，进而能够提高生成的目标候选区域的质量，从而提升目标检测系统的性能。

基于上述目标候选区域生成过程得到候选区域网络模型支持多种深度的卷积神经网络，例如R-CNN、Fast R-CNN、Faster R-CNN等。

图10是图3、图6和图7中370的另一种可能的实现方式的示意性流程图。图10的方法可以由检测网络执行，本申请实施例提供的图像处理的方法可以应用于目标检测系统的训练过程中，也可以应用于目标检测系统的检测或实际使用过程中，本申请对此不做限定。图10中的方法的部分内容与图3中的方法相同或者相似，以防冗繁，以下内容进行了适当简化。

如图10所示，在1010中，确定该第一类别的第一目标候选区域和该第一类别的第二目标候选区域中的第p(a，b)个目标候选区域在该高层特征图的第二对应区域，将该第二对应区域作为第二子特征图，其中，该第一目标候选区域和该第二目标区域的区域总数量为L(a)，该p(a，b)＝1,2，…，L(a)。

其中，p(a，b)表示第p个网格对应的第a个区域的第b个目标候选区域。

高层特征图与该待检测图像有对应关系，是该待检测图像经由在大规模图像分类数据集上预训练的多层卷积神经网络处理得到的。

采用320中选取的卷积神经网络生成高层特征图。

作为示例而非限定，本申请实施例选定卷积神经网络模型的最高层卷积层，即第L层输出的特征图。

应理解，子特征图是高层特征图的一部分。确定第p(a，b)个目标候选区域的第二子特征图，也就是在高层特征图上截取第二对应区域。

可选地，将每个目标候选区域映射到该待检测图像的高层特征图上，以便提取每个该目标候选区域的第二子特征图。

作为示例而非限定，将生成的目标候选区域roi_k∈R_roi映射到高层特征图(检测网络的输入特征)X^(L)上，得到目标候选区域特征集X_R。

在1020中，根据该第二子特征图和该预设类别信息，计算该第p(a，b)个目标候选区域中的待检测目标分别属于各个类别的第二概率。

在1030中，选择概率大于第二预设值的第二类别。

在1040中，确定该第二类别的第三目标候选区域相对于该第p(a，b)个目标候选区域的第二偏移量。

在1050中，根据该第二偏移量，以及该第p(a，b)个目标候选区域的坐标，计算该第二类别的第三目标候选区域的坐标。

在1060中，该第三确定单元，还用于根据该第二类别的第三目标候选区域的坐标和类别，使用非极大值抑制NMS算法，得到该待检测目标的类别和坐标。

作为示例而非限定，将每一个目标候选区域特征(第二子特征图)x∈X_R依次输入到一个进行精准“分类—定位”的全连接检测网络中，在网络的高层计算得到每一个roi(region of interest，目标候选区域的别名)的类别概率向量

与相对偏移

其中(C+1)表示C个目标类和1个背景类，而坐标偏移矩阵表示在每一个类别上对相应roi的目标区域的偏移量。作为示例而非限定，根据类别概率向量

与相对偏移

得到检测框候选集(也即第三目标候选区域)。

应理解，再次对目标候选区域进行分类和定位的结果可以与目标候选区域生成阶段的分类和定位结果相同，也可以不同。

当上文所述的任一方法应用在目标检测系统的训练过程中时，在1050之后，不执行1060，而是将将上述两个阶段得到的候选区域网络模型和区域内目标分类网络模型合并到一个框架中，得到目标检测系统。

其中，目标检测系统包括候选区域网络模型和区域内目标分类网络模型，候选区域网络模型可以是基于第一、第二目标候选区域的生成过程得到的，区域内目标分类网络模型可以是基于第三目标候选区域的生成过程得到的。

可选地，候选区域网络模型和区域内目标分类网络模型合并到一个框架中可以是将候选区域网络模型和区域内分类网络模型连接到同一个高层卷积层上。

可选地，将候选区域网络模型的回归网络和区域内分类网络模型的全连接网络连接到同一个高层卷积层上。

例如，将RPN的回归网络和Fast R-CNN的检测网络连接到同一个高层卷积层上。

当上文所述的任一方法应用在目标检测系统的检测过程中时，对每个目标候选区域提取特征，在Fast R-CNN检测器的输出层得到预测结果。

作为示例而非限定，选定目标检测测试集中的一张图像作为待检测图像，将待检测图像输入到目标检测系统中，然后将目标检测系统输出的检测框候选集R_detect通过NMS算法筛选得类别概率高的目标候选区域，得到最终检测结果。

其中，在候选区域网络模型(例如，CARPN)的输出层得到目标候选区域，将得到的目标候选区域输入区域内目标分类网络模型(例如，Fast R-CNN)的检测器中，在区域内目标分类网络模型输出层得到对每个目标候选区域的各类类别得分和坐标。

可选地，可以选取得分较高的正类的目标候选区域。

作为示例而非限定，对p′＝[p₀ p₁ … p_C]中每一个正类的概率p_j′,j≥1，取满足阈值条件p_j′＞thresh的索引j，然后从B′中取出相应的偏移Δb_j′＝(Δx′,Δy′,Δw′,Δh′)_j，换算得到该类上的目标候选区域b_j′＝(x′,y′,w′,h′)_j：

x′＝x_r+w_rΔx′,y′＝y_r+h_rΔy′,w′＝w_rexp(Δw′),h′＝h_rexp(Δh′)

可选地，将每一个正类上计算得到的目标候选区域作为第三目标候选区域(也即检测候选集)：

R_detect＝{(b_j′,p_j′,j)|b_j′＝(x′,y′,w′,h′)_j,p_j′＞t}

其中，t和thresh可以为同一值。

可选地，可以使用非极大值抑制NMS算法对该检测框候选集进行处理，得到该待检测目标的类别和坐标。

可选地，选取类别概率较高的正类(也即目标类或者非背景类)对应的目标候选区域作为初步的目标候选区域，例如，可以选取类别概率超过预设分数的正类对应的目标候选区域作为初步的目标候选区域，也可以选取类别概率较高的若干个正类对应的目标候选区域作为初步的目标候选区域。

作为示例而非限定，选择得类别概率高于阈值t的候选检测框(也即第三目标候选区域)，采用NMS算法进行合并，得到最终目标检测结果。

应理解，上文提到的目标候选区域均可以用目标候选框的形式呈现。

本申请实施例的技术方案在多个目标检测数据集上进行了实验评估，并与已有的其他基于卷积神经网络的目标检测系统进行了性能比较。实验结果见表1和表2。表1是基于8层ZF模型的目标检测系统在VOC2007上的实验结果。表2是基于16层VGG模型的目标检测系统在VOC2012数据集上的实验结果。

表1

表2

目标检测算法	mAP(％)
		Fast R-CNN	68.4
RPN(Faster R-CNN)	70.4
		HyperNet(no.SP)	71.4
HyperNet-SP	71.5
		G-CNN	66.4
YOLO	57.9
		CARPN(本申请)	72.5

实验结果表明，本申请所采用的CARPN+Fast R-CNN的技术方案能显著地提升目标检测的精度，充分体现了本申请实施例的技术方案的有益效果。

将本申请实施例的技术方案所提出的CARPN产生的目标候选框评估召回率、覆盖率，与现有RPN产生的目标候选框评估召回率、覆盖率进行对比。

图11是应用本申请实施例和现有RPN网络的目标召回率变化曲线的示意图。如图11所示，随着候选框数量的增加，目标召回率发生变化，可以看出，CARPN产生的候选框有着较高的正报率，用较少的框就可以达到更高的召回率。

图12是应用本申请实施例和现有RPN网络的目标覆盖率的示意图。如图12所示，所产生候选框中，各覆盖率(Intersection-over-Union，IoU)区间目标候选框的占比，可以看出，CARPN的目标候选框更贴近目标的真实边框，有助于后续的精准检测。

实验结果表明，本申请实施例的技术方案所提出的CARPN仅使用少量目标候选框就能达到更高的召回率，且对背景的误报率得到了大幅度的降低，这充分证实了本申请技术方案的有效性。

上文中结合图3至图12，详细描述了本申请实施例提供的图像处理的方法，下面将结合图13至图15，详细描述本申请实施例提供的图像处理装置。图13至图15中的装置可以实现上文任一实施例描述的图像处理的方法。

图13是本申请实施例提供的图像处理装置的示意性结构图。图13中的图像处理装置1300包括如下单元的至少部分单元。

划分单元1310，用于将待检测图像划分为互不重叠的Q个网格，其中，Q为大于1的整数，该Q个网格中的第p个网格属于K(p)个区域，其中，p＝1，2，…，Q，K(p)为大于1的整数，该K(p)个区域在该待检测图像上占用的区域不同。

第一确定单元1320，用于确定该K(p)个区域中第p(a)个区域在该待检测图像的高层特征图的第一对应区域，将该第一对应区域作为该第p(a)个区域的第一子特征图，其中，p(a)＝1,2，…，K(p)，该高层特征图是该待检测图像经过预设的多层卷积神经网络计算得到的。

第一计算单元1330，用于根据该第一子特征图和预设类别信息，计算该第p(a)个区域中的待检测目标分别属于各个类别的概率，该预设类别信息包括待检测目标的至少一个类别的类别信息，该第p(a)个区域的锚窗与该第p(a)个区域在该待检测图像上占用的区域相同。

第二确定单元1340，用于选择该概率大于第一预设值的第一类别；用于确定该第一类别的第一目标候选区域相对于该第p(a)个区域的锚窗的第一偏移量。

第二计算单元1350，用于根据该第一偏移量，以及该第p(a)个区域的锚窗的坐标，计算该第一类别的第一目标候选区域的坐标。

第三确定单元1360，用于根据该第一类别的第一目标候选区域的类别和坐标，得到该待检测目标的类别和坐标。

上述技术方案中每个网格属于至少两个不同尺度的区域，意味着同一个位置被划分到不同尺度的区域上，这样在高层特征图上可以提取对应该位置的不同尺度的子特征图，使得在该位置提取到的子特征图更加全面和准确，从而能够提高生成的目标候选区域的质量，提升目标检测系统的性能。

此外，上述技术方案为K(p)个区域分别设置一个与K(p)区域中的每个区域的位置和占用的网格数量相同的锚窗，这样可以用较少的锚窗覆盖各目标的位置和尺度，从而提升目标检测系统的性能。

图14是本申请另一实施例提供的图像处理装置的示意性结构图。该图像处理装置还包括：

第四确定单元1410，用于根据该至少一个类别的类别信息，确定该多K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例，其中，该K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例相同。

可选地，该多K(p)个区域占用的网格数量，在宽度方向上按照第一网格数量递增；和/或，该多K(p)个区域占用的网格数量，在高度方向上按照第二网格数量递增。

可选地，该第一确定单元1320还用于对该第p(a)个区域的第一子特征图按照变换算法进行尺度变换，使得该第p(a)个区域的第一子特征图的尺度与预设尺度一致，该变换算法包括降采样。

可选地，该第一确定单元1320具体用于根据该第p(a)个区域的第一子特征图的尺度和该预设尺度，计算采样窗口；使用该采样窗口，遍历该第p(a)个区域的第一子特征图；将遍历过程中每次采样得到的特征中的最大值，作为该采样窗口所在当前位置的采样输出，以得到该第p(a)个区域的第一子特征图。

可选地，该第三确定单元1360还用于将该第一类别的第一目标候选区域，以预设步长，向至少一个方向偏移，得到该第一类别的第二目标候选区域；根据该第一类别的第一目标候选区域和该第一类别的第二目标候选区域，得到该待检测目标的类别和坐标。

可选地，该第一确定单元1320还用于确定该第一类别的第一目标候选区域和该第一类别的第二目标候选区域中的第p(a，b)个目标候选区域在该高层特征图的第二对应区域，将该第二对应区域作为第二子特征图，其中，该第一目标候选区域和该第二目标区域的区域总数量为L(a)，该p(a，b)＝1,2，…，L(a)。

可选地，该第一计算单元1330，还用于根据该第二子特征图和该预设类别信息，计算该第p(a，b)个目标候选区域中的待检测目标分别属于各个类别的概率。

可选地，该第二确定单元1340，还用于选择概率大于第二预设值的第二类别；用于确定该第二类别的第三目标候选区域相对于该第p(a，b)个目标候选区域的第二偏移量。

可选地，该第二计算单元1350，还用于根据该第二偏移量，以及该第p(a，b)个目标候选区域的坐标，计算该第二类别的第三目标候选区域的坐标。

可选地，该第三确定单元1360，还用于根据该第二类别的第三目标候选区域的坐标和类别，使用非极大值抑制NMS算法，得到该待检测目标的类别和坐标。

图15是本申请另一实施例提供的图像处理装置的示意性结构图。图15中的图像处理装置1500可以执行图3至图12的任一实施例描述的图像处理的方法。图15的图像处理装置1500可以包括存储器1510和处理器1520。存储器1510可用于存储程序。处理器1520可用于执行该存储器中存储的程序。当存储器1510中存储的程序被执行时，该处理器1520可用于执行上文任一实施例描述的图像处理的方法。

应理解，在本申请实施例中，术语“和、或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和、或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“、”，一般表示前后关联对象是一种“或”的关系。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理的方法，其特征在于，包括：

将待检测图像划分为互不重叠的Q个网格，其中，Q为大于1的整数，所述Q个网格中的第p个网格属于K(p)个区域，其中，p＝1，2，…，Q，K(p)为大于1的整数，所述K(p)个区域在所述待检测图像上占用的区域不同；

遍历p的所有取值，针对所述K(p)个区域中第p(a)个区域进行以下处理，其中，p(a)表示所述第p个网格对应的K(p)个区域中的第a个区域，p(a)＝1,2，…，K(p)：

确定所述第p(a)个区域在所述待检测图像的高层特征图的第一对应区域，将所述第一对应区域作为所述第p(a)个区域的第一子特征图，所述高层特征图是所述待检测图像经过预设的多层卷积神经网络计算得到的；

根据所述第一子特征图和预设类别信息，计算所述第p(a)个区域中的待检测目标分别属于各个类别的概率，所述预设类别信息包括至少一个类别的类别信息，所述第p(a)个区域的锚窗与所述第p(a)个区域在待检测图像上占用的区域相同；

选择概率大于第一预设值的第一类别；

确定所述第一类别的第一目标候选区域相对于所述第p(a)个区域的锚窗的第一偏移量；

根据所述第一偏移量，以及所述第p(a)个区域的锚窗的坐标，计算所述第一类别的第一目标候选区域的坐标；

根据所述第一类别的第一目标候选区域的坐标和类别，得到所述待检测目标的类别和坐标。

2.根据权利要求1所述的方法，其特征在于，在将所述待检测图像划分为互不重叠的Q个网格之前，所述方法还包括：

根据所述至少一个类别的类别信息，确定所述K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例，其中，所述K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例相同。

3.根据权利要求1所述的方法，其特征在于，所述K(p)个区域占用的网格数量，在宽度方向上按照第一网格数量递增；和/或，

所述K(p)个区域占用的网格数量，在高度方向上按照第二网格数量递增。

4.根据权利要求1至3中任一项所述的方法，其特征在于，在所述确定所述第p(a)个区域在所述待检测图像的高层特征图的对应区域，将所述对应区域作为所述第p(a)个区域的第一子特征图之后，以及，在所述根据所述第一子特征图和预设类别信息，计算所述第p(a)个区域中的待检测目标分别属于各个类别的概率之前，所述方法还包括：

对所述第p(a)个区域的第一子特征图按照变换算法进行尺度变换，使得所述第p(a)个区域的第一子特征图的尺度与预设尺度一致，所述变换算法包括降采样。

5.根据权利要求4所述的方法，其特征在于，所述对所述第p(a)个区域的子特征图按照变换算法进行尺度变换，包括：

根据所述第p(a)个区域的第一子特征图的尺度和所述预设尺度，计算采样窗口；

使用所述采样窗口，遍历所述第p(a)个区域的第一子特征图；

将遍历过程中每次采样得到的特征中的最大值，作为所述采样窗口所在当前位置的采样输出，以得到所述第p(a)个区域的第一子特征图。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述第一类别的第一目标候选区域的坐标和类别，得到所述待检测目标的类别和坐标，包括：

将所述第一类别的第一目标候选区域，以预设步长，向至少一个方向偏移，得到所述第一类别的第二目标候选区域；

根据所述第一类别的第一目标候选区域和所述第一类别的第二目标候选区域，得到所述待检测目标的类别和坐标。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一类别的第一目标候选区域和所述第一类别的第二目标候选区域，得到所述待检测目标的类别和坐标，包括：

针对所述第一类别的第一目标候选区域和所述第一类别的第二目标候选区域中的第p(a，b)个目标候选区域进行以下处理，其中，所述第一目标候选区域和所述第二目标区域的区域总数量为L(a)，p(a，b)表示所述第p个网格对应的第a个区域的第b个目标候选区域，p(a，b)＝1,2，…，L(a)：

确定所述第p(a，b)个目标候选区域在所述高层特征图的第二对应区域，将所述第二对应区域作为第二子特征图；

根据所述第二子特征图和所述预设类别信息，计算所述第p(a，b)个目标候选区域中的待检测目标分别属于各个类别的概率；

选择概率大于第二预设值的第二类别；

确定所述第二类别的第三目标候选区域相对于所述第p(a，b)个目标候选区域的第二偏移量；

根据所述第二偏移量，以及所述第p(a，b)个目标候选区域的坐标，计算所述第二类别的第三目标候选区域的坐标；

根据所述第二类别的第三目标候选区域的坐标和类别，使用非极大值抑制NMS算法，得到所述待检测目标的类别和坐标。

8.一种图像处理装置，其特征在于，包括：

划分单元，用于将待检测图像划分为互不重叠的Q个网格，其中，Q为大于1的整数，所述Q个网格中的第p个网格属于K(p)个区域，其中，p＝1，2，…，Q，K(p)为大于1的整数，所述K(p)个区域在所述待检测图像上占用的区域不同；

第一确定单元，用于确定所述K(p)个区域中第p(a)个区域在所述待检测图像的高层特征图的第一对应区域，将所述第一对应区域作为所述第p(a)个区域的第一子特征图，其中，p(a)表示所述第p个网格对应的K(p)个区域中的第a个区域，p(a)＝1,2，…，K(p)，所述高层特征图是所述待检测图像经过预设的多层卷积神经网络计算得到的；

第一计算单元，用于根据所述第一子特征图和预设类别信息，计算所述第p(a)个区域中的待检测目标分别属于各个类别的概率，所述预设类别信息包括待检测目标的至少一个类别的类别信息，所述第p(a)个区域的锚窗与所述第p(a)个区域在待检测图像上占用的区域相同；

第二确定单元，用于选择概率大于第一预设值的第一类别；用于确定所述第一类别的第一目标候选区域相对于所述第p(a)个区域的锚窗的第一偏移量；

第二计算单元，用于根据所述第一偏移量，以及所述第p(a)个区域的锚窗的坐标，计算所述第一类别的第一目标候选区域的坐标；

第三确定单元，用于根据所述第一类别的第一目标候选区域的类别和坐标，得到所述待检测目标的类别和坐标。

9.根据权利要求8所述的图像处理装置，其特征在于，所述图像处理装置还包括：

第四确定单元，用于根据所述至少一个类别的类别信息，确定所述K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例，其中，所述K(p)个区域在高度方向上占用的网格数量与在宽度方向上占用的网格数量的比例相同。

10.根据权利要求8所述的图像处理装置，其特征在于，所述K(p)个区域占用的网格数量，在宽度方向上按照第一网格数量递增；和/或，

11.根据权利要求8至10中任一项所述的图像处理装置，其特征在于，所述第一确定单元还用于：

12.根据权利要求8至10中任一项所述的图像处理装置，其特征在于，所述第三确定单元还用于：

13.根据权利要求12所述的图像处理装置，其特征在于，

所述第一确定单元，还用于确定所述第一类别的第一目标候选区域和所述第一类别的第二目标候选区域中的第p(a，b)个目标候选区域在所述高层特征图的第二对应区域，将所述第二对应区域作为第二子特征图，其中，所述第一目标候选区域和所述第二目标区域的区域总数量为L(a)，p(a，b)表示所述第p个网格对应的第a个区域的第b个目标候选区域，p(a，b)＝1,2，…，L(a)；

所述第一计算单元，还用于根据所述第二子特征图和所述预设类别信息，计算所述第p(a，b)个目标候选区域中的待检测目标分别属于各个类别的概率；

所述第二确定单元，还用于选择概率大于第二预设值的第二类别；用于确定所述第二类别的第三目标候选区域相对于所述第p(a，b)个目标候选区域的第二偏移量；

所述第二计算单元，还用于根据所述第二偏移量，以及所述第p(a，b)个目标候选区域的坐标，计算所述第二类别的第三目标候选区域的坐标；

所述第三确定单元，还用于根据所述第二类别的第三目标候选区域的坐标和类别，使用非极大值抑制NMS算法，得到所述待检测目标的类别和坐标。

14.一种图像处理装置，其特征在于，包括：

存储器，用于存储计算机指令；

处理器，用于执行所述存储器中存储的计算机指令，当所述计算机指令被执行时，所述处理器用于执行如权利要求1-7中任一项所述方法。

15.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如权利要求1-7中任一项所述的方法。