CN109409288A

CN109409288A - 图像处理方法、装置、电子设备和存储介质

Info

Publication number: CN109409288A
Application number: CN201811252499.XA
Authority: CN
Inventors: 庞江淼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-03-01
Anticipated expiration: 2038-10-25
Also published as: CN109409288B

Abstract

本公开实施例提供了一种图像处理方法、装置、电子设备和存储介质。图像处理方法包括：对图像的多个图像块进行特征提取处理，得到每个图像块的第一特征数据；基于每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块；基于第一图像块的第一特征数据，对至少一个第一图像块进行检测处理，得到至少一个第一图像块的检测结果；基于第一图像块的检测结果，确定图像的检测结果。在对从图像分割得到的图像块实际进行物体检测之前，先确定各个图像块中是否包含物体，再仅对确定包含有物体的第一图像块进行物体检测，可降低物体/对象检测过程的误判率以及运算量，由此获得更优的物体检测效果。

Description

图像处理方法、装置、电子设备和存储介质

技术领域

本公开实施例涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、电子设备和存储介质。

背景技术

随着各种卫星被发射升空，为人们采集到了丰富的高空遥感数据。基于卫星的遥感数据已开始被广泛应用于各个领域，极大地提高了信息获取效率。基于遥感数据获取到的各种信息，对多个行业均具有重要的意义，尤其在军事、金融、安防等领域。

由于获取的遥感数据通常受传感器与天气状况等因素的影响，因此在不同的条件下成像质量差异明显。同时，关注的目标在影像中尺度相对较小或者排列密集，使得相同的目标可能存在巨大的特征差异，因此，传统的遥感图像检测方法难于适应多种场景下的目标识别，召回率低且存在严重的虚警，无法满足实际的应用需求。

发明内容

本公开实施例提供了基于遥感图像的图像处理方案和相应的网络训练技术方案。

根据本公开实施例的第一方面，提供了一种图像处理方法，包括：对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据；基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块；基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果；基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果。

可选地，所述第一图像块的检测结果包括：所述第一图像块中包含的物体的位置信息和类别信息。

可选地，所述基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果，包括：基于多个尺寸的探测框，得到所述第一图像块的至少一个候选物体框，所述多个探测框的尺寸是基于对训练集中标注的物体框信息进行聚类确定的；对所述至少一个候选物体框进行检测，获取所述第一图像块的检测结果。

可选地，所述对所述候选物体框进行检测，获取所述第一图像块的检测结果，包括：对所述候选物体框进行位置敏感的候选区域池化，获取所述第一图像块中的物体框以及所述物体框内包含的对象分类的信息。

可选地，在基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块之前，所述方法还包括：对所述图像块的第一特征数据进行感受野扩大处理，以使得所述感受野扩大处理后的第一特征数据体现整个所述图像的感受野。相应地，所述基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块，包括：基于所述感受野扩大处理后的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块。

可选地，所述对所述图像块的第一特征数据进行感受野扩大处理，包括：对所述图像块的第一特征数据进行多尺度池化处理，得到多组第二特征数据；对所述多组第二特征数据进行反卷积处理，得到多组第三特征数据，其中，所述第三特征数据的维度与所述图像块的特征数据维度相同；将所述多组第三特征数据进行融合处理，获得所述感受野扩大处理后的第一特征数据。

可选地，所述对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据，包括：对所述图像块进行卷积处理，得到初始特征数据；对所述初始特征数据进行缩小处理，得到缩小特征数据；对所述缩小特征数据进行放大处理，得到放大特征数据；对所述初始特征数据和所述放大特征数据进行融合处理，得到所述第一特征数据。

可选地，所述图像为遥感图像。

可选地，所述基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果，包括：将所述至少一个第一图像块的检测结果进行合并处理，得到所述图像的检测结果。

可选地，所述多个图像块中的相邻图像块之间存在重叠区域。

可选地，所述对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据，包括：通过第一神经网络对所述多个图像块中每个图像块进行特征提取处理，得到所述每个图像块的第一特征数据，其中，所述第一神经网络的至少一个网络层中的每个网络层的通道数小于预设数值。

可选地，所述方法通过目标检测神经网络实现；所述基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块，包括：通过所述目标检测神经网络中的第二神经网络，基于所述第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块。相应地，所述基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果，包括：通过所述目标检测神经网络中的第三神经网络，基于所述第一特征数据，基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果。其中，所述第二神经网络和所述第三神经网络是通过对所述目标检测神经网络进行一体化训练得到的。

可选地，所述目标检测神经网络还包括用于对所述图像的多个图像块进行特征提取处理的第一神经网络，其中，所述第一神经网络的输出端分别与所述第二神经网络和所述第三神经网络的输入端连接。

根据本公开的第二方面，提供了一种图像处理装置，包括：特征提取模块，用于对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据；第一检测模块，用于基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块；第二检测模块，用于基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果；检测合并模块，用于基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果。

可选地，所述第二检测模块包括：探测单元，用于基于多个尺寸的探测框，得到所述第一图像块的至少一个候选物体框，所述多个探测框的尺寸是基于对训练集中标注的物体框信息进行聚类确定的；物体检测单元，用于对所述至少一个候选物体框进行检测，获取所述第一图像块的检测结果。

可选地，所述物体检测单元用于对所述候选物体框进行位置敏感的候选区域池化，获取所述第一图像块中的物体框以及所述物体框内包含的对象分类的信息。

可选地，在所述第一检测模块基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块之前，所述装置还包括：感受野扩大模块，用于对所述图像块的第一特征数据进行感受野扩大处理，以使得所述感受野扩大处理后的第一特征数据体现整个所述图像的感受野；所述第一检测模块用于基于所述感受野扩大处理后的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块。

可选地，所述感受野扩大模块包括：多尺度池化单元，用于对所述图像块的第一特征数据进行多尺度池化处理，得到多组第二特征数据；反卷积单元，用于对所述多组第二特征数据进行反卷积处理，得到多组第三特征数据，其中，所述第三特征数据的维度与所述图像块的特征数据维度相同；第一特征融合单元，用于将所述多组第三特征数据进行融合处理，获得所述感受野扩大处理后的第一特征数据。

可选地，所述特征提取模块包括：卷积单元，用于对所述图像块进行卷积处理，得到初始特征数据；特征缩小单元，用于对所述初始特征数据进行缩小处理，得到缩小特征数据；特征放大单元，用于对所述缩小特征数据进行放大处理，得到放大特征数据；第二特征融合单元，用于对所述初始特征数据和所述放大特征数据进行融合处理，得到所述第一特征数据。

可选地，所述图像为遥感图像。

可选地，所述检测合并模块用于将所述至少一个第一图像块的检测结果进行合并处理，得到所述图像的检测结果。

可选地，所述特征提取模块用于通过第一神经网络对所述多个图像块中每个图像块进行特征提取处理，得到所述每个图像块的第一特征数据，其中，所述第一神经网络的至少一个网络层中的每个网络层的通道数小于预设数值。

可选地，所述装置还包括目标检测神经网络。所述第一检测模块用于通过所述目标检测神经网络中的第二神经网络，基于所述第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块；所述第二检测模块用于通过所述目标检测神经网络中的第三神经网络，基于所述第一特征数据，基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果。其中，所述第二神经网络和所述第三神经网络是通过对所述目标检测神经网络进行一体化训练得到的。

根据本公开的第三方面，提供了一种电子设备，包括：处理器和存储器；所述存储器用于存放至少一个可执行指令，所述可执行指令使所述处理器执行前述任一图像处理方法的步骤。

根据本公开的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有可执行指令，所述可执行指令使所述处理器执行前述任一图像处理方法的步骤。

根据本公开的第五方面，提供了一种计算机程序产品，包括：至少一个可执行指令，所述可执行指令被处理器执行时用于实现前述任一图像处理方法的步骤。

本公开实施例提供的基于遥感图像的图像处理方案和相应的网络训练技术方案，在对从图像分割得到的图像块实际进行物体检测之前，先确定各个图像块中是否包含物体，再仅对确定包含有物体的第一图像块进行物体检测，可降低物体/对象检测过程的误判率以及运算量，由此获得更优的物体检测效果。

在此基础上，在对从图像分割得到的图像块实际进行物体检测之前，还可对所述图像块的第一特征数据进行感受野扩大处理，以使得所述感受野扩大处理后的第一特征数据体现整个所述图像的感受野。由于使用感受野扩大处理后的第一特征数据来进行是否包含有物体的检测以及实际定位物体框的物体检测，因此不仅能够降低物体/对象检测过程的误判率以及运算量，而且显著地降低虚警、误报，进一步地提高物体检测的准确性和效率。

附图说明

图1是根据本公开一些实施例的图像处理方法的流程图；

图2是根据本公开另一些实施例的图像处理方法的流程图；

图3是根据本公开另一些实施例的图像处理方法的流程图；

图4示出了根据本公开示例性实施例的第一神经网络的示意性结构；

图5示出通过第四神经网络执行前述步骤S220的一种示例性处理；

图6是示出根据本公开一些实施例的目标检测神经网络的训练方法的流程图；

图7是示出根据本公开一些实施例的图像处理装置700的逻辑框图；

图8是根据本公开另一些实施例的图像处理装置700的逻辑框图；

图9是示出根据本公开一些实施例的感受野扩大模块750的示例性结构的逻辑框图；

图10是示出根据本公开一些实施例的特征提取模块710的示例性结构的逻辑框图

图11是示出根据本公开一些实施例的第二检测模块730的示例性结构的逻辑框图；

图12是示出根据本公开一些实施例的第一电子设备1200的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本公开实施例的具体实施方式作进一步详细说明。以下实施例用于说明本公开，但不用于限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

图1是示出根据本公开一些实施例的图像处理方法的流程图。

参照图1，在步骤S110，对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据。

该图像可以是任意类型的图像，例如任意的静态图像或视频帧图像，其中，目标对象在图像中的尺寸较小，或者目标对象在图像中所占的面积比例低于特定数值，例如，图像为遥感图像或其他类型的图像，本公开实施例对此不做限定。

在本公开实施例中，将该图像分割成多个图像块，并且对从该图像分割出的多个图像块分别进行特征提取处理，获得多个图像块中每个图像块的第一特征数据，以反映图像块和/或图像块中包含物体/对象的图像特征。这里的物体/对象可以是建筑物、飞机、车辆、船只、山脉、动物、行人等。在步骤S110中，可以利用特征提取算法对图像块进行特征提取，在一个例子中，利用神经网络对图像块进行特征提取，但本公开实施例对特征提取的具体实现不做限定。

在图像较大或者对象在图像中所占的面积比例较小的情况下，将图像分割成多个较小的图像块，能够降低图像处理所占用的资源以及执行运算的量，提高图像处理效率。

例如，遥感图像通常从拍摄尺寸和文件大小上都很大，因此从整张遥感图像中截取其中的一个或多个含有物体的图像块进行特征提取处理，有利于提高图像处理的准确率和效率。

为了避免图像分割产生同一对象被分割到两个或更多图像块中，根据本公开的一种可选实施方式，在对图像进行分割时，多个图像块中相邻的图像块之间存在重叠区域，重叠区域所占的面积依赖于实际应用。例如，相邻图像块之间具有五分之一的重叠区域，但本公开实施例对此不做限定。

在步骤S120，基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块。

可选地，基于图像块的第一特征数据，利用合适的分类方法对图像块进行分类处理，以确定该图像块中是否包含有物体。例如，利用神经网络或基于机器学习的其他分类算法对图像块进行分类处理，得到指示图像块是否包含有物体的分类结果。如果确定该图像块中包含有一个或多个物体，则将该图像块确定为第一图像块。由此，确定多个图像块当中包含有物体的至少一个第一图像块，并对第一图像块进行步骤S130和步骤S140的处理。而针对多个图像块中不包含物体的第二图像块，则可选地结束该图像处理方法的处理。

在步骤S130，基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果。

在该步骤，仅针对确定包含有物体的第一图像块，利用合适的物体/对象检测方法进行对象检测，从而获得第一图像块的检测结果。例如，利用神经网络或其他基于机器学习的对象检测算法对第一图像块进行检测处理，得到第一图像块的检测结果，但本公开实施例不限于此。

在一些实现方式中，第一图像块的检测结果包括第一图像块包含的物体的图像信息，例如，物体在图像中的位置信息、在图像中的大小信息等等。在一个例子中，第一图像块的检测结果包括第一图像块中包含的物体的限定框信息，例如限定框的一个或多个顶点坐标信息、限定框的尺寸等等。

在另一些实现方式中，第一图像块的检测结果还包括物体的预测概率信息(如置信度)，该预测概率信息可选地指示预测物体的概率。

在另一些实现方式中，第一图像块的检测结果还包括物体的类别信息，例如，车辆、船只、行人等。

由于物体检测处理实际耗费较多的运算资源，因此通过步骤S130仅针对确定包含有物体的第一图像块执行物体检测处理，能够降低物体/对象检测过程的误判率以及运算量，提高图像处理效率。

根据本公开的一种可选实施方式，在步骤S130中，基于第一图像块的第一特征数据，进行以下处理S130a～S130b：

S130a：基于多个不同尺寸的探测框，得到所述第一图像块的至少一个候选物体框。

在物体检测技术中，基于区域候选网络(RPN，Region Proposal Network)技术，使用探测框(又称为锚点，anchor)来产生候选物体框。在图像上，定义具有多个尺度、多个长宽比的探测框。其中，在一些实施方式中，探测框的尺寸可以是预先人为定义的，在另一些实现方式中，尺寸是基于对训练集中标注的物体框信息进行聚类确定的。

在物体尺寸较小或者物体在图像块中所占的面积比例低于设定数值的情况下，例如，物体所占用的面积小于16×16像素，为了获得更接近物体尺寸的探测框，在物体检测神经网络的训练过程中，先对包括多个样本图像的训练集中标注的物体框进行聚类，例如，通过K-means聚类算法、均值漂移方法等，获得多组具有多尺寸或多个长宽比的探测框。此后，在实际进行S130a的处理时，使用聚类获得的多尺寸的探测框进行检测，获得第一图像块的至少一个候选物体框，提高了检测效率和准确性。候选物体框是可能包含物体的矩形框或其他形状的框。

S130b：对所述至少一个候选物体框进行检测，获取所述第一图像块的检测结果。

具体地，对获得的至少一个候选物体框分别进行对象检测，从而获得第一图像块的检测结果。

根据一种可选实施方式，对所述候选物体框进行位置敏感的候选区域池化(Position-Sensitive ROI pooling)，获取所述第一图像块中的物体框以及所述物体框内包含的对象分类的信息。需要指出，此处理仅为S130b的一种示例性实施方式，而不限于此，可使用任何适用的用于对候选物体框进行分类的图像处理方法执行S130b的处理。

通过步骤S130的处理，能够从各个确定包含有物体的第一图像块检测得到物体的信息。

在步骤S140，基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果。

例如，将至少一个第一图像块的检测结果进行合并处理，得到所述图像的检测结果，其至少包括整张图像中包含物体的位置信息，还可包括包含的物体的类别信息等。

通过前述处理，在对从图像分割得到的图像块实际进行物体检测之前，先确定各个图像块中是否包含物体，再仅对确定包含有物体的第一图像块进行物体检测，可降低物体/对象检测过程的误判率以及运算量，由此获得更优的物体检测效果。

图2是根据本公开另一些实施例的图像处理方法的流程图。

在步骤S210，对遥感图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据。

在一些可能的实现方式中，步骤S210包括以下步骤：

在步骤S210a，对图像块进行卷积处理，得到初始特征数据。

在步骤S210b，对所述初始特征数据进行缩小处理，得到缩小特征数据。

在步骤S210c，对所述缩小特征数据进行放大处理，得到放大特征数据。

在步骤S210d，对所述初始特征数据和所述放大特征数据进行融合处理，得到所述图像块的第一特征数据。

由前述S210a～S210d处理获得的第一特征数据能够将低层特征和高层特征较好地进行融合，使得最终输出的第一特征数据具有更强的判别能力。

在一些实现方式中，S210通过深度卷积神经网络实现，其中，可选地，该深度卷积神经网络为轻量级神经网络，但本公开实施例不限于此。

大型遥感图像可覆盖数以千计的地区。在图像中，可拍摄到飞机、船只、车辆、山脉等以及许多其他物体。物体呈现为多样，但也存在相似的物体。相似的物体会造成误判的问题，而有限的神经网络感受野加剧了这个问题。在缺少上下文语境的情况下，很难辨认相似的物体。

在步骤S220，对所述图像块的第一特征数据进行感受野扩大处理，以使得所述感受野扩大处理后的第一特征数据体现整个所述图像的感受野，也就是说，将第一特征数据(例如特征图)的感受野扩大到整个图像。

根据本公开的一种可选实施方式，首先，对所述图像块的第一特征数据进行多尺度池化处理，得到多组第二特征数据；其次，对所述多组第二特征数据进行反卷积处理，得到多组第三特征数据，其中，所述第三特征数据的维度与所述图像块的特征数据维度相同，从而将第二特征数据的尺度还原为原始的尺度；再后，将所述多组第三特征数据进行融合处理，将网络感受野扩大到整个图像，获得所述感受野扩大处理后的第一特征数据。由此获得的具有全局关注度的第一特征数据在后续的物体/对象检测处理中能够显著地降低虚警、误报。

需要指出，以上仅给出一种示例性的用于扩大感受野以利用全局上下文的信息的处理，本领域普通技术人员可使用任何适用的图像处理来对第一特征数据进行全局关注度检测，而不限于该处理。

在步骤S230，基于感受野扩大处理后的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块。

在多数遥感图像中，含有大面积的背景、空白或模糊的画面，在这些画面的图像块中，检测不到物体。因而，为了节省用于定位物体框耗费的运算量并且避免由于大面积背景造成的误判，有必要执行步骤S230的处理，以先确定各个图像块中是否包含有物体，而后仅对确定包含有物体的第一图像块执行步骤S240的处理。

在步骤S240，基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果。

在步骤S250，基于所述至少一个第一图像块的检测结果，确定遥感图像的检测结果。

由于使用感受野扩大处理后的第一特征数据来进行是否包含有物体的检测以及实际定位物体框的物体检测，因此不仅能够降低物体/对象检测过程的误判率以及运算量，而且显著地降低虚警、误报，进一步地提高物体检测的准确性和效率。

图3是根据本公开另一些实施例的图像处理方法的流程图。

参照图3，在步骤S310，通过第一神经网络对多个图像块中每个图像块进行特征提取处理，得到所述每个图像块的第一特征数据，其中，所述第一神经网络的至少一个网络层中的每个网络层的通道数小于预设数值。

传统的深层卷积神经网络使用网络主干进行特征提取。这些网络主干主要来自于图像分类网络，例如VGG、ResNets均在ImageNet的基础上训练获得。ImageNet是具有数百万图像的大型分级图像数据库。这种网络主干具有较强的判别力。研究者经常使用ImageNet预训练模型对他们的网络进行微调，以使训练的网络能够更好、更迅速地进行收敛。然而，由于自然图像和遥感图像之间的差异，网络微调往往无法产生较好的效果。另一方面，对于从头开始训练得到的网络，由于遥感图像样本有限以及预训练模型的多个参数，产生过拟合和拟合不足的问题。

为了解决这些问题，根据本公开的一种可选实施方式，利用轻量级的薄残差网络主干(称为Tiny-Net)来提取图像块的特征。Tiny-Net的架构如下表1所示，除卷积层conv-1以外，每个3×3块为ResNet中的残差块。

表1

Tiny-Net具有三个突出的优势：从头训练获得、速度快、运算占用内存低；其使用的网络参数的个数较VGG和ResNet大幅度减少，因此运行速度快，并且能够快速收敛而不会过拟合；Tiny-Net能够产生卓越的处理结果，适于工程应用。

在物体检测器中，可基于RPN技术，使用探测框来产生候选物体框。探测框是在图像平面上规则排布的一组预定义的具有多个尺寸、多个长宽比的框。然而，随着物体尺寸的减小，例如，小于16×16像素，基于探测框的物体检测器的性能显著地降低，而在遥感图像中小物体占大多数。

根据本公开的一些可选实施例，将第一神经网络设计为具有沙漏型结构并且使用跳跃式传递的残差网络，其中，跳跃式传递的两个端点分别设置沙漏型结构的两侧。图4示出了根据本公开示例性实施例的第一神经网络的示意性结构。在图4示出的第一神经网络的示意性结构中，层1～层5具有如前述表1的结构，在层5之后，设置上采样层(层6)，层1～层6形成沙漏型结构。在此基础上，在沙漏型结构的两侧，例如层4和层6之间设置了传递线。通过该跳跃式传递，能够将低层特征和高层特征较好地进行融合，能够防止因残差网络的层数增加而导致的梯度弥散和退化，从而使得最终输出从第一特征数据具有更强的判别能力。如此设计的第一神经网络可用于前述S210a～S210d的处理。

需要指出，前述提出的Tiny-Net仅为实现本公开实施例中特征提取的一种示例性实施方式，而不限于该方式。本领域普通技术人员可使用任何适用的神经网络用于步骤S310的特征提取。

根据本公开的一种可选实施方式，可使用单独的用于特征提取的第一神经网络，也可将该第一神经网络作为目标检测神经网络的一个子网络。该目标检测神经网络至少包括用于检测是否含有物体的第二神经网络和用于定位物体框的第三神经网络，也可还包括第一神经网络。

在将第一神经网络作为目标检测神经网络的一个子网络的实现方式中，第一神经网络的输出端分别与所述第二神经网络和所述第三神经网络的输入端连接，从而将从第一神经网络获得的第一特征数据提供给第二神经网络和第三神经网络作为输入。

在步骤S320，通过所述目标检测神经网络中的第二神经网络，基于所述第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块。

在步骤S330，通过所述目标检测神经网络中的第三神经网络，基于所述第一特征数据，基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果。

根据本公开的一种可选实施方式，可将第三神经网络设计为执行前述S130a和S130b的处理，以获得至少一个第一图像块的检测结果。

在步骤S340，基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果。

根据本公开的另一种可选实施方式，还可通过用于扩大感受野的第四神经网络，执行步骤S220的处理，以获得具有全局关注度特征的第一特征数据。图5示出通过第四神经网络执行前述步骤S220的一种示例性处理。

同理，可使用单独的第四神经网络，也可将该第四神经网络作为目标检测神经网络的一个子网络。

此外，通过对所述目标检测神经网络进行一体化训练至少得到所述第二神经网络和所述第三神经网络，还可通过该一体化训练得到第四神经网络。

以下将参照图6具体描述目标检测神经网络的训练处理。

图6是示出根据本公开一些实施例的目标检测神经网络的训练方法的流程图。

参照图6，在步骤S610，对样本图像块进行特征提取处理，得到所述样本图像块的第一特征数据，样本图像块含有样本物体框的标注信息。

这里，样本物体框的标注信息可包括样本物体框的位置和大小的信息。例如，左上角的坐标值和右下角的坐标值，或者左上角的坐标值、长度和宽度的值等，但不限于此。

可选地，样本图像块还含有样本物体框中包含的物体的类别的标注信息。

在步骤S620，通过第二神经网络，基于所述样本图像块的第一特征数据，确定所述样本图像块中是否包含有物体。

如果在步骤S620，确定所述样本图像块中包含有物体，则执行步骤S630～S640。

在步骤S630，通过第三神经网络，基于所述第一特征数据，对所述至少一个样本图像块进行检测处理，得到所述样本图像块的检测结果。

可选地，在样本图像块还含有样本物体框中包含的物体的类别的标注信息的情况下，还可检测得到样本图像块中包含的物体的类别信息。

这里，步骤S610～S630的处理分别与前述步骤S110～S130中针对单个或多个图像块的处理类似，在此不予赘述。

在步骤S640，根据样本图像块的检测结果和样本物体框的标注信息，训练第二神经网络和第三神经网络。

可例如，根据得到的物体的位置信息(即物体框的信息)和样本物体框的标注信息来计算第一损失值或第一差异值，再将计算得到的第一损失值或第一差异值反传给第二神经网络和第三神经网络，从而更新这两个神经网络的网络参数，持续训练第二神经网络和第三神经网络，直到满足收敛条件为止。由此，对第二神经网络和第三神经网络进行联合训练。

此外，在前述检测得到样本图像块中包含的物体的类别信息的实施方式中，还可根据得到的物体的类别信息和样本物体框中包含的物体的类别的标注信息，计算第二损失值或第二差异值，再根据第一损失值或第一差异值与计算得到的第二损失值或第二差异值计算得到综合损失值或综合差异值，将综合损失值或综合差异值反传给第二神经网络和第三神经网络，从而更新这两个神经网络的网络参数，持续训练第二神经网络和第三神经网络，直到满足收敛条件为止。由此，对第二神经网络和第三神经网络进行联合训练。

为了适应在遥感图像中多数物体的尺寸较小的情形，根据本公开的一种可选实施方式，在执行前述步骤S610的处理之前，对多个样本图像块中的样本物体框的标注信息对样本物体框进行聚类，根据聚类的结果来选取多个探测框的尺寸。例如，可基于样本物体框的大小对使用例如k-means(K均值)方法、均值漂移方法等对多个样本物体框进行聚类。此后，在步骤S630，在第一特征数据中均匀地布置该多个尺寸的探测框，并且通过区域框回归方法来获取多个候选物体框的信息。

由此，根据本公开实施例提出的技术方案，通过对从图像分割出的多个图像块分别执行特征提取，在实际进行物体检测之前，先基于提取得到的图像块的第一特征数据，确定包含有物体的第一图像块，然后仅对确定包含有物体的第一图像块执行物体检测处理，再将对第一图像块执行物体检测得到的检测结果进行融合，确定整张图像的物体检测结果，由此在物体检测的过程中，能够降低物体/对象检测过程中的运算量和误判率。

此外，可在获得第一特征数据后，对第一特征数据进行感受野扩大处理，由于使用感受野扩大处理后的第一特征数据来进行是否包含有物体的检测以及实际定位物体框的物体检测，因此还能够显著地降低虚警、误报，进一步地提高物体检测的准确性和效率。

图7是根据本公开一些实施例的图像处理装置的逻辑框图。

参照图7，根据本公开一些实施例的图像处理装置包括特征提取模块710、第一检测模块720、第二检测模块730和检测合并模块740。

特征提取模块710用于对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据。

可选地，所述图像为遥感图像。

第一检测模块720用于基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块；

第二检测模块730用于基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果。

检测合并模块740，用于基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果。

可选地，检测合并模块740用于将所述至少一个第一图像块的检测结果进行合并处理，得到所述图像的检测结果。

该图像处理装置用于实现前述方法实施例中相应的图像处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

图8是根据本公开另一些实施例的图像处理装置700的逻辑框图。

参照图8，根据本公开另一些实施例的图像处理装置除了包括特征提取模块710、第一检测模块720、第二检测模块730和检测合并模块740以外，还包括感受野扩大模块750。

感受野扩大模块750用于在所述第一检测模块基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块之前，对所述图像块的第一特征数据进行感受野扩大处理，以使得所述感受野扩大处理后的第一特征数据体现整个所述图像的感受野。

相应地，第一检测模块720用于基于所述感受野扩大处理后的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块。

图9是示出根据本公开一些实施例的感受野扩大模块750的示例性结构的逻辑框图。

参照图9，感受野扩大模块750包括：

多尺度池化单元7501，用于对所述图像块的第一特征数据进行多尺度池化处理，得到多组第二特征数据；

反卷积单元7502，用于对所述多组第二特征数据进行反卷积处理，得到多组第三特征数据，其中，所述第三特征数据的维度与所述图像块的特征数据维度相同；

第一特征融合单元7503，用于将所述多组第三特征数据进行融合处理，获得所述感受野扩大处理后的第一特征数据。

图10是示出根据本公开一些实施例的特征提取模块710的示例性结构的逻辑框图。

参照图10，特征提取模块710包括：

卷积单元7101，用于对所述图像块进行卷积处理，得到初始特征数据；

特征缩小单元7102，用于对所述初始特征数据进行缩小处理，得到缩小特征数据；

特征放大单元7103，用于对所述缩小特征数据进行放大处理，得到放大特征数据；

第二特征融合单元7104，用于对所述初始特征数据和所述放大特征数据进行融合处理，得到所述第一特征数据。

图11是示出根据本公开一些实施例的第二检测模块730的示例性结构的逻辑框图。

参照图11，第二检测模块730包括：

探测单元7301，用于基于多个尺寸的探测框，得到所述第一图像块的至少一个候选物体框，所述多个探测框的尺寸是基于对训练集中标注的物体框信息进行聚类确定的；

物体检测单元7302，用于对所述至少一个候选物体框进行检测，获取所述第一图像块的检测结果。

可选地，物体检测单元7302用于对所述候选物体框进行位置敏感的候选区域池化，获取所述第一图像块中的物体框以及所述物体框内包含的对象分类的信息。

根据本公开的一些实施例，特征提取模块710用于通过第一神经网络对所述多个图像块中每个图像块进行特征提取处理，得到所述每个图像块的第一特征数据，其中，所述第一神经网络的至少一个网络层中的每个网络层的通道数小于预设数值。

根据本公开的另一些实施例，所述装置还包括目标检测神经网络。第一检测模块720用于通过所述目标检测神经网络中的第二神经网络，基于所述第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块；第二检测模块730用于通过所述目标检测神经网络中的第三神经网络，基于所述第一特征数据，基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果。其中，所述第二神经网络和所述第三神经网络是通过对所述目标检测神经网络进行一体化训练得到的。

可选地，所述目标检测神经网络还包括前述第一神经网络，其中，所述第一神经网络的输出端分别与所述第二神经网络和所述第三神经网络的输入端连接。

本公开实施例提供了一种电子设备1200，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图12，其示出了适于用来实现本公开实施例的终端设备或服务器的电子设备1200的结构示意图。

如图12所示，电子设备1200包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)1201，和/或一个或多个图像处理器(GPU)1213等，处理器可以根据存储在只读存储器(ROM)1202中的可执行指令或者从存储部分1208加载到随机访问存储器(RAM)1203中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件1212和通信接口1209。其中，通信组件1212可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1209包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1209经由诸如因特网的网络执行通信处理。

处理器可与只读存储器1202和/或随机访问存储器1203中通信以执行可执行指令，通过总线1204与通信组件1212相连、并经通信组件1212与其他目标设备通信，从而完成本公开实施例提供的任一项方法对应的操作，例如，对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据；基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块；基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果；基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果。

此外，在RAM 1203中，还可存储有装置操作所需的各种程序和数据。CPU 1201、ROM1202以及RAM 1203通过总线1204彼此相连。在有RAM 1203的情况下，ROM 1202为可选模块。RAM 1203存储可执行指令，或在运行时向ROM 1202中写入可执行指令，可执行指令使处理器1201执行上述通信方法对应的操作。输入/输出(I/O)接口1205也连接至总线1204。通信组件1212可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1209。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

需要说明的是，如图12所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图12的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信组件1212可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本公开的保护范围。

特别地，根据本公开实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本公开实施例提供的方法步骤对应的指令，例如，用于对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据的可执行代码；用于基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块的可执行代码；用于基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果的可执行代码；用于基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果的可执行代码。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本公开实施例的方法中限定的上述功能。

本公开实施例提供的电子设备，在对从图像分割得到的图像块实际进行物体检测之前，先确定各个图像块中是否包含物体，再仅对确定包含有物体的第一图像块进行物体检测，可降低物体/对象检测过程的误判率以及运算量，由此获得更优的物体检测效果。

需要指出，根据实施的需要，可将本申请中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本公开实施例的目的。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任一实施例中所述的图像处理方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本公开实施例还提供了另一种图像处理方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：第一装置向第二装置发送图像处理指示，该指示使得第二装置执行上述任一可能的实施例中的图像处理方法；第一装置接收第二装置发送的后处理结果图像。

在一些实施例中，该图像处理指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行图像处理，相应地，响应于接收到调用指令，第二装置可以执行上述图像处理方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本公开的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本公开实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开实施例的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像处理方法，包括：

对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据；

基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块；

基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果；

基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述第一图像块的检测结果包括：所述第一图像块中包含的物体的位置信息和类别信息。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果，包括：

基于多个尺寸的探测框，得到所述第一图像块的至少一个候选物体框，所述多个探测框的尺寸是基于对训练集中标注的物体框信息进行聚类确定的；

对所述至少一个候选物体框进行检测，获取所述第一图像块的检测结果。

4.根据权利要求3所述的方法，其特征在于，所述对所述候选物体框进行检测，获取所述第一图像块的检测结果，包括：

对所述候选物体框进行位置敏感的候选区域池化，获取所述第一图像块中的物体框以及所述物体框内包含的对象分类的信息。

5.根据权利要求1～4中任一项所述的方法，其特征在于，在基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块之前，所述方法还包括：

对所述图像块的第一特征数据进行感受野扩大处理，以使得所述感受野扩大处理后的第一特征数据体现整个所述图像的感受野；

所述基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块，包括：

基于所述感受野扩大处理后的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块。

6.一种图像处理装置，包括：

特征提取模块，用于对图像的多个图像块进行特征提取处理，得到所述多个图像块中每个图像块的第一特征数据；

第一检测模块，用于基于所述多个图像块中每个图像块的第一特征数据，确定所述多个图像块中包含有物体的至少一个第一图像块；

第二检测模块，用于基于所述至少一个第一图像块的第一特征数据，对所述至少一个第一图像块进行检测处理，得到所述至少一个第一图像块的检测结果；

检测合并模块，用于基于所述至少一个第一图像块的检测结果，确定所述图像的检测结果。

7.根据权利要求6所述的装置，其特征在于，所述第一图像块的检测结果包括：所述第一图像块中包含的物体的位置信息和类别信息。

8.一种电子设备，其特征在于，包括：处理器和存储器；

所述存储器用于存放至少一个可执行指令，所述可执行指令使所述处理器执行如权利要求1～5中任一项所述的图像处理方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有可执行指令，所述可执行指令使所述处理器执行如权利要求1～5中任一项所述的图像处理方法的步骤。

10.一种计算机程序产品，其特征在于，包括：至少一个可执行指令，所述可执行指令被处理器执行时用于实现如权利要求1～5中任一项所述的图像处理方法的步骤。