CN110781839A

CN110781839A - 一种基于滑窗的大尺寸图像中小目标识别方法

Info

Publication number: CN110781839A
Application number: CN201911037783.XA
Authority: CN
Inventors: 陈�峰; 翟佳; 彭实; 董毅; 谢晓丹
Original assignee: Beijing Institute of Environmental Features
Current assignee: Beijing Institute of Environmental Features
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-11

Abstract

本发明涉及目标识别技术领域，尤其涉及一种基于滑窗的大尺寸图像中小目标识别方法，包括如下步骤：滑窗设置、根据待检测的原始图像及深度神经网络的输入要求，设置滑窗规格与滑窗步长；图像分割、基于设置好的滑窗分割原始图像，记录各个滑窗编号、坐标以及分割得到的区域图像；目标识别、设置深度神经网络参数，将各个滑窗分割得到的区域图像依次输入深度神经网络，对各滑窗区域图像进行目标检测识别，并记录每个目标的识别结果；结果处理及反馈、对各滑窗区域图像识别结果进行解析，输出最终识别结果。该方法可解决当前机载、卫星图像等大尺寸图像无法实现小目标直接检测识别以及直接分割图像易导致目标被分裂而无法识别的问题。

Description

一种基于滑窗的大尺寸图像中小目标识别方法

技术领域

本发明涉及目标识别技术领域，尤其涉及一种基于滑窗的大尺寸图像中小目标识别方法、计算机设备及计算机可读存储介质。

背景技术

目前，基于机载或星载设备对地下视进行目标检测识别，具有非常重要的意义，但也面临着因采集图像尺寸过大而难以利用深度学习方法进行重点关注目标检测识别的问题。尤其对于典型的小目标，通常无法直接进行识别。

在目标识别领域，利用深度学习方法进行目标检测识别具有明显优势且应用广泛，但是对于输入神经网络图像的尺寸要求一般为1k×1k像素左右。因此，再大的采集图像都要先被压缩成要求尺寸，才可以进行检测识别。根据当前机载或星载设备，其获取的原始采集图像一般尺寸可达上万像素级，而其中的小目标，通常占原始采集图像全图比重很小，例如小于0.01，只有十几像素至几十像素，大倍率压缩将直接导致采集图像中的小目标被压缩为几个像素点，甚至消失，无法进行检测识别。如若直接将图像分割，则存在部分目标被切分开而无法识别，造成漏检。若叠加一定区域进行分割，则存在叠加区域内目标因被多次检测而重复计数等问题，不能准确地检测图像中的小目标。

发明内容

本发明的目的是针对上述至少一部分问题，提供一种针对大尺寸图像中的小目标识别方法，以解决机载或星载设备获取的大尺寸图像难以准确检测小目标的问题。

为了实现上述目的，本发明提供了一种基于滑窗的大尺寸图像中小目标识别方法，包括如下步骤：

滑窗设置、根据待检测的原始图像及深度神经网络的输入要求，设置滑窗规格与滑窗步长；

图像分割、基于设置好的滑窗分割原始图像，记录各个滑窗编号、坐标以及分割得到的区域图像；

目标识别、设置深度神经网络参数，将各个滑窗分割得到的区域图像依次输入深度神经网络，对各滑窗区域图像进行目标检测识别，并记录每个目标的识别结果；

结果处理及反馈、对各滑窗区域图像识别结果进行解析，输出最终识别结果。

优选地，所述滑窗设置步骤中，设置滑窗规格时，滑窗规格等于深度神经网络最大输入图像尺寸，或等于深度神经网络最大输入图像尺寸乘原始图像的目标像素可压缩倍率。

优选地，所述滑窗设置步骤中，设置滑窗步长时，基于聚类计算法确定原始图像中目标尺度，滑窗步长设置规则包括：

Strides≤MW-K_max

其中，Strides表示滑窗步长，MW为滑窗宽度和高度中的较小值，K_max为聚类计算法得到的目标尺度最大值。

优选地，所述图像分割步骤中，基于设置好的滑窗分割原始图像时，采用边界保护措施，当距边界剩余区域不足以支持一个滑窗时，以边界为终边，反向选取一个滑窗。

优选地，所述目标识别步骤中，每个目标的识别结果包括滑窗编号、目标标签、识别结果置信度值和目标滑窗内坐标。

优选地，所述结果处理及反馈步骤中，对各滑窗区域图像识别结果进行解析，包括将每个目标的目标滑窗内坐标转换为原始图像坐标。

优选地，所述结果处理及反馈步骤中，对各滑窗区域图像识别结果进行解析，还包括结合每个目标的目标标签、识别结果置信度值和目标滑窗内坐标进行非极大值抑制操作。

优选地，所述结果处理及反馈步骤中，进行非极大值抑制操作包括：

将一滑窗区域图像检测识别得到的各目标分类；

将同一类按照识别结果置信度从大到小进行排序，按照排序每两个目标之间均进行一次IOU计算，IOU计算公式为：

其中，A、B分别为检测识别得到的两个目标区域框；

根据IOU值进行判断，若IOU值超出设定的阈值，则进行非极大值抑制。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明的上述技术方案具有如下优点：本发明提供了一种基于滑窗的大尺寸图像中小目标识别方法，该方法针对机载或星载设备得到的空天采集大尺寸图像，采用滑窗分割大尺寸的原始图像，获取多幅区域场景图像，利用深度神经网络检测依次识别区域场景图像中的目标，同时对滑窗规格和步长进行科学设置，避免因目标图像分裂造成漏检，从而实现大尺寸图像中小目标的有效检测识别。

附图说明

图1是本发明实施例中基于滑窗的大尺寸图像中小目标识别方法的流程图；

图2是本发明实施例中滑窗移动示意图；

图3是本发明实施例中部分滑窗区域图像目标检测识别效果图；

图4(a)是本发明实施例中方法得到的识别效果可视化图，图4(b)是对图4(a)中白框区域的放大图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种基于滑窗的大尺寸图像中小目标识别方法，该方法包括如下步骤：

S1、滑窗设置：根据待检测的原始图像及深度神经网络的输入要求，设置滑窗规格与滑窗步长。

此步骤主要确定滑窗的规格和步长参数。其中，设置滑窗规格时，滑窗规格包括滑窗的宽度和高度。滑窗规格决定了依次输入深度神经网络进行目标检测识别的区域场景(图像)大小。

为避免输入的图像被过分压缩或放大，同时也避免滑窗规格过小导致滑窗总数量庞大，影响计算效率，优选地，步骤S1中设置滑窗规格时，优先考虑滑窗规格等于深度神经网络最大输入图像(不压缩)尺寸。在保证识别效果前提下，对于目标像素存在可压缩空间的情况，滑窗规格可略大于深度神经网络最大输入图像(不压缩)尺寸，例如原始图像的目标像素可以按照1.5倍率压缩，则可以设置滑窗规格为神经网络最大输入图像尺寸的压缩倍率大小，即，滑窗规格＝深度神经网络最大输入图像尺寸×原始图像的目标像素可压缩倍率。

需要说明的是，本发明中用于目标检测识别的深度神经网络可根据实际需要选定，可以是现有网络，也可以是定制化开发的神经网络，在此不再进一步限定。例如深度神经网络可选用YOLOv3网络，YOLOv3也是当前使用最广泛、速度和精度优势明显的网络之一。

滑窗步长直接决定了滑窗间重叠区域大小，同时也决定了滑窗的总数量。优选地，本发明基于聚类计算法来衡量不同类型目标尺度的大小，同时结合原始图像的采集分辨率，预判目标在该设备采集的原始图像中所占像素大小，即确定原始图像中目标尺度。该操作也可为后续设置深度神经网络检测目标相关参数提供重要参考。进一步地，滑窗步长设置规则如下式(1)所示：

Strides≤MW-K_max (1)

其中，Strides表示滑动步长，MW表示滑窗规格，以尺寸较小边为基准，即滑窗宽度和高度中的较小值，K_max表示聚类结果最大值，即聚类计算法得到的原始图像中目标尺度最大值。优选地，为减少不必要的滑窗数量及提高检测识别效率，可直接选用最大步长，即以滑窗规格(以尺寸较小边为基准)减去聚类计算结果最大值。

S2、图像分割：基于设置好的滑窗分割原始图像，记录各个滑窗编号、坐标以及分割得到的区域图像。

此步骤主要基于设置好的滑窗进行原始图像分割。分割时，为便于标注目标位置，滑窗按照设置好的步长，在原始图像上优选先沿水平向滑动，完成一行滑动后，再竖直向移动，即一行一行进行扫描，遍历原始图像，其滑动示意图如图2所示，从而获取原始图像上滑窗对应位置和滑窗规格大小的区域图像信息。在滑动过程中，依次对滑窗(分割得到的区域图像)进行编号，并获得滑窗(分割得到的区域图像)对应原始图像的坐标信息，即记录编号的同时，记录各滑窗在原始图像中的坐标。

针对滑动过程中可能出现的原始图像宽度或高度方向剩余区域不足以支持一个完整滑窗，而导致停止滑动造成区域遗漏的问题，优选地，本发明采取了边界保护措施，在步骤S2中基于设置好的滑窗分割原始图像时，采用边界保护措施，当距边界剩余区域不足以支持一个滑窗时，以边界为终边，反向选取一个滑窗，以保证通过滑窗可以完全获取原始图像全部信息。

S3、目标识别：设置深度神经网络参数，将各个滑窗分割得到的区域图像依次输入设置好的深度神经网络，对各滑窗区域图像进行目标检测识别，并记录每个目标的识别结果。

此步骤中，首先进行深度神经网络参数设置，深度神经网络参数包括输入图像尺寸和目标候选区域大小，其中，输入图像尺寸可按最大输入值设置，不同网络对于最大值要求不同，对应设置即可，目标候选区域大小可参考步骤S1中的聚类计算结果进行设置。

完成深度神经网络参数设置后，即可以开始滑窗区域目标检测识别操作，分割得到的滑窗区域图像按滑窗编号顺序依次输入至深度神经网络中，进行检测识别，部分滑窗区域图像目标识别效果可视化图如图3(a)和图3(b)所示。一帧图像识别结束，自动将识别结果按照滑窗编号顺序输出，同时网络不间断进行后续帧图像识别。进一步地，每个目标的识别结果信息至少包括：滑窗编号、目标标签、识别结果置信度值和目标滑窗内坐标值。

S4、结果处理及反馈：对各滑窗区域图像识别结果进行解析，输出最终识别结果。

此步骤主要实现滑窗区域内目标识别结果的汇总、处理及反馈。优选地，结果处理及反馈步骤中，对各滑窗区域图像识别结果进行解析，包括将每个目标的目标滑窗内坐标转换为原始图像坐标，即按照目标位于滑窗内的坐标，结合滑窗编号所对应的滑窗区域在原始图像中的坐标信息，转换得到目标在原始图像中的坐标。

进一步地，结果处理及反馈步骤中，对各滑窗区域图像识别结果进行解析，还包括对各滑窗区域图像的目标，结合每个目标的目标标签、识别结果置信度值和目标滑窗内坐标进行非极大值抑制操作。该操作可在滑窗依次进行目标检测识别的过程中同时进行。具体地，进行非极大值抑制操作包括：

将一滑窗区域图像检测识别得到的各目标分类，即对滑窗中的目标结果进行不同目标分类。

将同一类目标按照识别结果置信度从大到小进行排序，按照排序每两个目标进行一次IOU计算，先将识别结果置信度最大的目标依次与其他目标进行计算，再将识别结果置信度次大的目标依次与(除识别结果置信度最大的目标外的)其他目标进行计算，以此类推，即同一类目标按识别结果依次递进的形式进行目标区域框与目标区域框之间的IOU计算，保证检测结果中每两个目标之间均进行了IOU计算，且每两个目标区域框只无序(不分先后)计算一次IOU，IOU计算公式为：

其中，A、B分别为检测识别得到的两个目标区域框。

根据IOU值进行判断，若IOU值超出设定的阈值，则进行非极大值抑制，非极大值抑制操作按照目标识别结果的置信度值进行。

非极大值抑制操作之后，将获得基于原始图像坐标的目标识别的最终结果，最终结果信息包括原始图像名称、目标标签、识别结果置信度值、目标坐标值(原始图像坐标)。最终结果可直接用于情况判识，也可将该结果反馈至原始图像显示，便于察看。

进一步地，为更好地观看目标检测识别是否准确，步骤S4还可将最终结果信息反馈至原始图像中，实现可视化效果，如图4(a)和图4(b)所示。

通常情况下，空天采集大尺寸图像的图像规格至少在3k×3k以上，而其中的小目标，一般占图像比重仅为0.005左右，以3k的图像为例，目标像素级别仅为15像素左右，在此情况下，现有技术中常规的检测方法往往难以识别图像中的小目标，或因分割图像导致漏检、误检。本发明所提供的基于滑窗的大尺寸图像中小目标识别方法，首先对目标像素进行聚类计算，并结合深度学习神经网络输入图像尺寸要求，科学地确定滑窗的规格和步长等基本参数；然后利用深度学习方法进行滑窗区域内目标检测识别；最后对于各滑窗的识别结果信息进行非极大值抑制操作，消除目标重叠识别的影响，得到最终检测识别结果并将结果反馈至原始图像。该方法可解决大尺寸图像中小目标难以检测识别的问题，以及一般图像中小目标不允许压缩的问题。在对地下视检测识别应用方面，提高了机载拍摄大尺度图像和卫星采集图像数据的利用率，同时可用于这些图像数据中典型目标尤其典型小目标的自动检测识别。此外，在自然灾害情况下，也可实现基于机载、星载大尺寸图像的目标毁坏或场景变化检测等。在其它应用方面，例如商业卫星公司，基于本发明可辅助开展客户对于卫星图像数据或特定的目标数据的筛选等工作。

为验证本发明所提供方法的有效性，如图2至图4所示，在一个具体的实施方式中，选取一帧7300×6908像素大小的卫星图像，其中机场内部的飞机大小为9×11像素至30×30像素不等，如图2中的背景图像所示，飞机目标无法辨识。该原始图像输入至任意神经网络须进行6倍率以上的压缩，飞机目标大小将被压缩至几个像素点，极难辨识。

作为对照，本发明基于YOLOv3网络直接对该原始图像进行检测识别，结果显示任意一架飞机都无法检测识别。而基于本发明所提供的方法(同样选用YOLOv3网络作为深度神经网络进行识别)，抛开聚类计算法及YOLOv3网络本身存在的漏检和误检情况，飞机可以实现正常有效识别，识别效果如图4(a)和图4(b)所示，其中，图4(b)为图4(a)所示识别结果的白框区域局部放大图，图4(b)中识别出的飞机目标均被白色矩形框圈定。上述结果验证了本发明对于大尺寸图像中小目标识别的可行性和有效性。

综上，本发明所提供的基于滑窗的大尺寸图像中小目标识别方法可避免因图像分割而引起目标漏检，以及因滑窗区域重叠而导致目标重复计数的问题，对于大尺寸图像可以实现小目标的有效识别。

特别地，在本发明一些优选的实施方式中，还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式中所述的基于滑窗的大尺寸图像中小目标识别方法的步骤。

在本发明另一些优选的实施方式中，还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施方式中所述的基于滑窗的大尺寸图像中小目标识别方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程，在此不再重复说明。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于滑窗的大尺寸图像中小目标识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：所述滑窗设置步骤中，设置滑窗规格时，滑窗规格等于深度神经网络最大输入图像尺寸，或等于深度神经网络最大输入图像尺寸乘原始图像的目标像素可压缩倍率。

3.根据权利要求2所述的方法，其特征在于：所述滑窗设置步骤中，设置滑窗步长时，基于聚类计算法确定原始图像中目标尺度，滑窗步长设置规则包括：

Strides≤MW-K_max

4.根据权利要求1所述的方法，其特征在于：所述图像分割步骤中，基于设置好的滑窗分割原始图像时，采用边界保护措施，当距边界剩余区域不足以支持一个滑窗时，以边界为终边，反向选取一个滑窗。

5.根据权利要求4所述的方法，其特征在于：所述目标识别步骤中，每个目标的识别结果包括滑窗编号、目标标签、识别结果置信度值和目标滑窗内坐标。

6.根据权利要求5所述的方法，其特征在于：所述结果处理及反馈步骤中，对各滑窗区域图像识别结果进行解析，包括将每个目标的目标滑窗内坐标转换为原始图像坐标。

7.根据权利要求6所述的方法，其特征在于：所述结果处理及反馈步骤中，对各滑窗区域图像识别结果进行解析，还包括结合每个目标的目标标签、识别结果置信度值和目标滑窗内坐标进行非极大值抑制操作。

8.根据权利要求7所述的方法，其特征在于：所述结果处理及反馈步骤中，进行非极大值抑制操作包括：

将一滑窗区域图像检测识别得到的各目标分类；

将同一类目标按照识别结果置信度从大到小进行排序，按照排序每两个目标之间均进行一次IOU计算，IOU计算公式为：

其中，A、B分别为检测识别得到的两个目标区域框；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。