CN110956126A

CN110956126A - 一种联合超分辨率重建的小目标检测方法

Info

Publication number: CN110956126A
Application number: CN201911185012.5A
Authority: CN
Inventors: 赵旭; 李仕林; 李梅玉; 李宏杰; 韩凯; 孙晨曦; 马启林
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-03
Anticipated expiration: 2039-11-27
Also published as: CN110956126B

Abstract

申请涉及电力设备检测控制领域，具体而言，涉及一种联合超分辨率重建的小目标检测方法。一种联合超分辨率重建的小目标检测方法，包括以下步骤：选择Microsoft COCO和SUN数据库中大量包含小目标的图像分别构建网络预训练的预训练集和预测试集；搜集电网环境下包含小目标的图像分别构建网络微调的微调训练集和微调测试集；基于上述预训练集和预测试集、微调训练集和微调测试集，通过结合4PP‑EUSR超分辨率算法模型与上采样模型、鉴别器、质量评估构建超分辨率重建网络模型；通过在Faster R‑CNN算法框架中对分辨率低的小目标对其所在的proposal利用上述超分辨率重建网络模型提升小目标的特征质量并进行后续小目标的检测，构建小目标检测深度卷积神经网络。

Description

一种联合超分辨率重建的小目标检测方法

技术领域

本申请涉及电力设备检测控制领域，具体而言，涉及一种联合超分辨率重建的小目标检测方法。

背景技术

小目标问题在物体检测和语义分割等视觉任务中一直是存在的一个难点，也是视觉领域的研究热点。小目标的检测精度通常只有大目标的一半，小目标有两种定义方式，一种是相对尺寸大小，如目标尺寸的长宽是原图像尺寸的0.1，即可认为是小目标，另外一种是绝对尺寸的定义，即尺寸小于32*32像素的目标即可认为是小目标。

小目标检测在深度卷积神经网络学习模型中一直是一个难题。早期的目标检测框架大多数是针对通用的目标来进行检测，如经典的单阶段方法yolo和ssd，两阶段方法faster-rcnn等，这些方法主要是针对通用目标数据集来设计的解决方案，因此对于图像中的小目标来说，检测效果不是很理想。

为了解决小目标问题提出的方法有：

图像的缩放，在检测前对图像进行缩放。但是，由于大图像变得太大，无法装入GPU进行训练，因此单纯的升级并不有效。在一些实现方式中，首先下采样图像；然后利用强化学习训练基于注意力的模型，动态搜索图像中感兴趣的区域；然后对选定的区域进行高分辨率的研究，并可用于预测较小的目标。这避免了对图像中每个像素进行同等关注分析的需要，节省了一些计算成本，并且在目标检测上下文训练时使用图像金字塔。

浅网络，小物体更容易被接受场较小的探测器预测。较深的网络具有较大的接受域，容易丢失关于较粗层中较小对象的一些信息。在一些实现方式中，提出了一种非常浅的网络，只有四个卷积层和三个全连接层，用于检测航空图像中的目标。当期望的实例类型很小时，这种类型的检测器非常有用。但是，如果预期的实例具有不同的大小，则效果不好。

上下文信息，利用围绕小对象实例的上下文，使用上下文来提高小对象的性能。在一些实现方式中，使用上下文补丁对R-CNN进行了扩展，与区域建议网络生成的建议补丁并行。在另一些实现方式中，还可以将方法与深度掩模对象建议相结合，使信息通过多条路径流动。

超分辨率，还有针对小目标的图像增强等。最典型的是利用生成对抗性网络选择性地提高小目标的分辨率。它的生成器学会了将小对象的不佳表示增强为超分辨对象，这些超分辨对象与真实的大对象非常相似，足以欺骗竞争的鉴别器。

近两年提出了利用多层特征图的方法(特征金字塔、RNN思想、逐层预测)，对小目标检测的效果产生了显著的提升。现阶段主流算法有：

图像金字塔：较早提出对训练图片上采样出多尺度的图像金字塔。通过上采样能够加强小目标的细粒度特征，在理论上能够优化小目标检测的定位和识别效果。但基于图像金字塔训练卷积神经网络模型对计算机算力和内存都有非常高的要求。计算机硬件发展至今也难有胜任。故该方法在实际应用中极少。

逐层预测：该方法对于卷积神经网络的每层特征图输出进行一次预测，最后综合考量得出结果。同样，该方法也需要极高的硬件性能。

特征金字塔：参考多尺度特征图的特征信息，同时兼顾了较强的语义特征和位置特征。该方法的优势在于，多尺度特征图是卷积神经网络中固有的过渡模块，堆叠多尺度特征图对于算法复杂度的增加微乎其微。

RNN思想：参考了RNN算法中的门限机制、长短期记忆等，同时记录多层次的特征信息。但RNN固有的缺陷是训练速度较慢，部分操作无法矩阵化。

发明内容

本申请的目的在于提供一种联合超分辨率重建的小目标检测方法，针对小目标的分辨率低，形状简单轮廓粗糙，在网络中加入超分辨率技术，通过优化小目标区域的清晰度，来提高网络对小目标的检测性能,可以解决真实电网环境中，在线检测远距离人体、安全帽等小目标，实现异常行为智能分析，提高电网环境安全运行的效果。

本申请的实施例是这样实现的：

本申请实施例提供一种联合超分辨率重建的小目标检测方法，包括以下步骤：

选择Microsoft COCO和SUN数据库中大量包含小目标的图像分别构建网络预训练的预训练集和预测试集；搜集电网环境下包含小目标的图像分别构建网络微调的微调训练集和微调测试集；

基于上述预训练集和预测试集、微调训练集和微调测试集，通过结合4PP-EUSR超分辨率算法模型与上采样模型、鉴别器、质量评估构建超分辨率重建网络模型；

通过在Faster R-CNN算法框架中对分辨率低的小目标对其所在的proposal利用上述超分辨率重建网络模型提升小目标的特征质量并进行后续小目标的检测，构建小目标检测深度卷积神经网络。

本申请实施例的有益效果包括：本申请通过于将超分辨率技术应用于目标检测网络，锚点框的选择更加合适，可以适应不同种类小目标的检测；采用超分辨率技术对RPN建议的锚点框内的图像增强为超分辨对象，这些超分辨对象与真实的大对象非常相似，能应用较为有效的一般目标检测算法检测小目标，提高了检测精度，可以克服了因小目标图像分辨率低、图像模糊、携带的信息少，所导致特征表达能力弱的缺陷；本申请提供的联合超分辨率重建的小目标检测方法可以应用在实际的电网环境中，对远距离人体等小目标进行检测并实现安全监控的目的。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了根据本申请实施例一种联合超分辨率重建的小目标检测方法流程图；

图2示出了根据本申请实施例一种联合超分辨率重建的小目标检测方法的总体技术框图；

图3示出了根据本申请实施例一种联合超分辨率重建的小目标检测方法超分辨率技术框图。

具体实施方式

现在将描述某些示例性实施方案，以从整体上理解本文所公开的装置和方法的结构、功能、制造和用途的原理。这些实施方案的一个或多个示例已在附图中示出。本领域的普通技术人员将会理解，在本文中具体描述并示出于附图中的装置和方法为非限制性的示例性实施方案，并且本申请的多个实施方案的范围仅由权利要求书限定。结合一个示例性实施方案示出或描述的特征可与其他实施方案的特征进行组合。这种修改和变型旨在包括在本申请的范围之内。

本说明书通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征、结构或特性包括在至少一个实施例中。因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、结构或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。

近年来，深度学习得益于高性能计算机、大规模数据集以及能够训练更深网络的技术，实用性和普及性都有了很大的发展。在视觉领域，诸如：视觉挑战大赛、目标检测跟踪、语义分割等方向均取得了令人满意的效果。

卷积神经网络深度学习方式更是在各种任务中展现出突破性的进展，从目标检测到小目标检测，卷积神经网络的应用代替了原有的基于人工规则提取特征的方法，克服了主观设计的传统模式，实现了更加精确地表达和检测。

图1示出了本申请实施例一种联合超分辨率重建的小目标检测方法的流程示意图。

在步骤S1中，选择Microsoft COCO和SUN数据库中大量包含小目标的图像分别构建网络预训练的预训练集和预测试集；搜集电网环境下包含小目标的图像分别构建网络微调的微调训练集和微调测试集。

Microsoft COCO数据集是微软构建的一个数据集，其包含detection,segmentation,keypoints等任务。COCO数据集中的图片包含了自然图片以及生活中常见的目标图片，背景比较复杂，目标数量比较多，目标尺寸更小，因此COCO数据集上的任务更难，对于检测任务来说，现在衡量一个模型好坏的标准更加倾向于使用COCO数据集上的检测结果。

SUN数据集包含131067个图像，由908个场景类别和4479个物体类别组成，其中背景标注的物体有313884个。

获取所述训练集合测试集的具体步骤包括：

在步骤S11，基于“R-cnn for small object detection”的小目标数据集，即从Microsoft COCO数据集和SUN数据集中挑选出4925幅图像，挑选的对象是现实生活中10种典型的尺寸不超过30cm的小目标，构建网络预训练的预训练集和预测试集。

所述小目标图像具体包括以下特点：

像素点少于16×16，占图像比例约为0.2％；

对于小目标图像，高分辨率的图像几乎是不存在；

目标样本不均衡，比如鼠标有上千幅而纸箱却只有100幅。

步骤S12，调研经常有现场作业的某电网公司，搜集一年内视频监控数据，用matlab读取每帧图像，标记出远距离人、安全帽等小目标边界框以构建网络微调的微调训练集和微调测试集。

具体包括图像以及标注文件，所述标注文件可以设置为xml格式，所述标注文件中存有每个目标的边框信息(x^*,y^*,w^*,h^*)和类别，其中(x^*,y^*)表示边框左上角的坐标，(w^*,h^*)表示边框的宽和高。

在步骤S2中，通过结合4PP-EUSR超分辨率算法模型与上采样模型、鉴别器、质量评估构建超分辨率重建网络模型，即设计合适的超分辨率深度卷积神经网络,如图2和图3所示。

利用简化4PP-EUSR网络构建超分辨率重建网络对低分辨率图像实现超分辨率重构。所述构建超分辨率重建网络步骤如下：

在步骤S21中，在DIV2K数据集上，利用l₁损失函数训练EUSR模型，得到放大4倍的输出图像。

基于所述预训练的预训练集和预测试集，在每次训练中，从训练图像集中随机截取16个48×48的图像块，用4倍上采样的方式得到192×192的输出图像。

过程中采用Adam优化，令：

更新网络参数，执行1000000次训练，初始学习率为10^-4，每200000次学习率下降一半。

在步骤S22中，在TID2013数据集上，结合EUSR生成的图像与Le Kang盲图像质量评价网络，以EMD距离为损失函数，完成整体质量评价分支的训练。

在预训练的EUSR网络模型后串联LeKang-CNN，将最后一层替换为全连接层并用softmax逻辑回归为10类质量分数，训练质量分数预测模型。

将TID2013数据集的图像无重叠的划分为48×48的小图像块，每个图像块共用原图质量分数。

输入的批量为128个图像块，训练100个周期，每个周期迭代1000次，学习率为10^-5。

在步骤S23中，联合重建损失、对抗损失、主观质量损失、质量表达损失，微调EUSR与鉴别器组合的网络整体的损失。

微调训练集和微调测试集，将预训练的EUSR网络联合鉴别网络，根据生成图像的质量分数进行微调。

在每次训练过程中，EUSR模块输出4倍率的上采样图像，鉴别器网络根据sigmoid交叉熵损失判别真实图像和上采样图像。最后根据4个损失训练整个网络模型。

具体包括重建损失l_r表示为：

其中，W表示图像的宽，H表示图像的高，I_w,h表示(w,h)处像素值，

表示(w,h)处重建后的像素值。

对抗损失l_g表示为：

其中，

表示表示上采样超分辨率重建图像

输入鉴别器后的输出，代表着判定该图像为真实图像的概率。

主观质量损失l_ss表示为：

分别表示真实图像和上采样超分辨率重建图像的预测主观质量分数；S_s,max表示主观质量分数最大值，本实例设定为10；α_ss控制着

的贡献率，本实例设定为0.8。

主观表达损失l_sr表示为：

分别表示真实图像和上采样超分辨率重建图像，经过全局平均池化层的第i个中间输出值。

网络整体的损失表示为：

l＝0.03l_r+0.1l_g+0.01l_ss+0.1l_sr

在步骤S3中，设计小目标检测深度卷积神经网络，在Faster R-CNN的算法框架上针对小目标检测做出改进，对于分辨率低的小目标，对其所在的proposal进行超分辨率，提升小目标的特征质量，进行后续小目标的检测。

在Faster R-CNN框架基础上进行改进，对RPN建议的锚点框进行合适的选取，并针对锚点框中小目标像素点少、图像模糊的缺陷，利用步骤S2的超分辨率技术进行增强后在做后续小目标识别，具体包括如下步骤：

步骤S31,基于Faster R-CNN网络结构，在RPN网络中设置尺寸合适的锚点框。

通过RPN建议的锚点框以及真实边界框都是正方形，得到真实边界框和锚点框的IoU，其表示为：

其中，S_g表示真实边界框的边长，S_p表示锚点框的边长，d表示两框在非重合区域中边界的距离.

设置IoU的阈值为t，由min(IoU)≥t可得：

且

的有效性，加上d最大值等于anchor的步进，而anchor的步进可由主干网下采样的次数算出。所以合适的锚点框最终可以利用下述公式选取：

其中，S_g表示真实边界框的边长，S_p表示锚点框的边长，d表示两框在非重合区域中边界的距离。

在步骤S32中，使用步骤S2的超分辨率重建网络对proposal区域进行超分辨重建，对上述重建后的锚点框内的目标进行识别。

锚点框的选择更加合适，可以适应不同种类小目标的检测；采用超分辨率技术对RPN建议的锚点框内的图像增强为超分辨对象，这些超分辨对象与真实的大对象非常相似，能应用较为有效的一般目标检测算法检测小目标，提高了检测精度；本发明中的网络结构可以应用在实际的电网环境中，对远距离人体等小目标进行检测并实现安全监控的目的。

在一些实施例中，此外，将上述超分辨率技术替换为convolutional-deconvolutional network，在不改变图像尺寸的情况下再次进行锚点框内的目标识别。将应用两种超分辨率技术检测的结果求并集，得到最终的检测结果。

为了提高检测效果，将超分辨率重建网络替换为convolutional-deconvolutional network(正反卷积网络模型)，该网络的结构是对称的，卷积层用来获取图像的抽象内容，反卷积层用来放大特征尺寸并且恢复图像细节。

卷积层和反卷积层学习的特征是目标图像和低质图像之间的残差，损失函数用的均方误差，该网络在ImageNet进行预训练。

在不改变图像尺寸的情况下再次进行锚点框内的目标识别，与步骤S2的超分辨率技术相辅，达到多尺度检测的目的，将应用两种超分辨率技术检测的结果求并集，得到最终的检测结果。

本申请实施例在设计阶段的输入是常用的目标检测数据集，在实际应用中输入的可以是实际电网环境中的监控视频序列，联合不同的超分辨率技术，都是服务于输出更加精确的小目标检测结果，最后输出的是图像中存在的小目标。本发明能够很好地克服因图像分辨率低、图像模糊、携带的信息少，所导致特征表达能力弱，也就是在提取特征过程中提取到的特征非常少的影响，实现对小目标更加精确的检测。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)、或连接至外部计算机(例如通过因特网)、或在云计算环境中、或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。