CN110956126A - 一种联合超分辨率重建的小目标检测方法 - Google Patents
一种联合超分辨率重建的小目标检测方法 Download PDFInfo
- Publication number
- CN110956126A CN110956126A CN201911185012.5A CN201911185012A CN110956126A CN 110956126 A CN110956126 A CN 110956126A CN 201911185012 A CN201911185012 A CN 201911185012A CN 110956126 A CN110956126 A CN 110956126A
- Authority
- CN
- China
- Prior art keywords
- super
- image
- network
- resolution
- small
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 238000013441 quality evaluation Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 34
- 238000005516 engineering process Methods 0.000 claims description 11
- 230000003042 antagnostic effect Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- OLBCVFGFOZPWHH-UHFFFAOYSA-N propofol Chemical compound CC(C)C1=CC=CC(C(C)C)=C1O OLBCVFGFOZPWHH-UHFFFAOYSA-N 0.000 claims description 2
- 229960004134 propofol Drugs 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
申请涉及电力设备检测控制领域,具体而言,涉及一种联合超分辨率重建的小目标检测方法。一种联合超分辨率重建的小目标检测方法,包括以下步骤:选择Microsoft COCO和SUN数据库中大量包含小目标的图像分别构建网络预训练的预训练集和预测试集;搜集电网环境下包含小目标的图像分别构建网络微调的微调训练集和微调测试集;基于上述预训练集和预测试集、微调训练集和微调测试集,通过结合4PP‑EUSR超分辨率算法模型与上采样模型、鉴别器、质量评估构建超分辨率重建网络模型;通过在Faster R‑CNN算法框架中对分辨率低的小目标对其所在的proposal利用上述超分辨率重建网络模型提升小目标的特征质量并进行后续小目标的检测,构建小目标检测深度卷积神经网络。
Description
技术领域
本申请涉及电力设备检测控制领域,具体而言,涉及一种联合超分辨率重建的小目标检测方法。
背景技术
小目标问题在物体检测和语义分割等视觉任务中一直是存在的一个难点,也是视觉领域的研究热点。小目标的检测精度通常只有大目标的一半,小目标有两种定义方式,一种是相对尺寸大小,如目标尺寸的长宽是原图像尺寸的0.1,即可认为是小目标,另外一种是绝对尺寸的定义,即尺寸小于32*32像素的目标即可认为是小目标。
小目标检测在深度卷积神经网络学习模型中一直是一个难题。早期的目标检测框架大多数是针对通用的目标来进行检测,如经典的单阶段方法yolo和ssd,两阶段方法faster-rcnn等,这些方法主要是针对通用目标数据集来设计的解决方案,因此对于图像中的小目标来说,检测效果不是很理想。
为了解决小目标问题提出的方法有:
图像的缩放,在检测前对图像进行缩放。但是,由于大图像变得太大,无法装入GPU进行训练,因此单纯的升级并不有效。在一些实现方式中,首先下采样图像;然后利用强化学习训练基于注意力的模型,动态搜索图像中感兴趣的区域;然后对选定的区域进行高分辨率的研究,并可用于预测较小的目标。这避免了对图像中每个像素进行同等关注分析的需要,节省了一些计算成本,并且在目标检测上下文训练时使用图像金字塔。
浅网络,小物体更容易被接受场较小的探测器预测。较深的网络具有较大的接受域,容易丢失关于较粗层中较小对象的一些信息。在一些实现方式中,提出了一种非常浅的网络,只有四个卷积层和三个全连接层,用于检测航空图像中的目标。当期望的实例类型很小时,这种类型的检测器非常有用。但是,如果预期的实例具有不同的大小,则效果不好。
上下文信息,利用围绕小对象实例的上下文,使用上下文来提高小对象的性能。在一些实现方式中,使用上下文补丁对R-CNN进行了扩展,与区域建议网络生成的建议补丁并行。在另一些实现方式中,还可以将方法与深度掩模对象建议相结合,使信息通过多条路径流动。
超分辨率,还有针对小目标的图像增强等。最典型的是利用生成对抗性网络选择性地提高小目标的分辨率。它的生成器学会了将小对象的不佳表示增强为超分辨对象,这些超分辨对象与真实的大对象非常相似,足以欺骗竞争的鉴别器。
近两年提出了利用多层特征图的方法(特征金字塔、RNN思想、逐层预测),对小目标检测的效果产生了显著的提升。现阶段主流算法有:
图像金字塔:较早提出对训练图片上采样出多尺度的图像金字塔。通过上采样能够加强小目标的细粒度特征,在理论上能够优化小目标检测的定位和识别效果。但基于图像金字塔训练卷积神经网络模型对计算机算力和内存都有非常高的要求。计算机硬件发展至今也难有胜任。故该方法在实际应用中极少。
逐层预测:该方法对于卷积神经网络的每层特征图输出进行一次预测,最后综合考量得出结果。同样,该方法也需要极高的硬件性能。
特征金字塔:参考多尺度特征图的特征信息,同时兼顾了较强的语义特征和位置特征。该方法的优势在于,多尺度特征图是卷积神经网络中固有的过渡模块,堆叠多尺度特征图对于算法复杂度的增加微乎其微。
RNN思想:参考了RNN算法中的门限机制、长短期记忆等,同时记录多层次的特征信息。但RNN固有的缺陷是训练速度较慢,部分操作无法矩阵化。
发明内容
本申请的目的在于提供一种联合超分辨率重建的小目标检测方法,针对小目标的分辨率低,形状简单轮廓粗糙,在网络中加入超分辨率技术,通过优化小目标区域的清晰度,来提高网络对小目标的检测性能,可以解决真实电网环境中,在线检测远距离人体、安全帽等小目标,实现异常行为智能分析,提高电网环境安全运行的效果。
本申请的实施例是这样实现的:
本申请实施例提供一种联合超分辨率重建的小目标检测方法,包括以下步骤:
选择Microsoft COCO和SUN数据库中大量包含小目标的图像分别构建网络预训练的预训练集和预测试集;搜集电网环境下包含小目标的图像分别构建网络微调的微调训练集和微调测试集;
基于上述预训练集和预测试集、微调训练集和微调测试集,通过结合4PP-EUSR超分辨率算法模型与上采样模型、鉴别器、质量评估构建超分辨率重建网络模型;
通过在Faster R-CNN算法框架中对分辨率低的小目标对其所在的proposal利用上述超分辨率重建网络模型提升小目标的特征质量并进行后续小目标的检测,构建小目标检测深度卷积神经网络。
本申请实施例的有益效果包括:本申请通过于将超分辨率技术应用于目标检测网络,锚点框的选择更加合适,可以适应不同种类小目标的检测;采用超分辨率技术对RPN建议的锚点框内的图像增强为超分辨对象,这些超分辨对象与真实的大对象非常相似,能应用较为有效的一般目标检测算法检测小目标,提高了检测精度,可以克服了因小目标图像分辨率低、图像模糊、携带的信息少,所导致特征表达能力弱的缺陷;本申请提供的联合超分辨率重建的小目标检测方法可以应用在实际的电网环境中,对远距离人体等小目标进行检测并实现安全监控的目的。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了根据本申请实施例一种联合超分辨率重建的小目标检测方法流程图;
图2示出了根据本申请实施例一种联合超分辨率重建的小目标检测方法的总体技术框图;
图3示出了根据本申请实施例一种联合超分辨率重建的小目标检测方法超分辨率技术框图。
具体实施方式
现在将描述某些示例性实施方案,以从整体上理解本文所公开的装置和方法的结构、功能、制造和用途的原理。这些实施方案的一个或多个示例已在附图中示出。本领域的普通技术人员将会理解,在本文中具体描述并示出于附图中的装置和方法为非限制性的示例性实施方案,并且本申请的多个实施方案的范围仅由权利要求书限定。结合一个示例性实施方案示出或描述的特征可与其他实施方案的特征进行组合。这种修改和变型旨在包括在本申请的范围之内。
本说明书通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等,意味着结合该实施例描述的具体特征、结构或特性包括在至少一个实施例中。因此,本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等并不一定都指相同的实施例。此外,在一个或多个实施例中,具体特征、结构或特性可以任何合适的方式进行组合。因此,在无限制的情形下,结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。
近年来,深度学习得益于高性能计算机、大规模数据集以及能够训练更深网络的技术,实用性和普及性都有了很大的发展。在视觉领域,诸如:视觉挑战大赛、目标检测跟踪、语义分割等方向均取得了令人满意的效果。
卷积神经网络深度学习方式更是在各种任务中展现出突破性的进展,从目标检测到小目标检测,卷积神经网络的应用代替了原有的基于人工规则提取特征的方法,克服了主观设计的传统模式,实现了更加精确地表达和检测。
图1示出了本申请实施例一种联合超分辨率重建的小目标检测方法的流程示意图。
在步骤S1中,选择Microsoft COCO和SUN数据库中大量包含小目标的图像分别构建网络预训练的预训练集和预测试集;搜集电网环境下包含小目标的图像分别构建网络微调的微调训练集和微调测试集。
Microsoft COCO数据集是微软构建的一个数据集,其包含detection,segmentation,keypoints等任务。COCO数据集中的图片包含了自然图片以及生活中常见的目标图片,背景比较复杂,目标数量比较多,目标尺寸更小,因此COCO数据集上的任务更难,对于检测任务来说,现在衡量一个模型好坏的标准更加倾向于使用COCO数据集上的检测结果。
SUN数据集包含131067个图像,由908个场景类别和4479个物体类别组成,其中背景标注的物体有313884个。
获取所述训练集合测试集的具体步骤包括:
在步骤S11,基于“R-cnn for small object detection”的小目标数据集,即从Microsoft COCO数据集和SUN数据集中挑选出4925幅图像,挑选的对象是现实生活中10种典型的尺寸不超过30cm的小目标,构建网络预训练的预训练集和预测试集。
所述小目标图像具体包括以下特点:
像素点少于16×16,占图像比例约为0.2%;
对于小目标图像,高分辨率的图像几乎是不存在;
目标样本不均衡,比如鼠标有上千幅而纸箱却只有100幅。
步骤S12,调研经常有现场作业的某电网公司,搜集一年内视频监控数据,用matlab读取每帧图像,标记出远距离人、安全帽等小目标边界框以构建网络微调的微调训练集和微调测试集。
具体包括图像以及标注文件,所述标注文件可以设置为xml格式,所述标注文件中存有每个目标的边框信息(x*,y*,w*,h*)和类别,其中(x*,y*)表示边框左上角的坐标,(w*,h*)表示边框的宽和高。
在步骤S2中,通过结合4PP-EUSR超分辨率算法模型与上采样模型、鉴别器、质量评估构建超分辨率重建网络模型,即设计合适的超分辨率深度卷积神经网络,如图2和图3所示。
利用简化4PP-EUSR网络构建超分辨率重建网络对低分辨率图像实现超分辨率重构。所述构建超分辨率重建网络步骤如下:
在步骤S21中,在DIV2K数据集上,利用l1损失函数训练EUSR模型,得到放大4倍的输出图像。
基于所述预训练的预训练集和预测试集,在每次训练中,从训练图像集中随机截取16个48×48的图像块,用4倍上采样的方式得到192×192的输出图像。
过程中采用Adam优化,令:
更新网络参数,执行1000000次训练,初始学习率为10-4,每200000次学习率下降一半。
在步骤S22中,在TID2013数据集上,结合EUSR生成的图像与Le Kang盲图像质量评价网络,以EMD距离为损失函数,完成整体质量评价分支的训练。
在预训练的EUSR网络模型后串联LeKang-CNN,将最后一层替换为全连接层并用softmax逻辑回归为10类质量分数,训练质量分数预测模型。
将TID2013数据集的图像无重叠的划分为48×48的小图像块,每个图像块共用原图质量分数。
输入的批量为128个图像块,训练100个周期,每个周期迭代1000次,学习率为10-5。
在步骤S23中,联合重建损失、对抗损失、主观质量损失、质量表达损失,微调EUSR与鉴别器组合的网络整体的损失。
微调训练集和微调测试集,将预训练的EUSR网络联合鉴别网络,根据生成图像的质量分数进行微调。
在每次训练过程中,EUSR模块输出4倍率的上采样图像,鉴别器网络根据sigmoid交叉熵损失判别真实图像和上采样图像。最后根据4个损失训练整个网络模型。
具体包括重建损失lr表示为:
对抗损失lg表示为:
主观质量损失lss表示为:
主观表达损失lsr表示为:
网络整体的损失表示为:
l=0.03lr+0.1lg+0.01lss+0.1lsr
在步骤S3中,设计小目标检测深度卷积神经网络,在Faster R-CNN的算法框架上针对小目标检测做出改进,对于分辨率低的小目标,对其所在的proposal进行超分辨率,提升小目标的特征质量,进行后续小目标的检测。
在Faster R-CNN框架基础上进行改进,对RPN建议的锚点框进行合适的选取,并针对锚点框中小目标像素点少、图像模糊的缺陷,利用步骤S2的超分辨率技术进行增强后在做后续小目标识别,具体包括如下步骤:
步骤S31,基于Faster R-CNN网络结构,在RPN网络中设置尺寸合适的锚点框。
通过RPN建议的锚点框以及真实边界框都是正方形,得到真实边界框和锚点框的IoU,其表示为:
其中,Sg表示真实边界框的边长,Sp表示锚点框的边长,d表示两框在非重合区域中边界的距离.
设置IoU的阈值为t,由min(IoU)≥t可得:
其中,Sg表示真实边界框的边长,Sp表示锚点框的边长,d表示两框在非重合区域中边界的距离。
在步骤S32中,使用步骤S2的超分辨率重建网络对proposal区域进行超分辨重建,对上述重建后的锚点框内的目标进行识别。
锚点框的选择更加合适,可以适应不同种类小目标的检测;采用超分辨率技术对RPN建议的锚点框内的图像增强为超分辨对象,这些超分辨对象与真实的大对象非常相似,能应用较为有效的一般目标检测算法检测小目标,提高了检测精度;本发明中的网络结构可以应用在实际的电网环境中,对远距离人体等小目标进行检测并实现安全监控的目的。
在一些实施例中,此外,将上述超分辨率技术替换为convolutional-deconvolutional network,在不改变图像尺寸的情况下再次进行锚点框内的目标识别。将应用两种超分辨率技术检测的结果求并集,得到最终的检测结果。
为了提高检测效果,将超分辨率重建网络替换为convolutional-deconvolutional network(正反卷积网络模型),该网络的结构是对称的,卷积层用来获取图像的抽象内容,反卷积层用来放大特征尺寸并且恢复图像细节。
卷积层和反卷积层学习的特征是目标图像和低质图像之间的残差,损失函数用的均方误差,该网络在ImageNet进行预训练。
在不改变图像尺寸的情况下再次进行锚点框内的目标识别,与步骤S2的超分辨率技术相辅,达到多尺度检测的目的,将应用两种超分辨率技术检测的结果求并集,得到最终的检测结果。
本申请实施例在设计阶段的输入是常用的目标检测数据集,在实际应用中输入的可以是实际电网环境中的监控视频序列,联合不同的超分辨率技术,都是服务于输出更加精确的小目标检测结果,最后输出的是图像中存在的小目标。本发明能够很好地克服因图像分辨率低、图像模糊、携带的信息少,所导致特征表达能力弱,也就是在提取特征过程中提取到的特征非常少的影响,实现对小目标更加精确的检测。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN)、或连接至外部计算机(例如通过因特网)、或在云计算环境中、或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
Claims (8)
1.一种联合超分辨率重建的小目标检测方法,其特征在于,包括以下步骤:
选择Microsoft COCO和SUN数据库中大量包含小目标的图像分别构建网络预训练的预训练集和预测试集;搜集电网环境下包含小目标的图像分别构建网络微调的微调训练集和微调测试集;
基于上述预训练集和预测试集、微调训练集和微调测试集,通过结合4PP-EUSR超分辨率算法模型与上采样模型、鉴别器、质量评估构建超分辨率重建网络模型;
通过在Faster R-CNN算法框架中对分辨率低的小目标对其所在的proposal利用上述超分辨率重建网络模型提升小目标的特征质量并进行后续小目标的检测,构建小目标检测深度卷积神经网络。
2.根据权利要求1所述的联合超分辨率重建的小目标检测方法,其特征在于,所述构建超分辨率重建网络模型包括以下步骤:
在DIV2K数据集上,利用损失函数训练EUSR模型,得到放大4倍的输出图像;
在TID2013数据集上,结合EUSR生成的图像与Le Kang盲图像质量评价网络,以EMD距离为损失函数,完成整体质量评价分支的训练;
评价重建损失、对抗损失、质量损失、主观表达损失,微调EUSR与鉴别器组合的整体网络损失。
3.根据权利要求1所述的联合超分辨率重建的小目标检测方法,其特征在于,所述构建小目标检测深度卷积神经网络包括以下步骤:
基于Faster R-CNN网络结构,在RPN网络中设置尺寸合适的锚点框;
通过所述超分辨率重建网络模型对proposal区域进行超分辨重建,对上述重建后的锚点框内的目标进行识别。
4.根据权利要求1所述的联合超分辨率重建的小目标检测方法,其特征在于,通过在Faster R-CNN算法框架中对分辨率低的小目标对其所在的proposal利用上述超分辨率重建网络模型提升小目标的特征质量并进行后续小目标的检测,构建小目标检测深度卷积神经网络,之后还可以包括步骤:
在不改变图像尺寸的情况下通过使用正反卷积网络模型再次进行锚点框内的目标识别,将应用两种超分辨率技术检测的结果求并集,得到最终的结果。
5.根据权利要求4所述的联合超分辨率重建的小目标检测方法,其特征在于,所述正反卷积网络模型是对称结构的,卷积层用来获取图像的抽象内容,反卷积层用来放大特征尺寸并且恢复图像细节。
6.根据权利要求2所述的联合超分辨率重建的小目标检测方法,其特征在于,
所述重建损失lr表示为:
所述对抗损失lg表示为:
所述质量损失lss表示为:
所述主观表达损失lsr表示为:
网络整体的损失表示为:
l=0.03lr+0.1lg+0.01lss+0.1lsr。
8.根据权利要求1所述的联合超分辨率重建的小目标检测方法,其特征在于,所述电网环境下包含小目标的图像,包括:
图像以及标注文件,所述标注文件可以设置为xml格式,所述标注文件中存有每个目标的边框信息(x*,y*,w*,h*)和类别,其中(x*,y*)表示边框左上角的坐标,(w*,h*)表示边框的宽和高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185012.5A CN110956126B (zh) | 2019-11-27 | 2019-11-27 | 一种联合超分辨率重建的小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185012.5A CN110956126B (zh) | 2019-11-27 | 2019-11-27 | 一种联合超分辨率重建的小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110956126A true CN110956126A (zh) | 2020-04-03 |
CN110956126B CN110956126B (zh) | 2023-09-15 |
Family
ID=69978637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911185012.5A Active CN110956126B (zh) | 2019-11-27 | 2019-11-27 | 一种联合超分辨率重建的小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956126B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667431A (zh) * | 2020-06-09 | 2020-09-15 | 云南电网有限责任公司电力科学研究院 | 一种基于图像转换制作去云雾训练集的方法及装置 |
CN111815577A (zh) * | 2020-06-23 | 2020-10-23 | 深圳供电局有限公司 | 安全帽佩戴检测模型处理方法、装置、设备和存储介质 |
CN112016507A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于超分辨率的车辆检测方法、装置、设备及存储介质 |
CN112365533A (zh) * | 2020-10-15 | 2021-02-12 | 浙江大华技术股份有限公司 | 基于图像分割的煤流量监测方法、装置和电子装置 |
CN113033289A (zh) * | 2021-01-29 | 2021-06-25 | 南瑞集团有限公司 | 一种基于dssd算法的安全帽佩戴检查方法、装置与系统 |
CN113420745A (zh) * | 2021-08-25 | 2021-09-21 | 江西中业智能科技有限公司 | 基于图像的目标识别方法、系统、存储介质及终端设备 |
CN113780476A (zh) * | 2021-10-09 | 2021-12-10 | 中国铁建重工集团股份有限公司 | 一种岩渣特征检测模型训练方法、装置、设备及介质 |
CN114841961A (zh) * | 2022-05-05 | 2022-08-02 | 扬州大学 | 基于图像增强和改进YOLOv5的小麦赤霉病检测方法 |
CN114998891A (zh) * | 2022-05-17 | 2022-09-02 | 电子科技大学 | 一种基于迁移学习的智能冰箱食材精准检测方法 |
CN115082775A (zh) * | 2022-07-27 | 2022-09-20 | 中国科学院自动化研究所 | 基于图像分块的超分辨率增强小目标检测方法 |
CN116229373A (zh) * | 2023-04-03 | 2023-06-06 | 青岛城市轨道交通科技有限公司 | 一种应用于智慧工地的超分辨安全帽检测方法 |
CN111815577B (zh) * | 2020-06-23 | 2024-06-07 | 深圳供电局有限公司 | 安全帽佩戴检测模型处理方法、装置、设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120201477A1 (en) * | 2011-02-03 | 2012-08-09 | Massachusetts Institute Of Technology | Kinetic Super-Resolution Imaging |
US20130202162A1 (en) * | 2012-02-02 | 2013-08-08 | Korea Institute Of Science And Technology | Method of reconstructing three-dimensional facial shape |
US20160247024A1 (en) * | 2015-02-23 | 2016-08-25 | Kodak Alaris Inc. | Method for output creation based on video content characteristics |
CN107451619A (zh) * | 2017-08-11 | 2017-12-08 | 深圳市唯特视科技有限公司 | 一种基于感知生成对抗网络的小目标检测方法 |
CN107481188A (zh) * | 2017-06-23 | 2017-12-15 | 珠海经济特区远宏科技有限公司 | 一种图像超分辨率重构方法 |
EP3438920A1 (en) * | 2017-07-31 | 2019-02-06 | Institut Pasteur | Method, device, and computer program for improving the reconstruction of dense super-resolution images from diffraction-limited images acquired by single molecule localization microscopy |
CN109753946A (zh) * | 2019-01-23 | 2019-05-14 | 哈尔滨工业大学 | 一种基于身体关键点监督的真实场景行人小目标检测网络及检测方法 |
CN109978762A (zh) * | 2019-02-27 | 2019-07-05 | 南京信息工程大学 | 一种基于条件生成对抗网络的超分辨率重建方法 |
CN110188807A (zh) * | 2019-05-21 | 2019-08-30 | 重庆大学 | 基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法 |
CN110211045A (zh) * | 2019-05-29 | 2019-09-06 | 电子科技大学 | 基于srgan网络的超分辨率人脸图像重建方法 |
US20190304063A1 (en) * | 2018-03-29 | 2019-10-03 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Learning-Based Image Super-Resolution |
-
2019
- 2019-11-27 CN CN201911185012.5A patent/CN110956126B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120201477A1 (en) * | 2011-02-03 | 2012-08-09 | Massachusetts Institute Of Technology | Kinetic Super-Resolution Imaging |
US20130202162A1 (en) * | 2012-02-02 | 2013-08-08 | Korea Institute Of Science And Technology | Method of reconstructing three-dimensional facial shape |
US20160247024A1 (en) * | 2015-02-23 | 2016-08-25 | Kodak Alaris Inc. | Method for output creation based on video content characteristics |
CN107481188A (zh) * | 2017-06-23 | 2017-12-15 | 珠海经济特区远宏科技有限公司 | 一种图像超分辨率重构方法 |
EP3438920A1 (en) * | 2017-07-31 | 2019-02-06 | Institut Pasteur | Method, device, and computer program for improving the reconstruction of dense super-resolution images from diffraction-limited images acquired by single molecule localization microscopy |
CN107451619A (zh) * | 2017-08-11 | 2017-12-08 | 深圳市唯特视科技有限公司 | 一种基于感知生成对抗网络的小目标检测方法 |
US20190304063A1 (en) * | 2018-03-29 | 2019-10-03 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Learning-Based Image Super-Resolution |
CN109753946A (zh) * | 2019-01-23 | 2019-05-14 | 哈尔滨工业大学 | 一种基于身体关键点监督的真实场景行人小目标检测网络及检测方法 |
CN109978762A (zh) * | 2019-02-27 | 2019-07-05 | 南京信息工程大学 | 一种基于条件生成对抗网络的超分辨率重建方法 |
CN110188807A (zh) * | 2019-05-21 | 2019-08-30 | 重庆大学 | 基于级联超分辨率网络与改进Faster R-CNN的隧道行人目标检测方法 |
CN110211045A (zh) * | 2019-05-29 | 2019-09-06 | 电子科技大学 | 基于srgan网络的超分辨率人脸图像重建方法 |
Non-Patent Citations (2)
Title |
---|
ROMAN ZEYDE等: "on single image scale-up using sparse-representations", 《LECTURE NOTES IN COMPUTER SCIENCE》 * |
刘鹏飞等: "基于卷积神经网络的图像超分辨率重建", 《计算机工程与应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667431B (zh) * | 2020-06-09 | 2023-04-14 | 云南电网有限责任公司电力科学研究院 | 一种基于图像转换制作去云雾训练集的方法及装置 |
CN111667431A (zh) * | 2020-06-09 | 2020-09-15 | 云南电网有限责任公司电力科学研究院 | 一种基于图像转换制作去云雾训练集的方法及装置 |
CN111815577A (zh) * | 2020-06-23 | 2020-10-23 | 深圳供电局有限公司 | 安全帽佩戴检测模型处理方法、装置、设备和存储介质 |
CN111815577B (zh) * | 2020-06-23 | 2024-06-07 | 深圳供电局有限公司 | 安全帽佩戴检测模型处理方法、装置、设备和存储介质 |
CN112016507A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于超分辨率的车辆检测方法、装置、设备及存储介质 |
CN112016507B (zh) * | 2020-09-07 | 2023-10-31 | 平安科技(深圳)有限公司 | 基于超分辨率的车辆检测方法、装置、设备及存储介质 |
CN112365533A (zh) * | 2020-10-15 | 2021-02-12 | 浙江大华技术股份有限公司 | 基于图像分割的煤流量监测方法、装置和电子装置 |
CN113033289A (zh) * | 2021-01-29 | 2021-06-25 | 南瑞集团有限公司 | 一种基于dssd算法的安全帽佩戴检查方法、装置与系统 |
CN113420745A (zh) * | 2021-08-25 | 2021-09-21 | 江西中业智能科技有限公司 | 基于图像的目标识别方法、系统、存储介质及终端设备 |
CN113420745B (zh) * | 2021-08-25 | 2021-12-24 | 江西中业智能科技有限公司 | 基于图像的目标识别方法、系统、存储介质及终端设备 |
CN113780476A (zh) * | 2021-10-09 | 2021-12-10 | 中国铁建重工集团股份有限公司 | 一种岩渣特征检测模型训练方法、装置、设备及介质 |
CN114841961A (zh) * | 2022-05-05 | 2022-08-02 | 扬州大学 | 基于图像增强和改进YOLOv5的小麦赤霉病检测方法 |
CN114841961B (zh) * | 2022-05-05 | 2024-04-05 | 扬州大学 | 基于图像增强和改进YOLOv5的小麦赤霉病检测方法 |
CN114998891A (zh) * | 2022-05-17 | 2022-09-02 | 电子科技大学 | 一种基于迁移学习的智能冰箱食材精准检测方法 |
CN115082775A (zh) * | 2022-07-27 | 2022-09-20 | 中国科学院自动化研究所 | 基于图像分块的超分辨率增强小目标检测方法 |
CN116229373A (zh) * | 2023-04-03 | 2023-06-06 | 青岛城市轨道交通科技有限公司 | 一种应用于智慧工地的超分辨安全帽检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110956126B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956126A (zh) | 一种联合超分辨率重建的小目标检测方法 | |
US20180114071A1 (en) | Method for analysing media content | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN111046821B (zh) | 一种视频行为识别方法、系统及电子设备 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
US11030750B2 (en) | Multi-level convolutional LSTM model for the segmentation of MR images | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
CN115587964A (zh) | 一种基于熵筛选的伪标签交叉一致性变化检测方法 | |
Dianqing et al. | Remote sensing landslide target detection method based on improved Faster R-CNN | |
Wang et al. | CDFF: a fast and highly accurate method for recognizing traffic signs | |
CN113963333A (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
CN116740362B (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 | |
Luo et al. | RBD-Net: robust breakage detection algorithm for industrial leather | |
CN110659724B (zh) | 基于目标尺度的目标检测深度卷积神经网络构建方法 | |
Hou et al. | M-YOLO: an object detector based on global context information for infrared images | |
Shi et al. | RAOD: refined oriented detector with augmented feature in remote sensing images object detection | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、系统、介质和设备 | |
CN116129417A (zh) | 一种基于低质量图像的数字仪表读数检测方法 | |
Zhu et al. | Real-time traffic sign detection based on YOLOv2 | |
Nan et al. | Infrared object image instance segmentation based on improved mask-RCNN | |
Li et al. | Object detection method based on global feature augmentation and adaptive regression in IoT | |
Zhu et al. | Multi-size object detection assisting fault diagnosis of power systems based on improved cascaded faster R-CNNs | |
Hong et al. | Improved SSD model for pedestrian detection in natural scene | |
Dong | Object detection based on deep learning | |
Geng et al. | Vehicle and Driver Detection on Highway Based on Cascade R-CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |