CN112417981B - 基于改进FasterR-CNN的复杂战场环境目标高效识别方法 - Google Patents
基于改进FasterR-CNN的复杂战场环境目标高效识别方法 Download PDFInfo
- Publication number
- CN112417981B CN112417981B CN202011171514.5A CN202011171514A CN112417981B CN 112417981 B CN112417981 B CN 112417981B CN 202011171514 A CN202011171514 A CN 202011171514A CN 112417981 B CN112417981 B CN 112417981B
- Authority
- CN
- China
- Prior art keywords
- target
- network
- candidate region
- battlefield
- fasterr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 230000007613 environmental effect Effects 0.000 claims abstract description 19
- 238000003064 k means clustering Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 35
- 238000012937 correction Methods 0.000 claims description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 11
- 230000006872 improvement Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 39
- 230000006870 function Effects 0.000 description 19
- 238000012360 testing method Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于改进FasterR‑CNN的复杂战场环境目标高效识别方法,包括:构建两路特征提取网络;一路特征提取网络输出的战场环境特征图输入候选区域生成网络,所述候选区域生成网络通过融合浅层目标位置信息和深层高阶语义特征来区分战场环境中的背景与目标,采用K‑Means聚类方法对战场环境特征图重新设置锚点尺寸大小以及长宽比;另一路特征提取网络输出的战场环境特征图、候选区域生成网络输出的候选区域输入分类回归网络中,对目标进行分类识别,并对位置进行回归。此方法在复杂战场环境下,提高了战场目标的准确率,使得此模型较之前的模型有更好的理论指导意义。
Description
技术领域
本发明属于深度学习与图像识别领域,具体涉及基于改进FasterR-CNN的复杂战场环境目标高效识别方法。
背景技术
复杂战场环境下,无人装备集群如何有效、准确识别战场目标,是实现无人装备精确控制、避障及执行攻击任务的关键,对敌方目标的识别能够保障我方无人装备在复杂动态战场下完成侦察及作战任务。传统的目标识别方法主要有Cascade+HOG、DPM+Haar、SVM及其改进、优化方法,这些方法的缺点是需要人工设计特征,工作量庞大,而且类似算法在目标形态变化大、背景复杂或者光照不足的情况下表现往往不佳。随着深度学习在目标识别上的应用,采用深层次的神经网络提取出的目标特征质量远远超过传统人工特征。卷积神经网络采用原始图像作为输入,可以有效地从大量样本中学习到相应特征,避免复杂的特征提取过程。
但是受复杂战场目标运动速度、形状、尺寸、姿态等内部因素的改变和气象环境等外部因素的影响,且无人装备获取的目标样本数量较少,使得无人装备的目标识别存在准确性低、速度慢的问题。
尽管目前已有大量用于进行目标检测的算法,但在很多自然场景中FasterR-CNN仍是最广泛使用的一种深度学习算法,因此,选取FasterR-CNN来进行复杂战场环境目标高效识别。整个FasterR-CNN网络模型主要分为特征提取网络、候选区域生成网络和分类回归网络3个子网络部分:
所述特征提取网络:顾名思义就是利用卷积网络提取图像特征,它可以是任何能学习图像特征的网络结构,由于卷积网络参数过多不易调参,所以一般都会采用一些已经被广泛使用的网络结构,通常使用ZF、AlexNet、VGG16及残差网络ResNet等网络模型。特征提取网络所提取的特征好坏会直接影响到候选区域生成网络的性能,因为生成的特征图像将被送到候选区域生成网络中进行目标分类以及目标位置回归。特征提取网络是整个卷积网络的基础,对整个网络的性能好坏起到关键性作用。如图1所示,即为特征提取网络的结构,仅给出与特征提取网络相关部分的结构。
所述候选区域生成网络:FasterR-CNN算法中的候选区域生成网络,即RPN网络,其作用是选取目标可能的候选区域并进行前景背景的判别,同时对这些区域的位置进行回归,微调修正。该网络以特征提取网络生成的特征图作为输入,通过设定不同尺度不同长宽比例的anchor机制,并将其作用于特征图,获取到一定数量的目标可能的候选区域框。其本质是使用滑动窗口算法进行候选区域的提取,通过使用卷积神经网络来实现。如图2所示,即为候选区域生成网络的结构,仅给出与该网络相关部分的结构。
所述分类回归网络:FasterR-CNN算法中的分类回归网络输入为候选区域及其对应的特征图,该子网络的作用是对候选区域的前景进一步分类,确定目标的具体类别,同时对目标区域的位置再次进行回归。然而由于目标形状大小各异,anchor机制的设置,使得候选区域的大小形状不尽相同,最后将映射后的特征向量分别输入到回归层和分类层当中,一个用于进行目标类别的判断,一个用于进行目标位置的回归。如图3所示,即为分类回归网络的结构,仅给出与该网络相关部分的结构。
FasterR-CNN算法的主要思想是:首先,将图像直接输入到特征提取网络,即卷积神经网络当中,在经一系列卷积、池化操作后,提取到图像特征,得到特征图;其次,将生成的特征图作为候选区域生成网络的输入,通过设定不同尺度不同长宽比例的候选区域选择机制,从而获取到一定数量的目标可能的候选区域框;最后,将获取到的候选区域框及其对应的特征图作为分类回归网络的输入,对目标进行分类,并对其位置进行回归。由于其候选区域生成网络和分类回归网络共享同一个特征提取网络,特征提取网络输出的特征不加区分直接送至候选区域生成网络和分类回归网络。而候选区域生成网络本质上是进行二分类,根据背景与目标间的差异特征区分背景与目标。分类回归网络则进行多目标分类,区分的对象是背景以及各类不同的目标,需要的是背景以及各类不同的目标之间的差异特征。因此,候选区域生成网络和分类回归网络对于特征的需求是不同的,共享同一个特征提取网络,容易造成特征干扰问题,不仅对网络训练造成困难,还会降低网络性能。
FasterR-CNN网络浅层提取到的是底层语义特征:纹理特征、颜色、形状等,而深层可以提取到高层语义特征。所以相对于深层网络,浅层网络对位置信息的提取更准确。区域生成网络需要生成候选区,在原卷积网络中是直接通过ZF或者VGG网络最后一层卷积层所输出的特征图像预测前景位置,由于特征图像分辨率低,所以对小目标或者被遮挡严重的目标而言其特征就会有所损失。
发明内容
针对现有技术存在上述缺陷,本申请提供一种基于改进FasterR-CNN的复杂战场环境目标高效识别方法,以解决特征干扰以及小目标检测率低的状况,用于准确识别无人装备集群采集后的图像中的目标信息。
为实现上述目的,本申请的技术方案为:基于改进FasterR-CNN的复杂战场环境目标高效识别方法,包括:
构建两路特征提取网络;
一路特征提取网络输出的战场环境特征图输入候选区域生成网络,所述候选区域生成网络通过融合浅层目标位置信息和深层高阶语义特征来区分战场环境中的背景与目标,采用K-Means聚类方法对战场环境特征图重新设置锚点尺寸大小以及长宽比;
另一路特征提取网络输出的战场环境特征图、候选区域生成网络输出的候选区域输入分类回归网络中,对目标进行分类识别,并对位置进行回归。
进一步的,所述两路特征提取网络均采用参数更少的残差ResNet结果代替VGG16网络。
进一步的,采用K-Means聚类方法对战场环境特征图重新设置锚点尺寸大小以及长宽比,具体为:采用K-Means聚类方法对战场环境特征数据集重新聚类来生成锚点尺寸,经锚点之后,为每个滑动窗口位置定义了9个基准矩形框(锚点),得到每个滑动窗口位置的修正参数后,利用修正参数对基准矩形框进行修正;每个基准矩形框输出4个修正参数tx,ty,tw,th,利用这4个修正参数对基准矩形框进行修正即得出候选区域;
式中,x,y,w,h表示候选区域的中心横坐标、纵坐标、宽度、高度,xa,ya,wa,ha表示基准矩形框的中心横坐标、纵坐标、宽度、高度。
进一步的,所述候选区域生成网络首先用一个卷积核大小为3×3的卷积层对战场环境特征图进行卷积操作生成特征向量,接着用两个卷积核大小为1×1的卷积层模拟两个全连接层,然后输出候选区域的类别置信度和修正参数,通过Softmax层对类别置信度进行归一化,从而得到候选区域内是否包含待识别目标的置信度。
更进一步的,候选区域生成网络的损失函数将候选区域的类别置信度和修正参数的训练任务统一起来;所述损失函数表示为:
式中,i是基准矩形框的序号,pi是第i个基准矩形框内包含待测目标的预测置信度,是第i个基准矩形框的标签,/>代表第i个基准矩形框内包含待测目标,/>代表第i个基准矩形框内不包含待测目标,ti是基准矩形框的预测修正参数,/>是基准矩形框相对于目标标签框的修正参数,Ncls和Nreg进行归一化,λ为调节子项的相对重要程度。
所述置信度的损失函数Lcls(·),为一个二分类的逻辑回归损失函数Lcls(·)的表达式为:
所述修正参数的损失函数Lreg(·),表达式为:
式中,smoothL1(·)函数为:
更进一步的,目标标签框的修正参数的对应计算公式为:
式中,x*,y*,w*,h*分别表示目标标签框的中心横坐标、纵坐标、宽度和高度,xa,ya,wa,ha分别表示基准矩形框的中心横坐标、纵坐标、宽度和高度;
更进一步的,所述分类回归网络首先使用一个ROIpooling层将候选区域所包含的特征池化成大小、形状相同的特征图,接着使用两个全连接层fc6、fc7对特征图进行特征映射,然后用ReLU和Dropout用来抑制过拟合;使用全连接层fc/cls、fc/bbox_reg分别输出各个类别置信度和修正参数,通过Softmax层将类别置信度进行归一化,从而得到对应各个类别的置信度,输出带置信度的检测框。
更进一步的,为了解决检测框之间包含或者相互重叠造成置信度较大的问题,使用非极大值抑制算法(NMS)筛选检测框:
将集合S的检测框按照置信度进行排序;
当集合S不为空,则从集合S中取出置信度最高的检测框w并插入到筛选后的检测框集合S′中,
对于集合S中剩下的每一个检测框,如果该检测框与w之间的重叠率大于阈值,将该检测框从集合S中删除。其中集合S是带置信度的检测框集合,集合S′是经过筛选之后的检测框集合。
本发明能够取得以下技术效果:通过替换VGG16为ResNet的特征提取网络,并且使用两路特征提取网络使候选区域生成网络学习的特征不会进入到分类回归网络中,从而提高网络性能;浅层网络对位置信息的提取更准确,通过融合浅层更细致的目标位置信息和深层高阶语义特征来提高模型的准确性。以此用来更准确区分目标和背景,提高模型对小目标检测的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简要介绍:
图1是背景技术中特征提取网络结构图;
图2是背景技术中候选区域生成网络结构图;
图3是背景技术中分类回归网络结构图;
图4是特征融合原理图;
图5是基于改进FasterR-CNN的复杂战场环境目标高效识别方法流程图;
图6是实施例中三类待测目标的Precision-Recall曲线图;
图7是实施例中三类待测目标的AUC及ROC曲线图;
图8是实施例中损失函数的收敛曲线图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:以此为例对本申请做进一步的描述说明。显然,所描述的实施例仅仅是本发明中的一部分实施例,而不是全部实施例。
受复杂战场目标运动速度、形状、尺寸、姿态等内部因素的改变和气象环境等外部因素的影响,基于FasterR-CNN方法的检测精度难以满足呈现像素少、特征不明显等小目标特征的战场环境的需求,且无人装备获取的目标样本数量较少,使得无人装备的目标识别存在准确性低、速度慢的问题。故提出基于改进FasterR-CNN的复杂战场环境目标高效识别方法具体过程为:首先,利用卷积神经网络对战场图像进行特征提取,生成特征图,并且为候选区域生成网络和分类回归网络设置独立的特征提取网络,使得候选区域生成网络学习的特征不会直接进入到分类回归网络;其次,构建新的特征融合的方法,由于深层可以提取到高层语义特征,相对于深层网络,浅层网络对位置信息的提取更准确,通过融合浅层更细致的目标位置信息和深层高阶语义特征来提高模型的准确性。以及采用K-Means聚类方法重新设置锚点尺寸大小以及长宽比。最后,利用分类回归网络根据候选区域的特征判别输出。
实施例
S1:构建两路特征提取网络,具体是:
由于候选区域生成网络和分类回归网络共享同一个特征提取网络,容易造成特征干扰问题,重新设计了特征提取过程。
所以,为候选区域生成网络和分类回归网络分别设置独立的特征提取网络,采用参数更少的残差ResNet结果代替VGG16网络,使得候选区域生成网络学习的特征不会进入分类回归网络,提高网络性能。
S2:一路特征提取网络输出的战场环境特征图输入候选区域生成网络,所述候选区域生成网络通过融合浅层目标位置信息和深层高阶语义特征来区分战场环境中的背景与目标,采用K-Means聚类方法对战场环境特征图重新设置锚点尺寸大小以及长宽比;
由于区域生成网络的主要功能是设置低阈值来区分背景和目标,随后将目标位置信息输入后续网络进行分类和位置回归。目标与背景可以通过浅层语义信息辅助加以区分,而深层可以提取到高层语义特征,所以通过在区域生成网络之中融合高层浅层信息,有助于更准确区分前背景。如图4所示,假设该卷积网络一共包含5层卷积层,从图中可以看出是将第1、3、5层卷积层所输出的特征图像融合在一起。因为经过空洞卷积,扩大了卷积层的感受视野,并且不会增加卷积核的可学习参数,通过反卷积增强卷积层的表征能力,最后将所融合的特征图像输入到RPN模块中。
采用三种尺寸和三种长宽比共9种不同尺寸的候选框来提取目标区域。但由于这些锚点尺寸是针对VOC、COCO等数据集中所有类别设置的,所以采用K-Means聚类方法对该数据集重新聚类来生成锚点尺寸,经锚点之后,为每个滑动窗口位置定义了9个基准矩形框(锚点),得到每个滑动窗口位置的修正参数后,利用修正参数对基准矩形框进行修正。每个基准矩形框输出4个修正参数tx,ty,tw,th,利用这4个修正参数对基准矩形框进行修正即可得出候选区域。
式中,x,y,w,h表示候选区域的中心横坐标、纵坐标、宽度、高度,xa,ya,wa,ha表示基准矩形框的中心横坐标、纵坐标、宽度、高度。
候选区域生成网络首先用一个卷积核大小为3×3的卷积层对特征图进行卷积操作生成特征向量,接着用两个卷积核大小为1×1的卷积层模拟两个全连接层,然后输出候选区域的类别置信度和修正参数,通过Softmax层对类别置信度进行归一化,从而得到候选区域内是否包含待测目标的置信度。
候选区域生成网络的损失函数将候选区域的类别置信度和修正参数的训练任务统一起来。损失函数表示为:
式中,i是基准矩形框的序号,pi是第i个基准矩形框内包含待测目标的预测置信度,是第i个基准矩形框的标签,/>代表第i个基准矩形框内包含待测目标,/>代表第i个基准矩形框内不包含待测目标,ti是基准矩形框的预测修正参数,/>是基准矩形框相对于目标标签框的修正参数,Ncls和Nreg进行归一化,λ为调节子项的相对重要程度。
Lcls(·)是预测置信度的损失函数,一个二分类的逻辑回归损失函数Lcls(·)的表达式为:
Lreg(·)是修正参数的损失函数,表达式为:
式中,smoothL1(·)函数为:
目标标签框的修正参数的对应计算公式为:
式中,x*,y*,w*,h*分别表示目标标签框的中心横坐标、纵坐标、宽度和高度,xa,ya,wa,ha分别表示基准矩形框的中心横坐标、纵坐标、宽度和高度。
S3:另一路特征提取网络输出的战场环境特征图、候选区域生成网络输出的候选区域输入分类回归网络中,对目标进行分类识别,并对位置进行回归。
分类回归网络首先使用一个ROIpooling层将候选区域所包含的特征池化成大小、形状相同的特征图,接着使用两个全连接层fc6、fc7对特征图进行特征映射,然后用ReLU和Dropout用来抑制过拟合问题;使用全连接层fc/cls、fc/bbox_reg分别输出候选区域对应各个类别的类别置信度和修正参数;通过Softmax层将类别置信度进行归一化,从而得到对应各个类别的置信度,输出带置信度的检测框。
为了解决检测框之间包含或者相互重叠造成置信度较大的问题,使用非极大值抑制算法(NMS)筛选检测框。
将集合S的检测框按照置信度进行排序;
当集合S不为空,则从集合S中取出置信度最高的检测框w并插入到筛选后的检测框集合S′中,
对于集合S中剩下的每一个检测框,如果该检测框与w之间的重叠率大于阈值,将该检测框从集合S中删除(其中,集合S是带置信度的检测框集合,集合S′是经过筛选之后的检测框集合)。
为验证本申请提出的基于改进FasterR-CNN的复杂战场环境目标高效识别方法的可行性和有效性,采用带有GPU的服务器进行测试分析,同时在服务端搭建软件环境,包括Ubuntu16.04、caffe、cuda10和python3.6等环境。实验数据集共包含不同场景下2500张图像,其中80%作为训练集,20%作为测试集。参照PascalVOC2011数据集格式,利用开源软件LabelImage标注图像,数据集包括飞机、车辆、船舶共3类目标。
实验采用平均准确率均值(MeanAveragePrecision,mAP)作为目标识别准确率的测试指标。
(1)两路特征提取网络的仿真分析
仿真分析了在FasterR-CNN算法的基础上两路特征提取网络后对飞机、车辆、船舶三类战场典型目标的识别效果。表1为三类待测目标的平均准确率(AP),表2为目标识别消耗的时间,其中,“①”代表数据预处理消耗的时间,“②”代表特征提取消耗的时间,“③”代表生成候选区域消耗的时间,“④”代表分类回归消耗的时间,时间单位为ms。
表1三类待测目标的平均准确率
表2增加双路特征提取网络的耗时结果
由表1和表2可以看出,在使用相同特征提取网络的前提下,相比FasterR-CNN算法,改进算法的mAP提高了1.7%。但改进算法平均每张测试图像消耗的时间多了15ms。
(2)特征融合后的候选区域网络的仿真分析
FasterR-CNN算法与改进算法的候选区域设置为相同格式的测试结果如表3所示。
表3三类待测目标的平均准确率
由表3可以看出,在相同候选区域的情况下,增加特征融合后的候选区域网络算法识别目标平均准确率mAP比FasterR-CNN算法提高了1.48%。平均每张图像测试时间比FasterR-CNN算法减少7ms。
(3)总体仿真分析
为了验证本项目改进方法的整体效果,分别使用FasterR-CNN网络和改进的FasterR-CNN网络对飞机、车辆、船舶三类战场典型目标进行测试。表4是识别性能的对比,对比的指标包括3类目标的识别平均准确率、整个测试集上的平均准确率均值以及识别单张图像耗时。
表4测试集识别结果对比
由表4可以看出,FasterR-CNN网络的候选区域生成网络和分类回归网络共享同一个特征提取网络,特征提取网络输出的特征将不加区分直接送到候选区域生成网络和分类回归网络,可能会造成特征干扰问题,识别精度略低。改进的FasterR-CNN网络采用了双路特征提取方式,候选区域生成网络和分类回归网络使用不同的特征提取网络,提高了识别的精度,在一定程度上增加了计算量,识别所需的时间略有提升。
Precision-Recall曲线的横坐标选用召回率,纵坐标选用精确度。如图6所示为实验中船舶、飞机和车辆三类待测目标的Precision-Recall曲线,其中:A为FasterR-CNN算法,B为改进的FasterR-CNN算法。Precision-Recall曲线越接近于点(1,1)说明分类效果越好,召回率和精确度是难以兼得的。由图6可知,改进的FasterR-CNN算法较FasterR-CNN算法的分类效果略有提升。
评价分类模型优劣的另一个指标是ROC曲线。ROC曲线是反映灵敏性和特效性连续变量的综合指标,通过设定多个不同连续变量的临界值,计算出一系列敏感性和特异性。ROC曲线以真正例率(TruePositiveRate)为纵坐标,假正例率(FalsePositiveRate)为横坐标,其中ROC曲线与横、纵坐标轴围成的面积定义为AUC,表示预测的正例排在负例前面的概率,ROC曲线和AUC值经常作为衡量一个模型拟合程度的指标。如图7所示为三类待测目标的ROC曲线及AUC值,其中:A代表FasterR-CNN算法,B代表改进的FasterR-CNN算法。ROC曲线中,对角线对应于“随机猜测”模型,点(0,1)对应于将所有正例预测为真正例、所有反例预测为真反例的“理想模型”。ROC曲线越靠近左上角,即AUC的值越接近于1,代表模型的分类准确性越高。由图7可知,改进的FasterR-CNN网络在3类待测目标中的AUC值比FasterR-CNN网络的AUC值均有所提升,说明分类效果更好。
损失函数是评估模型稳定性的重要指标,用来表现预测与实际数据的差距程度,当训练达到一定次数时,损失函数值如果变得稳定,不再发生剧烈变化,表示所训练的模型趋于稳定。图8为FasterR-CNN和改进FasterR-CNN在训练过程中损失函数的收敛曲线图,横坐标表示训练迭代次数,最大训练次数为60000次,纵坐标表示总体的损失值。由图8可知,当网络训练次数超过50000次时,两者的损失值变化趋于平稳,FasterR-CNN最终的损失值稳定在0.166左右,改进的FasterR-CNN最终的损失值稳定在0.144左右。从损失函数收敛情况来看,训练结果较为理想。
由以上仿真结果可知,通过该算法构建方法通过两路特征提取网络和增加特征融合后的候选区,使候选区域生成网络学习的特征不会进入到分类回归网络中;采用新的特征融合的方法,通过融合浅层更细致的目标位置信息和深层高阶语义特征来提高模型的准确性。以及采用K-Means聚类方法重新设置锚点尺寸大小以及长宽比。以此用来更加准确区分目标和背景,提高模型对小目标检测的准确率。在复杂战场环境下,提高了战场目标的准确率,使得此模型较之前的模型有更好的理论指导意义。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (5)
1.基于改进FasterR-CNN的复杂战场环境目标高效识别方法,其特征在于,包括:
构建两路特征提取网络;
一路特征提取网络输出的战场环境特征图输入候选区域生成网络,所述候选区域生成网络通过融合浅层目标位置信息和深层高阶语义特征来区分战场环境中的背景与目标,采用K-Means聚类方法对战场环境特征图重新设置锚点尺寸大小以及长宽比,具体为:采用K-Means聚类方法对战场环境特征数据集重新聚类来生成锚点尺寸,经锚点之后,为每个滑动窗口位置定义了9个基准矩形框,得到每个滑动窗口位置的修正参数后,利用修正参数对基准矩形框进行修正;每个基准矩形框输出4个修正参数tx,ty,tw,th,利用这4个修正参数对基准矩形框进行修正即得出候选区域;
式中,x,y,w,h表示候选区域的中心横坐标、纵坐标、宽度、高度,xa,ya,wa,ha表示基准矩形框的中心横坐标、纵坐标、宽度、高度;
所述候选区域生成网络首先用一个卷积核大小为3×3的卷积层对战场环境特征图进行卷积操作生成特征向量,接着用两个卷积核大小为1×1的卷积层模拟两个全连接层,然后输出候选区域的类别置信度和修正参数,通过Softmax层对类别置信度进行归一化,从而得到候选区域内是否包含待识别目标的置信度;
候选区域生成网络的损失函数将候选区域的类别置信度和修正参数的训练任务统一起来;所述损失函数表示为:
式中,i是基准矩形框的序号,pi是第i个基准矩形框内包含待测目标的预测置信度,是第i个基准矩形框的标签,/>代表第i个基准矩形框内包含待测目标,/>代表第i个基准矩形框内不包含待测目标,ti是基准矩形框的预测修正参数,/>是基准矩形框相对于目标标签框的修正参数,Ncls和Nreg进行归一化,λ为调节子项的相对重要程度;
所述置信度的损失函数Lcls(·),为一个二分类的逻辑回归损失函数Lcls(·)的表达式为:
所述修正参数的损失函数Lreg(·),表达式为:
式中,smoothL1(·)函数为:
另一路特征提取网络输出的战场环境特征图、候选区域生成网络输出的候选区域输入分类回归网络中,对目标进行分类识别,并对位置进行回归。
2.根据权利要求1所述基于改进FasterR-CNN的复杂战场环境目标高效识别方法,其特征在于,所述两路特征提取网络均采用残差ResNet结果代替VGG16网络。
3.根据权利要求1所述基于改进FasterR-CNN的复杂战场环境目标高效识别方法,其特征在于,目标标签框的修正参数的对应计算公式为:
式中,x*,y*,w*,h*分别表示目标标签框的中心横坐标、纵坐标、宽度和高度,xa,ya,wa,ha分别表示基准矩形框的中心横坐标、纵坐标、宽度和高度。
4.根据权利要求1所述基于改进FasterR-CNN的复杂战场环境目标高效识别方法,其特征在于,所述分类回归网络首先使用一个ROIpooling层将候选区域所包含的特征池化成大小、形状相同的特征图,接着使用两个全连接层fc6、fc7对特征图进行特征映射,然后用ReLU和Dropout用来抑制过拟合;使用全连接层fc/cls、fc/bbox_reg分别输出候选区域对应各个类别置信度和修正参数,通过Softmax层将类别置信度进行归一化,从而得到对应各个类别的置信度,输出带置信度的检测框。
5.根据权利要求1所述基于改进FasterR-CNN的复杂战场环境目标高效识别方法,其特征在于,使用非极大值抑制算法筛选检测框:
将集合S的检测框按照置信度进行排序;
当集合S不为空,则从集合S中取出置信度最高的检测框w并插入到筛选后的检测框集合S′中,
对于集合S中剩下的每一个检测框,如果该检测框与w之间的重叠率大于阈值,将该检测框从集合S中删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011171514.5A CN112417981B (zh) | 2020-10-28 | 2020-10-28 | 基于改进FasterR-CNN的复杂战场环境目标高效识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011171514.5A CN112417981B (zh) | 2020-10-28 | 2020-10-28 | 基于改进FasterR-CNN的复杂战场环境目标高效识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417981A CN112417981A (zh) | 2021-02-26 |
CN112417981B true CN112417981B (zh) | 2024-04-26 |
Family
ID=74841857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011171514.5A Active CN112417981B (zh) | 2020-10-28 | 2020-10-28 | 基于改进FasterR-CNN的复杂战场环境目标高效识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417981B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065400A (zh) * | 2021-03-04 | 2021-07-02 | 国网河北省电力有限公司 | 基于无锚框两阶段网络检测发票印章的方法及装置 |
CN113221956B (zh) * | 2021-04-15 | 2024-02-02 | 国网浙江省电力有限公司杭州供电公司 | 基于改进的多尺度深度模型的目标识别方法及装置 |
CN113610178A (zh) * | 2021-08-17 | 2021-11-05 | 湖南工学院 | 一种基于视频监控图像的内河船舶目标检测方法和装置 |
CN115294537A (zh) * | 2022-08-10 | 2022-11-04 | 青岛文达通科技股份有限公司 | 一种基于特征关联的车辆属性识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522938A (zh) * | 2018-10-26 | 2019-03-26 | 华南理工大学 | 一种基于深度学习的图像中目标的识别方法 |
CN110211097A (zh) * | 2019-05-14 | 2019-09-06 | 河海大学 | 一种基于Faster R-CNN参数迁移的裂缝图像检测方法 |
CN110766058A (zh) * | 2019-10-11 | 2020-02-07 | 西安工业大学 | 一种基于优化rpn网络的战场目标检测方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
-
2020
- 2020-10-28 CN CN202011171514.5A patent/CN112417981B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522938A (zh) * | 2018-10-26 | 2019-03-26 | 华南理工大学 | 一种基于深度学习的图像中目标的识别方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN110211097A (zh) * | 2019-05-14 | 2019-09-06 | 河海大学 | 一种基于Faster R-CNN参数迁移的裂缝图像检测方法 |
CN110766058A (zh) * | 2019-10-11 | 2020-02-07 | 西安工业大学 | 一种基于优化rpn网络的战场目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112417981A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417981B (zh) | 基于改进FasterR-CNN的复杂战场环境目标高效识别方法 | |
CN110619369B (zh) | 基于特征金字塔与全局平均池化的细粒度图像分类方法 | |
CN107609601B (zh) | 一种基于多层卷积神经网络的舰船目标识别方法 | |
US10929649B2 (en) | Multi-pose face feature point detection method based on cascade regression | |
CN107292339B (zh) | 基于特征融合的无人机低空遥感影像高分地貌分类方法 | |
Luo et al. | Aircraft target detection in remote sensing images based on improved YOLOv5 | |
Kim et al. | Color–texture segmentation using unsupervised graph cuts | |
CN111652317B (zh) | 基于贝叶斯深度学习的超参数图像分割方法 | |
CN111723654A (zh) | 基于背景建模、YOLOv3与自优化的高空抛物检测方法及装置 | |
CN104504366A (zh) | 基于光流特征的笑脸识别系统及方法 | |
Ni et al. | An improved Faster R-CNN for defect recognition of key components of transmission line | |
CN114694178A (zh) | 基于Faster-RCNN算法的电力作业中安全帽监测方法及系统 | |
CN114973014A (zh) | 基于多网络级联的飞机目标细粒度检测方法及系统 | |
Shangzheng | A traffic sign image recognition and classification approach based on convolutional neural network | |
CN115272876A (zh) | 一种基于深度学习的遥感图像船舶目标检测方法 | |
Sun et al. | Image target detection algorithm compression and pruning based on neural network | |
Yang et al. | An improved algorithm for the detection of fastening targets based on machine vision | |
Wang et al. | Based on the improved YOLOV3 small target detection algorithm | |
CN111368865A (zh) | 遥感影像储油罐检测方法、装置、可读存储介质及设备 | |
CN111160372B (zh) | 一种基于高速卷积神经网络的大目标识别方法 | |
CN113128564A (zh) | 一种基于深度学习的复杂背景下典型目标检测方法及系统 | |
CN116842827A (zh) | 一种无人机飞控系统电磁性能边界模型构建方法 | |
CN116778223A (zh) | 一种基于零标注的多类别目标域数据集标注方法及系统 | |
CN115423091A (zh) | 一种条件对抗神经网络训练方法、场景生成方法和系统 | |
CN113569954A (zh) | 一种野生动物智能分类识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |