CN111680655A - 一种面向无人机航拍影像的视频目标检测方法 - Google Patents
一种面向无人机航拍影像的视频目标检测方法 Download PDFInfo
- Publication number
- CN111680655A CN111680655A CN202010544148.7A CN202010544148A CN111680655A CN 111680655 A CN111680655 A CN 111680655A CN 202010544148 A CN202010544148 A CN 202010544148A CN 111680655 A CN111680655 A CN 111680655A
- Authority
- CN
- China
- Prior art keywords
- training
- network
- unmanned aerial
- output
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 238000013461 design Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 230000001629 suppression Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种面向无人机航拍影像的视频目标检测方法,包括如下步骤:对训练集的每一个batch(批次)进行数据预处理,实现多尺度训练;在特征提取网络ResNeXt中加入特征金字塔和可变形卷积,增强特征提取网络的能力;级联多个检测器,第一个检测器对RPN(区域推荐网络)输出的建议框进行目标分类和建议框的坐标回归,下一级检测器对上一级输出的精细建议框进一步处理,直至最后一级检测器结束;更换特征提取网络重新训练,得到两个模型,对两个模型进行多尺度测试,然后采用softnms(非极大值抑制)方法进行多模型融合,得到检测结果。本发明对于无人机航拍影像中目标数量多且尺寸小的情况,具有高检测精度和强鲁棒性。
Description
技术领域
本发明涉及图像处理和计算机视觉领域,特别涉及一种面向无人机航拍影像的视频目标检测方法。
背景技术
如今,配备摄像头的无人机或通用无人机已经广泛地应用在农业、航空摄影、快速交付、监视等多个领域。与常规检测数据集不同的是,无人机航拍影像每张图片包含上百个待检测物体,行人和远景的物体的标注框非常小,而且目标之间的遮挡情况频繁发生,这都给无人机航拍影像中的目标检测带来了困难与挑战。
近年来,计算机视觉通过深度学习等技术,在图像识别、目标检测,图像分割等领域取得了重大的突破。视频目标检测是计算机视觉中的一项基础任务,其定义为在连续的视频帧中找出感兴趣的物体,自动的在视频帧中定位其位置。只有得到感兴趣物体的具体的位置,才能进行后续的识别,决策等任务。其主要应用领域有:智能安防、自动驾驶、人机交互等。
视频中的目标检测方法基本分为两种:一种是以运动信息为先验运动目标检测算法,另一种是基于特定物体的视频目标检测算法。以运动信息为先验的运动目标检测这类方法建立在运动信息的先验基础上,视频中感兴趣的物体一般均是运动的,通过对运动信息的数学建模,分离前景像素与背景像素,再通过连通区域检测得到目标的包围框区域。在过去的数十年中,该类方法一直占据着视频目标检测的主流地位,也取得了一系列的研究成果。Russel和Firedman提出使用单高斯模型来进行背景建模;Stauffer在单高斯的基础上,使用混合高斯模型对像素进行背景建模,进一步提升了背景减除法的性能;对比文件[1]Marc和Olivier提出的VIBE算法(O.Bamich,M.Droogenbroeck.ViBe:Auniversalbackground subtractionalgorithm for video sequences[J].IEEETransactions onImage processing,2011,20(6):1709-1724)在背景建模中引入了随机因素,通过随机采样和样本集匹配来进行背景估计,使得算法的计算开销降低同时也保持了一定的鲁棒性。但上述方法应用的前提是静态背景,若背景是动态变化的,则无法为背景建模,则不再适用。基于特定物体的视频目标检测通过对特定的物体外观进行建模,检测出视频中的特定物体。该类方法在之前数十年中一直未能占据主流视频目标检测的地位,原因在于特定的物体外观复杂而手工设计的特征表示能力一直很低。但近年来深度学习技术在大数据驱动下蓬勃发展,极大地改善了对物体外观的建模能力,算法在真实数据中学习到的特征表示,很好的适应各种复杂的场景,该类方法开始占据视频目标检测的主流研究路线。对比文件[2]JosephRedmon提出基于回归卷积神经网络的算法YOLO v3(Redmon J,Farhadi A.Yolov3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018.),训练了一个端到端的目标检测框架,在卷积神经网络的多个不同层级的特征图上使用锚框(anchor)的方式回归目标,不同层级的特征图带来了不同语义层次的特征,使得目标检测的精度在初代YOLO的基础上进一步提升。对比文件[3](中山大学.一种基于机器学习的视频目标检测方法:中国,201710985003.9[P].2017-10-20)对输入的视频采用跟踪的方法实现检测。对输入视频每一帧采用两种跟踪方法,一是光流跟踪算法,利用概率预测下一帧的跟踪点,并通过欧氏距离和所设阈值精确确定下一帧跟踪点。二是采用全卷积神经网络,提取神经网络中高层和底层的特征进行分别卷积,最后通过分类器融合成特征图,从而精确确定下一帧跟踪点。以上这些深度学习算法适用于常规场景,对于无人机航拍场景中的多目标且目标尺寸小的情况,检测精度明显降低。
发明内容
1、本发明的目的
针对无人机航拍场景下,视频目标检测的困难性。本发明提出了一种面向无人机航拍影像下的视频目标检测方法。本发明对于无人机航拍影像中目标数量多且尺寸小的情况,具有较高的检测精度和较强的鲁棒性。
2、本发明所采用的技术方案
本发明公开了一种面向无人机航拍影像的视频目标检测方法,包括如下步骤:
预处理步骤,对训练集的每一个批次进行数据预处理,实现多尺度训练;
增强特征步骤,在ResNeXt中加入特征金字塔和可变形卷积,增强特征提取网络的能力;
多检测器级联处理步骤,级联多个检测器,第一个检测器对RPN(区域推荐网络)输出的建议框进行目标分类和建议框的坐标回归,下一级检测器对上一级输出的精细建议框进一步处理,直至最后一级检测器结束;
训练步骤,更换特征提取网络重新训练,得到两个模型,对两个模型进行多尺度测试,然后采用softnms(非极大值抑制)方法进行多模型融合,得到最终的检测结果。
更进一步,预处理步骤:
在训练阶段,随机采样训练集中的图片,对于采样到的图片Ii,比较其自身的宽Ii_w和高Ii_h,选取宽高中的长边max(Ii_w,Ii_h)缩放到L,短边min(Ii_w,Ii_h)缩放至S,S从S1~S2之间随机选择;采样的多张图片Ii(i=1,2,3…n)以batch(批次)的形式I送入特征提取网络,batch中所有图像的长边为L,以整个batch中图片短边Si(i=1,2,3…n)中最大的值max(Si)为基准S_base,其余的Si加padding至S_base:
S_base=Si+padding
更进一步,增强特征步骤,包括:
设计ResNeXt,ResNeXt中的残差单元采用聚合拓扑单元结构替代,cardinality(基数)由三个连续的卷积层组成。
更进一步,第一层输入通道是256,输出通道是4,卷积核尺寸是1×1;第二层输入通道是4,卷积核尺寸是3×3,输出通道是4;第三层输入通道是4,卷积核尺寸是1×1,输出通道是256;每一个残差单元由256组cardinality(基数)单元结构并列组成,最终在通道上做加性运算。
更进一步,图像I输入ResNeXt中,经过stage2(阶段2)输出特征图F2,F2输入可变形卷积模块输出特征图Fd_2,Fd_2经过stage3(阶段3)输出F3,F3输入可变形卷积模块输出特征图Fd_3;同理,经过stage4(阶段4)、stage5(阶段5)和对应的可变形卷积后,分别输出F4,Fd_4,F5,Fd_5;
保存Fd_i(i=2,3,4,5),按照特征图尺寸顺序排列,对Fd_i构建特征金字塔,特征金字塔的每一层对应Fdf_i(i=2,3,4,5)。
更进一步,多检测器级联处理步骤,包括:
设计Cascade RCNN网络的头结构Head1,Head1采用Double Head(双头)结构,Head1由ROI Align(感兴趣区域对齐)层和两条平行分支即分类分支和回归分支组成;将RPN输出的ROI(感兴趣区域)和原始的特征图Fdf_i(i=2,3,4,5)一起送入Head1结构,对ROI进行ROIAlign操作,ROI Align的尺寸大小是7×7×256,分类分支采用两个1024的全连接层输出分类结果C1;回归分支采用两个7×7×1024的卷积层和1个1024的全连接层输出检测框回归结果B1;
设计相同的头结构Head2,将B1和原始的特征图Fdf_i(i=2,3,4,5)送入Head2结构,输出分类结果C2和回归结果B2;设计相同结构的Head3,将B2和原始的特征图Fdf_i(i=2,3,4,5)送入Head3结构,输出分类结果C3和回归结果B3。
更进一步,训练步骤,包括:
利用随机梯度下降对误差求偏导更新网络权值;共训练m个epoch(周期),初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rn];训练完成后得到模型M1,更换CascadeRCNN检测网络中的特征提取网络,将ResNeXT更换为HRNet,其他结构保持不变,重新训练第二个模型得到M2;测试集中的图片,保持原有宽高比例缩放到(w1,h1),(w2,h2),(w3,h3),对两个模型M1、M2采用多尺度测试。
更进一步,对于测试集的每一张图片,在两个模型上得到对应的检测框,然后利用softnms对模型得到的所有框进行融合,得到最终检测框结果。
更进一步,所述训练步骤,检测网络的损失设计方法:
训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器;
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δx,δy,δw,δh);
上述式中的数值都比较小,为了提升多任务训练的效率;对Δ做正则化操作;
δ′x=(δx-ux)/σx
检测网络中每个Headi(i=1,2,3)的总损失见下述公式
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
bt=ft-1(xt-1,bt-1)
T表示Cascade RCNN叠加的总分支数,t表示当前的分支;Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果;λ=1,[yt≥1]表示只在正样本中计算回归损失;yt是xt按照以上相关公式和ut计算出来的label(标签)。
更进一步,利用随机梯度下降对误差求偏导更新网络权值;共训练m个epoch,初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rn];训练完成后得到模型M1,更换CascadeRCNN检测网络中的特征提取网络,将ResNeXT更换为HRNet,其他结构保持不变,重新训练第二个模型得到M2。
相较于对比文件,本发明的创新点:
3、本发明所采用的有益效果
(1)本发明提出了一种新的无人机航拍影像下视频目标检测方法;以CascadeRCNN作为检测框架,三个分支使用不同的IOU阈值,训练了多个级联的检测器,可以做更精细化的回归训练,预测也能得到更精准的定位结果。网络训练时,对抽取的训练集进行在线多尺度调整并训练;修改特征提取网络和检测框回归网络,使检测模型精度更高;多尺度测试和多模型融合得到最终检测结果。
(2)本发明采用多尺度训练,训练时每隔一定迭代次数随机选取一种尺度训练,能够在一定程度上提高检测模型对物体大小的鲁棒性。
(3)本发明是对无人机拍摄的地面影像中所含有的目标进行检测;无人机拍摄的影像具有目标尺度小、部分遮挡的不利影响;本发明在特征提取网络ResNeXT中加入特征金字塔FPN,用于融合高低层的特征,提升检测模型对不同尺寸目标的检测;同时在特征提取网络ResNeXT中加入可变形卷积,减小目标被部分遮挡后所带来的目标形变对检测的影响。
(4)本发明加入Double head替换原有Cascadercnn中的单Head结构,Doublehead将检测框的坐标回归和分类任务分别在两条支路上操作,不同分支具有不同的偏向性,相比于单Head结构,双Head结构分类和坐标回归的精度更高,有助于识别无人机拍摄的影像具有目标数量多、种类多的特点。
(5)无人机拍摄的影像具有目标尺度大小相差明显的特点。本发明采用多尺度训练,训练时每隔一定迭代次数随机选取一种尺度训练,能够在一定程度上提高检测模型对不同物体大小的鲁棒性。
(6)本发明训练了两个模型,最终的结果采用多模型融合和多尺度测试,进一步提升目标检测的精度和鲁棒性。
附图说明
图1为本发明的网络总框架流程图;
图2为本实施示例中cardinality和residual单元示意图;
图3为本实施示例中的可变形卷积模块示意图;
图4为本实施示例中的FPN结构示意图;
图5为本实施示例中的RPN结构示意图;
图6为本实施示例中的doublehead结构示意图;
图7为本实施示例中的Cascade RCNN框架示意图;
图8为本实施示例中的实验结果图;
图9为本实施示例中的检测结果图。
具体实施方式
下面结合本发明实例中的附图,对本发明实例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面将结合附图对本发明实例作进一步地详细描述。
实施例1
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提出了一种面向无人机航拍影像的视频目标检测方法,如图1所示。
具体的步骤如下:
(1)在训练阶段,随机采样训练集中的图片,对于采样到的图片Ii,比较其自身的宽Ii_w和高Ii_h,选取宽高中的长边max(Ii_w,Ii_h)缩放到L,短边min(Ii_w,Ii_h)缩放至S,S从S1~S2之间随机选择。采样的多张图片Ii(i=1,2,3…n)以batch的形式I送入特征提取网络,batch中所有图像的长边为L,图像的短边为了统一尺寸,则以整个batch中图片短边Si(i=1,2,3…n)中最大的值max(Si)为基准S_base,其余的Si加padding至S_base(见公式(1))。L设置为2048,短边S1~S2为1024~1536。
S_base=Si+padding (1)
(2)设计ResNeXt,ResNeXt中的残差(Residual)单元采用聚合拓扑单元(cardinality)结构替代,cardinality由三个连续的卷积层组成。第一层输入通道是256,输出通道是4,卷积核尺寸是1×1;第二层输入通道是4,卷积核尺寸是3×3,输出通道是4;第三层输入通道是4,卷积核尺寸是1×1,输出通道是256;每一个残差单元由256组cardinality单元结构并列组成,最终在通道上做加性运算,其余结构和Residual单元类似,如图2。
(3)图像I输入ResNeXt中,经过stage2输出特征图F2,F2输入可变形卷积模块,如图3,输出特征图Fd_2,Fd_2经过stage3输出F3,F3输入可变形卷积模块输出特征图Fd_3。同理,经过stage4、stage5和对应的可变形卷积后,分别输出F4,Fd_4,F5,Fd_5。
(4)保存Fd_i(i=2,3,4,5),按照特征图尺寸顺序排列,对Fd_i构建特征金字塔,如图4,特征金字塔的每一层对应Fdf_i(i=2,3,4,5)。
(5)设计RPN网络B0,Fdf_i输入B0,在Fdf_i的每一层上分别进行RPN操作。对于某一层Fdf_i,在特征图的每一个点上放置n个anchor,利用RPN网络中两条分,如图5,一条分支利用softmax分类anchor获得正类anchor和负类anchor,另外一条用于计算对于所有anchor的检测框回归偏移量,以获得精确的检测框ROI。最后的Proposal层负责综合正类anchor和对应检测框ROI,同时剔除太小和超出边界的检测框ROI,RPN最终输出N个检测框ROI。k设置为5,K设置为2000。
(6)设计Cascade RCNN网络的头结构(Head1),Head1采用Double Head结构,如图6,Head1由ROI Align层和两条平行分支(分类分支和回归分支)组成。将(5)中的ROI和原始的特征图Fdf_i(i=2,3,4,5)一起送入Head1结构,对ROI进行ROI Align操作,ROI Align的尺寸大小是7×7×256,分类分支采用两个1024的全连接层输出分类结果C1;回归分支采用两个7×7×1024的卷积层和1个1024的全连接层输出检测框回归结果B1。
(7)设计相同的头结构Head2,将B1和原始的特征图Fdf_i(i=2,3,4,5)送入Head2结构,输出分类结果C2和回归结果B2;设计相同结构的Head3,将B2和原始的特征图Fdf_i(i=2,3,4,5)送入Head3结构,输出分类结果C3和回归结果B3。
(8)训练网络时的分类损失Lcls使用交叉熵损失对于每一个ROI,经过头结构(Headi)后得到分类结果Ci(i=1,2,3)。(见公式(2))
h(x)表示Headi中的分类分支,输出M+1维向量,将ROI预测为M+1中的一个类别,N代表当前Headi阶段中ROI个数,y对应类别标签,y的类别标签由ROI与对应的标签的IoU大小决定(见公式(3))。
Head1中的IoU阈值u设置为u1,Head2和Head3中的阈值u分别设置为u2、u3。x是ROI,gy是目标x的类别标签,IoU阈值u定义了检测器的质量。u1、u2、u3分别设置为0.5、0.6、0.7
(9)训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器(见公式(4)、(5))。
b=(bx,by,bw,bh) (5)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δx,δy,δw,δh)(见公式(6))。
公式(6)式中的数值都比较小,为了提升多任务训练的效率。对Δ做正则化操作(见公式(7))。
δ′x=(δx-ux)/σx (7)
(10)检测网络中每个Headi(i=1,2,3)的总损失见公式(8)
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g) (8)
bt=ft-1(xt-1,bt-1) (10)
T表示Cascade RCNN叠加的总分支数,t表示当前的分支。Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,如图7,bt来源于b1经过之前所有分支输出后的结果,而非直接使用RPN的初始分布b1来训练ft。[yt≥1]表示只在正样本中计算回归损失。yt是xt按照公式(3)和ut计算出来的label(标签)。T取3,λ取1。
(11)利用随机梯度下降对误差求偏导更新网络权值。共训练m个epoch,初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rn]。训练完成后得到模型M1,更换Cascade RCNN检测网络中的特征提取网络,将ResNeXt更换为HRNet,其他结构保持不变,重新训练第二个模型得到M2。m取50,初始学习率为ε1为0.002,参考框的比率设置为[0.33,0.5,1,2,3]。
(12)测试集中的图片,保持原有宽高比例缩放到(w1,h1),(w2,h2),(w3,h3),对两个模型M1、M2采用多尺度测试。对于测试集的每一张图片,我们在两个模型上可以得到对应的检测框,然后利用softnms对模型得到的所有框进行融合,得到最终检测框结果。宽高比例分别设置为(1333,800)、(1600,1080)、(2048,1280)。M1和M2的特征提取网络分别采用ResNext101(64x4d),HRNet-W32。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种面向无人机航拍影像的视频目标检测方法,其特征在于,包括如下步骤:
预处理步骤,对训练集的每一个batch进行数据预处理,实现多尺度训练;
增强特征步骤,在特征提取网络ResNeXt中加入特征金字塔和可变形卷积,增强特征提取网络的能力;
多检测器级联处理步骤,级联多个检测器,第一个检测器对RPN输出的建议框进行目标分类和建议框的坐标回归,下一级检测器对上一级输出的精细建议框进一步处理,直至最后一级检测器结束;
训练步骤,更换特征提取网络重新训练,得到两个模型,对两个模型进行多尺度测试,然后采用softnms方法进行多模型融合,得到最终的检测结果。
2.根据权利要求1所述的面向无人机航拍影像的视频目标检测方法,其特征在于,预处理步骤:
在训练阶段,随机采样训练集中的图片,对于采样到的图片Ii,比较其自身的宽Ii_w和高Ii_h,选取宽高中的长边max(Ii_w,Ii_h)缩放到L,短边min(Ii_w,Ii_h)缩放至S,S从S1~S2之间随机选择;采样的多张图片Ii(i=1,2,3…n)以batch的形式I送入特征提取网络,batch中所有图像的长边为L,以整个batch中图片短边Si(i=1,2,3…n)中最大的值max(Si)为基准S_base,其余的Si加padding至S_base:
S_base=Si+padding。
3.根据权利要求1所述的面向无人机航拍影像的视频目标检测方法,其特征在于,增强特征步骤,包括:
设计ResNeXt,ResNeXt中的残差单元采用聚合拓扑单元结构替代,cardinality由三个连续的卷积层组成。
4.根据权利要求3所述的面向无人机航拍影像的视频目标检测方法,其特征在于,第一层输入通道是256,输出通道是4,卷积核尺寸是1×1;第二层输入通道是4,卷积核尺寸是3×3,输出通道是4;第三层输入通道是4,卷积核尺寸是1×1,输出通道是256;每一个残差单元由256组cardinality单元结构并列组成,最终在通道上做加性运算。
5.根据权利要求4所述的面向无人机航拍影像的视频目标检测方法,其特征在于,图像I输入ResNeXt中,经过stage2输出特征图F2,F2输入可变形卷积模块输出特征图Fd_2,Fd_2经过stage3输出F3,F3输入可变形卷积模块输出特征图Fd_3;同理,经过stage4、stage5和对应的可变形卷积后,分别输出F4,Fd_4,F5,Fd_5;
保存Fd_i(i=2,3,4,5),按照特征图尺寸顺序排列,对Fd_i构建特征金字塔,特征金字塔的每一层对应Fdf_i(i=2,3,4,5)。
6.根据权利要求1所述的面向无人机航拍影像的视频目标检测方法,其特征在于,多检测器级联处理步骤,包括:
设计Cascade RCNN网络的头结构Head1,Head1采用Double Head结构,Head1由ROIAlign层和两条平行分支即分类分支和回归分支组成;将RPN输出的ROI和原始的特征图Fdf_i(i=2,3,4,5)一起送入Head1结构,对ROI进行ROI Align操作,ROI Align的尺寸大小是7×7×256,分类分支采用两个1024的全连接层输出分类结果C1;回归分支采用两个7×7×1024的卷积层和1个1024的全连接层输出检测框回归结果B1;
设计相同的头结构Head2,将B1和原始的特征图Fdf_i(i=2,3,4,5)送入Head2结构,输出分类结果C2和回归结果B2;设计相同结构的Head3,将B2和原始的特征图Fdf_i(i=2,3,4,5)送入Head3结构,输出分类结果C3和回归结果B3。
7.根据权利要求1所述的面向无人机航拍影像的视频目标检测方法,其特征在于,训练步骤,包括:
利用随机梯度下降对误差求偏导更新网络权值;共训练m个epoch,初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rn];训练完成后得到模型M1,更换Cascade RCNN检测网络中的特征提取网络,将ResNeXT更换为HRNet,其他结构保持不变,重新训练第二个模型得到M2;测试集中的图片,保持原有宽高比例缩放到(w1,h1),(w2,h2),(w3,h3),对两个模型M1、M2采用多尺度测试。
8.根据权利要求7所述的面向无人机航拍影像的视频目标检测方法,其特征在于,对于测试集的每一张图片,在两个模型上得到对应的检测框,然后利用softnms对模型得到的所有框进行融合,得到最终检测框结果。
9.根据权利要求8所述的面向无人机航拍影像的视频目标检测方法,其特征在于,所述训练步骤,检测网络的损失设计方法:
训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器;
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δx,δy,δw,δh);
上述式中的数值都比较小,为了提升多任务训练的效率;对Δ做正则化操作;
δ′x=(δx-ux)/σx
检测网络中每个Headi(i=1,2,3)的总损失见下述公式
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
bt=ft-1(xt-1,bt-1) (10)
T表示Cascade RCNN叠加的总分支数,t表示当前的分支;Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果;λ=1,[yt≥1]表示只在正样本中计算回归损失;yt是xt按照以上相关公式和ut计算出来的label。
10.根据权利要求9所述的面向无人机航拍影像的视频目标检测方法,其特征在于,利用随机梯度下降对误差求偏导更新网络权值;共训练m个epoch,初始学习率为ε1,参考框的比率设置为[r1,r2,r3,…rn];训练完成后得到模型M1,更换Cascade RCNN检测网络中的特征提取网络,将ResNeXT更换为HRNet,其他结构保持不变,重新训练第二个模型得到M2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010544148.7A CN111680655A (zh) | 2020-06-15 | 2020-06-15 | 一种面向无人机航拍影像的视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010544148.7A CN111680655A (zh) | 2020-06-15 | 2020-06-15 | 一种面向无人机航拍影像的视频目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111680655A true CN111680655A (zh) | 2020-09-18 |
Family
ID=72435822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010544148.7A Pending CN111680655A (zh) | 2020-06-15 | 2020-06-15 | 一种面向无人机航拍影像的视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680655A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287895A (zh) * | 2020-11-26 | 2021-01-29 | 山东捷讯通信技术有限公司 | 用于河流排污口检测的模型构建方法、识别方法及系统 |
CN112287854A (zh) * | 2020-11-02 | 2021-01-29 | 湖北大学 | 基于深度神经网络的建筑室内人员检测方法及系统 |
CN112307976A (zh) * | 2020-10-30 | 2021-02-02 | 北京百度网讯科技有限公司 | 目标检测方法、装置、电子设备以及存储介质 |
CN112529005A (zh) * | 2020-12-11 | 2021-03-19 | 西安电子科技大学 | 基于语义特征一致性监督金字塔网络的目标检测方法 |
CN112907561A (zh) * | 2021-03-16 | 2021-06-04 | 中科海拓(无锡)科技有限公司 | 一种基于深度学习的笔记本外观瑕疵检测方法 |
CN112926480A (zh) * | 2021-03-05 | 2021-06-08 | 山东大学 | 一种面向多尺度、多朝向的航拍物体检测方法及系统 |
CN112966546A (zh) * | 2021-01-04 | 2021-06-15 | 航天时代飞鸿技术有限公司 | 一种基于无人机侦察图像的嵌入式姿态估计方法 |
CN113822375A (zh) * | 2021-11-08 | 2021-12-21 | 北京工业大学 | 一种改进的交通图像目标检测方法 |
CN113902744A (zh) * | 2021-12-10 | 2022-01-07 | 湖南师范大学 | 基于轻量级网络的图像检测方法、系统、设备和存储介质 |
CN114067440A (zh) * | 2022-01-13 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 级联神经网络模型的行人检测方法、装置、设备及介质 |
CN114359336A (zh) * | 2021-11-30 | 2022-04-15 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪算法 |
CN114693612A (zh) * | 2022-03-16 | 2022-07-01 | 深圳大学 | 一种基于深度学习的膝关节骨肿瘤检测方法及相关装置 |
CN115205855A (zh) * | 2022-07-08 | 2022-10-18 | 中国人民解放军国防科技大学 | 融合多尺度语义信息的车辆目标识别方法、装置及设备 |
CN115761552A (zh) * | 2023-01-08 | 2023-03-07 | 石家庄铁道大学 | 面向无人机机载平台的目标检测方法、系统、设备及介质 |
CN113822375B (zh) * | 2021-11-08 | 2024-04-26 | 北京工业大学 | 一种改进的交通图像目标检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034210A (zh) * | 2018-07-04 | 2018-12-18 | 国家新闻出版广电总局广播科学研究院 | 基于超特征融合与多尺度金字塔网络的目标检测方法 |
US20200143205A1 (en) * | 2017-08-10 | 2020-05-07 | Intel Corporation | Convolutional neural network framework using reverse connections and objectness priors for object detection |
CN111144234A (zh) * | 2019-12-10 | 2020-05-12 | 南京航空航天大学 | 一种基于深度学习的视频sar目标检测方法 |
-
2020
- 2020-06-15 CN CN202010544148.7A patent/CN111680655A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200143205A1 (en) * | 2017-08-10 | 2020-05-07 | Intel Corporation | Convolutional neural network framework using reverse connections and objectness priors for object detection |
CN109034210A (zh) * | 2018-07-04 | 2018-12-18 | 国家新闻出版广电总局广播科学研究院 | 基于超特征融合与多尺度金字塔网络的目标检测方法 |
CN111144234A (zh) * | 2019-12-10 | 2020-05-12 | 南京航空航天大学 | 一种基于深度学习的视频sar目标检测方法 |
Non-Patent Citations (4)
Title |
---|
JUNCHUAN PENG等: "Automated mammographic mass detection using deformable convolution and multiscale features", 《MEDICAL & BIOLOGICAL ENGINEERING & COMPUTING》 * |
企鹅号-AICUG人工智能用户组: "干货|百度视觉团队斩获 ECCV Google AI 目标检测竞赛冠军,获奖方案全解读|ECCV 2018", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/NEWS/320201》 * |
张瑞倩等: "多尺度空洞卷积的无人机影像目标检测方法", 《武汉大学学报(信息科学版)》 * |
贾志刚: "当CV碰上无人机:ICCV 2019 VisDrone挑战赛冠军解决方案解读", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1536451》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307976A (zh) * | 2020-10-30 | 2021-02-02 | 北京百度网讯科技有限公司 | 目标检测方法、装置、电子设备以及存储介质 |
CN112287854A (zh) * | 2020-11-02 | 2021-01-29 | 湖北大学 | 基于深度神经网络的建筑室内人员检测方法及系统 |
CN112287895A (zh) * | 2020-11-26 | 2021-01-29 | 山东捷讯通信技术有限公司 | 用于河流排污口检测的模型构建方法、识别方法及系统 |
CN112529005A (zh) * | 2020-12-11 | 2021-03-19 | 西安电子科技大学 | 基于语义特征一致性监督金字塔网络的目标检测方法 |
CN112529005B (zh) * | 2020-12-11 | 2022-12-06 | 西安电子科技大学 | 基于语义特征一致性监督金字塔网络的目标检测方法 |
CN112966546A (zh) * | 2021-01-04 | 2021-06-15 | 航天时代飞鸿技术有限公司 | 一种基于无人机侦察图像的嵌入式姿态估计方法 |
CN112926480A (zh) * | 2021-03-05 | 2021-06-08 | 山东大学 | 一种面向多尺度、多朝向的航拍物体检测方法及系统 |
CN112926480B (zh) * | 2021-03-05 | 2023-01-31 | 山东大学 | 一种面向多尺度、多朝向的航拍物体检测方法及系统 |
CN112907561A (zh) * | 2021-03-16 | 2021-06-04 | 中科海拓(无锡)科技有限公司 | 一种基于深度学习的笔记本外观瑕疵检测方法 |
CN113822375B (zh) * | 2021-11-08 | 2024-04-26 | 北京工业大学 | 一种改进的交通图像目标检测方法 |
CN113822375A (zh) * | 2021-11-08 | 2021-12-21 | 北京工业大学 | 一种改进的交通图像目标检测方法 |
CN114359336A (zh) * | 2021-11-30 | 2022-04-15 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪算法 |
CN113902744B (zh) * | 2021-12-10 | 2022-03-08 | 湖南师范大学 | 基于轻量级网络的图像检测方法、系统、设备和存储介质 |
CN113902744A (zh) * | 2021-12-10 | 2022-01-07 | 湖南师范大学 | 基于轻量级网络的图像检测方法、系统、设备和存储介质 |
CN114067440B (zh) * | 2022-01-13 | 2022-04-26 | 深圳佑驾创新科技有限公司 | 级联神经网络模型的行人检测方法、装置、设备及介质 |
CN114067440A (zh) * | 2022-01-13 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 级联神经网络模型的行人检测方法、装置、设备及介质 |
CN114693612A (zh) * | 2022-03-16 | 2022-07-01 | 深圳大学 | 一种基于深度学习的膝关节骨肿瘤检测方法及相关装置 |
CN115205855A (zh) * | 2022-07-08 | 2022-10-18 | 中国人民解放军国防科技大学 | 融合多尺度语义信息的车辆目标识别方法、装置及设备 |
CN115205855B (zh) * | 2022-07-08 | 2023-10-27 | 中国人民解放军国防科技大学 | 融合多尺度语义信息的车辆目标识别方法、装置及设备 |
CN115761552A (zh) * | 2023-01-08 | 2023-03-07 | 石家庄铁道大学 | 面向无人机机载平台的目标检测方法、系统、设备及介质 |
CN115761552B (zh) * | 2023-01-08 | 2023-05-26 | 石家庄铁道大学 | 面向无人机机载平台的目标检测方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680655A (zh) | 一种面向无人机航拍影像的视频目标检测方法 | |
Yang et al. | Real-time face detection based on YOLO | |
CN112001339B (zh) | 一种基于YOLO v4的行人社交距离实时监测方法 | |
WO2020173226A1 (zh) | 一种时空行为检测方法 | |
CN110163187B (zh) | 基于f-rcnn的远距离交通标志检测识别方法 | |
CN113807187B (zh) | 基于注意力特征融合的无人机视频多目标跟踪方法 | |
Zhou et al. | Robust vehicle detection in aerial images using bag-of-words and orientation aware scanning | |
CN111914664A (zh) | 基于重识别的车辆多目标检测和轨迹跟踪方法 | |
CN110263786B (zh) | 一种基于特征维度融合的道路多目标识别系统及方法 | |
Xie et al. | Detecting trees in street images via deep learning with attention module | |
CN107463892A (zh) | 一种结合上下文信息和多级特征的图像中行人检测方法 | |
CN110633632A (zh) | 一种基于循环指导的弱监督联合目标检测和语义分割方法 | |
CN111027493A (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN110765906A (zh) | 一种基于关键点的行人检测算法 | |
CN106023257A (zh) | 一种基于旋翼无人机平台的目标跟踪方法 | |
Yang et al. | Real-time pedestrian and vehicle detection for autonomous driving | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN109919223B (zh) | 基于深度神经网络的目标检测方法及装置 | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
CN105913002A (zh) | 视频场景下在线自适应的异常事件检测方法 | |
Huang et al. | Siamsta: Spatio-temporal attention based siamese tracker for tracking uavs | |
CN113223044A (zh) | 一种结合特征聚合和注意力机制的红外视频目标检测方法 | |
Lu et al. | A CNN-transformer hybrid model based on CSWin transformer for UAV image object detection | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
Cao et al. | Learning spatial-temporal representation for smoke vehicle detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200918 |
|
RJ01 | Rejection of invention patent application after publication |