CN111680655A

CN111680655A - 一种面向无人机航拍影像的视频目标检测方法

Info

Publication number: CN111680655A
Application number: CN202010544148.7A
Authority: CN
Inventors: 陈海波
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-09-18

Abstract

本发明公开了一种面向无人机航拍影像的视频目标检测方法，包括如下步骤：对训练集的每一个batch(批次)进行数据预处理，实现多尺度训练；在特征提取网络ResNeXt中加入特征金字塔和可变形卷积，增强特征提取网络的能力；级联多个检测器，第一个检测器对RPN(区域推荐网络)输出的建议框进行目标分类和建议框的坐标回归，下一级检测器对上一级输出的精细建议框进一步处理，直至最后一级检测器结束；更换特征提取网络重新训练，得到两个模型，对两个模型进行多尺度测试，然后采用softnms(非极大值抑制)方法进行多模型融合，得到检测结果。本发明对于无人机航拍影像中目标数量多且尺寸小的情况，具有高检测精度和强鲁棒性。

Description

一种面向无人机航拍影像的视频目标检测方法

技术领域

本发明涉及图像处理和计算机视觉领域，特别涉及一种面向无人机航拍影像的视频目标检测方法。

背景技术

如今，配备摄像头的无人机或通用无人机已经广泛地应用在农业、航空摄影、快速交付、监视等多个领域。与常规检测数据集不同的是，无人机航拍影像每张图片包含上百个待检测物体，行人和远景的物体的标注框非常小，而且目标之间的遮挡情况频繁发生，这都给无人机航拍影像中的目标检测带来了困难与挑战。

近年来，计算机视觉通过深度学习等技术，在图像识别、目标检测，图像分割等领域取得了重大的突破。视频目标检测是计算机视觉中的一项基础任务，其定义为在连续的视频帧中找出感兴趣的物体，自动的在视频帧中定位其位置。只有得到感兴趣物体的具体的位置，才能进行后续的识别，决策等任务。其主要应用领域有：智能安防、自动驾驶、人机交互等。

视频中的目标检测方法基本分为两种：一种是以运动信息为先验运动目标检测算法，另一种是基于特定物体的视频目标检测算法。以运动信息为先验的运动目标检测这类方法建立在运动信息的先验基础上，视频中感兴趣的物体一般均是运动的，通过对运动信息的数学建模，分离前景像素与背景像素，再通过连通区域检测得到目标的包围框区域。在过去的数十年中，该类方法一直占据着视频目标检测的主流地位，也取得了一系列的研究成果。Russel和Firedman提出使用单高斯模型来进行背景建模；Stauffer在单高斯的基础上，使用混合高斯模型对像素进行背景建模，进一步提升了背景减除法的性能；对比文件[1]Marc和Olivier提出的VIBE算法(O.Bamich,M.Droogenbroeck.ViBe:Auniversalbackground subtractionalgorithm for video sequences[J].IEEETransactions onImage processing,2011,20(6):1709-1724)在背景建模中引入了随机因素，通过随机采样和样本集匹配来进行背景估计，使得算法的计算开销降低同时也保持了一定的鲁棒性。但上述方法应用的前提是静态背景，若背景是动态变化的，则无法为背景建模，则不再适用。基于特定物体的视频目标检测通过对特定的物体外观进行建模，检测出视频中的特定物体。该类方法在之前数十年中一直未能占据主流视频目标检测的地位，原因在于特定的物体外观复杂而手工设计的特征表示能力一直很低。但近年来深度学习技术在大数据驱动下蓬勃发展，极大地改善了对物体外观的建模能力，算法在真实数据中学习到的特征表示，很好的适应各种复杂的场景，该类方法开始占据视频目标检测的主流研究路线。对比文件[2]JosephRedmon提出基于回归卷积神经网络的算法YOLO v3(Redmon J,Farhadi A.Yolov3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018.)，训练了一个端到端的目标检测框架，在卷积神经网络的多个不同层级的特征图上使用锚框(anchor)的方式回归目标，不同层级的特征图带来了不同语义层次的特征，使得目标检测的精度在初代YOLO的基础上进一步提升。对比文件[3](中山大学.一种基于机器学习的视频目标检测方法:中国，201710985003.9[P].2017-10-20)对输入的视频采用跟踪的方法实现检测。对输入视频每一帧采用两种跟踪方法，一是光流跟踪算法，利用概率预测下一帧的跟踪点，并通过欧氏距离和所设阈值精确确定下一帧跟踪点。二是采用全卷积神经网络，提取神经网络中高层和底层的特征进行分别卷积，最后通过分类器融合成特征图，从而精确确定下一帧跟踪点。以上这些深度学习算法适用于常规场景，对于无人机航拍场景中的多目标且目标尺寸小的情况，检测精度明显降低。

发明内容

1、本发明的目的

针对无人机航拍场景下，视频目标检测的困难性。本发明提出了一种面向无人机航拍影像下的视频目标检测方法。本发明对于无人机航拍影像中目标数量多且尺寸小的情况，具有较高的检测精度和较强的鲁棒性。

2、本发明所采用的技术方案

本发明公开了一种面向无人机航拍影像的视频目标检测方法，包括如下步骤：

预处理步骤，对训练集的每一个批次进行数据预处理，实现多尺度训练；

增强特征步骤，在ResNeXt中加入特征金字塔和可变形卷积，增强特征提取网络的能力；

多检测器级联处理步骤，级联多个检测器，第一个检测器对RPN(区域推荐网络)输出的建议框进行目标分类和建议框的坐标回归，下一级检测器对上一级输出的精细建议框进一步处理，直至最后一级检测器结束；

训练步骤，更换特征提取网络重新训练，得到两个模型，对两个模型进行多尺度测试，然后采用softnms(非极大值抑制)方法进行多模型融合，得到最终的检测结果。

更进一步，预处理步骤：

在训练阶段，随机采样训练集中的图片，对于采样到的图片I_i，比较其自身的宽I_i_w和高I_i_h，选取宽高中的长边max(I_i_w,I_i_h)缩放到L，短边min(I_i_w,I_i_h)缩放至S，S从S₁～S₂之间随机选择；采样的多张图片I_i(i＝1,2,3…n)以batch(批次)的形式I送入特征提取网络，batch中所有图像的长边为L，以整个batch中图片短边S_i(i＝1,2,3…n)中最大的值max(S_i)为基准S_base，其余的S_i加padding至S_base：

S_base＝S_i+padding

更进一步，增强特征步骤，包括：

设计ResNeXt，ResNeXt中的残差单元采用聚合拓扑单元结构替代，cardinality(基数)由三个连续的卷积层组成。

更进一步，第一层输入通道是256，输出通道是4，卷积核尺寸是1×1；第二层输入通道是4，卷积核尺寸是3×3，输出通道是4；第三层输入通道是4，卷积核尺寸是1×1，输出通道是256；每一个残差单元由256组cardinality(基数)单元结构并列组成，最终在通道上做加性运算。

更进一步，图像I输入ResNeXt中，经过stage2(阶段2)输出特征图F₂，F₂输入可变形卷积模块输出特征图F_{d_2}，F_{d_2}经过stage3(阶段3)输出F₃，F₃输入可变形卷积模块输出特征图F_{d_3}；同理，经过stage4(阶段4)、stage5(阶段5)和对应的可变形卷积后，分别输出F₄，F_{d_4}，F₅，F_{d_5}；

保存F_{d_i}(i＝2,3,4,5)，按照特征图尺寸顺序排列，对F_{d_i}构建特征金字塔，特征金字塔的每一层对应F_{df_i}(i＝2,3,4,5)。

更进一步，多检测器级联处理步骤，包括：

设计Cascade RCNN网络的头结构Head₁，Head₁采用Double Head(双头)结构，Head₁由ROI Align(感兴趣区域对齐)层和两条平行分支即分类分支和回归分支组成；将RPN输出的ROI(感兴趣区域)和原始的特征图F_{df_i}(i＝2,3,4,5)一起送入Head₁结构，对ROI进行ROIAlign操作，ROI Align的尺寸大小是7×7×256，分类分支采用两个1024的全连接层输出分类结果C₁；回归分支采用两个7×7×1024的卷积层和1个1024的全连接层输出检测框回归结果B₁；

设计相同的头结构Head₂，将B₁和原始的特征图F_{df_i}(i＝2,3,4,5)送入Head₂结构，输出分类结果C₂和回归结果B₂；设计相同结构的Head₃，将B₂和原始的特征图F_{df_i}(i＝2,3,4,5)送入Head₃结构，输出分类结果C₃和回归结果B₃。

更进一步，训练步骤，包括：

利用随机梯度下降对误差求偏导更新网络权值；共训练m个epoch(周期)，初始学习率为ε₁，参考框的比率设置为[r₁,r₂,r₃,…r_n]；训练完成后得到模型M₁，更换CascadeRCNN检测网络中的特征提取网络，将ResNeXT更换为HRNet，其他结构保持不变，重新训练第二个模型得到M₂；测试集中的图片，保持原有宽高比例缩放到(w₁，h₁)，(w₂，h₂)，(w₃，h₃)，对两个模型M₁、M₂采用多尺度测试。

更进一步，对于测试集的每一张图片，在两个模型上得到对应的检测框，然后利用softnms对模型得到的所有框进行融合，得到最终检测框结果。

更进一步，所述训练步骤，检测网络的损失设计方法：

训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI，b是对ROI的预测坐标，g是标签坐标值，f表示回归器；

b＝(b_x,b_y,b_w,b_h)

为保证回归操作对尺度、位置的不变性，L_loc操作对应的向量Δ＝(δ_x,δ_y,δ_w,δ_h)；

上述式中的数值都比较小，为了提升多任务训练的效率；对Δ做正则化操作；

δ′_x＝(δ_x-u_x)/σ_x

检测网络中每个Head_i(i＝1,2,3)的总损失见下述公式

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1)

T表示Cascade RCNN叠加的总分支数，t表示当前的分支；Cascade RCNN中每个分支ft通过各个分支上的训练数据b_t优化，b_t来源于b₁经过之前所有分支输出后的结果；λ＝1，[y^t≥1]表示只在正样本中计算回归损失；y^t是x^t按照以上相关公式和u_t计算出来的label(标签)。

更进一步，利用随机梯度下降对误差求偏导更新网络权值；共训练m个epoch，初始学习率为ε₁，参考框的比率设置为[r₁,r₂,r₃,…r_n]；训练完成后得到模型M₁，更换CascadeRCNN检测网络中的特征提取网络，将ResNeXT更换为HRNet，其他结构保持不变，重新训练第二个模型得到M₂。

相较于对比文件，本发明的创新点：

3、本发明所采用的有益效果

(1)本发明提出了一种新的无人机航拍影像下视频目标检测方法；以CascadeRCNN作为检测框架，三个分支使用不同的IOU阈值，训练了多个级联的检测器，可以做更精细化的回归训练，预测也能得到更精准的定位结果。网络训练时，对抽取的训练集进行在线多尺度调整并训练；修改特征提取网络和检测框回归网络，使检测模型精度更高；多尺度测试和多模型融合得到最终检测结果。

(2)本发明采用多尺度训练，训练时每隔一定迭代次数随机选取一种尺度训练，能够在一定程度上提高检测模型对物体大小的鲁棒性。

(3)本发明是对无人机拍摄的地面影像中所含有的目标进行检测；无人机拍摄的影像具有目标尺度小、部分遮挡的不利影响；本发明在特征提取网络ResNeXT中加入特征金字塔FPN，用于融合高低层的特征，提升检测模型对不同尺寸目标的检测；同时在特征提取网络ResNeXT中加入可变形卷积，减小目标被部分遮挡后所带来的目标形变对检测的影响。

(4)本发明加入Double head替换原有Cascadercnn中的单Head结构，Doublehead将检测框的坐标回归和分类任务分别在两条支路上操作，不同分支具有不同的偏向性，相比于单Head结构，双Head结构分类和坐标回归的精度更高，有助于识别无人机拍摄的影像具有目标数量多、种类多的特点。

(5)无人机拍摄的影像具有目标尺度大小相差明显的特点。本发明采用多尺度训练，训练时每隔一定迭代次数随机选取一种尺度训练，能够在一定程度上提高检测模型对不同物体大小的鲁棒性。

(6)本发明训练了两个模型，最终的结果采用多模型融合和多尺度测试，进一步提升目标检测的精度和鲁棒性。

附图说明

图1为本发明的网络总框架流程图；

图2为本实施示例中cardinality和residual单元示意图；

图3为本实施示例中的可变形卷积模块示意图；

图4为本实施示例中的FPN结构示意图；

图5为本实施示例中的RPN结构示意图；

图6为本实施示例中的doublehead结构示意图；

图7为本实施示例中的Cascade RCNN框架示意图；

图8为本实施示例中的实验结果图；

图9为本实施示例中的检测结果图。

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

实施例1

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提出了一种面向无人机航拍影像的视频目标检测方法，如图1所示。

具体的步骤如下：

(1)在训练阶段，随机采样训练集中的图片，对于采样到的图片I_i，比较其自身的宽I_i_w和高I_i_h，选取宽高中的长边max(I_i_w,I_i_h)缩放到L，短边min(I_i_w,I_i_h)缩放至S，S从S₁～S₂之间随机选择。采样的多张图片I_i(i＝1,2,3…n)以batch的形式I送入特征提取网络，batch中所有图像的长边为L，图像的短边为了统一尺寸，则以整个batch中图片短边S_i(i＝1,2,3…n)中最大的值max(S_i)为基准S_base，其余的S_i加padding至S_base(见公式(1))。L设置为2048，短边S₁～S₂为1024～1536。

S_base＝S_i+padding (1)

(2)设计ResNeXt，ResNeXt中的残差(Residual)单元采用聚合拓扑单元(cardinality)结构替代，cardinality由三个连续的卷积层组成。第一层输入通道是256，输出通道是4，卷积核尺寸是1×1；第二层输入通道是4，卷积核尺寸是3×3，输出通道是4；第三层输入通道是4，卷积核尺寸是1×1，输出通道是256；每一个残差单元由256组cardinality单元结构并列组成，最终在通道上做加性运算，其余结构和Residual单元类似，如图2。

(3)图像I输入ResNeXt中，经过stage2输出特征图F₂，F₂输入可变形卷积模块，如图3，输出特征图F_{d_2}，F_{d_2}经过stage3输出F₃，F₃输入可变形卷积模块输出特征图F_{d_3}。同理，经过stage4、stage5和对应的可变形卷积后，分别输出F₄，F_{d_4}，F₅，F_{d_5}。

(4)保存F_{d_i}(i＝2,3,4,5)，按照特征图尺寸顺序排列，对F_{d_i}构建特征金字塔，如图4，特征金字塔的每一层对应F_{df_i}(i＝2,3,4,5)。

(5)设计RPN网络B₀，F_{df_i}输入B₀，在F_{df_i}的每一层上分别进行RPN操作。对于某一层F_{df_i}，在特征图的每一个点上放置n个anchor，利用RPN网络中两条分，如图5，一条分支利用softmax分类anchor获得正类anchor和负类anchor，另外一条用于计算对于所有anchor的检测框回归偏移量，以获得精确的检测框ROI。最后的Proposal层负责综合正类anchor和对应检测框ROI，同时剔除太小和超出边界的检测框ROI，RPN最终输出N个检测框ROI。k设置为5，K设置为2000。

(6)设计Cascade RCNN网络的头结构(Head₁)，Head₁采用Double Head结构，如图6，Head₁由ROI Align层和两条平行分支(分类分支和回归分支)组成。将(5)中的ROI和原始的特征图F_{df_i}(i＝2,3,4,5)一起送入Head₁结构，对ROI进行ROI Align操作，ROI Align的尺寸大小是7×7×256，分类分支采用两个1024的全连接层输出分类结果C₁；回归分支采用两个7×7×1024的卷积层和1个1024的全连接层输出检测框回归结果B₁。

(7)设计相同的头结构Head₂，将B₁和原始的特征图F_{df_i}(i＝2,3,4,5)送入Head₂结构，输出分类结果C₂和回归结果B₂；设计相同结构的Head₃，将B₂和原始的特征图F_{df_i}(i＝2,3,4,5)送入Head₃结构，输出分类结果C₃和回归结果B₃。

(8)训练网络时的分类损失L_cls使用交叉熵损失对于每一个ROI，经过头结构(Head_i)后得到分类结果C_i(i＝1,2,3)。(见公式(2))

h(x)表示Head_i中的分类分支，输出M+1维向量，将ROI预测为M+1中的一个类别，N代表当前Head_i阶段中ROI个数，y对应类别标签，y的类别标签由ROI与对应的标签的IoU大小决定(见公式(3))。

Head1中的IoU阈值u设置为u₁，Head2和Head3中的阈值u分别设置为u₂、u₃。x是ROI，g_y是目标x的类别标签，IoU阈值u定义了检测器的质量。u₁、u₂、u₃分别设置为0.5、0.6、0.7

(9)训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI，b是对ROI的预测坐标，g是标签坐标值，f表示回归器(见公式(4)、(5))。

b＝(b_x,b_y,b_w,b_h) (5)

为保证回归操作对尺度、位置的不变性，L_loc操作对应的向量Δ＝(δ_x,δ_y,δ_w,δ_h)(见公式(6))。

公式(6)式中的数值都比较小，为了提升多任务训练的效率。对Δ做正则化操作(见公式(7))。

δ′_x＝(δ_x-u_x)/σ_x (7)

(10)检测网络中每个Head_i(i＝1,2,3)的总损失见公式(8)

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g) (8)

b^t＝f_t-1(x^t-1,b^t-1) (10)

T表示Cascade RCNN叠加的总分支数，t表示当前的分支。Cascade RCNN中每个分支ft通过各个分支上的训练数据b_t优化，如图7，b_t来源于b₁经过之前所有分支输出后的结果，而非直接使用RPN的初始分布b₁来训练f_t。[y^t≥1]表示只在正样本中计算回归损失。y^t是x^t按照公式(3)和u_t计算出来的label(标签)。T取3，λ取1。

(11)利用随机梯度下降对误差求偏导更新网络权值。共训练m个epoch，初始学习率为ε₁，参考框的比率设置为[r₁,r₂,r₃,…r_n]。训练完成后得到模型M₁，更换Cascade RCNN检测网络中的特征提取网络，将ResNeXt更换为HRNet，其他结构保持不变，重新训练第二个模型得到M₂。m取50，初始学习率为ε₁为0.002，参考框的比率设置为[0.33,0.5,1,2,3]。

(12)测试集中的图片，保持原有宽高比例缩放到(w₁，h₁)，(w₂，h₂)，(w₃，h₃)，对两个模型M₁、M₂采用多尺度测试。对于测试集的每一张图片，我们在两个模型上可以得到对应的检测框，然后利用softnms对模型得到的所有框进行融合，得到最终检测框结果。宽高比例分别设置为(1333,800)、(1600,1080)、(2048,1280)。M₁和M₂的特征提取网络分别采用ResNext101(64x4d)，HRNet-W32。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种面向无人机航拍影像的视频目标检测方法，其特征在于，包括如下步骤：

预处理步骤，对训练集的每一个batch进行数据预处理，实现多尺度训练；

增强特征步骤，在特征提取网络ResNeXt中加入特征金字塔和可变形卷积，增强特征提取网络的能力；

多检测器级联处理步骤，级联多个检测器，第一个检测器对RPN输出的建议框进行目标分类和建议框的坐标回归，下一级检测器对上一级输出的精细建议框进一步处理，直至最后一级检测器结束；

训练步骤，更换特征提取网络重新训练，得到两个模型，对两个模型进行多尺度测试，然后采用softnms方法进行多模型融合，得到最终的检测结果。

2.根据权利要求1所述的面向无人机航拍影像的视频目标检测方法，其特征在于，预处理步骤：

在训练阶段，随机采样训练集中的图片，对于采样到的图片I_i，比较其自身的宽I_i_w和高I_i_h，选取宽高中的长边max(I_i_w,I_i_h)缩放到L，短边min(I_i_w,I_i_h)缩放至S，S从S₁～S₂之间随机选择；采样的多张图片I_i(i＝1,2,3…n)以batch的形式I送入特征提取网络，batch中所有图像的长边为L，以整个batch中图片短边S_i(i＝1,2,3…n)中最大的值max(S_i)为基准S_base，其余的S_i加padding至S_base：

S_base＝S_i+padding。

3.根据权利要求1所述的面向无人机航拍影像的视频目标检测方法，其特征在于，增强特征步骤，包括：

设计ResNeXt，ResNeXt中的残差单元采用聚合拓扑单元结构替代，cardinality由三个连续的卷积层组成。

4.根据权利要求3所述的面向无人机航拍影像的视频目标检测方法，其特征在于，第一层输入通道是256，输出通道是4，卷积核尺寸是1×1；第二层输入通道是4，卷积核尺寸是3×3，输出通道是4；第三层输入通道是4，卷积核尺寸是1×1，输出通道是256；每一个残差单元由256组cardinality单元结构并列组成，最终在通道上做加性运算。

5.根据权利要求4所述的面向无人机航拍影像的视频目标检测方法，其特征在于，图像I输入ResNeXt中，经过stage2输出特征图F₂，F₂输入可变形卷积模块输出特征图F_{d_2}，F_{d_2}经过stage3输出F₃，F₃输入可变形卷积模块输出特征图F_{d_3}；同理，经过stage4、stage5和对应的可变形卷积后，分别输出F₄，F_{d_4}，F₅，F_{d_5}；

6.根据权利要求1所述的面向无人机航拍影像的视频目标检测方法，其特征在于，多检测器级联处理步骤，包括：

设计Cascade RCNN网络的头结构Head₁，Head₁采用Double Head结构，Head₁由ROIAlign层和两条平行分支即分类分支和回归分支组成；将RPN输出的ROI和原始的特征图F_{df_i}(i＝2,3,4,5)一起送入Head₁结构，对ROI进行ROI Align操作，ROI Align的尺寸大小是7×7×256，分类分支采用两个1024的全连接层输出分类结果C₁；回归分支采用两个7×7×1024的卷积层和1个1024的全连接层输出检测框回归结果B₁；

7.根据权利要求1所述的面向无人机航拍影像的视频目标检测方法，其特征在于，训练步骤，包括：

利用随机梯度下降对误差求偏导更新网络权值；共训练m个epoch，初始学习率为ε₁，参考框的比率设置为[r₁,r₂,r₃,…r_n]；训练完成后得到模型M₁，更换Cascade RCNN检测网络中的特征提取网络，将ResNeXT更换为HRNet，其他结构保持不变，重新训练第二个模型得到M₂；测试集中的图片，保持原有宽高比例缩放到(w₁，h₁)，(w₂，h₂)，(w₃，h₃)，对两个模型M₁、M₂采用多尺度测试。

8.根据权利要求7所述的面向无人机航拍影像的视频目标检测方法，其特征在于，对于测试集的每一张图片，在两个模型上得到对应的检测框，然后利用softnms对模型得到的所有框进行融合，得到最终检测框结果。

9.根据权利要求8所述的面向无人机航拍影像的视频目标检测方法，其特征在于，所述训练步骤，检测网络的损失设计方法：

b＝(b_x,b_y,b_w,b_h)

δ′_x＝(δ_x-u_x)/σ_x

检测网络中每个Head_i(i＝1,2,3)的总损失见下述公式

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1) (10)

T表示Cascade RCNN叠加的总分支数，t表示当前的分支；Cascade RCNN中每个分支f_t通过各个分支上的训练数据b_t优化，b_t来源于b₁经过之前所有分支输出后的结果；λ＝1，[y^t≥1]表示只在正样本中计算回归损失；y^t是x^t按照以上相关公式和u_t计算出来的label。

10.根据权利要求9所述的面向无人机航拍影像的视频目标检测方法，其特征在于，利用随机梯度下降对误差求偏导更新网络权值；共训练m个epoch，初始学习率为ε₁，参考框的比率设置为[r₁,r₂,r₃,…r_n]；训练完成后得到模型M₁，更换Cascade RCNN检测网络中的特征提取网络，将ResNeXT更换为HRNet，其他结构保持不变，重新训练第二个模型得到M₂。