CN112819100A

CN112819100A - 无人机平台多尺度目标检测方法和装置

Info

Publication number: CN112819100A
Application number: CN202110225622.4A
Authority: CN
Inventors: 王斌; 金帅; 王礼健
Original assignee: Shenzhen Zhongwan Intelligent Technology Co ltd
Current assignee: Shenzhen Zhongwan Intelligent Technology Co ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-05-18

Abstract

本发明公开了一种无人机平台多尺度目标检测方法，使用无监督学习对训练集的目标框进行聚类，引入空洞卷积，通过网络对多尺度目标特征进行提取，加入正负样本平衡的方式；在训练阶段，加入图像增强技术；使用正则化方法，进一步优化网络结构；在后处理阶段，使用soft‑NMS替换NMS，解决目标检测中的物体重叠难以预测，分类分数与IoU不匹配的问题；引入注意力机制，对通道间的依赖关系进行建模，自适应调整各通道的特征响应值。本发明基于YOLOV3算法进行改进，可以满足本案的多尺度、实时性高、精度高的要求，在模型训练阶段引入图像增强技术和正则化方法提升算法和网络结构的模型泛化性能和鲁棒性。

Description

无人机平台多尺度目标检测方法和装置

技术领域

本发明属于无人机目标检测技术领域。涉及一种基于无人机平台的多尺度目标检测算法方案，尤其涉及一种无人机平台多尺度目标检测方法、装置、存储介质以及计算机程序产品。

背景技术

由于无人机移动平台的超高机动性和环境的复杂性，航拍图像信噪比较低，目前通用的视频采集方案实现目标检测识别较为困难，主要原因包括：

图像质量低。受相机质量、恶劣环境、运动抖动等因素影响，航拍图像数据质量往往不够理想

目标易遮挡形变。目标对象之间相互遮挡，拍摄视角会随无人机飞行姿态而改变。

多尺度目标识别困难。待识别目标物理大小尺寸各异，并随着无人机飞行高度和相机视角而变化，小目标与背景难以分割、定位和分类。

对象的多样性。自然物体种类繁多，有限的模型网络资源难以应对众多目标种类的识别任务。

无人机体积小、供电能力弱、运行环境复杂、而目标检测算法对算力要求高，通常无法实现实时计算，而是把图像带回地面控制站统一处理。

发明内容

针对现有技术中的缺陷，本发明提出了一种无人机平台多尺度目标检测方法，使用无监督学习对训练集的目标框进行聚类，引入空洞卷积，通过网络对多尺度目标特征进行提取，加入正负样本平衡的方式；

在训练阶段，加入图像增强技术；使用正则化方法，进一步优化网络结构；在后处理阶段，使用soft-NMS替换NMS，解决目标检测中的物体重叠难以预测，分类分数与IoU不匹配的问题；引入注意力机制，对通道间的依赖关系进行建模，自适应调整各通道的特征响应值。

优选的，上述方法使用无监督学习算法k-means对训练集的目标框进行聚类，使用IOU作为距离函数，锚框的个数设计为3个，每个目标框返回5个参数，分别是位置坐标、目标框大小以及置信度评分偏移量：t_x、t_y、t_w、t_h、t_o；

假设网格左上角位置坐标为(C_x，C_y)，锚框的宽高为(P_w，P_h)，则目标框的位置和置信度评分的预测结果如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)×IOU(b，object)＝σ(t_o)

其中b_x，b_y，b_w，b_h为目标框大小及位置坐标的实际预测结果，σ(t₀)为目标框的置信度评分，c_x和c_y表示网格左上角点的位置坐标，p_w和p_h表示锚框的宽度及高度。

优选的，上述空洞卷积为卷积层引入扩张率参数，所述参数定义了卷积核处理数据时各值的间距。

优选的，上述正负样本平衡的方式为FocalLoss，在交叉熵损失函数上进行修改。

优选的，上述训练阶段，加入图像扰动、随机裁剪、翻转、mixup以及其他图像增强技术。

优选的，上述无监督学习算法k-means选择锚框初始个数为9个，平均分配到3种尺度进行目标检测，每种尺度预测3个box。

优选的，上述无监督学习算法k-means使用逻辑回归判定每个边界框的目标评分，如果预测框与真值框重叠超过任何其他预测框或者预测框与真值框重叠超过某一阈值，则设置其目标评分1，根据目标评分结果选择对应的预测框在训练阶段利用二元交叉熵损失进行目标类别预测。

优选的，上述空洞卷积为卷积层引入新参数扩张率，所述参数定义了卷积核处理数据时各值的间距

假设原始特征为feat0，首先使用扩张率为1的空洞卷积生成feat1，feat1上一点相对feat0感受野为3*3；接着使用扩张率为2的空洞卷积处理feat1生成feat2，使第一次空洞卷积的卷积核大小等于第二次空洞卷积的一个像素点的感受野，feat1上一个点综合了feat0上3*3区域的信息，则生成的feat2感受野为7*7；第三次处理同上，第二次空洞卷积的整个卷积核大小等于第三次空洞卷积的一个像素点的感受野，feat2上每个点综合了feat0上7*7的信息，则采用扩张率为3的空洞卷积，生成的feat3每一个点感受野为15*15。

优选的，上述正负样本平衡的方式为通过在原有的基础上加了一个惩罚因子，使得减少易分类样本的损失，更关注于困难的、错分的样本，同时加入平衡因子，降低负样本数目，用来平衡正负样本本身的比例不均。

优选的，上述正负样本平衡的方式定义为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，p_t为概率，(1-p_t)^γ为调制系数，α_t为超参数；

当一个样本被分错的时候，p_t较小，因此调制系数就趋于1，即原来的损失是没有什么大的改变的；

当p_t趋于1时，调制系数趋于0，即对于总的损失贡献很小；

当γ＝0的时候，正负样本平衡的方式即为传统的交叉熵损失，当γ增加的时候，调制系数也会增加。

一种实现如上述无人机平台多尺度目标检测方法的装置，包括：

聚类模块，用于使用无监督学习对训练集的目标框进行聚类，引入空洞卷积，通过网络对多尺度目标特征进行提取，加入正负样本平衡的方式；

训练模块，用于加入图像扰动、随机裁剪、翻转、mixup以及其他图像增强技术，使用正则化方法，进一步优化网络结构；

后处理模块，用于使用soft-NMS替换NMS，解决目标检测中的物体重叠难以预测，分类分数与IoU不匹配的问题；引入注意力机制，对通道间的依赖关系进行建模，自适应调整各通道的特征响应值。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现上述方法的步骤。

相对于现有技术，本发明具有以下优势：

1、本发明基于YOLOV3算法进行改进，可以满足本案的多尺度、实时性高、精度高的要求；

2、为进一步适应多尺度目标的特征提取需求，本发明使用空洞卷积或者金字塔卷积代替YOLOV3中的传统卷积技术，实现在多个尺度上进行目标预测；

3、本发明在模型训练阶段引入图像增强技术和正则化方法提升算法和网络结构的模型泛化性能和鲁棒性；

4、本发明处理阶段使用soft-NMS替换原算法的NMS，解决目标检测中的物体重叠难以预测，分类分数与IoU不匹配等问题；

5、本发明在精度与速度方面达到了良好的均衡，将定位和分类都视为回归问题，仅通过一次回归就可以检测出目标，在一块泰坦显卡上，FPS可达45；在COCO测试集上，mAP可达到57.9。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了Darknet53网络结构示意图；

图2示出了YOLOV3整体网络结构示意图；

图3示出了锚框预测示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明提供一种无人机平台多尺度目标检测方法的实施例，使用无监督学习对训练集的目标框进行聚类，引入空洞卷积，通过网络对多尺度目标特征进行提取，加入正负样本平衡的方式；

在一些实施例中，为进一步适应多尺度目标的特征提取需求，该算法使用空洞卷积或者金字塔卷积代替YOLOV3中的传统卷积技术，实现在多个尺度上进行目标预测；同时在模型训练阶段引入图像增强技术和正则化方法提升算法和网络结构的模型泛化性能和鲁棒性；处理阶段使用soft-NMS替换原算法的NMS，解决目标检测中的物体重叠难以预测，分类分数与IoU不匹配等问题。该算法在精度与速度方面达到了良好的均衡，将定位和分类都视为回归问题，仅通过一次回归就可以检测出目标，在一块泰坦显卡上，FPS可达45；在COCO测试集上，mAP可达到57.9。

在一些实施例中，空洞卷积为卷积层引入扩张率参数，所述参数定义了卷积核处理数据时各值的间距。

在一些实施例中特征提取网络，多次使用了残差结构，不使用池化层和全连接层，而是利用步长为2的卷积层替换池化层进行下采样。残差结构保证了网络在深层结构下依然能够收敛，而深层结构则有助于提升目标特性提取效果以及分类的准确性。算法具体网络结构如图1所示，以输入尺寸为416*416为例，预测的三个特征层大小分别是52、26、13。

本实施例中多尺度预测机制FPN，算法整体网络结构如图2所示。在一些实施例中，使用无监督学习算法k-means对训练集的目标框进行聚类，使用IOU作为距离函数，锚框的个数设计为3个，每个目标框返回5个参数，分别是位置坐标、目标框大小以及置信度评分偏移量：t_x、t_y、t_w、t_h、t_o；

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)×IOU(b，object)＝σ(t_o)

算法选择锚框初始个数为9个，平均分配到3种尺度进行目标检测，每种尺度预测3个box。以输入尺寸为416×416为例，最终输出的特征图大小分别为13×13、26×26、52×52，深度为3×(5+80)＝255，其中3为box个数，5为4个位置参数和一个置信度分数，80为预测类别的数量。由于每个网格预测3个预测框，每个预测框需要有左上角点位置坐标，目标框宽高及置信度评分5个基本参数，预测80个类别的概率，所以输出向量的深度为3×(5+80)共255维。算法网络会生成3×(52×52+26×26+13×13)共10647个box。

算法使用逻辑回归判定每个边界框的目标评分，如果预测框与真值框重叠超过任何其他预测框或者预测框与真值框重叠超过某一阈值，则设置其目标评分1，根据目标评分结果选择对应的预测框在训练阶段利用二元交叉熵损失进行目标类别预测。

算法采用FPN结构，具备多尺度目标检测的能力，能够将高层特征与浅层特征进行融合，使得网络有效地利用上下文信息，既保留了高层的丰富语义也保留了浅层丰富的位置信息，提升了小目标的检测效果，使得检测结果更具鲁棒性，达到可以同时对多尺度目标进行检测的效果。。

在一些实施例中，正负样本平衡的方式为FocalLoss，在交叉熵损失函数上进行修改。

在一些实施例中，训练阶段，加入图像扰动、随机裁剪、翻转、mixup以及其他图像增强技术。

在一些实施例中，无监督学习算法k-means选择锚框初始个数为9个，平均分配到3种尺度进行目标检测，每种尺度预测3个box。

在一些实施例中，无监督学习算法k-means使用逻辑回归判定每个边界框的目标评分，如果预测框与真值框重叠超过任何其他预测框或者预测框与真值框重叠超过某一阈值，则设置其目标评分1，根据目标评分结果选择对应的预测框在训练阶段利用二元交叉熵损失进行目标类别预测。

在一些实施例中，空洞卷积为卷积层引入新参数扩张率，所述参数定义了卷积核处理数据时各值的间距

在一些实施例中，正负样本平衡的方式为通过在原有的基础上加了一个惩罚因子，使得减少易分类样本的损失，更关注于困难的、错分的样本，同时加入平衡因子，降低负样本数目，用来平衡正负样本本身的比例不均。

在一些实施例中，正负样本平衡的方式定义为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，p_t为概率，(1-p_t)^γ为调制系数，α_t为超参数；

当p_t趋于1时，调制系数趋于0，即对于总的损失贡献很小；

当γ＝0的时候，正负样本平衡的方式即为传统的交叉熵损失，当γ增加的时候，调制系数也会增加。本质上就是用一个合适的函数去度量难分类和易分类样本对总的损失的贡献程度。实验表明，α_t为0.25，γ为2时，可以取得最好的效果。

在一些实施例中，在训练阶段，加入图像扰动、随机裁剪、翻转、mixup等图像增强技术来提升算法的模型泛化性能和鲁棒性；使用DropBlock正则化方法，进一步优化网络结构，提升网络的泛化能力与鲁棒性。针对卷积层的DropBlack在ImageNet分类任务上，可使Resnet-50的精度提升1.6％。传统的Dropout方法在整幅特征图上随机丢弃元素，而DropBlack则按块丢弃，可以看做是一种结构化、二维的Dropout，更能有效丢弃局部语义信息，激励网络学到更加鲁棒有效的特征。

在一些实施例中，在后处理阶段，使用soft-NMS替换原算法的NMS，解决目标检测中的物体重叠难以预测，分类分数与IoU不匹配的问题，提升算法的模型性能。soft-NMS是物体检测流程中重要的组成部分，首先按照得分从高到低对建议框进行排序，然后分数最高的检测框被选中，其他框与被选中建议框有明显重叠的框被抑制。该过程被不断递归的应用于其余检测框。传统的非极大值抑制算法首先在被检测图片中产生一系列的检测框B以及对应的分数S。当选中最大分数的检测框M时，该框从集合B中移出并放入最终检测结果集合D。与此同时，集合B中与检测框M的重叠部分大于重叠阈值的检测框也将移除。如果一个物体在另一个物体重叠区域出现，即当两个目标框接近时，分数更低的框就会因为与之重叠面积过大而被删掉，从而导致对该物体的检测失败并降低了算法的平均检测率。而soft-NMS不直接将集合B中与检测框M的重叠部分大于重叠阈值的检测框移除，而是置一个稍微小一点的分数代替原来的分数，再重复与NMS一样的操作，以提高重叠物体检测得检测率。

在一些实施例中，引入注意力机制。在原Yolov3算法中，经过一系列卷积后得到的特征图，认为该特征图中的每一个通道都同等重要，但实际上每个通道的重要性并不一样，也就意味着每隔通道其实还需要一个重要性权值，根据该权值加权以后得到的特征图才能提升网络的特征提取能力。

本实施例采用的注意力机制为SENet,该网络对通道间的依赖关系进行建模，可以自适应的调整各通道的特征响应值。如果将SENet添加到网络中，只会增加很小的计算消耗，但却可以极大地提升网络性能。SENet的核心部分为Sequeeze、Excitation、特征重标定。Sequeeze对特征图C*H*W进行global average pooling，得到1*1*C大小的特征图，这个特征图可以理解为具有全局感受野。Excitation使用一个全连接神经网络，对Sequeeze之后的结果做一个非线性变换。特征重标定则使用Excitation得到的结果作为权重，乘到输入特征上。经过上述操作，可获得特征图中不通道的不同权重，可以使网络更“注意”有价值的通道。将SENet嵌入到原Yolov3的主干网络中，可进一步提升网络的性能。

本发明还提供一种实现如上述无人机平台多尺度目标检测方法的装置的实施例，包括：

本发明还提供一种计算机可读存储介质的实施例，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明还提供一种计算机程序产品的实施例，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明具有以下优势：

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种无人机平台多尺度目标检测方法，其特征在于所述方法使用无监督学习对训练集的目标框进行聚类，引入空洞卷积，通过网络对多尺度目标特征进行提取，加入正负样本平衡的方式；

2.根据权利要求1所述的无人机平台多尺度目标检测方法，其特征在于，所述方法使用无监督学习算法k-means对训练集的目标框进行聚类，使用IOU作为距离函数，锚框的个数设计为3个，每个目标框返回5个参数，分别是位置坐标、目标框大小以及置信度评分偏移量：t_x、t_y、t_w、t_h、t_o；

假设网格左上角位置坐标为(C_x,C_y)，锚框的宽高为(P_w,P_h)，则目标框的位置和置信度评分的预测结果如下:

3.根据权利要求1所述的无人机平台多尺度目标检测方法，其特征在于，所述空洞卷积为卷积层引入扩张率参数，所述参数定义了卷积核处理数据时各值的间距。

4.根据权利要求1所述的无人机平台多尺度目标检测方法，其特征在于，所述正负样本平衡的方式为FocalLoss，在交叉熵损失函数上进行修改。

5.根据权利要求1所述的无人机平台多尺度目标检测方法，其特征在于，所述训练阶段，加入图像扰动、随机裁剪、翻转、mixup以及其他图像增强技术。

6.根据权利要求2所述的无人机平台多尺度目标检测方法，其特征在于，所述无监督学习算法k-means选择锚框初始个数为9个，平均分配到3种尺度进行目标检测，每种尺度预测3个box。

7.根据权利要求6所述的无人机平台多尺度目标检测方法，其特征在于，所述无监督学习算法k-means使用逻辑回归判定每个边界框的目标评分，如果预测框与真值框重叠超过任何其他预测框或者预测框与真值框重叠超过某一阈值，则设置其目标评分1，根据目标评分结果选择对应的预测框在训练阶段利用二元交叉熵损失进行目标类别预测。

8.根据权利要求1所述的无人机平台多尺度目标检测方法，其特征在于，所述空洞卷积为卷积层引入新参数扩张率，所述参数定义了卷积核处理数据时各值的间距

9.根据权利要求1所述的无人机平台多尺度目标检测方法，其特征在于，所述正负样本平衡的方式为通过在原有的基础上加了一个惩罚因子，使得减少易分类样本的损失，更关注于困难的、错分的样本，同时加入平衡因子，降低负样本数目，用来平衡正负样本本身的比例不均。

10.根据权利要求1或9所述的无人机平台多尺度目标检测方法，其特征在于，所述正负样本平衡的方式定义为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，p_t为概率，(1-p_t)^γ为调制系数，α_t为超参数；

当p_t趋于1时，调制系数趋于0，即对于总的损失贡献很小；

11.一种实现如权利要求1-10所述无人机平台多尺度目标检测方法的装置，包括：

12.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-10任一项所述方法的步骤。