CN112085164A

CN112085164A - 一种基于无锚框网络的区域推荐网络提取方法

Info

Publication number: CN112085164A
Application number: CN202010904907.6A
Authority: CN
Inventors: 杭丽君; 熊攀; 丁明旭; 何远彬; 沈磊; 曾平良
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-12-15

Abstract

本发明公开了基于无锚框网络的区域推荐网络提取方法，利用FCOS网络来为双阶段网络做区域推荐网络，利用FCOS的分类网络来区分网络提取到的预选框为正例还是负例，并且从为正例与负例的预选框中选择出一部分作为下一阶段的训练框，正例与负例的数量应保持一致，保证正负样本的平衡。在下一个阶段的回归中对筛选出来的正例做出具体的分类，并且网络在预选框的基础上做回归，得到最终的预测框。

Description

一种基于无锚框网络的区域推荐网络提取方法

技术领域

本发明属于目标监测网络领域，涉及一种基于无锚框网络的区域推荐网络提取方法。

背景技术

近年来深度学习技术的迅速发展和机器学习技术的成熟使得计算机视觉领域的许多问题都取得了突破性的进展，并且深刻地改变着人们的生活。目标检测问题是被广泛讨论的一个问题，其应用面非常广泛，在无人驾驶，监控录像等方面发挥着重要的作用，以往的目标检测网络主要分成双阶段和单阶段的网络，单阶段的网络推理速度较快，而精度较低，双阶段的网络推理速度慢而精度较高，目前目标检测技术的准确度与速度还并未达到能够满足人们需求的地步，算法依然有很大的改进余地。目前目标检测的过程一般分为特征提取，特征处理，预选区域的产生，分类与回归以及最终对预测框地筛选，其中预选区域的产生依然存在着很大的改良空间。以往预选区域的产生有几种方式，从最初的使用无监督学习到后来训练另一个检测网络作为区域提取网络。近几年涌现了许多无锚框的目标检测网络，相比从前主流的有锚框检测网络，无锚框的检测网络的优势在于不用调整锚框的参数，二阶段网络的区域提取网络一方面需要找到含有目标的预选框，另一方面需要对选择出来的预选框进行分类，区分其中是否有需要检测的目标，这种需求利用无锚框的检测网络正好能够满足，因此利用无锚框的网络作为双阶段网络的区域推荐网络非常合适。基于以上理由，利用FCOS作为区域推荐网络能够有效地提高网络的精度。

发明内容

为解决上述问题，本发明的技术方案为一种基于无锚框网络的区域推荐网络提取方法，包括以下步骤：

S10，数据预处理：对目标检测网络的输入数据进行数据清理、数据集成、数据规约和数据变换；

S20，特征提取：特征提取网络包括由卷积神经网络，对于目标检测采用ResNet神经网络，ResNet神经网络最终输出为使用金字塔特征将ResNet中卷积步长为8，16，32，64，128的特征做组合，作为目标检测网络的特征图；

S30，选取锚框：将上述步骤得到的特征传入到无锚框的预测网络，预测网络在特征图的每一个位置产生分类得分以及回归得分，分类得分即特征点对应感受野大小映射回原图中与特征点对应位置处含有某类检测目标的概率，而回归得分则用于产生预测框；

S40，上一步骤中预测网络为一个不用锚框即可进行预测的网络，而本步骤的网络进行预测框的预测时依靠锚框作为其回归起点，通过锚框得到预选框，在S30中得到锚框之后输入到下一个预测网络，在这个网络中利用特征图对每一个位置得到分类得分以及回归得分；

S50，对图片进行前向传递之后，对其进行反向传播让网络学习到有效参数，网络的损失函数定义为无锚框的预测网络与有锚框的预测网络的分类损失与回归损失之和，分类损失函数记为Focal loss，无锚框的预测网络的回归损失为IOU loss，有锚框的预测网络的回归损失为L1 loss。

优选地，所述选取锚框包括以下步骤：

将特征点的位置作为预测框中的一个点，分类得分为一个H*W*C的张量，其中H为当前特征图的高度，W为当前特征图的宽度，C为分类的类别数，其中最后一个类别为背景类，将分类输出中C维度中最高的得分作为当前特征点的分类类别，若分类类别为背景，则将其设定为负例；预测得分则代表该点与预测框的四条边的距离，之后从特征点的位置与特征点与预测框距离得到预测框的左上角点与右下角点的坐标；

将预测得到的预测框作为下一个阶段的锚框，按照分类得分对所有锚框进行排序，同一类的锚框放在一起，从中选取128个作为正样本，再从负例中选取128个作为负样本，将这256个样本送入到下一个预测网络中。

优选地，所述通过锚框得到预选框包括以下步骤：

回归得分与对应位置的特征相乘后得到锚框与预测框之间的偏移量，分别是位置的偏移量以及尺寸的偏移量，预测的输出即为预测框；

预测框的数量可达一万以上，这些预测框并不会作为网络最终的预测框，而是再通过非极大值抑制之后再将其输出。

本发明的有益效果如下：本发明针对双阶段的目标检测问题，提出了利用无锚框的预测网络来为有锚框的预测网络提供锚框作为预选框，提高了网络最终的检测精度。

附图说明

图1为本发明方法具体实施例的基于无锚框网络的区域推荐网络提取方法的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参见图1，为本发明实施例的基于无锚框网络的区域推荐网络提取方法的步骤流程图，包括以下步骤：

具体实施例中，S10，首先将标注的类别进行扩充，加入背景类，之后将图片输入到特征提取网络，将卷积步长为8，16，32的特征进行特征组合，组成金字塔特征。这些特征首先经过1x1的卷积改变特征的通道数，将所有特征的通道数都改变为256维，步长为32的特征全部进行保留，一方面对其进行上采样，一方面对其进行下采样，下采样的结果作为卷积为64的特征，对卷积步长4的特征再次进行下采样，得到步长为128的特征。卷积步长为32的特征进行上采样的结果在长采样之后特征图的尺寸变为两倍，与卷积步长为16的特征进行叠加，卷积步长为16的特征也进行上采样，与卷积步长为8的特征进行叠加。最终将这5层特征组合到一起作为一张图片的特征；

S20、S30，将这些特征输入到无锚框的检测网络与有锚框的检测网络，特征图进入无锚框的检测网络之后，检测网络分为两个分支，分类分支以及回归分支，在分类分支中对输入的特征进行卷积操作，卷积的输出是一个H×W×C的张量，其中H为特征图的高度，W为特征图的宽度，C为分类的类别数，这个张量内的元素为不同位置的特征点的不同类别的分类得分，从这些得分中选择得分最高的那个作为该位置的分类结果。而在回归分支中同样会对输入的特征进行卷积，卷积的输出为HxWx4的张量，代表每一个位置的特征点上距离其对应预测框的四条边的距离。根据分类得分筛选为正例的特征点，将分类类别不为背景的作为正例，分类类别为背景的作为负例，从正例与负例中个选取128个，将其对应的预测框作为下一个阶段的锚框。值得一提的是，无锚框的网络需要进行预训练，否则将无法得到比较好的分类与回归结果。

S40，将提取到的特征输入到有锚框的预测网络，有锚框的预测网络也包含两个分支，分别是分类分支与回归分支，分类分支中将输入的特征利用卷积变成尺寸为H×W×C的张量，其中H为特征图的高度，W为特征图的宽度，C为分类的类别数，这个张量内的元素为不同位置的特征点的不同类别的分类得分，从这些得分中选择得分最高的那个作为该位置的分类结果。回归分支也同样会对输入的特征进行卷积操作，其输出张量为HxWx4的张量，代表锚框与预测框之间的位置差与尺寸差。根据公式

G_X＝A_w·d_x(A)+A_x

G_y＝A_h·d_y(A)+A_y

G_w＝A_w·exp(d_w(A))

G_h＝A_h·exp(d_h(A))

得到预测框的位置与大小，其中(G_x，G_y，G_w，G_h)为预测框的位置以及大小，(A_x，A_y，A_w，A_h)为锚框的位置以及大小，(d_x(A)，d_y(A)，d_w(A)，d_h(A))为预选框与预测框的偏移量；

S50，在得到预测框后，对于网络的训练阶段与预测阶段会有计算损失与进行后处理(NMS)两种操作。在训练阶段，计算损失之后对网络进行反向传播使得网络参数更新，让网络拥有更好的性能。在测试阶段则不计算损失，只有前向传递的过程，网络最后的阶段是对所有的预测框做NMS操作，即将所有预测框按照分类得分从高到低进行排序，选择得分最高的框，设定阈值为0.5，这个阈值为一个需要调整的参数，具体如何选择依问题不同而不同，若其他框与最高得分框的交并比高于阈值，则将那些框筛除，重复以上过程直到没有了可以被筛除的框为止，将那些预测框作为最终的预测框。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于无锚框网络的区域推荐网络提取方法，其特征在于，包括以下步骤：

S50，对图片进行前向传递之后，对其进行反向传播让网络学习到有效参数，网络的损失函数定义为无锚框的预测网络与有锚框的预测网络的分类损失与回归损失之和，分类损失函数记为Focalloss，无锚框的预测网络的回归损失为IOUloss，有锚框的预测网络的回归损失为L1 loss。

2.根据权利要求1所述的方法，其特征在于，所述选取锚框包括以下步骤：

3.根据权利要求1所述的方法，其特征在于，所述通过锚框得到预选框包括以下步骤：