CN112508168B

CN112508168B - 基于预测框自动修正的边框回归神经网络构建方法

Info

Publication number: CN112508168B
Application number: CN202011023567.2A
Authority: CN
Inventors: 刘晋; 李怡瑶; 高珍喻
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2023-09-22
Anticipated expiration: 2040-09-25
Also published as: CN112508168A

Abstract

本发明披露一种基于预测框自动修正的边框回归神经网络构建方法。该方法由一种基于相对熵损失函数的具有定位置信度的检测网络和一种改进的基于置信估计的定位精度方法组成。为解决目标定位不精确的问题，本发明提出一种新的基于相对熵的边框回归损失函数，不仅学习边框回归，同时定位学习不确定性；同时本发明结合概率分布引入方差投票机制，利用对相邻位置的预测方差加权，来对候选框的位置进行投票，从而得到定位更加准确的边框。本发明提供的方法网络适配性强、鲁棒性强，可结合多种目标检测神经网络使用以提高检测精度。通过将该方法在知名数据集上的进行实验，实验结果表明该方法的检测准确度高达0.402，优于多数已有方法，证明了其有效性。

Description

基于预测框自动修正的边框回归神经网络构建方法

技术领域

本发明属于数字图像处理及深度学习领域，特别涉及在检测网络生成的目标预测框不准确的情况下对边框回归优化方法，具体涉及一种基于预测框自动修正的边框回归神经网络构建方法。

背景技术

几十年来，非极大值抑制(NMS)一直是计算机视觉的重要组成部分，广泛应用于边缘检测、特征点检测和目标检测。当下的目标检测算法，大多使用anchor机制或者滑窗机制对同一位置生成多种尺度的anchor，这样产生的检测结果有很大的冗余。所以需要加入NMS来对冗余的框进行处理。

除了传统的NMS算法之外，近期又有研究者提出了Soft-NMS算法和Learning-NMS算法。传统的NMS算法与Soft-NMS算法如算法1所示。

传统NMS算法保留得分最高的框，同时将与该框的IoU大于阈值N_t的框全部删除，这种做法存在着以下几种问题：(1)当两个物体重叠时，这样的处理方法会丢失其中一个物体的预测框。(2)定位置信度与分类置信度并不是强相关关系，得到的所有预测框中，存在一定程度上不精准的框。为了解决这些问题，Soft-NMS利用线性插值或者高斯法对置信分数非极大值的框进行处理，代替原本的直接置0的操作，将这些框的置信度降低，其中线性法如下式所示：

高斯法如下式所示：

Learning NMS算法提出了一种新的神经网络，用预测框和它们的置信分数来执行NMS。除了对NMS算法的优化以外，也有一些研究人员着眼于对边界框的优化。MR-CNN在迭代定位的过程中对边界框进行合并，Relation Network提出学习边界框之间的关系。IoU-Net提出学习预测边界框和ground-truth边界框之间的IoU，然后根据学到的IoU对预测框进行IoU-NMS。与IoU-Net不同，本文提出的基于相对熵的相对熵损失函数(Kullback–Leiblerloss，KL loss)从概率的角度来学习局部化方差，能够学习预测边界框的四个坐标的方差，而不是仅仅学习IoU。

目标检测的最终目的是要准确定位图像中目标的位置并且生成分类结果，为了达到更好的定位效果，边框回归是必不可少的步骤。边框回归指的是目标检测过程中对产生的候选框以标注好的真实框为目标进行逼近的过程。由于一幅图像上目标的边框可以由中心点坐标(x_c,x_c)和宽W高H唯一确定，所以这种逼近的过程可以建模为回归问题。传统的边框回归损失有smooth L1 loss，计算方式如下式所示。

smooth L1 loss能从两个方面限制梯度：(1)当预测框与ground truth差别过大时，梯度值不至于过大；(2)当预测框与ground truth差别很小时，梯度值足够小，因此可以避免梯度爆炸的问题，达到一个较好的训练效果。但是，smooth L1 loss只限定了梯度，并没有将边界框的不确定性考虑进去。而现实场景图像上的目标可能会存在互相遮挡的情况，这就会导致边框不确定。除此之外，目标的分类结果依赖于分类器得到的置信分数，当分类分数很高的情况下，边框回归都被假定是准确的，但事实并不总是这样。这更说明了边框回归存在不准确的情况。

发明内容

为了解决以上问题，提供一种基于预测框自动修正的边框回归神经网络构建方法，是一种更加精确地、适配于各个网络结构，通过预测框自动修正使目标定位更加精确的神经网络优化方法。

本发明提出一种新的基于相对熵的边框回归损失函数(KL Loss),不仅学习边框回归，同时学习定位不确定性，捕捉了数据集中原本存在的边框模糊问题，因此边框回归器可以从不确定的边界框中计算出更小的损失；同时本发明结合概率分布引入方差投票机制(Var Voting)，利用对相邻位置的预测方差加权，来对候选框的位置进行投票，从而得到定位更加准确的边框。本发明提出的于预测框自动修正的边框回归神经网络构建方法，具有回归定位准确、模型结构适配性强、鲁棒性强、模型轻量化等优点。

为了达到上述目的，本发明基于预测框自动修正的边框回归神经网络构建方法通过以下技术方案实现：

一种基于预测框自动修正的边框回归神经网络构建方法，其特征包括以下步骤：

步骤1：将边界框参数化，本发明将边界框定义为一个四维向量，(x₁,y₁,x₂,y₂)∈R⁴，其中每个维度都含有边界框的定位信息，参数化方式如下：

其中，为预测偏移量，/>为ground-truth偏移量，ground-truth为监督学习的训练集上所标注的框；y_1a，y_2a，w_a,h_a代表anchor的坐标，anchor为所关注区域的感受野。

步骤2：因各个坐标可独立优化，故将边界框各坐标x_i简写为为x，本发明提出的边框回归网络预测的是一个概率分布，而不仅仅是边界框的位置，尽管坐标的分布复杂，像多元高斯或混合高斯，但为了表述方便，本发明假设坐标是独立分布的，并用一元高斯来简化问题，则预测框以及对应的ground truth边界框位置的概率分布可表示为：

其中，θ表示可学习参数的集合。x_e是待估计的边界框位置。标准偏差σ表示估计的不确定性。当σ→0时，代表了网络的估计值非常接近真实值。标准偏差σ是通过骨干网络的头部的全连接网络层产生。

步骤3：计算ground truth边界框在目标图片中的瞬时密度分布，计算方法用改进的狄拉克函数：

P_D(x)＝δ(x-x_g)

其中，x_g表示ground truth边界框的位置，狄克拉函数是为了在数学上理想地表述出集中在空间某一点或者某一瞬间的密度分布，引入δ函数的概念，所引入的δ函数数学表示形式如下。

δ_a(x)＝δ(x-a)＝0,(x≠a)

步骤4：为了使预测框更接近ground truth边界框，即最小化两者分布的KL散度作为边界框回归的损失函数，即：

其中，相对熵的计算方法为：

当位置x_e未被估计准确时，期望网络能够预测一个更大的方差σ²，使L_reg可以减小，H(P_D(x))为某字符集的熵，其计算方法为：

而和H(P_D(x))不依赖于估计值，因此：

当σ＝1时，KL Loss会生成标准的欧几里得损失：

该损失可以对位置估计x_e和位置标准差进行微分:

然而，因为σ在分母上，在训练初期有时会出现梯度爆炸的情况。为了避免梯度爆炸,本文的网络实际中预测的是α＝logσ²,而不是σ:

在测试中将α换回了σ。对于|x_g-x_e|>1的情况，本文采用一种和smooth L1损失类似的定义：

步骤5：将以上得到的损失函数替代所选用的目标检测神经网络中原始的损失函数，并通过网络训练得到一定数量的预测框。

步骤6：除了将KL Loss考虑进边框回归的损失中之外，本发明引入了方差投票机制，具体步骤如算法2所示。首先依照传统NMS或者Soft-NMS的算法，对预测框进行筛选，选出得分最大的检测框。这里的最大得分令为b。对于IoU大于阈值的边框，可以通过学习到的4个坐标值的方差，来对原坐标加权以调整原本的坐标位置：受到soft-NMS的启发，本算法分配更高的权重给那些接近的且有更少不确定性的框，新的边框坐标计算如下：

其中，σ_t是方差投票中可调的参数。两种类型的相邻边界框会得到更低的权重：(1)有大方差的框，(2)和候选框的IoU小的框。类别得分在投票中不被考虑，因为更低得分的框可能有更高的定位准确度。因此，本算法不再依赖于分类的置信分数，而是考虑了边框的概率分布，能够得到定位更准确的边框。

附图说明

图1为本发明的基于预测框自动修正的边框回归神经网络构建方法的实施流程图

图2为本发明的基于预测框自动修正的边框回归神经网络构建方法结合基础网络MASK R-CNN的流程图

图3为本发明的基于预测框自动修正的边框回归神经网络构建方法结合基础网络MASK R-CNN的效果图

具体实施方式

下面结合附图及具体实施方式对本发明作进一步地详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本方面的范围。

本发明提供的一种基于预测框自动修正的边框回归神经网络构建方法的整体实施流程如图1所示，具体说明如下：

本实施例中的数据集是COCO2017。COCO2017数据集是一个大型的、丰富的物体检测，分割和字幕数据集。这个数据集以场景理解为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的分割进行位置的标定。图像包括91类目标，328,000影像和2,500,000个标签。

本实施例中，基于预测框自动修正的边框回归神经网络的构建方法的实现平台为一台计算机，操作系统为Windows 10，深度学习架构为Pytorch、Detectron2，图形处理库使用opencv 4.1.0，图像加速单元使用GeForce GTX 1060GPU。

本发明提供的一种基于预测框自动修正的边框回归神经网络构建方法通用的网络架构，本实施例中所采用的基础网络架构为MASK R-CNN，将本发明提出的KL Loss替代原来的损失函数，并在NMS模块后，加入本发明提出的基于方差投票机制的预测框调整策略，从而得到更加精确的目标检测结果，基于本发明改进后的MASK R-CNN流程图如图2所示。

本实施例中，在网络中采用如下参数化方式将边界框定义为一个四维向量，(x₁,y₁,x₂,y₂)∈R⁴：

其中，为预测偏移量，/>为ground truth偏移量，y_1a，y_2a，w_a,h_a代表anchor的坐标。

其次，对预测框以及对应的ground truth边界框位置的概率分布用一元高斯分布简化表示：

其中，θ表示可学习参数的集合。x_e是待估计的边界框位置。标准偏差σ表示估计的不确定性。

再次，用狄拉克函数对ground truth边界框在目标图片中的瞬时密度分布：

P_D(x)＝δ(x-x_g)

其中，x_g表示ground truth边界框的位置，δ函数数学表示形式为：

δ_a(x)＝δ(x-a)＝0,(x≠a)

经过以上两步抽象化表述后，本实例实际操作在COCO2017提供的数据集的基础上经过随机水平翻转的数据增强方式构建大量的训练集，作为本实例神经网络训练的基础。为便于操作本实例中将图像尺寸统一为800像素。

为了让预测边界框更接近ground truth边界框，最小化两者的KL散度作为边界框回归的损失函数，即：

使用KL散度作为边界框回归的损失函数，其中，KL散度的计算方法为：

为了避免梯度爆炸,本实例的网络实际中预测的是α＝logσ²,而不是σ:

在测试中将α换回了σ。对于|x_g-x_e|>1的情况，本实例采用一种和Smooth L1损失类似的定义：

本发明使用随机高斯初始化来初始化用于预测α的全连接层的权重。标准差和平均值分别设置为0.0001和0，使KL Loss和标准的smooth L1损失在训练初期相似。

将以上损失函数替代本实例中MASK R-CNN的目标检测神经网络中的损失函数，通过网络训练最终得到500个的预测框输入NMS，在NMS模块中，采用本发明提出的基于预测框修正的方法，计算新的边框坐标，计算方法为：

其中，σ_t是方差投票中可调的参数。根据所得的各个坐标画出最终的边框，并输出结果。

为验证本发明的有效性，将本实例中的模型所得的结果与其他模型的各项评估指标对比如表1所示，从表中可以看出，加入了KL Loss和方差投票机制的MASK R-CNN网络比其他方法拥有更高的检测精度。

表1结合本发明的Fast R-CNN模型与其他一些模型检测精度的对比

本实例在MASK R-CNN上实验效果如图3所示，A，B为选取的两个示例，图中阴影部分以及对应的框为所检测出的目标的标准。经实验，本发明提出的基于预测框自动修正的边框回归神经网络检测精确度大大提高。

本领域普通技术人员可以理解，上述说明书提供了大量的实施细节。当然，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法，结构和技术，以便不模糊对本说明书的理解。

Claims

1.一种基于预测框自动修正的边框回归神经网络构建方法，其特征包含以下步骤：

步骤1：将边界框参数化，将边界框定义为一个四维向量，(x₁,y₁,x₂,y₂)∈R⁴，参数化方式如下：

其中，为预测偏移量，/>为ground truth偏移量；y_1a，y_2a，x_1a,x_2a代表anchor的坐标；w_a,h_a为anchor的宽和高；/>代表groundtruth的坐标；

步骤2：边界框各坐标x_i简写为为x，利用高斯分布计算预测框位置的概率分布，其计算公式为：

其中，θ表示可学习参数的集合；x_e是待估计的边界框位置，σ为标准偏差；

P_D(x)＝δ(x-x_g)

其中，x_g表示ground truth边界框的位置，所引入的δ函数数学表示形式为：

δ_a(x)＝δ(x-a)＝0,(x≠a)

步骤4：最小化预测框与ground truth边界框之间损失函数，即：

其中，相对熵作为边界框回归的损失函数用L_reg表示，计算方法为：

步骤5：将以上得到的损失函数替代目标检测神经网络中原始的损失函数，训练网络生成一定数量的预测框；

步骤6：利用方差投票机制对个别预测框加以调整，计算出新的更加准确的预测框边框的坐标，计算方法如下：

其中，σ_t是方差投票中可调的参数，根据所得坐标画出预测框并输出结果。