CN111008656B

CN111008656B - 一种基于预测框误差多阶段回环处理的目标检测方法

Info

Publication number: CN111008656B
Application number: CN201911196318.0A
Authority: CN
Inventors: 惠国保; 李亚锋; 张倩; 孟创纪; 郭储冰
Original assignee: CETC 20 Research Institute
Current assignee: CETC 20 Research Institute
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-12-13
Anticipated expiration: 2039-11-29
Also published as: CN111008656A

Abstract

本发明提供了一种基于预测框误差多阶段回环处理的目标检测方法，通过对中间层和双胞层所产生损失的反向传播，调整感兴趣区域，对预测框回环处理，获得更加鲁棒的特征，从而得到准确的预测边框，提高了候选边框的质量，有助于改善目标识别边框定位准确性。通过边框位置精调，使得感兴趣区域更加完整恰当地包含目标，以获得更加逼近目标本质的特征，从而提高目标类别判定精度，提高边框标记准确率和目标识别准确率，实现了网络结构统一、简化操作流程及端到端的训练与检测。

Description

一种基于预测框误差多阶段回环处理的目标检测方法

技术领域

本发明涉及目标检测领域，尤其是一种基于区域特征提取的方法。

背景技术

在复杂背景下的各种视角变化下的目标都能快速准确地检测是计算机视觉领域中的一项重要任务。近年来出现了许多具有代表性的目标检测算法，如RCNN、Fast RCNN、Faster RCNN、YOLO、SSD等，它们都是基于感兴趣区域卷积神经网络特征运用于目标预测模型实现的。感兴趣区域(ROI)的选择有很多种方式，RCNN通过选择性搜索(SS)方法获得ROI，Fast RCNN通过空间金字塔池化(SSP)获得ROI，Faster RCNN通过锚框(anchor)获得ROI，YOLO和SSD通过图像上直接划分网络确定ROI。ROI为区域候选框生成提供特征信息，决定候选框和目标预测的质量。

目标预测模型包括目标类别预测和目标边框预测，所有目标检测方法都能提供预测边框能力。最典型的预测框方法是区域候选网络(RPN)，类别和边框预测同时进行。RPN是Faster RCNN所采用的候选边框生成方法，为下游的Fast RCNN检测子提供候选边框。候选框是从预测框中筛选得到的，预测框就是通过边框预测模型得到的。ROI区域实际为预测框生成模型提供特征向量，预测框生成方法也影响着候选框质量。

Faster RCNN的ROI的产生，是由高维图像降维到低维的特征图(feature map)，再将低维特征图上每一特征点都映射原图中，形成锚点；再以锚点为中心按一定尺度和比例画框，就会得到锚框。锚框确定的局部区域就是ROI。

因为最后的卷积特征图是多通道的，通过滑窗、线性整流(ReLU)和池化等处理获得一组多维特征，这一过程称为中间层。所得的多维特征对应于特征图上的一点，就是对应原图中的ROI区域的特征描述。

将多维特征向量(VGG16为512维)输入给RPN的双胞层(边框回归层和边框分类层)，边框回归层可以预测该特征向量对应ROI区域的调整量。利用该调整量来调整对应锚框形状(锚框中心偏移及长宽变化)，就会得到预测框。边框分类层给出预测框的类别，预测原图上对应区域有目标的可能性。预测框类别分可能有目标(前景)和可能没有目标(背景)的二分类，是一个概率值。

得到预测框后，去除背景边框，再去除与GT框重叠度IOU不太大的前景边框，最后剩下的边框作为候选框(proposal)送给下游的fast RCNN检测子处理。

fast RCNN检测子主要包括与RPN共享的卷积网络、ROI池化层、全连接层和双胞层(softmax分类层和边框回归层)等网络层。在Fast RCNN检测子网络中，将前面所得的候选框覆盖在原图中以确定ROI区域，在共享卷积网络最后层特征图上找到ROI的映射区域，形成特征向量，经过全连接层和双胞网络层处理，得到最终的边框。

总之，由局部特征检测识别目标整体，犹如窥斑见豹，其中最为重要的是从特征图提取特征得到准确的预测框。要从预测框拨冗取精，才能提高目标命中率。在过滤掉的大部分预测框中，有些与目标框差之毫厘而被摒弃，而最终有损目标检测精度。获取高价值的预测框至关重要的因素，尽量减少重复架构，使预测框生成误差在整个目标检测中占比最小。

但是，Faster RCNN RPN将生成的预测边框给下游的Fast RCNN检测子使用，将预测框生成和使用分开处理，涉及两套双胞网络层，架构重复，多阶段交替训练，使用误差不能直接反向传播至生成网络；预测框误差只对双胞层网络权重调整，没有传播至中间层，没有通过特征向量误差反向传播以修正中间层网络权重，使得输入给双胞网络层的特征向量不高，误差利用率不高，预测框质量也不高。

发明内容

为了克服现有技术的不足，本发明提供一种基于预测框误差多阶段回环处理的目标检测方法。本发明提供的多阶段损失的预测边框修正方法，本发明主要划分预测框生成、双胞层网络修正、预测框回环处理、中间层网络修正和迭代处理等部分。

本发明解决其技术问题所采用的技术方案包括以下步骤：

1)预测框生成；

首先在共享卷积网络最后层的特征映射图上，采用锚框方法确定ROI的映射特征；ROI的映射特征经过网络中间层获得特征向量，再经过双胞层全连接计算，在边框回归层上得到对应锚框的边框调节量；按边框调节量对锚框作相应调节，得到预测框形状；在边框分类层上得到预测框类别概率值，即得到带有类别概率值的预测框；

边框回归层包含锚框个数的回归权重组，每个权重组产生一个预测框，边框回归层产生一组预测框；

输入边框除了锚框，也包括回环的预测框。

2)双胞层网络修正

首先计算双胞层损失，包括边框回归损失和边框分类损失，边框回归损失和边框分类损失通过比较预测框和GT框的误差得出的，其中预测框是由第1)步得到；

双胞层损失是边框分类损失和边框回归损失的联合损失，按照如下公式计算：

其中i为锚框索引号，每个锚框对应一个预测框，也可用于预测框索引，N_cls表示分类预测框样本的总数，L_cls表示边框分类网络层得到预测框分类的损失，对于每个预测框，都有对应的类别分值pi，p＝(p₀,Λ,p_K)，包括背景类共有K+1个类，p_i是指第i个预测框得到所有的类别的分值，

是指第i预测框对应的真实类别，共有K个真实类别，预测边框分类损失

采用交叉熵方法，N_reg表示边框回归样本的总数，预测边框回归损失

通过计算预测框b_i和GT框

的重合率得到的，采用框与框的差距计算损失，λ为平衡参数；

获得双胞层损失后，通过反向传播调整各自网络权重参数，结合SGD方法端到端反向传播调整网络权重参数；

3)预测框回环处理；

预测框回环的目的是为了得到修正中间网络层的特征向量误差值，预测框回环是将第1)步生成的预测框回环至原图中，得到新的感兴趣区域，通过中间层处理，获得回环预测框的特征向量；

预测框回环前需要对预测框筛选，筛选方法是过滤掉预测框背景类概率值大于全部目标类别概率平均值的预测框，全部类别概率平均值为

K为前景类别数；

筛选后的预测框覆盖在原图上，与GT框比较，得到边框差量，包括中心点的偏移和宽高的差量；在计算差量前，过滤掉与GT框重合比值小的预测框；

利用预测框与GT框的差量调整锚框形状，在共享卷积层最后的特征图上，得到新的感兴趣区域，再将新的感兴趣区域通过中间层处理，获得回环预测框的特征向量；

4)中间层网络修正

首先计算中间层损失，由锚框对应的感兴趣区域得出的特征向量与第3)步得到的特征向量通过相似度计算，得到中间层损失量，两个向量相似度计算方式如下：

其中汉明距离是指两个相同长度的向量序列对应位不同的数量；

由公式(2)得到的汉明距离反向传播调整滑窗权重值，通过滑窗与感兴趣区域的反卷积计算，得到权重的调整量，修正滑窗权重；

5)迭代优化处理；

迭代优化为了不断更新预测模型实现对边框精调，即反复以预测框调整感兴趣区域，获得新的特征向量和新的预测框，每次预测框的生成，伴随着双胞层和中间层的修正，重复迭代，当预测框与GT框的IOU达到终止迭代条件，则终止迭代计算。

所述扩展锚框数量至25个，即尺度有64、128、256、512，1024五种，长宽比1:3、1:2、1:1、2:1、3:1五种，则一次ROI生成25个预测框。

所述迭代终止条件为预测框和GT框的IOU都达到95％时，则终止迭代。

本发明的有益效果是通过对中间层和双胞层所产生损失的反向传播，调整感兴趣区域，对预测框回环处理，获得更加鲁棒的特征，从而得到准确的预测边框，提高了候选边框的质量，有助于改善目标识别边框定位准确性。通过边框位置精调，使得感兴趣区域更加完整恰当地包含目标，以获得更加逼近目标本质的特征。这样的特征为目标属性判别提供更加完备的信息，从而提高目标类别判定精度。使预测边框能回环以改进目标特征提取质量，进而提高边框标记准确率和目标识别准确率。

本发明是对RPN的双胞层网络的扩展和深化，对双胞层边框回归网络层提出预测框多阶段回环处理，统一预测框生成和使用网络；对双胞层边框分类网络层由前后背景扩展为按实际目标类别的多目标分类，去除了后续的fast RCNN的ROI及双胞层重复操作。所以本发明实现了网络结构统一、简化操作流程及端到端的训练与检测。

基于多阶段损失反向传播的区域建议网络训练好后，在检测过程中具有边框自主动态逼近至合理状态的应用效果。

附图说明

图1是本发明提出的多阶段统一网络架构图。

图2是本发明提供的双胞网络层结构示意图。

图3是本发明提供的多阶段损失反向传播流程结构图。

图4是本发明提供的预测框多次筛选过滤精调实施示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明统一预测框生成和使用流程，重建网络结构。本发明在Faster RCNN架构基础上，保留共享卷积层，重构RPN双胞层，去除Fast RCNN检测子，形成一个新的目标检测算法架构。在新的网络架构里，共享卷积网络层被预测框生成和预测框回环处理所共享使用，卷积层后接着中间层，再接双胞层，如图1所示。多阶段统一网络架构图中网络结构包括一个中间层和一个双胞层，双胞层包括边框回归层和边框分类层；中间层是提取特征向量层，包括滑窗层、ReLU层和池化层。

新架构只包含一个双胞层，双胞层由边框回归层和边框分类层构成，如图2所示。双胞网络层结构示意图中可以看到，双胞网络层主要包括边框分类层和边框回归层，两个层的网络各自包括锚框数量的向量组，每个向量维数同特征向量，网络权重向量与特征向量是全连接关系，最后生成的预测框都有对应的锚框。不同于RPN的是，本发明将边框分类层各网络组按目标类别实际划分，而不是原来的前景背景划分。这里以VGG16网络为例示意特征向量维数。边框回归层由四组多维向量组成，得到边框形状调整量；边框分类层由目标实际类别数加1(背景)组多维向量构成，得到边框分类概率。

重构网络后，在训练过程中，预测框误差可以反向传播至双胞层，直接用于调整双胞层权重。所以本发明所提新的网络架构里不分预测框生成网络和使用网络，也不分候选框和预测框。

本发明加入预测框回环机制，修正中间层网络权重。预测框回环至原图，利用其与GT框的误差调整感兴趣区域。在新的感兴趣区域上生成特征向量，与由GT框生成的特征向量比较，得到特征向量误差，以此误差在中间层反向传播，以修正中间层网络权重。

训练过程中，预测框质量好坏主要是看与GT框差距，即看作实际预测对理想情况的一种损失。这种损失是多阶段的，包括双胞层损失和中间层损失。双胞层损失主要包括边框回归和边框分类造成的误差；中间层损失就是滑窗、池化等中间层操作产生的误差，如图3的多阶段损失反向传播流程示意图所示。预测边框与真实(GT)边框会有误差，反向传播至双胞网络层。双胞层损失包括边框回归损失和边框分类损失，两种损失都可以调整各自的网络以实现对网络层的优化，这是第一阶段反向传播。预测框回环处理，是将预测框回环至原图上，结合GT框的变化量调整锚框形状；进而调整感兴趣区域形状，通过中间层处理得到特征向量；再与GT框产生的特征向量比较，得到的特征向量误差；再由随机梯度下降法使误差随网络反向传播到中间层，对中间层进行调整这是第二阶段反向传播。

本发明提出的预测框误差多阶段回环处理方法，是在Faster RCNN算法基础上的网络结构的变化和算法流程的统一。如下步骤可具体实现本发明所提方法，本发明解决其技术问题所采用的技术方案包括以下步骤：

1)预测框生成；

输入边框除了锚框，也包括回环的预测框。

2)双胞层网络修正

其中i为锚框索引号，每个锚框对应一个预测框，所以也可用于预测框索引。N_cls表示分类预测框样本的总数，L_cls表示边框分类网络层得到预测框分类的损失，对于每个预测框，都有对应的类别分值pi，p＝(p₀,Λ,p_K)，包括背景类共有K+1个类，p_i是指第i个预测框得到所有的类别的分值，

计算方法采用交叉熵方法，N_reg表示边框回归样本的总数，预测边框回归损失

通过计算预测框b_i和GT框

的重合率得到的，本发明直接采用框与框的差距计算损失，更能直接地反映实际误差情况。λ为平衡参数，本发明取0.1；

3)预测框回环处理；

预测框回环的目的是为了得到修正中间网络层的特征向量误差值，预测框回环就是将第1步生成的预测框回环至原图中，得到新的感兴趣区域，通过中间层处理，获得回环预测框的特征向量。

预测框回环前需要对预测框筛选。因为第1)步生成的预测框有背景类，需要过滤掉，保留前景目标类概率大的预测框回环；筛选方法是过滤掉预测框背景类概率值大于全部目标类别概率平均值的预测框，全部类别概率平均值为

K为前景类别数。

筛选后的预测框覆盖在原图上，与GT框比较，得到边框差量，包括中心点的偏移和宽高的差量；在计算差量前，过滤掉与GT框重合比值小的预测框，因为它们会导致边框形状差量产生负值的情况。

利用预测框与GT框的差量调整锚框形状，这样在共享卷积层最后的特征图上，会得到新的感兴趣区域。再将新的感兴趣区域通过中间层处理，获得回环预测框的特征向量。

4)中间层网络修正

其中汉明距离是指两个相同长度的向量序列对应位不同的数量。

5)迭代优化处理。

迭代优化就是不断更新预测模型实现对边框精调，即反复以预测框调整感兴趣区域，获得新的特征向量和新的预测框。每次预测框的生成，伴随着双胞层和中间层的修正，重复迭代，当预测框与GT框的IOU达到终止迭代条件，则终止迭代计算。

所述预测框生成数量是与锚框有紧密关联的，考虑到预测框回环要对预测框进行筛选，产生比RPN的锚框数量多的预测框。本发明扩展锚框数量至25个，即尺度有64、128、256、512，1024五种，长宽比1:3、1:2、1:1、2:1、3:1五种。那么一次ROI生成25个预测框。

所述迭代终止条件为预测框和GT框的IOU都达到95％时则终止迭代。

综上所述，一方面，统一了预测框生成和使用网络架构，使得预测框误差能直接反馈给生成网络，实现对双胞层网络的修正；另一方面，预测框回环处理实现对感兴趣区域调整，与GT框比较得到特征向量误差，反向传播给中间层，实现对中间层网络的修正。通过上述处理获得更加准确预测边框。

本发明的实施例如下：

第一步，预测框生成。通过锚框在最后卷积层特征图上的映射，确定特征提取的感兴趣区域映射。最后层特征图的形成，是经过深度神经网络处理后得到的。本发明以VGG16深度神经网络为例，该网络13个卷积层内有4个下采样层；如果经历n次下采样，就将原图上锚框缩小1/2ⁿ倍映射特征映射图上，所以四次下采样后特征图分辨率是原图的1/16。

原图上框选的感兴趣区域在最后层低分辨率的特征图上都能形成映射，本发明中的感兴趣区域除了锚框框选外，还包括后面用于中间层网络修正中回环的预测框框选，如图3所示。

然后再通过中间层处理得到一组低维的特征向量。该特征向量序列进入双胞层，每种锚得到一个预测框形状和各类别分值，以分值最大的类别作为该预测框的属性。处理完特征映射图上所有对应的锚点，将得到大量的预测框。这些预测框与九类锚框及类别形成有对应关系。过滤掉以背景分值最大的预测框，剩下的依据类别分值大小给预测框排序。

第二步，双胞层网络修正；

如图1所示，图1为多阶段统一网络架构图。网络结构包括一个中间层和一个双胞层，双胞层包括边框回归层和边框分类层；中间层是提取特征向量层，包括滑窗层、ReLU层和池化层。

首先计算双胞层关于边框回归和边框分类的联合损失。边框回归损失通过计算预测框和GT框的重合率得到，也就是计算重叠联合比(IOU)值得到，比值越大损失约小。为了计算预测框和GT框的IOU值，首先分别计算出重叠面积和联合面积，再计算两者结合的比值，下面介绍具体实施办法：

双胞层边框回归网络给出锚框的变化量，包括位置和宽高的变化量，这个边框的变化量作用到锚框上就能获得预测框(p_x,p_y,p_w,p_h)，将其转换为左上和右下两个角点表示：

GT框为(g_x,g_y,g_w,g_h)，那么同样的方法可将GT框可表示为(g_x1,g_y1,g_x2,g_y2)。

a)预测框和GT框重叠面积计算

预测框和GT框的重叠部分的左上和右下坐标为：

I_x1＝max(p_x1,g_x1)，I_y1＝max(p_y1,g_y1)，I_x2＝min(p_x2,g_x2)，I_y1＝min(p_y2,g_y2)

计算重叠区的宽高：

I_w＝max(0,I_x2-I_x1)，I_h＝max(0,I_y2-I_y1)

重叠区面积为：

I_area＝I_w*I_y

b)预测框和GT框联合面积计算

U_area＝(g_x2-g_x1)*(g_y2-g_y1)+(p_x2-p_x1)*(p_y2-p_y1)-I_area

c)预测框和GT框的重叠联合比计算：

IOU＝I_area/U_area

于是边框预测的损失为：

L_reg＝1-I_area/U_area

类似RPN，一次边框回归损失是所有锚框对应的预测框预测损失的平均值。

边框分类损失采用预测框类别预测概率值与GT框类别对应类别真实值的交叉熵得到，以交叉熵作为损失函数。

真实框的类标签可以看作是分布，对某个样本属于哪个类别可以用one-hot编码方式，是一个K+1维向量，K为前景目标类别数。分类预测模型经过softmax函数后对预测框类别标识，也是一个维度为K+1向量。用样本真实标签值与预测值的交叉熵可以看作损失函数：

其中t_ki是预测框k属于类别i的概率，y_ki是预测模型对预测框k预测为属于类别i的概率。

然后，将所有预测框的边框分类平均损失和边框回归平均损失相加，就得到双胞层网络误差而产生的联合损失。

最后，联合损失在双胞网络层反向传播，将误差平均划分给网络层和分类层。各层误差反向传播至各网络层对网络权重进行优化调整，优化方法是随机梯度下降法。多分类层上误差反向传播采用反卷积方法，调整多分类网络层权重参数。

图3为多阶段损失反向传播流程示意图。预测边框与真实(GT)边框会有误差，反向传播至双胞网络层。双胞层损失包括边框回归损失和边框分类损失，两种损失都可以调整各自的网络以实现对网络层的优化，这是第一阶段反向传播。预测框回环处理，是将预测框回环至原图上，结合GT框的变化量调整锚框形状；进而调整感兴趣区域形状，通过中间层处理得到特征向量；再与GT框产生的特征向量比较，得到的特征向量误差；再由随机梯度下降法使误差随网络反向传播到中间层，对中间层进行调整这是第二阶段反向传播。

如图2所示，图2为双胞网络层结构示意图。双胞网络层主要包括边框分类层和边框回归层。两个层的网络各自包括锚框数量的向量组，每个向量维数同特征向量，网络权重向量与特征向量是全连接关系。最后生成的预测框都有对应的锚框。不同于RPN的是，本发明将边框分类层各网络组按目标类别实际划分，而不是原来的前景背景划分。这里以VGG16网络为例示意特征向量维数。

第三步，预测框回环处理。

预测框回环处理就是在网络前端运用预测框以改变感兴趣区域，使之产生新的目标特征。

预测框回环处理前，首先要对要回环的预测框进行筛选。本发明筛选方法是根据预测框的背景属性概率大小确定。本发明选择背景类分值低于类别平均值的预测框回环处理。数据标定目标属性类别背景有十类，那么预测框背景概率大于10％就过滤掉，剩下(即前景概率大于90％)的预测框回环。将筛选出的预测框调回到原图上，修正与其对应的锚框，重新调整感兴趣区域，就是获得新的特征向量，以得到更好的预测框。

在修正锚框前，需要对众多预测框筛选，过滤掉与其对应的GT框差异大的预测框，保留重叠度(IOU)大于0.8的预测框，舍弃掉重叠度小于0.8的预测框。以保证预测框与GT框的差值修正锚框后不会产生负值。

修正锚框的方法为使用预测框与GT框差值改变锚框(A_x1,A_y1,A_x2,A_y2)，具体方法如下：

a)计算预测框与GT框的差值

σ_x1＝g_x1-p_x1，σ_y1＝g_y1-p_y1，σ_x2＝g_x2-p_x2，σ_y2＝g_y2-p_y2

b)修正原锚框，获得新锚框(A′_x1,A′_y1,A′_x2,A′_y2)

A′_x1＝max(0,A_x1+σ_x1)，A′_y1＝max(0,A_y1+σ_y1)，

A′_x2＝min(A_x2,A_x2+σ_x2)，A′_y2＝min(A_y2,A_y2+σ_y2)

修正的锚框原则上更加接近GT框。以修正的锚框确定感兴趣区域，再映射到共享卷积层，形成感兴趣特征映射。通过第二步获得的新双胞层处理，得到新的预测框。

第四步，中间层网络修正

中间层就是低维特征向量生成层，采用梯度下降算法、反向传播特征向量误差，对中间层网络修正。

首先计算中间层损失。中间层损失由第三步所得的感兴趣区域衍生出的特征向量与GT(Ground Truth)框衍生出来的特征向量通过相似度计算。对于VGG16网络，两个低维向量相似度计算方式如下：

其中汉明距离是指两个相同长度的向量序列对应位不同的数量。本发明中特征向量元素是实数值，以对应位两个实数值差的绝对值小于五判定相同，否则不相同。

有了中间层损失，就可以采用反卷积计算来调整滑窗层权重，采用偏微分计算调整池化层权重参数，实现特征向量误差多阶段反向传播。

第五步，迭代优化处理。

对新生成的预测框进行评估，判断是否达到采信阈值，新的预测框可以多次回环处理。每次回环处理前都伴随着多阶段误差反向传播。评估方法是计算预测框与GT框的IOU值。评估标准是当所有预测IOU>95％时，则停止预测框回环处理及多阶段网络层权重训练。

图4预测框多次筛选过滤精调实施示意图。预测框多次筛选过滤精调实施示意图。白色线框为锚框，根据RPN方法，由该锚框覆盖的原图局部图像经过深层卷积神经网络获得的特征，计算出边框偏移变化量，对锚框调整，即得到预测框，如深灰色线框所示，该预测边框识别目标概率为60％(高于过滤阈值，继续迭代)。深灰色预测框在在原图中覆盖的区域较锚框有所不同，那么该区域可能会对目标有更多的特征描述，要再次在特征图上提取特征进行计算才能知晓。计算的到目标识别概率为80％，同时又对边框进行了调整，结果如黑线框所示。同样，还可以该线框覆盖的区域再次调整以获取更加精确的目标边框，那么再以黑线框覆盖的区域在特征图上找到对应的特征区域提取特征，进而获得更加准确的边框和目标识别概率，如95％，最终调整的目标线框如浅灰色线所示。

在预测框回环处理迭代终止之前，需要从方法和网络的整体着眼。一次筛选预测框会过滤掉潜在有价值的预测框，为提高进入检测阶段的预测框质量，需要降低预测框初选的门槛，能够对预测框进行多次筛选过滤。过滤的次数根据设定几级阈值而定，本发明设三级阈值(60％，80％，95％)，如图4所示。预测框迭代过滤，由锚框得到预测框一，过滤掉一部分，再由预测框一得到预测框二，再过滤掉一部分，最后由预测框二得到预测框三。所有预测框都是由同一边框回归网络层生成得来，不占用过多内存。