CN112529005A

CN112529005A - 基于语义特征一致性监督金字塔网络的目标检测方法

Info

Publication number: CN112529005A
Application number: CN202011458846.1A
Authority: CN
Inventors: 何立火; 柯俊杰; 甘海林; 韩博; 高新波; 唐杰浩; 路文; 蔡虹霞
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-19
Anticipated expiration: 2040-12-11
Also published as: CN112529005B

Abstract

本发明提出了一种基于语义特征一致性金字塔网络的图像目标检测方法，用于解决现有技术中存在的因为图像或视频目标检测过程中目标多尺度语义特征融合时不一致导致的检测精度较低的技术问题，实现步骤为：获取训练样本集K和测试样本集V；构建基于语义特征一致性金字塔网络P的图像目标检测网络S；对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练；获取目标检测识别结果。本方法在主流RCNN目标检测网络中即插即用，解决了不同层语义特征融合时不一致导致的检测精度较低的技术问题提高了检测精度。

Description

基于语义特征一致性监督金字塔网络的目标检测方法

技术领域

本发明属于图像处理中的计算机视觉技术领域，涉及一种基于深度学习的目标检测方法，具体涉及一种基于语义特征一致性监督金字塔网络的目标检测方法，可用于RGB光学图像与视频中的目标检测。

背景技术

随着计算机技术的发展和人工智能时代的到来，计算机视觉领域技术突飞猛进，目标检测技术也取得了突破性的成果。目标检测是计算机视觉领域的核心问题之一，其任务是找出图像中所有感兴趣的目标，确定它们的位置和大小。人脸检测、行人检测、车辆检测等重要目标的检测被广为研究，不仅如此，在安全、交通、医疗等领域目标检测均得到了广泛的应用。因此，为了获得满意的图像物体检测效果，设计相应算法有效地检测图像目标成为一个广泛而基本的问题。

传统的目标检测方法利用手工设计特征,使用与图所包含目标边缘相关的滤波器对规则物体进行滤波，对于单一目标检测，手工设计特征的方法在清晰可见的图像中检测精度显著提升，但此方法在复杂场景下难以准确匹配目标，鲁棒性较差。随着卷积神经网络的发展，基于卷积神经网络的目标检测算法成为主流算法，该算法通过学习大量的标注训练数据的特征来提升模型对特征的识别能力

随着深度卷积网络的发展，基于深度学习的目标检测算法成为研究热点。深度卷积网络可通过学习并融合图像中目标的浅层定位信息与深层语义信息来增强对图像感兴趣区域的激活值，进而对目标的显著特征识别，达到对图像中目标的检测。在基于深度卷积网络的目标检测算法中，设计合理的多尺度特征融合模块对多尺度目标检测非常重要，多尺度特征决定网络具备图像中不同尺度目标进行定位与辨识，特征金字塔可融合出高语义细粒度特征，实现多尺度精准检测的目标。

基于特征金字塔的目标检测方法可以分为基于图像特征融合和基于图像特征精炼的目标检测方法，其中，基于特征精炼的目标检测过程中首先将骨干网络提取的多尺度特征直接融合得到单一尺度特征，再对该特征进行不同尺度的采样分离出相同的特征图，然而由于特征金字塔顶层与底层特征存在较大差距，精炼后采样分离出的特征图依旧未对齐且特征信息损失。

基于特征融合的目标检测将高语义分类特征用于增强底层定位特征，使底层特征同样具有高语义分析信息，提高了检测的精度。例如申请公布号为CN 110084124 A，名称为“基于特征金字塔网络的特征增强目标检测方法”的专利申请，公开了一种基于特征金字塔网络的图像目标检测方法，该方法首先建立基于深度学习神经网络的骨干网络，将骨干网络在ImageNet的分类数据集上进行预训练；然后将待检测图像送入建立的骨干网络提取特征，得到各层特征；在前两步建立的金字塔特征网络模型的基础上增加自顶向下模块、自底向上模块、融合扩展模块；其次对三个模块得到的特征金字塔相同尺寸的对应层特征进行按通道方向做连接操作；最后将对应层特征分别送入目标检测器中。该方法提升了对多尺度目标的检测精度，参数和计算量少。但其存在的不足之处在于，该方法仅考虑图像特征金字塔不同层间相同通道的关系，没有考虑不同层的相同通道特征图所代表的语义特征与上下文属性经过非线性变换发生了改变，从而导致不同层语义特征信息不具备一致性，进而导致多尺度目标的检测精度较低。

发明内容

本发明目的在于针对上述现有技术的不足，提出了一种基于语义特征一致性金字塔网络的图像目标检测方法，用于解决现有技术中存在的因为图像或视频目标检测过程中目标多尺度语义特征融合时不一致导致的检测精度较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集K和测试样本集V：

获取目标检测数据集中的多幅大小为W×H的RGB三通道图像，并将其中N幅带有目标类别标签和目标位置坐标的RGB三通道图像作为训练样本集K＝{k₁,k₂,...,k_n,...,k_N}，

将M幅带有目标类别标签和目标位置坐标的RGB三通道图像作为测试样本集V＝{v₁,v₂,...,v_m,...,v_M}，

其中，N≥100000，M≥5000，k_n表示第n个目标类别标签为

目标位置坐标为

的训练样本，v_m表示第m个目标类别标签为

目标位置坐标为

的测试样本；

(2)构建基于语义特征一致性金字塔网络P的图像目标检测网络S：

构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S，其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络；语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E，F包括多个对称卷积层F′、多个横向非对称卷积层

多个纵向非对称卷积层

和多个可变形卷积层

多尺度语义特征扩充网络E包括多个并行排布的自适应平均池化层A，以及与每个自适应平均池化层A级联的对称卷积层F″和通道融合层C；语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间；

(3)对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练：

(3a)初始化迭代次数为t，最大迭代次数为T，T≥20，当前基于语义特征一致性金字塔网络P的图像目标检测网络为S^t，并令t＝1，S^t＝S；

(3b)将K作为S^t的输入进行前向推理，特征提取网络对每个训练样本进行多尺度特征提取，得到多尺度原始特征图集X＝{x₁,x₂,...,x_n,...,x_N}，其中x_n表示第n个训练样本k_n对应的特征图子集，

表示x_n的第j个原始特征图，J≥4；

(3c)语义特征一致性金字塔网络P对X中的特征图子集进行特征融合，得到语义信息一致的融合特征图Y＝{y₁,y₂,...,y_n,...,y_N}，y_n表示x_n对应语义信息一致的融合特征图：

其中，

为卷积核间并行相加操作，

为卷积核频域相乘操作；

(3d)候选区域生成网络对每个语义信息一致的融合特征图y_n进行感兴趣区域位置预测，感兴趣区域分类回归网络对y_n的感兴趣区域位置预测结果进行目标分类和位置预测，得到预测结果T＝{t₁,t₂,...,t_n,...,t_N}，其中，t_n表示y_n对应的包括目标类别

和位置

的预测结果，

(3e)采用反向传播算法，Log损失函数计算感兴趣区域分类回归网络分类预测结果

与训练样本的目标类别标签为

的分类误差，Smooth L1损失函数计算感兴趣区域分类回归网络位置预测结果

与训练样本的目标位置坐标为

的回归误差，采用随机梯度下降法降低分类误差与回归误差，对S中卷积核参数ω^t、各全连接层节点之间的参数υ^t进行更新，得到更新后的S^t；

(3f)判断t＝T是否成立，若是，得到训练好基于语义特征一致性金字塔网络P的图像目标检测网络S^*，否则，令t＝t+1，并执行步骤(3b)；

(4)获取目标检测识别结果：

将V中的测试样本作为训练好语义特征一致性金字塔网络P的图像目标检测网络S^*的输入进行目标检测与识别，得到目标分类与位置的预测结果。

与现有技术相比，本发明具有以下优点：

本发明构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S，其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络；语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E，语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间，语义特征一致性金字塔网络P采用的非对称特征对齐侧接网络F增强了各层特征图之间语义的一致性，并利用多尺度语义特征扩充网络E提升低层特征图的语义信息，显著提高了检测精度，并且只引入少量的参数和计算量，可在区域卷积神经网络RCNN中即插即用，具有灵活性和高效性。

附图说明

图1是本发明的实现流程图。

图2是本发明采用的语义特征一致性金字塔网络的结构示意及融合原理图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述：

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集K和测试样本集V：

其中，N≥100000，M≥5000，k_n表示第n个目标类别标签为

目标位置坐标为

的训练样本，v_m表示第m个目标类别标签为

目标位置坐标为

的测试样本，训练样本集和测试样本集也可为视频，本实施例中，N＝117280，M＝5000，W＝1333，H＝800；

步骤2)构建基于语义特征一致性金字塔网络P的图像目标检测网络S：

构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S，其中：

区域卷积神经网络RCNN，包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络，其中：

特征提取网络，其包含数个依次连接的残差单元，每个残差单元包含三个依次层叠的对称卷积层，卷积核大小依次为3×3、1×1、3×3，卷积核数量大于64，卷积核步长为1；

候选区域生成网络，其包含一个融合卷积层、前背景分类卷积层、锚点位置卷积回归层，融合卷积层的卷积核大小为3×3，卷积核数量为512，卷积核步长为1，前背景分类卷积层的卷积核大小为1×1，卷积核数量为3，卷积核步长为1，锚点位置卷积回归层的卷积核大小为1×1，卷积核数量为12，卷积核步长为1；

感兴趣区域分类回归网络，其中包含感兴趣区域分类层和感兴趣区域位置回归层，感兴趣区域分类的卷积核大小为3×3，卷积核数量为81，卷积核步长为1，卷积核大小为3×3，卷积核数量为4，卷积核步长为1；

语义特征一致性监督金字塔网络P，其结构如图2所示，包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E，F包括多个对称卷积层F′、多个横向非对称卷积层

多个纵向非对称卷积层

和多个可变形卷积层

多尺度语义特征扩充网络E包括多个并行排布的自适应平均池化层A，以及与每个自适应平均池化层A级联的对称卷积层F″和通道融合层C，其中：

非对称特征对齐侧接网络F，其中包含对称卷积层F′的卷积核大小为3×3，卷积核数量为256，卷积核步长为1；横向非对称卷积层

的卷积核大小1×3，卷积核数量为256，卷积核步长为1；纵向非对称卷积层

的卷积核大小3×1，卷积核数量为256，卷积核步长为1；可变形卷积层

的卷积核大小为3×3，卷积核数量为256，卷积核步长为1；

多尺度语义特征扩充网络E，其中包含自适应平均池化层A池化区域随设定输入的输出大小变化，步长为池化区域大小；对称卷积层F″的卷积核大小为3×3，卷积核数量为256，卷积核步长为1；通道融合层C为卷积核大小为1×1，卷积核数量为256，卷积核步长为1。

非对称特征对齐侧接网络F通过可变形卷积将不同尺度的目标图进行特征对齐，增强了各层特征图之间语义的一致性，多尺度语义特征扩充网络E通过顶层特征图的高语义信息提升低层特征图的语义信息，使融合后的特征图富含负责定位的低层位置信息与高层分类语义信息。

语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间。

步骤3)对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练：

(3a)初始化迭代次数为t，最大迭代次数为T，T≥20，在本实施例中，T＝30，当前基于语义特征一致性金字塔网络P的图像目标检测网络为S^t，并令t＝1，S^t＝S；

表示x_n的第j个原始特征图，J≥4，在本实施例中，J＝4；

(3c)语义特征一致性金字塔网络P对X中的特征图子集进行特征融合，其融合原理如图2所示，得到语义信息一致的融合特征图Y＝{y₁,y₂,...,y_n,...,y_N}，y_n表示x_n对应语义信息一致的融合特征图：

其中，

为卷积核间并行相加操作，

为卷积核频域相乘操作；

语义特征一致性金字塔网络P融合后的特征图y_n相比于原始特征图集富含更多高层语义信息，使网络对目标的类别判定更加准确，特征图语义特征一致性强，使网络对目标的定位更加精确。

和位置

的预测结果，

与训练样本的目标类别标签为

与训练样本的目标位置坐标为

的回归误差，损失函数公式为：

采用随机梯度下降法降低分类误差与回归误差，对S中卷积核参数ω^t、各全连接层节点之间的参数υ^t进行更新，得到更新后的S^t，更新公式为：

其中，η表示学习步长，0.002≤η≤0.02，ω^t+1和υ^t+1分别表示ω^t和υ^t更新后的结果，

表示偏导计算，在本实施例中，η＝0.02；

步骤4)获取目标检测识别结果：

下面结合仿真实验对本发明的效果作进一步的描述：

1.仿真实验条件：

仿真实验的硬件测试平台是：Intel(R)Xeon(R)Silver 4114CPU，主频为2.20GHz，内存192GB，GPU为4路NVIDIA Tesla V100 32GB。

仿真实验的软件平台是：Ubuntu 16.04.6LTS操作系统、编程语言Python 3.8、深度学习框架PyTorch 1.6。

2.仿真内容及其结果分析：

本发明的仿真实验是采用本发明的方法，从Tsung-Yi Lin等人在其发表的论文“Microsoft COCO：Common Objects in Context”中下载Microsoft COCO图像数据集，该数据集为大规模标注数据集，包含目标检测、图像实例分割、图像全景分割、图像关键点检测等任务，见https：//cocodataset.org/#home。所有类别的平均精确度mAP(mean AveragePrecision)是衡量目标检测模型针对多尺度多类别目标检测效能的指标，包含：AP、AP50、AP75、AP small、AP medium、AP Large、AR，见https：//cocodataset.org/#detection-eval。本发明所使用训练集与测试集图像输入尺寸为1333×800。

本发明的仿真实验分别以ResNet50、ResNet101、ResNeXt101作为特征提取网络，构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S，其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络；语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E，语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间。

本发明的仿真实验结果如下表：

表1基于语义特征的一致性监督金字塔网络的目标检测平均准确率

结合表1可以看出，在Microsoft COCO图像数据集上测试，使用Faster R-CNN方法，选择ResNet50作为特征提取网络，学习率调整一次，在测试集上AP指标值为39.6％，相较于基线方法提升6.1％，选择ResNet101作为特征提取网络，学习率调整一次，在测试集上AP指标值为41.0％，相较于基线方法提升2.8％，选择ResNext-101-32x4d作为特征提取网络，学习率调整一次，在测试集上AP指标值为42.8％，相较于基线方法提升1.4％。