CN111461085A

CN111461085A - 一种基于权值共享和上下特征融合的原木检测方法

Info

Publication number: CN111461085A
Application number: CN202010482769.7A
Authority: CN
Inventors: 王国栋; 李宁孝; 徐洁; 程琦; 陈磊; 鞠成国; 刘东华; 马子彤; 高战
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-07-28
Anticipated expiration: 2040-06-01
Also published as: CN111461085B

Abstract

本发明提出基于权值共享和相邻上下特征融合的模型进行原木检测方法，属于机器视觉及深度学习领域。该方法第一构造了池化特征金字塔实现权值共享特征，第二将自上而下的特征融合简化为相邻两层进行特征融合，减少了模型融合的复杂度和冗余信息的传递；两种改进方法都使检测器有明显的精度提升，特别是自制的原木数据集。本发明充分考虑了小目标密集和数据缺乏的特点，通过特征融合和权值共享提高模型的鲁棒性和训练速度，在实际的应用中有更可靠的分析数据的来源。

Description

一种基于权值共享和上下特征融合的原木检测方法

技术领域

本发明属于机器视觉及深度学习领域，涉及到深度学习目标检测识别技术，尤其涉及一种基于权值共享和上下特征融合的原木检测方法，提出利用最大池化操作构建池化特征金字塔，使特征自下而上传递信息流，实现特征共享的原木检测方法。

背景技术

在传统的SSD算法，不同层的特征图都是独立作为分类网络的输入，因此可能出现相同物体被不同大小的框同时检测出来的情况，对小尺度的检测效果比较差。目前通过自上而下的反卷积进行特征融合，使得特征信息从深层流到浅层预测模块，融合之前使用BN层归一化，避免不同尺度信息出现被覆盖和被淹没。但是这种融合并没有让所有尺度的特征层完全关联起来，即每一尺度特征都能包含其他预测层特征信息，因此可以把每一个预测层通过最大池化然后连接到其他预测层上，就可以实现预测层之间权值共享成为可能。考虑到实际应用中采集数据面临很多的不确定性，因此希望在最小的数据集上能够训练更好的模型；而权值共享可以在最少的资源里面提取更多价值的信息，不同尺度特征可以实现参数共享，参数共享可以使在小数据集中带来降低过拟合的风险，可以在小数据集和样本不足时更具有优势，损失收敛速度也会提升，另外参数共享并不会带来计算量的增加。

SSD之所以检测速度快且对尺度变化具有鲁棒性，这是因为它是使用不同尺度的检测层进行预测，每一层都独立的用于分类网络，因此可以在多个比例对象中检测相同的对象；如何把浅层激活的信息传递到深层，即提高预测层之间相互泛化能力，使用最大池化操作把浅层的特征信息融合进深层特征图上，深层特征通过自上而下的连接进行融合，这样就实现了双向信息流，给每个预测层带来不同尺度的信息；可以进一步提高中小目标的召回率。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于权值共享和上下特征融合的原木检测方法，充分考虑让分类网络充分利用预测层之间的关系，而不是孤立起来，另外为了充分利用特征信息，可以有效地增加特征金字塔中的通道数量，这样会牺牲一些速度，通过最大池化连接到深层特征，这样丰富具有大感受野的分类器网络的表达能力，因而检测器可以充分利用双向的信息流；使检测器拥有更好的鲁棒能力。

本发明提出基于权值共享和上下特征融合的模型。仅仅通过自上而下的特征融合，特征层只获取了比它深层特征信息，缺少比它浅层的特征信息，因此通过最大池化(Maxpooling)把每个特征层缩放，然后与其他更深预测层concatenation一起，使得特征层拥有了自低而上的信息流(TDM)，同时也使不同尺度特征层的参数可以共享，参数共享可以降低过拟合的风险，可以在小数据集或样本不足数据集中更有优势，也可以加快训练参数收敛。

本发明提供的技术方案是：

首先对现场作业中通过SSD算法检测出满叉原木的位置，进行图片截取，然后通过本发明提出的方法进行原木检测。

本发明提出利用最大池化操作构建池化特征金字塔，再与预测特征图进行通道连接，使特征自下而上传递信息流，实现特征共享，这样不仅有了自上而下的信息流传递，又有了自下而上的信息共享，提高了小目标的检测率和在小数据集的训练效率；最后通过实验验证了池化特征金字塔的有效性；具体包括以下步骤：

1)构造池化特征金字塔

将检测器所有的预测层分别进行池化操作，池化后的特征尺度与其较深层的所有特征层尺度保持一致，并整合成一个池化特征金字塔，池化层之间使用堆叠的方式把通道串联起来，这样较低层中的特征映射通过池化连接到较高层的特征映射，另外在连接特征图之前，使用批量归一化；底层特征通过与高层特征串联一起，利用来自其他层的信息进行分类，可以在检测小目标时有相互补充的作用，所增加的开销也不多；除了conv4_3层池化操作的步长为1，其他所有最大池化卷积核都是3×3，步长为2；

池化层特征金字塔的构建方式与FPN、预测金字塔、图像金字塔类似，但它没有任何计算开销，其目的是为了实现特征共享，在训练时能够充分利用特征信息，不仅在小数据集训练中有很好的表现，而且在大数据集中，也会加快训练损失的收敛；

2)构造相邻特征图融合检测结构

该检测结构是建立在SSD框架基础之上，使用VGG16作为骨干网络；将检测器所有相邻的预测层进行特征融合，融合方式为：每个检测层首先要通过全局上下文模块(GC)进行上下文信息融合和通道强化，然后送入自上而下残差链接的特征融合模块(TRFF)；每个预测层的尺度与原有尺度保持一致，并通过1×1卷积增加维度和非线性关系；

构造全局上下文模块(GC)：模块引入了空间依赖关系和通道依赖关系，首先进行全局上下文建模，即使用softmax函数提取空间依赖关系；然后使用层归一化获取通道之间的标定，同时又增加了通过sigmod函数进行通道标定；最后将两次标定的信息进行特征融合；

构造特征融合模块(TRFF)：该模块使用反卷积进行自上而下的特征融合，融合方式是权值相加，在结构上统一了所有的预测器，每个预测特征图的深度都设置为256；整个结构与ResNet的残差结构类似，横向连接主干分支首先通过1×1卷积进行降维，conv4_3和FC7层使用两个卷积分支(1×5、5×1)和(5×1、1×5)进行空间特征挖掘；其他的预测层使用3×3的卷积；另外残差链接通过1×1卷积统一维度，用来传递骨干网络的特征信息；垂直链接通过反卷积来统一尺度，然后再接通过1×1卷积统一维度；在上下特征融合前使用批量归一化层进行归一化处理，以避免上下特征重叠效应；

融合模块的公式表达可以细化为

Detection＝{P₁(B₁),P₂(B₂),P₃(B₃),...,P_k(B_k)}，其中B_k是融合后的反卷积特征层，

是当前横向连接特征层，那么模型输出特征为：

其中T₁、(T₂、T₃)、T₄是融合模块的四个分支,

表示通道连接操作；

3)构造池化特征金字塔与检测层联合检测结构

检测模型的整体框架如下，分别通过全局上下文模块和特征融合模块输出的检测层与最大池化特征金字塔进行通道连接，连接后分别进行类别预测和位置预测；公式表达如下：

由步骤2)知输出特征

定义

O_k池化金字塔函数，Pool是最大池化函数，n值是预测层的个数，那么改进后预测函数为:公式其中

表示通道连接操作，则得到：

Detection＝{

…，

P_n(S_n)

}；

4)训练最优模型

模型的训练遵循SSD相同的训练策略，首先设置一组默认框来匹配数据集中的真实框，称为真值数据；每一个预测的框与真值的默认框进行匹配，其中最佳匹配的且大于IOU的重叠阈值(如0.5)的视为正样本，选择剩下的框作为负样本并计算置信损失，它们的匹配比例为3：1；然后最小化所有的定位损失和置信度损失；

因为它没有像两阶段检测器那样进行特征框的重采样过程，所以需要依赖广泛的数据增强，SSD检测器是通过随机裁剪原始图像、随机光照转化、缩放以及随机翻转和随机旋转来完成数据增广；事实证明这些数据增强对检测是非常有帮助的，新的训练策略同样包含这些；

通过上述步骤实现了基于权值共享和上下特征融合的原木检测的方法。

本发明步骤3)中，检测模型是相邻的两个检测层融合，并将融合后的特征层与步骤1)中的池化特征金字塔进行通道连接。

本发明将自上而下的特征融合改成相邻两个预测层融合，并将融合后的特征层与池化特征金字塔进行通道连接；通过实验发现自上而下的层层的特征传递，如果融合方式不合适，会丢失一些特征和弱化覆盖一些重要特征，另外会带来大量背景的冗余信息干扰了目标的检测；实际SSD通过VGG16提取特征中，conv4_3和FC7这两个卷积层尺度对小目标检测效果是最合适的；相邻的两个预测层融合，可以在一定程度上减少背景干扰信息的传递和特征的复杂度；两层融合同时又对特征层进一步优化整合，最后再与池化层通道连接。

本发明中，为了使模型获得更好的收敛，在实验中首先进行了模型参数初始化处理；训练过程使用了随机梯度下降法(SGD)作为优化参数函数；训练中的参数包括动量衰减0.001和0.9，SGD的初始学习率为0.01,衰减权重为1×10^-5。实验表明虽然Adam优化方法收敛速度快，但是SGD方法要比Adam方法能够训练出更好的模型。

模型训练过程设置：在开始的4万步学习率为10^-3，然后在6万步时降低为10^-4，迭代到7万步时降低为10^-5。将此训练所得到的SSD模型所谓新模型的预训练模型；第一阶段，只通过冻结原始SSD模型中的所有权重来训练GC模块，学习率设置为10^-3迭代2万步，然后学习率降低为10^-4训练2万步；第二阶段添加TRFF模块，冻结之前训练的模块权重，学习率为10^-3迭代3万步，然后降低为10^-4迭代2万步，最后只冻结SSD原始模块，训练所有的新添加的模块，学习率设置为10^-5迭代2万步，训练结束。

与现有技术相比，本发明具有以下优点：使用相邻特征层融合，最高测试精度达到了99.2％；可以看到在增加池化特征层提升效果是比较明显的，是因为数据集中小目标占有绝大部分比例；预测层的通道维度增加也有一定的增益效果。在检测速度上比两步检测器依然保持一定的优势，对视频流的处理每秒能够保持10张图片的处理，完全可以满足对现场实时状态的逻辑判断和分析。该方法能满足图片处理的速度同时也能保持高精度，保证模型能够适应各种环境，能够更好为现场作业过程的分析提供准确的数据，人工智能是要求能够自动的且智能的进行分析，减少甚至避免人工的干预，检测器的鲁棒性很关键。

附图说明

图1最大池化特征金字塔检测模型；

图2相邻特征图融合检测结构；

图3池化特征金字塔与检测层联合检测结构；

图4作业场景和原木检测图；

图5原木检测测试结果图。

具体实施方式

下面结合附图，通过实例进一步描述本发明，但不以任何方式限制本发明的范围。

实施例1

本实施例涉及一种基于权值共享和上下特征融合的原木检测的方法，提出利用最大池化操作构建池化特征金字塔，再与上面一个改进模型输出的预测特征图进行通道连接，使特征自下而上传递信息流，实现特征共享，这样不仅有了自上而下的信息流传递，又有了自下而上的信息共享，提高了小目标的检测率和在小数据集的训练效率，具体包括如下步骤：

1)如图4所示：首先对现场作业中通过SSD算法检测出满叉原木的位置，进行图片截取，然后通过以下方法进行原木检测；

2)构造池化特征金字塔

如图1所示：将检测器所有的预测层分别进行池化操作，池化后的特征尺度与其较深层的所有特征层尺度保持一致，并整合成一个池化特征金字塔，池化层之间使用堆叠的方式把通道串联起来，这样较低层中的特征映射通过池化连接到较高层的特征映射，另外在连接特征图之前，使用批量归一化，这是因为不同尺度下的特征值在分布上存在很大的差异；底层特征通过与高层特征串联一起，利用来自其他层的信息进行分类，可以在检测小目标时有相互补充的作用，所增加的开销也不多；除了conv4_3层池化操作的步长为1，其他所有最大池化卷积核都是3×3，步长为2；

在添加最大池化金字塔后，预测层的通道维度分别增加512、512、1536、2048、2304、2560；众所周知，通道数越多包含的信息越多，性能就越好；其中DSSD检测器就增加了预测模型，它所有的检测维度都增加到1024；通道增加虽然精度提高了，但是牺牲了部分速度；特征图的尺度没有变化，这样就不仅融合了自上而下的信息，而且堆叠了其他检测层的权值信息，使得检测器能够充分的利用每个层次的权值信息，加快损失收敛，提高训练效率；

3)构造相邻特征图融合检测结构

如图2所示，将图1中上半部分自上而下的特征融合改成相邻两个预测层融合，并将融合后的特征层与池化特征金字塔进行通道连接；通过实验发现自上而下的层层的特征传递，如果融合方式不合适，会丢失一些特征和弱化覆盖一些重要特征，另外会带来大量背景的冗余信息干扰了目标的检测；实际SSD通过VGG16提取特征中，conv4_3和FC7这两个卷积层尺度对小目标检测效果是最合适的；相邻的两个预测层融合，可以在一定程度上减少背景干扰信息的传递和特征的复杂度；两层融合同时又对特征层进一步优化整合，最后再与池化层通道连接；

融合模块的公式表达可以细化为

是当前横向连接特征层，那么模型输出特征为：

其中T₁、(T₂、T₃)、T₄是融合模块的四个分支,

表示通道连接操作；

4)构造池化特征金字塔与检测层联合检测结构

如图3所示，检测模型的整体框架如下，分别通过全局上下文模块(GC)和特征融合模块(TRFF)输出的检测层与最大池化特征金字塔进行通道连接，连接后分别进行类别预测和位置预测；公式表达如下：

由步骤2)知输出特征

定义

表示通道连接操作，则得到：

Detection＝{

...，

P_n(S_n)

}

5)训练最优模型

为了使模型获得更好的收敛，在实验中首先进行了模型参数初始化处理；训练过程使用了随机梯度下降法(SGD)作为优化参数函数；训练中的参数包括动量衰减0.001和0.9,SGD的初始学习率为0.01,衰减权重为1×10^-5；实验表明虽然Adam优化方法收敛速度快，但是SGD方法要比Adam方法能够训练出更好的模型；

模型的训练遵循SSD相同的训练策略，首先设置一组默认框来匹配数据集中的真实框，称为真值数据；每一个预测的框与真值的默认框进行匹配，其中最佳匹配的且大于IOU的重叠阈值(如0.5)的视为正样本，选择剩下的框作为负样本并计算置信损失，它们的匹配比例为3：1；然后最小化所有的定位损失和置信度损失，因为它没有像两阶段检测器那样进行特征框的重采样过程，所以需要依赖广泛的数据增强，SSD检测器是通过随机裁剪原始图像、随机光照转化、缩放以及随机翻转和随机旋转来完成数据增广；事实证明这些数据增强对检测是非常有帮助的，新的训练策略同样包含这些；

模型训练过程设置：在开始的4万步学习率为10^-3，然后在6万步时降低为10^-4，迭代到7万步时降低为10^-5；将此训练所得到的的SSD模型所谓新模型的预训练模型；第一阶段，只通过冻结原始SSD模型中的所有权重来训练GC模块，学习率设置为10^-3迭代2万步，然后学习率降低为10^-4训练2万步；第二阶段添加TRFF模块，冻结之前训练的模块权重，学习率为10^-3迭代3万步，然后降低为10^-4迭代2万步，最后只冻结SSD原始模块，训练所有的新添加的模块，学习率设置为10^-5迭代2万步，训练结束；

6)测试

使用相邻特征层融合，最高测试精度达到了99.2％；可以看到在增加池化特征层提升效果是比较明显的，是因为数据集中小目标占有绝大部分比例；预测层的通道维度增加也有一定的增益效果；在检测速度上比两步检测器依然保持一定的优势，对视频流的处理每秒能够保持10张图片的处理，完全可以满足对现场实时状态的逻辑判断和分析。

该方法能满足图片处理的速度同时也能保持高精度，保证模型能够适应各种环境，能够更好为现场作业过程的分析提供准确的数据，人工智能是要求能够自动的且智能的进行分析，减少甚至避免人工的干预，检测器的鲁棒性很关键。

原木检测测试结果如图5所示。

Claims

1.一种基于权值共享和上下特征融合的原木检测方法，其特征在于，利用最大池化操作构建池化特征金字塔，再与预测特征图进行通道连接，使特征自下而上传递信息流，实现特征共享，用于原木检测与识别；具体包括如下步骤：

1)构造池化特征金字塔

2)构造相邻特征图融合检测结构

该检测结构是建立在SSD框架基础之上，使用VGG16作为骨干网络；将检测器所有相邻的预测层进行特征融合，融合方式为：每个检测层首先要通过全局上下文模块进行上下文信息融合和通道强化，然后送入自上而下残差链接的特征融合模块；每个预测层的尺度与原有尺度保持一致，并通过1×1卷积增加维度和非线性关系；

融合模块的公式表达细化为

是当前横向连接特征层，那么模型输出特征为：

其中T₁、(T₂、T₃)、T₄是融合模块的四个分支,

表示通道连接操作；

3)构造池化特征金字塔与检测层联合检测结构

由步骤2)知输出特征

定义

O_k池化金字塔函数，Pool是最大池化函数，n值是预测层的个数，那么改进后预测函数为：公式其中

表示通道连接操作，则得到：

4)训练最优模型

模型的训练遵循SSD相同的训练策略，首先设置一组默认框来匹配数据集中的真实框，称为真值数据；每一个预测的框与真值的默认框进行匹配，其中最佳匹配的且大于IOU的重叠阈值的视为正样本，选择剩下的框作为负样本并计算置信损失，它们的匹配比例为3：1；然后最小化所有的定位损失和置信度损失；

2.如权利要求1中所述的基于权值共享和上下特征融合的原木检测的方法，其特征在于，构造步骤2)中全局上下文模块：模块引入了空间依赖关系和通道依赖关系，首先进行全局上下文建模，即使用softmax函数提取空间依赖关系；然后使用层归一化获取通道之间的标定，同时又增加了通过sigmod函数进行通道标定；最后将两次标定的信息进行特征融合。

3.如权利要求1中所述的基于权值共享和上下特征融合的原木检测的方法，其特征在于，构造步骤2)中特征融合模块：该模块使用反卷积进行自上而下的特征融合，融合方式是权值相加，在结构上统一了所有的预测器，每个预测特征图的深度都设置为256；整个结构与ResNet的残差结构类似，横向连接主干分支首先通过1×1卷积进行降维，conv4_3和FC7层使用两个卷积分支(1×5、5×1)和(5×1、1×5)进行空间特征挖掘；其他的预测层使用3×3的卷积；另外残差链接通过1×1卷积统一维度，用来传递骨干网络的特征信息；垂直链接通过反卷积来统一尺度，然后再接通过1×1卷积统一维度；在上下特征融合前使用批量归一化层进行归一化处理，以避免上下特征重叠效应。

4.如权利要求1中所述的基于权值共享和上下特征融合的原木检测的方法，其特征在于，步骤4)中，为了使模型获得更好的收敛，在实验中首先进行了模型参数初始化处理；训练过程使用了随机梯度下降法(SGD)作为优化参数函数；训练中的参数包括动量衰减0.001和0.9,SGD的初始学习率为0.01,衰减权重为1×10^-5。

5.如权利要求1中所述的基于权值共享和上下特征融合的原木检测的方法，其特征在于，步骤4)中，模型训练过程设置：在开始的4万步学习率为10^-3，然后在6万步时降低为10^-4，迭代到7万步时降低为10^-5，将此训练所得到的SSD模型所谓新模型的预训练模型；第一阶段，只通过冻结原始SSD模型中的所有权重来训练GC模块，学习率设置为10^-3迭代2万步，然后学习率降低为10^-4训练2万步；第二阶段添加TRFF模块，冻结之前训练的模块权重，学习率为10^-3迭代3万步，然后降低为10^-4迭代2万步，最后只冻结SSD原始模块，训练所有的新添加的模块，学习率设置为10^-5迭代2万步，训练结束。

6.如权利要求1中所述的基于权值共享和上下特征融合的原木检测的方法，其特征在于，步骤1)之前对现场作业中通过SSD算法检测出满叉原木的位置，进行图片截取，然后进行原木检测。

7.如权利要求1中所述的基于权值共享和上下特征融合的原木检测的方法，步骤3)中，检测模型是相邻的两个检测层融合，并将融合后的特征层与步骤1)中的池化特征金字塔进行通道连接。