CN112926692A

CN112926692A - 基于非均匀混合卷积的目标检测装置、方法和存储介质

Info

Publication number: CN112926692A
Application number: CN202110384365.9A
Authority: CN
Inventors: 桑高丽; 卢丽; 张建; 闫超
Original assignee: Sichuan Yifei Technology Co ltd
Current assignee: Sichuan Yifei Technology Co ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-06-08
Anticipated expiration: 2041-04-09
Also published as: CN112926692B

Abstract

本发明公开了一种基于非均匀混合卷积的目标检测装置、方法和存储介质，本发明的目标检测网络模型的主干网分别利用4组和3组混合扩展卷积提取特征。其中前4组提取低级信息，而后3组提取高级信息。同时，每一组中使用不同的膨胀系数控制感受野大小。为了同时兼顾大目标和小目标的检测性能，膨胀系数越低的扩展卷积核越多。本发明通过搭建基于非均匀混合扩展卷积的目标检测模型，增强不同感受野的特征提取，提升网络特征在不同感受野层面的表达能力，大大地提高了目标的检测精度。

Description

基于非均匀混合卷积的目标检测装置、方法和存储介质

技术领域

本发明属于目标检测的技术领域，具体涉及一种基于非均匀混合卷积的目标检测装置、方法和存储介质。

背景技术

在传统视觉领域，目标检测是一个非常热门的研究方向，传统的方法包括支持向量机、决策树和随机森林等。在2013年之后，学术界和工业界开始逐渐使用深度学习来实现目标检测，其效果也远远好于传统方法。

深度学习目标检测很多方法也是来自于或者借鉴自传统方法，比如区域选择、特征提取、分类回归等。目前深度学习的目标检测方法可以根据其网络的结构分为两步法和一步法。两步法的特点是精度高，但是计算量和耗时都更多，以RCNN及其衍生的fast-RCNN和faster-RCNN等为代表。而一步法，速度快计算少，但是精度逊于两步法，以YOLO系列和SSD及其衍生的DSSD和RSSD等为代表。而在工业应用中，一步法因为其耗时更小速度更快，所以使用范围更加广一些。

目前，基于一步法的深度学习网络未采用推荐区域等方法，在检测精度上并非最高，特别是在检测小目标时，而同时工业需求又比较大，因此怎么提高检测精度就成了重要的研究方向。如果想在同一特征尺度提取更多特征特征，就需要增加更多卷积，这样就会增加计算量，也就失去了速度优势。因此本发明提出了基于非均匀混合卷积的目标检测方法，在保证不增加计算量的同时，提取不同感受野的特征，提高了网络的学习能力和特征表达。

发明内容

本发明的目的在于提供一种基于非均匀混合卷积的目标检测装置、方法和存储介质，旨在解决上述问题。

本发明的目标检测网络模型的主干网分别利用4组和3组混合扩展卷积提取特征。其中前4组提取低级信息，而后3组提取高级信息。同时，每一组中使用不同的膨胀系数，控制感受野大小。为了同时兼顾大目标和小目标的检测性能，膨胀系数越低的扩展卷积核越多。本发明通过搭建基于非均匀混合扩展卷积的目标检测模型，增强不同感受野的特征提取，提升网络特征在不同感受野层面的表达能力，大大地提高目标的检测精度。

本发明主要通过以下技术方案实现：

一种基于非均匀混合卷积的目标检测装置，数据采集模块、训练模块、检测模块；所述数据采集模块用于采集图像并形成训练集，所述训练模块用于将训练集输入目标检测网络模型进行训练并得到最优的目标检测模型，所述检测模块用于将待检测的图像输入最优的目标检测模型并输出预测的先验框偏移值，且将预测的先验框偏移值与先验框计算并完成非极大抑制后得到最终的目标位置；

所述目标检测网络模型的主干网络首先采用卷积处理，然后，采用4组扩张卷积提取低级特征信息，经过3层依次堆叠的残差网络处理后，采用3组扩张卷积提取高级特征信息，然后，采用空间金字塔池化做下采样，最后，采用2层的路径聚合网络处理并输出三个向量，分别代表三类大小锚框偏移值。

为了更好地实现本发明，进一步地，所述目标检测网络模型的主干网络由从前至后依次设置的卷积模块、4组扩张卷积、拼接层、3层依次堆叠的卷积层与残差网络、卷积层、3组扩张卷积、拼接层、空间金字塔网络、路径聚合网络组成。

为了更好地实现本发明，进一步地，所述4组扩张卷积的扩张系数分别为1、2、3、5，且对应的通道数为5、3、2、2；所述3组扩张卷积的扩张系数分别为1、2、3，且对应的通道数为128、96、32。所述4组扩张卷积中，较大的扩张系数可以让网络具有更大的感受野，平衡大目标和小目标的检测能力。而不平均的通道数可以让网络提取更多的高频特征而提取较少的低频特征。所述3组扩张卷积中，相对提取低级特征的扩张卷积，提取高级特征的扩张卷积数量更少，从而避免引入更多噪音，提高有效特征信息。

为了更好地实现本发明，进一步地，从前至后依次设置的3层堆叠的残差网络包含的残差块的数量分别为1、3、3。

本发明主要通过以下技术方案实现：

一种基于非均匀混合卷积的目标检测方法，采用上述的目标检测装置进行，包括以下步骤：

步骤S100：收集图像并形成训练集和测试集；

步骤S200：将训练集转化为固定格式的数据存储方式并输入到目标检测网络模型中进行训练，调节相关超参数，采用预热余弦下降法衰减学习率，预热30个迭代周期，使用随机梯度下降法作为优化器，迭代计算，直至得到最优的目标检测模型；

步骤S300：将待目标检测的图像输入到训练完成的最优的目标检测模型，输出得到预测的先验框偏移值，且预测的先验框偏移值在与先验框计算并完成非极大抑制之后得到最终的目标位置。

为了更好地实现本发明，进一步地，所述步骤S200中调节相关超参数包括将学习率设为0.01，批处理大小设为64，批归一化层的动量参数设为0.1，总迭代次数设为500。

为了更好地实现本发明，进一步地，所述步骤S200中目标检测网络模型最后利用二元交叉熵损失函数作为位置和类别损失值。

一种计算机可读存储介质，存储有计算机程序指令，所述程序指令被处理器执行时实现上述的目标检测方法。

本发明的有益效果：

(1)本发明的目标检测网络模型的主干网分别利用4组和3组混合扩展卷积提取特征。其中前4组提取低级信息，而后3组提取高级信息。同时，每一组中使用不同的膨胀系数，控制感受野大小。为了同时兼顾大目标和小目标的检测性能，膨胀系数越低的扩展卷积核越多。本发明通过搭建基于非均匀混合扩展卷积的目标检测模型，增强不同感受野的特征提取，提升网络特征在不同感受野层面的表达能力，大大地提高目标的检测精度；

(2)在同一特征尺度上，本发明采用混合扩张卷积。根据扩张卷积扩张系数不同，可以在同一特征图上提取不同感受野的特征，这样可以在不增加额外的计算量而提取更多的特征信息。同时使用锯齿结构这种混合扩张系数，可以保证同扩张系数的卷积组，不会遗漏任何特征。采用非均匀的输出通道数，是为了提取不同感受野特征的时候，提取更多小感受野的特征，较少的大感受野特征。这是因为相邻特征的信息相关性更高，而距离越远的特征值的信息相关性越低；

(3)本发明提出了在浅层和深层同时提取特征相关性的方法。一般的在深层的特征值，表示更加高级和复杂的特性。而浅层的特征值，表示低级和简单的特性。而普通的卷积只提取了相邻特征的关联，而放弃了非相邻特征的关联。本发明在浅层和深层同时使用混合扩张卷积有利于构建更加复杂的特征相关性，提高网络的表达能力。

附图说明

图1为目标检测网络模型的主干网络的结构示意图；

图2为残差网络的结构示意图。

具体实施方式

实施例1：

一种基于非均匀混合卷积的目标检测装置，数据采集模块、训练模块、检测模块；所述数据采集模块用于采集图像并形成训练集，所述训练模块用于将训练集输入目标检测网络模型进行训练并得到最优的目标检测模型，所述检测模块用于将待检测的图像输入最优的目标检测模型并输出预测的先验框偏移值，且将预测的先验框偏移值与先验框计算并完成非极大抑制后得到最终的目标位置。

如图1所示，所述目标检测网络模型的主干网络首先采用卷积处理，然后，采用4组扩张卷积提取低级特征信息，经过3层依次堆叠的残差网络处理后，采用3组扩张卷积提取高级特征信息，然后，采用空间金字塔池化做下采样，最后，采用2层的路径聚合网络处理并输出三个向量，分别代表三类大小锚框偏移值。

实施例2：

本实施例是在实施例1的基础上进行优化，如图1所示，所述目标检测网络模型的主干网络由从前至后依次设置的卷积模块、4组扩张卷积、拼接层、3层依次堆叠的卷积层与残差网络、卷积层、3组扩张卷积、拼接层、空间金字塔网络、路径聚合网络组成。

进一步地，所述4组扩张卷积的扩张系数分别为1、2、3、5，且对应的通道数为5、3、2、2；所述3组扩张卷积的扩张系数分别为1、2、3，且对应的通道数为128、96、32。

进一步地，从前至后依次设置的3层堆叠的残差网络包含的残差块的数量分别为1、3、3。残差网络的结构如图2所示，按照卷积模块、批量归一化层、激活函数层、特征相加融合层封装成残差网络。

在同一特征尺度上，本发明采用混合扩张卷积。根据扩张卷积扩张系数不同，可以在同一特征图上提取不同感受野的特征，这样可以在不增加额外的计算量而提取更多的特征信息。同时使用锯齿结构这种混合扩张系数，可以保证同扩张系数的卷积组，不会遗漏任何特征。采用非均匀的输出通道数，是为了提取不同感受野特征的时候，提取更多小感受野的特征，较少的大感受野特征。这是因为相邻特征的信息相关性更高，而距离越远的特征值的信息相关性越低。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

步骤S100：收集图像并形成训练集和测试集；

本发明在使用非均匀扩展卷积之后，整个网络在增加较少计算量时，提高了网络的感受野的丰富性，进而提高了网络的表达能力，以及网络的泛化性。而且，在相对复杂的场景中，该网络在检测不同大小目标时，都能达到较好的性能。该方法网络结构简单，训练速度快。根据实验，在不使用预训练参数时，该网络也能较快收敛，并达到较好的精度。

实施例4：

一种基于非均匀混合卷积的目标检测方法，包括以下步骤：

收集到任意大小的目标检测相关图像后，将所述的目标检测图像构成训练集和测试集，并转化成固定格式的数据存储方式输入到搭建的目标检测网络模型中进行训练，采用带预热的余弦退火学习率衰减，调节相关超参数，制定优化策略，迭代计算，直至得到最优的目标检测模型；

将需目标检测的图像输入到训练完成的模型中，输出得到预测相对于的先验框偏移值，偏移值在与先验框计算并完成非极大抑制之后就得到了最终的目标位置。

进一步地，所述的目标检测网络模型在主干网中先使用卷积，然后采用4组扩张卷积提取低级特征信息。之后，按照卷积模块、批量归一化层、激活函数层、特征相加融合层封装而成的残差模块3层堆叠。之后，采用3组扩张卷积提取高级特征信息。之后，采用空间金字塔池化做下采样。然后，采用2层的路径聚合网络，在最后输出三个向量，分别代表三类大小的锚框偏移值。

如图1所示，输入的数据是经过一次卷积之后的数据，数据结构为C×H×W。接着进行低级的扩展卷积，此处的扩展系数分别是1、2、3、5，这种混合扩张系数，在获取更大的感受野时，也避免了信息丢失。同时实现了一个类似下采样的操作，将H×W维度上的数据，转换到C通道上，降低了计算量。混合扩张卷积的输出通道数则为5、3、2、2，这种不均匀的通道数，可以提取更多小感受野的数据，较少大感受野的数据。因为相邻数据的相关度更高，而距离越远的数据相关性越低。在三组卷积和残差网络之后，是高级扩展卷积。此处的扩展系数分别是1、2、3，因为此时的输入数据H×W维度已经很小，如果扩张系数过大，会引入更多噪音，所以采用较小的扩张系数。

进一步地，所述的提取低级特征信息的4组扩张卷积的扩张系数，分别为：1、2、3、5。而对应的通道数为：5、3、2、2。较大的扩张系数可以让网络具有更大的感受野，平衡大目标和小目标的检测能力。而不平均的通道数可以让网络提取更多的邻近特征而提取较少的疏远特征。

进一步地，所述的提取高级特征信息的4组扩张卷积的扩张系数，分别为：1、2、3。而对应的通道数为：128、96、32。相对提取低级特征的扩张卷积，高级提取高级特征的扩张卷积数量更少，从而避免引入更多噪音，提高有效特征信息比例。

进一步地，所述的主干网络部分结构由3个残差网络块依次堆叠构成，每个残差网络块包含的残差块的数量分别是1、3、3。为了提高检测的速度，网络采用相对较少的残差网络堆叠，主要包含3层残差网络，而每一层的残差网络包含的残差块分别为1、3、3，残差网络的结构如图2所示。

最后利用二元交叉熵损失函数作为位置损失值和类别损失值，计算公式如下：

其中，N参数表示批处理样本的个数。p(y_i)表示第i个训练样本属于正样本的概率，若正样本y＝1，对于p(y_i)越大，则loss越小，在理想情况下p(y_i)＝1，而loss＝0。p(y_j)表示第j个训练的样本位置相对偏移位置预测值，而Balance则是为了保持平衡不同大小目标检测损失的平衡系数，一般的，如果目标较小该系数也较小，反之亦然。

进一步地，所述的优化策略是采用预热余弦下降法衰减学习率，预热30个迭代周期，使用随机梯度下降法作为优化器。

进一步地，所述的相关超参数主要是将学习率设为0.01，批处理大小设为64，批归一化层的动量参数设为0.1，总迭代次数设为500。

综上所述，本发明在使用非均匀扩展卷积之后，整个网络在增加较少计算量时，提高了网络的感受野的丰富性，进而提高了网络的表达能力，以及网络的泛化性。而且，在相对复杂的场景中，该网络在检测不同大小目标时，都能达到较好的性能。该方法网络结构简单，训练速度快。根据实验，在不使用预训练参数时，该网络也能较快收敛，并达到较好的精度。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于非均匀混合卷积的目标检测装置，其特征在于，数据采集模块、训练模块、检测模块；所述数据采集模块用于采集图像并形成训练集，所述训练模块用于将训练集输入目标检测网络模型进行训练并得到最优的目标检测模型，所述检测模块用于将待检测的图像输入最优的目标检测模型并输出预测的先验框偏移值，且将预测的先验框偏移值与先验框计算并完成非极大抑制后得到最终的目标位置；

2.根据权利要求1所述的一种基于非均匀混合卷积的目标检测装置，其特征在于，所述目标检测网络模型的主干网络由从前至后依次设置的卷积模块、4组扩张卷积、拼接层、3层依次堆叠的卷积层与残差网络、卷积层、3组扩张卷积、拼接层、空间金字塔网络、路径聚合网络组成。

3.根据权利要求1或2所述的一种基于非均匀混合卷积的目标检测装置，其特征在于，所述4组扩张卷积的扩张系数分别为1、2、3、5，且对应的通道数为5、3、2、2；所述3组扩张卷积的扩张系数分别为1、2、3，且对应的通道数为128、96、32。

4.根据权利要求1或2所述的一种基于非均匀混合卷积的目标检测装置，其特征在于，从前至后依次设置的3层堆叠的残差网络包含的残差块的数量分别为1、3、3。

5.一种基于非均匀混合卷积的目标检测方法，采用权利要求1-4任一项所述的目标检测装置进行，其特征在于，包括以下步骤：

步骤S100：收集图像并形成训练集和测试集；

6.根据权利要求5所述的一种基于非均匀混合卷积的目标检测方法，其特征在于，所述步骤S200中调节相关超参数包括将学习率设为0.01，批处理大小设为64，批归一化层的动量参数设为0.1，总迭代次数设为500。

7.根据权利要求5所述的一种基于非均匀混合卷积的目标检测方法，其特征在于，所述步骤S200中目标检测网络模型最后利用二元交叉熵损失函数作为位置和类别损失值。

8.一种计算机可读存储介质，存储有计算机程序指令，其特在于，所述程序指令被处理器执行时实现权利要求5-7任一项所述的目标检测方法。