CN111832577A

CN111832577A - 一种基于稠密连接的感数预测方法

Info

Publication number: CN111832577A
Application number: CN202010694942.XA
Authority: CN
Inventors: 盛建中; 唐赫
Original assignee: Wuhan Wukongyu Artificial Intelligence Application Software Co ltd
Current assignee: Wuhan Wukongyu Artificial Intelligence Application Software Co ltd
Priority date: 2020-07-19
Filing date: 2020-07-19
Publication date: 2020-10-27

Abstract

本发明属于深度神经网络在计算机视觉中的应用研究领域，具体涉及一种基于稠密连接的感数预测方法，包括以下步骤：数据预处理、训练DSN网络、使用DSN预测图像中的感数。本发明提出的DSN网络可以模拟人类视觉系统的感数机制、能做到端到端训练，给定一副输入图像可以自动判断图像中显著目标的个数，在预测图像中感数的任务中，比现有方法有更高的准确率。

Description

一种基于稠密连接的感数预测方法

技术领域

本发明属于深度神经网络在计算机视觉中的应用研究领域，具体涉及一种基于稠密连接的感数预测方法。

背景技术

神经生物学和认知心理学研究表明，人类的视觉神经系统具有快速定位感兴趣区域的能力，这一机制在计算机视觉领域称之为显著性检测。另外，人类视觉系统不需要通过逐一计数就可以快速判断感兴趣区域中显著目标的数量(不超过4个目标)，这一机制在计算机视觉中称之为感数。感数的预测方法目前在计算机视觉领域还没有被充分研究，但其研究意义十分重要，因为目标数量的预测是目标检测、实例分割、全景分割等领域中尚未完全解决的一个问题。而感数可用于确定显著实例分割中目标的数量，降低漏检测和重复检测目标的概率；也可以用于判断一幅图像中是否存在显著目标。

发明内容

由于目前对于感数预测仅有少量的方法且性能并不高，本发明提出一种基于稠密连接的神经网络DSN用于预测图像的感数。该网络可在数据集上端到端训练，并且预测感数的准确率超过当前最好的方法。

一种基于稠密连接的感数预测方法，包括以下步骤：

(1)采用裁剪、水平镜像、添加高斯噪声、人造图像的方法对感数数据集进行预处理；

(2)对稠密连接网络DSN进行训练；

(3)使用稠密连接网络DSN预测未知图像中的感数。

所述采用人造图像的方法对感数数据集进行预处理，包括：

从数据集中随机选取一张图像作为背景，将另一张图像上的目标截取并粘贴到背景上，粘贴过程可在背景的不同位置重复多次，以此获得一张具有较多显著目标的训练样本。

所述对稠密连接网络DSN进行训练，包括：

(3.1)将输入图像缩放成224×224大小；

(3.2)将第一个卷积层的步长设置为2，卷积核大小设置为7；

(3.3)使用3×3的最大池化层得到特征图，在池化后输出的特征图上使用7个SEblock结构，SE block结构为压缩奖惩模块，能对特征图通道与通道之间的依赖关系进行建模；

将经过池化层得到的特征图X∈R^H*W*C看做成X＝[x₁,x₂,...,x_c]，X_i∈R^H*W表示的是特征图X的第i个通道，c是特征图X的通道总数；

SE block结构对输入特征图的每一个通道x_i使用全局平均池化操作，获得一个与特征通道相关的特征向量v∈R^C，再使用两个全连接层来提取信息，在两个全连接层中间加入非线性关系，降低模型的复杂性并且提升模型的泛化能力，再使用sigmoid函数获得对应输入通道的权重，将SE block结构对特征图的操作表达为公式：

其中，η指的是ReLU激活函数，fc指的是全连接层，

指的是sigmoid激活函数，

W₁用于减少特征的维度，W₂用于恢复特征的维度以适应下一层的输入，缩减比例r是W₁和W₂的重要超参数，r的选值为16；

(3.4)将第一个SE block结构生成的特征图传入到6层的dense block结构中，每一层dense block结构由连续的1×1的卷积和3×3的平均池化层组成，共设置有4个denseblock结构，层数分别设置为6，12，48和32，对应每一层的输出特征图大小分别为56×56、28×28、14×14、7×7，dense block结构之间采用稠密连接方式，每个卷积的输入是之前所有卷积输出的组合；

dense block结构的处理过程表达为公式：

x_l＝H_l([x₀,x₁,x₂,...,x_l-1])

其中，非线性变化H_l(·)为dense block连续操作的函数，包括3个过程：批量归一化，线性整流函数和一个3×3的卷积；x_l为第l层的输出结果；[x₀,x₁,x₂,...,x_l-1]是一系列被连接的输入特征图；

(3.5)在每两个连续的dense block之间使用了降采样操作，降采样操作由连续的1×1卷积层和2×2平均池化层组成；

(3.6)对经过4个dense block结构处理之后的结果依次使用7×7平均池化层，1000维度的全连接层以及4维度的全连接层。

本发明的有益效果在于：

(1)本发明提出的DSN网络可以模拟人类视觉系统的感数机制；

(2)本发明提出的DNS网络可以做到端到端训练，给定一副输入图像可以自动判断图像中显著目标的个数；

(3)在预测图像中感数的任务中，比现有方法有更高的准确率。

附图说明

图1为预测感数的稠密连接网络结构；

图2为SE block结构的工作流程图；

图3为稠密连接网络预测的混淆矩阵。

具体实施方式

下面结合附图对本发明做进一步描述。

术语解释：

感数：对图像中目标数量的感知。在任务中可理解为预测一张图像中显著目标实例的个数。DSN，densely connected subitizing network，预测感数的稠密连接网络，在DenseNet的结构上改进的神经网络，可以预测图像中实例的个数。SE block，Squeeze-and-Excitation block，压缩奖惩模块，压缩奖惩模块对特征图通道与通道之间的依赖关系进行建模，可以提高网络的信息的利用率。Dense block，稠密连接模块，DenseNet中使用的网络结构，每个卷积层的网络的输入是前面所有网络的输出的拼接，这样的稠密连接方式使得每一层都可以利用前面所有层学习到的信息，可以使得梯度更好的传播，使得深层次的神经网络训练更方便。

一种基于稠密连接的感数预测方法，具体步骤包括：

1、数据预处理：

由于现有的感数数据集Multi-Salient-Object(MSO)只有5520个训练样本，这个数据规模对于一个图像分类网络是不够的。因此，我们采取了人造图像的方式对数据进行增强，具体的增强方式包括：无视图像原始尺寸，随机将图像裁剪为256*256大小；水平镜像；添加高斯噪声；人造图像：从数据集中随机选取一张图像作为背景，将另一张图像上的目标截取并粘贴到背景上，粘贴过程可在背景的不同位置重复多次，以此获得一张具有较多显著目标的训练样本。

2、训练DSN：

我们发明了DSN网络，用于确定图像中的感数数目。DenseNet是一种具有稠密连接的卷积神经网路，用于图像的分类任务。DSN是在DenseNet的基础上改进的网络结构，主要是在DenseNet中引入了SE block结构。

首先，把输入图像缩放成224×224大小以适应DSN的降采样操作。第一个卷积层的步长设置为2，卷积核大小设置为7。然后使用3×3的最大池化层，在池化后输出的特征层上使用SE block结构。我们把经过池化层得到的特征图X∈R^H*W*C看做成X＝[x₁,x₂,...,x_c]，X_i∈R^H*W表示的是特征图X的第i个通道，c是特征图X的通道总数。

SE block结构首先对输入特征图的每一个通道x_i使用全局平均池化操作，获得一个与特征通道相关的特征向量v∈R^C。然后使用两个全连接层来提取信息，在两个全连接层中间加入非线性关系，降低模型的复杂性并且提升模型的泛化能力。最后使用sigmoid函数获得对应输入通道的权重。压缩奖惩网络模块的过程可以表达为如下公式：

η指的是ReLU激活函数，fc指的是全连接层，

指的是sigmoid激活函数，

W₁用于减少特征的维度，W₂用于恢复特征的维度以适应下一层的输入。缩减比例r是W₁和W₂的重要超参数。我们所有SE block的r都设置为16。在DSN中，我们总共使用了7个SEblock结构。

我们把第一个SE block生成的特征图传入到6层的dense block中。dense block的每一层由连续的1×1的卷积和2×2的平均池化层组成。

假设一个dense block有L层，我们定义非线性变化H_l(·)为dense block连续操作的函数。这个函数包括3个过程：批量归一化，线性整流函数和一个3×3的卷积。我们定义x_l为第l层的输出结果，dense block的处理过程可以被定义为：

x_l＝H_l([x₀,x₁,x₂,...,x_l-1])

[x₀,x₁,x₂,...,x_l-1]是一系列被连接的输入特征图，这种连接方式可以降低特征的损失并且提高特征的利用率。我们在DSN中总共使用了4个dense block，每个denseblock的层数分别设置为6，12，48和32。对应每一层的输出特征图大小分别为56×56，28×28，14×14，7×7。我们在每两个连续的dense block之间使用了降采样操作。降采样操作由连续的1×1卷积层和2×2平均池化层组成。在整个DSN的最后，我们按照顺序使用7×7平均池化层，1000维度的全连接层以及4维度的全连接层。人类的视觉系统最多可以自动识别图像中4个显著实例，所以我们设置最后的全连接层的维度为4，去预测感数为1，2，3和4以上的结果。

3、使用DSN预测未知图像中的感数；

一种基于稠密连接的感数预测方法，本实例使用中山大学人机物智能融合实验室的InstanceSaliency1K数据库来验证，具体步骤包括：

将数据集按照5：2：3的比例分割，得到500张训练集，200张验证集，300张测试集。训练DSN用于预测图像中的感数；

我们发明了DSN网络，用于确定图像中的感数数目。DenseNet是一种具有稠密连接的卷积神经网路，用于图像分类任务。DSN是在DenseNet的基础上改进的网络结构，主要是在DenseNet中引入了SE block结构。训练DSN的具体步骤包括：

选择随机梯度下降作为训练的优化器，随机梯度下降的权重衰减和动量分别设置为5×10^-4和0.95。DSN中所有参数的初始学习率都设置为0.001，并且所有训练样本每训练完7次，学习率就变为当前值的十分之一。所有训练数据都被缩放成256×256的大小，再随机剪裁成224×224的大小。所有验证集和测试集数据都被直接缩放成224×224的大小。因为显存的限制，训练数据的批大小设置为8。

因为训练样本不足，我们首先人工合成一批人造数据。具体的合成方法是从SUN数据集中选取感数为0的数据集，然后从SOS数据集中挑选感数为1的数据集，最后把感数为1的数据集按照一定数量(1，2，3，4)粘贴在感数为0的数据集上，可以得到一批人工数据。

使用得到的人造数据训练DSN，把人造数据集按照8：2的比例划分为训练集和验证集。使用ImageNet预训练的DenseNet初始化DSN参数，训练集的迭代次数设置为100，每一次迭代结束后，在验证集上做测试，选取在验证集上平均精度值最高的DSN参数，保存下来。

再使用SOS数据集训练DSN，把SOS数据集按照8：2的比例划分为训练集和验证集。使用上一步中人造数据集训练保存的DSN参数初始化DSN。训练集的迭代次数也设置为100，每一轮迭代结束后，在验证集上做测试，选取验证集上平均精度值最高的参数，保存下来。

最后在InstanceSaliency1K的500张训练集上做最终训练。使用SOS数据集训练得到的DSN参数初始化DSN。同样的，迭代100次，选取验证集上平均精度最高的作为最终结果。DSN的是分类问题，损失函数使用交叉熵损失函数，公式如下：

表示的是DSN预测的结果，表示样本i属于类别c概率，DSN中的c的数目是4，代表了感数为1，2，3和4以上。

最终，DSN在InstanceSaliency1K的测试集的表现是，预测感数为1的准确率是98％，感数为2的准确率是78％，感数为3的准确率是67％，感数大于等于4的准确率是51％。DSN预测的混淆矩阵如图3所示。

Claims

1.一种基于稠密连接的感数预测方法，其特征在于，包括以下步骤：

(2)对稠密连接网络DSN进行训练；

(3)使用稠密连接网络DSN预测未知图像中的感数。

2.根据权利要求1所述的一种基于稠密连接的感数预测方法，其特征在于，所述采用人造图像的方法对感数数据集进行预处理，包括：

3.根据权利要求1所述的一种基于稠密连接的感数预测方法，其特征在于，所述对稠密连接网络DSN进行训练，包括：

(3.1)将输入图像缩放成224×224大小；

(3.2)将第一个卷积层的步长设置为2，卷积核大小设置为7；

(3.3)使用3×3的最大池化层得到特征图，在池化后输出的特征图上使用7个SE block结构，SE block结构为压缩奖惩模块，能对特征图通道与通道之间的依赖关系进行建模；

其中，η指的是ReLU激活函数，fc指的是全连接层，

指的是sigmoid激活函数，

dense block结构的处理过程表达为公式：

x_l＝H_l([x₀,x₁,x₂,...,x_l-1])