CN111832577A - 一种基于稠密连接的感数预测方法 - Google Patents

一种基于稠密连接的感数预测方法 Download PDF

Info

Publication number
CN111832577A
CN111832577A CN202010694942.XA CN202010694942A CN111832577A CN 111832577 A CN111832577 A CN 111832577A CN 202010694942 A CN202010694942 A CN 202010694942A CN 111832577 A CN111832577 A CN 111832577A
Authority
CN
China
Prior art keywords
dense
layer
dsn
feature
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010694942.XA
Other languages
English (en)
Inventor
盛建中
唐赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Wukongyu Artificial Intelligence Application Software Co ltd
Original Assignee
Wuhan Wukongyu Artificial Intelligence Application Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Wukongyu Artificial Intelligence Application Software Co ltd filed Critical Wuhan Wukongyu Artificial Intelligence Application Software Co ltd
Priority to CN202010694942.XA priority Critical patent/CN111832577A/zh
Publication of CN111832577A publication Critical patent/CN111832577A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于深度神经网络在计算机视觉中的应用研究领域,具体涉及一种基于稠密连接的感数预测方法,包括以下步骤:数据预处理、训练DSN网络、使用DSN预测图像中的感数。本发明提出的DSN网络可以模拟人类视觉系统的感数机制、能做到端到端训练,给定一副输入图像可以自动判断图像中显著目标的个数,在预测图像中感数的任务中,比现有方法有更高的准确率。

Description

一种基于稠密连接的感数预测方法
技术领域
本发明属于深度神经网络在计算机视觉中的应用研究领域,具体涉及一种基于稠密连接的感数预测方法。
背景技术
神经生物学和认知心理学研究表明,人类的视觉神经系统具有快速定位感兴趣区域的能力,这一机制在计算机视觉领域称之为显著性检测。另外,人类视觉系统不需要通过逐一计数就可以快速判断感兴趣区域中显著目标的数量(不超过4个目标),这一机制在计算机视觉中称之为感数。感数的预测方法目前在计算机视觉领域还没有被充分研究,但其研究意义十分重要,因为目标数量的预测是目标检测、实例分割、全景分割等领域中尚未完全解决的一个问题。而感数可用于确定显著实例分割中目标的数量,降低漏检测和重复检测目标的概率;也可以用于判断一幅图像中是否存在显著目标。
发明内容
由于目前对于感数预测仅有少量的方法且性能并不高,本发明提出一种基于稠密连接的神经网络DSN用于预测图像的感数。该网络可在数据集上端到端训练,并且预测感数的准确率超过当前最好的方法。
一种基于稠密连接的感数预测方法,包括以下步骤:
(1)采用裁剪、水平镜像、添加高斯噪声、人造图像的方法对感数数据集进行预处理;
(2)对稠密连接网络DSN进行训练;
(3)使用稠密连接网络DSN预测未知图像中的感数。
所述采用人造图像的方法对感数数据集进行预处理,包括:
从数据集中随机选取一张图像作为背景,将另一张图像上的目标截取并粘贴到背景上,粘贴过程可在背景的不同位置重复多次,以此获得一张具有较多显著目标的训练样本。
所述对稠密连接网络DSN进行训练,包括:
(3.1)将输入图像缩放成224×224大小;
(3.2)将第一个卷积层的步长设置为2,卷积核大小设置为7;
(3.3)使用3×3的最大池化层得到特征图,在池化后输出的特征图上使用7个SEblock结构,SE block结构为压缩奖惩模块,能对特征图通道与通道之间的依赖关系进行建模;
将经过池化层得到的特征图X∈RH*W*C看做成X=[x1,x2,...,xc],Xi∈RH*W表示的是特征图X的第i个通道,c是特征图X的通道总数;
SE block结构对输入特征图的每一个通道xi使用全局平均池化操作,获得一个与特征通道相关的特征向量v∈RC,再使用两个全连接层来提取信息,在两个全连接层中间加入非线性关系,降低模型的复杂性并且提升模型的泛化能力,再使用sigmoid函数获得对应输入通道的权重,将SE block结构对特征图的操作表达为公式:
Figure BDA0002590662230000024
其中,η指的是ReLU激活函数,fc指的是全连接层,
Figure BDA0002590662230000021
指的是sigmoid激活函数,
Figure BDA0002590662230000022
Figure BDA0002590662230000023
W1用于减少特征的维度,W2用于恢复特征的维度以适应下一层的输入,缩减比例r是W1和W2的重要超参数,r的选值为16;
(3.4)将第一个SE block结构生成的特征图传入到6层的dense block结构中,每一层dense block结构由连续的1×1的卷积和3×3的平均池化层组成,共设置有4个denseblock结构,层数分别设置为6,12,48和32,对应每一层的输出特征图大小分别为56×56、28×28、14×14、7×7,dense block结构之间采用稠密连接方式,每个卷积的输入是之前所有卷积输出的组合;
dense block结构的处理过程表达为公式:
xl=Hl([x0,x1,x2,...,xl-1])
其中,非线性变化Hl(·)为dense block连续操作的函数,包括3个过程:批量归一化,线性整流函数和一个3×3的卷积;xl为第l层的输出结果;[x0,x1,x2,...,xl-1]是一系列被连接的输入特征图;
(3.5)在每两个连续的dense block之间使用了降采样操作,降采样操作由连续的1×1卷积层和2×2平均池化层组成;
(3.6)对经过4个dense block结构处理之后的结果依次使用7×7平均池化层,1000维度的全连接层以及4维度的全连接层。
本发明的有益效果在于:
(1)本发明提出的DSN网络可以模拟人类视觉系统的感数机制;
(2)本发明提出的DNS网络可以做到端到端训练,给定一副输入图像可以自动判断图像中显著目标的个数;
(3)在预测图像中感数的任务中,比现有方法有更高的准确率。
附图说明
图1为预测感数的稠密连接网络结构;
图2为SE block结构的工作流程图;
图3为稠密连接网络预测的混淆矩阵。
具体实施方式
下面结合附图对本发明做进一步描述。
术语解释:
感数:对图像中目标数量的感知。在任务中可理解为预测一张图像中显著目标实例的个数。DSN,densely connected subitizing network,预测感数的稠密连接网络,在DenseNet的结构上改进的神经网络,可以预测图像中实例的个数。SE block,Squeeze-and-Excitation block,压缩奖惩模块,压缩奖惩模块对特征图通道与通道之间的依赖关系进行建模,可以提高网络的信息的利用率。Dense block,稠密连接模块,DenseNet中使用的网络结构,每个卷积层的网络的输入是前面所有网络的输出的拼接,这样的稠密连接方式使得每一层都可以利用前面所有层学习到的信息,可以使得梯度更好的传播,使得深层次的神经网络训练更方便。
一种基于稠密连接的感数预测方法,具体步骤包括:
1、数据预处理:
由于现有的感数数据集Multi-Salient-Object(MSO)只有5520个训练样本,这个数据规模对于一个图像分类网络是不够的。因此,我们采取了人造图像的方式对数据进行增强,具体的增强方式包括:无视图像原始尺寸,随机将图像裁剪为256*256大小;水平镜像;添加高斯噪声;人造图像:从数据集中随机选取一张图像作为背景,将另一张图像上的目标截取并粘贴到背景上,粘贴过程可在背景的不同位置重复多次,以此获得一张具有较多显著目标的训练样本。
2、训练DSN:
我们发明了DSN网络,用于确定图像中的感数数目。DenseNet是一种具有稠密连接的卷积神经网路,用于图像的分类任务。DSN是在DenseNet的基础上改进的网络结构,主要是在DenseNet中引入了SE block结构。
首先,把输入图像缩放成224×224大小以适应DSN的降采样操作。第一个卷积层的步长设置为2,卷积核大小设置为7。然后使用3×3的最大池化层,在池化后输出的特征层上使用SE block结构。我们把经过池化层得到的特征图X∈RH*W*C看做成X=[x1,x2,...,xc],Xi∈RH*W表示的是特征图X的第i个通道,c是特征图X的通道总数。
SE block结构首先对输入特征图的每一个通道xi使用全局平均池化操作,获得一个与特征通道相关的特征向量v∈RC。然后使用两个全连接层来提取信息,在两个全连接层中间加入非线性关系,降低模型的复杂性并且提升模型的泛化能力。最后使用sigmoid函数获得对应输入通道的权重。压缩奖惩网络模块的过程可以表达为如下公式:
Figure BDA0002590662230000044
η指的是ReLU激活函数,fc指的是全连接层,
Figure BDA0002590662230000041
指的是sigmoid激活函数,
Figure BDA0002590662230000042
Figure BDA0002590662230000043
W1用于减少特征的维度,W2用于恢复特征的维度以适应下一层的输入。缩减比例r是W1和W2的重要超参数。我们所有SE block的r都设置为16。在DSN中,我们总共使用了7个SEblock结构。
我们把第一个SE block生成的特征图传入到6层的dense block中。dense block的每一层由连续的1×1的卷积和2×2的平均池化层组成。
假设一个dense block有L层,我们定义非线性变化Hl(·)为dense block连续操作的函数。这个函数包括3个过程:批量归一化,线性整流函数和一个3×3的卷积。我们定义xl为第l层的输出结果,dense block的处理过程可以被定义为:
xl=Hl([x0,x1,x2,...,xl-1])
[x0,x1,x2,...,xl-1]是一系列被连接的输入特征图,这种连接方式可以降低特征的损失并且提高特征的利用率。我们在DSN中总共使用了4个dense block,每个denseblock的层数分别设置为6,12,48和32。对应每一层的输出特征图大小分别为56×56,28×28,14×14,7×7。我们在每两个连续的dense block之间使用了降采样操作。降采样操作由连续的1×1卷积层和2×2平均池化层组成。在整个DSN的最后,我们按照顺序使用7×7平均池化层,1000维度的全连接层以及4维度的全连接层。人类的视觉系统最多可以自动识别图像中4个显著实例,所以我们设置最后的全连接层的维度为4,去预测感数为1,2,3和4以上的结果。
3、使用DSN预测未知图像中的感数;
一种基于稠密连接的感数预测方法,本实例使用中山大学人机物智能融合实验室的InstanceSaliency1K数据库来验证,具体步骤包括:
将数据集按照5:2:3的比例分割,得到500张训练集,200张验证集,300张测试集。训练DSN用于预测图像中的感数;
我们发明了DSN网络,用于确定图像中的感数数目。DenseNet是一种具有稠密连接的卷积神经网路,用于图像分类任务。DSN是在DenseNet的基础上改进的网络结构,主要是在DenseNet中引入了SE block结构。训练DSN的具体步骤包括:
选择随机梯度下降作为训练的优化器,随机梯度下降的权重衰减和动量分别设置为5×10-4和0.95。DSN中所有参数的初始学习率都设置为0.001,并且所有训练样本每训练完7次,学习率就变为当前值的十分之一。所有训练数据都被缩放成256×256的大小,再随机剪裁成224×224的大小。所有验证集和测试集数据都被直接缩放成224×224的大小。因为显存的限制,训练数据的批大小设置为8。
因为训练样本不足,我们首先人工合成一批人造数据。具体的合成方法是从SUN数据集中选取感数为0的数据集,然后从SOS数据集中挑选感数为1的数据集,最后把感数为1的数据集按照一定数量(1,2,3,4)粘贴在感数为0的数据集上,可以得到一批人工数据。
使用得到的人造数据训练DSN,把人造数据集按照8:2的比例划分为训练集和验证集。使用ImageNet预训练的DenseNet初始化DSN参数,训练集的迭代次数设置为100,每一次迭代结束后,在验证集上做测试,选取在验证集上平均精度值最高的DSN参数,保存下来。
再使用SOS数据集训练DSN,把SOS数据集按照8:2的比例划分为训练集和验证集。使用上一步中人造数据集训练保存的DSN参数初始化DSN。训练集的迭代次数也设置为100,每一轮迭代结束后,在验证集上做测试,选取验证集上平均精度值最高的参数,保存下来。
最后在InstanceSaliency1K的500张训练集上做最终训练。使用SOS数据集训练得到的DSN参数初始化DSN。同样的,迭代100次,选取验证集上平均精度最高的作为最终结果。DSN的是分类问题,损失函数使用交叉熵损失函数,公式如下:
Figure BDA0002590662230000051
Figure BDA0002590662230000052
表示的是DSN预测的结果,表示样本i属于类别c概率,DSN中的c的数目是4,代表了感数为1,2,3和4以上。
最终,DSN在InstanceSaliency1K的测试集的表现是,预测感数为1的准确率是98%,感数为2的准确率是78%,感数为3的准确率是67%,感数大于等于4的准确率是51%。DSN预测的混淆矩阵如图3所示。

Claims (3)

1.一种基于稠密连接的感数预测方法,其特征在于,包括以下步骤:
(1)采用裁剪、水平镜像、添加高斯噪声、人造图像的方法对感数数据集进行预处理;
(2)对稠密连接网络DSN进行训练;
(3)使用稠密连接网络DSN预测未知图像中的感数。
2.根据权利要求1所述的一种基于稠密连接的感数预测方法,其特征在于,所述采用人造图像的方法对感数数据集进行预处理,包括:
从数据集中随机选取一张图像作为背景,将另一张图像上的目标截取并粘贴到背景上,粘贴过程可在背景的不同位置重复多次,以此获得一张具有较多显著目标的训练样本。
3.根据权利要求1所述的一种基于稠密连接的感数预测方法,其特征在于,所述对稠密连接网络DSN进行训练,包括:
(3.1)将输入图像缩放成224×224大小;
(3.2)将第一个卷积层的步长设置为2,卷积核大小设置为7;
(3.3)使用3×3的最大池化层得到特征图,在池化后输出的特征图上使用7个SE block结构,SE block结构为压缩奖惩模块,能对特征图通道与通道之间的依赖关系进行建模;
将经过池化层得到的特征图X∈RH*W*C看做成X=[x1,x2,...,xc],Xi∈RH*W表示的是特征图X的第i个通道,c是特征图X的通道总数;
SE block结构对输入特征图的每一个通道xi使用全局平均池化操作,获得一个与特征通道相关的特征向量v∈RC,再使用两个全连接层来提取信息,在两个全连接层中间加入非线性关系,降低模型的复杂性并且提升模型的泛化能力,再使用sigmoid函数获得对应输入通道的权重,将SE block结构对特征图的操作表达为公式:
Figure FDA0002590662220000011
其中,η指的是ReLU激活函数,fc指的是全连接层,
Figure FDA0002590662220000012
指的是sigmoid激活函数,
Figure FDA0002590662220000013
Figure FDA0002590662220000014
W1用于减少特征的维度,W2用于恢复特征的维度以适应下一层的输入,缩减比例r是W1和W2的重要超参数,r的选值为16;
(3.4)将第一个SE block结构生成的特征图传入到6层的dense block结构中,每一层dense block结构由连续的1×1的卷积和3×3的平均池化层组成,共设置有4个denseblock结构,层数分别设置为6,12,48和32,对应每一层的输出特征图大小分别为56×56、28×28、14×14、7×7,dense block结构之间采用稠密连接方式,每个卷积的输入是之前所有卷积输出的组合;
dense block结构的处理过程表达为公式:
xl=Hl([x0,x1,x2,...,xl-1])
其中,非线性变化Hl(·)为dense block连续操作的函数,包括3个过程:批量归一化,线性整流函数和一个3×3的卷积;xl为第l层的输出结果;[x0,x1,x2,...,xl-1]是一系列被连接的输入特征图;
(3.5)在每两个连续的dense block之间使用了降采样操作,降采样操作由连续的1×1卷积层和2×2平均池化层组成;
(3.6)对经过4个dense block结构处理之后的结果依次使用7×7平均池化层,1000维度的全连接层以及4维度的全连接层。
CN202010694942.XA 2020-07-19 2020-07-19 一种基于稠密连接的感数预测方法 Pending CN111832577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010694942.XA CN111832577A (zh) 2020-07-19 2020-07-19 一种基于稠密连接的感数预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010694942.XA CN111832577A (zh) 2020-07-19 2020-07-19 一种基于稠密连接的感数预测方法

Publications (1)

Publication Number Publication Date
CN111832577A true CN111832577A (zh) 2020-10-27

Family

ID=72924379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010694942.XA Pending CN111832577A (zh) 2020-07-19 2020-07-19 一种基于稠密连接的感数预测方法

Country Status (1)

Country Link
CN (1) CN111832577A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609525A (zh) * 2017-09-19 2018-01-19 吉林大学 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN109389043A (zh) * 2018-09-10 2019-02-26 中国人民解放军陆军工程大学 一种无人机航拍图片的人群密度估计方法
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN109614869A (zh) * 2018-11-10 2019-04-12 天津大学 一种基于多尺度压缩奖惩网络的病理图像分类方法
WO2019223397A1 (zh) * 2018-05-23 2019-11-28 北京市商汤科技开发有限公司 图像处理方法、装置、计算机设备和计算机存储介质
CN110766063A (zh) * 2019-10-17 2020-02-07 南京信息工程大学 基于压缩激励和紧密连接卷积神经网络的图像分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609525A (zh) * 2017-09-19 2018-01-19 吉林大学 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
WO2019223397A1 (zh) * 2018-05-23 2019-11-28 北京市商汤科技开发有限公司 图像处理方法、装置、计算机设备和计算机存储介质
CN109389043A (zh) * 2018-09-10 2019-02-26 中国人民解放军陆军工程大学 一种无人机航拍图片的人群密度估计方法
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN109614869A (zh) * 2018-11-10 2019-04-12 天津大学 一种基于多尺度压缩奖惩网络的病理图像分类方法
CN110766063A (zh) * 2019-10-17 2020-02-07 南京信息工程大学 基于压缩激励和紧密连接卷积神经网络的图像分类方法

Similar Documents

Publication Publication Date Title
CN111126258B (zh) 图像识别方法及相关装置
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN112733749B (zh) 融合注意力机制的实时行人检测方法
CN112418027A (zh) 一种改进U-Net网络的遥感影像道路提取方法
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN111179419B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN110633745A (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN111160375A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN112084868A (zh) 一种基于注意力机制的遥感图像中目标计数方法
CN110879982A (zh) 一种人群计数系统及方法
CN112862023B (zh) 对象密度确定方法、装置、计算机设备和存储介质
CN114220458B (zh) 基于阵列水听器的声音识别方法和装置
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN112633377A (zh) 一种基于生成对抗网络的人体行为预测方法及系统
CN113781510A (zh) 边缘检测方法、装置及电子设备
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN112818774A (zh) 一种活体检测方法及装置
CN117351363A (zh) 基于Transformer的遥感影像建筑物提取方法
CN117058235A (zh) 跨多种室内场景的视觉定位方法
CN111950411A (zh) 模型确定方法及相关装置
CN111832577A (zh) 一种基于稠密连接的感数预测方法
CN115170803A (zh) 一种基于e-solo的城市街景实例分割方法
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
Sathya et al. An Improved Music Recommendation System for Facial Recognition and Mood Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination