CN109934241B - 可集成到神经网络架构中的图像多尺度信息提取方法 - Google Patents

可集成到神经网络架构中的图像多尺度信息提取方法 Download PDF

Info

Publication number
CN109934241B
CN109934241B CN201910242489.6A CN201910242489A CN109934241B CN 109934241 B CN109934241 B CN 109934241B CN 201910242489 A CN201910242489 A CN 201910242489A CN 109934241 B CN109934241 B CN 109934241B
Authority
CN
China
Prior art keywords
neural network
feature map
convolution
information
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910242489.6A
Other languages
English (en)
Other versions
CN109934241A (zh
Inventor
程明明
高尚华
赵凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN201910242489.6A priority Critical patent/CN109934241B/zh
Publication of CN109934241A publication Critical patent/CN109934241A/zh
Application granted granted Critical
Publication of CN109934241B publication Critical patent/CN109934241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

可集成到神经网络架构中的图像多尺度信息特征方法及应用。本发明从更细粒度的层面提升了神经网络的多尺度表达能力。本发明方法将进入提取器的特征图按照通道数量被分成几个特征图子集;然后将各特征图子集的送入依照层级递进的结构排布连接的卷积核组中,完成不同尺度信息的提取;再经过另一个融合卷积层进行信息融合,实现对不同尺度信息的融合。该方法可集成到现有的绝大多数神经网络结构中,大幅提升原有神经网络的性能。此外,基于该方法的神经网络能为包括但不限于图像分类、物体检测、注意力预测、目标跟踪、动作识别、语义分割、显著物体检测和骨架提取等视觉任务提供高质量的语义特征信息。

Description

可集成到神经网络架构中的图像多尺度信息提取方法
技术领域
本发明属于计算机视觉技术领域,特别涉及到利用神经网络提取视觉数据中多尺度信息的方法及应用。
背景技术
视觉模式天然呈现多尺度特征。典型的多尺度问题包括多层含义:首先,物体可以在单个图像中以不同尺寸出现;其次,判断物体所需的信息可能比物体本身占用更大的区域;第三,感知来自不同尺度的信息对于理解细节以及诸如细粒度分类和语义分割等任务的对象是必不可少的。因此,感知视觉认知任务的多尺度信息至关重要。
几乎所有的视觉检测任务都能受益于强大的多尺度特征表达能力。自深度神经网络诞生起,就因为相对传统方法更强的多尺度信息学习和处理能力而备受关注。许多神经网络架构通过强大的多尺度表达能力在各种视觉任务中取得优越的性能。现有神经网络是由多种滤波器通过特定规则组合而成。由于输入的信息遵循从粗略到精细的特性,因此神经网络具有基本的多尺度特征表示能力。2012年引起人工智能热潮的深度学习框架AlexNet网络线性堆叠卷积层,与传统的视觉识别方法相比实现了显着的性能提升。但是,由于其网络深度和卷积核大小有限,AlexNet只有一个相对较小的感受野。牛津大学的Karen等人提出的VGGNet增加了网络深度,并将有着不同大小的卷积核的滤波器并行组合的方法进一步提升了神经网络的多尺度信息处理能力。更深的结构可以扩展感受野,有助于在更大尺度下提取特征。通过堆叠更多层比使用大内核更容易扩展感受野。因此,VGGNet在减小参数量的同时提供了比AlexNet更强大的多尺度表达模型。然而,AlexNet和VGGNet都采用线性拓扑结构堆叠卷积层,意味着它们只具有限范围的感受野,且只能处理在小尺度范围的物体。Google公司的Christian等人提出将有着不同大小的卷积核的卷积层并行组合来增强多尺度表示能力。但是由于计算资源的限制,GoogLeNet中的卷积核尺度无法进一步丰富。因此,GoogLeNet的多尺度特征表达方案仍然无法涵盖大范围的感受野。Inception Nets在GoogLeNet中的并行路径的每条路径中堆叠更多的卷积层,以进一步扩展网络的感受野。另一方面,微软研究院的何恺明等人提出在神经网络层间引入短连接,在解决梯度消失问题的同时构建了更深的网络结构。在特征提取过程中,短连接使卷积层具有多种组合,从而产生大量等效的特征尺度。同样,DenseNet中密集连接的层使网络能够处理各种具有不同尺度的物体。UC伯克利大学的Yu等人利用树形组合结构的层级特性构建了具有更高效的多尺度表达能力的网络结构。上述神经网络结构演进发展过程中,逐渐展现出越来越强的多尺度信息表达的学习能力。但是现有方法依然停留在层间的多尺度处理。如何充分开发层内多尺度信息,构建更有效的富尺度空间的网络结构是提升神经网络在各种视觉问题上性能表现的关键。
发明内容
本发明目的是解决现有方法存在的无法从细粒度水平提取多尺度信息的问题,提出一种可嵌入神经网络的简洁有效的图像多尺度信息提取方法。与现有大多数神经网络通过增加层间的多尺度表达能力不同,本发明在更细粒度的水平上改进了神经网络的多尺度表达能力。
本发明的技术方案
可集成到神经网络架构中的图像多尺度信息提取方法,包括:
a.将进入提取器的特征图按照通道数量被分成几个特征图子集;
所述输入特征图按照通道数量根据需要划分子集,所述子集的划分可以是平均划分,也可以是不平均划分。例如,本发明方法将一个具有s×w个通道的滤波器替换为s个具有w个通道滤波器组。这些具有较少通道数的滤波器组以逐层类残差样式连接,以增加输出特征可以表示的尺度数目。
b.处理上步所划分的各特征图子集的卷积核依照层级递进的结构排布连接;某一个特征图子集经过一个卷积层得到新的特征图与另一个特征图子集结合后继续送入另一个卷积层;重复此过程直至所有特征图子集被处理完成;每一个卷积层的等效感受野逐渐增大,完成不同尺度信息的提取;所述的卷积层可以采用标准卷积或组卷积等卷积方式;卷积层的卷积核尺寸根据需要调整为任意尺寸;
c.处理完的特征图子集采用拼接方法结合,再经过另一个融合卷集层进行信息融合,实现对所划分的几个特征图子集信息的融合。
本发明提供的图像多尺度信息提取方法可用于嵌入各种神经网络结构中,以提升神经网络对多尺度信息的表达能力。所述提取方法还可以与压缩激励等各种方法相结合,能够进一步提升神经网络的特征提取能力。嵌入所述提取方法的神经网络能够作为包括但不限于图像分类、物体检测、注意力预测、目标跟踪、动作识别、语义分割、显著物体检测、骨架提取和边缘检测的视觉任务的支撑网络。
本发明的优点和有益效果:
本发明在更细粒度的级别上提升了神经网络的多尺度潜力,这与利用分层操作的现有方法并不冲突。因此,本发明方法提出的图像多尺度信息提取模块,可以嵌入到许多现有的神经网络架构中,提升神经网络基础架构的特征表达能力。基于本模块的神经网络可以作为多种视觉任务的基础。
附图说明
图1为本发明中的多尺度信息提取方法示意图,其中,(a)为架构1,不考虑参数量限制的基础架构,(b)为架构2,考虑了参数量限制的架构。
图2为本发明中的多尺度信息提取方法与其他方法结合的方式。
图3为本发明应用到语义特征可视化任务时的效果示意图。
图4为本发明应用到显著性物体检测任务时的效果示意图。
图5为本发明应用到语义分割任务时的效果示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,多尺度信息提取方法如下:
a.特征图首先经过多尺度模块内的一个1×1卷积层形成通道数目为s×w的特征图集合;
b.经过1×1卷积层后,特征图被均分为s组特征图子集,表示为xi,i∈{1,2,...,s}。每个子集xi相比输入特征图具有相同的尺寸,但只有1/s的通道数;
c.每一个特征图子集有一个对应的卷积层,表示为Ki()。该卷积层的卷积核大小常采用3×3,但其他尺寸的卷积核也可以根据实际需求选择。yi用来表示特征图子集经过Ki()处理的输出结果。特征图子集xi与Ki-1()的输出结果yi-1相结合后被送入Ki(),重复此过程直至所有特征图子集被处理完成。
本发明针对不同视觉任务对参数量的不同限制,设计了两种架构。如图1(a)所示,架构1为基础架构,不考虑参数量限制。架构1的yi可表示为:
yi=Ki(xi+yi-1)
如图1(b)所示,架构2考虑了参数限制,省略了其中一个特征子图所对应的卷积层。架构2的yi可表示为:
Figure GDA0003885712040000041
由于组合效用,省略的一个卷积层不会影响可提取尺度的范围。注意每个卷积层Ki()有可能从所有满足条件{xj,j≤i}的特征图子集中获得特征信息。每当特征图子集xj通过一个卷积层时,该卷积层的输出结果会拥有比xj更大的感受野。由于组合爆炸效用,经过多尺度信息提取模块的输出特征图能够覆盖不同的特征尺度;
d.在多尺度信息提取中,特征图子集以多尺度方式被处理,有助于提取全局和本地信息。为了更好地融合不同尺度的信息,输出特征子图被按照通道拼接并经过另一个1×1卷积层融合信息。拆分和拼接策略可以使卷积层更有效地处理特征图。
构造多尺度信息提取方法中的参数s可作为调整模块覆盖尺度范围的控制参数,较大的s通常对应更强的多尺度特征提取能力。
参照图2,多尺度信息提取方法可与其他方法结合进一步提升神经网络对特征的提取能力。图2展示了多尺度信息提取模块分别与组卷积和压缩激励模块(SE block)结合。组卷积将卷积核从单分支过渡到多分支,从而提高神经网络的特征表达能力。本发明的设计中,可以采用组卷积代替标准卷积,其中c表示组卷积的分组数量。压缩激励模块通过训练学习特征图不同信道之间的相互依赖性来自适应地重新校准信道间的特征响应强度。本发明方法在残差连接的后面添加压缩激励模块。为证明本方法效果,故使用本方法与ResNet-50,ResNeXt-50和SENet-50三个基准方法结合进行ImageNet数据集上的分类测试。基准方法对应的本方法名称分别为:Res2Net-50,Res2NeXt-50和SE-Res2Net-50。本方法与基准方法的计算复杂度和参数量一致。结果如表1所示,使用本方法后的基准方法分类性能有较大提升。
表1
Figure GDA0003885712040000042
本发明提出的多尺度信息提取方法可以嵌入到现有的神经网络架构中,提升现有神经网络架构的多尺度特征表达能力。基于多尺度信息提取方法的基础神经网络可被用作包括但不限于图像分类,物体检测,注意力预测,目标跟踪,动作识别,语义分割,显著物体检测,骨架提取和边缘检测等视觉任务的语义提取器,从而提升上述任务的性能。表2为基准方法和本方法在物体检测任务上的性能对比。基准方法与本方法的唯一差异为本方法将基准方法的基本图像处理方法改成多尺度信息提取方法。在VOC07和COCO数据集上,基于本多尺度信息提取方法的方法相较基准方法有较大提升。
表2
Figure GDA0003885712040000051
参照图3,在语义特征可视化任务中,应用本发明的方法能够更准确覆盖目标物体位置。颜色亮度代表方法对特征定位的置信程度,亮度越高代表置信度越高。针对大物体,基准方法无法完全覆盖目标物体,而基于本发明的方法能够完整覆盖目标物体;针对小物体,基于本发明的方法能够精确定位目标位置,而基准方法只能找到目标物体的大致位置。
参照图4,在显著性物体检测任务下,应用本发明的方法能够准确判别场景中的显著性物体。基于本发明的方法可以准确分割出完整的显著性物体,并保证显著性物体的一体性。
参照图5,在语义分割任务下,应用本发明的方法能够准确分割出各种尺度下的物体。基准方法无法对复杂场景进行精确的像素级分割,而应用本发明的方法能够有效分割复杂场景下不同尺度的物体并保证物体的一体性。

Claims (3)

1.一种可集成到神经网络架构中的图像多尺度信息提取方法,所述提取方法应用到各种神经网络结构中,能够提升神经网络对多尺度信息的表达能力;所述提取方法与压缩激励方法相结合,能够进一步提升神经网络的特征提取能力;嵌入所述提取方法的神经网络能够作为包括图像分类、物体检测、注意力预测、目标跟踪、动作识别、语义分割、显著物体检测、骨架提取和边缘检测的视觉任务的支撑网络;
所述提取方法包括:
a.将进入提取器的特征图按照通道数量被分成几个特征图子集;
b.处理上步所划分的各特征图子集的卷积核依照层级递进的结构排布连接;某一个特征图子集经过一个卷积层得到新的特征图与另一个特征图子集结合后继续送入另一个卷积层;重复此过程直至所有特征图子集被处理完成;每一个卷积层的等效感受野逐渐增大,完成不同尺度信息的提取;
c.处理完的特征图子集采用拼接方法结合,再经过另一个融合卷积层进行信息融合,实现对所划分的几个特征图子集信息的融合。
2.根据权利要求1所述的多尺度信息提取方法,其特征在于:输入的特征图按照通道数量根据需要划分子集,所述子集的划分为平均划分或不平均划分。
3.根据权利要求1所述的多尺度信息提取方法,其特征在于:所述的卷积层采用标准卷积或组卷积的卷积方式;卷积层的卷积核尺寸根据需要调整为任意尺寸。
CN201910242489.6A 2019-03-28 2019-03-28 可集成到神经网络架构中的图像多尺度信息提取方法 Active CN109934241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910242489.6A CN109934241B (zh) 2019-03-28 2019-03-28 可集成到神经网络架构中的图像多尺度信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910242489.6A CN109934241B (zh) 2019-03-28 2019-03-28 可集成到神经网络架构中的图像多尺度信息提取方法

Publications (2)

Publication Number Publication Date
CN109934241A CN109934241A (zh) 2019-06-25
CN109934241B true CN109934241B (zh) 2022-12-09

Family

ID=66988580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910242489.6A Active CN109934241B (zh) 2019-03-28 2019-03-28 可集成到神经网络架构中的图像多尺度信息提取方法

Country Status (1)

Country Link
CN (1) CN109934241B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348537B (zh) * 2019-07-18 2022-11-29 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110414417B (zh) * 2019-07-25 2022-08-12 电子科技大学 一种基于多层次融合多尺度预测的交通标志牌识别方法
CN110543822A (zh) * 2019-07-29 2019-12-06 浙江理工大学 一种基于卷积神经网络和监督式离散哈希算法的指静脉识别方法
CN110458221B (zh) * 2019-08-05 2021-03-16 南开大学 基于在线注意力累积的挖掘目标物体区域的方法
CN110517254B (zh) * 2019-08-29 2023-03-10 清华大学 基于深度学习的临床靶区自动勾画方法、装置及相关设备
CN110781923B (zh) * 2019-09-27 2023-02-07 重庆特斯联智慧科技股份有限公司 特征提取方法及装置
CN111178432B (zh) * 2019-12-30 2023-06-06 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111242127B (zh) * 2020-01-15 2023-02-24 上海应用技术大学 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
CN111814608B (zh) * 2020-06-24 2023-10-24 长沙一扬电子科技有限公司 一种基于快速全卷积神经网络的sar目标分类方法
CN111862034B (zh) * 2020-07-15 2023-06-30 平安科技(深圳)有限公司 图像检测方法、装置、电子设备及介质
CN112184686B (zh) * 2020-10-10 2022-08-23 深圳大学 一种用于检测动力电池安全阀激光焊接缺陷的分割算法
CN112686297B (zh) * 2020-12-29 2023-04-14 中国人民解放军海军航空大学 一种雷达目标运动状态的分类方法及系统
CN112733961A (zh) * 2021-01-26 2021-04-30 苏州大学 基于注意力机制的糖尿病视网膜病变的分类方法及系统
CN113191185A (zh) * 2021-03-10 2021-07-30 中国民航大学 一种利用Dense2Net的雷达探测无人机目标分类方法
CN113205051B (zh) * 2021-05-10 2022-01-25 中国科学院空天信息创新研究院 基于高空间分辨率遥感影像的储油罐提取方法
CN113297942B (zh) * 2021-05-18 2022-09-27 合肥工业大学 基于分层压缩激励网络的户外多种场景快速分类识别方法
CN113537279A (zh) * 2021-05-18 2021-10-22 齐鲁工业大学 基于类残差卷积和lstm的covid-19识别系统
CN113344041B (zh) * 2021-05-20 2022-12-23 上海大学 一种基于多模型融合卷积神经网络的pcb缺陷图像识别方法
CN113537375B (zh) * 2021-07-26 2022-04-05 深圳大学 一种基于多尺度级联的糖尿病视网膜病变分级方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504055A (zh) * 2014-12-19 2015-04-08 常州飞寻视讯信息科技有限公司 基于图像相似度的商品相似计算方法及商品推荐系统
CN105184312A (zh) * 2015-08-24 2015-12-23 中国科学院自动化研究所 一种基于深度学习的文字检测方法及装置
CN106157319A (zh) * 2016-07-28 2016-11-23 哈尔滨工业大学 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
WO2018184195A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Joint training of neural networks using multi-scale hard example mining
CN108830855A (zh) * 2018-04-02 2018-11-16 华南理工大学 一种基于多尺度低层特征融合的全卷积网络语义分割方法
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195903B2 (en) * 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
US10147193B2 (en) * 2017-03-10 2018-12-04 TuSimple System and method for semantic segmentation using hybrid dilated convolution (HDC)

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504055A (zh) * 2014-12-19 2015-04-08 常州飞寻视讯信息科技有限公司 基于图像相似度的商品相似计算方法及商品推荐系统
CN105184312A (zh) * 2015-08-24 2015-12-23 中国科学院自动化研究所 一种基于深度学习的文字检测方法及装置
CN106157319A (zh) * 2016-07-28 2016-11-23 哈尔滨工业大学 基于卷积神经网络的区域和像素级融合的显著性检测方法
WO2018184195A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Joint training of neural networks using multi-scale hard example mining
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
CN108830855A (zh) * 2018-04-02 2018-11-16 华南理工大学 一种基于多尺度低层特征融合的全卷积网络语义分割方法
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs;Liang-Chieh Chen;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20180831;第40卷(第4期);全文 *
Global Contrast Based Salient Region Detection;Ming-Ming Cheng,;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20150531;第37卷(第3期);全文 *
多尺度空间特征提取的脊柱图像拼接算法;唐晓微;《计算机工程与应用》;20141231;第50卷(第2期);全文 *

Also Published As

Publication number Publication date
CN109934241A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109934241B (zh) 可集成到神经网络架构中的图像多尺度信息提取方法
Gómez-Ríos et al. Towards highly accurate coral texture images classification using deep convolutional neural networks and data augmentation
Chen et al. Drop an octave: Reducing spatial redundancy in convolutional neural networks with octave convolution
Long et al. Fully convolutional networks for semantic segmentation
CN112308200B (zh) 神经网络的搜索方法及装置
CN109829391B (zh) 基于级联卷积网络和对抗学习的显著性目标检测方法
Lin et al. Sequential dual attention network for rain streak removal in a single image
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN111582316A (zh) 一种rgb-d显著性目标检测方法
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
Li et al. Data-driven neuron allocation for scale aggregation networks
CN108021923A (zh) 一种用于深度神经网络的图像特征提取方法
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法
CN116721112B (zh) 基于双分支解码器网络的水下伪装物体图像分割方法
CN113822383B (zh) 一种基于多域注意力机制的无人机检测方法及系统
CN105303163B (zh) 一种目标检测的方法及检测装置
CN110929735B (zh) 一种基于多尺度特征注意机制的快速显著性检测方法
Zhang et al. R2net: Residual refinement network for salient object detection
Li et al. 2D amodal instance segmentation guided by 3D shape prior
Chan et al. Asymmetric cascade fusion network for building extraction
CN114049258A (zh) 一种用于图像处理的方法、芯片、装置及电子设备
Chacon-Murguia et al. Moving object detection in video sequences based on a two-frame temporal information CNN
CN115035402B (zh) 一种用于土地覆盖分类问题的多级特征聚合系统及方法
CN116309545A (zh) 一种面向医学显微图像的单阶段细胞核实例分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant