CN108875906B - 一种多尺度逐步累加的卷积神经网络学习方法 - Google Patents
一种多尺度逐步累加的卷积神经网络学习方法 Download PDFInfo
- Publication number
- CN108875906B CN108875906B CN201810359791.5A CN201810359791A CN108875906B CN 108875906 B CN108875906 B CN 108875906B CN 201810359791 A CN201810359791 A CN 201810359791A CN 108875906 B CN108875906 B CN 108875906B
- Authority
- CN
- China
- Prior art keywords
- feature
- convolutional neural
- neural networks
- image
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种多尺度逐步累加的卷积神经网络学习方法,可广泛应用于机器视觉和人工智能领域,例如目标检测、目标分类、目标识别等。首先,本发明采用均值池化操作对输入图像构建多尺度图像金字塔;然后,将各个不同尺度的图像逐步送入卷积神经网络,让卷积神经网络随着网络深度的逐步深入,能够在多种不同尺度的图像上进行学习并进行特征逐步累加,从提高了而卷积神经网络的特征学习能力。
Description
技术领域
本发明涉及机器视觉和人工智能领域,特别涉及一种多尺度逐步累加的卷积神经网络学习方法,可应用于目标检测、目标分类和目标识别系统。
背景技术
卷积神经网络是目前最流行的一种深度学习算法。近年来涌现出大量基于卷积神经网络的目标检测、目标分类和目标识别算法,这些算法的准确性很大程度上依赖于卷积神经网络特征学习能力。
对卷积神经网络的研究,目前多数聚焦于通过加深网络深度来提升特征学习能力,出现了很多极深的卷积神经网络,例如GoogleNet,ResNet,DenseNet等。这些极深的卷积神经网络确实提升了卷积神经网络的特征学习能力,但是其相应的计算量也急剧增长。此外,不管网络的深度如何,这些极深的卷积神经网络都是将最后的特征映射(FeatureMap)作为最终的图像特征表达,意味着只有单一尺度的特征被学习得到,因此卷积神经网络的特征学习能力依然具有一定的提升空间。
除了上述极深的卷积神经网络之外,亦有少数多尺度卷积神经网络被提出来。文献[1](P.Sermanet and Y.LeCun.Traffic sign recognition with multi-scaleconvolutional networks[C].The 2011International Joint Conference on NeuralNetworks,San Jose,CA,2011,pp.2809-2813)将不同深度的下采样池化(Pooling)层输出的特征映射进行线性组合获得最终的多尺度融合特征。可见,文献[1]的这种做法并不是在一个多尺度的图像金字塔中学习多尺度特征。文献[2](J.Liu,Z.J.Zha,and Q.I.Tian,etal.Multi-scale triplet CNN for person re-identification[C].ACM on MultimediaConference,Theater Tuschinski,Amsterdam,2016,pp.192-196)首先使用不同的下采样率,获得一系列分辨率不同的输入图像;其次,在高分辨率的图像上训练深的卷积神经网络,而在低分辨率图像上训练浅的卷积神经网络;最后,把多个深浅不一的卷积神经网络的最后一层输出的特征映射全部串联起来,获得最终的多尺度融合特征。可见,文献[2]的算法未能把图像下采样操作整合到卷积神经网络的学习中,且它实际上需要训练同时多个卷积神经网络,计算量偏大。
发明内容
本发明的目的在于提供一种多尺度逐步累加的卷积神经网络学习方法,该方法具有能够融合多种不同尺度的特征的能力,可提升卷积神经网络的特征学习能力。
为实现上述目的,本发明采用的技术方案是:
一种多尺度逐步累加的卷积神经网络学习方法,其具体包括以下步骤:
步骤1、构建多尺度图像金字塔;
输入图像作为第一个尺度图像,将输入图像通过低通滤波器滤除噪声,并利用下采样操作得到分辨率更低的第二个尺度图像;然后在第二个尺度图像上继续进行低通滤波和下采样操作,得到第三个尺度图像;如此重复,最终构建出具有N个尺度图像的多尺度图像金字塔,其中,N≥2;
步骤2、逐步累加的多尺度特征学习;
把步骤1中的构建多尺度图像金字塔中各个不同尺度的图像逐步送入卷积神经网络,使得在不同尺度的图像上学习的特征随着网络深度的深入逐步累加,最终获得图像的多尺度特征表达,具体如下:
首先,融合第一个尺度图像和第二个尺度图像上的特征,即将第一个尺度图像经过卷积神经网络单元和下采样的最大池化层后得到特征F1,第二个尺度图像经过卷积神经网络单元后得到特征F2,将特征F1和特征F2进行融合得到融合特征G2;
当N=2时,将融合特征G2依次经过卷积神经网络单元、下采样的最大池化层、全连接单元、Softmax损失函数后,得到图像的多尺度特征表达;
当N≥3时,将融合特征G2与第三个尺度图像上的特征进行融合,即将融合特征G2经过卷积神经网络单元和下采样的最大池化层后得到特征H2,第三个尺度图像经过卷积神经网络单元后得到特征F3,将特征H2和特征F3进行融合得到融合特征G3;以此类推,直至得到融合特征GN,最后将融合特征GN依次经过卷积神经网络单元、下采样的最大池化层、全连接单元、Softmax损失函数后,得到图像的多尺度特征表达。
所述步骤1中,所述低通滤波为均值滤波,所述下采样操作为等间隔下采样。所述均值滤波和等间隔下采样采用均值池化操作实现。
所述步骤2中,不同尺度图像上的特征在进行融合时采用逐步累加的方式实现。
采用上述方案后,本发明首先采用均值池化操作对输入图像构建多尺度图像金字塔;然后将各个不同尺度的图像逐步送入卷积神经网络,让卷积神经网络随着网络深度的逐步深入,能够在多种不同尺度的图像上进行学习并进行特征的逐步累加,从提高了而卷积神经网络的特征学习能力。
此外,由于从不同尺度图像上所学的特征采用逐步累加的方式进行融合,在多尺度特征学习过程中,不会显著增加特征维数,进而保证卷积神经网络的复杂度不会显著增加,从而节省了计算量。
附图说明
图1为本发明卷积神经网络学习方法流程图;
图2为本发明卷积神经网络单元框图。
具体实施方式
本发明揭示了一种多尺度逐步累加的卷积神经网络学习方法,其采用均值池化操作对输入图像构建多尺度图像金字塔;然后,将各个不同尺度的图像逐步送入卷积神经网络,让卷积神经网络随着网络深度的逐步深入,能够在多种不同尺度的图像上进行学习并进行特征逐步累加,从提高了而卷积神经网络的特征学习能力。
如图1所示,本发明的一种多尺度逐步累加的卷积神经网络学习方法,具体步骤如下:
步骤1、采用一种基于均值池化(Average Pooling,AP)操作的快速算法实现多尺度图像金字塔的构建。
对输入图像,通过均值低通滤波器滤除噪声,再通过等间隔下采样操作得到分辨率更低的下一个尺度的图像;然后在新得到的图像上,继续进行均值低通滤波和等间隔下采样操作,又得到下一个尺度的图像;如此重复这种低通滤波和下采样操作,最终构建出多尺度图像金字塔。在本实施例中,均值低通滤波和等间隔下采样操作被整合在一起,用均值池化(Average Pooling,AP)操作加以快速实现。
如图1所示,本具体实施例采用三个均值池化层(AP1、AP2、AP3)构建了多尺度图像金字塔,该多尺度图像金字塔具有四个尺度的图像。其中,第一个尺度图像的分辨率为128×128,其经过均值池化层AP1后得到第二个尺度图像,第二尺度图像的分辨率为64×64;第二个尺度图像经过均值池化层AP2得到第三个尺度图像,第三尺度图像的分辨率为32×32;第三个尺度图像经过均值池化层AP3得到第四个尺度图像,第四尺度图像的分辨率为16×16。
步骤2、逐步累加的多尺度特征学习:把步骤1中的构建多尺度图像金字塔中各个不同尺度的图像逐步送入卷积神经网络,使得在不同尺度的图像上学习的特征随着网络深度的深入逐步累加,最终获得图像的多尺度特征表达。
如图2所示,为了便于描述,本发明将卷积层(Conv)、批归一化层(Batch Norm)和ReLU激活函数整合为卷积神经网络单元,即CBR单元,本具体实施例中所有CBR单元中统一采用3×3大小的滤波器,并采用1像素补零操作。
随着网络深度的深入CBR单元的输出特征通道数倍增,例如,图1中的卷积神经网络单元CBR1和CBR2输出的特征映射为64通道;卷积神经网络单元CBR3和CBR4输出的特征映射为128通道;卷积神经网络单元CBR5和CBR6输出的特征映射为256通道;CBR7单元输出的特征映射为512通道;全连接(Full Connection,FC)单元输出的特征映射为1024通道。
多尺度图像金字塔中各个不同尺度的图像在进行学习时,先融合第一个尺度图像和第二个尺度图像上的特征,即第一尺度的图像经过卷积神经网络单元CBR1和下采样的最大池化层(Max Pooling,MP)MP1后得到对应的特征F1,再把第二尺度的图像经过卷积神经网络CBR2后得到对应的特征F2,然后把两个不同尺度的输入图像上所学得的特征F1和F2经过求和层(Summation,SUM)SUM1进行融合,得到融合特征G2。
再进一步将融合特征G2和第三个尺度图像上的特征F3进行融合,即融合特征G2经过卷积神经网络单元CBR3和下采样的最大池化层MP2后得到对应的特征H2,再把第三尺度的图像经过卷积神经网络单元CBR4后得到对应的特征F3,最后把特征H2和F3经过求和层SUM2进行融合,得到融合特征G3。
接着,将融合特征G3和第四个尺度图像上的特征F4进行融合,即融合特征G3经过卷积神经网络单元CBR5和下采样的最大池化层MP3后得到对应的特征H3,再把第三尺度的图像经过卷积神经网络单元CBR6后得到对应的特征F4,最后把特征H3和F4经过求和层SUM3进行融合,得到融合特征G4。
将得到的融合特征G4依次经过卷积神经网络单元CBR7、下采样的最大池化层MP4、全连接(Full Connection,FC)单元和softmax损失函数后得到图像的多尺度特征表达,最终实现不同尺度图像上所学特征的逐步融合。
本实施例中的所有的池化层,包括四个最大池化层(MP1、MP2、MP3和MP4)和三个均值池化层(AP1、AP2和AP3)采用池化窗口皆为3×3,采用步长为2像素,并采用1像素补零操作。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (4)
1.一种多尺度逐步累加的卷积神经网络学习方法,其特征在于:所述学习方法具体包括以下步骤:
步骤1、构建多尺度图像金字塔;
输入图像作为第一个尺度图像,将输入图像通过低通滤波器滤除噪声,并利用下采样操作得到分辨率更低的第二个尺度图像;然后在第二个尺度图像上继续进行低通滤波和下采样操作,得到第三个尺度图像;如此重复,最终构建出具有N个尺度图像的多尺度图像金字塔,其中,N≥2;
步骤2、逐步累加的多尺度特征学习;
把步骤1中的构建多尺度图像金字塔中各个不同尺度的图像逐步送入卷积神经网络,使得在不同尺度的图像上学习的特征随着网络深度的深入逐步累加,最终获得图像的多尺度特征表达,具体如下:
首先,融合第一个尺度图像和第二个尺度图像上的特征,即将第一个尺度图像经过卷积神经网络单元和下采样的最大池化层后得到特征F1,第二个尺度图像经过卷积神经网络单元后得到特征F2,将特征F1和特征F2进行融合得到融合特征G2;
当N=2时,将融合特征G2依次经过卷积神经网络单元、下采样的最大池化层、全连接单元、Softmax损失函数后,得到图像的多尺度特征表达;
当N≥3时,将融合特征G2与第三个尺度图像上的特征进行融合,即将融合特征G2经过卷积神经网络单元和下采样的最大池化层后得到特征H2,第三个尺度图像经过卷积神经网络单元后得到特征F3,将特征H2和特征F3进行融合得到融合特征G3;以此类推,直至得到融合特征GN,最后将融合特征GN依次经过卷积神经网络单元、下采样的最大池化层、全连接单元、Softmax损失函数后,得到图像的多尺度特征表达。
2.根据权利要求1所述的一种多尺度逐步累加的卷积神经网络学习方法,其特征在于:所述步骤1中,所述低通滤波为均值滤波,所述下采样操作为等间隔下采样。
3.根据权利要求2所述的一种多尺度逐步累加的卷积神经网络学习方法,其特征在于:所述均值滤波和等间隔下采样采用均值池化操作实现。
4.根据权利要求1所述的一种多尺度逐步累加的卷积神经网络学习方法,其特征在于:所述步骤2中,不同尺度图像上的特征在进行融合时采用逐步累加的方式实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810359791.5A CN108875906B (zh) | 2018-04-20 | 2018-04-20 | 一种多尺度逐步累加的卷积神经网络学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810359791.5A CN108875906B (zh) | 2018-04-20 | 2018-04-20 | 一种多尺度逐步累加的卷积神经网络学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875906A CN108875906A (zh) | 2018-11-23 |
CN108875906B true CN108875906B (zh) | 2019-06-04 |
Family
ID=64326480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810359791.5A Active CN108875906B (zh) | 2018-04-20 | 2018-04-20 | 一种多尺度逐步累加的卷积神经网络学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875906B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI719512B (zh) * | 2019-06-24 | 2021-02-21 | 瑞昱半導體股份有限公司 | 使用像素通道置亂的卷積神經網路的演算方法與系統 |
CN111401310B (zh) * | 2020-04-08 | 2023-08-29 | 天津中科智能识别产业技术研究院有限公司 | 基于人工智能的厨房卫生安全监督管理方法 |
CN112130216B (zh) * | 2020-08-19 | 2021-10-29 | 中国地质大学(武汉) | 基于卷积神经网络多物探法耦合的地质超前精细预报方法 |
CN112749733A (zh) * | 2020-11-27 | 2021-05-04 | 江西省交通科学研究院 | 一种基于混合模型及图像金字塔的桥梁病害识别方法 |
CN112508924B (zh) * | 2020-12-15 | 2022-09-23 | 桂林电子科技大学 | 一种小目标检测识别方法、装置、系统和存储介质 |
CN113421263B (zh) * | 2021-08-24 | 2021-11-30 | 深圳市信润富联数字科技有限公司 | 零件缺陷检测方法、设备、介质及计算机程序产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680678A (zh) * | 2017-10-18 | 2018-02-09 | 北京航空航天大学 | 基于多尺度卷积神经网络甲状腺超声图像结节自动诊断系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10062005B2 (en) * | 2015-03-17 | 2018-08-28 | Teledyne Scientific & Imaging, Llc | Multi-scale correspondence point matching using constellation of image chips |
-
2018
- 2018-04-20 CN CN201810359791.5A patent/CN108875906B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680678A (zh) * | 2017-10-18 | 2018-02-09 | 北京航空航天大学 | 基于多尺度卷积神经网络甲状腺超声图像结节自动诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108875906A (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875906B (zh) | 一种多尺度逐步累加的卷积神经网络学习方法 | |
CN112329800B (zh) | 一种基于全局信息引导残差注意力的显著性目标检测方法 | |
CN110473141B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
Wu et al. | Fast end-to-end trainable guided filter | |
CN109635744A (zh) | 一种基于深度分割网络的车道线检测方法 | |
CN108875935B (zh) | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 | |
CN112052886A (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN109756690B (zh) | 基于特征级别光流的轻量级视频插值方法 | |
CN107688856B (zh) | 基于深度强化学习的室内机器人场景主动识别方法 | |
CN108122236A (zh) | 基于距离调制损失的迭代式眼底图像血管分割方法 | |
CN110309835B (zh) | 一种图像局部特征提取方法及装置 | |
CN104462494A (zh) | 一种基于无监督特征学习的遥感图像检索方法及系统 | |
CN108197653A (zh) | 一种基于卷积回声状态网络的时间序列分类方法 | |
CN104063686A (zh) | 作物叶部病害图像交互式诊断系统与方法 | |
CN108304786A (zh) | 一种基于二值化卷积神经网络的行人检测方法 | |
CN104408697B (zh) | 基于遗传算法和正则先验模型的图像超分辨重建方法 | |
CN114782737A (zh) | 一种基于改进残差网络的图像分类方法、设备和存储介质 | |
CN115294563A (zh) | 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置 | |
CN110363072A (zh) | 舌象识别方法、装置、计算机设备及计算机可读存储介质 | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN109948575A (zh) | 超声图像中眼球区域分割方法 | |
CN113269702A (zh) | 基于跨尺度特征融合的低曝光静脉图像增强方法 | |
CN116485646A (zh) | 一种基于微注意力的轻量化图像超分辨率重建方法及装置 | |
CN113822825B (zh) | 基于3d-r2n2的光学建筑目标三维重建方法 | |
CN109558880B (zh) | 一种基于视觉整体和局部特征融合的轮廓检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |