CN108875906B - 一种多尺度逐步累加的卷积神经网络学习方法 - Google Patents
一种多尺度逐步累加的卷积神经网络学习方法 Download PDFInfo
- Publication number
- CN108875906B CN108875906B CN201810359791.5A CN201810359791A CN108875906B CN 108875906 B CN108875906 B CN 108875906B CN 201810359791 A CN201810359791 A CN 201810359791A CN 108875906 B CN108875906 B CN 108875906B
- Authority
- CN
- China
- Prior art keywords
- feature
- convolutional neural
- scale
- image
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000009825 accumulation Methods 0.000 title abstract 2
- 238000005070 sampling Methods 0.000 claims description 29
- 230000004927 fusion Effects 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 2
- 239000010931 gold Substances 0.000 claims description 2
- 229910052737 gold Inorganic materials 0.000 claims description 2
- 238000011176 pooling Methods 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000001537 neural effect Effects 0.000 description 9
- 238000013507 mapping Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 102100021973 Carbonyl reductase [NADPH] 1 Human genes 0.000 description 2
- 102100035249 Carbonyl reductase [NADPH] 3 Human genes 0.000 description 2
- 101000896985 Homo sapiens Carbonyl reductase [NADPH] 1 Proteins 0.000 description 2
- 101000737274 Homo sapiens Carbonyl reductase [NADPH] 3 Proteins 0.000 description 2
- 101100516032 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CBR1 gene Proteins 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102100035241 3-oxoacyl-[acyl-carrier-protein] reductase Human genes 0.000 description 1
- 101710138614 3-oxoacyl-[acyl-carrier-protein] reductase Proteins 0.000 description 1
- 101100204393 Arabidopsis thaliana SUMO2 gene Proteins 0.000 description 1
- 101100534673 Arabidopsis thaliana SUMO3 gene Proteins 0.000 description 1
- 101150007921 CBR2 gene Proteins 0.000 description 1
- 101150112492 SUM-1 gene Proteins 0.000 description 1
- 101150096255 SUMO1 gene Proteins 0.000 description 1
- 101100116390 Schizosaccharomyces pombe (strain 972 / ATCC 24843) ded1 gene Proteins 0.000 description 1
- 101100311460 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sum2 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种多尺度逐步累加的卷积神经网络学习方法,可广泛应用于机器视觉和人工智能领域,例如目标检测、目标分类、目标识别等。首先,本发明采用均值池化操作对输入图像构建多尺度图像金字塔;然后,将各个不同尺度的图像逐步送入卷积神经网络,让卷积神经网络随着网络深度的逐步深入,能够在多种不同尺度的图像上进行学习并进行特征逐步累加,从提高了而卷积神经网络的特征学习能力。
Description
技术领域
本发明涉及机器视觉和人工智能领域,特别涉及一种多尺度逐步累加的卷积神经网络学习方法,可应用于目标检测、目标分类和目标识别系统。
背景技术
卷积神经网络是目前最流行的一种深度学习算法。近年来涌现出大量基于卷积神经网络的目标检测、目标分类和目标识别算法,这些算法的准确性很大程度上依赖于卷积神经网络特征学习能力。
对卷积神经网络的研究,目前多数聚焦于通过加深网络深度来提升特征学习能力,出现了很多极深的卷积神经网络,例如GoogleNet,ResNet,DenseNet等。这些极深的卷积神经网络确实提升了卷积神经网络的特征学习能力,但是其相应的计算量也急剧增长。此外,不管网络的深度如何,这些极深的卷积神经网络都是将最后的特征映射(FeatureMap)作为最终的图像特征表达,意味着只有单一尺度的特征被学习得到,因此卷积神经网络的特征学习能力依然具有一定的提升空间。
除了上述极深的卷积神经网络之外,亦有少数多尺度卷积神经网络被提出来。文献[1](P.Sermanet and Y.LeCun.Traffic sign recognition with multi-scaleconvolutional networks[C].The 2011International Joint Conference on NeuralNetworks,San Jose,CA,2011,pp.2809-2813)将不同深度的下采样池化(Pooling)层输出的特征映射进行线性组合获得最终的多尺度融合特征。可见,文献[1]的这种做法并不是在一个多尺度的图像金字塔中学习多尺度特征。文献[2](J.Liu,Z.J.Zha,and Q.I.Tian,etal.Multi-scale triplet CNN for person re-identification[C].ACM on MultimediaConference,Theater Tuschinski,Amsterdam,2016,pp.192-196)首先使用不同的下采样率,获得一系列分辨率不同的输入图像;其次,在高分辨率的图像上训练深的卷积神经网络,而在低分辨率图像上训练浅的卷积神经网络;最后,把多个深浅不一的卷积神经网络的最后一层输出的特征映射全部串联起来,获得最终的多尺度融合特征。可见,文献[2]的算法未能把图像下采样操作整合到卷积神经网络的学习中,且它实际上需要训练同时多个卷积神经网络,计算量偏大。
发明内容
本发明的目的在于提供一种多尺度逐步累加的卷积神经网络学习方法,该方法具有能够融合多种不同尺度的特征的能力,可提升卷积神经网络的特征学习能力。
为实现上述目的,本发明采用的技术方案是:
一种多尺度逐步累加的卷积神经网络学习方法,其具体包括以下步骤:
步骤1、构建多尺度图像金字塔;
输入图像作为第一个尺度图像,将输入图像通过低通滤波器滤除噪声,并利用下采样操作得到分辨率更低的第二个尺度图像;然后在第二个尺度图像上继续进行低通滤波和下采样操作,得到第三个尺度图像;如此重复,最终构建出具有N个尺度图像的多尺度图像金字塔,其中,N≥2;
步骤2、逐步累加的多尺度特征学习;
把步骤1中的构建多尺度图像金字塔中各个不同尺度的图像逐步送入卷积神经网络,使得在不同尺度的图像上学习的特征随着网络深度的深入逐步累加,最终获得图像的多尺度特征表达,具体如下:
首先,融合第一个尺度图像和第二个尺度图像上的特征,即将第一个尺度图像经过卷积神经网络单元和下采样的最大池化层后得到特征F1,第二个尺度图像经过卷积神经网络单元后得到特征F2,将特征F1和特征F2进行融合得到融合特征G2;
当N=2时,将融合特征G2依次经过卷积神经网络单元、下采样的最大池化层、全连接单元、Softmax损失函数后,得到图像的多尺度特征表达;
当N≥3时,将融合特征G2与第三个尺度图像上的特征进行融合,即将融合特征G2经过卷积神经网络单元和下采样的最大池化层后得到特征H2,第三个尺度图像经过卷积神经网络单元后得到特征F3,将特征H2和特征F3进行融合得到融合特征G3;以此类推,直至得到融合特征GN,最后将融合特征GN依次经过卷积神经网络单元、下采样的最大池化层、全连接单元、Softmax损失函数后,得到图像的多尺度特征表达。
所述步骤1中,所述低通滤波为均值滤波,所述下采样操作为等间隔下采样。所述均值滤波和等间隔下采样采用均值池化操作实现。
所述步骤2中,不同尺度图像上的特征在进行融合时采用逐步累加的方式实现。
采用上述方案后,本发明首先采用均值池化操作对输入图像构建多尺度图像金字塔;然后将各个不同尺度的图像逐步送入卷积神经网络,让卷积神经网络随着网络深度的逐步深入,能够在多种不同尺度的图像上进行学习并进行特征的逐步累加,从提高了而卷积神经网络的特征学习能力。
此外,由于从不同尺度图像上所学的特征采用逐步累加的方式进行融合,在多尺度特征学习过程中,不会显著增加特征维数,进而保证卷积神经网络的复杂度不会显著增加,从而节省了计算量。
附图说明
图1为本发明卷积神经网络学习方法流程图;
图2为本发明卷积神经网络单元框图。
具体实施方式
本发明揭示了一种多尺度逐步累加的卷积神经网络学习方法,其采用均值池化操作对输入图像构建多尺度图像金字塔;然后,将各个不同尺度的图像逐步送入卷积神经网络,让卷积神经网络随着网络深度的逐步深入,能够在多种不同尺度的图像上进行学习并进行特征逐步累加,从提高了而卷积神经网络的特征学习能力。
如图1所示,本发明的一种多尺度逐步累加的卷积神经网络学习方法,具体步骤如下:
步骤1、采用一种基于均值池化(Average Pooling,AP)操作的快速算法实现多尺度图像金字塔的构建。
对输入图像,通过均值低通滤波器滤除噪声,再通过等间隔下采样操作得到分辨率更低的下一个尺度的图像;然后在新得到的图像上,继续进行均值低通滤波和等间隔下采样操作,又得到下一个尺度的图像;如此重复这种低通滤波和下采样操作,最终构建出多尺度图像金字塔。在本实施例中,均值低通滤波和等间隔下采样操作被整合在一起,用均值池化(Average Pooling,AP)操作加以快速实现。
如图1所示,本具体实施例采用三个均值池化层(AP1、AP2、AP3)构建了多尺度图像金字塔,该多尺度图像金字塔具有四个尺度的图像。其中,第一个尺度图像的分辨率为128×128,其经过均值池化层AP1后得到第二个尺度图像,第二尺度图像的分辨率为64×64;第二个尺度图像经过均值池化层AP2得到第三个尺度图像,第三尺度图像的分辨率为32×32;第三个尺度图像经过均值池化层AP3得到第四个尺度图像,第四尺度图像的分辨率为16×16。
步骤2、逐步累加的多尺度特征学习:把步骤1中的构建多尺度图像金字塔中各个不同尺度的图像逐步送入卷积神经网络,使得在不同尺度的图像上学习的特征随着网络深度的深入逐步累加,最终获得图像的多尺度特征表达。
如图2所示,为了便于描述,本发明将卷积层(Conv)、批归一化层(Batch Norm)和ReLU激活函数整合为卷积神经网络单元,即CBR单元,本具体实施例中所有CBR单元中统一采用3×3大小的滤波器,并采用1像素补零操作。
随着网络深度的深入CBR单元的输出特征通道数倍增,例如,图1中的卷积神经网络单元CBR1和CBR2输出的特征映射为64通道;卷积神经网络单元CBR3和CBR4输出的特征映射为128通道;卷积神经网络单元CBR5和CBR6输出的特征映射为256通道;CBR7单元输出的特征映射为512通道;全连接(Full Connection,FC)单元输出的特征映射为1024通道。
多尺度图像金字塔中各个不同尺度的图像在进行学习时,先融合第一个尺度图像和第二个尺度图像上的特征,即第一尺度的图像经过卷积神经网络单元CBR1和下采样的最大池化层(Max Pooling,MP)MP1后得到对应的特征F1,再把第二尺度的图像经过卷积神经网络CBR2后得到对应的特征F2,然后把两个不同尺度的输入图像上所学得的特征F1和F2经过求和层(Summation,SUM)SUM1进行融合,得到融合特征G2。
再进一步将融合特征G2和第三个尺度图像上的特征F3进行融合,即融合特征G2经过卷积神经网络单元CBR3和下采样的最大池化层MP2后得到对应的特征H2,再把第三尺度的图像经过卷积神经网络单元CBR4后得到对应的特征F3,最后把特征H2和F3经过求和层SUM2进行融合,得到融合特征G3。
接着,将融合特征G3和第四个尺度图像上的特征F4进行融合,即融合特征G3经过卷积神经网络单元CBR5和下采样的最大池化层MP3后得到对应的特征H3,再把第三尺度的图像经过卷积神经网络单元CBR6后得到对应的特征F4,最后把特征H3和F4经过求和层SUM3进行融合,得到融合特征G4。
将得到的融合特征G4依次经过卷积神经网络单元CBR7、下采样的最大池化层MP4、全连接(Full Connection,FC)单元和softmax损失函数后得到图像的多尺度特征表达,最终实现不同尺度图像上所学特征的逐步融合。
本实施例中的所有的池化层,包括四个最大池化层(MP1、MP2、MP3和MP4)和三个均值池化层(AP1、AP2和AP3)采用池化窗口皆为3×3,采用步长为2像素,并采用1像素补零操作。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (4)
1.一种多尺度逐步累加的卷积神经网络学习方法,其特征在于:所述学习方法具体包括以下步骤:
步骤1、构建多尺度图像金字塔;
输入图像作为第一个尺度图像,将输入图像通过低通滤波器滤除噪声,并利用下采样操作得到分辨率更低的第二个尺度图像;然后在第二个尺度图像上继续进行低通滤波和下采样操作,得到第三个尺度图像;如此重复,最终构建出具有N个尺度图像的多尺度图像金字塔,其中,N≥2;
步骤2、逐步累加的多尺度特征学习;
把步骤1中的构建多尺度图像金字塔中各个不同尺度的图像逐步送入卷积神经网络,使得在不同尺度的图像上学习的特征随着网络深度的深入逐步累加,最终获得图像的多尺度特征表达,具体如下:
首先,融合第一个尺度图像和第二个尺度图像上的特征,即将第一个尺度图像经过卷积神经网络单元和下采样的最大池化层后得到特征F1,第二个尺度图像经过卷积神经网络单元后得到特征F2,将特征F1和特征F2进行融合得到融合特征G2;
当N=2时,将融合特征G2依次经过卷积神经网络单元、下采样的最大池化层、全连接单元、Softmax损失函数后,得到图像的多尺度特征表达;
当N≥3时,将融合特征G2与第三个尺度图像上的特征进行融合,即将融合特征G2经过卷积神经网络单元和下采样的最大池化层后得到特征H2,第三个尺度图像经过卷积神经网络单元后得到特征F3,将特征H2和特征F3进行融合得到融合特征G3;以此类推,直至得到融合特征GN,最后将融合特征GN依次经过卷积神经网络单元、下采样的最大池化层、全连接单元、Softmax损失函数后,得到图像的多尺度特征表达。
2.根据权利要求1所述的一种多尺度逐步累加的卷积神经网络学习方法,其特征在于:所述步骤1中,所述低通滤波为均值滤波,所述下采样操作为等间隔下采样。
3.根据权利要求2所述的一种多尺度逐步累加的卷积神经网络学习方法,其特征在于:所述均值滤波和等间隔下采样采用均值池化操作实现。
4.根据权利要求1所述的一种多尺度逐步累加的卷积神经网络学习方法,其特征在于:所述步骤2中,不同尺度图像上的特征在进行融合时采用逐步累加的方式实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810359791.5A CN108875906B (zh) | 2018-04-20 | 2018-04-20 | 一种多尺度逐步累加的卷积神经网络学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810359791.5A CN108875906B (zh) | 2018-04-20 | 2018-04-20 | 一种多尺度逐步累加的卷积神经网络学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875906A CN108875906A (zh) | 2018-11-23 |
CN108875906B true CN108875906B (zh) | 2019-06-04 |
Family
ID=64326480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810359791.5A Active CN108875906B (zh) | 2018-04-20 | 2018-04-20 | 一种多尺度逐步累加的卷积神经网络学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875906B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI719512B (zh) * | 2019-06-24 | 2021-02-21 | 瑞昱半導體股份有限公司 | 使用像素通道置亂的卷積神經網路的演算方法與系統 |
CN111401310B (zh) * | 2020-04-08 | 2023-08-29 | 天津中科智能识别产业技术研究院有限公司 | 基于人工智能的厨房卫生安全监督管理方法 |
CN112130216B (zh) * | 2020-08-19 | 2021-10-29 | 中国地质大学(武汉) | 基于卷积神经网络多物探法耦合的地质超前精细预报方法 |
CN112749733A (zh) * | 2020-11-27 | 2021-05-04 | 江西省交通科学研究院 | 一种基于混合模型及图像金字塔的桥梁病害识别方法 |
CN112508924B (zh) * | 2020-12-15 | 2022-09-23 | 桂林电子科技大学 | 一种小目标检测识别方法、装置、系统和存储介质 |
CN113421263B (zh) * | 2021-08-24 | 2021-11-30 | 深圳市信润富联数字科技有限公司 | 零件缺陷检测方法、设备、介质及计算机程序产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680678A (zh) * | 2017-10-18 | 2018-02-09 | 北京航空航天大学 | 基于多尺度卷积神经网络甲状腺超声图像结节自动诊断系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10062005B2 (en) * | 2015-03-17 | 2018-08-28 | Teledyne Scientific & Imaging, Llc | Multi-scale correspondence point matching using constellation of image chips |
-
2018
- 2018-04-20 CN CN201810359791.5A patent/CN108875906B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680678A (zh) * | 2017-10-18 | 2018-02-09 | 北京航空航天大学 | 基于多尺度卷积神经网络甲状腺超声图像结节自动诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108875906A (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875906B (zh) | 一种多尺度逐步累加的卷积神经网络学习方法 | |
Wu et al. | Fast end-to-end trainable guided filter | |
CN110473141B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN110781775B (zh) | 一种多尺度特征支持的遥感影像水体信息精确分割方法 | |
CN107564025B (zh) | 一种基于深度神经网络的电力设备红外图像语义分割方法 | |
CN107818314B (zh) | 脸部图像处理方法、装置及服务器 | |
CN109635744A (zh) | 一种基于深度分割网络的车道线检测方法 | |
CN107688856B (zh) | 基于深度强化学习的室内机器人场景主动识别方法 | |
CN112052886A (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN108596039A (zh) | 一种基于3d卷积神经网络的双模态情感识别方法及系统 | |
CN109461172A (zh) | 人工与深度特征联合的相关滤波视频自适应跟踪方法 | |
CN110175986A (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN107729993A (zh) | 利用训练样本及折中度量的3d卷积神经网络构建方法 | |
CN111462013A (zh) | 一种基于结构化残差学习的单图去雨方法 | |
CN110363072A (zh) | 舌象识别方法、装置、计算机设备及计算机可读存储介质 | |
CN113989261A (zh) | 基于Unet改进的无人机视角下红外图像光伏板边界分割方法 | |
CN109461177A (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN116433545A (zh) | 基于雨条纹引导的多尺度融合单幅图像去雨方法 | |
CN113269786B (zh) | 基于深度学习和引导滤波的装配体图像分割方法及设备 | |
CN110135435A (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
CN115909255B (zh) | 图像生成、图像分割方法、装置、设备、车载终端及介质 | |
CN107886093A (zh) | 一种字符检测方法、系统、设备及计算机存储介质 | |
Sang et al. | Image recognition based on multiscale pooling deep convolution neural networks | |
CN116050579A (zh) | 基于深度特征融合网络的建筑能耗预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |