CN107506822B - 一种基于空间融合池化的深度神经网络方法 - Google Patents
一种基于空间融合池化的深度神经网络方法 Download PDFInfo
- Publication number
- CN107506822B CN107506822B CN201710619831.0A CN201710619831A CN107506822B CN 107506822 B CN107506822 B CN 107506822B CN 201710619831 A CN201710619831 A CN 201710619831A CN 107506822 B CN107506822 B CN 107506822B
- Authority
- CN
- China
- Prior art keywords
- pooling
- fusion
- training
- network
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于空间融合池化的深度神经网络方法,用于图像分类,包括:收集各种不同类别的图像,并标注图像类别,作为图像标签信息;图像集划分;将收集的图像划分为训练集,验证集和测试集,训练集用于训练卷积神经网络;设计应用于图像分类的深度神经网络结构,包括所用的卷积层层数和空间融合池化层的层数,设计卷积层中滤波器的个数,设计空间融合池化层的中的融合函数形式和空间滑动步长和池化函数和池化窗口尺寸以及步长,设计用于特征融合的卷积滤波器结构,设计网络训练循环迭代的次数和网络最终收敛条件,并初始化网络参数;将训练数据批量的输入到该网络中,进行计算和训练。
Description
技术领域
本发明涉及计算机视觉领域中高性能的图像识别分类和物体识别的方法,特别是涉及采用深度学习方法的图像识别分类和物体识别的方法。
背景技术
近年来,深度学习技术广泛的应用于计算机视觉领域的图像分类、语义分割和物体检测以及自动驾驶等多个任务上。作为深度学习技术中重要的实现方法,深度卷积神经网络在众多任务上取得了显著的效果。
深度卷积神经网络往往由多层卷积层和池化层组成,其中卷积层包含滤波器参数用于提取特征,池化层用于保持神经网络的平移不变性,减少数据扰动对神经网络性能产生的影响,并实现对输入特征的选择和采样。深度卷积神经网络的卷积层通常设有多个卷积核,输出多张特征图(也称为多个通道),因此池化层的输入也具有多个通道。
在深度卷积神经网络中,传统的池化操作是通过对输入特征的某个正方形邻域进行特征采样,来达到维度降低和保持平移不变性。传统的池化操作是对单特征图分别处理,即正方形邻域是在单特征图上进行滑动选取。如较为简单的最大值池化,通过在正方形邻域内选择特征值最大的特征作为池化输出,均值池化则通过求取邻域内特征值的平均值作为池化输出。改进的池化操作,如随机池化[1]则根据邻域各个特征值大小设定的概率值,随机选择某个特征值进行输出,起到了一定的正则化的作用,提升了网络的性能。[2]提出通过学习一个池化函数来实现对传统的多种池化方法的组合,是一种混合的方法,有助于提升特征的多样性,选择更具有代表性的特征。基于频域变换的方法[3],提出将特征图变换到频域,并在频域进行特征选取,通过削减能量占比较小的高频成分,保留能量较大的低频成分,使得大部分特征信息得到保持。
虽然上述提到的池化方法,使得深度卷积神经网络性能得到了一定的提升,但是仍然存在一定缺陷。传统的池化操作是在单张特征图上进行采样,并未利用各特征图之间的通道信息,也就是说存在空间信息损失。此外,传统的池化操作只是对特征进行采样,并未涉及到特征融合,进一步的特征融合将有助于提升池化的效果,得到更具表达力,更稳定的特征。由于传统池化操作是对各个通道分别进行操作,所以池化操作前后,特征通道数保持不变,单特征通道的维度因为特征采样而降低。随着深度卷积神经网络的广泛应用,对于处理能力较弱的硬件,降低网络复杂度同时保持网络性能,成为改进网络结构需要解决的问题。因此,通过池化操作得到更具表达力的少数特征,有助于提升网络效率。
对比以上方法存在的缺陷,本专利提出一种基于空间融合池化的深度神经网络方法,用于融合并提取更具表达力的特征,进一步提升深度卷积神经网络的性能。在降低各特征图维度的同时,通过降低特征通道数以提升网络效率。以图像识别分类任务为例:首先,输入的图像数据经过深度神经网络的卷积层用于提取层次特征。之后,将卷积层特征输入到空间信息融合池化层,该池化层先将利用特征通道信息,将各特征通道进行融合,在此基础上进行进一步的特征采样。通过迭代的对深度神经网络进行训练,得到最后的网络模型。最后,应用该模型进行图像识别和分类。
参考文献:
[1]M.Zeiler and R.Fergus,“Stochastic pooling for regularization ofdeep convolutional neural networks,”In Proc.International Conference onLearning Representations,2013.
[2]C.Lee,P.Gallagher,Z.Tu,“Generalizing pooling functions inconvolutional neural networks:mixed,gated,and tree,”CoRR,abs/1509.08985,2015.
[3]Rippel,J.Snoek,and R.Adams,“Spectral representations forconvolutional neural networks,”InProc.Advances in Neural InformationProcessing Systems,2015,pp.2449-2457.
发明内容
本发明的目的是针对现有深度卷积神经网络的池化层无法有效提取深层次特征的问题,提出一种适用于图像分类的基于空间融合池化的深度卷积神经网络方法,通过融合特征通道之间的通道(空间)信息,提取更有代表力的特征,同时通过空间信息融合,降低特征通道数,以进一步提升神经网络的效率。技术方案如下:
一种基于空间融合池化的深度神经网络方法,用于图像分类,包括下列步骤:
1)收集各种不同类别的图像,并标注图像类别,作为图像标签信息;
2)图像集划分;将收集的图像划分为训练集,验证集和测试集,训练集用于训练卷积神经网络,验证集用于选择最佳的训练模型,测试集为后续测试模型效果或者实际应用时使用;
3)设计应用于图像分类的深度神经网络结构,包括所用的卷积层层数和空间融合池化层的层数,设计卷积层中滤波器的个数,设计空间融合池化层中的融合函数形式和空间滑动步长S1和池化函数f(·)和池化窗口尺寸以及步长S2,设计用于特征融合的卷积滤波器结构,设计网络训练循环迭代的次数和网络最终收敛条件,并初始化网络参数;
4)将训练数据批量的输入到该网络中,进行计算和训练,具体步骤如下:
a)将训练数据输入网络中,计算第一个空间融合池化层之前的所有卷积层,并得到卷积层特征Y∈RH×W×D,其中H×W表示输出的特征图的大小,D表示输出的特征图的通道数,并将其输入到池化层;
b)对输入到当前池化层的特征Y进行空间融合池化操作;
1)进行通道间的特征融合,经过空间融合,得到的特征图Y';
2)对融合后的特征图Y'进行特征池化采样,在此选用最大值max(·)函数作为池化函数进行池化操作,经过池化后的输出特征图为Z;
3)将输出的特征图Z输出到后续的卷积层进行操作;
c)按照步骤a)和步骤b)计算后续的卷积层和空间融合池化层
d)计算损失并进行反向传播,按照梯度下降法更新网络权重;
e)循环步骤a)~d),经过多次迭代后,损失收敛,验证集错误率降到最低,得到训练好的神经网络模型。
采用本发明所述方法,将基于空间融合池化的深度卷积神经网络用于计算机视觉领域的各个任务中,可以在提取更为稳定特征的同时,保持网络的平移不变性,得到更具表达力的特征。经过空间融合池化,单特征图的维度得到降低,同时空间通道数也得到降低,可以有效提升网络运行效率,促进深度神经网络的广泛应用。通过应用本专利方法,实现图像识别分类任务,分类效率和准确率得到提升。
附图说明
图1为传统的池化操作
图2为本专利提出的空间融合的池化操作
图3为基于空间融合池化操作的深度卷积神经网络应用于图像分类示例
具体实施方式
下面结合附图对本发明作进一步的描述。
图1描述了传统的池化操作。传统的池化操作是在单特征图进行池化操作,通常选取单特征图上的某个邻域Pj中的某一个值,如a,代替整个邻域(a,b,c,d)作为池化的输出,其主要作用是进行通道内的降采样操作,以降低空间维度,降低计算复杂度。但是由于其并未考虑到通道间的信息,使得提取的特征表征能力较弱,无法提取深层次的特征。
图2描述了本专利提出的空间融合池化操作,其充分利用通道间和通道内的信息,实现信息的空间融合,进而提取更有表征力的特征。具体的,空间融合池化的操作步骤如下:
(1)对输入到当前池化层的特征Y进行通道间的特征融合(空间融合),以实现空间特征融合,更好的保持平移不变性,同时降低通道数,得到更具有表达力的特征。空间融合操作如下:取输入特征Y的一个空间块P∈Rh×w×k,其中k<D,经过空间融合后的特征为
其中P'∈Rh×w×1,ωi∈R1×1×k为各通道的融合系数,可根据不同任务进行设定,常用的设定方法有高斯分布或者均匀分布得到。即经过空间融合之后,k个通道融合成1个通道并输出,假设选取空间块时,滑动步长为S1,则通过融合,输出的特征Y'∈RH×W×D', 并取整,特征的通道数得到降低。
(2)对融合后的特征Y'进行特征池化采样,选取更具有代表力的特征。取第j张特征图的一个邻域块Pj'∈Rh×w×1,其中h×w代表池化的窗口尺寸。设置采样函数f(·),对该邻域进行池化:
Pj”=f(Pj'),j=1,2,…,D'
本专利可应用于图像识别分类任务,但不局限于此任务。基于空间融合的深度卷积神经网络可用于解决深度学习可应用场景中的诸多任务。图3描述了基于空间融合池化的深度卷积神经网络用于图像分类识别的示例,在此介绍本专利用于图像分类识别任务上的具体实施方式。
本发明主要包含三个步骤:(1)收集图像,准备数据集;(2)设计并训练基于空间融合池化的卷积神经网络;(3)测试/应用识别模型。
第一步:收集图像,准备数据集。
(1)收集图像。收集各种不同类别的图像,并标注图像类别,作为图像标签信息。收集图像的大小尺寸不做限制,网络结构可据此调整。作为一种示例,在此数据采用的格式为32x32x3的彩色图像格式,所有图像经过随机翻转的数据增强和归一化操作。
(2)图像集划分。将收集的图像划分为训练集,验证集和测试集。训练集用于训练卷积神经网络,验证集用于选择最佳的训练模型,测试集为后续测试模型效果或者实际应用时使用。
第二步:设计并训练基于空间融合池化的卷积神经网络。
(1)设计基于空间融合池化的卷积神经网络结构。设计应用于图像分类的深度神经网络结构,包括所用的卷积层层数和空间融合池化层的层数,设计卷积层中滤波器的个数,设计空间融合池化层中的融合函数形式和空间滑动步长S1和池化函数f(·)和池化窗口尺寸以及步长S2,设计用于特征融合的卷积滤波器结构,设计网络训练循环迭代的次数和网络最终收敛条件,并初始化网络参数。
(2)训练设计好的基于空间融合池化的卷积神经网络。将训练数据批量的输入到该网络中,进行计算和训练,具体步骤如下:
f)将训练数据输入网络中,计算第一个空间融合池化层之前的所有卷积层,并得到卷积层特征Y∈RH×W×D,其中H×W表示输出的特征图的大小(以H×W=28×28为例进行说明),D(以D=196为例进行说明)表示输出的特征图的通道数,并将其输入到池化层。
g)对输入到当前池化层的特征Y进行空间融合池化操作。
1)进行通道间的特征融合(空间融合)。即在通道间,每3个特征图进行融合得到一个特征图,融合权重为融合权重滑动步长为2.则经过空间融合,得到的特征图Y'∈R28×28×97,由于97<196,经过空间融合之后,特征的通道数减少,计算复杂度降低。
2)对融合后的特征Y'进行特征池化采样。在此选用最大值max(·)函数作为池化函数进行池化操作。经过池化后的输出特征图为Z∈R13×13×97,特征图尺寸在单通道上得到降低,计算复杂度进一步降低。
3)将输出的特征图Z输出到后续的卷积层进行操作。
h)按照步骤a)和步骤b)计算后续的卷积层和空间融合池化层
i)计算损失并进行反向传播,按照梯度下降法更新网络权重。
j)循环步骤a)~d),经过多次迭代后,损失收敛,验证集错误率降到最低,得到训练好的神经网络模型。
第三步:测试/应用训练好的模型
(1)准备好测试集数据,调用设计好的网络结构和训练好的网络参数,并将测试集批量或单张的输入到训练好的模型中。
(2)前向计算,将数据依次通过神经网络的各卷积层和空间融合池化层,计算各层的特征。
(3)输出分为各类的概率,并选择概率最大的类别作为最终的图像分类结果。
Claims (1)
1.一种基于空间融合池化的深度神经网络方法,用于图像分类,包括下列步骤:
(1)收集各种不同类别的图像,并标注图像类别,作为图像标签信息;
(2)图像集划分;将收集的图像划分为训练集,验证集和测试集,训练集用于训练卷积神经网络,验证集用于选择最佳的训练模型,测试集为后续测试模型效果或者实际应用时使用;
(3)设计应用于图像分类的深度神经网络结构,包括所用的卷积层层数和空间融合池化层的层数,设计卷积层中滤波器的个数,设计空间融合池化层中的融合函数形式和空间滑动步长S1和池化函数f(·)和池化窗口尺寸以及步长S2,设计用于特征融合的卷积滤波器结构,设计网络训练循环迭代的次数和网络最终收敛条件,并初始化网络参数;
(4)将训练数据批量的输入到该网络中,进行计算和训练,具体步骤如下:
a)将训练数据输入网络中,计算第一个空间融合池化层之前的所有卷积层,并得到卷积层特征Y∈RH×W×D,其中H×W表示输出的特征图的大小,D表示输出的特征图的通道数,并将其输入到池化层;
b)对输入到当前池化层的特征Y进行空间融合池化操作;
1)进行通道间的特征融合,经过空间融合,得到的特征图Y';
2)对融合后的特征图Y'进行特征池化采样,在此选用最大值max(·)函数作为池化函数进行池化操作,经过池化后的输出特征图为Z;
3)将输出的特征图Z输出到后续的卷积层进行操作;
c)按照步骤a)和步骤b)计算后续的卷积层和空间融合池化层;
d)计算损失并进行反向传播,按照梯度下降法更新网络权重;
e)循环步骤a)~d),经过多次迭代后,损失收敛,验证集错误率降到最低,得到训练好的神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710619831.0A CN107506822B (zh) | 2017-07-26 | 2017-07-26 | 一种基于空间融合池化的深度神经网络方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710619831.0A CN107506822B (zh) | 2017-07-26 | 2017-07-26 | 一种基于空间融合池化的深度神经网络方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107506822A CN107506822A (zh) | 2017-12-22 |
CN107506822B true CN107506822B (zh) | 2021-02-19 |
Family
ID=60689017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710619831.0A Expired - Fee Related CN107506822B (zh) | 2017-07-26 | 2017-07-26 | 一种基于空间融合池化的深度神经网络方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107506822B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870306A (zh) * | 2017-12-11 | 2018-04-03 | 重庆邮电大学 | 一种基于深度神经网络下的锂电池荷电状态预测算法 |
CN108345892B (zh) * | 2018-01-03 | 2022-02-22 | 深圳大学 | 一种立体图像显著性的检测方法、装置、设备及存储介质 |
CN108376283B (zh) * | 2018-01-08 | 2020-11-03 | 中国科学院计算技术研究所 | 用于神经网络的池化装置和池化方法 |
CN108921282B (zh) * | 2018-05-16 | 2022-05-31 | 深圳大学 | 一种深度神经网络模型的构建方法和装置 |
CN108805196B (zh) * | 2018-06-05 | 2022-02-18 | 西安交通大学 | 用于图像识别的自动增量学习方法 |
CN110663971B (zh) * | 2018-07-02 | 2022-03-29 | 天津工业大学 | 基于双分支深度融合卷积神经网络的红枣品质分类方法 |
CN109816037B (zh) * | 2019-01-31 | 2021-05-25 | 北京字节跳动网络技术有限公司 | 提取图像的特征图的方法和装置 |
CN110188613A (zh) * | 2019-04-28 | 2019-08-30 | 上海鹰瞳医疗科技有限公司 | 图像分类方法及设备 |
CN110298387A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 融入像素级attention机制的深度神经网络目标检测方法 |
CN110516793B (zh) * | 2019-08-27 | 2022-06-17 | Oppo广东移动通信有限公司 | 一种池化处理方法及装置、存储介质 |
CN110728354B (zh) * | 2019-09-11 | 2024-04-09 | 东南大学 | 一种基于改进的滑动式分组卷积神经网络的图像处理方法 |
CN111461289B (zh) * | 2020-03-07 | 2024-04-12 | 咪咕文化科技有限公司 | 池化处理方法、系统及存储介质 |
CN113435376B (zh) * | 2021-07-05 | 2023-04-18 | 宝鸡文理学院 | 基于离散小波变换的双向特征融合深度卷积神经网络构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682664A (zh) * | 2016-12-07 | 2017-05-17 | 华南理工大学 | 基于全卷积递归神经网络的水表圆盘区域检测方法 |
CN106909905A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的多模态人脸识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10489703B2 (en) * | 2015-05-20 | 2019-11-26 | Nec Corporation | Memory efficiency for convolutional neural networks operating on graphics processing units |
CN105913087B (zh) * | 2016-04-11 | 2019-05-21 | 天津大学 | 基于最优池化卷积神经网络的物体识别方法 |
-
2017
- 2017-07-26 CN CN201710619831.0A patent/CN107506822B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682664A (zh) * | 2016-12-07 | 2017-05-17 | 华南理工大学 | 基于全卷积递归神经网络的水表圆盘区域检测方法 |
CN106909905A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的多模态人脸识别方法 |
Non-Patent Citations (2)
Title |
---|
Fusion Based Deep CNN for Improved Large-Scale Image Action Recognition;Yukhe Lavinia;《2016 IEEE International Symposium on Multimedia》;20170119;全文 * |
High Power Laser Welding State Recognition Based on Feature Fusion;Yuqing Liu;《31st Youth Academic Annual Conference of Chinese Association of Automation》;20170105;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107506822A (zh) | 2017-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506822B (zh) | 一种基于空间融合池化的深度神经网络方法 | |
CN107480707B (zh) | 一种基于信息无损池化的深度神经网络方法 | |
CN109543502B (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
Li et al. | A closed-form solution to photorealistic image stylization | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN108596258B (zh) | 一种基于卷积神经网络随机池化的图像分类方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN109711426B (zh) | 一种基于gan和迁移学习的病理图片分类装置及方法 | |
CN107564025B (zh) | 一种基于深度神经网络的电力设备红外图像语义分割方法 | |
CN106650789B (zh) | 一种基于深度lstm网络的图像描述生成方法 | |
CN110458084B (zh) | 一种基于倒置残差网络的人脸年龄估计方法 | |
CN109740679B (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN111192211B (zh) | 一种基于单个深度神经网络的多噪声类型盲去噪方法 | |
CN111861906B (zh) | 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法 | |
CN110232373A (zh) | 人脸聚类方法、装置、设备和存储介质 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN110751612A (zh) | 多通道多尺度卷积神经网络的单幅图像去雨方法 | |
CN110598848A (zh) | 一种基于通道剪枝的迁移学习加速方法 | |
Rios et al. | Feature visualization for 3D point cloud autoencoders | |
CN116152554A (zh) | 基于知识引导的小样本图像识别系统 | |
CN113673482A (zh) | 基于动态标签分配的细胞抗核抗体荧光识别方法及系统 | |
Qu et al. | Perceptual-DualGAN: perceptual losses for image to image translation with generative adversarial nets | |
Zhou et al. | MSAR‐DefogNet: Lightweight cloud removal network for high resolution remote sensing images based on multi scale convolution | |
CN110210523B (zh) | 一种基于形状图约束的模特穿着衣物图像生成方法及装置 | |
Xiang et al. | Optical flow estimation using spatial-channel combinational attention-based pyramid networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210219 Termination date: 20210726 |