CN109190701A - 一种基于镜像不变性卷积神经网络的图像分类方法 - Google Patents
一种基于镜像不变性卷积神经网络的图像分类方法 Download PDFInfo
- Publication number
- CN109190701A CN109190701A CN201810996824.7A CN201810996824A CN109190701A CN 109190701 A CN109190701 A CN 109190701A CN 201810996824 A CN201810996824 A CN 201810996824A CN 109190701 A CN109190701 A CN 109190701A
- Authority
- CN
- China
- Prior art keywords
- characteristic pattern
- neural networks
- convolutional neural
- indicate
- convolution kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明提出了一种用于图像分类的具有镜像不变性的卷积神经网络,具体是一种在训练过程中将卷积神经网络的底层卷积层的部分特征图和对应的卷积核进行镜像翻转的方法。通过使用本发明的卷积神经网络对训练样本进行训练,可以使得训练得到的卷积神经网络模型具有镜像不变性,对于镜像对称的图像都能够得到较好的分类性能。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于镜像不变性卷积神经网络的图像分类方法。
背景技术
随着计算机视觉和深度学习领域的不断发展,目前新的卷积神经网络模型层出不穷。其中网络模型的改进主要集中在网络深度的加深,网络宽度以及密度的增加等方面。由于卷积神经网络本身强大的图像处理性能,因此很少有人会花费精力对卷积神经网络提取到的特征进行改进。然而卷积神经网络提取的特征对于卷积神经网络的识别性能确实有很大的影响。
当前也有部分学者提出了对于卷积神经网络提取的特征进行改进的方法:文献(朱威,屈景怡,吴仁彪.结合批归一化的直通卷积神经网络图像分类算法[J].计算机辅助设计与图形学学报,2017,29(9):1650-1657.)提出一种基于批归一化的直通卷积神经网络算法。即对所有卷积层提取到的特征进行批归一化处理,使输入特征服从同一个分布;文献(何小飞,邹峥嵘,陶超,等.联合显著性和多层卷积神经网络的高分影像场景分类[J].测绘学报,2016,45(9):1073-1080.)提出一种联合显著性和多层卷积神经网络的方法,首先利用显著性采样获取有意义的图像块,将这些块作为样本集输入卷积神经网络中进行训练,获得不同层次的特征表达,最后联合多层特征利用支持向量机进行分类;文献(Wang F,Jiang M,Qian C,et al.Residual Attention Network for Image Classification[C]//Computer Vision and Pattern Recognition.IEEE,2017:6450-6458.)提出注意力残差网络,通过注意力模块产生注意力特征,与传统的卷积神经网络不同的是它内部有两个分支,一个是普通的卷积分支,产生特征图,一个是产生特征掩码的分支。最终将两个分支的输出融合,即将特征图与特征掩码融合得到特征更加突出的特征图;文献(J Hu,L Shen,and GSun.Squeeze-and-excitation networks.arXiv preprint arXiv:1709.01507,2017.)提出压缩激发网络,提升网络特征表达的能力。具体是针对提取到的特征图通过学习得到每个特征图对应的权重,对权重较大的特征图进行加强,权重较小的特征图则进行抑制。
综上所述,当前对于卷积神经网络提取到的特征的改进主要集中在优化特征的分布和提取更具有表达能力的特征等方面,却没有考虑到卷积神经网络提取到的特征是否具有不变性。由于卷积神经网络本身的特性使得它提取到的特征具有小范围内的旋转不变性,但是对于镜像变换却没有针对性的处理方法。
发明内容
针对现有的卷积神经网络不具有镜像不变性的问题,本发明提出了一种用于图像分类的镜像不变性卷积神经网络,具体是一种在训练过程中将卷积神经网络的底层卷积层的部分特征图和对应的卷积核进行镜像翻转的方法,使得训练得到的用于图像分类的卷积神经网络模型具有镜像不变性。
本发明的技术方案如下:
一种基于镜像不变性卷积神经网络的图像分类方法,其特征在于,包括如下步骤:
步骤1:读取卷积神经网络的权重文件和参数配置文件,得到初始卷积神经网络,记为N;
步骤2:准备用于分类任务的训练样本集合I={(Xi,Yi)|i=1,2,3,…,m},其中Xi表示第i个样本图像,Yi表示第i个样本图像对应的标签,Yi∈{0,1,2,…,k-1},k表示图像分类任务总共有k个类别,m表示训练样本集合中样本的数量;
步骤3:开始网络的迭代训练,每一次迭代从训练样本集合I中随机选取一批训练样本,作为训练样本集合的子集,记为It,其中t表示网络训练的第t次迭代;
步骤4:将步骤3选取的一批训练样本输入卷积神经网络N,在卷积神经网络的底层卷积层输出特征图之后,选取部分特征图进行水平镜像变换,并将该卷积层中对应的部分卷积核也进行水平镜像变换;
步骤5:将步骤4得到的特征图输入网络的下一层,按照传统卷积神经网络的方法进行前向传播和反向传播;
步骤6:重复步骤3、步骤4和步骤5,直到t达到预先设定的迭代次数Max_iter;
所述的一种基于镜像不变性卷积神经网络的图像分类方法,其特征在于,所述步骤4中在卷积神经网络的底层卷积层输出特征图之后选取部分特征图进行水平镜像变换的过程如下:
4.1):将卷积神经网络的底层卷积层的所有输出特征图记为集合{f(h,w)j|j=1,2,3,…,n},其中f(h,w)j表示第j个特征图,h表示特征图的纵坐标,w表示特征图的横坐标,n表示底层卷积层总共输出n个特征图;
4.2):从步骤4.1)的n个特征图中随机选取n/2个特征图进行水平镜像变换,具体变换过程根据公式(1)计算:
f1(h,w)j=f(h,W-w)j,j∈{0,1,2,...,n} (1)
其中f1(h,w)j表示第j个特征图经过水平镜像变换之后的特征图,W表示特征图的宽度。
所述的一种基于镜像不变性卷积神经网络的图像分类方法,其特征在于,所述步骤4中在选取部分特征图进行水平镜像变换之后,将该卷积层中对应的部分卷积核进行水平镜像变换的过程如下:
4.3):将卷积神经网络的底层卷积层的所有卷积核记为集合{Φ(c,h1,w1)j|j=1,2,3,…,n},其中Φ(c,h1,w1)j表示特征图f(h,w)j对应的卷积核,c表示卷积核的第c个通道,h1表示卷积核第c个通道的纵坐标,w1表示卷积核第c个通道的横坐标;
4.4):将步骤4.2)选取的n/2个特征图对应的卷积核进行水平镜像变换,具体变换过程根据公式(2)计算:
Φ1(c,h1,w1)j=Φ(c,h1,W1-w1)j,j∈{0,1,2,...,n} (2)
其中Φ1(c,h1,w1)j表示第j个卷积核经过水平镜像变换之后的卷积核,W1表示卷积核第c个通道的宽度。
本发明的有益效果:
通过使用本发明的卷积神经网络对训练样本进行训练,可以使得训练得到的卷积神经网络模型具有镜像不变性,对于镜像对称的图像都能够得到较好的分类性能,网络的分类准确率相比较于原始卷积神经网络具有较大的提高,网络所需的训练时间也更少,训练过程更快。
附图说明
图1为本发明中卷积神经网络的训练流程图;
具体实施方式
下面结合实施例来详细阐述本发明的基于镜像不变性卷积神经网络的图像分类方法的具体实施方式。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
实施例:
一种基于镜像不变性卷积神经网络的图像分类方法,包括如下步骤:
步骤1:读取卷积神经网络的权重文件和参数配置文件,得到初始卷积神经网络,记为N。
步骤2:准备用于分类任务的训练样本集合I={(Xi,Yi)|i=1,2,3,…,m},其中Xi表示第i个样本图像,Yi表示第i个样本图像对应的标签,Yi∈{0,1,2,…,k-1},k表示图像分类任务总共有k个类别,在本实施例中k=2,m表示训练样本集合中样本的数量,在本实施例中m=65000。
步骤3:开始网络的迭代训练,每一次迭代从训练样本集合I中随机选取一批训练样本,作为训练样本集合的子集,记为It,其中t表示网络训练的第t次迭代。
步骤4:将步骤3选取的一批训练样本输入卷积神经网络N,在卷积神经网络的底层卷积层输出特征图之后,选取部分特征图进行水平镜像变换,并将该卷积层中对应的部分卷积核也进行水平镜像变换;
其中选取部分特征图进行水平镜像变换的过程如下:
4.1):将卷积神经网络的底层卷积层的所有输出特征图记为集合{f(h,w)j|j=1,2,3,…,n},其中f(h,w)j表示第j个特征图,h表示特征图的纵坐标,w表示特征图的横坐标,n表示底层卷积层总共输出n个特征图;
4.2):从步骤4.1)的n个特征图中随机选取n/2个特征图进行水平镜像变换,具体变换过程根据公式(1)计算,其中f1(h,w)j表示第j个特征图经过水平镜像变换之后的特征图,W表示特征图的宽度。
f1(h,w)j=f(h,W-w)j,j∈{0,1,2,...,n} (1)
其中该卷积层中对应的部分卷积核也进行水平镜像变换的过程如下:
4.3):将卷积神经网络的底层卷积层的所有卷积核记为集合{Φ(c,h1,w1)j|j=1,2,3,…,n},其中Φ(c,h1,w1)j表示特征图f(h,w)j对应的卷积核,c表示卷积核的第c个通道,h1表示卷积核第c个通道的纵坐标,w1表示卷积核第c个通道的横坐标;
4.4):将步骤4.2)选取的n/2个特征图对应的卷积核进行水平镜像变换,具体变换过程根据公式(2)计算,其中Φ1(c,h1,w1)j表示第j个卷积核经过水平镜像变换之后的卷积核,W1表示卷积核第c个通道的宽度。
Φ1(c,h1,w1)j=Φ(c,h1,W1-w1)j,j∈{0,1,2,...,n} (2)
步骤5:将步骤4得到的特征图输入网络的下一层,按照传统卷积神经网络的方法进行前向传播和反向传播。
步骤6:重复步骤3、步骤4和步骤5,直到t达到预先设定的迭代次数Max_iter,在本实施例中Max_iter=1000000。
Claims (3)
1.一种基于镜像不变性卷积神经网络的图像分类方法,包括如下步骤:
步骤1:读取卷积神经网络的权重文件和参数配置文件,得到初始卷积神经网络,记为N;
步骤2:准备用于分类任务的训练样本集合I={(Xi,Yi)|i=1,2,3,…,m},其中Xi表示第i个样本图像,Yi表示第i个样本图像对应的标签,Yi∈{0,1,2,…,k-1},k表示图像分类任务总共有k个类别;
步骤3:开始网络的迭代训练,每一次迭代从训练样本集合I中随机选取一批训练样本,作为训练样本集合的子集,记为It,其中t表示网络训练的第t次迭代;
步骤4:将步骤3选取的一批训练样本输入卷积神经网络N,在卷积神经网络的底层卷积层输出特征图之后,选取部分特征图进行水平镜像变换,并将该卷积层中对应的部分卷积核也进行水平镜像变换;
步骤5:将步骤4得到的特征图输入网络的下一层,按照传统卷积神经网络的方法进行前向传播和反向传播;
步骤6:重复步骤3、步骤4和步骤5,直到t达到预先设定的迭代次数Max_iter。
2.根据权利要求1所述的一种基于镜像不变性卷积神经网络的图像分类方法,其特征在于,所述步骤4中在卷积神经网络的底层卷积层输出特征图之后选取部分特征图进行水平镜像变换的过程如下:
4.1):将卷积神经网络的底层卷积层的所有输出特征图记为集合{f(h,w)j|j=1,2,3,…,n},其中f(h,w)j表示第j个特征图,h表示特征图的纵坐标,w表示特征图的横坐标,n表示底层卷积层总共输出n个特征图;
4.2):从步骤4.1)的n个特征图中随机选取n/2个特征图进行水平镜像变换,具体变换过程根据公式(1)计算,
f1(h,w)j=f(h,W-w)j,j∈{0,1,2,...,n} (1)
其中f1(h,w)j表示第j个特征图经过水平镜像变换之后的特征图,W表示特征图的宽度。
3.根据权利要求1所述的一种基于镜像不变性卷积神经网络的图像分类方法,其特征在于,所述步骤4中在选取部分特征图进行水平镜像变换之后,将该卷积层中对应的部分卷积核进行水平镜像变换的过程如下:
4.3):将卷积神经网络的底层卷积层的所有卷积核记为集合{Φ(c,h1,w1)j|j=1,2,3,…,n},其中Φ(c,h1,w1)j表示特征图f(h,w)j对应的卷积核,c表示卷积核的第c个通道,h1表示卷积核第c个通道的纵坐标,w1表示卷积核第c个通道的横坐标;
4.4):将步骤4.2)选取的n/2个特征图对应的卷积核进行水平镜像变换,具体变换过程根据公式(2)计算:
Φ1(c,h1,w1)j=Φ(c,h1,W1-w1)j,j∈{0,1,2,...,n} (2)
其中Φ1(c,h1,w1)j表示第j个卷积核经过水平镜像变换之后的卷积核,W1表示卷积核第c个通道的宽度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810996824.7A CN109190701B (zh) | 2018-08-29 | 2018-08-29 | 一种基于镜像不变性卷积神经网络的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810996824.7A CN109190701B (zh) | 2018-08-29 | 2018-08-29 | 一种基于镜像不变性卷积神经网络的图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190701A true CN109190701A (zh) | 2019-01-11 |
CN109190701B CN109190701B (zh) | 2021-10-26 |
Family
ID=64916538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810996824.7A Active CN109190701B (zh) | 2018-08-29 | 2018-08-29 | 一种基于镜像不变性卷积神经网络的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190701B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021011617A1 (en) * | 2019-07-15 | 2021-01-21 | Mobileye Vision Technologies Ltd. | Reducing stored parameters for a navigation system |
CN113128601A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 分类模型的训练方法和对图像进行分类的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336964A (zh) * | 2013-07-12 | 2013-10-02 | 北京邮电大学 | 一种基于模值差镜像不变性的sift图像匹配方法 |
CN106446937A (zh) * | 2016-09-08 | 2017-02-22 | 天津大学 | 用于aer图像传感器的多层卷积识别系统 |
US20180012359A1 (en) * | 2016-07-06 | 2018-01-11 | Marinko Venci Sarunic | Systems and Methods for Automated Image Classification and Segmentation |
-
2018
- 2018-08-29 CN CN201810996824.7A patent/CN109190701B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336964A (zh) * | 2013-07-12 | 2013-10-02 | 北京邮电大学 | 一种基于模值差镜像不变性的sift图像匹配方法 |
US20180012359A1 (en) * | 2016-07-06 | 2018-01-11 | Marinko Venci Sarunic | Systems and Methods for Automated Image Classification and Segmentation |
CN106446937A (zh) * | 2016-09-08 | 2017-02-22 | 天津大学 | 用于aer图像传感器的多层卷积识别系统 |
Non-Patent Citations (1)
Title |
---|
孙宏杰: "基于叶片图像分析的葡萄品种识别方法研究", 《全国优秀硕士论文》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021011617A1 (en) * | 2019-07-15 | 2021-01-21 | Mobileye Vision Technologies Ltd. | Reducing stored parameters for a navigation system |
US20220136853A1 (en) * | 2019-07-15 | 2022-05-05 | Mobileye Vision Technologies Ltd. | Reducing stored parameters for a navigation system |
CN113128601A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 分类模型的训练方法和对图像进行分类的方法 |
CN113128601B (zh) * | 2021-04-22 | 2022-04-29 | 北京百度网讯科技有限公司 | 分类模型的训练方法和对图像进行分类的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109190701B (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399380A (zh) | 一种基于三维卷积和Faster RCNN的视频动作检测方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN107766794A (zh) | 一种特征融合系数可学习的图像语义分割方法 | |
CN112102303B (zh) | 基于单图像生成对抗网络的语义图像类比方法 | |
Huang et al. | High-quality face image generated with conditional boundary equilibrium generative adversarial networks | |
CN110675379A (zh) | 一种融合空洞卷积的u形脑肿瘤分割网络 | |
CN113807176B (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
Shi et al. | Fast and robust face-to-parameter translation for game character auto-creation | |
CN110751212A (zh) | 一种移动设备上高效的细粒度图像识别方法 | |
CN109190701A (zh) | 一种基于镜像不变性卷积神经网络的图像分类方法 | |
CN113393546B (zh) | 基于服装类别及纹理图案控制的时尚服装图像生成方法 | |
CN117649657A (zh) | 基于改进Mask R-CNN的骨髓细胞检测系统 | |
Ma et al. | Feature selection module for CNN based object detector | |
Xu et al. | A visual representation-guided framework with global affinity for weakly supervised salient object detection | |
CN111612739A (zh) | 一种基于深度学习的脑梗死分类方法 | |
WangPing et al. | The design of evolutionary feature selection operator for the micro-expression recognition | |
Li et al. | FlexiCurve: Flexible piecewise curves estimation for photo retouching | |
Sun et al. | Facial mask attention network for identity-aware face super-resolution | |
Su et al. | Automatic Machine Learning Method for Hyper-parameter Search | |
Dixit et al. | Comparative Study on Image Detection using Variants of CNN and YOLO | |
Li et al. | ZRDNet: zero-reference image defogging by physics-based decomposition–reconstruction mechanism and perception fusion | |
Cui et al. | Multi-style transfer: Generalizing fast style transfer to several genres | |
Zhu et al. | SketchPPNet: A joint pixel and point convolutional neural network for low resolution sketch image recognition | |
Lu et al. | Image Translation with Attention Mechanism based on Generative Adversarial Networks | |
Zhang | Research and implementation of fast image style transfer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |