CN112800927B - 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法 - Google Patents

一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法 Download PDF

Info

Publication number
CN112800927B
CN112800927B CN202110092924.9A CN202110092924A CN112800927B CN 112800927 B CN112800927 B CN 112800927B CN 202110092924 A CN202110092924 A CN 202110092924A CN 112800927 B CN112800927 B CN 112800927B
Authority
CN
China
Prior art keywords
network
image
butterfly
bilinear
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110092924.9A
Other languages
English (en)
Other versions
CN112800927A (zh
Inventor
张培杰
张婷
刘兆英
李玉鑑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110092924.9A priority Critical patent/CN112800927B/zh
Publication of CN112800927A publication Critical patent/CN112800927A/zh
Application granted granted Critical
Publication of CN112800927B publication Critical patent/CN112800927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于基于AM‑Softmax损失的蝴蝶图像细粒度识别方法,属于计算机视觉领域;具体步骤包括:首先选择使用网络收集以及标注的334类蝴蝶数据集作为实验数据集,并进行预处理操作;然后,建立双线性模型;其次,使用AM‑Softmax作为损失函数,选择优化方法,设置合适的学习率以及迭代次数等超参数,训练双线性网络,训练完成后保存模型;最后,对测试集图像进行测试,输出分类准确率。本说明在计算机视觉、细粒度识别领域具有一定的研究意义和价值。

Description

一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法
技术领域
本发明属于机器视觉中的图像识别技术领域,尤其涉及一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法。
背景技术
现在大多数的图像识别,通常是针对不同物种进行的识别,例如“鸟”、“车”、“狗”等,类别间特征差异较为明显。然而,在许多的实际应用当中,我们需要识别的往往不是它是属于哪个物种,而是想要具体的知道它是这个物种中的哪个类别,这就是细粒度图像识别任务。针对于蝴蝶进行的图像识别分类就属于细粒度图像识别任务,蝴蝶与人类生活和自然环境息息相关,一方面,在生态环境中,蝴蝶有助于保护生态系统健康,帮助科学家监测气候变化,有助于花的授粉;另一方面,在人类生活中,蝴蝶有着很高的观赏价值,有助于促进旅游业的发展,因此,针对于蝴蝶图像进行识别分类无论是在生态方面,还是人类生活方面都具有重大意义。
与传统图像识别任务相比,蝴蝶图像识别任务难点在于其图像所属类别的力度更为精细,物体的差异仅仅体现在细微之处,并且由于受姿态、光照等的影响,其类内差异非常大,类间差异比较小;其次,在生态图像中,蝴蝶尺寸较小,仅仅占据图像很小的位置;最后,蝴蝶还具有一种拟态的能力,这使得其蝴蝶目标与背景难以区分,这些均为细粒度蝴蝶图像的识别分类带来了巨大的挑战。
以卷积神经网络(Convolutional Neural Network,CNN)为代表的深度学习方法在图像识别领域取得了巨大的成功,它首先自动提取图像的特征,然后使用软最大(softmax)分类器进行分类识别。在传统图像识别训练中,通常使用交叉熵损失函数,该损失函数擅长处理优化类间差异,即分离不同的类,但是针对于蝴蝶这种类内差异非常大,类间差异不是很大的图像来说,其并不擅长减少类内差异(即使同一类的特性紧凑),因而可能会影响最终的识别准确率。
本发明通过引入AM-Softmax损失函数,将交叉熵损失重新定义为一种余弦损失,并在此基础上引入余弦边缘项来进一步增大决策区域,进而让类内特征更为的紧凑,类间的差异更为的明显,最终提升蝴蝶图像识别分类的准确率。
本发明在自主构建的334类蝴蝶图像数据集上进行实验,基于双线性模型,引入AM-Softmax损失函数,有效的对蝴蝶细粒度图像进行识别。
发明内容
本发明要解决的技术问题是,提供一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法,用于提升蝴蝶细粒度图像识别的准确率,本发明采用如下的技术方案:
一种基于AM-Softmax损失的蝴蝶图像细粒度识别的方法包括以下步骤:
步骤1:预处理蝴蝶图像细粒度识别数据集,本发明在自主构建的334类共N幅蝴蝶图像的数据集D上面进行验证,将每一种类的数据集以8:2的比例划分为训练和测试图像,最终得到训练集Dt(包含Nt幅图像)和测试集Ds(包含Ns幅图像),图像数据集表示为D={(Ii,yi)}(1≤i≤N),其中蝴蝶图像为Ii,类别标签为yi
步骤2:构建基础网络,选择VGG-16的前13层作为基础网络,该基础网络由5个卷积块组成,其中前两个卷积块包含两个卷积层和一个池化层,后三个卷积块包含三个卷积层和一个池化层,其中每个卷积核大小都是3×3,采用最大池化的方式;基础网络的输入为彩色图像Ii∈Rh×w×3(1≤i≤N),其中h和w分别表示图像的高度和宽度,3表示图像的通道个数,网络的输出为多通道的特征;
步骤3:构建双线性网络模型,此网络包含A和B两个并行的分支,其中A分支用于提取细粒度特征,B分支用于定位区域,这两个分支都使用步骤2中的基础网络:
步骤3.1:对于第p幅蝴蝶训练图像Ip∈Rh×w×3(1≤p≤Nt),双线性网络首先分别使用A和B两个分支提取特征,得到两个维度相同的特征和/>
步骤3.2:将特征和/>分别拉伸成一个向量,表示为:
其中,vector(·)表示向量化操作;
步骤3.3:使用外积操作对和/>进行特征融合,表示为:
其中,bip表示第p幅图像Ip融合后的特征;
步骤3.3:将bip拉伸为向量,得到第p幅图像Ip的双线性特征:
Bip=vector(bip)
其中,vector(·)表示向量化操作;
步骤3.4:将获取到的双线性特征做如下标准化计算:
其中,zp表示第p幅图像Ip归一化后的双线性特征;
步骤3.5:使用softmax分类器对归一化后的双线性特征zp进行分类,得到输出结果op∈R1×C,表示为::
其中C代表图像类别的个数。
步骤4:建立网络的损失函数,使用AM-softmax作为损失函数,表示为:
其中,fp表示输出层的输入,表示是最后一个全连接层权值矩阵W的第yp列,yp代表第p个样本真实标签的序号,m通常是一个大于1的整数,s为缩放因子;
步骤5:网络训练:设置迭代次数、学习率等超参数,使用随机梯度下降算法对网络参数进行迭代更新,保存最终的模型;
步骤6:网络测试:加载保存的模型,将测试集Ds输入网络中,获得最终的分类准确率,网络整体结构附图3所示。
附图说明
图1为本方法实施流程图。
图2为原图像。
图3为网络整体结构。
具体实施方式
本发明实例提供一种基于AM-Softmax的蝴蝶细粒度识别方法,下面结合相关附图对本发明进行解释和阐述:
本发明是在卷积神经网络的基础上,使用包含334类的蝴蝶图像数据集(通道数为3,像素值∈[0,255]),采用双线性网络模型,引用AM-Softmax损失函数来减少类内差异,来有效的对蝴蝶数据集进行图像识别。
本发明的实施方案流程如下:
步骤1:预处理蝴蝶数据集。蝴蝶数据集D分为334类,共包含N=74111幅图像,该数据集的图像如附图2所示。将数据集D按照每类8:2的比例划分为训练集Dt(包含Nt=58288幅图像)和测试集Ds(包含Ns=14823幅图像)。在输入网络之前,将图像裁剪为448×448,并且对数据进行标准化操作即图像的各个维度减去均值并除以图像数据集的标准差;
步骤2:构建基础网络,选择VGG-16的前13层作为基础网络,该基础网络由5个卷积块组成,其中前两个卷积块包含两个卷积层和一个池化层,后三个卷积块包含三个卷积层和一个池化层,其中每个卷积核大小都是3×3,采用最大池化的方式。基础网络的输入为彩色的蝴蝶图像I2∈R448×448×3,其中3表示图像通道数,h=448和w=448分别表示图像的高度和宽度。基础网络的输出为特征图S2∈R28×28×512,其中512表示特征图的通道数,28×28为特征图的分辨率。
步骤3:构建双线性网络模型,此网络包含A和B两个并行的分支,其中A分支用于提取细粒度特征,B分支用于定位区域,这两个分支都使用步骤2中的基础网络:
步骤3.1:对于第p幅训练图像Ip∈R448×448×3(1≤p≤58288),双线性网络首先分别使用A和B两个分支提取特征,得到两个维度相同的特征和/>
步骤3.2:将特征和/>分别拉伸成一个向量,表示为:
其中,vector(·)表示向量化操作;
步骤3.3::使用外积操作对和/>进行特征融合,表示为:
其中,bip表示第p幅图像Ip融合后的特征;
步骤3.4:将bip拉伸为向量,得到第p幅图像Ip的双线性特征:
Bip=vector(bip)
其中,vector(·)表示向量化操作;
步骤3.5:将获取到的双线性特征做如下标准化计算:
其中,zp表示第p幅图像Ip归一化后的双线性特征;
步骤3.6:使用softmax分类器对归一化后的双线性特征zp进行分类,得到输出结果op∈R1×C,表示为:
其中C代表图像类别的个数。
步骤4:建立网络的损失函数,使用AM-Softmax作为损失函数,表示为:
其中,f代表输出层的输入,/>是最后一个全连接层权值矩阵W的第yp列,yp代表第p个样本真实标签的序号;
步骤5:网络训练。设置迭代次数为55、学习率为0.001,将训练集Dt输入网络,使用ImageNet训练的VGG16权值初始化基础网络,利用随机梯度下降算法对网络参数进行迭代更新,直到损失收敛,保存最终的模型;
步骤6:网络测试。加载保存的模型,将测试集Ds输入网络,获得分类准确率,根据实践结果可以发现,当在原双线性网络模型中引入AM-Softmax损失函数后,发现无论是在网络训练的准确率上还是在最终对于测试集的准确率上都有了显著的提升。
表1 Butterfly334蝴蝶数据集
方法 训练准确率 测试准确率
BCNN_Softmax 86.47 78.37%
BCNN_AMSoftmax 96.46 82.58%
以上实例仅用于描述本发明,而非限制本发明所描述的技术方案。因此,一切不脱离本发明精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围中。

Claims (1)

1.一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法,其特征在于:包括以下步骤:
步骤1:预处理蝴蝶图像细粒度识别数据集,构建的334类共N幅蝴蝶图像的数据集D上面进行验证,将每一种类的数据集以8:2的比例划分为训练和测试图像,最终得到训练集Dt和测试集Ds,整个蝴蝶图像数据集表示为D={(Ii,yi)},1≤i≤N,其中Ii表示蝴蝶图像,yi表示类别标签;
步骤2:构建基础网络,选择VGG-16的前13层作为基础网络,该基础网络由5个卷积块组成,其中前两个卷积块包含两个卷积层和一个池化层,后三个卷积块包含三个卷积层和一个池化层,其中每个卷积核大小都是3×3,采用最大池化的方式;基础网络的输入为彩色图像Ii∈Rh×w×3,其中h和w分别表示图像的高度和宽度,3表示图像的通道个数,网络的输出为多通道的特征;
步骤3:构建双线性网络模型,此网络包含A和B两个并行的分支,其中A分支用于提取细粒度特征,B分支用于定位区域,这两个分支都使用步骤2中的基础网络:
步骤4:建立网络的损失函数,使用AM-Softmax作为损失函数,表示为:
其中,f代表输出层的输入,/>是最后一个全连接层权值矩阵W的第yp列,yp代表第p个样本真实标签的序号,m通常是一个大于1的整数,s为缩放因子;
步骤5:网络训练:设置迭代次数、学习率超参数,使用随机梯度下降算法对网络参数进行迭代更新,保存最终的模型;
步骤6:网络测试:加载保存的模型,将测试集Ds输入网络中,获得最终的分类准确率;
步骤3包括以下步骤:
步骤3.1:对于第p幅训练图像Ip∈Rh×w×3,1≤ρ≤Nt,双线性网络首先分别使用A和B两个分支提取特征,得到两个维度相同的特征和/>
步骤3.2:将特征和/>分别拉伸成一个向量,表示为:
其中,vector(·)表示向量化操作;
步骤3.3:使用外积操作对和/>进行特征融合,表示为:
其中,bip表示第p幅图像Ip融合后的特征;
步骤3.4:将bip拉伸为向量,得到第p幅图像Ip的双线性特征:
Bip=vector(bip)
其中,vector(·)表示向量化操作;
步骤3.5:将获取到的双线性特征做如下标准化计算:
其中,zp表示第p幅图像Ip归一化后的双线性特征;
步骤3.6:使用softmax分类器对归一化后的双线性特征zp进行分类,得到输出结果op∈R1×C,表示为:
其中C代表图像类别的个数。
CN202110092924.9A 2021-01-25 2021-01-25 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法 Active CN112800927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110092924.9A CN112800927B (zh) 2021-01-25 2021-01-25 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110092924.9A CN112800927B (zh) 2021-01-25 2021-01-25 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法

Publications (2)

Publication Number Publication Date
CN112800927A CN112800927A (zh) 2021-05-14
CN112800927B true CN112800927B (zh) 2024-03-29

Family

ID=75811491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110092924.9A Active CN112800927B (zh) 2021-01-25 2021-01-25 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法

Country Status (1)

Country Link
CN (1) CN112800927B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092819B (zh) * 2022-01-19 2022-04-19 成都四方伟业软件股份有限公司 一种图像分类方法及装置
CN115631417A (zh) * 2022-11-11 2023-01-20 生态环境部南京环境科学研究所 一种基于卷积神经网络的蝴蝶图像识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063666A (zh) * 2018-08-14 2018-12-21 电子科技大学 基于深度可分离卷积的轻量化人脸识别方法及系统
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111340096A (zh) * 2020-02-24 2020-06-26 北京工业大学 一种基于对抗互补学习的弱监督蝴蝶目标检测方法
CN112132004A (zh) * 2020-09-21 2020-12-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063666A (zh) * 2018-08-14 2018-12-21 电子科技大学 基于深度可分离卷积的轻量化人脸识别方法及系统
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111340096A (zh) * 2020-02-24 2020-06-26 北京工业大学 一种基于对抗互补学习的弱监督蝴蝶目标检测方法
CN112132004A (zh) * 2020-09-21 2020-12-25 南水北调中线信息科技有限公司 一种基于多视角特征融合的细粒度图像识别方法

Also Published As

Publication number Publication date
CN112800927A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
CN102609681A (zh) 基于字典学习模型的人脸识别方法
CN112800927B (zh) 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法
CN109376787B (zh) 流形学习网络及基于其的计算机视觉图像集分类方法
CN109726725A (zh) 一种基于大间隔类间互异性多核学习的油画作者识别方法
CN109543723A (zh) 一种鲁棒的图像聚类方法
CN111161213B (zh) 一种基于知识图谱的工业产品缺陷图像分类方法
CN113793319A (zh) 基于类别约束字典学习模型的织物图像瑕疵检测方法及系统
Patel et al. Convolutional neural network with transfer learning for rice type classification
Sardeshmukh et al. Crop image classification using convolutional neural network
You et al. Robust structure low-rank representation in latent space
CN108460412A (zh) 一种基于子空间联合稀疏低秩结构学习的图像分类方法
Song et al. Using dual-channel CNN to classify hyperspectral image based on spatial-spectral information
CN109934281B (zh) 一种二分类网络的非监督训练方法
CN105844299B (zh) 一种基于词袋模型的图像分类方法
CN105718858B (zh) 一种基于正负广义最大池化的行人识别方法
Luong et al. Color image processing based on nonnegative matrix factorization with convolutional neural network
CN113011506B (zh) 一种基于深度重分形频谱网络的纹理图像分类方法
Bajpai et al. Real Time Face Recognition with limited training data: Feature Transfer Learning integrating CNN and Sparse Approximation
CN109472319B (zh) 一种三维模型分类方法以及检索方法
CN114648667B (zh) 一种基于轻量化双线性cnn模型的鸟类图像细粒度识别方法
Singh et al. Transfer Learning Approach on Bacteria Classification from Microscopic Images
Liao et al. Subspace clustering based on alignment and graph embedding
Chen et al. Robust adaptive sparse learning method for graph clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant