CN114219049A - 一种基于层级约束的细粒度笔石图像分类方法和装置 - Google Patents

一种基于层级约束的细粒度笔石图像分类方法和装置 Download PDF

Info

Publication number
CN114219049A
CN114219049A CN202210159814.4A CN202210159814A CN114219049A CN 114219049 A CN114219049 A CN 114219049A CN 202210159814 A CN202210159814 A CN 202210159814A CN 114219049 A CN114219049 A CN 114219049A
Authority
CN
China
Prior art keywords
stone
images
stroke
image
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210159814.4A
Other languages
English (en)
Other versions
CN114219049B (zh
Inventor
潘耀华
徐洪河
牛志彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING INST OF GEOLOGY AND PALEONTOLOGY CHINESE ACADEMY OF SCIENCES
Tianjin University
Original Assignee
NANJING INST OF GEOLOGY AND PALEONTOLOGY CHINESE ACADEMY OF SCIENCES
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING INST OF GEOLOGY AND PALEONTOLOGY CHINESE ACADEMY OF SCIENCES, Tianjin University filed Critical NANJING INST OF GEOLOGY AND PALEONTOLOGY CHINESE ACADEMY OF SCIENCES
Priority to CN202210159814.4A priority Critical patent/CN114219049B/zh
Publication of CN114219049A publication Critical patent/CN114219049A/zh
Application granted granted Critical
Publication of CN114219049B publication Critical patent/CN114219049B/zh
Priority to US18/147,019 priority patent/US11804029B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明涉及一种基于层级约束的细粒度笔石图像分类方法和装置,分类方法包括:构建笔石化石数据集;提取笔石图像特征;计算笔石图像之间的相似性并根据物种之间的亲缘关系加权,得到所有笔石图像的加权后的层级约束损失;第四步,计算交叉熵损失;以层级约束损失和交叉熵损失的加权和作为训练阶段的总损失函数;模型训练。本发明的装置包括处理器和存储器。本发明利用物种之间层次化的亲缘关系来度量输入图像之间的相似性,然后将相似性作为正则化项添加到损失函数中,可以在反向传播的过程中降低CNN的参数量,以防止CNN过度关注两张相似但不属于同一类别的图像之间的细节特征。

Description

一种基于层级约束的细粒度笔石图像分类方法和装置
技术领域
本发明属于细粒度图像分类领域,涉及一种利用卷积神经网络来识别笔石图像中笔石个体的方法和装置。
背景技术
图像分类是计算机视觉领域的一个经典任务。而细粒度图像分类是指在区分大类别的基础上,对子类别进行更精细的划分,因此也被称为子类别分类(例如区分不同品种的狗、不同种类的鸟和不同种类的花等)。细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。例如,笔石分类可以用于支持页岩气识别,有可能提高页岩气勘探的效率(Zou C, Gong J, Wang H, et al. Importance of graptolite evolution andbiostratigraphic calibration on shale gas exploration[J]. China PetroleumExploration, 2019.)。但由于子类别之间的差异非常细微,细粒度图像分类一直以来都是一项具有挑战性的任务,尤其在包含着复杂的遗传关系和进化关系的生物图像上更明显。
细粒度图像分类任务需要回答图像中个体所属的具体子类别是什么。对于一张图像,我们首先需要对其进行特征提取,然后将提取到的特征进行处理并映射到分类空间,以得到图像属于每个类别的概率分布。相比于传统的利用人工特征的方法,卷积神经网络(Convolutional Neural Network,CNN)所提取的特征具有更强大的表示能力和区分性,并且可以进行端到端训练。因此,目前细粒度图像分类领域的主流研究都选择利用卷积神经网络CNN来提取特征并进行分类。CNN利用大量的中间层参数与输入图像进行一系列矩阵运算得到预测概率分布,然后计算其与真实标签分布之间的差异(损失),并通过梯度下降法对模型参数调优,使CNN的预测结果在训练过程中逐渐逼近真实结果。
笔石是一种古代海洋群体生物,目前它们已经灭绝,而笔石遗骸被压扁、碳化后以化石的形式保存了下来。因此,相比于传统生物图像采集自形态各异的有机生命体,笔石图像,存在着纹理不清晰、组织结构缺失、形态单一、颜色和部分纹理是虚假的等特点。而目前的先进细粒度图像分类方法大多是在已有CNN的基础上,设计一个复杂的特征提取模块来获取交互特征或定位图像中的局部区域以学习更细粒度的判别性特征。这些方法通常会大大增强网络参数量,从而可能使CNN学习到笔石图像中虚假的颜色、纹路等特征,导致分类效果不好。
在Dubey等人的研究(Dubey A,Gupta O, Guo P, et al. Pairwise confusionfor fine-grained visual classification[C]//Proceedings of the Europeanconference on computer vision (ECCV). 2018: 70-86.)中,作者计算图像之间的距离作为损失函数的正则化项,并提出当使用欧氏距离计算的图像特征之间的相似性作为交叉熵损失的正则化项时,不会使损失函数发散,相比于其他距离度量函数能使CNN获得更好的分类效果。但作者忽略了生物图像在不同分类层级的关系,对于不同类别的生物图像,它们之间的相似性与类别之间的从属关系应当是密切相关的。
发明内容
本发明针对笔石图像的分类问题,提供了一种基于层级约束的损失函数(Hierarchical Constraint Loss, HC-Loss)对细粒度生物图像,尤其是笔石图像进行分类的方法和装置。本发明采用的损失函数HC-Loss充分考虑了上述提到的细粒度图像分类领域的发展趋势以及笔石图像的特点,它利用物种之间层次化的亲缘关系来度量输入图像之间的相似性,然后将相似性作为正则化项添加到损失函数中,可以在反向传播的过程中降低CNN的参数量,以防止CNN过度关注两张相似但不属于同一类别的图像之间的细节特征,能够解决小类间差异的问题。
本发明的技术方案如下:
一种基于层级约束的细粒度笔石图像分类方法,包括下列步骤:
第一步,采集笔石原始图像;
第二步,对笔石原始图像中的笔石个体进行细粒度标注;
第三步,得到表征笔石个体的笔石图像,构建笔石数据集;
第四步,利用卷积神经网络模型提取笔石图像特征,方法为:对于一张输入的笔石图像利用卷积神经网络模型的卷积、激活和池化操作来提取其特征图,获得特征向量;通过一个嵌入层将特征向量投影为一个维度为数据集类别数量的特征向量,投影后所获得的特征向量代表卷积神经网络模型对输入的笔石图像的预测向量,预测向量中的每个值代表它对应的类别的预测得分,预测得分越高表示笔石图像属于该类别的概率越大;
第五步,计算笔石图像之间的相似性并根据物种之间的亲缘关系加权,得到所有笔石图像的加权后的层级约束损失HC-Loss,方法为:
(1)对于每组笔石图像对的两张笔石图像,根据两张笔石图像中的笔石所属类别的亲缘关系来量化相似性权重,对于分别属于两个类别的笔石图像,亲缘关系越近,相似程度越大,相似性的相似性权重值设置得越大;反之,若亲缘关系越远,则相似性权重值设置得越小;
(2)在每个训练批次batch中,计算所有笔石图像的加权后的层级约束损失HC-Loss,方法为:计算每组笔石图像对中两张笔石图像的预测向量之间的欧氏距离;根据所设置的每组笔石图像对的相似性权重值,对所有组笔石图像对的相似性进行加权求和,并除以分组的数量, 得到所有笔石图像的加权后的层级约束损失HC-Loss;
第六步,计算用来表征卷积神经网络模型的预测概率分布和图像的真实标签分布之间的差异的交叉熵损失CE-Loss;
第七步,以层级约束损失HC-Loss和交叉熵损失CE-Loss的加权和作为卷积神经网络模型在训练阶段的总损失函数;
第八步,卷积神经网络模型训练。
进一步地,第一步中,所采集的笔石原始图像包括覆盖各科、属和种的高分辨率图像。
进一步地,第三步中,根据标注结果对笔石原始图像进行像素级裁剪、标注框裁剪和数据增强,得到表征笔石个体的笔石图像。
进一步地,第四步按照下列步骤执行:对于一张输入的笔石图像
Figure 277325DEST_PATH_IMAGE001
,利用卷积神经网络模型中的卷积、激活和池化操作来提取关于
Figure 314551DEST_PATH_IMAGE001
的特征图
Figure 202873DEST_PATH_IMAGE002
,设
Figure 20132DEST_PATH_IMAGE002
的尺寸为
Figure 44719DEST_PATH_IMAGE003
,其中
Figure 252847DEST_PATH_IMAGE004
Figure 300568DEST_PATH_IMAGE005
Figure 658869DEST_PATH_IMAGE006
分别表示特征图的通道数、高度和宽度;将特征图
Figure 397017DEST_PATH_IMAGE002
展平为一个维度为
Figure 120254DEST_PATH_IMAGE003
的特征向量,并通过一个嵌入层将其投影为一个
Figure 311064DEST_PATH_IMAGE007
维度的特征向量,其中
Figure 738634DEST_PATH_IMAGE007
代表数据集的类别数量,而所述的嵌入层通过全连接层来实现,最终获得的图像的特征向量代表卷积神经网络模型对输入图像
Figure 938147DEST_PATH_IMAGE001
的预测向量。
进一步地,一组笔石图像对所包含的两张笔石图像的预测向量之间的欧氏距离:
Figure 19235DEST_PATH_IMAGE008
其中,
Figure 369445DEST_PATH_IMAGE009
为一组笔石图像对,
Figure 741652DEST_PATH_IMAGE010
表示从卷积神经网络模型中提取到的关于笔石图像
Figure 188814DEST_PATH_IMAGE001
的一个预测向量,而
Figure 316170DEST_PATH_IMAGE011
是指预测向量中的第
Figure 622517DEST_PATH_IMAGE012
个元素,
Figure 391890DEST_PATH_IMAGE013
代表欧氏距离。
具体此,第五步中,根据类别和亲缘关系设置一组笔石图像对的相似性权重值的方法为:
如果一组笔石图像对的两张笔石图像属于同一类别且最低公共父类别在种这一层级,则将相似性权重值设为0;
如果一组笔石图像对的两张笔石图像来自同一个属的不同种且最低公共父类别在属这一层级,将相似性权重值设为1.0;
如果一组笔石图像对的两张笔石图像属于同一个科的不同属且最低公共父类别在科这一层级,将相似性权重值设为大于0.5且小于1.0的值;
如果一组笔石图像对的两张笔石图像来自不同的科且最低公共父类别在目这一层级,将相似性权重值设为大于0.1且小于0.3的值。
第五步中,如果一组笔石图像对的两张笔石图像属于同一个科的不同属且最低公共父类别在科这一层级,将它们的相似性权重值设为0.6。
第五步中,如果一组笔石图像对的两张笔石图像来自不同的科且最低公共父类别在目这一层级,将相似性权重值设为0.2。
本发明同时提供一种基于层级约束的细粒度笔石图像分类装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行所述的方法步骤。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行所述的方法步骤。
附图说明
图1是笔石数据集的构建流程。
图2是构建的笔石数据集的分类层次。
图3是基于HC-Loss的CNN训练流程。
图4是HC-Loss的具体计算流程。
图5是细粒度图像分类方法在笔石数据集上的实验结果。
图6是HC-Loss在笔石数据集上的实验结果。
图7是HC-Loss在笔石数据集上的不同分类层级的实验结果。
图8是HC-Loss在CUB-200-2011数据集上的实验结果。
图9为本发明提供的识别装置的硬件结构图。
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图和实施例对本发明做进一步阐述。
本发明受到以下先验知识的启发:生物体天生具有能够在不同层次上进行分类的属性,在分类层级中,同属于一个父类别的子类别个体之间具有相似的形态特征,并且相似程度通常随着它们的最低公共父类别的级别降低而增加。因此,相比于目前先进的细粒度图像分类方法,本发明能够在笔石图像上获得更高的分类准确率,并且同样适用于其它生物图像。此外,本发明在CNN训练阶段不会引入额外参数,并能够附加在任意CNN上进行端到端训练。图1是笔石数据集的构建流程,在流程图里,前两步都是对笔石原始图像的处理,经过第三步的裁剪后,就得到了表征笔石个体的笔石图像,再经过数据增强构建笔石数据集)。本发明按以下步骤具体实现:
第一步,构建笔石数据集。
(1)笔石图像采集和细粒度标注。
所有笔石原始图像均采集自存放于中国科学院南京地质古生物研究所的1,565块化石标本,笔石图像又称为笔石化石图像。最终总共采集了40,597张笔石原始图像,其中包括20,644张单反图像(每张分辨率为4912*7360像素)和19,953张显微镜图像(每张分辨率为2720*2048像素)。然后对数据集进行清洗,删除了其中5,977张低质量笔石原始图像。最终,数据集保留了34,613张经过清洗的笔石原始图像,覆盖了15个科、42个属和113个属种。图像采集完成后,标注员使用COCO Annotator(一款开源的图像标注工具)对经过清洗的笔石原始图像中的笔石个体进行像素级别的标注。
(2)笔石图像裁剪与数据增强。
考虑到化石受到自然界的风化侵蚀等原因,笔石的组织结构和纹理特征被破坏得比较严重,存在着特征缺失和不易分辨的问题,我们首先根据标注结果对所有笔石原始图像进行了像素级裁剪,以提升CNN的分类准确率。然后由于笔石原始图像的分辨率很高,而部分笔石个体的所占比例过小,又对所有笔石原始图像进行标注框裁剪,以将笔石个体缩放到合适的比例,从而得到表征笔石个体的笔石图像。此外,由于笔石原始图像是基于标本采集的,因此采集自同一块标本的不同笔石原始图像在经过上述两步裁剪后可能会出现十分相似的情况,因此对笔石图像又进行了数据增强,包括随机旋转、随机翻转、随机平移、随机缩放等操作,以增强数据集中图像的多样性,从而构建笔石数据集。
(3)笔石数据集划分
由于笔石原始图像是基于标本采集的,因此在同一块标本上采集到的不同笔石原始图像具有相似的视觉内容,它们仅在角度、空间位置和个体尺寸上有所不同。因此,在划分笔石数据集时没有进行随机选择,而是遵循以下原则:属于同一块标本的笔石图像不能同时存在于训练集和测试集,它们应当被划分在一起。最终,我们划分的测试集包含了8,454张笔石图像,约占数据集图像总数的24%,而训练集包含26,159张笔石图像,约占笔石数据集图像总数的76%。
第二步,利用CNN提取笔石图像特征。
如图3所示,对于一张输入的笔石图像
Figure 631242DEST_PATH_IMAGE001
,我们利用CNN中一系列的卷积、激活和池化操作来提取关于
Figure 257395DEST_PATH_IMAGE001
的特征图(Feature map)
Figure 274809DEST_PATH_IMAGE002
。设
Figure 910189DEST_PATH_IMAGE002
的尺寸为
Figure 207310DEST_PATH_IMAGE003
,其中
Figure 942047DEST_PATH_IMAGE004
Figure 754146DEST_PATH_IMAGE005
Figure 193217DEST_PATH_IMAGE006
分别表示特征图的通道数(Channel)、高度(Height)和宽度(Weight)。然后,我们将特征图展平(flatten)为一个维度为
Figure 407161DEST_PATH_IMAGE003
的特征向量,并通过一个嵌入层(Embedding Layer)将其投影为一个
Figure 781642DEST_PATH_IMAGE007
维度的特征向量。其中
Figure 143353DEST_PATH_IMAGE007
代表数据集的类别数量,而嵌入层在我们的工作中通过一个全连接层来实现。最终获得的图像的特征向量也被称为logits,代表卷积神经网络模型对输入的笔石图像的预测向量,预测向量中的每个值代表它对应的类别的预测得分,预测得分越高表示笔石图像属于该类别的概率越大。
第三步,计算笔石图像之间的相似性并根据物种之间的亲缘关系加权。
如图4中的HC-Loss的具体计算流程所示:
(1)在一个batch中,设batch size的大小为
Figure 58219DEST_PATH_IMAGE014
,我们将所有笔石图像划分为
Figure 61423DEST_PATH_IMAGE015
组,
Figure 403542DEST_PATH_IMAGE014
设为偶数。然后,对于每组笔石图像对
Figure 252550DEST_PATH_IMAGE009
,利用欧氏距离来计算它们特征之间的相似性作为约束:
Figure 705528DEST_PATH_IMAGE008
其中,
Figure 628484DEST_PATH_IMAGE010
表示从CNN中提取到的关于笔石图像
Figure 672664DEST_PATH_IMAGE001
的一个特征向量,而
Figure 946650DEST_PATH_IMAGE011
是指特征向量中的第
Figure 57DEST_PATH_IMAGE012
个元素。
Figure 918466DEST_PATH_IMAGE013
代表欧氏距离;
(2)我们根据两张笔石图像所属类别的亲缘关系来量化相似性的权重。对于分别属于两个类别的笔石图像,它们的亲缘关系越近,通常相似程度越大,则CNN越容易关注它们的细节特征从而导致过拟合,因此我们将相似性的相似性权重值设置得越大以约束模型。反之,若亲缘关系越远,则相似性权重值设置得越小。如图2中的笔石数据集的分类层次所示,设
Figure 602388DEST_PATH_IMAGE016
表示一个batch中分别属于类别
Figure 160408DEST_PATH_IMAGE012
和类别
Figure 217838DEST_PATH_IMAGE017
的一组笔石图像对,则它们可能具有以下四种亲缘关系之一:
(a)如果
Figure 318649DEST_PATH_IMAGE018
Figure 970211DEST_PATH_IMAGE019
属于同一个类别
Figure 953210DEST_PATH_IMAGE020
,它们最低公共父类别在种这个层级,则将相似性权重值
Figure 286103DEST_PATH_IMAGE021
设为0。
(b)如果
Figure 834896DEST_PATH_IMAGE018
Figure 860620DEST_PATH_IMAGE019
来自同一个属的不同种,即它们的最低公共父类别处在属这个级别,将相似性的相似性权重值
Figure 65337DEST_PATH_IMAGE021
设为1.0。
(c)如果
Figure 529816DEST_PATH_IMAGE018
Figure 136378DEST_PATH_IMAGE019
属于同一个科的不同属,即它们的最低公共父类别在科这一层次,将它们的相似性权重值
Figure 536266DEST_PATH_IMAGE021
设为0.6,小于1.0。
(d)如果
Figure 490928DEST_PATH_IMAGE018
Figure 493520DEST_PATH_IMAGE019
来自不同的科,即它们的最低公共父类别在目这一层级,将相似性权重值
Figure 220167DEST_PATH_IMAGE021
设为0.2。
最终,在每个batch中,对于所有笔石图像的加权后的层级约束损失(HC-Loss)计算为:
Figure 56536DEST_PATH_IMAGE022
其中,
Figure 970265DEST_PATH_IMAGE023
代表一个batch中所有笔石图像,它们被划分为
Figure 776547DEST_PATH_IMAGE024
组笔石图像对(
Figure 623281DEST_PATH_IMAGE025
)。而
Figure 99393DEST_PATH_IMAGE021
指的是根据类别
Figure 31576DEST_PATH_IMAGE012
和类别
Figure 641549DEST_PATH_IMAGE017
在分类层次中的亲缘关系而确定的相似性权重值。
第四步,计算层级约束损失和交叉熵损失的加权和。
当使用HC-Loss时,CNN在训练阶段的总损失函数
Figure 280472DEST_PATH_IMAGE026
由两部分构成:一是交叉熵损失(CE-Loss)即
Figure 986873DEST_PATH_IMAGE027
,二是层级约束损失(HC-Loss)即
Figure 468669DEST_PATH_IMAGE028
Figure 554437DEST_PATH_IMAGE029
其中,
Figure 313446DEST_PATH_IMAGE030
代表卷积神经网络模型中的所有参数。
Figure 521573DEST_PATH_IMAGE031
是一个超参数,用于控制层级约束损失
Figure 162770DEST_PATH_IMAGE032
的权重。而交叉熵损失计算为:
Figure 724333DEST_PATH_IMAGE033
其中,
Figure 728061DEST_PATH_IMAGE034
表示真实标签分布,S表示一个batch中所有输入的笔石图像。而
Figure 248035DEST_PATH_IMAGE035
表示CNN模型对于笔石图像
Figure 845369DEST_PATH_IMAGE001
的预测概率分布中类别
Figure 69677DEST_PATH_IMAGE036
的概率值。
Figure 865595DEST_PATH_IMAGE035
是通过Softmax函数计算得到的。
在训练阶段,在CNN反向传播的过程中使用梯度下降法来优化模型参数。如果输入数据中包含具有相似视觉内容但属于不同类别的笔石图像时,利用层级约束损失量化它们之间的相似性并作为一个约束项来抑制模型过度学习它们之间的细节特征,从而防止过拟合,以提升模型的分类准确率。
第五步,测试本发明的分类效果
我们首先测试了目前先进的细粒度图像分类方法在笔石数据集上的分类效果。如图5所示,这些先进的方法在笔石数据集上的分类效果大都不如它们所使用的基础CNN。这是因为添加额外的特征学习模块或者设计复杂的神经网络结构这两种主流方法会使模型的参数量过大而导致过拟合的问题,不适用我们构建的笔石数据集。
相比之下,我们提出的层级约束损失能够在不增加额外训练参数的情况下有效地提高不同架构CNN对笔石图像的分类准确率,且均高于目前先进方法的分类结果。如图6所示,当使用Resnet50网络作为基础CNN时,HC-Resnet50获得了63.39%的分类准确率,相比于只用Resnet50网络准确率提升了0.61%。这个结果优于上述提到的所有以Resnet50为基础模型的先进方法所获得的分类结果。同样的,当以VGG16网络为基础CNN时,HC-VGG16获得了61.13%的分类准确率,相比于VGG16准确率提高了1.18%,并且同样高于上述提到的所有以VGG16为基础CNN的先进方法获得的结果。此外,当使用Inception-v3网络作为HC-Loss的基础CNN时,HC-Inception-v3能够获得64.19%的分类准确率,相比于Inception-V3准确率得到了0.57%的提升。
层级约束损失不仅能提升模型在种这个层级上的分类效果,还能显著提升CNN在科和属这两个分类层级上的分类结果,如图7所示,HC-Loss在不同分类层级上均能提升三种基础CNN的分类准确率。
在生物细粒度图像数据集上,层级约束损失同样能使不同架构的CNN在分类准确率上得到显著提升。如图8所示,HC-Densenet161在CUB-200-2011数据集上获得了88.06%的分类准确率,相比于Densenet161取得了2.73%的显著提升。另外,HC-Loss使Resnet50、VGG16和Inception-v3在分类准确率上分别获得了1.99%、0.86%和1.15%的提升。这些结果表明,层级约束损失不仅可以提高卷积神经网络对于不同生物图像的分类性能,而且还具有适用性,可以应用在各种不同架构的基础模型上,并且均能获得不同程度的分类准确率的提升。
作为相对应的另一种实施例,及对应的装置方面的实施例。其硬件结构如图9所述。
图9中,处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种基于层级约束的细粒度笔石图像分类方法,包括下列步骤:
第一步,采集笔石原始图像;
第二步,对笔石原始图像中的笔石个体进行细粒度标注;
第三步,根据细粒度标注结果对笔石原始图像进行像素级裁剪、标注框裁剪和数据增强,得到表征笔石个体的笔石图像,构建笔石数据集;
第四步,利用卷积神经网络模型提取笔石图像特征,方法为:对于一张输入的笔石图像利用卷积神经网络模型的卷积、激活和池化操作来提取其特征图,获得特征向量;通过一个嵌入层将特征向量投影为一个维度为数据集类别数量的特征向量,投影后所获得的特征向量代表卷积神经网络模型对输入的笔石图像的预测向量,预测向量中的每个值代表它对应的类别的预测得分,预测得分越高表示笔石图像属于该类别的概率越大;
第五步,计算笔石图像之间的相似性并根据物种之间的亲缘关系加权,得到所有笔石图像的加权后的层级约束损失HC-Loss,方法为:
对于每组笔石图像对的两张笔石图像,根据两张笔石图像中的笔石所属类别的亲缘关系来量化相似性权重,对于分别属于两个类别的笔石图像,亲缘关系越近,相似程度越大,相似性权重值设置得越大;反之,若亲缘关系越远,则相似性权重值设置得越小;
在每个训练批次batch中,计算所有笔石图像的加权后的层级约束损失HC-Loss,方法为:计算每组笔石图像对中两张笔石图像的预测向量之间的欧氏距离;根据所设置的每组笔石图像对的相似性权重值,对所有组笔石图像对的相似性进行加权求和,并除以分组的数量, 得到所有笔石图像的加权后的层级约束损失HC-Loss;
第六步,计算用来表征卷积神经网络模型的预测概率分布和图像的真实标签分布之间的差异的交叉熵损失CE-Loss;
第七步,以层级约束损失HC-Loss和交叉熵损失CE-Loss的加权和作为卷积神经网络模型在训练阶段的总损失函数;
第八步,卷积神经网络模型训练。
2.根据权利要求1所述的细粒度笔石图像分类方法,其特征在于,第一步中,所采集的笔石原始图像包括覆盖各科、属和种的高分辨率图像。
3.根据权利要求1所述的细粒度笔石图像分类方法,其特征在于,第四步按照下列步骤执行:对于一张输入的笔石图像
Figure 907543DEST_PATH_IMAGE001
,利用卷积神经网络模型中的卷积、激活和池化操作来提取关于
Figure 27946DEST_PATH_IMAGE001
的特征图
Figure 948629DEST_PATH_IMAGE002
,设
Figure 281521DEST_PATH_IMAGE002
的尺寸为
Figure 296226DEST_PATH_IMAGE003
,其中
Figure 384268DEST_PATH_IMAGE004
Figure 588984DEST_PATH_IMAGE005
Figure 991147DEST_PATH_IMAGE006
分别表示特征图的通道数、高度和宽度;将特征图
Figure 269812DEST_PATH_IMAGE002
展平为一个维度为
Figure 466438DEST_PATH_IMAGE003
的特征向量,并通过一个嵌入层将其投影为一个
Figure 361713DEST_PATH_IMAGE007
维度的特征向量,其中
Figure 301987DEST_PATH_IMAGE007
代表数据集的类别数量,而所述的嵌入层通过全连接层来实现,最终获得的图像的特征向量代表卷积神经网络模型对输入图像
Figure 760126DEST_PATH_IMAGE001
的预测向量。
4.根据权利要求3所述的细粒度笔石图像分类方法,其特征在于,一组笔石图像对所包含的两张笔石图像的预测向量之间的欧氏距离:
Figure 455550DEST_PATH_IMAGE008
其中,
Figure 900437DEST_PATH_IMAGE009
为一组笔石图像对,
Figure 50927DEST_PATH_IMAGE010
表示从卷积神经网络模型中提取到的关于笔石图像
Figure 632081DEST_PATH_IMAGE001
的一个预测向量,而
Figure 904931DEST_PATH_IMAGE011
是指预测向量中的第
Figure 774798DEST_PATH_IMAGE012
个元素,
Figure 56875DEST_PATH_IMAGE013
代表欧氏距离。
5.根据权利要求1所述的细粒度笔石图像分类方法,其特征在于,第五步中,根据类别和亲缘关系设置一组笔石图像对的相似性权重值的方法为:
如果一组笔石图像对的两张笔石图像属于同一类别且最低公共父类别在种这一层级,则将相似性权重值设为0;
如果一组笔石图像对的两张笔石图像来自同一个属的不同种且最低公共父类别在属这一层级,将相似性权重值设为1.0;
如果一组笔石图像对的两张笔石图像属于同一个科的不同属且最低公共父类别在科这一层级,将相似性权重值设为大于0.5且小于1.0的值;
如果一组笔石图像对的两张笔石图像来自不同的科且最低公共父类别在目这一层级,将相似性权重值设为大于0.1且小于0.3的值。
6.根据权利要求5所述的细粒度笔石图像分类方法,其特征在于,第五步中,如果一组笔石图像对的两张笔石图像属于同一个科的不同属且最低公共父类别在科这一层级,将相似性权重值设为0.6。
7.根据权利要求5所述的细粒度笔石图像分类方法,其特征在于,第五步中,如果一组笔石图像对的两张笔石图像来自不同的科且最低公共父类别在目这一层级,将相似性权重值设为0.2。
8.一种基于层级约束的细粒度笔石图像分类装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-7中的任一项所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-7中的任一项所述的方法步骤。
CN202210159814.4A 2022-02-22 2022-02-22 一种基于层级约束的细粒度笔石图像分类方法和装置 Active CN114219049B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210159814.4A CN114219049B (zh) 2022-02-22 2022-02-22 一种基于层级约束的细粒度笔石图像分类方法和装置
US18/147,019 US11804029B2 (en) 2022-02-22 2022-12-28 Hierarchical constraint (HC)-based method and system for classifying fine-grained graptolite images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210159814.4A CN114219049B (zh) 2022-02-22 2022-02-22 一种基于层级约束的细粒度笔石图像分类方法和装置

Publications (2)

Publication Number Publication Date
CN114219049A true CN114219049A (zh) 2022-03-22
CN114219049B CN114219049B (zh) 2022-05-10

Family

ID=80709162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210159814.4A Active CN114219049B (zh) 2022-02-22 2022-02-22 一种基于层级约束的细粒度笔石图像分类方法和装置

Country Status (2)

Country Link
US (1) US11804029B2 (zh)
CN (1) CN114219049B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824306A (zh) * 2023-08-28 2023-09-29 天津大学 基于多模态元数据的笔石化石图像识别模型的训练方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751193A (zh) * 2015-04-24 2015-07-01 中国矿业大学(北京) 基于距离约束相似性的煤岩识别方法
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN108009286A (zh) * 2017-12-25 2018-05-08 合肥阿巴赛信息科技有限公司 一种基于深度学习的草图检索方法
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN109858521A (zh) * 2018-12-29 2019-06-07 国际竹藤中心 一种基于人工智能深度学习的竹子种类识别方法
CN110414299A (zh) * 2018-04-28 2019-11-05 中山大学 一种基于计算机视觉的猴脸亲缘关系分析方法
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
CN111079526A (zh) * 2019-11-07 2020-04-28 中央财经大学 一种信鸽亲缘关系分析方法、装置及存储介质
CN111553193A (zh) * 2020-04-01 2020-08-18 东南大学 一种基于轻量级深层神经网络的视觉slam闭环检测方法
CN113657492A (zh) * 2021-08-17 2021-11-16 上海海事大学 一种笔石化石图像的分类方法
CN114049535A (zh) * 2021-11-16 2022-02-15 昆明理工大学 基于多尺度和非压缩激励通道注意力的野外蝴蝶识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL236598A0 (en) * 2015-01-05 2015-05-31 Superfish Ltd Image similarity as a function of image weighted image descriptors generated from neural networks
EP3707641A2 (en) * 2017-12-03 2020-09-16 Seedx Technologies Inc. Systems and methods for sorting of seeds
JPWO2020138479A1 (zh) * 2018-12-28 2020-07-02
US20210365745A1 (en) * 2020-08-10 2021-11-25 Bp Corporation North America Inc. Method and Apparatus for Implementing Automated Fossil Identification to Augment Biostratigraphy Workflows
KR102454715B1 (ko) * 2021-08-10 2022-10-17 인트플로우 주식회사 영상에 기반하여 동물의 승가 행위를 검출하는 장치 및 방법
US20230077353A1 (en) * 2021-08-31 2023-03-16 University Of South Florida Systems and Methods for Classifying Mosquitoes Based on Extracted Masks of Anatomical Components from Images

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751193A (zh) * 2015-04-24 2015-07-01 中国矿业大学(北京) 基于距离约束相似性的煤岩识别方法
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN108009286A (zh) * 2017-12-25 2018-05-08 合肥阿巴赛信息科技有限公司 一种基于深度学习的草图检索方法
CN110414299A (zh) * 2018-04-28 2019-11-05 中山大学 一种基于计算机视觉的猴脸亲缘关系分析方法
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN109858521A (zh) * 2018-12-29 2019-06-07 国际竹藤中心 一种基于人工智能深度学习的竹子种类识别方法
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
CN111079526A (zh) * 2019-11-07 2020-04-28 中央财经大学 一种信鸽亲缘关系分析方法、装置及存储介质
CN111553193A (zh) * 2020-04-01 2020-08-18 东南大学 一种基于轻量级深层神经网络的视觉slam闭环检测方法
CN113657492A (zh) * 2021-08-17 2021-11-16 上海海事大学 一种笔石化石图像的分类方法
CN114049535A (zh) * 2021-11-16 2022-02-15 昆明理工大学 基于多尺度和非压缩激励通道注意力的野外蝴蝶识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
庞程: "基于部件的图像细粒度视觉分析方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *
雷晨曦: "基于深度学习的细粒度图像识别及其在昆虫形态分类上的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
韩雪: "基于深度学习的细粒度图像分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824306A (zh) * 2023-08-28 2023-09-29 天津大学 基于多模态元数据的笔石化石图像识别模型的训练方法
CN116824306B (zh) * 2023-08-28 2023-11-17 天津大学 基于多模态元数据的笔石化石图像识别模型的训练方法

Also Published As

Publication number Publication date
CN114219049B (zh) 2022-05-10
US20230267703A1 (en) 2023-08-24
US11804029B2 (en) 2023-10-31

Similar Documents

Publication Publication Date Title
Niu et al. Single image super-resolution via a holistic attention network
Ertosun et al. Automated grading of gliomas using deep learning in digital pathology images: a modular approach with ensemble of convolutional neural networks
Zhu et al. Wsisa: Making survival prediction from whole slide histopathological images
Li et al. HEp-2 specimen image segmentation and classification using very deep fully convolutional network
Liu et al. Panoptic feature fusion net: a novel instance segmentation paradigm for biomedical and biological images
Kromp et al. Evaluation of deep learning architectures for complex immunofluorescence nuclear image segmentation
CN113408605B (zh) 基于小样本学习的高光谱图像半监督分类方法
CN109711448A (zh) 基于判别关键域和深度学习的植物图像细粒度分类方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
Kashyap Breast cancer histopathological image classification using stochastic dilated residual ghost model
Vallet et al. A multi-label convolutional neural network for automatic image annotation
Zhu et al. Grape leaf black rot detection based on super-resolution image enhancement and deep learning
Li et al. Recent advances of machine vision technology in fish classification
CN112686902A (zh) 核磁共振影像中脑胶质瘤识别与分割的两阶段计算方法
CN114219049B (zh) 一种基于层级约束的细粒度笔石图像分类方法和装置
Nasab et al. Deep learning in spatially resolved transcriptomics: a comprehensive technical view
Meng et al. Residual dense asymmetric convolutional neural network for hyperspectral image classification
Da Xu et al. Bayesian nonparametric image segmentation using a generalized Swendsen-Wang algorithm
Chen et al. Automatic identification of commodity label images using lightweight attention network
Peng et al. Fully convolutional neural networks for tissue histopathology image classification and segmentation
Yang et al. Automatically adjustable multi-scale feature extraction framework for hyperspectral image classification
Song A More Efficient Approach for Remote Sensing Image Classification.
Yang et al. Multi-level contour combination features for shape recognition
Yan et al. Two and multiple categorization of breast pathological images by transfer learning
Yancey Deep Feature Fusion for Mitosis Counting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Honghe

Inventor after: Niu Zhibin

Inventor after: Pan Yaohua

Inventor before: Pan Yaohua

Inventor before: Xu Honghe

Inventor before: Niu Zhibin

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No.39, Beijing East Road, Xuanwu District, Nanjing City, Jiangsu Province, 210008

Patentee after: NANJING INST. OF GEOLOGY AND PALEONTOLOGY, CHINESE ACADEMY OF SCIENCES

Patentee after: Tianjin University

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

Patentee before: NANJING INST. OF GEOLOGY AND PALEONTOLOGY, CHINESE ACADEMY OF SCIENCES