CN114821238B - 基于全局细节补充的卷积神经网络的图像识别方法及系统 - Google Patents

基于全局细节补充的卷积神经网络的图像识别方法及系统 Download PDF

Info

Publication number
CN114821238B
CN114821238B CN202210500255.9A CN202210500255A CN114821238B CN 114821238 B CN114821238 B CN 114821238B CN 202210500255 A CN202210500255 A CN 202210500255A CN 114821238 B CN114821238 B CN 114821238B
Authority
CN
China
Prior art keywords
stage
training
detail
feature extraction
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210500255.9A
Other languages
English (en)
Other versions
CN114821238A (zh
Inventor
袭肖明
许传臻
聂秀山
张光
刘新锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202210500255.9A priority Critical patent/CN114821238B/zh
Publication of CN114821238A publication Critical patent/CN114821238A/zh
Application granted granted Critical
Publication of CN114821238B publication Critical patent/CN114821238B/zh
Priority to US18/122,697 priority patent/US20230368497A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明涉及图像数据处理技术领域,提出了基于全局细节补充的卷积神经网络的图像识别方法及系统,方法包括:获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;根据待测试图像进行细节特征学习,提取图像的细节特征图;采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。本发明构建基于全局细节补充的卷积神经网络,并采用渐进式的训练用于图像细粒度分类,可进一步提高细粒度分类精度。

Description

基于全局细节补充的卷积神经网络的图像识别方法及系统
技术领域
本发明涉及图像数据处理相关技术领域,具体的说,是涉及基于全局细节补充的卷积神经网络的图像识别方法及系统,尤其适用于细粒度图像分类。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,并不必然构成在先技术。
近年来,细粒度图像的分类具有广泛的应用场景,从而受到众多研究者的关注。与传统的图像识别分类任务不同,细粒度图像分类的重点是对同属一个大类的子类图像进行进一步的细致分类。
传统的图像分类方法大致可以分为基于手工标注特征的方法和基于深度学习的方法。基于手工标注特征的方法对特征的表达能力有限,并且需要耗费大量人力、物力,导致其优势不高。与传统的手工标注特征的方法相比,深度神经网路具有强大的特征表达和学习能力。目前,基于深度学习的方法已经成为图像识别的主流方法。
发明人发现,目前的细粒度图像分类任务对于深度学习模型具有一定的挑战。在细粒度图像分类任务中,不同类别的图像之间具有极为相似的外观和特征,导致不同类别的细粒度图像之间的差异较小,并且还存在同类别的姿态、采集视角、光照、遮挡和背景等因素的干扰,导致同类别的细粒度图像呈现类内差异性大的现象。类内差异大、类间差异小的问题加大了细粒度图像分类的难度。现有的深度学习方法在提取特征时,大多聚焦于学习更好的目标表示,忽略了不同目标及其细节特征的学习,从而难以较好地区分不同细粒度图像的差异,限制了分类性能的提升。
发明内容
本发明为了解决上述问题,提出了基于全局细节补充的卷积神经网络的图像识别方法及系统,构建基于全局细节补充的卷积神经网络,并采用渐进式的训练用于图像细粒度分类,可进一步提高细粒度分类精度。
为了实现上述目的,本发明采用如下技术方案:
一个或多个实施例提供了基于全局细节补充的卷积神经网络的图像识别方法,包括如下步骤:
获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
根据待测试图像进行细节特征学习,提取图像的细节特征图;
采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。
一个或多个实施例提供了基于全局细节补充的卷积神经网络的图像识别系统,包括:
特征提取模块:被配置为用于获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
细节特征提取模块:被配置为用于根据待测试图像进行细节特征学习,提取图像的细节特征图;
自注意力模块:被配置为用于采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
全局细节补充模块:被配置为用于将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
分类模块:被配置为用于根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
与现有技术相比,本发明的有益效果为:
本发明中将通过细节特征学习得到包括纹理细节信息的细节特征,将细节特征补充至通过特征提取网络获得的高层特征中,可以弥补高层阶段细节信息不足的缺点,能够将纹理细节信息补充至全局结构特征中,基于全局细节补充后的特征进行分类,提高了细粒度图像的分类效果。
本发明的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的限定。
图1是本发明实施例1的图像识别方法流程图;
图2是本发明实施例1的网络模型结构示意图;
图3是本发明实施例1的特征提取网络渐进式训练方法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本发明中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
实施例1
在一个或多个实施方式公开的技术方案中,如图1-图3所示,基于全局细节补充的卷积神经网络的图像识别方法,包括如下步骤:
步骤1、获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
步骤2、根据待测试图像进行细节特征学习,提取图像的细节特征图;
步骤3、采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
步骤4、将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
步骤5、根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。
传统特征提取网络虽然可以得到富含语义信息的全局结构特征,但是却忽略了全局结构中的纹理细节信息,本实施例中,将通过细节特征学习得到包括纹理细节信息的细节特征,将细节特征补充至通过特征提取网络获得的高层特征中,可以弥补高层阶段细节信息不足的缺点,能够将纹理细节信息补充至全局结构特征中,基于全局细节补充后的特征进行分类,提高了细粒度图像的分类效果。
可选的,在进行特征提取之前还包括图像数据预处理的步骤,具体的,将图像数据进行尺度变换为统一的大小,并对部分图像数据进行水平翻转、平移或/和加噪等操作。
步骤1中,根据待测试图像进行特征提取,得到对应每个特征提取阶段的特征的方法,包括如下步骤:
步骤1.1将待测试图像进行多阶段特征图提取得到对应每个阶段的特征图;
特征图提取可以通过特征提取网络实现,将图像数据输入至特征提取网络进行多个阶段的特征提取。
可选的,特征提取网络采用卷积神经网络,可以为深度学习网络VGG网络,或者也可以为残差网络,具体的,可以为resnet18、resnet50。
本实施例中,以resnet50进行说明,resnet50包括五个阶段,每个阶段包括10层,总共有50层,每一阶段都能够输出提取的特征图。
特征提取网络包括多个级联的阶段网络,每个阶段网络包括多层,每个阶段网络可以对应输出对应该阶段的特征,每个阶段网络包括依次连接的卷积层、激活层和池化层,将图像数据输入网络(VGG、resnet18、resnet50等)后首先经过卷积层后,再使用激活函数增加非线性,然后进入池化层进行特征提取。如此重复直至最终获得阶段特征图。
步骤1.2将获得的特征图进行卷积操作,得到对应特征图的特征向量。
具体的,将特征图
Figure 936626DEST_PATH_IMAGE001
输入卷积模块
Figure 754541DEST_PATH_IMAGE002
中,将特征图转换成包含有明显特征的特征向量
Figure 5524DEST_PATH_IMAGE003
可选的,卷积模块包括2个卷积层和1个最大池化层。将特征图输入卷积层中,对特征进一步学习,然后将经过2个卷积层得到的特征图输入到最大池化层中提炼出特征值较大的明显的特征;
步骤2中,进行细节特征学习的方法,具体为:
将输入的待识别图像
Figure 301508DEST_PATH_IMAGE005
先卷积学习特征,再反卷积重建输入图像
Figure 646514DEST_PATH_IMAGE006
,得到重建后的图像
Figure 573013DEST_PATH_IMAGE007
,最后将输入图像与重建后的图像
Figure 373610DEST_PATH_IMAGE008
作差,得到输入图像的细节特征图
Figure 470354DEST_PATH_IMAGE009
;所述细节特征图
Figure 407217DEST_PATH_IMAGE010
包含输入图像纹理细节信息的细节特征。
步骤3中,自注意力融合:通过自注意力将特征提取最后一个阶段输出的特征图
Figure 566934DEST_PATH_IMAGE011
以及细节特征图进行融合,得到全局细节特征
Figure 854827DEST_PATH_IMAGE012
;其中,特征提取最后一个阶段即为特征提取网络的最高层。
具体的,将特征提取网络最后一层得到的特征图
Figure 778700DEST_PATH_IMAGE013
作为自注意力
Figure 835649DEST_PATH_IMAGE014
的Q、K输入,将通过细节特征学习得到的细节特征图
Figure 900688DEST_PATH_IMAGE015
作为自注意力的V输入,通过自注意力将全局特征与细节特征融合,得到全局细节补充特征图
Figure 675877DEST_PATH_IMAGE016
:
Figure 114424DEST_PATH_IMAGE017
其中,全局特征即为特征提取网络最后一层得到的特征图
Figure 291459DEST_PATH_IMAGE018
;本实施例中,自注意力的Q输入为
Figure 527399DEST_PATH_IMAGE019
、K输入为
Figure 852201DEST_PATH_IMAGE019
、V输入为
Figure 32122DEST_PATH_IMAGE020
本实施例的全局细节补充,通过细节特征学习、特征提取网络最后一层特征图以及自注意力融合实现。通过使用自注意力将可以获得全局结构的特征图与包含输入图像纹理细节信息的细节特征图相融合,可以弥补高层阶段细节信息不足的缺点。
步骤4中,将全局细节特征与特征提取各阶段的特征相融合,其中,特征提取各阶段的特征是指除最后一个阶段的其他阶段输出的特征,可选的,可以采用多分辨率特征融合。
具体的,多分辨率特征融合方法,可以包括如下步骤:
步骤4.1将特征提取网络设定阶层的特征图以及全局细节补充后的特征图,输入至卷积块中将特征图展开,分别得到特征向量
Figure 798084DEST_PATH_IMAGE021
步骤4.2将得到的特征向量级联得到全局细节补充后的特征。
可选的,本实施例中,采用resnet50网络,可以将特征提取网络倒数三层的特征图,其中倒数最后一层的特征图为全局细节补充后的特征图,分别输入到卷积块中将特征图展成特征向量
Figure 470505DEST_PATH_IMAGE021
后,将三组特征向量级联操作得到融合后的特征
Figure 954707DEST_PATH_IMAGE022
步骤5中,将融合后的特征输入至分类模块
Figure 636DEST_PATH_IMAGE023
中,得到融合后的类别预测结果
Figure 886684DEST_PATH_IMAGE024
:
Figure 730006DEST_PATH_IMAGE025
Figure 701504DEST_PATH_IMAGE026
可选的,分类模块包括2个全连接层和1个softmax层。将经过卷积模块得到的结果经过分类模块,获取该阶段分类预测结果;其中,
Figure 285545DEST_PATH_IMAGE027
最大值对应的类别标签为该图像的分类结果。
本实施例中,实现上述步骤的网络模型如图2所示,包括特征提取网络、细节特征提取模块、自注意力模块、融合模块和分类模块,其中融合模块进行全局细节补充。
进一步地,对特征提取网络采用渐进式训练,设定特征提取网络的训练开始阶段,从开始阶段n到最后一个阶段按照阶段累加进行逐阶段训练,第n+1阶段以第n阶段训练得到的训练参数为初始参数,直到最后一个阶段,得到训练后的特征提取网络,如图3所示,具体的,训练步骤可以包括如下:
步骤S1、设定特征提取网络训练的开始阶段n,以第n阶段的输出特征进行分类得到预测标签,计算真实标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定,将前n阶段训练参数作为下一阶段训练的初始参数;
步骤S2、以第n阶段训练参数作为初始参数,以第n+1阶段的输出特征进行与上一阶段(即第n阶段)相同的训练过程,将前n+1阶段的训练参数作为下一阶段训练的初始参数,进行下一阶段的训练,直到特征提取网络的最后一个阶段的前一阶段训练完成,执行步骤S3;
步骤S3、以上一阶段的训练参数作为初始参数,将最后一个阶段得到的特征图进行全局细节补充作为最后一个阶段的特征,将开始阶段n至最后一个阶段的特征进行级联得到融合后的特征,将融合特征进行分类得到分类预测标签,计算真实标签与预测标签的损失,继续训练直至损失稳定,得到训练后的特征提取网络。
其中,计算真实标签与预测标签的损失具体为交叉熵损失。
可选的,从特征提取网络训练的设定开始阶段n到最后一个阶段的前一个阶段训练,其中每一个阶段的训练过程,具体的,如下:
步骤S11构建图像数据集并进行预处理;
在训练阶段,图像数据主要是自然图像的数据,原始数据样本中可能存在图像尺寸不一致情况,不利于深度网络模型进行学习,需要对现有数据集进行尺度变换为统一大小。最后将部分图像数据水平翻转、平移、加噪等操作,随机将每个文件夹内的数据均匀分成设定分数,如10份,组合为10个训练集和测试集。
步骤S12将数据集的数据输入至特征提取网络进行特征提取,得到设定阶段n的特征图;
步骤S13进行卷积操作,得到对应特征图的特征向量;
本步骤与上述步骤1.2的方法相同。
步骤S14将经过卷积得到的结果进行分类,获取该阶段n分类预测结果;
步骤S15计算阶段损失:将阶段n的网络预测结果与真实标签计算交叉熵损失(CELoss);反向传播继续训练,直至损失趋于稳定。保留该前n阶段训练参数作为下一次训练的初始参数。
具体的,将阶段网络预测结果与真实标签计算交叉熵损失将经过第
Figure 26099DEST_PATH_IMAGE029
阶段分类模型获得的所有预测结果,计算其得分最大值所对应类别为预测类别
Figure 40322DEST_PATH_IMAGE030
。将预测类别
Figure 499116DEST_PATH_IMAGE030
与真实标签类别
Figure 621269DEST_PATH_IMAGE031
进行交叉熵损失计算
Figure 481909DEST_PATH_IMAGE032
可选的,最后一个阶段的训练过程中,将最后一个阶段的输出特征进行全局细节补充,并将全局细节补充特征与特征提取网络的其他输出阶段的特征进行融合,将融合后的特征进行分类,计算损失,进行反向传播继续训练,直至损失趋于稳定,得到训练后的特征提取网络,具体的步骤如下:
步骤S16.1以最后一个阶段的上一阶段的训练参数作为初始参数;
步骤S16.2将数据集的数据输入至特征提取网络进行特征提取,得到特征提取网络各阶段的特征图;
步骤S16.3采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
步骤S16.4将全局细节特征向量与特征提取各阶段的特征向量相融合,得到全局细节补充后的特征;
步骤S16.5根据全局细节补充后的特征进行分类,将分类计算最大值对应的预测类别为图像的分类结果,计算最终预测类别标签与真实类别标签损失,得到网络最终的损失(Loss);
具体的,将网络最终融合后的预测标签
Figure 667033DEST_PATH_IMAGE033
与真实类别标签y计算损失,得到网络最终的损失
Figure 613124DEST_PATH_IMAGE034
步骤S16.6将网络最终融合后的损失作为最终损失,不断进行训练,直到训练轮次达到设定值,最小损失值对应的特征提取网络为训练后的特征提取网络。
具体的,本实施例中,将数据集输入到骨干网络(以resnet50为例)中,获取特征提取网络第三个阶段的特征图,将该阶段特征图展成特征向量
Figure 538967DEST_PATH_IMAGE035
后,输入到分类模块中,得到预测标签,通过交叉熵函数,计算真实标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定。保留该前三阶段训练参数作为下一次训练的初始参数。
将经过卷积模块得到的结果
Figure 254113DEST_PATH_IMAGE036
经过分类模块
Figure 610139DEST_PATH_IMAGE037
,获取该阶段分类预测结果:
Figure 777947DEST_PATH_IMAGE038
Figure 507481DEST_PATH_IMAGE039
以上一阶段的训练参数作为初始参数,将第四阶段得到的特征图展成特征向量
Figure 139450DEST_PATH_IMAGE040
后,输入到分类模块中,得到预测标签,通过交叉熵函数,计算真是标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定。保留该前四阶段训练参数作为下一次训练的初始参数。
以上一阶段的训练参数作为初始参数,将第五阶段得到的特征图输入到全局细节补充模块,得到的特征图展成特征向量
Figure 666378DEST_PATH_IMAGE041
后,与第三阶段得到的特征向量
Figure 587060DEST_PATH_IMAGE042
、第四个阶段得到的特征向量
Figure 857636DEST_PATH_IMAGE043
进行级联操作。输入到分类模块中,得到级联操作的预测标签,计算交叉熵损失,继续训练直至损失稳定。
本实施例采用渐进式训练网络,改进的网络能够提高获取信息的多样性,可以获取低层细微的判别性信息还可以融合学习高层中目标对象的全局结构,可以实现对局部的判别性信息到全局结构的融合。将网络的最后三个阶段得到的特征图分别经过一个卷积模块与分类模块后计算该阶段得到的预测标签与实际标签的损失CELoss。在渐进式训练中,先训练倒数第三个阶段,然后逐步增加新的训练阶段。在每个步骤中,得到的CELoss将约束参数更新。由于底层阶段(如resnet50网络的倒数第三阶段)的感受野较小,可以获取局部区域细微的判别性信息。随着阶段的增加,在高层阶段可以获取目标的全局结构。渐进式的训练方式可以实现对局部的判别性信息到全局结构的融合。
实施例2
基于实施例1,本实施例提供基于全局细节补充的卷积神经网络的图像识别系统,包括:
特征提取模块:被配置为用于获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
细节特征提取模块:被配置为用于根据待测试图像进行细节特征学习,提取图像的细节特征图;
自注意力模块:被配置为用于采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
全局细节补充模块:被配置为用于将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
分类模块:被配置为用于根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。
本实施例中,将通过细节特征学习得到包括纹理细节信息的细节特征,将细节特征补充至通过特征提取网络获得的高层特征中,可以弥补高层阶段细节信息不足的缺点,能够将纹理细节信息补充至全局结构特征中,基于全局细节补充后的特征进行分类,提高了细粒度图像的分类效果。
此处需要说明的是,本实施例中的各个模块与实施例1中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例3
本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1的方法所述的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.基于全局细节补充的卷积神经网络的图像识别方法,其特征在于,包括如下步骤:
获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
根据待测试图像进行细节特征学习,提取图像的细节特征图;
采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果;
对特征提取网络采用渐进式训练,设定特征提取网络的训练开始阶段n,从开始阶段n到最后一个阶段按照阶段累加进行逐阶段训练,从第n+1阶段以上一阶段训练得到的训练参数为初始参数,直到最后一个阶段的训练,得到训练后的特征提取网络;
采用渐进式训练的方法,包括如下步骤:
步骤S1、设定特征提取网络训练的开始阶段n,以第n阶段的输出特征进行分类得到预测标签,计算真实标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定,将前n阶段训练参数作为下一阶段训练的初始参数;
步骤S2、以第n阶段训练参数作为初始参数,以第n+1阶段的输出特征进行与上一阶段相同的训练过程,将前n+1阶段的训练参数作为下一阶段训练的初始参数,进行下一阶段的训练,直到特征提取网络的最后一个阶段,执行步骤S3;
步骤S3、以上一阶段的训练参数作为初始参数,将最后一个阶段得到的特征图进行全局细节补充作为最后一个阶段的特征,将开始阶段n至最后一个阶段的特征进行级联得到融合后的特征,将融合特征进行分类得到分类预测标签,计算真实标签与预测标签的损失,继续训练直至损失稳定,得到训练后的特征提取网络。
2.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:在进行特征提取之前还包括图像数据预处理的步骤,具体的,将图像数据进行尺度变换为统一的大小,并对部分图像数据进行水平翻转、平移和加噪操作。
3.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:根据待测试图像进行特征提取,得到对应每个特征提取阶段的特征的方法,包括如下步骤:
将待测试图像进行多阶段特征图提取得到对应每个阶段的特征图;
将获得的特征图进行卷积操作,得到对应特征图的特征向量。
4.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:
进行细节特征学习的方法,具体为:将输入的待识别图像先卷积学习特征,再反卷积重建输入图像,得到重建后的图像,最后将输入图像与重建后的图像作差,得到输入图像的细节特征图;所述细节特征图包含输入图像纹理细节信息的细节特征。
5.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:将全局细节特征与特征提取各阶段的特征相融合采用多分辨率特征融合方法,包括如下步骤:
将特征提取网络设定阶层的特征图以及全局细节补充后的特征图,输入至卷积块中将特征图展开,分别得到特征向量;
将得到的特征向量级联得到全局细节补充后的特征。
6.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:
从特征提取网络训练的设定开始阶段n到最后一个阶段之前的阶段的训练,其中每一个阶段的训练过程,具体的,如下:
构建图像数据集并进行预处理;
将预处理后的数据输入至特征提取网络进行特征提取,得到设定阶段n的特征图;
进行卷积操作,得到对应特征图的特征向量;
将经过卷积得到的结果进行分类,获取该阶段n分类预测结果;
将阶段n的网络预测结果与真实标签计算交叉熵损失,反向传播继续训练,直至损失趋于稳定,保留该前n阶段训练参数作为下一次训练的初始参数;
或者,特征提取网络最后一个阶段的训练过程,包括如下:
以最后阶段的上一阶段的训练参数作为初始参数;
将数据集的数据输入至特征提取网络进行特征提取,得到特征提取网络各阶段的特征图;
采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
将全局细节特征向量与特征提取各阶段的特征向量相融合,得到全局细节补充后的特征;
根据全局细节补充后的特征进行分类,将分类计算最大值对应的预测类别为图像的分类结果,计算最终预测类别标签与真实类别标签损失,得到网络最终的损失;不断进行训练,直到训练轮次达到设定值,最小损失值对应的特征提取网络为训练后的特征提取网络。
7.基于全局细节补充的卷积神经网络的图像识别系统,其特征在于,包括:
特征提取模块:被配置为用于获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
细节特征提取模块:被配置为用于根据待测试图像进行细节特征学习,提取图像的细节特征图;
自注意力模块:被配置为用于采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;全局细节补充模块:被配置为用于将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
分类模块:被配置为用于根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果;
对特征提取网络采用渐进式训练,设定特征提取网络的训练开始阶段n,从开始阶段n到最后一个阶段按照阶段累加进行逐阶段训练,从第n+1阶段以上一阶段训练得到的训练参数为初始参数,直到最后一个阶段的训练,得到训练后的特征提取网络;
采用渐进式训练的方法,包括如下步骤:
步骤S1、设定特征提取网络训练的开始阶段n,以第n阶段的输出特征进行分类得到预测标签,计算真实标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定,将前n阶段训练参数作为下一阶段训练的初始参数;
步骤S2、以第n阶段训练参数作为初始参数,以第n+1阶段的输出特征进行与上一阶段相同的训练过程,将前n+1阶段的训练参数作为下一阶段训练的初始参数,进行下一阶段的训练,直到特征提取网络的最后一个阶段,执行步骤S3;
步骤S3、以上一阶段的训练参数作为初始参数,将最后一个阶段得到的特征图进行全局细节补充作为最后一个阶段的特征,将开始阶段n至最后一个阶段的特征进行级联得到融合后的特征,将融合特征进行分类得到分类预测标签,计算真实标签与预测标签的损失,继续训练直至损失稳定,得到训练后的特征提取网络。
8.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-6任一项方法所述的步骤。
CN202210500255.9A 2022-05-10 2022-05-10 基于全局细节补充的卷积神经网络的图像识别方法及系统 Active CN114821238B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210500255.9A CN114821238B (zh) 2022-05-10 2022-05-10 基于全局细节补充的卷积神经网络的图像识别方法及系统
US18/122,697 US20230368497A1 (en) 2022-05-10 2023-03-16 Image Recognition Method and System of Convolutional Neural Network Based on Global Detail Supplement

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210500255.9A CN114821238B (zh) 2022-05-10 2022-05-10 基于全局细节补充的卷积神经网络的图像识别方法及系统

Publications (2)

Publication Number Publication Date
CN114821238A CN114821238A (zh) 2022-07-29
CN114821238B true CN114821238B (zh) 2022-09-13

Family

ID=82512617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210500255.9A Active CN114821238B (zh) 2022-05-10 2022-05-10 基于全局细节补充的卷积神经网络的图像识别方法及系统

Country Status (2)

Country Link
US (1) US20230368497A1 (zh)
CN (1) CN114821238B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071636B (zh) * 2023-03-30 2023-07-07 南京邮电大学 商品图像检索方法
CN117274578B (zh) * 2023-11-23 2024-02-02 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及系统
CN117354106B (zh) * 2023-12-06 2024-03-01 中国海洋大学 基于重参数因果卷积网络的通信信号调制识别方法与系统
CN117496323B (zh) * 2023-12-27 2024-03-29 泰山学院 基于Transformer的多尺度二阶病理图像分类方法及系统
CN117496562B (zh) * 2024-01-02 2024-03-29 深圳大学 基于FV-MViT的指静脉识别方法、装置及相关介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095370A (zh) * 2021-03-18 2021-07-09 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
US20210264130A1 (en) * 2018-07-02 2021-08-26 Cellavision Ab Method and apparatus for training a neural network classifier to classify an image depicting one or more objects of a biological sample
CN113486981A (zh) * 2021-07-30 2021-10-08 西安电子科技大学 基于多尺度特征注意力融合网络的rgb图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210264130A1 (en) * 2018-07-02 2021-08-26 Cellavision Ab Method and apparatus for training a neural network classifier to classify an image depicting one or more objects of a biological sample
CN113095370A (zh) * 2021-03-18 2021-07-09 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN113486981A (zh) * 2021-07-30 2021-10-08 西安电子科技大学 基于多尺度特征注意力融合网络的rgb图像分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Finger Vein Recognition with Superpixel-based Features";Fei Liu 等;《IEEE》;20141229;全文 *
"Robust Image Fingerprinting Based on Feature Point Relationship Mining";Xiushan Nie 等;《IEEE》;20180108;全文 *
"不平衡样本的图像分类算法研究";李林;《中国优秀博硕士学位论文全文数据库(硕士)》;20210515;全文 *
"融合局部特征和全局特征的手指静脉识别方法";杨颖 等;《计算机工程与应用》;20121231;全文 *

Also Published As

Publication number Publication date
US20230368497A1 (en) 2023-11-16
CN114821238A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114821238B (zh) 基于全局细节补充的卷积神经网络的图像识别方法及系统
CN109614979B (zh) 一种基于选择与生成的数据增广方法及图像分类方法
CN111626300B (zh) 基于上下文感知的图像语义分割模型的图像分割方法及建模方法
CN106919920B (zh) 基于卷积特征和空间视觉词袋模型的场景识别方法
CN113159051B (zh) 一种基于边缘解耦的遥感图像轻量化语义分割方法
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
CN111061889B (zh) 图片多标签的自动识别方法和装置
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN112668630B (zh) 一种基于模型剪枝的轻量化图像分类方法、系统及设备
CN113688894B (zh) 一种融合多粒度特征的细粒度图像分类方法
CN113222011A (zh) 一种基于原型校正的小样本遥感图像分类方法
CN104143081A (zh) 基于嘴部特征的笑脸识别系统及方法
CN112115265A (zh) 文本分类中的小样本学习方法
CN109740681A (zh) 一种水果分拣方法、装置、系统、终端及存储介质
CN112580559A (zh) 基于骨架特征和视频表征结合的双流视频行为识别方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
Ji et al. ColorFormer: Image colorization via color memory assisted hybrid-attention transformer
CN113255892A (zh) 一种解耦合的网络结构搜索方法、设备及可读存储介质
CN110110120B (zh) 一种基于深度学习的图像检索方法和装置
CN113361589A (zh) 基于迁移学习与知识蒸馏的珍稀濒危植物叶片识别方法
CN111553424A (zh) 一种基于cgan的图像数据平衡和分类方法
CN117152438A (zh) 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法
CN116740362A (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN114913382A (zh) 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant