CN114821238B - 基于全局细节补充的卷积神经网络的图像识别方法及系统 - Google Patents
基于全局细节补充的卷积神经网络的图像识别方法及系统 Download PDFInfo
- Publication number
- CN114821238B CN114821238B CN202210500255.9A CN202210500255A CN114821238B CN 114821238 B CN114821238 B CN 114821238B CN 202210500255 A CN202210500255 A CN 202210500255A CN 114821238 B CN114821238 B CN 114821238B
- Authority
- CN
- China
- Prior art keywords
- stage
- training
- detail
- feature extraction
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 19
- 230000009469 supplementation Effects 0.000 title claims description 9
- 238000000605 extraction Methods 0.000 claims abstract description 117
- 238000012549 training Methods 0.000 claims abstract description 91
- 239000013589 supplement Substances 0.000 claims abstract description 38
- 238000010586 diagram Methods 0.000 claims abstract description 16
- 230000000750 progressive effect Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本发明涉及图像数据处理技术领域,提出了基于全局细节补充的卷积神经网络的图像识别方法及系统,方法包括:获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;根据待测试图像进行细节特征学习,提取图像的细节特征图;采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。本发明构建基于全局细节补充的卷积神经网络,并采用渐进式的训练用于图像细粒度分类,可进一步提高细粒度分类精度。
Description
技术领域
本发明涉及图像数据处理相关技术领域,具体的说,是涉及基于全局细节补充的卷积神经网络的图像识别方法及系统,尤其适用于细粒度图像分类。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,并不必然构成在先技术。
近年来,细粒度图像的分类具有广泛的应用场景,从而受到众多研究者的关注。与传统的图像识别分类任务不同,细粒度图像分类的重点是对同属一个大类的子类图像进行进一步的细致分类。
传统的图像分类方法大致可以分为基于手工标注特征的方法和基于深度学习的方法。基于手工标注特征的方法对特征的表达能力有限,并且需要耗费大量人力、物力,导致其优势不高。与传统的手工标注特征的方法相比,深度神经网路具有强大的特征表达和学习能力。目前,基于深度学习的方法已经成为图像识别的主流方法。
发明人发现,目前的细粒度图像分类任务对于深度学习模型具有一定的挑战。在细粒度图像分类任务中,不同类别的图像之间具有极为相似的外观和特征,导致不同类别的细粒度图像之间的差异较小,并且还存在同类别的姿态、采集视角、光照、遮挡和背景等因素的干扰,导致同类别的细粒度图像呈现类内差异性大的现象。类内差异大、类间差异小的问题加大了细粒度图像分类的难度。现有的深度学习方法在提取特征时,大多聚焦于学习更好的目标表示,忽略了不同目标及其细节特征的学习,从而难以较好地区分不同细粒度图像的差异,限制了分类性能的提升。
发明内容
本发明为了解决上述问题,提出了基于全局细节补充的卷积神经网络的图像识别方法及系统,构建基于全局细节补充的卷积神经网络,并采用渐进式的训练用于图像细粒度分类,可进一步提高细粒度分类精度。
为了实现上述目的,本发明采用如下技术方案:
一个或多个实施例提供了基于全局细节补充的卷积神经网络的图像识别方法,包括如下步骤:
获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
根据待测试图像进行细节特征学习,提取图像的细节特征图;
采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。
一个或多个实施例提供了基于全局细节补充的卷积神经网络的图像识别系统,包括:
特征提取模块:被配置为用于获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
细节特征提取模块:被配置为用于根据待测试图像进行细节特征学习,提取图像的细节特征图;
自注意力模块:被配置为用于采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
全局细节补充模块:被配置为用于将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
分类模块:被配置为用于根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
与现有技术相比,本发明的有益效果为:
本发明中将通过细节特征学习得到包括纹理细节信息的细节特征,将细节特征补充至通过特征提取网络获得的高层特征中,可以弥补高层阶段细节信息不足的缺点,能够将纹理细节信息补充至全局结构特征中,基于全局细节补充后的特征进行分类,提高了细粒度图像的分类效果。
本发明的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的限定。
图1是本发明实施例1的图像识别方法流程图;
图2是本发明实施例1的网络模型结构示意图;
图3是本发明实施例1的特征提取网络渐进式训练方法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本发明中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
实施例1
在一个或多个实施方式公开的技术方案中,如图1-图3所示,基于全局细节补充的卷积神经网络的图像识别方法,包括如下步骤:
步骤1、获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
步骤2、根据待测试图像进行细节特征学习,提取图像的细节特征图;
步骤3、采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
步骤4、将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
步骤5、根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。
传统特征提取网络虽然可以得到富含语义信息的全局结构特征,但是却忽略了全局结构中的纹理细节信息,本实施例中,将通过细节特征学习得到包括纹理细节信息的细节特征,将细节特征补充至通过特征提取网络获得的高层特征中,可以弥补高层阶段细节信息不足的缺点,能够将纹理细节信息补充至全局结构特征中,基于全局细节补充后的特征进行分类,提高了细粒度图像的分类效果。
可选的,在进行特征提取之前还包括图像数据预处理的步骤,具体的,将图像数据进行尺度变换为统一的大小,并对部分图像数据进行水平翻转、平移或/和加噪等操作。
步骤1中,根据待测试图像进行特征提取,得到对应每个特征提取阶段的特征的方法,包括如下步骤:
步骤1.1将待测试图像进行多阶段特征图提取得到对应每个阶段的特征图;
特征图提取可以通过特征提取网络实现,将图像数据输入至特征提取网络进行多个阶段的特征提取。
可选的,特征提取网络采用卷积神经网络,可以为深度学习网络VGG网络,或者也可以为残差网络,具体的,可以为resnet18、resnet50。
本实施例中,以resnet50进行说明,resnet50包括五个阶段,每个阶段包括10层,总共有50层,每一阶段都能够输出提取的特征图。
特征提取网络包括多个级联的阶段网络,每个阶段网络包括多层,每个阶段网络可以对应输出对应该阶段的特征,每个阶段网络包括依次连接的卷积层、激活层和池化层,将图像数据输入网络(VGG、resnet18、resnet50等)后首先经过卷积层后,再使用激活函数增加非线性,然后进入池化层进行特征提取。如此重复直至最终获得阶段特征图。
步骤1.2将获得的特征图进行卷积操作,得到对应特征图的特征向量。
可选的,卷积模块包括2个卷积层和1个最大池化层。将特征图输入卷积层中,对特征进一步学习,然后将经过2个卷积层得到的特征图输入到最大池化层中提炼出特征值较大的明显的特征;
步骤2中,进行细节特征学习的方法,具体为:
本实施例的全局细节补充,通过细节特征学习、特征提取网络最后一层特征图以及自注意力融合实现。通过使用自注意力将可以获得全局结构的特征图与包含输入图像纹理细节信息的细节特征图相融合,可以弥补高层阶段细节信息不足的缺点。
步骤4中,将全局细节特征与特征提取各阶段的特征相融合,其中,特征提取各阶段的特征是指除最后一个阶段的其他阶段输出的特征,可选的,可以采用多分辨率特征融合。
具体的,多分辨率特征融合方法,可以包括如下步骤:
步骤4.2将得到的特征向量级联得到全局细节补充后的特征。
可选的,本实施例中,采用resnet50网络,可以将特征提取网络倒数三层的特征图,其中倒数最后一层的特征图为全局细节补充后的特征图,分别输入到卷积块中将特征图展成特征向量后,将三组特征向量级联操作得到融合后的特征。
本实施例中,实现上述步骤的网络模型如图2所示,包括特征提取网络、细节特征提取模块、自注意力模块、融合模块和分类模块,其中融合模块进行全局细节补充。
进一步地,对特征提取网络采用渐进式训练,设定特征提取网络的训练开始阶段,从开始阶段n到最后一个阶段按照阶段累加进行逐阶段训练,第n+1阶段以第n阶段训练得到的训练参数为初始参数,直到最后一个阶段,得到训练后的特征提取网络,如图3所示,具体的,训练步骤可以包括如下:
步骤S1、设定特征提取网络训练的开始阶段n,以第n阶段的输出特征进行分类得到预测标签,计算真实标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定,将前n阶段训练参数作为下一阶段训练的初始参数;
步骤S2、以第n阶段训练参数作为初始参数,以第n+1阶段的输出特征进行与上一阶段(即第n阶段)相同的训练过程,将前n+1阶段的训练参数作为下一阶段训练的初始参数,进行下一阶段的训练,直到特征提取网络的最后一个阶段的前一阶段训练完成,执行步骤S3;
步骤S3、以上一阶段的训练参数作为初始参数,将最后一个阶段得到的特征图进行全局细节补充作为最后一个阶段的特征,将开始阶段n至最后一个阶段的特征进行级联得到融合后的特征,将融合特征进行分类得到分类预测标签,计算真实标签与预测标签的损失,继续训练直至损失稳定,得到训练后的特征提取网络。
其中,计算真实标签与预测标签的损失具体为交叉熵损失。
可选的,从特征提取网络训练的设定开始阶段n到最后一个阶段的前一个阶段训练,其中每一个阶段的训练过程,具体的,如下:
步骤S11构建图像数据集并进行预处理;
在训练阶段,图像数据主要是自然图像的数据,原始数据样本中可能存在图像尺寸不一致情况,不利于深度网络模型进行学习,需要对现有数据集进行尺度变换为统一大小。最后将部分图像数据水平翻转、平移、加噪等操作,随机将每个文件夹内的数据均匀分成设定分数,如10份,组合为10个训练集和测试集。
步骤S12将数据集的数据输入至特征提取网络进行特征提取,得到设定阶段n的特征图;
步骤S13进行卷积操作,得到对应特征图的特征向量;
本步骤与上述步骤1.2的方法相同。
步骤S14将经过卷积得到的结果进行分类,获取该阶段n分类预测结果;
步骤S15计算阶段损失:将阶段n的网络预测结果与真实标签计算交叉熵损失(CELoss);反向传播继续训练,直至损失趋于稳定。保留该前n阶段训练参数作为下一次训练的初始参数。
可选的,最后一个阶段的训练过程中,将最后一个阶段的输出特征进行全局细节补充,并将全局细节补充特征与特征提取网络的其他输出阶段的特征进行融合,将融合后的特征进行分类,计算损失,进行反向传播继续训练,直至损失趋于稳定,得到训练后的特征提取网络,具体的步骤如下:
步骤S16.1以最后一个阶段的上一阶段的训练参数作为初始参数;
步骤S16.2将数据集的数据输入至特征提取网络进行特征提取,得到特征提取网络各阶段的特征图;
步骤S16.3采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
步骤S16.4将全局细节特征向量与特征提取各阶段的特征向量相融合,得到全局细节补充后的特征;
步骤S16.5根据全局细节补充后的特征进行分类,将分类计算最大值对应的预测类别为图像的分类结果,计算最终预测类别标签与真实类别标签损失,得到网络最终的损失(Loss);
步骤S16.6将网络最终融合后的损失作为最终损失,不断进行训练,直到训练轮次达到设定值,最小损失值对应的特征提取网络为训练后的特征提取网络。
具体的,本实施例中,将数据集输入到骨干网络(以resnet50为例)中,获取特征提取网络第三个阶段的特征图,将该阶段特征图展成特征向量后,输入到分类模块中,得到预测标签,通过交叉熵函数,计算真实标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定。保留该前三阶段训练参数作为下一次训练的初始参数。
以上一阶段的训练参数作为初始参数,将第四阶段得到的特征图展成特征向量后,输入到分类模块中,得到预测标签,通过交叉熵函数,计算真是标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定。保留该前四阶段训练参数作为下一次训练的初始参数。
以上一阶段的训练参数作为初始参数,将第五阶段得到的特征图输入到全局细节补充模块,得到的特征图展成特征向量后,与第三阶段得到的特征向量、第四个阶段得到的特征向量进行级联操作。输入到分类模块中,得到级联操作的预测标签,计算交叉熵损失,继续训练直至损失稳定。
本实施例采用渐进式训练网络,改进的网络能够提高获取信息的多样性,可以获取低层细微的判别性信息还可以融合学习高层中目标对象的全局结构,可以实现对局部的判别性信息到全局结构的融合。将网络的最后三个阶段得到的特征图分别经过一个卷积模块与分类模块后计算该阶段得到的预测标签与实际标签的损失CELoss。在渐进式训练中,先训练倒数第三个阶段,然后逐步增加新的训练阶段。在每个步骤中,得到的CELoss将约束参数更新。由于底层阶段(如resnet50网络的倒数第三阶段)的感受野较小,可以获取局部区域细微的判别性信息。随着阶段的增加,在高层阶段可以获取目标的全局结构。渐进式的训练方式可以实现对局部的判别性信息到全局结构的融合。
实施例2
基于实施例1,本实施例提供基于全局细节补充的卷积神经网络的图像识别系统,包括:
特征提取模块:被配置为用于获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
细节特征提取模块:被配置为用于根据待测试图像进行细节特征学习,提取图像的细节特征图;
自注意力模块:被配置为用于采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
全局细节补充模块:被配置为用于将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
分类模块:被配置为用于根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果。
本实施例中,将通过细节特征学习得到包括纹理细节信息的细节特征,将细节特征补充至通过特征提取网络获得的高层特征中,可以弥补高层阶段细节信息不足的缺点,能够将纹理细节信息补充至全局结构特征中,基于全局细节补充后的特征进行分类,提高了细粒度图像的分类效果。
此处需要说明的是,本实施例中的各个模块与实施例1中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例3
本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1的方法所述的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.基于全局细节补充的卷积神经网络的图像识别方法,其特征在于,包括如下步骤:
获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
根据待测试图像进行细节特征学习,提取图像的细节特征图;
采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果;
对特征提取网络采用渐进式训练,设定特征提取网络的训练开始阶段n,从开始阶段n到最后一个阶段按照阶段累加进行逐阶段训练,从第n+1阶段以上一阶段训练得到的训练参数为初始参数,直到最后一个阶段的训练,得到训练后的特征提取网络;
采用渐进式训练的方法,包括如下步骤:
步骤S1、设定特征提取网络训练的开始阶段n,以第n阶段的输出特征进行分类得到预测标签,计算真实标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定,将前n阶段训练参数作为下一阶段训练的初始参数;
步骤S2、以第n阶段训练参数作为初始参数,以第n+1阶段的输出特征进行与上一阶段相同的训练过程,将前n+1阶段的训练参数作为下一阶段训练的初始参数,进行下一阶段的训练,直到特征提取网络的最后一个阶段,执行步骤S3;
步骤S3、以上一阶段的训练参数作为初始参数,将最后一个阶段得到的特征图进行全局细节补充作为最后一个阶段的特征,将开始阶段n至最后一个阶段的特征进行级联得到融合后的特征,将融合特征进行分类得到分类预测标签,计算真实标签与预测标签的损失,继续训练直至损失稳定,得到训练后的特征提取网络。
2.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:在进行特征提取之前还包括图像数据预处理的步骤,具体的,将图像数据进行尺度变换为统一的大小,并对部分图像数据进行水平翻转、平移和加噪操作。
3.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:根据待测试图像进行特征提取,得到对应每个特征提取阶段的特征的方法,包括如下步骤:
将待测试图像进行多阶段特征图提取得到对应每个阶段的特征图;
将获得的特征图进行卷积操作,得到对应特征图的特征向量。
4.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:
进行细节特征学习的方法,具体为:将输入的待识别图像先卷积学习特征,再反卷积重建输入图像,得到重建后的图像,最后将输入图像与重建后的图像作差,得到输入图像的细节特征图;所述细节特征图包含输入图像纹理细节信息的细节特征。
5.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:将全局细节特征与特征提取各阶段的特征相融合采用多分辨率特征融合方法,包括如下步骤:
将特征提取网络设定阶层的特征图以及全局细节补充后的特征图,输入至卷积块中将特征图展开,分别得到特征向量;
将得到的特征向量级联得到全局细节补充后的特征。
6.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法,其特征在于:
从特征提取网络训练的设定开始阶段n到最后一个阶段之前的阶段的训练,其中每一个阶段的训练过程,具体的,如下:
构建图像数据集并进行预处理;
将预处理后的数据输入至特征提取网络进行特征提取,得到设定阶段n的特征图;
进行卷积操作,得到对应特征图的特征向量;
将经过卷积得到的结果进行分类,获取该阶段n分类预测结果;
将阶段n的网络预测结果与真实标签计算交叉熵损失,反向传播继续训练,直至损失趋于稳定,保留该前n阶段训练参数作为下一次训练的初始参数;
或者,特征提取网络最后一个阶段的训练过程,包括如下:
以最后阶段的上一阶段的训练参数作为初始参数;
将数据集的数据输入至特征提取网络进行特征提取,得到特征提取网络各阶段的特征图;
采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;
将全局细节特征向量与特征提取各阶段的特征向量相融合,得到全局细节补充后的特征;
根据全局细节补充后的特征进行分类,将分类计算最大值对应的预测类别为图像的分类结果,计算最终预测类别标签与真实类别标签损失,得到网络最终的损失;不断进行训练,直到训练轮次达到设定值,最小损失值对应的特征提取网络为训练后的特征提取网络。
7.基于全局细节补充的卷积神经网络的图像识别系统,其特征在于,包括:
特征提取模块:被配置为用于获取待识别图像,输入至训练好的特征提取网络进行特征提取,得到对应每个特征提取阶段的特征;
细节特征提取模块:被配置为用于根据待测试图像进行细节特征学习,提取图像的细节特征图;
自注意力模块:被配置为用于采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合,得到全局细节特征;全局细节补充模块:被配置为用于将全局细节特征与特征提取各阶段的特征相融合,得到全局细节补充后的特征;
分类模块:被配置为用于根据全局细节补充后的特征进行分类,将分类计算最大值对应的类别为图像的分类结果;
对特征提取网络采用渐进式训练,设定特征提取网络的训练开始阶段n,从开始阶段n到最后一个阶段按照阶段累加进行逐阶段训练,从第n+1阶段以上一阶段训练得到的训练参数为初始参数,直到最后一个阶段的训练,得到训练后的特征提取网络;
采用渐进式训练的方法,包括如下步骤:
步骤S1、设定特征提取网络训练的开始阶段n,以第n阶段的输出特征进行分类得到预测标签,计算真实标签与预测标签的损失,反向传播继续训练,直至损失趋于稳定,将前n阶段训练参数作为下一阶段训练的初始参数;
步骤S2、以第n阶段训练参数作为初始参数,以第n+1阶段的输出特征进行与上一阶段相同的训练过程,将前n+1阶段的训练参数作为下一阶段训练的初始参数,进行下一阶段的训练,直到特征提取网络的最后一个阶段,执行步骤S3;
步骤S3、以上一阶段的训练参数作为初始参数,将最后一个阶段得到的特征图进行全局细节补充作为最后一个阶段的特征,将开始阶段n至最后一个阶段的特征进行级联得到融合后的特征,将融合特征进行分类得到分类预测标签,计算真实标签与预测标签的损失,继续训练直至损失稳定,得到训练后的特征提取网络。
8.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-6任一项方法所述的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500255.9A CN114821238B (zh) | 2022-05-10 | 2022-05-10 | 基于全局细节补充的卷积神经网络的图像识别方法及系统 |
US18/122,697 US20230368497A1 (en) | 2022-05-10 | 2023-03-16 | Image Recognition Method and System of Convolutional Neural Network Based on Global Detail Supplement |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500255.9A CN114821238B (zh) | 2022-05-10 | 2022-05-10 | 基于全局细节补充的卷积神经网络的图像识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114821238A CN114821238A (zh) | 2022-07-29 |
CN114821238B true CN114821238B (zh) | 2022-09-13 |
Family
ID=82512617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210500255.9A Active CN114821238B (zh) | 2022-05-10 | 2022-05-10 | 基于全局细节补充的卷积神经网络的图像识别方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230368497A1 (zh) |
CN (1) | CN114821238B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071636B (zh) * | 2023-03-30 | 2023-07-07 | 南京邮电大学 | 商品图像检索方法 |
CN117274578B (zh) * | 2023-11-23 | 2024-02-02 | 武汉工程大学 | 基于逻辑元变换乘积量化的细粒度图像检索方法及系统 |
CN117354106B (zh) * | 2023-12-06 | 2024-03-01 | 中国海洋大学 | 基于重参数因果卷积网络的通信信号调制识别方法与系统 |
CN117496323B (zh) * | 2023-12-27 | 2024-03-29 | 泰山学院 | 基于Transformer的多尺度二阶病理图像分类方法及系统 |
CN117496562B (zh) * | 2024-01-02 | 2024-03-29 | 深圳大学 | 基于FV-MViT的指静脉识别方法、装置及相关介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095370A (zh) * | 2021-03-18 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
US20210264130A1 (en) * | 2018-07-02 | 2021-08-26 | Cellavision Ab | Method and apparatus for training a neural network classifier to classify an image depicting one or more objects of a biological sample |
CN113486981A (zh) * | 2021-07-30 | 2021-10-08 | 西安电子科技大学 | 基于多尺度特征注意力融合网络的rgb图像分类方法 |
-
2022
- 2022-05-10 CN CN202210500255.9A patent/CN114821238B/zh active Active
-
2023
- 2023-03-16 US US18/122,697 patent/US20230368497A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210264130A1 (en) * | 2018-07-02 | 2021-08-26 | Cellavision Ab | Method and apparatus for training a neural network classifier to classify an image depicting one or more objects of a biological sample |
CN113095370A (zh) * | 2021-03-18 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN113486981A (zh) * | 2021-07-30 | 2021-10-08 | 西安电子科技大学 | 基于多尺度特征注意力融合网络的rgb图像分类方法 |
Non-Patent Citations (4)
Title |
---|
"Finger Vein Recognition with Superpixel-based Features";Fei Liu 等;《IEEE》;20141229;全文 * |
"Robust Image Fingerprinting Based on Feature Point Relationship Mining";Xiushan Nie 等;《IEEE》;20180108;全文 * |
"不平衡样本的图像分类算法研究";李林;《中国优秀博硕士学位论文全文数据库(硕士)》;20210515;全文 * |
"融合局部特征和全局特征的手指静脉识别方法";杨颖 等;《计算机工程与应用》;20121231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20230368497A1 (en) | 2023-11-16 |
CN114821238A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114821238B (zh) | 基于全局细节补充的卷积神经网络的图像识别方法及系统 | |
CN109614979B (zh) | 一种基于选择与生成的数据增广方法及图像分类方法 | |
CN111626300B (zh) | 基于上下文感知的图像语义分割模型的图像分割方法及建模方法 | |
CN106919920B (zh) | 基于卷积特征和空间视觉词袋模型的场景识别方法 | |
CN113159051B (zh) | 一种基于边缘解耦的遥感图像轻量化语义分割方法 | |
CN109241982B (zh) | 基于深浅层卷积神经网络的目标检测方法 | |
CN111882040A (zh) | 基于通道数量搜索的卷积神经网络压缩方法 | |
CN111061889B (zh) | 图片多标签的自动识别方法和装置 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
CN112668630B (zh) | 一种基于模型剪枝的轻量化图像分类方法、系统及设备 | |
CN113688894B (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN113222011A (zh) | 一种基于原型校正的小样本遥感图像分类方法 | |
CN104143081A (zh) | 基于嘴部特征的笑脸识别系统及方法 | |
CN112115265A (zh) | 文本分类中的小样本学习方法 | |
CN109740681A (zh) | 一种水果分拣方法、装置、系统、终端及存储介质 | |
CN112580559A (zh) | 基于骨架特征和视频表征结合的双流视频行为识别方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
Ji et al. | ColorFormer: Image colorization via color memory assisted hybrid-attention transformer | |
CN113255892A (zh) | 一种解耦合的网络结构搜索方法、设备及可读存储介质 | |
CN110110120B (zh) | 一种基于深度学习的图像检索方法和装置 | |
CN113361589A (zh) | 基于迁移学习与知识蒸馏的珍稀濒危植物叶片识别方法 | |
CN111553424A (zh) | 一种基于cgan的图像数据平衡和分类方法 | |
CN117152438A (zh) | 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法 | |
CN116740362A (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 | |
CN114913382A (zh) | 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |