CN114821238B

CN114821238B - 基于全局细节补充的卷积神经网络的图像识别方法及系统

Info

Publication number: CN114821238B
Application number: CN202210500255.9A
Authority: CN
Inventors: 袭肖明; 许传臻; 聂秀山; 张光; 刘新锋
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-09-13
Anticipated expiration: 2042-05-10
Also published as: US20230368497A1; CN114821238A

Abstract

本发明涉及图像数据处理技术领域，提出了基于全局细节补充的卷积神经网络的图像识别方法及系统，方法包括：获取待识别图像，输入至训练好的特征提取网络进行特征提取，得到对应每个特征提取阶段的特征；根据待测试图像进行细节特征学习，提取图像的细节特征图；采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合，得到全局细节特征；将全局细节特征与特征提取各阶段的特征相融合，得到全局细节补充后的特征；根据全局细节补充后的特征进行分类，将分类计算最大值对应的类别为图像的分类结果。本发明构建基于全局细节补充的卷积神经网络，并采用渐进式的训练用于图像细粒度分类，可进一步提高细粒度分类精度。

Description

基于全局细节补充的卷积神经网络的图像识别方法及系统

技术领域

本发明涉及图像数据处理相关技术领域，具体的说，是涉及基于全局细节补充的卷积神经网络的图像识别方法及系统，尤其适用于细粒度图像分类。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，并不必然构成在先技术。

近年来，细粒度图像的分类具有广泛的应用场景，从而受到众多研究者的关注。与传统的图像识别分类任务不同，细粒度图像分类的重点是对同属一个大类的子类图像进行进一步的细致分类。

传统的图像分类方法大致可以分为基于手工标注特征的方法和基于深度学习的方法。基于手工标注特征的方法对特征的表达能力有限，并且需要耗费大量人力、物力，导致其优势不高。与传统的手工标注特征的方法相比，深度神经网路具有强大的特征表达和学习能力。目前，基于深度学习的方法已经成为图像识别的主流方法。

发明人发现，目前的细粒度图像分类任务对于深度学习模型具有一定的挑战。在细粒度图像分类任务中，不同类别的图像之间具有极为相似的外观和特征，导致不同类别的细粒度图像之间的差异较小，并且还存在同类别的姿态、采集视角、光照、遮挡和背景等因素的干扰，导致同类别的细粒度图像呈现类内差异性大的现象。类内差异大、类间差异小的问题加大了细粒度图像分类的难度。现有的深度学习方法在提取特征时，大多聚焦于学习更好的目标表示，忽略了不同目标及其细节特征的学习，从而难以较好地区分不同细粒度图像的差异，限制了分类性能的提升。

发明内容

本发明为了解决上述问题，提出了基于全局细节补充的卷积神经网络的图像识别方法及系统，构建基于全局细节补充的卷积神经网络，并采用渐进式的训练用于图像细粒度分类，可进一步提高细粒度分类精度。

为了实现上述目的，本发明采用如下技术方案：

一个或多个实施例提供了基于全局细节补充的卷积神经网络的图像识别方法，包括如下步骤：

获取待识别图像，输入至训练好的特征提取网络进行特征提取，得到对应每个特征提取阶段的特征；

根据待测试图像进行细节特征学习，提取图像的细节特征图；

采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合，得到全局细节特征；

将全局细节特征与特征提取各阶段的特征相融合，得到全局细节补充后的特征；

根据全局细节补充后的特征进行分类，将分类计算最大值对应的类别为图像的分类结果。

一个或多个实施例提供了基于全局细节补充的卷积神经网络的图像识别系统，包括：

特征提取模块：被配置为用于获取待识别图像，输入至训练好的特征提取网络进行特征提取，得到对应每个特征提取阶段的特征；

细节特征提取模块：被配置为用于根据待测试图像进行细节特征学习，提取图像的细节特征图；

自注意力模块：被配置为用于采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合，得到全局细节特征；

全局细节补充模块：被配置为用于将全局细节特征与特征提取各阶段的特征相融合，得到全局细节补充后的特征；

分类模块：被配置为用于根据全局细节补充后的特征进行分类，将分类计算最大值对应的类别为图像的分类结果。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

与现有技术相比，本发明的有益效果为：

本发明中将通过细节特征学习得到包括纹理细节信息的细节特征，将细节特征补充至通过特征提取网络获得的高层特征中，可以弥补高层阶段细节信息不足的缺点，能够将纹理细节信息补充至全局结构特征中，基于全局细节补充后的特征进行分类，提高了细粒度图像的分类效果。

本发明的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的限定。

图1是本发明实施例1的图像识别方法流程图；

图2是本发明实施例1的网络模型结构示意图；

图3是本发明实施例1的特征提取网络渐进式训练方法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本发明中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式公开的技术方案中，如图1-图3所示，基于全局细节补充的卷积神经网络的图像识别方法，包括如下步骤：

步骤1、获取待识别图像，输入至训练好的特征提取网络进行特征提取，得到对应每个特征提取阶段的特征；

步骤2、根据待测试图像进行细节特征学习，提取图像的细节特征图；

步骤3、采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合，得到全局细节特征；

步骤4、将全局细节特征与特征提取各阶段的特征相融合，得到全局细节补充后的特征；

步骤5、根据全局细节补充后的特征进行分类，将分类计算最大值对应的类别为图像的分类结果。

传统特征提取网络虽然可以得到富含语义信息的全局结构特征，但是却忽略了全局结构中的纹理细节信息，本实施例中，将通过细节特征学习得到包括纹理细节信息的细节特征，将细节特征补充至通过特征提取网络获得的高层特征中，可以弥补高层阶段细节信息不足的缺点，能够将纹理细节信息补充至全局结构特征中，基于全局细节补充后的特征进行分类，提高了细粒度图像的分类效果。

可选的，在进行特征提取之前还包括图像数据预处理的步骤，具体的，将图像数据进行尺度变换为统一的大小，并对部分图像数据进行水平翻转、平移或/和加噪等操作。

步骤1中，根据待测试图像进行特征提取，得到对应每个特征提取阶段的特征的方法，包括如下步骤：

步骤1.1将待测试图像进行多阶段特征图提取得到对应每个阶段的特征图；

特征图提取可以通过特征提取网络实现，将图像数据输入至特征提取网络进行多个阶段的特征提取。

可选的，特征提取网络采用卷积神经网络，可以为深度学习网络VGG网络，或者也可以为残差网络，具体的，可以为resnet18、resnet50。

本实施例中，以resnet50进行说明，resnet50包括五个阶段，每个阶段包括10层，总共有50层，每一阶段都能够输出提取的特征图。

特征提取网络包括多个级联的阶段网络，每个阶段网络包括多层，每个阶段网络可以对应输出对应该阶段的特征，每个阶段网络包括依次连接的卷积层、激活层和池化层，将图像数据输入网络（VGG、resnet18、resnet50等）后首先经过卷积层后，再使用激活函数增加非线性，然后进入池化层进行特征提取。如此重复直至最终获得阶段特征图。

步骤1.2将获得的特征图进行卷积操作，得到对应特征图的特征向量。

具体的，将特征图

输入卷积模块

中，将特征图转换成包含有明显特征的特征向量

可选的，卷积模块包括2个卷积层和1个最大池化层。将特征图输入卷积层中，对特征进一步学习，然后将经过2个卷积层得到的特征图输入到最大池化层中提炼出特征值较大的明显的特征；

步骤2中，进行细节特征学习的方法，具体为：

将输入的待识别图像

先卷积学习特征，再反卷积重建输入图像

，得到重建后的图像

，最后将输入图像与重建后的图像

作差，得到输入图像的细节特征图

；所述细节特征图

包含输入图像纹理细节信息的细节特征。

步骤3中，自注意力融合：通过自注意力将特征提取最后一个阶段输出的特征图

以及细节特征图进行融合，得到全局细节特征

；其中，特征提取最后一个阶段即为特征提取网络的最高层。

具体的，将特征提取网络最后一层得到的特征图

作为自注意力

的Q、K输入，将通过细节特征学习得到的细节特征图

作为自注意力的V输入，通过自注意力将全局特征与细节特征融合，得到全局细节补充特征图

:

；

其中，全局特征即为特征提取网络最后一层得到的特征图

；本实施例中，自注意力的Q输入为

、K输入为

、V输入为

。

本实施例的全局细节补充，通过细节特征学习、特征提取网络最后一层特征图以及自注意力融合实现。通过使用自注意力将可以获得全局结构的特征图与包含输入图像纹理细节信息的细节特征图相融合，可以弥补高层阶段细节信息不足的缺点。

步骤4中，将全局细节特征与特征提取各阶段的特征相融合，其中，特征提取各阶段的特征是指除最后一个阶段的其他阶段输出的特征，可选的，可以采用多分辨率特征融合。

具体的，多分辨率特征融合方法，可以包括如下步骤：

步骤4.1将特征提取网络设定阶层的特征图以及全局细节补充后的特征图，输入至卷积块中将特征图展开，分别得到特征向量

；

步骤4.2将得到的特征向量级联得到全局细节补充后的特征。

可选的，本实施例中，采用resnet50网络，可以将特征提取网络倒数三层的特征图，其中倒数最后一层的特征图为全局细节补充后的特征图，分别输入到卷积块中将特征图展成特征向量

后，将三组特征向量级联操作得到融合后的特征

。

步骤5中，将融合后的特征输入至分类模块

中，得到融合后的类别预测结果

:

；

可选的，分类模块包括2个全连接层和1个softmax层。将经过卷积模块得到的结果经过分类模块，获取该阶段分类预测结果；其中，

最大值对应的类别标签为该图像的分类结果。

本实施例中，实现上述步骤的网络模型如图2所示，包括特征提取网络、细节特征提取模块、自注意力模块、融合模块和分类模块，其中融合模块进行全局细节补充。

进一步地，对特征提取网络采用渐进式训练，设定特征提取网络的训练开始阶段，从开始阶段n到最后一个阶段按照阶段累加进行逐阶段训练，第n+1阶段以第n阶段训练得到的训练参数为初始参数，直到最后一个阶段，得到训练后的特征提取网络，如图3所示，具体的，训练步骤可以包括如下：

步骤S1、设定特征提取网络训练的开始阶段n，以第n阶段的输出特征进行分类得到预测标签，计算真实标签与预测标签的损失，反向传播继续训练，直至损失趋于稳定，将前n阶段训练参数作为下一阶段训练的初始参数；

步骤S2、以第n阶段训练参数作为初始参数，以第n+1阶段的输出特征进行与上一阶段（即第n阶段）相同的训练过程，将前n+1阶段的训练参数作为下一阶段训练的初始参数，进行下一阶段的训练，直到特征提取网络的最后一个阶段的前一阶段训练完成，执行步骤S3；

步骤S3、以上一阶段的训练参数作为初始参数，将最后一个阶段得到的特征图进行全局细节补充作为最后一个阶段的特征，将开始阶段n至最后一个阶段的特征进行级联得到融合后的特征，将融合特征进行分类得到分类预测标签，计算真实标签与预测标签的损失，继续训练直至损失稳定，得到训练后的特征提取网络。

其中，计算真实标签与预测标签的损失具体为交叉熵损失。

可选的，从特征提取网络训练的设定开始阶段n到最后一个阶段的前一个阶段训练，其中每一个阶段的训练过程，具体的，如下：

步骤S11构建图像数据集并进行预处理；

在训练阶段，图像数据主要是自然图像的数据，原始数据样本中可能存在图像尺寸不一致情况，不利于深度网络模型进行学习，需要对现有数据集进行尺度变换为统一大小。最后将部分图像数据水平翻转、平移、加噪等操作，随机将每个文件夹内的数据均匀分成设定分数，如10份，组合为10个训练集和测试集。

步骤S12将数据集的数据输入至特征提取网络进行特征提取，得到设定阶段n的特征图；

步骤S13进行卷积操作，得到对应特征图的特征向量；

本步骤与上述步骤1.2的方法相同。

步骤S14将经过卷积得到的结果进行分类，获取该阶段n分类预测结果；

步骤S15计算阶段损失：将阶段n的网络预测结果与真实标签计算交叉熵损失（CELoss）；反向传播继续训练，直至损失趋于稳定。保留该前n阶段训练参数作为下一次训练的初始参数。

具体的，将阶段网络预测结果与真实标签计算交叉熵损失将经过第

阶段分类模型获得的所有预测结果，计算其得分最大值所对应类别为预测类别

。将预测类别

与真实标签类别

进行交叉熵损失计算

；

可选的，最后一个阶段的训练过程中，将最后一个阶段的输出特征进行全局细节补充，并将全局细节补充特征与特征提取网络的其他输出阶段的特征进行融合，将融合后的特征进行分类，计算损失，进行反向传播继续训练，直至损失趋于稳定，得到训练后的特征提取网络，具体的步骤如下：

步骤S16.1以最后一个阶段的上一阶段的训练参数作为初始参数；

步骤S16.2将数据集的数据输入至特征提取网络进行特征提取，得到特征提取网络各阶段的特征图；

步骤S16.3采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合，得到全局细节特征；

步骤S16.4将全局细节特征向量与特征提取各阶段的特征向量相融合，得到全局细节补充后的特征；

步骤S16.5根据全局细节补充后的特征进行分类，将分类计算最大值对应的预测类别为图像的分类结果，计算最终预测类别标签与真实类别标签损失，得到网络最终的损失（Loss）；

具体的，将网络最终融合后的预测标签

与真实类别标签y计算损失，得到网络最终的损失

。

步骤S16.6将网络最终融合后的损失作为最终损失，不断进行训练，直到训练轮次达到设定值，最小损失值对应的特征提取网络为训练后的特征提取网络。

具体的，本实施例中，将数据集输入到骨干网络（以resnet50为例）中，获取特征提取网络第三个阶段的特征图，将该阶段特征图展成特征向量

后，输入到分类模块中，得到预测标签，通过交叉熵函数，计算真实标签与预测标签的损失，反向传播继续训练，直至损失趋于稳定。保留该前三阶段训练参数作为下一次训练的初始参数。

将经过卷积模块得到的结果

经过分类模块

，获取该阶段分类预测结果：

，

。

以上一阶段的训练参数作为初始参数，将第四阶段得到的特征图展成特征向量

后，输入到分类模块中，得到预测标签，通过交叉熵函数，计算真是标签与预测标签的损失，反向传播继续训练，直至损失趋于稳定。保留该前四阶段训练参数作为下一次训练的初始参数。

以上一阶段的训练参数作为初始参数，将第五阶段得到的特征图输入到全局细节补充模块，得到的特征图展成特征向量

后，与第三阶段得到的特征向量

、第四个阶段得到的特征向量

进行级联操作。输入到分类模块中，得到级联操作的预测标签，计算交叉熵损失，继续训练直至损失稳定。

本实施例采用渐进式训练网络，改进的网络能够提高获取信息的多样性，可以获取低层细微的判别性信息还可以融合学习高层中目标对象的全局结构，可以实现对局部的判别性信息到全局结构的融合。将网络的最后三个阶段得到的特征图分别经过一个卷积模块与分类模块后计算该阶段得到的预测标签与实际标签的损失CELoss。在渐进式训练中，先训练倒数第三个阶段，然后逐步增加新的训练阶段。在每个步骤中，得到的CELoss将约束参数更新。由于底层阶段（如resnet50网络的倒数第三阶段）的感受野较小，可以获取局部区域细微的判别性信息。随着阶段的增加，在高层阶段可以获取目标的全局结构。渐进式的训练方式可以实现对局部的判别性信息到全局结构的融合。

实施例2

基于实施例1，本实施例提供基于全局细节补充的卷积神经网络的图像识别系统，包括：

本实施例中，将通过细节特征学习得到包括纹理细节信息的细节特征，将细节特征补充至通过特征提取网络获得的高层特征中，可以弥补高层阶段细节信息不足的缺点，能够将纹理细节信息补充至全局结构特征中，基于全局细节补充后的特征进行分类，提高了细粒度图像的分类效果。

此处需要说明的是，本实施例中的各个模块与实施例1中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例3

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于全局细节补充的卷积神经网络的图像识别方法，其特征在于，包括如下步骤：

根据全局细节补充后的特征进行分类，将分类计算最大值对应的类别为图像的分类结果；

对特征提取网络采用渐进式训练，设定特征提取网络的训练开始阶段n，从开始阶段n到最后一个阶段按照阶段累加进行逐阶段训练，从第n+1阶段以上一阶段训练得到的训练参数为初始参数，直到最后一个阶段的训练，得到训练后的特征提取网络；

采用渐进式训练的方法，包括如下步骤：

步骤S2、以第n阶段训练参数作为初始参数，以第n+1阶段的输出特征进行与上一阶段相同的训练过程，将前n+1阶段的训练参数作为下一阶段训练的初始参数，进行下一阶段的训练，直到特征提取网络的最后一个阶段，执行步骤S3；

2.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法，其特征在于：在进行特征提取之前还包括图像数据预处理的步骤，具体的，将图像数据进行尺度变换为统一的大小，并对部分图像数据进行水平翻转、平移和加噪操作。

3.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法，其特征在于：根据待测试图像进行特征提取，得到对应每个特征提取阶段的特征的方法，包括如下步骤：

将待测试图像进行多阶段特征图提取得到对应每个阶段的特征图；

将获得的特征图进行卷积操作，得到对应特征图的特征向量。

4.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法，其特征在于：

进行细节特征学习的方法，具体为：将输入的待识别图像先卷积学习特征，再反卷积重建输入图像，得到重建后的图像，最后将输入图像与重建后的图像作差，得到输入图像的细节特征图；所述细节特征图包含输入图像纹理细节信息的细节特征。

5.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法，其特征在于：将全局细节特征与特征提取各阶段的特征相融合采用多分辨率特征融合方法，包括如下步骤:

将特征提取网络设定阶层的特征图以及全局细节补充后的特征图，输入至卷积块中将特征图展开，分别得到特征向量；

将得到的特征向量级联得到全局细节补充后的特征。

6.如权利要求1所述的基于全局细节补充的卷积神经网络的图像识别方法，其特征在于：

从特征提取网络训练的设定开始阶段n到最后一个阶段之前的阶段的训练，其中每一个阶段的训练过程，具体的，如下：

构建图像数据集并进行预处理；

将预处理后的数据输入至特征提取网络进行特征提取，得到设定阶段n的特征图；

进行卷积操作，得到对应特征图的特征向量；

将经过卷积得到的结果进行分类，获取该阶段n分类预测结果；

将阶段n的网络预测结果与真实标签计算交叉熵损失，反向传播继续训练，直至损失趋于稳定，保留该前n阶段训练参数作为下一次训练的初始参数；

或者，特征提取网络最后一个阶段的训练过程，包括如下：

以最后阶段的上一阶段的训练参数作为初始参数；

将数据集的数据输入至特征提取网络进行特征提取，得到特征提取网络各阶段的特征图；

将全局细节特征向量与特征提取各阶段的特征向量相融合，得到全局细节补充后的特征；

根据全局细节补充后的特征进行分类，将分类计算最大值对应的预测类别为图像的分类结果，计算最终预测类别标签与真实类别标签损失，得到网络最终的损失；不断进行训练，直到训练轮次达到设定值，最小损失值对应的特征提取网络为训练后的特征提取网络。

7.基于全局细节补充的卷积神经网络的图像识别系统，其特征在于，包括：

自注意力模块：被配置为用于采用自注意力机制对特征提取网络最后一个阶段输出的特征图以及细节特征图进行融合，得到全局细节特征；全局细节补充模块：被配置为用于将全局细节特征与特征提取各阶段的特征相融合，得到全局细节补充后的特征；

分类模块：被配置为用于根据全局细节补充后的特征进行分类，将分类计算最大值对应的类别为图像的分类结果；

采用渐进式训练的方法，包括如下步骤：

8.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-6任一项方法所述的步骤。