CN115100509B

CN115100509B - 基于多分支块级注意力增强网络的图像识别方法及系统

Info

Publication number: CN115100509B
Application number: CN202210828626.6A
Authority: CN
Inventors: 王少华; 刘兴波; 康潇; 聂秀山; 尹义龙
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-29
Anticipated expiration: 2042-07-15
Also published as: CN115100509A

Abstract

本发明属于图像分类识别相关领域，本发明提出了基于多分支块级注意力增强网络的图像识别方法及系统，包括：获取图像进行预处理得到多个候选块，基于不同规则对每一个候选块进行筛选；将基于不同规则筛选得到的候选块分别输入至不同分支的注意力增强神经网络模型进行训练，将不同分支的注意力增强神经网络的输出进行拼接，得到训练好的多分支注意力增强的神经网络模型；将待识别的图像经过预处理后输入至训练好的多分支注意力增强的神经网络模型中，输出识别结果，通过多分支块级注意力增强神经网络模型实现对细粒度图像的识别，大大提高了识别精度。

Description

基于多分支块级注意力增强网络的图像识别方法及系统

技术领域

本发明属于图像分类识别相关领域，尤其涉及基于多分支块级注意力增强网络的图像识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是机器人需要实现的一项常规且必要的技术，该技术在日常生活中有非常广泛的应用。已有大部分图像识别技术往往是根据整张图像的性质来进行识别，但通常来说，人在看一张图片的时候，除了从整体把握一幅图片之外，会更加关注图片的某个局部信息，尤其是当两张图像的整体特征差别不大时，对于局部细节给予更多的关注往往会实现更好的识别效果。

现有的基于深度特征的图像识别方法，往往是直接提取整幅图像的特征，只关注了图像的全局信息，忽略了局部的细节信息。具体来说，现有的方法通常是将整幅图像作为深度神经网络的输入，网络均衡地关注整幅图像中的信息，而忽略了细节。针对较为粗粒度的自然图像识别，例如识别猫、狗、鸟等，上述方法通常可以取得不错的性能。然而，对于细粒度的图像识别，例如识别麻雀、云雀、黄鹂等，其图像外观非常相似，提取整幅图像的特征则不能很好的进行区分。

发明内容

为克服上述现有技术的不足，本发明提供了基于多分支块级注意力增强网络的图像识别方法及系统，设计了多分支块级注意力增强神经网络模型实现对细粒度图像的识别，大大提高了识别精度。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：基于多分支块级注意力增强网络的图像识别方法，包括：

获取图像进行预处理得到多个候选块，基于不同规则对每一个候选块进行筛选；

将基于不同规则筛选得到的候选块分别输入至不同分支的注意力增强神经网络模型进行训练，将不同分支的注意力增强神经网络模型的输出进行拼接，得到训练好的多分支注意力增强的神经网络模型；

将待识别的图像经过预处理后输入至训练好的多分支注意力增强的神经网络模型中，输出识别结果。

进一步的，所述图像的预处理为采用超像素方法生成候选区域，以中心像素点为中心，取外接矩形作为候选块。

进一步的，通过对每一个候选块计算前景得分、纹理得分和灰度得分，并筛选出三项得分中得分高的候选块，将每一项筛选得到的候选块进行特征提取并拼接后作为不同分支注意力增强的神经网络模型的输入。

进一步的，所述多分支注意力增强的神经网络模型中子网络采用浅层神经网络AlexNet，所述浅层神经网络AlexNet包含5个卷积层和3个全连接层。

进一步的，所述浅层神经网络AlexNet的最后一层全连接层的神经元个数与所输入中对应的候选块个数相同。

进一步的，所述浅层神经网络AlexNet中加入归一化指数函数进行归一化。

进一步的，在不同分支的注意力增强神经网络模型训练中，分别将不同分支的注意力增强神经网络的输出作为权重信息，将得到的权重信息加权到原始的特征向量上，实现块级注意力的特征增强，其表达式为：

X_s,j=W_s,j·X_s-1,j

其中，X表示每个子分支的输入特征，s表示迭代次数，W表示网络训练得到的权重向量，j表示候选块的编号。

进一步的，所述多分支注意力增强的神经网络模型的损失函数采用交叉熵损失函数。

本发明的第二个方面公开了基于多分支块级注意力增强网络的图像识别系统，包括：获取模块：获取图像进行预处理得到多个候选块，基于不同规则对每一个候选块进行筛选；

训练模块：将基于不同规则筛选得到的候选块分别输入至不同分支的注意力增强神经网络模型进行训练，将不同分支的注意力增强神经网络的输出进行拼接，得到训练好的多分支注意力增强的神经网络模型；

识别模块：将待识别的图像经过预处理后输入至训练好的多分支注意力增强的神经网络模型中，输出识别结果。

进一步的，在所述获取模块中，采用超像素方法生成候选区域，以中心像素点为中心，取外接矩形作为候选块；通过对每一个候选块计算前景得分、纹理得分和灰度得分，并筛选出三项得分中得分高的候选块，将每一项筛选得到的候选块进行特征提取并拼接后作为不同分支的注意力增强神经网络的输入。

以上一个或多个技术方案存在以下有益效果：

在本发明中，设计了一个多分支块级注意力增强网络，在不引入专家知识、不加入额外的关键区域标注的前提下，实现细粒度图像的识别。

本发明所提出的多分支注意力增强网络模型在训练过程中是可以同时迭代完成的，因此本发明的模型是一个端到端的训练，能够更好地融合多分支的特征，避免陷入局部最优，大大提高了识别精度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明的基于多分支块级注意力增强网络的图像识别方法流程图；

图2为本发明中基于多分支块级注意力增强神经网络的结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

实施例一

如图1所示，本实施例公开了基于多分支块级注意力增强网络的图像识别方法，包括：

步骤1：获取图像进行预处理得到候选块，并对得到的候选块基于不同规则进行筛选；

步骤2：将基于不同规则筛选得到的候选块分别输入至不同分支的注意力增强神经网络模型进行训练，将不同分支的注意力增强神经网络模型的输出进行拼接，得到训练好的多分支注意力增强的神经网络模型；

步骤3：将待识别的图像经过预处理后输入至训练好的多分支注意力增强的神经网络模型中，输出识别结果。

在步骤1中，对每一幅图像采用超像素方法将相似的像素点进行组合。

超像素是指由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域，这些区域大多数保留了进一步进行图像分割的有效信息，且一般不会破坏图像中物体的边界信息，它是把一幅像素级的图，划分成区域级的图。

在本实施例中，采用超像素方法将每一幅图像生成30张候选区域，由于超像素方法生成的候选区域是边缘不规则，大小不一致的，为了方便后续的处理，以中心像素点为中心，取外接矩形作为候选块，用于下一步的筛选。

对于得到候选块采用不同的规则对候选块进行筛选，选出对于图像识别更具判别力的图像块。

在本实施例中，采用三种规则进行筛选，分别是前景得分，纹理得分和灰度得分作为筛选的依据，并据此将候选块分为三个簇进行特征提取，作为后续多分支注意力增强神经网络的输入。

对于前景得分，利用训练好的语义分割网络模型对原始图像进行前景和背景的分割，每个像素点都会得到其属于前景的概率，作为该像素点的前景得分，对于一个候选块来说，该候选块中所有像素点的前景得分的平均值作为该候选块的前景得分。

在本实施例中，采用的语义分割网络模型为训练好全卷积神经网络模型，所使用的全卷积神经网络模型包含8个卷积层。

对于纹理得分，利用图像的灰度共生矩阵的能量表示纹理得分。灰度共生矩阵是用于反映图像纹理特性的一个二阶统计量，它被定义为两个位置的像素的联合概率密度，不仅可以反映亮度地分布特性，也可以反映具有同样亮度或接近亮度的像素之间的位置分布特性。而能量是灰度共生矩阵元素值的平方和，它反映了图像灰度分布均匀程度和纹理粗细度。当共生矩阵中元素集中分布时，能量值大，反之能量值小。因此，能量值大表明一种较均一和规则变化的纹理模式。

在本实施例中，利用能量值过滤掉纹理分布极其混乱的区域，选出纹理分布均匀的区域用于后续处理。

对于灰度得分，统计整个数据库的灰度值分布，当数据库太大时，可通过随机采样的方式完成，根据灰度值分布情况，选出关键灰度值分布区间，即该区域的像素点更大概率对分类有帮助。

在本实施例中，对于候选块来说，灰度值落在关键灰度值分布区间的像素点数量越多，该候选块灰度值得分越高。

通过上述三种规则计算每一个候选块的三项的得分，分别筛选出前n个，在本实施例中n设置为5，即取每组得分最高的前5个块作为一簇，此时，可以得到3组候选块，每组包含5个块，对这5个块分别输入卷积神经网络进行特征提取，得到1024维的特征向量并进行拼接，最终得到3个5*1024的特征矩阵，并将提取到的特征作为多分支注意力增强的神经网络的输入，其表达式为：

X_k=D（I_j；θ） (1)

其中，k=1,2,3表示分支的编号，I表示候选块，j=1,2,3,4,5表示候选块的编号，D表示特征提取网络结构，θ表示网络参数，X表示特征提取网络的输出，即多分支注意力增强的神经网络的输入。在本实施例中，特征提取网络结构即卷积神经网络所采用的是神经网络AlexNet，AlexNet包含5个卷积层和3个全连接层。

在本实施例中，取每组得分最高的前5个块作为一簇，此时，可以得到3组候选块，每组包含5个块，对这5个块分别输入卷积神经网络进行特征提取，得到1024维的特征向量并进行拼接。最终得到3个5*1024的特征矩阵。

在本实施例中，如图2所示，在所述步骤2中设计了一个三分支的神经网络，每个分支的输入是步骤1中经过筛选后候选块的特征矩阵。

每一分支的网络结构是相同的，以分支一为例，子网络采用浅层神经网络AlexNet作为骨干网络，浅层神经网络AlexNet已在ImageNet数据集上完成预训练。

在本实施例中，所采用的浅层神经网络AlexNet包含5个卷积层和3个全连接层，注意力增强网络的子网络直接采用浅层神经网络AlexNet，将浅层神经网络AlexNet最后一层的全连接网络进行拼接，用于最终分类结果的生成。

在本实施例中，将子分支网络浅层神经网络AlexNet中最后一个全连接层的神经元个数设置为所输入中对应的候选块个数一致，即设置为5。

将上述得到的特征矩阵通过子网络浅层神经网络AlexNet中最后一个全连接层的输出作为每个候选块特征矩阵的权重信息，用来表征候选块对于最终分类结果的重要程度，另外，为了使子网络的输出更加符合概率分布，在输出权重信息之前加入归一化指数函数进行归一化。

在训练过程中，将得到的权重信息加权到原始的特征向量上，实现块级注意力机制对原始特征的增强，表达式为：

X_s,j=W_s,j·X_s-1,j（2）

其中，s表示迭代次数，W表示网络训练得到的权重向量，X表示每个子分支的输入特征，即某一个分支上第j个候选块经过s次迭代后的结果，j表示候选块的编号。

对于每个子网络的最后一个全连接层的输出拼接成一个新的特征向量，拼接后的特征向量再次通过全连接层后输出分类结果。

在本实施例中，所采用的拼接方式为将最后一个全连接网络的输出向量首尾相连直接拼接为一个新向量，拼接成的新向量作为下一个全连接层的输入。

在本实施例中，由于所有训练过程都可以同步迭代完成因此本实施例中的识别模型是一个端到端的训练网络，整个模型的损失函数采用的是交叉熵损失，表达如下：

（3）

其中，M表示类别的数量；

表示变量（0或1），如果该类别和样本i的类别相同就是1，否则是0；

表示对于观测样本i属于类别c的预测概率，N表示样本个数，L_i表示第i个分支的损失函数。

在步骤3中，利用步骤2训练好的多分支注意力增强的神经网络模型进行图像的识别，将待识别的图像进行预处理，生成候选块，然后基于卷积神经网络进行特征的提取，将提取的特征输入至训练好的多分支注意力增强的神经网络模型中，输出识别结果。

在本实施例中，采用了三分支的网络结构，在每个分支中，通过权重信息的加权实现块级注意力增强，而在子网络之后通过一个简单但有效的拼接，将不同的分支的训练结果融合起来，实现端到端的训练，避免模型陷入局部最优解，提高识别精度。

在CUB数据库上进行实验，如下为本实施例中方法与其他算法的性能比较，采用精度进行度量。

记忆卷积神经网络即MG-CNN：精度81.7%；时空卷积神经网络即ST-CNN：精度84.1%；注意力卷积神经网络即RA-CNN：精度85.3%；多注意卷积神经网络即MA-CNN：精度85.4%；多注意力多类别约束即MAMC：精度86.5%；本实施例中的方法：精度86.8%。

实施例二

本实施例的目的是提供一种基于多分支块级注意力增强网络的图像识别系统，包括：

获取模块：获取图像进行预处理得到多个候选块，基于不同规则对每一个候选块进行筛选；

训练模块：将基于不同规则筛选得到的候选块分别输入至不同分支的注意力增强神经网络模型进行训练，将不同分支的注意力增强神经网络模型的输出进行拼接，得到训练好的多分支注意力增强的神经网络模型；

在获取模块中，采用超像素方法生成候选区域，以中心像素点为中心，取外接矩形作为候选块；通过对每一个候选块计算前景得分、纹理得分和灰度得分，并筛选出三项得分中得分高的候选块，将每一项筛选得到的候选块进行特征提取并拼接后作为不同分支注意力增强的神经网络的输入。

以上实施例二中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于多分支块级注意力增强网络的图像识别方法，其特征是，包括以下步骤：

通过对每一个候选块计算前景得分、纹理得分和灰度得分，并筛选出三项得分中得分高的候选块，将每一项筛选得到的候选块进行特征提取并拼接后作为不同分支的注意力增强神经网络模型的输入；其中，所述前景得分：对原始图像进行前景和背景的分割，每个像素点得到其属于前景的概率，作为该像素点的前景得分；所述纹理得分：利用图像的灰度共生矩阵的能量表示纹理得分；对于灰度得分：统计整个数据库的灰度值分布，可通过随机采样的方式完成，根据灰度值分布情况，选出关键灰度值分布区间，对于候选块来说，灰度值落在关键灰度值分布区间的像素点数量越多，该候选块灰度值得分越高；

2.如权利要求1所述的基于多分支块级注意力增强网络的图像识别方法，其特征是，所述图像的预处理为采用超像素方法生成候选区域，以中心像素点为中心，取外接矩形作为候选块。

3.如权利要求1所述的基于多分支块级注意力增强网络的图像识别方法，其特征是，所述多分支注意力增强的神经网络模型中子网络采用浅层神经网络AlexNet，所述浅层神经网络AlexNet包含5个卷积层和3个全连接层。

4.如权利要求3所述的基于多分支块级注意力增强网络的图像识别方法，其特征是，所述浅层神经网络AlexNet的最后一层全连接层的神经元个数与所输入中对应的候选块个数相同。

5.如权利要求4所述的基于多分支块级注意力增强网络的图像识别方法，其特征是，所述浅层神经网络AlexNet中加入归一化指数函数进行归一化。

6.如权利要求1所述的基于多分支块级注意力增强网络的图像识别方法，其特征是，在不同分支的注意力增强神经网络模型训练中，分别将不同分支的注意力增强神经网络的输出作为权重信息，将得到的权重信息加权到原始的特征向量上，实现块级注意力的特征增强，其表达式为：

X_s,j=W_s,j·X_s-1,j

7.如权利要求1所述的基于多分支块级注意力增强网络的图像识别方法，其特征是，所述多分支注意力增强的神经网络模型的损失函数采用交叉熵损失函数。

8.基于多分支块级注意力增强网络的图像识别系统，其特征是，包括：

训练模块：将基于不同规则筛选得到的候选块分别输入至不同分支的注意力增强神经网络模型进行训练，将不同分支的注意力增强神经网络的输出进行拼接，得到训练好的多分支注意力增强的神经网络模型；通过对每一个候选块计算前景得分、纹理得分和灰度得分，并筛选出三项得分中得分高的候选块，将每一项筛选得到的候选块进行特征提取并拼接后作为不同分支的注意力增强神经网络模型的输入；其中，所述前景得分：对原始图像进行前景和背景的分割，每个像素点得到其属于前景的概率，作为该像素点的前景得分；所述纹理得分：利用图像的灰度共生矩阵的能量表示纹理得分；对于灰度得分：统计整个数据库的灰度值分布，可通过随机采样的方式完成，根据灰度值分布情况，选出关键灰度值分布区间，对于候选块来说，灰度值落在关键灰度值分布区间的像素点数量越多，该候选块灰度值得分越高；

9.如权利要求8所述的基于多分支块级注意力增强网络的图像识别系统，其特征是，在所述获取模块中，采用超像素方法生成候选区域，以中心像素点为中心，取外接矩形作为候选块。