CN116524282B

CN116524282B - 一种基于特征向量的离散相似度匹配分类方法

Info

Publication number: CN116524282B
Application number: CN202310756831.0A
Authority: CN
Inventors: 王崎; 李青雷; 吴雪; 张邦梅; 王亚洲
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-05
Anticipated expiration: 2043-06-26
Also published as: CN116524282A

Abstract

本发明公开了一种基于特征向量的离散相似度匹配分类方法，包括以下步骤：双阶段神经网络训练：阶段一，载入神经网络模型，训练数个周期，不用训至收敛，记该模型为M，删除M的全连接层，记为M’；阶段二，继续训练，经过阶段二的训练之后，利用M’遍历数据集中所有样本的输出特征向量V，构建代表各类别的显著表达位置集合；并以样本的显著表达位置序列作为分类依据，与各类别的统计显著位置集合做匹配分数比较，进行分类推理。本发明采用上述基于特征向量的离散相似度匹配分类方法，使得网络模型在推理过程中无需全连接层实现分类目的，可在不降低卷积神经网络模型准确度的情况下提升推理速度。

Description

一种基于特征向量的离散相似度匹配分类方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于特征向量的离散相似度匹配分类方法。

背景技术

卷积神经网络被广泛应用于图像分类任务中，通常由卷积层、池化层和全连接层组成。其中，卷积层负责使用卷积核通过反向传播算法从输入图像中学习特征，且卷积核在训练过程的每次迭代中都会更新。池化层用于特征图的下采样，从而降低特征图的空间维度，减少处理量，使网络更高效。全连接层用于执行分类任务。在深度学习图像分类领域，一般都使用全连接层作为分类器，因为其构造简单、方便，但是这也带来了极大的冗余数据和参数量。

然而，目前的全连接层具有以下缺点：

1、可解释性有限，由于全连接层中的每个神经元都从前一层中所有的神经元接收信息，而不管它们的位置，故使得很难理解网络使用输入图像中的哪些特征进行分类。

2、过拟合，由于训练过程中涉及大量的参数，当神经网络对训练数据学习得太好，无法泛化到新的数据时，就会发生过拟合。

3、有限的可伸缩性，当输入图像的大小或要分类的类别数量增加时，全连接层的计算成本很高，而且占用大量的内存，从而限制了神经网络的可伸缩性，并使其难以用于大规模图像分类任务。

发明内容

为解决上述问题，本发明提供一种基于特征向量的离散相似度匹配分类方法，使得网络模型在推理过程中无需全连接层实现分类目的，可在不降低卷积神经网络模型准确度的情况下提升推理速度，且能提高卷积神经网络的推理速度、准确率和鲁棒性，并具备因其依据图形特征作推理识别分类所内含的可解释性。

为实现上述目的，本发明提供了一种基于特征向量的离散相似度匹配分类方法，包括以下步骤：

S1、双阶段神经网络训练：

阶段一，载入神经网络模型，神经网络模型为Resnet34，使用交叉熵损失函数基于标准分类任务训练数个周期，不用训至收敛，记该模型为M，此时仅保存M中全连接层在行维度上归一化处理过后的权重矩阵的绝对值W供阶段二使用，删除M的全连接层，同时对M增加一步对输出特征向量做归一化处理的操作，记为M’；

阶段二，继续训练，增加M’在不同类别间的输出特征向量的差异性：对于每一个样本的标签为Li的输出特征向量Xi，让输出特征向量Xi靠近权重矩阵W中属于Li类别的一维权重张量；

S2、经过阶段二的训练之后，利用M’遍历数据集中所有样本的输出特征向量，构建代表各类别的显著表达位置集合，其中输出特征向量的长度等于全连接层输入张量的长度；并以样本的显著表达位置序列作为分类依据（位置序列作为整型数据，可以减少存储空间和计算量），与各类别的统计显著位置集合做匹配分数比较，进行分类推理；

样本的显著表达位置序列来自于样本在M’上的输出特征向量。

步骤S2具体包括以下步骤：

S21、获得降序索引：

把特征向量V按其元素值从大到小的顺序作排序称为sort_V，而sort_V各个元素在特征向量V上的索引记为sort_i，此时引进超参数N’，其表示需设置的显著集合长度，根据给定N’的大小保留sort_V的前N’个元素及其对应的索引序号，分别记为sort_V’与sort_i’，则sort_V’和sort_i’的长度都为N’；

S22、为每一个类别创建一个与特征向量长度相等的一维张量，均初始化为0，并将所有类别的该一维张量拼接组成Arrays矩阵，矩阵形状为n×N，其中n为类别数，N为M’输出的特征向量V的长度；

S23、更改网络模型M’的结构，将batch_size数量的样本输入M’后，输出batch_size × N’的二维张量，称为outputs；

S24、对于每个batch_size输出的outputs，outputs的第i个整型一维张量表示了batch_size内第i个样本的显著性逐渐下降的前N’个显著位置序列，长度为N’，该序列的第一个元素代表的位置显著性最大；

S25、在经过多个batch_size后，M’在数据集上遍历完毕，此时Arrays[n×N]矩阵更新完成，其代表n个类别在特征向量维度上的显著性分数统计；对该矩阵作在行维度上的降序操作，同样，取其前N’列的索引序号，表示各类别的前N’个显著位置，记截断后的矩阵为Sets，其形状为n×N’；

S26、定义相似度比对函数，并确定相似度比对函数的两个输入：其中一个为步骤S24所述的outputs，另一个为步骤S25所述的Sets，从而利用outputs与代表各类显著通道位置的Sets作相似度比较以输出最匹配的类别；

S27、推理，具体包括以下步骤：

S271、载入M’的无全连接层模型权重，并将（样本，Sets）输入到M’；

S272、M’的前向传播过程在最后发生改变，样本进入backbone后被展平为batch_size个特征向量；

S273、将batch_size个特征向量降序排列并取出前N’个的索引位置，作为步骤S26中的outputs；

S274、输出该batch_size样本在所有标签上的相似度评分；

S275、经过max函数，得到预测标签，完成推理。

优选的，在步骤S1所述的阶段二中，由于在全连接层分类中，特征向量x×W[Li]等于模型判定x属于第i个类别的概率分数，W[Li]为第i个类别的权重张量，并根据公式：x·w=|x|×|w|×cosθ，可知因为输出特征向量以及w的二范数都等于一，所以将两向量的余弦相似度作为将x判别为第i个类别的直接标准，只需设计损失函数使得特征向量靠近其对应类别的w即可，损失函数的具体公式为：

（1）

式中，n表示类别个数。

优选的，步骤S23具体包括以下步骤：

更改M’在删除全连接层后的前向传播过程最后一步：将特征向量降序排列并截取前N’个元素，并取出其对应索引序号作为模型前向传播的最后输出。

优选的，步骤S23中所述的outputs输出的是长度为N’的int16整型张量。

优选的，在步骤S24中，对于所属标签L(L=0,1,……,n-1)的一维序列，其各元素Xi(i=0,1,……,N-1)都会增加显著分数到向量Arrays[L]中第Xi所对应的位置上，且显著分数随i的增大而等比递减，显著分数的初始值为1，递减公比为q。

优选的，步骤S26具体包括以下步骤：

S261、增加outputs[batch_size × N’]的两个维度1与3，得到[batch_size × 1× N’ × 1]；

S262、增加Sets[n,N’]的两个维度0与2，得到Sets[1,n,1,N’]；

S263、为了用outputs与sets的每一个张量作相同元素个数的count计数，且利用上cuda的张量计算机制，采用矩阵相除操作，得到由0，1值组成的四维张量Matrix（outputs行数，Sets行数，outputs列数，Sets列数）：

Matrix = ~ ( (outputs+1) / (Sets+1) -1 ).bool() )

S264、返回Matrix在维度2、3上的求和结果，得到batch_size下每一个样本在n个类别上的相似度评分。

本发明具有以下有益效果：

1、通过对卷积神经网络中最后的全连接层进行丢弃处理，利用特征向量中的显著表征位置作为分类依据，以直观、快速的方式与各类别的代理特征向量做匹配分数比较，以达到提高推理速度的作用，进一步减少模型的参数量和冗余信息。

2、仅依赖于神经网络主干部分的输出特征向量，可适用于大多数模型和方法，且避免了模型过拟合情况的出现。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的一种基于特征向量的离散相似度匹配分类方法的流程框图；

图2为本发明的实验例的对比图。

具体实施方式

为了使本发明实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明实施例，并不用于限定本发明实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示，一种基于特征向量的离散相似度匹配分类方法，包括以下步骤：

S1、双阶段神经网络训练（模型的结构会依据训练阶段发生一次变化，后期结构依赖于前期结构，同时可丢弃前期结构的冗余部分）：

阶段一，载入神经网络模型，使用交叉熵损失函数基于标准分类任务训练数个周期，不用训至收敛，记该模型为M，此时仅保存M中全连接层在行维度上归一化处理过后的权重矩阵的绝对值W供阶段二使用，删除M的全连接层，同时对M增加一步对输出特征向量做归一化处理的操作，记为M’；此时认定M’具有在训练数据集上完备表现的能力。即在向M’输入图像X后，能生成与X对应的图像特征V，V能够较完整地表达X；

（1）

式中，n表示类别个数。

S2、经过阶段二的训练之后，利用M’遍历数据集中所有样本的输出特征向量，构建代表各类别的显著表达位置集合（该构建过程需要额外的时间开销但构建完成后可反复使用），其中输出特征向量的长度等于全连接层输入张量的长度；并以样本的显著表达位置序列作为分类依据（位置序列作为整型数据，可以减少存储空间和计算量），与各类别的统计显著位置集合做匹配分数比较，进行分类推理；

优选的，步骤S2具体包括以下步骤：

S21、获得降序索引：

优选的，步骤S23具体包括以下步骤：

更改M’在删除全连接层后的前向传播过程最后一步：将特征向量降序排列并截取前N’个元素，并取出其对应索引序号作为模型前向传播的最后输出。优选的，步骤S23中所述的outputs输出的是长度为N’的int16整型张量。因为M’已在训练集上收敛，所以对于训练集数据都具备提取图像规律的能力，此时可认为M’所输出的outputs对于输入的批量样本具有相应表征意义。

模型的传统前向传播过程在此步输出为长度为2048（假设采用resNet50）的float32浮点型张量。可知，采用本发明所述方法极大地降低了模型参数量和推理计算量。

优选的，在步骤S24中，对于所属标签L(L=0,1,……,n-1)的一维序列，其各元素Xi(i=0,1,……,N-1)都会增加显著分数到Arrays[L]中第Xi所对应的位置上，且显著分数随i的增大而等比递减，显著分数的初始值为1，递减公比为q。

优选的，步骤S26具体包括以下步骤：

S262、增加Sets[n,N’]的两个维度0与2，得到Sets[1,n,1,N’]；

Matrix = ~ ( (outputs+1) / (Sets+1) -1 ).bool() )

S27、推理。

优选的，步骤S27具体包括以下步骤：

S274、输出该batch_size样本在所有标签上的相似度评分；

S275、经过max函数，得到预测标签，完成推理。

优选的，步骤S1所述的神经网络模型为Resnet34。

实施例1：

1、双阶段神经网络训练：

阶段一，载入神经网络模型Resnet34，其特征向量长度为512（全连接层输入张量的长度），运行在ACCV（亚洲计算机视觉会议）数据集（100个类，细粒度图像，即ACCV数据集是ACCV2022国际细粒度图像分析挑战赛的数据集，原数据集是1000类，本实施例随机取了其中的100个类别）之上，待其训练30个周期达到模型，不用训至收敛，记该模型为M，此时仅保存M中全连接层在行维度上归一化处理过后的权重矩阵的绝对值W供阶段二使用，删除M的全连接层，同时对M增加一步对输出特征向量做归一化处理的操作，记为M’。即在向该Resnet34输入图像X后，M’能生成与X对应的大小为(1×512)的图像特征，该图像特征能够较完整地表达X。

且在阶段二中，由于在全连接层分类中，特征向量x×W[Li]等于模型判定x属于第i个类别的概率分数，W[Li]为第i个类别的权重张量，并根据公式：x·w=|x|×|w|×cosθ，可知因为输出特征向量以及w的二范数都等于一，所以将两向量的余弦相似度作为将x判别为第i个类别的直接标准，只需设计损失函数使得特征向量靠近其对应类别的w即可，损失函数的具体公式为：

（1）

式中，n表示类别个数。

2、经过阶段二的训练之后，利用M’遍历数据集中所有样本的输出特征向量，构建代表各类别的显著表达位置集合（该构建过程需要额外的时间开销但构建完成后可反复使用），其中输出特征向量的长度等于全连接层输入张量的长度；并以样本的显著表达位置序列作为分类依据（位置序列作为整型数据，可以减少存储空间和计算量），与各类别的统计显著位置集合做匹配分数比较，进行分类推理：

（21）把特征向量V按其元素值从大到小的顺序作排序称为sort_V，而sort_V各个元素在特征向量V上的索引记为sort_i，根据给定超参数N’的大小120保留sort_V的前120个元素及其对应索引，分别记为sort_V’与sort_i’，则sort_V’与sort_i’长度都为120，sort_V’的结果导出如下：

；

对应sort_V’的sort_i’结果导出如下：

（22）为每一个类别创建一个与特征向量长度相等的一维张量，均初始化为0，并将所有类别的该一维张量拼接组成Arrays矩阵，矩阵形状为100x512，其中100是类别数，512是M’输出的特征向量V的长度。

（23）更改M’在删除全连接层后的前向传播过程最后一步：将特征向量降序排列并截取前120个元素，并取出其对应索引序号作为模型前向传播的最后输出。优选的，步骤S23中所述的outputs输出的是长度为N’的int16整型张量。因为M’已在训练集上收敛，所以对于训练集数据都具备提取图像规律的能力，此时可认为M’所输出的outputs对于输入的批量样本具有相应表征意义。则对于batch_sizesize=64数量的样本，输入M’后，输出64 x512的二维张量，称为outputs。因为M’已在训练集上收敛，所以对于训练集数据都具备提取图像规律的能力，此时可认为M’所输出的outputs对于输入的批量样本具有相应表征意义。outputs输出的是长度为120的int16整型张量，而模型的传统前向传播过程在此步输出为长度为512的float32浮点型张量。可知，采用本实施例可极大地降低模型参数量和推理计算量。

（24）对于每个batch_size输出的outputs，outputs的第i个整型一维张量表示了batch_size内第i个样本的前120个显著位置，且显著性逐渐下降，即该序列的第一个元素显著性最大。对于所属标签L(L=0,1,……,99)的一维序列，其各元素Xi(i=0,1,……,119)都会增加显著分数到Arrays[L]中第Xi所对应的位置上，且显著分数随i的增大而等比递减，递减公比为0.9。

（25）在经过多个batch_size后，M’在训练集上遍历完毕，此时Arrays[100x512]已更新完成，其代表100个类在特征向量维度512上的显著性分数统计。对该矩阵作截取操作，取其前120列，表示各类别的前N’个显著位置。记截断后的矩阵为Sets，其形状为n×N’，可将其保存在本地，在本方法中与M’一起作协作推理，需注意，M’已没有全连接层。

（26）定义相似度比对函数，该函数会接收两个输入，一个为样本输入模型后的输出outputs（见步骤24），另一个为步骤25中的Sets。目的是让outputs与代表各类显著通道位置的Sets作相似度比较以输出最匹配的类别。具体为：首先让outputs[64 x 120]增加维度1与3，即[64 x 1 x 120 x 1]，其次增加Sets[100,120]的两个维度0与2，即Sets[1,100,1,120]。为了用outputs与sets的每一个张量作相同元素个数的count计数，且利用上cuda的张量计算机制，则采用矩阵相除操作，同时保证分母不出现零，在分式上下端都+1，然后整体分式-1，再分式的布尔值再取反，可以得到由0，1值组成的四维张量Matrix（outputs行数，Sets行数，outputs列数，Sets列数），具体计算为：

Matrix = ~ ( (outputs+1) / (Sets+1) -1 ).bool() )

函数返回Matrix在维度2、3上的求和结果，得到batch_size下每一个样本在n个类别上的相似度评分。

（27）推理阶段：载入M’的无全连接层模型权重，将（样本，Sets）输入到M’。如（23）所述，M’的前向传播过程在最后发生改变，样本进入backbone后被展平为batch_size个特征向量，此时这些特征向量降序排列并取出前N’个的索引位置，作为（26）的outputs，最后输出该batch_size样本在所有标签上的相似度评分，类似logits，后续经过max函数得到预测标签，推理完成。

实验例1

如图2所示，在tulip（郁金香）和daisy（雏菊）两种花的各两个样本上将它们的特征向量显著通道位置可视化出来，从对应sort_V’的sort_i’结果导出可以看到不同类别间，特征向量的显著位置差异很大，相反，在同一类别里的不同样本，其特征向量的显著位置差异小很多。

实验例2：

为了比较本方法与传统带全连接层方法在推理速度上的效果提升，使用ResNet34模型在cifar100数据集上分别做了推理时间的对比实验，在本实验中N=2048，而设置的N’=225，两者都是使用ResNet34在cifar100数据集上10000个样本的实验结果，accuracy表示推理分类精度，sum_time_cost表示所有样本的总推理时间，单位为秒，传统带全连接层方法的实验结果如下：

，

此实施例的实验结果如下：

，

从上述结果可以看到，本发明的推理耗时相比传统方法更少。

因此，本发明采用上述基于特征向量的离散相似度匹配分类方法，摒弃了模型的全连接层，只留下特征向量的显著表达位置集合，将高纬度的实值型全连接层推理转变为低纬度的整型集合匹配推理，减少了网络模型参数量和体积。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于特征向量的离散相似度匹配分类方法，其特征在于：包括以下步骤：

S1、双阶段神经网络训练：

阶段一，载入神经网络模型，神经网络模型为Resnet34，特征向量长度为512，运行在具有100个类的细粒度图像ACCV数据集之上，待其训练30个周期达到模型，不用训至收敛，记该模型为M，此时仅保存M中全连接层在行维度上归一化处理过后的权重矩阵的绝对值W供阶段二使用，删除M的全连接层，同时对M增加一步对输出特征向量做归一化处理的操作，记为M’；

S2、经过阶段二的训练之后，利用M’遍历数据集中所有样本的输出特征向量，构建代表各类别的显著表达位置集合，其中输出特征向量的长度等于全连接层输入张量的长度；并以样本的显著表达位置序列作为分类依据，与各类别的统计显著位置集合做匹配分数比较，进行分类推理；

样本的显著表达位置序列来自于样本在M’上的输出特征向量；

具体包括以下步骤：

S21、获得降序索引：

S23、更改网络模型M’的结构，将batch_size数量的样本输入M’后，输出batch_size ×N’的二维张量，称为outputs；

S24、对于每个batch_size输出的outputs，outputs的第i个整型一维张量表示了batch_size内第i个样本的显著性逐渐下降的显著位置序列，长度为N’，该序列的第一个元素代表的位置显著性最大；

S27、推理，具体包括以下步骤：

S274、输出该batch_size样本在所有标签上的相似度评分；

S275、经过max函数，得到预测标签，完成推理。

2.根据权利要求1所述的一种基于特征向量的离散相似度匹配分类方法，其特征在于：在步骤S1所述的阶段二中，由于在全连接层分类中，特征向量x×W[Li]等于模型判定x属于第i个类别的概率分数，W[Li]为第i个类别的权重张量，并根据公式：x·w=|x|×|w|×cosθ，可知因为输出特征向量以及w的二范数都等于一，所以将两向量的余弦相似度作为将x判别为第i个类别的直接标准，只需设计损失函数使得特征向量靠近其对应类别的w即可，损失函数的具体公式为：

（1）

式中，n表示类别个数。

3.根据权利要求1所述的一种基于特征向量的离散相似度匹配分类方法，其特征在于：步骤S23具体包括以下步骤：

4.根据权利要求1所述的一种基于特征向量的离散相似度匹配分类方法，其特征在于：步骤S23中所述的outputs输出的是长度为N’的int16整型张量。

5.根据权利要求1所述的一种基于特征向量的离散相似度匹配分类方法，其特征在于：在步骤S24中，对于所属标签L(L=0,1,……,n-1)的一维序列，其各元素Xi(i=0,1,……,N’-1)都会增加显著分数到向量Arrays[L]中Xi所对应的位置上，且显著分数随i的增大而等比递减，显著分数的初始值为1，递减公比为q。

6.根据权利要求1所述的一种基于特征向量的离散相似度匹配分类方法，其特征在于：步骤S26具体包括以下步骤：

S261、增加outputs[batch_size × N’]的两个维度1与3，得到[batch_size × 1 ×N’ × 1]；

S262、增加Sets[n,N’]的两个维度0与2，得到Sets[1,n,1,N’]；

Matrix = ~ ( (outputs+1) / (Sets+1) -1 ).bool() )