CN111738303B

CN111738303B - 一种基于层次学习的长尾分布图像识别方法

Info

Publication number: CN111738303B
Application number: CN202010465621.2A
Authority: CN
Inventors: 陈琼; 林恩禄; 刘庆发
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-05-23
Anticipated expiration: 2040-05-28
Also published as: CN111738303A

Abstract

本发明公开了一种基于层次学习的长尾分布图像识别方法，包括步骤：1)使用预训练模型提取长尾分布图像数据中每个对象的视觉特征；2)依据视觉特征构建类与类之间的层次超类树关系；3)依据层次超类树关系搭建层次超类树神经网络模型；4)使用基于层次学习的方式训练层次超类树神经网络模型；5)用训练好的层次超类树神经网络模型对长尾分布图像数据进行识别。本发明首次将长尾图像识别问题转变成由易到难的层次超类学习问题，可有效缓解长尾分布中类别分布不平衡以及少数类识别准确率低的问题。此外，本发明在其它不同不平衡程度的数据环境中也有优秀的分类识别性能，因而本发明具有实际应用价值，值得推广。

Description

一种基于层次学习的长尾分布图像识别方法

技术领域

本发明涉及机器学习中的深度学习、小样本学习、不平衡分类的技术领域，尤其是指一种基于层次学习的长尾分布图像识别方法。

背景技术

现实生活中的数据经常出现极度不平衡的现象，少数类别含有大量的样本，大多数类别仅有极少量样本，数据各类别的样本分布遵循长尾分布。长尾分布图像识别问题实际上是不平衡分类问题和小样本学习问题的综合体，其中头部样本数目较为充足的类别的识别可以视为不平衡分类问题，尾部样本数目较少的类别的识别可以视为小样本学习问题。

在解决长尾分布图像识别问题时，许多标准高效的卷积神经网络模型无法准确建模，模型在头部类上表现良好，在尾部类上几乎无法识别目标，整体的识别精确度较差。

目前有关长尾分布图像识别的研究大多使用不平衡学习相关的技术，这类技术主要分为数据层面和算法层面。数据层面的技术主要包括下采样多数类样本、上采样少数类样本或结合前面两者的混合采样方法。面对长尾分布数据集时，下采样将会丢弃绝大部分样本，从而损失数据集中许多有价值的信息，上采样则会导致过拟合问题，同时会带来极大的算力消耗。算法层面的技术主要通过代价敏感方法来重新调整各个类别的权重，这类方法在一定层度上缓解了长尾分布图像识别率低的问题，但并没有综合考虑到大量尾部类别仅有极少数样本的情况，这会导致尾部类别的识别准确率还是不够高。此外，可行的解决方法有由头部类别丰富数据中学习的知识往尾部类别进行迁移、设计适合长尾分布图像识别的损失函数以及构建更加合理的长尾分布图像识别模型。然而，目前长尾分布图像识别的研究仍处于初步阶段，当下所有的长尾分布图像识别方法并没有很好地提高尾部类别的识别准确率，如何建模长尾分布的图像数据集仍是一大挑战。

发明内容

本发明的目的在于克服现有技术的不足与缺点，提出了一种行之有效、科学合理的基于层次学习的长尾分布图像识别方法，将不平衡图像识别(分类)问题转变成具有多层超类的层次分类问题，通过构建层次超类树减小头部类对模型的主导作用，使得模型在不同不平衡程度的数据中都能更加准确地分类，进而能够更加有效地解决图像长尾分布识别准确率低的问题。

为实现上述目的，本发明所提供的技术方案为：一种基于层次学习的长尾分布图像识别方法，包括以下步骤：

1)使用预训练模型提取长尾分布图像数据中每个对象的视觉特征；

2)依据视觉特征构建类与类之间的层次超类树关系；

3)依据层次超类树关系搭建层次超类树神经网络模型；

4)使用基于层次学习的方式训练层次超类树神经网络模型；

5)用训练好的层次超类树神经网络模型对长尾分布图像数据进行识别。

在步骤1)中，所述预训练模型是指能够提取出长尾分布图像数据中每一类对象有差别的视觉特征的模型，所述视觉特征是指长尾分布图像数据中对象的向量表示。

在步骤2)中，依据对象的视觉特征构建类与类之间的层次超类树关系，层次超类树关系通过自底向上的方式逐层构造：先求取每一类所有视觉特征的特征中心，特征中心通过对选定的多个视觉特征取平均值得到，将这些特征中心作为最底层结点，接着将得到的特征中心按照相似度关系聚类成簇，求出每一个簇的簇中心，簇中心通过对选定的多个特征中心取平均值得到，将簇中心作为该簇内所有特征中心共同的上层父结点，然后将得到的上层父节点继续按照相似度关系聚类成簇，求出每一个簇的簇中心，将新得到的簇中心作为该簇内所有节点共同的父结点，依此类推，直到最顶层只有一个簇中心为止，每一层的不同的簇中心表示该层中不同的超类。

在步骤3)中，所述层次超类树神经网络模型由一个主干神经网络和多个分支神经网络组成，具体如下：

设计一个能够根据输入的x，输出对应的f_I的神经网络，其中，x表示长尾分布图像数据中的图片样本，f_I表示特征图，将该网络作为层次超类树神经网络模型的主干神经网络；

依据层次超类树关系，自顶向下为树中的每一层搭建一个分支神经网络，第i层分支神经网络的输入为f_I和s_i-1，输出为s_i，其中，i表示层序号，取值范围为[1,M]，M是层次超类树总层数，s是分支神经网络的预测输出，当分支神经网络位于第一层时，其输入只有f_I，否则，分支神经网络的输入同时包含f_I和上一层分支神经网络的输出s_i-1。

进一步，所述分支神经网络对其输入的处理，包括以下步骤：

i)若输入中含有s_i-1，则对s_i-1做线性增维：

s'_i-1＝φ_i(s_i-1)

式中，φ_i(.)是第i层的线性转换函数，它将第i层的输入向量s_i-1增维成与第i层的输出向量s_i具有相同维度大小的向量s'_i-1；

ii)将f_I映射成高级特征：

式中，δ_i(.)是第i层的一个卷积神经网络，

R表示实数集，W'、H'和C'分别表示高级特征的宽、高和通道数，/>

表示/>

属于维度大小分别为W'、H'和C'的实数集；

iii)使用一个注意力机制模块计算

的注意力系数，/>

中的每一个区域的注意力系数计算方式为：

式中，a_i(.)是第i层的一个具有注意力机制功能的神经网络模块，[.,.]表示拼接操作，

是指/>

中每一块大小为1×1×C'的不同区域，共有W'×H'块；

iv)利用注意力系数计算每个通道中的所有位置的加权平均：

式中，ei_,wh是对

做归一化处理后的结果，⊙表示按元素乘，f_i∈R^C'，∑_w,h表示对每一块大小为1×1×C'的不同区域的求和运算；

v)将f_I映射成高级特征：

式中，ω_i(.)是第i层的一个卷积神经网络，

vi)对

执行全局平均池化：

vii)将f'_i、f_i和它们拼接起来的[f'_i,f_i]分别输进三个分类器Z_i，1,Z_i，2,Z_i，3中，将这三个分类器输出的结果取平均作为分支神经网络的输出。

在步骤4)中，基于层次学习的方式是使用两种损失函数的加权来指导层次超类树神经网络模型的学习，该两种损失函数包括：

a、使用层次超类树神经网络模型的第i-1层输出来指导第i层参数学习的知识蒸馏损失：

式中，

i表示层次超类树神经网络模型的第i层，T是一个温度常数，c和c'表示每一层上的某一超类，s_i,c表示层次超类树神经网络模型第i层输出向量中与超类c相对应的分量，s'_i-1,c表示层次超类树神经网络模型的第i-1层输出向量在增维后与超类c相对应的分量，

是在一个样本上的知识蒸馏损失，通过累加所有样本的/>

得到第i层的总的知识蒸馏损失/>

b、交叉熵分类损失：

式中，

I(.)是指示函数，y_i是样本在第i层对应的真实标签，

是在一个样本上的交叉熵分类损失，通过累加所有样本的/>

得到第i层的总的交叉熵分类损失/>

层次超类树神经网络模型是通过使用上述两种损失函数的加权来指导学习：

式中，λ为权重系数，M为层次超类树神经网络模型的总层数，基于层次学习的方式先自顶向下逐层训练，再使用Loss微调整个层次超类树神经网络模型以得到最优的模型参数，即完成了层次超类树神经网络模型的训练。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次将长尾识别问题转变成由易到难的层次超类学习问题，最底层的超类学习任务是原始的长尾识别任务，由底向上的各层超类的不平衡程度的逐渐降低，相应的学习任务逐渐简单。通过层次超类树获得层次超类数据集，自顶向下使用端到端的学习模型为层次超类数据集建模，由易到难渐进学习。

2、本发明提出了一种注意力机制模块，将层次超类树上一层超类的预测结果作为先验知识来指导下层超类的特征学习。

3、本发明使用知识蒸馏技术，将上一层超类的预测得分作为软标签，对下层的预测得分进行正则化，使知识在超类与它的子类之间定向迁移，实现顶层超类所学习的知识有效地往底层超类迁移，减轻了“领域漂移”问题。

4、相比基于数据重采样方法的不平衡分类技术，本发明能够克服数据重采样导致的信息丢失和模型过拟合问题，相比于代价敏感方法，本发明能够更有效地降低头部类对模型的主导作用。

5、本发明设计的模型可以更好地识别尾部中的少数类样本，在测试过程中，始终能够对少数类样本的识别有较高的准确率。

附图说明

图1为本发明输入数据的实例图。

图2为本发明方法的逻辑架构图。

图3为本发明实施例构建的层次超类树关系实例图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

以不平衡十分类为例，使用预处理的CIFAR10数据集对本发明方法进行具体说明。对于原始CIFAR10数据集，总共有10个类别，训练集每个类别有5000张图片，测试集每个类别有1000张图片。训练集中选定第一个类使用其全部样本，选定第二个类无放回抽样4600张，选定第三个类无放回抽样3000张，依次类推，越往后每个类保留的样本数目越少，人为构造出一个简单的不平衡长尾分布数据集实例，实例图片如图1所示。

如图2所示，本实施例所提供的基于层次学习的长尾分布图像识别方法，包括以下步骤：

1)使用一个在CIFAR10上的预训练模型提取实施例中每个对象的视觉特征。

2)依据视觉特征构建类与类之间的层次超类树关系。对于每个类，将该类下的所有视觉特征相加后取平均以作为能够表征该类别的特征中心，总共得到10个特征中心，这10个特征中心就作为层次超类树的最底层结点。接着使用K-means聚类算法对这10个特征中心聚类，该实施例中K取3，这样可以得到4个簇，每个簇包括两个或三个特征中心，对每个簇都按照上述取平均的方法求出簇中心来表征该簇，并将得到的簇中心作为原特征中心的父结点，然后对父结点使用K-means聚类算法聚类，依此类推，直到最顶层只有一个簇中心为止，本实施例最终构造出的层次超类树关系如图3所示。

3)依据层次超类树关系搭建层次超类树神经网络模型，所述层次超类树神经网络模型由一个主干神经网络(在图中简称为主干网络)和多个分支神经网络(在图中简称为分支网络)组成，具体如下：

设计一个能够根据输入的x，输出对应的f_I的神经网络，其中，x表示所述长尾分布图像数据中的图片样本，f_I表示特征图，将该网络作为所述层次超类树神经网络模型的主干神经网络。而在本实施例中具体是使用去除了全连接层的ResNet-32作为主干神经网络。

其中，分支神经网络对其输入的处理，包括以下步骤：

i)若输入中含有s_i-1，则对s_i-1做线性增维：

s'_i-1＝φ_i(s_i-1)

式中，φ_i(.)是第i层的线性转换函数，它将第i层的输入向量s_i-1增维成与第i层的输出向量s_i具有相同维度大小的向量s'_i-1。

ii)将f_I映射成高级特征：

式中，δ_i(.)是第i层的一个卷积神经网络，

R表示实数集，W'，H'和C'分别表示高级特征的宽，高和通道数，/>

表示/>

属于维度大小分别为W'，H'和C'的实数集。在本实施例中，δ_i(.)包括两层卷积层，卷积核大小均为3×3，使用的步长为1。

iii)使用一个注意力机制模块计算

的注意力系数。/>

中的每一个区域的注意力系数计算方式为：

泛指/>

中每一块大小为1×1×C'的不同区域，共有W'×H'块。

iv)利用注意力系数计算每个通道中的所有位置的加权平均。

式中，ei_,wh是对

做归一化处理后的结果，⊙表示按元素乘，f_i∈R^C'，∑_w,h表示对每一块大小为1×1×C'的不同区域的求和运算。

v)将f_I映射成高级特征：

式中，ω_i(.)是第i层的一个卷积神经网络，

在本实施例中，ω_i(.)包括两层卷积层，卷积核大小均为3×3，使用的步长为1。

vi)对

执行全局平均池化：

vii)将f'_i、f_i和它们拼接起来的[f'_i,f_i]分别输进三个分类器Z_i，1,Z_i，2,Z_i，3中，将这三个分类器输出的结果取平均作为分支神经网络的输出。在本实施例中，三个分类器都是仅有一层的全连接层，神经元个数与s_i的维数一致。

采用上述步骤搭建出主干神经网络和具有三层的层次超类树神经网络模型，层次超类树神经网络模型第一层的输入为f_I，输出为二维向量s₁；第二层的输入为f_I和s₁，输出为四维向量s₂；第三层的输入为f_I和s₂，输出为十维向量s₃，s₃中每一个分量表征层次超类树神经网络模型对每个类别的预测置信度。

4)使用基于层次学习的方式训练层次超类树神经网络模型，该基于层次学习的方式具体是使用两种损失函数的加权来指导层次超类树神经网络模型的学习，该两种损失函数包括：

式中，

i表示层次超类树神经网络模型的第i层，T是一个温度常数，c和c'是表示每一层上的某一超类，s_i,c表示层次超类树神经网络模型第i层输出向量中与超类c相对应的分量，s'_i-1,c表示层次超类树神经网络模型的第i-1层输出向量在增维后与超类c相对应的分量，

是在一个样本上的知识蒸馏损失，通过累加所有样本的/>

得到第i层的总的知识蒸馏损失/>

b、交叉熵分类损失：

式中，

I(.)是指示函数，y_i是样本在第i层对应的真实标签，

是在一个样本上的交叉熵分类损失，通过累加所有样本的/>

得到第i层的总的交叉熵分类损失/>

式中，λ为权重系数，在本实施例中取值为1，M为层次超类树神经网络模型的总层数，在本实施例中取值为4，温度参数T取2。

基于层次学习的方式先自顶向下逐层训练，再使用Loss微调整个层次超类树神经网络模型以得到最优的模型参数。

5)用训练好的层次超类树神经网络模型对CIFAR10中未参与训练的样本进行识别。

综上所述，在采用以上方案后，本发明为长尾分布的图像识别提供了新的方法，本发明首次将长尾图像识别问题转变成由易到难的层次超类学习问题，可有效缓解长尾分布中类别分布不平衡以及少数类识别准确率低的问题，并能够减轻“领域漂移”问题。相比于本领域内已有的诸多方法，如双边分支网络模型BBN，知识迁移方法OLTR，小样本学习方法FSLWF等，本发明提出的方法识别准确率最高。此外，本发明在其它不同不平衡程度的数据环境中也有优秀的分类识别性能，因而本发明具有实际应用价值，值得推广。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于层次学习的长尾分布图像识别方法，其特征在于，包括以下步骤：

2)依据对象的视觉特征构建类与类之间的层次超类树关系，层次超类树关系通过自底向上的方式逐层构造：先求取每一类所有视觉特征的特征中心，特征中心通过对选定的多个视觉特征取平均值得到，将这些特征中心作为最底层结点，接着将得到的特征中心按照相似度关系聚类成簇，求出每一个簇的簇中心，簇中心通过对选定的多个特征中心取平均值得到，将簇中心作为该簇内所有特征中心共同的上层父结点，然后将得到的上层父节点继续按照相似度关系聚类成簇，求出每一个簇的簇中心，将新得到的簇中心作为该簇内所有节点共同的父结点，依此类推，直到最顶层只有一个簇中心为止，每一层的不同的簇中心表示该层中不同的超类；

3)依据层次超类树关系搭建层次超类树神经网络模型；

所述层次超类树神经网络模型由一个主干神经网络和多个分支神经网络组成，具体如下：

依据层次超类树关系，自顶向下为树中的每一层搭建一个分支神经网络，第i层分支神经网络的输入为f_I和s_i-1，输出为s_i，其中，i表示层序号，取值范围为[1,M]，M是层次超类树总层数，s是分支神经网络的预测输出，当分支神经网络位于第一层时，其输入只有f_I，否则，分支神经网络的输入同时包含f_I和上一层分支神经网络的输出s_i-1；

4)使用基于层次学习的方式训练层次超类树神经网络模型；

基于层次学习的方式是使用两种损失函数的加权来指导层次超类树神经网络模型的学习，该两种损失函数包括：