CN111738303B - 一种基于层次学习的长尾分布图像识别方法 - Google Patents

一种基于层次学习的长尾分布图像识别方法 Download PDF

Info

Publication number
CN111738303B
CN111738303B CN202010465621.2A CN202010465621A CN111738303B CN 111738303 B CN111738303 B CN 111738303B CN 202010465621 A CN202010465621 A CN 202010465621A CN 111738303 B CN111738303 B CN 111738303B
Authority
CN
China
Prior art keywords
hierarchical
neural network
layer
superclass
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010465621.2A
Other languages
English (en)
Other versions
CN111738303A (zh
Inventor
陈琼
林恩禄
刘庆发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010465621.2A priority Critical patent/CN111738303B/zh
Publication of CN111738303A publication Critical patent/CN111738303A/zh
Application granted granted Critical
Publication of CN111738303B publication Critical patent/CN111738303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于层次学习的长尾分布图像识别方法,包括步骤:1)使用预训练模型提取长尾分布图像数据中每个对象的视觉特征;2)依据视觉特征构建类与类之间的层次超类树关系;3)依据层次超类树关系搭建层次超类树神经网络模型;4)使用基于层次学习的方式训练层次超类树神经网络模型;5)用训练好的层次超类树神经网络模型对长尾分布图像数据进行识别。本发明首次将长尾图像识别问题转变成由易到难的层次超类学习问题,可有效缓解长尾分布中类别分布不平衡以及少数类识别准确率低的问题。此外,本发明在其它不同不平衡程度的数据环境中也有优秀的分类识别性能,因而本发明具有实际应用价值,值得推广。

Description

一种基于层次学习的长尾分布图像识别方法
技术领域
本发明涉及机器学习中的深度学习、小样本学习、不平衡分类的技术领域,尤其是指一种基于层次学习的长尾分布图像识别方法。
背景技术
现实生活中的数据经常出现极度不平衡的现象,少数类别含有大量的样本,大多数类别仅有极少量样本,数据各类别的样本分布遵循长尾分布。长尾分布图像识别问题实际上是不平衡分类问题和小样本学习问题的综合体,其中头部样本数目较为充足的类别的识别可以视为不平衡分类问题,尾部样本数目较少的类别的识别可以视为小样本学习问题。
在解决长尾分布图像识别问题时,许多标准高效的卷积神经网络模型无法准确建模,模型在头部类上表现良好,在尾部类上几乎无法识别目标,整体的识别精确度较差。
目前有关长尾分布图像识别的研究大多使用不平衡学习相关的技术,这类技术主要分为数据层面和算法层面。数据层面的技术主要包括下采样多数类样本、上采样少数类样本或结合前面两者的混合采样方法。面对长尾分布数据集时,下采样将会丢弃绝大部分样本,从而损失数据集中许多有价值的信息,上采样则会导致过拟合问题,同时会带来极大的算力消耗。算法层面的技术主要通过代价敏感方法来重新调整各个类别的权重,这类方法在一定层度上缓解了长尾分布图像识别率低的问题,但并没有综合考虑到大量尾部类别仅有极少数样本的情况,这会导致尾部类别的识别准确率还是不够高。此外,可行的解决方法有由头部类别丰富数据中学习的知识往尾部类别进行迁移、设计适合长尾分布图像识别的损失函数以及构建更加合理的长尾分布图像识别模型。然而,目前长尾分布图像识别的研究仍处于初步阶段,当下所有的长尾分布图像识别方法并没有很好地提高尾部类别的识别准确率,如何建模长尾分布的图像数据集仍是一大挑战。
发明内容
本发明的目的在于克服现有技术的不足与缺点,提出了一种行之有效、科学合理的基于层次学习的长尾分布图像识别方法,将不平衡图像识别(分类)问题转变成具有多层超类的层次分类问题,通过构建层次超类树减小头部类对模型的主导作用,使得模型在不同不平衡程度的数据中都能更加准确地分类,进而能够更加有效地解决图像长尾分布识别准确率低的问题。
为实现上述目的,本发明所提供的技术方案为:一种基于层次学习的长尾分布图像识别方法,包括以下步骤:
1)使用预训练模型提取长尾分布图像数据中每个对象的视觉特征;
2)依据视觉特征构建类与类之间的层次超类树关系;
3)依据层次超类树关系搭建层次超类树神经网络模型;
4)使用基于层次学习的方式训练层次超类树神经网络模型;
5)用训练好的层次超类树神经网络模型对长尾分布图像数据进行识别。
在步骤1)中,所述预训练模型是指能够提取出长尾分布图像数据中每一类对象有差别的视觉特征的模型,所述视觉特征是指长尾分布图像数据中对象的向量表示。
在步骤2)中,依据对象的视觉特征构建类与类之间的层次超类树关系,层次超类树关系通过自底向上的方式逐层构造:先求取每一类所有视觉特征的特征中心,特征中心通过对选定的多个视觉特征取平均值得到,将这些特征中心作为最底层结点,接着将得到的特征中心按照相似度关系聚类成簇,求出每一个簇的簇中心,簇中心通过对选定的多个特征中心取平均值得到,将簇中心作为该簇内所有特征中心共同的上层父结点,然后将得到的上层父节点继续按照相似度关系聚类成簇,求出每一个簇的簇中心,将新得到的簇中心作为该簇内所有节点共同的父结点,依此类推,直到最顶层只有一个簇中心为止,每一层的不同的簇中心表示该层中不同的超类。
在步骤3)中,所述层次超类树神经网络模型由一个主干神经网络和多个分支神经网络组成,具体如下:
设计一个能够根据输入的x,输出对应的fI的神经网络,其中,x表示长尾分布图像数据中的图片样本,fI表示特征图,将该网络作为层次超类树神经网络模型的主干神经网络;
依据层次超类树关系,自顶向下为树中的每一层搭建一个分支神经网络,第i层分支神经网络的输入为fI和si-1,输出为si,其中,i表示层序号,取值范围为[1,M],M是层次超类树总层数,s是分支神经网络的预测输出,当分支神经网络位于第一层时,其输入只有fI,否则,分支神经网络的输入同时包含fI和上一层分支神经网络的输出si-1
进一步,所述分支神经网络对其输入的处理,包括以下步骤:
i)若输入中含有si-1,则对si-1做线性增维:
s'i-1=φi(si-1)
式中,φi(.)是第i层的线性转换函数,它将第i层的输入向量si-1增维成与第i层的输出向量si具有相同维度大小的向量s'i-1
ii)将fI映射成高级特征:
Figure BDA0002512560420000031
式中,δi(.)是第i层的一个卷积神经网络,
Figure BDA0002512560420000041
R表示实数集,W'、H'和C'分别表示高级特征的宽、高和通道数,/>
Figure BDA0002512560420000042
表示/>
Figure BDA0002512560420000043
属于维度大小分别为W'、H'和C'的实数集;
iii)使用一个注意力机制模块计算
Figure BDA0002512560420000044
的注意力系数,/>
Figure BDA0002512560420000045
中的每一个区域的注意力系数计算方式为:
Figure BDA0002512560420000046
式中,ai(.)是第i层的一个具有注意力机制功能的神经网络模块,[.,.]表示拼接操作,
Figure BDA0002512560420000047
是指/>
Figure BDA0002512560420000048
中每一块大小为1×1×C'的不同区域,共有W'×H'块;
iv)利用注意力系数计算每个通道中的所有位置的加权平均:
Figure BDA0002512560420000049
式中,ei,wh是对
Figure BDA00025125604200000410
做归一化处理后的结果,⊙表示按元素乘,fi∈RC',∑w,h表示对每一块大小为1×1×C'的不同区域的求和运算;
v)将fI映射成高级特征:
Figure BDA00025125604200000411
式中,ωi(.)是第i层的一个卷积神经网络,
Figure BDA00025125604200000412
vi)对
Figure BDA00025125604200000413
执行全局平均池化:
Figure BDA00025125604200000414
vii)将f'i、fi和它们拼接起来的[f'i,fi]分别输进三个分类器Zi,1,Zi,2,Zi,3中,将这三个分类器输出的结果取平均作为分支神经网络的输出。
在步骤4)中,基于层次学习的方式是使用两种损失函数的加权来指导层次超类树神经网络模型的学习,该两种损失函数包括:
a、使用层次超类树神经网络模型的第i-1层输出来指导第i层参数学习的知识蒸馏损失:
Figure BDA0002512560420000051
式中,
Figure BDA0002512560420000052
Figure BDA0002512560420000053
i表示层次超类树神经网络模型的第i层,T是一个温度常数,c和c'表示每一层上的某一超类,si,c表示层次超类树神经网络模型第i层输出向量中与超类c相对应的分量,s'i-1,c表示层次超类树神经网络模型的第i-1层输出向量在增维后与超类c相对应的分量,
Figure BDA0002512560420000054
是在一个样本上的知识蒸馏损失,通过累加所有样本的/>
Figure BDA0002512560420000055
得到第i层的总的知识蒸馏损失/>
Figure BDA0002512560420000056
b、交叉熵分类损失:
Figure BDA0002512560420000057
式中,
Figure BDA0002512560420000058
I(.)是指示函数,yi是样本在第i层对应的真实标签,
Figure BDA0002512560420000061
是在一个样本上的交叉熵分类损失,通过累加所有样本的/>
Figure BDA0002512560420000062
得到第i层的总的交叉熵分类损失/>
Figure BDA0002512560420000063
层次超类树神经网络模型是通过使用上述两种损失函数的加权来指导学习:
Figure BDA0002512560420000064
式中,λ为权重系数,M为层次超类树神经网络模型的总层数,基于层次学习的方式先自顶向下逐层训练,再使用Loss微调整个层次超类树神经网络模型以得到最优的模型参数,即完成了层次超类树神经网络模型的训练。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次将长尾识别问题转变成由易到难的层次超类学习问题,最底层的超类学习任务是原始的长尾识别任务,由底向上的各层超类的不平衡程度的逐渐降低,相应的学习任务逐渐简单。通过层次超类树获得层次超类数据集,自顶向下使用端到端的学习模型为层次超类数据集建模,由易到难渐进学习。
2、本发明提出了一种注意力机制模块,将层次超类树上一层超类的预测结果作为先验知识来指导下层超类的特征学习。
3、本发明使用知识蒸馏技术,将上一层超类的预测得分作为软标签,对下层的预测得分进行正则化,使知识在超类与它的子类之间定向迁移,实现顶层超类所学习的知识有效地往底层超类迁移,减轻了“领域漂移”问题。
4、相比基于数据重采样方法的不平衡分类技术,本发明能够克服数据重采样导致的信息丢失和模型过拟合问题,相比于代价敏感方法,本发明能够更有效地降低头部类对模型的主导作用。
5、本发明设计的模型可以更好地识别尾部中的少数类样本,在测试过程中,始终能够对少数类样本的识别有较高的准确率。
附图说明
图1为本发明输入数据的实例图。
图2为本发明方法的逻辑架构图。
图3为本发明实施例构建的层次超类树关系实例图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
以不平衡十分类为例,使用预处理的CIFAR10数据集对本发明方法进行具体说明。对于原始CIFAR10数据集,总共有10个类别,训练集每个类别有5000张图片,测试集每个类别有1000张图片。训练集中选定第一个类使用其全部样本,选定第二个类无放回抽样4600张,选定第三个类无放回抽样3000张,依次类推,越往后每个类保留的样本数目越少,人为构造出一个简单的不平衡长尾分布数据集实例,实例图片如图1所示。
如图2所示,本实施例所提供的基于层次学习的长尾分布图像识别方法,包括以下步骤:
1)使用一个在CIFAR10上的预训练模型提取实施例中每个对象的视觉特征。
2)依据视觉特征构建类与类之间的层次超类树关系。对于每个类,将该类下的所有视觉特征相加后取平均以作为能够表征该类别的特征中心,总共得到10个特征中心,这10个特征中心就作为层次超类树的最底层结点。接着使用K-means聚类算法对这10个特征中心聚类,该实施例中K取3,这样可以得到4个簇,每个簇包括两个或三个特征中心,对每个簇都按照上述取平均的方法求出簇中心来表征该簇,并将得到的簇中心作为原特征中心的父结点,然后对父结点使用K-means聚类算法聚类,依此类推,直到最顶层只有一个簇中心为止,本实施例最终构造出的层次超类树关系如图3所示。
3)依据层次超类树关系搭建层次超类树神经网络模型,所述层次超类树神经网络模型由一个主干神经网络(在图中简称为主干网络)和多个分支神经网络(在图中简称为分支网络)组成,具体如下:
设计一个能够根据输入的x,输出对应的fI的神经网络,其中,x表示所述长尾分布图像数据中的图片样本,fI表示特征图,将该网络作为所述层次超类树神经网络模型的主干神经网络。而在本实施例中具体是使用去除了全连接层的ResNet-32作为主干神经网络。
依据层次超类树关系,自顶向下为树中的每一层搭建一个分支神经网络,第i层分支神经网络的输入为fI和si-1,输出为si,其中,i表示层序号,取值范围为[1,M],M是层次超类树总层数,s是分支神经网络的预测输出,当分支神经网络位于第一层时,其输入只有fI,否则,分支神经网络的输入同时包含fI和上一层分支神经网络的输出si-1
其中,分支神经网络对其输入的处理,包括以下步骤:
i)若输入中含有si-1,则对si-1做线性增维:
s'i-1=φi(si-1)
式中,φi(.)是第i层的线性转换函数,它将第i层的输入向量si-1增维成与第i层的输出向量si具有相同维度大小的向量s'i-1
ii)将fI映射成高级特征:
Figure BDA0002512560420000081
式中,δi(.)是第i层的一个卷积神经网络,
Figure BDA0002512560420000091
R表示实数集,W',H'和C'分别表示高级特征的宽,高和通道数,/>
Figure BDA0002512560420000092
表示/>
Figure BDA0002512560420000093
属于维度大小分别为W',H'和C'的实数集。在本实施例中,δi(.)包括两层卷积层,卷积核大小均为3×3,使用的步长为1。
iii)使用一个注意力机制模块计算
Figure BDA0002512560420000094
的注意力系数。/>
Figure BDA0002512560420000095
中的每一个区域的注意力系数计算方式为:
Figure BDA0002512560420000096
式中,ai(.)是第i层的一个具有注意力机制功能的神经网络模块,[.,.]表示拼接操作,
Figure BDA0002512560420000097
泛指/>
Figure BDA0002512560420000098
中每一块大小为1×1×C'的不同区域,共有W'×H'块。
iv)利用注意力系数计算每个通道中的所有位置的加权平均。
Figure BDA0002512560420000099
式中,ei,wh是对
Figure BDA00025125604200000910
做归一化处理后的结果,⊙表示按元素乘,fi∈RC',∑w,h表示对每一块大小为1×1×C'的不同区域的求和运算。
v)将fI映射成高级特征:
Figure BDA00025125604200000911
式中,ωi(.)是第i层的一个卷积神经网络,
Figure BDA00025125604200000912
在本实施例中,ωi(.)包括两层卷积层,卷积核大小均为3×3,使用的步长为1。
vi)对
Figure BDA00025125604200000913
执行全局平均池化:
Figure BDA00025125604200000914
vii)将f'i、fi和它们拼接起来的[f'i,fi]分别输进三个分类器Zi,1,Zi,2,Zi,3中,将这三个分类器输出的结果取平均作为分支神经网络的输出。在本实施例中,三个分类器都是仅有一层的全连接层,神经元个数与si的维数一致。
采用上述步骤搭建出主干神经网络和具有三层的层次超类树神经网络模型,层次超类树神经网络模型第一层的输入为fI,输出为二维向量s1;第二层的输入为fI和s1,输出为四维向量s2;第三层的输入为fI和s2,输出为十维向量s3,s3中每一个分量表征层次超类树神经网络模型对每个类别的预测置信度。
4)使用基于层次学习的方式训练层次超类树神经网络模型,该基于层次学习的方式具体是使用两种损失函数的加权来指导层次超类树神经网络模型的学习,该两种损失函数包括:
a、使用层次超类树神经网络模型的第i-1层输出来指导第i层参数学习的知识蒸馏损失:
Figure BDA0002512560420000101
式中,
Figure BDA0002512560420000102
Figure BDA0002512560420000103
i表示层次超类树神经网络模型的第i层,T是一个温度常数,c和c'是表示每一层上的某一超类,si,c表示层次超类树神经网络模型第i层输出向量中与超类c相对应的分量,s'i-1,c表示层次超类树神经网络模型的第i-1层输出向量在增维后与超类c相对应的分量,
Figure BDA0002512560420000111
是在一个样本上的知识蒸馏损失,通过累加所有样本的/>
Figure BDA0002512560420000112
得到第i层的总的知识蒸馏损失/>
Figure BDA0002512560420000113
b、交叉熵分类损失:
Figure BDA0002512560420000114
式中,
Figure BDA0002512560420000115
I(.)是指示函数,yi是样本在第i层对应的真实标签,
Figure BDA0002512560420000116
是在一个样本上的交叉熵分类损失,通过累加所有样本的/>
Figure BDA0002512560420000117
得到第i层的总的交叉熵分类损失/>
Figure BDA0002512560420000118
层次超类树神经网络模型是通过使用上述两种损失函数的加权来指导学习:
Figure BDA0002512560420000119
式中,λ为权重系数,在本实施例中取值为1,M为层次超类树神经网络模型的总层数,在本实施例中取值为4,温度参数T取2。
基于层次学习的方式先自顶向下逐层训练,再使用Loss微调整个层次超类树神经网络模型以得到最优的模型参数。
5)用训练好的层次超类树神经网络模型对CIFAR10中未参与训练的样本进行识别。
综上所述,在采用以上方案后,本发明为长尾分布的图像识别提供了新的方法,本发明首次将长尾图像识别问题转变成由易到难的层次超类学习问题,可有效缓解长尾分布中类别分布不平衡以及少数类识别准确率低的问题,并能够减轻“领域漂移”问题。相比于本领域内已有的诸多方法,如双边分支网络模型BBN,知识迁移方法OLTR,小样本学习方法FSLWF等,本发明提出的方法识别准确率最高。此外,本发明在其它不同不平衡程度的数据环境中也有优秀的分类识别性能,因而本发明具有实际应用价值,值得推广。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (3)

1.一种基于层次学习的长尾分布图像识别方法,其特征在于,包括以下步骤:
1)使用预训练模型提取长尾分布图像数据中每个对象的视觉特征;
2)依据对象的视觉特征构建类与类之间的层次超类树关系,层次超类树关系通过自底向上的方式逐层构造:先求取每一类所有视觉特征的特征中心,特征中心通过对选定的多个视觉特征取平均值得到,将这些特征中心作为最底层结点,接着将得到的特征中心按照相似度关系聚类成簇,求出每一个簇的簇中心,簇中心通过对选定的多个特征中心取平均值得到,将簇中心作为该簇内所有特征中心共同的上层父结点,然后将得到的上层父节点继续按照相似度关系聚类成簇,求出每一个簇的簇中心,将新得到的簇中心作为该簇内所有节点共同的父结点,依此类推,直到最顶层只有一个簇中心为止,每一层的不同的簇中心表示该层中不同的超类;
3)依据层次超类树关系搭建层次超类树神经网络模型;
所述层次超类树神经网络模型由一个主干神经网络和多个分支神经网络组成,具体如下:
设计一个能够根据输入的x,输出对应的fI的神经网络,其中,x表示长尾分布图像数据中的图片样本,fI表示特征图,将该网络作为层次超类树神经网络模型的主干神经网络;
依据层次超类树关系,自顶向下为树中的每一层搭建一个分支神经网络,第i层分支神经网络的输入为fI和si-1,输出为si,其中,i表示层序号,取值范围为[1,M],M是层次超类树总层数,s是分支神经网络的预测输出,当分支神经网络位于第一层时,其输入只有fI,否则,分支神经网络的输入同时包含fI和上一层分支神经网络的输出si-1
4)使用基于层次学习的方式训练层次超类树神经网络模型;
基于层次学习的方式是使用两种损失函数的加权来指导层次超类树神经网络模型的学习,该两种损失函数包括:
a、使用层次超类树神经网络模型的第i-1层输出来指导第i层参数学习的知识蒸馏损失:
Figure FDA0004078593340000021
式中,
Figure FDA0004078593340000022
Figure FDA0004078593340000023
i表示层次超类树神经网络模型的第i层,T是一个温度常数,c和c'表示每一层上的某一超类,si,c表示层次超类树神经网络模型第i层输出向量中与超类c相对应的分量,s'i-1,c表示层次超类树神经网络模型的第i-1层输出向量在增维后与超类c相对应的分量,
Figure FDA0004078593340000024
是在一个样本上的知识蒸馏损失,通过累加所有样本的/>
Figure FDA0004078593340000025
得到第i层的总的知识蒸馏损失/>
Figure FDA0004078593340000026
b、交叉熵分类损失:
Figure FDA0004078593340000027
式中,
Figure FDA0004078593340000028
I(.)是指示函数,yi是样本在第i层对应的真实标签,
Figure FDA0004078593340000031
是在一个样本上的交叉熵分类损失,通过累加所有样本的/>
Figure FDA0004078593340000032
得到第i层的总的交叉熵分类损失/>
Figure FDA0004078593340000033
层次超类树神经网络模型是通过使用上述两种损失函数的加权来指导学习:
Figure FDA0004078593340000034
式中,λ为权重系数,M为层次超类树神经网络模型的总层数,基于层次学习的方式先自顶向下逐层训练,再使用Loss微调整个层次超类树神经网络模型以得到最优的模型参数,即完成了层次超类树神经网络模型的训练;
5)用训练好的层次超类树神经网络模型对长尾分布图像数据进行识别。
2.根据权利要求1所述的一种基于层次学习的长尾分布图像识别方法,其特征在于:在步骤1)中,所述预训练模型是指能够提取出长尾分布图像数据中每一类对象有差别的视觉特征的模型,所述视觉特征是指长尾分布图像数据中对象的向量表示。
3.根据权利要求1所述的一种基于层次学习的长尾分布图像识别方法,其特征在于:所述分支神经网络对其输入的处理,包括以下步骤:
i)若输入中含有si-1,则对si-1做线性增维:
s'i-1=φi(si-1)
式中,φi(.)是第i层的线性转换函数,它将第i层的输入向量si-1增维成与第i层的输出向量si具有相同维度大小的向量s'i-1
ii)将fI映射成高级特征:
Figure FDA0004078593340000035
式中,δi(.)是第i层的一个卷积神经网络,
Figure FDA0004078593340000041
R表示实数集,W'、H'和C'分别表示高级特征的宽、高和通道数,/>
Figure FDA0004078593340000042
表示/>
Figure FDA0004078593340000043
属于维度大小分别为W'、H'和C'的实数集;
iii)使用一个注意力机制模块计算
Figure FDA0004078593340000044
的注意力系数,/>
Figure FDA0004078593340000045
中的每一个区域的注意力系数计算方式为:
Figure FDA0004078593340000046
式中,ai(.)是第i层的一个具有注意力机制功能的神经网络模块,[.,.]表示拼接操作,
Figure FDA0004078593340000047
是指/>
Figure FDA0004078593340000048
中每一块大小为1×1×C'的不同区域,共有W'×H'块;
iv)利用注意力系数计算每个通道中的所有位置的加权平均:
Figure FDA0004078593340000049
式中,ei,wh是对
Figure FDA00040785933400000410
做归一化处理后的结果,⊙表示按元素乘,fi∈RC′,∑w,h表示对每一块大小为1×1×C'的不同区域的求和运算;
v)将fI映射成高级特征:
Figure FDA00040785933400000411
式中,ωi(.)是第i层的一个卷积神经网络,
Figure FDA00040785933400000412
vi)对
Figure FDA00040785933400000413
执行全局平均池化:
Figure FDA00040785933400000414
vii)将f'i、fi和它们拼接起来的[f'i,fi]分别输进三个分类器Zi,1,Zi,2,Zi,3中,将这三个分类器输出的结果取平均作为分支神经网络的输出。
CN202010465621.2A 2020-05-28 2020-05-28 一种基于层次学习的长尾分布图像识别方法 Active CN111738303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010465621.2A CN111738303B (zh) 2020-05-28 2020-05-28 一种基于层次学习的长尾分布图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010465621.2A CN111738303B (zh) 2020-05-28 2020-05-28 一种基于层次学习的长尾分布图像识别方法

Publications (2)

Publication Number Publication Date
CN111738303A CN111738303A (zh) 2020-10-02
CN111738303B true CN111738303B (zh) 2023-05-23

Family

ID=72646474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010465621.2A Active CN111738303B (zh) 2020-05-28 2020-05-28 一种基于层次学习的长尾分布图像识别方法

Country Status (1)

Country Link
CN (1) CN111738303B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183491A (zh) * 2020-11-04 2021-01-05 北京百度网讯科技有限公司 表情识别模型及训练方法、识别方法、装置和计算设备
CN112348110B (zh) * 2020-11-18 2022-10-04 北京市商汤科技开发有限公司 模型训练及图像处理方法、装置、电子设备和存储介质
CN112329885B (zh) * 2020-11-25 2021-07-09 江苏云从曦和人工智能有限公司 模型训练方法、装置以及计算机可读存储介质
CN113222034B (zh) * 2021-05-20 2022-01-14 浙江大学 基于知识蒸馏的细粒度多类别不平衡故障分类方法
CN113255832B (zh) * 2021-06-23 2021-10-01 成都考拉悠然科技有限公司 双分支多中心的长尾分布识别的方法
CN113918743B (zh) * 2021-12-15 2022-04-15 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种面向长尾分布场景下图片分类的模型训练方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2743099A1 (de) * 1977-09-24 1979-04-05 List Hans Schaltungsanordnung mit transistoren
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107862342A (zh) * 2017-11-27 2018-03-30 清华大学 提升树模型的可视分析系统及方法
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法
CN109241377A (zh) * 2018-08-30 2019-01-18 山西大学 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN109492750A (zh) * 2018-10-30 2019-03-19 中国运载火箭技术研究院 一种基于卷积神经网络和因素空间的零样本图像分类方法及系统
CN109508650A (zh) * 2018-10-23 2019-03-22 浙江农林大学 一种基于迁移学习的树种识别方法
CN111178399A (zh) * 2019-12-13 2020-05-19 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165973B2 (en) * 2007-06-18 2012-04-24 International Business Machines Corporation Method of identifying robust clustering
AU2010330720B2 (en) * 2009-12-18 2014-08-28 Graphika, Inc. System and method for attentive clustering and related analytics and visualizations
US20140270347A1 (en) * 2013-03-13 2014-09-18 Sharp Laboratories Of America, Inc. Hierarchical image classification system
US10579661B2 (en) * 2013-05-20 2020-03-03 Southern Methodist University System and method for machine learning and classifying data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2743099A1 (de) * 1977-09-24 1979-04-05 List Hans Schaltungsanordnung mit transistoren
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107862342A (zh) * 2017-11-27 2018-03-30 清华大学 提升树模型的可视分析系统及方法
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法
CN109241377A (zh) * 2018-08-30 2019-01-18 山西大学 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN109508650A (zh) * 2018-10-23 2019-03-22 浙江农林大学 一种基于迁移学习的树种识别方法
CN109492750A (zh) * 2018-10-30 2019-03-19 中国运载火箭技术研究院 一种基于卷积神经网络和因素空间的零样本图像分类方法及系统
CN111178399A (zh) * 2019-12-13 2020-05-19 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Enli Lin 等.Deep reinforcement learning for imbalanced classification.《Applied Intelligence》.2020,第2488-2502页. *
陈琼 等.不平衡数据的迁移学习分类算法.《华南理工大学学报》.2018,第46卷(第1期),第122-130页. *

Also Published As

Publication number Publication date
CN111738303A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111738303B (zh) 一种基于层次学习的长尾分布图像识别方法
CN107609601B (zh) 一种基于多层卷积神经网络的舰船目标识别方法
CN109657584B (zh) 辅助驾驶的改进LeNet-5融合网络交通标志识别方法
CN113221639B (zh) 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN109063565B (zh) 一种低分辨率人脸识别方法及装置
Zhang A survey of unsupervised domain adaptation for visual recognition
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
US11816149B2 (en) Electronic device and control method thereof
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN109344856B (zh) 一种基于多层判别式特征学习的脱机签名鉴别方法
CN114821249B (zh) 一种基于分组聚合注意力和局部关系的车辆重识别方法
Arkin et al. A survey of object detection based on CNN and transformer
CN112580480B (zh) 一种高光谱遥感影像分类方法及装置
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN110414587A (zh) 基于渐进学习的深度卷积神经网络训练方法与系统
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
CN109034953B (zh) 一种电影推荐方法
CN110598018A (zh) 一种基于协同注意力的草图图像检索方法
CN115147632A (zh) 基于密度峰值聚类算法的图像类别自动标注方法及装置
CN116310466A (zh) 基于局部无关区域筛选图神经网络的小样本图像分类方法
CN111723600B (zh) 一种基于多任务学习的行人重识别特征描述子

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant