CN116071591A - 基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质 - Google Patents

基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116071591A
CN116071591A CN202310123092.1A CN202310123092A CN116071591A CN 116071591 A CN116071591 A CN 116071591A CN 202310123092 A CN202310123092 A CN 202310123092A CN 116071591 A CN116071591 A CN 116071591A
Authority
CN
China
Prior art keywords
category
network
image
class
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310123092.1A
Other languages
English (en)
Inventor
黄钶洋
米建勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310123092.1A priority Critical patent/CN116071591A/zh
Publication of CN116071591A publication Critical patent/CN116071591A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于深度学习技术领域,具体涉及一种基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质,所述方法包括:获取样本图像及其类别标签;调用神经网络的第一分类模块,样本图像的聚类结果进行识别,得到样本图像各自的第一预测类别;调用神经网络的第二分类模块,根据第一预测类别与子网络之间的对应关系,基于相应子网络对每张样本图像进行识别,得到样本图像各自的第二预测类别;根据样本图像的第一预测类别、第二预测类别以及类别标签,对神经网络进行更新直到满足预设条件。本发明通过从数据特性出发,利用图像类别关系进一步提升网络性能;针对相似样本图像的部分相似特征进行着重学习,提高了识别准确度及识别速率。

Description

基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质
技术领域
本发明属于深度学习技术领域,具体涉及一种基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质。
背景技术
深度学习是机器学习研究过程中产生的一个新的技术领域,具体地,深度学习是机器学习中一种基于对数据进行深层次表征学习的方法,深度学习通过建立模拟人脑进行分析学习的神经网络来解释数据,不同的神经网络可适用于不同的场景(例如:分类)或在用于同一场景时提供不同的效果。
目前,为了优化神经网络针对图像分类的性能,相关技术中,针对神经网络的网络结构进行改进,以提高改进后的神经网络的分类准确度,但受限于训练数据中的缺陷,改进后的神经网络仍然存在性能不佳的问题。
发明内容
为解决上述技术问题,本发明提出一种基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质。
第一方面,本发明提供一种基于类别层次的动态高效网络训练方法,包括以下步骤:
S1:获取n张样本图像以及所述样本图像的类别标签;其中,n为大于0的整数;
所述样本图像的类别标签,包括:第一标签类别、第二标签类别,所述第一标签类别与所述第二标签类别具有包含关系,单个第一标签类别包含一个或多个第二标签类别;
S2:对获取的n张样本图像进行图像强化处理,根据样本图像之间的相关性对图像强化后的n张样本图像进行聚类;
S3:调用神经网络的第一分类模块,对所述n张样本图像的聚类结果进行粗识别,得到所述n张样本图像各自的第一预测类别;
S4:针对所述n张样本图像,调用所述神经网络的第二分类模块,通过对第二分类模块的选路掩码,对所述每张样本图像进行细识别,得到所述n张样本图像各自的第二预测类别;
S5:根据n张样本图像各自的第一预测类别与类别标签,计算神经网络的第一损失值,根据n张样本图像各自的第二预测类别与类别标签,计算神经网络的第二损失值,基于第一损失值和第二损失值构建神经网络的损失函数,当损失函数最小时更新神经网络的参数;
S6:重复上述步骤直到满足所述预设条件,将最近一次更新的神经网络作为目标神经网络。
第二方面,本发明提出一种基于类别层次的动态高效网络训练装置,所述装置包括:数据获取模块、聚类模块、第一分类模块、第二分类模块、更新模块;
所述数据获取模块用于获取n张样本图像以及所述样本图像的类别标签;
所述聚类模块用于对获取的样本图像进行图像强化和聚类处理;
所述第一分类模块用于对聚类后的结果进行粗类别识别,得到样本图像的第一预测类别;
所述第二分类模块用于对样本图像进行细类别识别,得到样本图像的第二预测类别;
所述更新模块用于根据第一预测类别和第二预测类别进行目标网络的参数更新。
第三方面,本发明提出一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述网络训练方法的步骤。
第四方面,本发明提出一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述网络训练方法的步骤。
本发明的有益效果:本发明通过从数据特性出发,利用图像类别关系进一步提升网络性能;在训练过程中能够针对相似样本图像的部分相似特征进行着重学习,提高了识别准确度及识别速率;打破了传统的静态推理和固定的前馈计算模式,通过选路掩码的方式选择子网络,使得神经网络的使用更加合理,提高了计算效率。
附图说明
图1为本发明的基于类别层次的动态高效网络训练方法示意图;
图2为本发明的样本图像及其类别标签的示意图;
图3为本发明的通道选择示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着深度学习技术的发展,神经网络广泛应用于图像分类场景。发明人在研究中发现,面对海量图像数据,图像数据之间的相似性会影响神经网络的识别准确率。鉴于此,本申请基于训练数据的相似性,提出一种基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质,以提升神经网络的性能。下面结合具体实施方式对本申请提供的基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质等技术方案做出详细说明。
如图1所示,一种基于类别层次的动态高效网络训练方法,该神经网络训练方法可以应用于终端设备或者服务器,也可以由终端设备和服务器共同执行,包括以下步骤:
S1:获取n张样本图像以及所述样本图像的类别标签;其中,n为大于0的整数;
S2:对获取的n张样本图像进行图像强化处理,根据样本图像之间的相关性对图像强化后的n张样本图像进行聚类;
S3:调用神经网络的第一分类模块,对所述n张样本图像的聚类结果进行粗识别,得到所述n张样本图像各自的第一预测类别;
S4:针对所述n张样本图像,调用所述神经网络的第二分类模块,通过对第二分类模块的选路掩码,对所述每张样本图像进行细识别,得到所述n张样本图像各自的第二预测类别;
S5:根据n张样本图像各自的第一预测类别与类别标签,计算神经网络的第一损失值,根据n张样本图像各自的第二预测类别与类别标签,计算神经网络的第二损失值,基于第一损失值和第二损失值构建神经网络的损失函数,当损失函数最小时更新神经网络的参数;
S6:重复上述步骤直到满足所述预设条件,将最近一次更新的神经网络作为目标神经网络。
n(n为大于0的整数)张样本图像及其类别标签作为神经网络的训练数据,样本标签包括第一标签类别以及第二标签类别,第一标签类别与第二标签类别具有包含关系,单个第一标签类别包含一个或多个第二标签类别。
如图2所示,为本申请实施例的样本图像及其类别标签的示意图;其中,列举3张样本图像:样本图像1和样本图像2的第一类别标签1相同为车辆,二者的第二类别标签分别为轿车和货车,样本图像3的第一类别标签2为人类,第二类别标签3为男人。
对获取的n张样本图像进行图像强化处理,包括:基于样本图像中对象区域与非对象区域的差异,提高关于对象区域的关注度,降低关于非对象区域的关注度,以使得样本图像的特征更加有效和明确,这样可以提升聚类处理的准确度,进而达到提升第一分类模块的分类准确度。
根据样本图像之间的相关性对图像强化后的n张样本图像进行聚类,包括:通过对图像特征进行聚类构造一个两层的由粗到细的类别层次结构,得到v个细类别c={c1,c2,...,cv}和u个粗类别C={C1,C2,...,Cu},将细类别和粗类别视觉特征相近的聚类划分到同一个聚类簇中,一个聚类簇即为一个粗类,得到m个粗类。
第一分类模块的分类原理是,基于聚类处理得到m个粗类,解决n张样本图像中存在相似图像的问题,这样有利于提升第一分类模块针对每个粗类进行识别分类的准确度和效率,再将每个粗类的粗类别作为相应样本图像的第一预测类别。
调用神经网络的第一分类模块,对所述n张样本图像的聚类结果进行粗识别,包括:
基于所述聚类结果,分别对所述m个粗类中各张样本图像进行粗识别,得到所述m个粗类各自对应的粗类别;
针对所述m个粗类,将每个粗类对应的粗类别作为所述每个粗类中的样本图像的第一预测类别,得到所述n张样本图像各自的第一预测类别。
对第二分类模块进行选路掩码,通过选路后的第二分类模块对所述每张样本图像进行细识别,包括:
根据第一预测类别与其子网络参数的对应关系进行选路掩码,确定单张样本图像的子网络参数,采用确定出的单张样本图像的子网络参数固定第二分类模块中的共享网络的网络参数,通过固定网络参数后的共享网络对单张样本图像中的对象进行细识别,得到单张样本图像的第二预测类别。
在共享网络中,一方面,由于不同卷积核对不同第一预测类别具有不同的重要性,即不同第一预测类别选择激活或舍弃的神经核不同,另一方面,由于不同迭代通道对第一预测类别也具有不同的重要性,即不同第一预测类别选择的通道也存在差异,因此上述方式实现对于大类(第一预测类别)特征的复用,提升神经网络的性能。
例如,第一预测类别车辆虽然可包括火车、客车、货车、轿车等多个第二预测类别,但所有车辆都具有一定共性特征,可理解的,若单个子网络基于这些共性特征的样本图像作迭代训练,则单个子网络在识别车辆相关图像上可以具备更加敏感、准确、快速的特点,即单个子网络在识别车辆相关图像上的性能够得到显著提升。
共享网络参数为所有确定出第一预测类别的网络参数,这种复用思想有助于减少计算量,即使所需子网络数量增加,也不会因额外产生的子网络数量而产生计算量增加的问题。
共享网络作为一个包括许多节点及其连接关系的有向图,子网络或者子网络参数的生成可看做是通过节点选择在有向图中确定一条目标路径。可理解的,子网络的大小存在差异,因此选择的路径粒度也存在差异。对此,本申请实施例还提出三种不同粒度的选路方式用以进一步训练神经网络,包括:权重选择、通道选择、残差块选择;
所述权重选择:权重选择就是在单个权值粒度上的剪枝,即从众多的权重参数中选择一个最优组合,使得被剪枝的目标模型(比如:子网络)的代价函数损失最小;这里介绍的是基于绝对值的剪枝方法,该方法中,权值的重要性是根据权值的绝对值大小来衡量的;
对第一预测类别对应的子网络的每一层的权重进行掩码更新,包括:
Figure BDA0004080673600000061
其中,mi,j,h,w表示对第一预测类别对应的子网络的每一层的权重掩码,Ws i,j,h,w表示第一预测类别对应的子网络的权重,λ表示掩码阈值,当权值的绝对值大于或等于阈值λ时,阈值设为1,表示保留该权值,当权值的绝对值小于阈值λ时,阈值设为0,表示剪去该权值;
所述通道选择:通道指的是卷积层中的输出通道,通道选择就是选择输出通道,也就是选择卷积核,剪掉不重要的卷积核。本申请实施例使用的通道选择方法是基于L2范数的通道选择方法。在同一卷积层中与其他卷积核相比较,有着较小权值的卷积核有弱激活的特征图的倾向,而L2范数是一个不错的无数据通道选择的准则;
S41:计算每个卷积核
Figure BDA0004080673600000071
的L2范数:
Figure BDA0004080673600000072
S42:按照sj的大小对卷积核进行排序;
S43:根据保留卷积核的个数在sj中选取一个值作为阈值,将sj小于阈值的卷积核所对应的掩码置0,表示删去该卷积核,sj大于或等于阈值的卷积核所对应的掩码置1,表示保留该卷积核;
这种通道选择方法对硬件友好,可以完完全全地删除不需要的权值,而不是用0来占位。如图3所示,前层输出的特征图作为后层的输入,图中实线卷积层中的深色表示当前层删去的卷积核,虚线特征图层中深色表示因卷积核的剪去而消失的特征图,浅色表示了上层卷积核剪枝在当前层的影响。观察后不难发现,通道选择后每层卷积核要么全部被剪掉,要么每个卷积核相同的输入通道被剪掉了,因此,在训练和剪枝过程结束后,可以通过将这些权值按照对应的位置复制到一个紧凑的新网络上,就可以彻底舍去已经置为0的权值。
所述残差块选择:残差块可以是残差网络ResNet中的一个结构模块,残差网络比较深,有很多个这样的残差块,且块与块的关联并不大,剪掉残差块是粒度较大的剪枝方法。在选择残差块之前,给每一个块增加了一个掩码用于选择,残差块选择的过程就是对掩码的更新。不同于上述非结构剪枝和通道选择方法中介绍的硬掩码,这里采用的是软掩码,随着目标网络的损失函数一起更新掩码,在训练过程中,掩码不再只有0和1两个值,训练结束后根据掩码大小来进行残差块的选择。
随着目标网络的损失函数一起更新掩码,包括:
Figure BDA0004080673600000073
其中,Ls表示更新第一预测类别对应的子网络权值的总损失函数,即生成器损失、中间损失和输出损失三项损失之和,R(m)表示对软掩码的稀疏正则化项,μ是权衡因子,m表示选路掩码,m*表示最优的选路掩码。
上述为本申请实施例提出的三种动态选路的方法,主要针对不同大小的训练数据(n张样本图像)和目标神经网络的需求情况,根据选路的粒度不同,设计得到,在选路方法中利用迭代剪枝的思想,在训练过程中根据第一预测类别选择性地激活和舍去共享网络的卷积,从而能根据聚类结果动态调整第一预测类别的计算路径。
对于所述第一分类模块和第二分类模块通过Softmax函数将每个类别计算出来的逻辑zi与其他类别进行比较,并将其转换为一个概率qi,选择概率最大的输出其预测类别;
所述概率计算,包括:
Figure BDA0004080673600000081
其中,zj表示第j个类别的逻辑,总共有j个类别;T表示一个被称为温度的超参数,通常被设置为1,温度参数设定得越高,就会在类上产生一个更软的概率分布,也就是随着T参数的增大,Softmax函数输出的概率分布便会更加均匀。
预设条件即神经网络的训练终止条件,可以包括如下一种及多种结合:当前神经网络达到设定的精度要求;当前神经网络的训练迭代次数达到设定的最大迭代次数要求;其中,精度要求针对第一预测标签和第二预测标签设定得到,单次训练迭代可得到n张样本图像各自的第一预测标签和第二预测标签。当然,预设条件还可以根据实际情况进行设定,例如:训练时间达到设定的最大训练时间要求等,在此不作具体限定。
计算神经网络的第一损失值:
Figure BDA0004080673600000082
其中,Lc表示第一损失值,f()表示交叉熵损失函数,qc表示针对n张样本图像的第一预测类别进行归一化处理结果,yc表示n张样本图像各自的类别标签,
Figure BDA0004080673600000084
表示针对第i张样本图像的第一预测类别进行归一化处理结果,
Figure BDA0004080673600000083
表示第i张样本图像的类别标签;
计算神经网络的第二损失值:
Figure BDA0004080673600000091
其中,Lf表示第二损失值,f()表示交叉熵损失函数,qf表示针对n张样本图像各自的第二预测类别进行归一化处理结果,yf表示n张样本图像各自的类别标签,
Figure BDA0004080673600000092
表示针对第i张样本图像的第二预测类别进行归一化处理结果,
Figure BDA0004080673600000093
表示第i张样本图像的类别标签;
基于第一损失值和第二损失值构建神经网络的损失函数:
Figure BDA0004080673600000094
其中,Lall表示神经网络目标损失函数,α、β表示第一、第二权衡因子,γ表示权重衰减系数,Wc表示第一分类模块的权重,Wf表示第二分类模块的权重,Lc表示第一损失值,Lf表示第二损失值。
上述神经网络的第一更新权重和第二更新权重,可针对目标损失函数计算得到,计算公式如下:
Figure BDA0004080673600000095
其中,Lall为目标损失函数,Wc为第一分类模块的第一权重,Wf为第一分类模块的第一更新权重,
Figure BDA0004080673600000096
为第二分类模块的第二权重,
Figure BDA0004080673600000097
为第二分类模块的第二更新权重。
作为一种更优的实施方式,在不同粒度的选路方式(剪枝方法)的基础上,还可引入对掩码使用的损失项,即计算选路损失值,来获取最优的选路掩码,即更优的子网络参数,提升子网络性能。
具体的,如果在目标损失函数中引入损失项,则目标损失函数可表示为:
Figure BDA0004080673600000098
其中,Lall为目标损失函数,Wc为第一分类模块的第一权重,Wf为第一分类模块的第一更新权重,
Figure BDA0004080673600000099
为第二分类模块的第二权重,
Figure BDA00040806736000000910
为第二分类模块的第二更新权重,m*为子网络参数(即选路掩码),h(m)是相应剪枝方法中对掩码使用的损失项。
本发明还提供一种基于类别层次的动态高效网络训练装置,包括:数据获取模块、聚类模块、第一分类模块、第二分类模块、更新模块;
所述数据获取模块用于获取n张样本图像以及所述样本图像的类别标签;
所述聚类模块用于对获取的样本图像进行图像强化和聚类处理;
所述第一分类模块用于对聚类后的结果进行粗类别识别,得到样本图像的第一预测类别;
所述第二分类模块用于对样本图像进行细类别识别,得到样本图像的第二预测类别;
所述更新模块用于根据第一预测类别和第二预测类别进行目标网络的参数更新。
一方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述网络训练方法的步骤。
一方面,本发明提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述网络训练方法的步骤。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于类别层次的动态高效网络训练方法,其特征在于,包括:
S1:获取n张样本图像以及所述样本图像的类别标签;其中,n为大于0的整数;
所述样本图像的类别标签,包括:第一标签类别、第二标签类别,所述第一标签类别与所述第二标签类别具有包含关系,单个第一标签类别包含一个或多个第二标签类别;
S2:对获取的n张样本图像进行图像强化处理,根据样本图像之间的相关性对图像强化后的n张样本图像进行聚类;
S3:调用神经网络的第一分类模块,对所述n张样本图像的聚类结果进行粗识别,得到所述n张样本图像各自的第一预测类别;
S4:针对所述n张样本图像,调用所述神经网络的第二分类模块,通过对第二分类模块的选路掩码,对所述每张样本图像进行细识别,得到所述n张样本图像各自的第二预测类别;
S5:根据n张样本图像各自的第一预测类别与类别标签,计算神经网络的第一损失值,根据n张样本图像各自的第二预测类别与类别标签,计算神经网络的第二损失值,基于第一损失值和第二损失值构建神经网络的损失函数,当损失函数最小时更新神经网络的参数;
S6:重复上述步骤直到满足所述预设条件,将最近一次更新的神经网络作为目标神经网络。
2.根据权利要求1所述的一种基于类别层次的动态高效网络训练方法,其特征在于,对获取的n张样本图像进行图像强化处理,包括:基于样本图像中对象区域与非对象区域的差异,提高关于对象区域的关注度,降低关于非对象区域的关注度。
3.根据权利要求1所述的一种基于类别层次的动态高效网络训练方法,其特征在于,根据样本图像之间的相关性对图像强化后的n张样本图像进行聚类,包括:通过对图像特征进行聚类构造一个两层的由粗到细的类别层次结构,得到v个细类别c={c1,c2,...,cv}和u个粗类别C={C1,C2,...,Cu},将细类别和粗类别视觉特征相近的聚类划分到同一个聚类簇中,一个聚类簇即为一个粗类,得到m个粗类。
4.根据权利要求1所述的一种基于类别层次的动态高效网络训练方法,其特征在于,调用神经网络的第一分类模块,对所述n张样本图像的聚类结果进行粗识别,包括:
基于所述聚类结果,分别对所述m个粗类中各张样本图像进行粗识别,得到所述m个粗类各自对应的粗类别;
针对所述m个粗类,将每个粗类对应的粗类别作为所述每个粗类中的样本图像的第一预测类别,得到所述n张样本图像各自的第一预测类别。
5.根据权利要求1所述的一种基于类别层次的动态高效网络训练方法,其特征在于,通过对第二分类模块的选路掩码,对所述每张样本图像进行细识别,包括:
根据第一预测类别与其子网络参数的对应关系进行选路掩码,确定单张样本图像的子网络参数,采用确定出的单张样本图像的子网络参数固定第二分类模块中的共享网络的网络参数,通过固定网络参数后的共享网络对单张样本图像中的对象进行细识别,得到单张样本图像的第二预测类别。
6.根据权利要求1或5所述的一种基于类别层次的动态高效网络训练方法,其特征在于,所述选路掩码,包括:权重选择、通道选择、残差块选择;
所述权重选择:对第一预测类别对应的子网络的每一层的权重进行掩码更新;
对第一预测类别对应的子网络的每一层的权重进行掩码更新,包括:
Figure FDA0004080673590000021
其中,mi,j,h,w表示对第一预测类别对应的子网络的每一层的权重掩码,
Figure FDA0004080673590000031
表示第一预测类别对应的子网络的权重,λ表示掩码阈值;
所述通道选择:对第一预测类别对应的子网络的卷积层中的输出通道进行卷积核的掩码选择,包括:
S41:计算每个卷积核
Figure FDA0004080673590000032
的L2范数:
Figure FDA0004080673590000033
S42:按照sj的大小对卷积核进行排序;
S43:根据保留卷积核的个数在sj中选取一个值作为阈值,将sj小于阈值的卷积核所对应的掩码置0,表示删去该卷积核,sj大于或等于阈值的卷积核所对应的掩码置1,表示保留该卷积核;
所述残差块选择:给第一预测类别对应的子网络的每一个残差块增加一个用于选择的软掩码,通过第一预测类别对应的子网络的损失函数一起更新掩码;
通过第一预测类别对应的子网络的损失函数一起更新掩码,包括:
Figure FDA0004080673590000034
其中,Ls表示更新第一预测类别对应的子网络权值的总损失函数,即生成器损失、中间损失和输出损失三项损失之和,R(m)表示对软掩码的稀疏正则化项,μ是权衡因子,m表示选路掩码,m*表示最优的选路掩码。
7.根据请权利要求1所述的一种基于类别层次的动态高效网络训练方法,其特征在于,所述S5具体包括:
计算神经网络的第一损失值:
Figure FDA0004080673590000035
其中,Lc表示第一损失值,f()表示交叉熵损失函数,qc表示针对n张样本图像的第一预测类别进行归一化处理结果,yc表示n张样本图像各自的类别标签,
Figure FDA0004080673590000036
表示针对第i张样本图像的第一预测类别进行归一化处理结果,
Figure FDA0004080673590000037
表示第i张样本图像的类别标签;
计算神经网络的第二损失值:
Figure FDA0004080673590000041
其中,Lf表示第二损失值,f()表示交叉熵损失函数,qf表示针对n张样本图像各自的第二预测类别进行归一化处理结果,yf表示n张样本图像各自的类别标签,
Figure FDA0004080673590000042
表示针对第i张样本图像的第二预测类别进行归一化处理结果,
Figure FDA0004080673590000043
表示第i张样本图像的类别标签;
基于第一损失值和第二损失值构建神经网络的损失函数:
Figure FDA0004080673590000044
其中,Lall表示神经网络目标损失函数,α、β表示第一、第二权衡因子,γ表示权重衰减系数,Wc表示第一分类模块的权重,Wf表示第二分类模块的权重,Lc表示第一损失值,Lf表示第二损失值。
8.一种基于类别层次的动态高效网络训练装置,其特征在于,包括:数据获取模块、聚类模块、第一分类模块、第二分类模块、更新模块;
所述数据获取模块用于获取n张样本图像以及所述样本图像的类别标签;
所述聚类模块用于对获取的样本图像进行图像强化和聚类处理;
所述第一分类模块用于对聚类后的结果进行粗类别识别,得到样本图像的第一预测类别;
所述第二分类模块用于对样本图像进行细类别识别,得到样本图像的第二预测类别;
所述更新模块用于根据第一预测类别和第二预测类别进行目标网络的参数更新。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述网络训练方法的步骤。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网络训练方法的步骤。
CN202310123092.1A 2023-02-16 2023-02-16 基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质 Pending CN116071591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310123092.1A CN116071591A (zh) 2023-02-16 2023-02-16 基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310123092.1A CN116071591A (zh) 2023-02-16 2023-02-16 基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN116071591A true CN116071591A (zh) 2023-05-05

Family

ID=86178391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310123092.1A Pending CN116071591A (zh) 2023-02-16 2023-02-16 基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116071591A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274719A (zh) * 2023-11-14 2023-12-22 腾讯科技(深圳)有限公司 图像分类方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274719A (zh) * 2023-11-14 2023-12-22 腾讯科技(深圳)有限公司 图像分类方法、装置、计算机设备及存储介质
CN117274719B (zh) * 2023-11-14 2024-02-27 腾讯科技(深圳)有限公司 图像分类方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN113052211B9 (zh) 一种基于特征的秩和通道重要性的剪枝方法
Yildirim et al. Classification of white blood cells by deep learning methods for diagnosing disease.
US11501162B2 (en) Device for classifying data
CN111160407B (zh) 一种深度学习目标检测方法及系统
Fu et al. A salt and pepper noise image denoising method based on the generative classification
CN109102498B (zh) 一种宫颈涂片图像中簇型细胞核分割的方法
CN113469186B (zh) 一种基于少量点标注的跨域迁移图像分割方法
CN112784954A (zh) 确定神经网络的方法和装置
CN113052184A (zh) 一种基于两阶段局部特征对齐的目标检测方法
CN116071591A (zh) 基于类别层次的动态高效网络训练方法、装置、计算机设备及存储介质
Arish et al. Extraction of active regions and coronal holes from EUV images using the unsupervised segmentation method in the Bayesian framework
CN115049952A (zh) 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
CN115439685A (zh) 一种小样本图像数据集划分方法及计算机可读存储介质
CN113627240B (zh) 一种基于改进ssd学习模型的无人机树木种类识别方法
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN116188428A (zh) 一种桥接多源域自适应的跨域组织病理学图像识别方法
CN115423090A (zh) 一种面向细粒度识别的类增量学习方法
Celestine et al. Investigations on adaptive connectivity and shape prior based fuzzy graph‐cut colour image segmentation
Kaya Image clustering and compression using an annealed fuzzy hopfield neural network
CN114241227A (zh) 一种基于vlad的图像识别方法及装置
CN113128659A (zh) 神经网络定点化方法、装置、电子设备及可读存储介质
Fan et al. Fast example searching for input-adaptive data-driven dehazing with gaussian process regression
CN111368625B (zh) 一种基于级联优化的行人目标检测方法
CN118015346A (zh) 一种基于正交稀疏网络的图像分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination