CN112633402B - 一种实现动态计算的高精度高比例的分类模型及分类方法 - Google Patents
一种实现动态计算的高精度高比例的分类模型及分类方法 Download PDFInfo
- Publication number
- CN112633402B CN112633402B CN202011607740.3A CN202011607740A CN112633402B CN 112633402 B CN112633402 B CN 112633402B CN 202011607740 A CN202011607740 A CN 202011607740A CN 112633402 B CN112633402 B CN 112633402B
- Authority
- CN
- China
- Prior art keywords
- network model
- classification
- model
- branch network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013145 classification model Methods 0.000 title claims abstract description 42
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000003780 insertion Methods 0.000 claims abstract description 7
- 230000037431 insertion Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 29
- 238000011176 pooling Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及神经网络技术领域,提供一种实现动态计算的高精度高比例的分类模型及分类方法,高精度高比例的分类模型包括主干网络模型和至少一个第一分支网络模型;主干网络模型包括输入端、输出端和多个中间层,在多个中间层的1/4‑1/3的层数之间,插入第一分支网络模型;第一分支网络模型包括分类模块和置信度确定模块。在实际应用过程中,分类模块用于产生插入处的分类输出,置信度确定模块用于判断分类输出是否满足精度要求,若满足精度要求,则高精度高比例的分类模型在第一分支网络模型的输出端提前退出,若不满足精度要求,则放弃分类模块产生的分类输出,并返回主干网络模型的中间层,继续完成分类运算。
Description
技术领域
本申请涉及神经网络技术领域,尤其涉及一种实现动态计算的高精度高比例的分类模型及分类方法。
背景技术
随着神经网络技术的发展与成熟,越来越多的工业领域采用深度神经网络技术完成工业任务,例如,通过图片数据学习获得的分类神经网络,对工业场景或者工业产品进行分类,相比于人工,分类神经网络不仅可以高效率的完成工作,而且极大的提高了准确率。
但是,在部分特殊应用场景下,由于深度神经网络的参数量及计算量较大,部署在计算平台上功耗与延时较高,导致应用场景受到极大的限制,为此很多单一的压缩方案或模型复杂度缩减方案被提出,如量化稀疏和动态计算等。
但是在实际使用过程中,由于工业场景的复杂性,会存在简单样本和复杂样本,例如,图片识别过程中,同样一个物体的多张图片,会因为光线、角度,图片大小和清晰度的不同,导致多张图片的识别难度也不相同,现有技术的方案,在识别一类图片时,其识别流程一致,虽然简单图片在识别时间会少于复杂图片的识别时间,但是仍然会存在过度利用片上资源识别简单图片的情况,从而造成时间及片上资源的浪费。
综上所述,在满足神经网络对输入分类精度要求的基础上,尽可能的提高分类效率及减少资源浪费,是本领域技术人员亟待解决的技术问题。
发明内容
为了在满足神经网络对输入分类精度要求的基础上,尽可能的提高分类效率及减少资源浪费,本申请提供一种实现动态计算的高精度高比例的分类模型及分类方法。
本申请第一方面提供一种实现动态计算的高精度高比例的分类模型,包括:主干网络模型和至少一个第一分支网络模型;所述主干网络模型包括输入端和输出端,以及设置在所述输入端和所述输出端之间的多个中间层,在多个中间层的1/4-1/3的层数之间,插入所述第一分支网络模型;
所述第一分支网络模型包括分类模块和置信度确定模块,所述分类模块包括依次相接的卷积层、池化层和全连接层;所述卷积层至少设置有第一卷积块,且所述第一卷积块包括并列的三组卷积,所述三组卷积的卷积核大小依次为3×3、5×5和7×7;所述池化层的步长为2,且所述池化层通过全连接层产生分类输出,并连接所述置信度确定模块;
所述置信度确定模块包括依次设置的softmax计算层、交叉熵计算层和阈值比较层;所述softmax计算层用于将全连接层的分类输出转化为概率张量并产生对应的二值向量,所述交叉熵计算层用于对所述张量以及对应的二值向量做交叉熵计算,获得预测置信度,所述阈值比较层用于将所述预测置信度与阈值进行比较,并获得比较结果;
所述二值向量的产生方式为:将所述概率张量中最大的概率值位置置1,其他位置的概率值置0,获得二值向量;
若比较结果为预测置信度小于或者等于所述阈值,则所述第一分支网络模型的输出端输出所述分类输出;若比较结果为预测置信度大于所述阈值,则丢弃所述分类输出,返回主干网络模型的中间层继续进行预测计算。
可选的,所述卷积层还设置有至少一个第二卷积块,所述第二卷积块连接在所述第一卷积块之后,且所述第二卷积块的卷积核大小为3×3。
可选的,所述卷积层还设置第三卷积块,所述第三卷积块设置在所述第一卷积块之前,且所述第三卷积块的卷积核大小为1×1。
可选的,所述一种动态计算的高精度高比例网络模型还包括第二分支网络模型,所述第二分支网络模型插入多个中间层的1/2层数之后,所述第二分支网络模型的结构与所述第一分支网络的结构相同。
可选的,所述第一分支网络模型通过以下训练方法获得:
获取一组训练样本集,计算所述训练样本集的输出以及输出对应的标签向量的交叉熵,并将计算的交叉熵作为基本损失函数;
获取高精度高比例网络模型的总损失函数,所述高精度高比例网络模型的总损失函数为第一分支网络模型的基本损失函数与主网络模型的基本损失函数的线性和;
利用所述一组训练样本集和总损失函数,对第一分支网络原始模型进行预训练,获得第一分支网络初步模型;
获取提前退出置信度,所述提前退出置信度为第一分支网络初步模型的输出以及二值向量的交叉熵,利用提前退出置信度和验证样本集测试第一分支网络初步模型,获得阈值p;
利用整流函数对第一分支网络原始模型的基本损失函数进行整流,整流变化节点为1.5p,获得第一分支网络初步模型的基本损失函数;
对第一分支网络初步模型的基本损失函数和网络模型的基本损失函数进行重新组合,获得重新组合的总损失函数;
利用所述一组训练样本集和重新组合的总损失函数,对第一分支网络初步模型进行训练,或者第一分支网络模型。
可选的,在完成所述第一分支网络模型的训练之后,还包括:
获取一组主干网络训练样本集,利用所述一组主干网络训练样本集,对主干网络原始模型进行预训练,获得主干网络的初步模型;
将所述第一分支网络模型插入所述主干网络的初步模型,并利用所述第一分支网络模型的加权损失对插入第一分支网络模型的主干网络的初步模型进行训练,获得高精度高比例的初步分类模型;
对所述高精度高比例的初步分类模型进行稀疏和量化训练,获得所述一种实现动态计算的高精度高比例的分类模型。
可选的,所述总损失函数为:Loss=a*Lossearlyexit+(1-a)*Lossmain;
其中,Lossearlyexit为第一分支网络模型的基本损失函数,Lossmain为主干网络模型的基本损失函数,a∈(0,1);
所述整流函数为:其中,x=1.5p为整流变化节点。
本申请第二方面提供一种实现动态计算的高精度高比例的分类方法,所述实现动态计算的高精度高比例的分类方法由权利要求1-7任一项所述的一种实现动态计算的高精度高比例的分类模型执行,包括:
所述主干网络模型的输入端获取分类输入,并沿主干网络模型顺序运行直至中间层,并得到所述中间层产生的中间过程特征数据;
所述第一分支网络模型从插入处的中间层获得中间过程特征数据;
所述第一分支网络模型的卷积层对中间过程特征数据进行卷积计算,获得卷积过程特征数据;
所述池化层对所述卷积过程特征数据进行数据降维,获得降维特征数据;
所述全连接层获取所述降维特征数据,并生成分类输出;
所述softmax计算层将分类输出转化为张量并产生对应的二值向量;
所述交叉熵计算层对所述张量以及对应的二值向量做交叉熵计算,获得预测置信度;
所述阈值比较层将所述预测置信度与阈值进行比较,并获得比较结果;
若比较结果为预测置信度小于或者等于所述阈值,则所述第一分支网络模型的输出端输出所述分类输出;若比较结果为预测置信度大于所述阈值,则所述第一分支网络模型的输出端丢弃所述分类输出,并返回主干网络的中间层继续进行分类运算。
本申请第三方面提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如本申请第二方面提供的一种实现动态计算的高精度高比例的分类方法的步骤。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理执行时实现如本申请第二方面提供的一种高精度高比例的分类方法的步骤。
本申请提供一种实现动态计算的高精度高比例的分类模型及分类方法,以及实现所述分类模型及分类方法的一种计算机设备和一种计算机可读存储介质。所述高精度高比例的分类模型包括:主干网络模型和至少一个第一分支网络模型;所述主干网络模型包括输入端和输出端,以及设置在所述输入端和所述输出端之间的多个中间层,在多个中间层的1/4-1/3的层数之间,插入所述第一分支网络模型;所述第一分支网络模型包括分类模块和置信度确定模块,所述分类模块包括依次相接的卷积层、池化层和全连接层;所述卷积层至少设置有第一卷积块,且所述第一卷积块包括并列的三组卷积,所述三组卷积的卷积核大小依次为3×3、5×5和7×7;所述池化层的步长为2,且所述池化层通过全连接层产生分类输出,并连接所述置信度确定模块;所述置信度确定模块包括依次设置的softmax计算层、交叉熵计算层和阈值比较层;所述softmax计算层用于将分类输出转化为张量并产生对应的二值向量,所述交叉熵计算层用于对所述张量以及对应的二值向量做交叉熵计算,获得预测置信度,所述阈值比较层用于将所述预测置信度与阈值进行比较,并获得比较结果;若比较结果为预测置信度小于或者等于所述阈值,则所述第一分支网络模型的输出端输出所述分类输出;若比较结果为预测置信度大于所述阈值,则丢弃所述分类输出,返回主干网络模型的中间层继续进行预测计算。
在实际应用过程中,分类模块,用于产生插入处的分类输出,所述置信度确定模块,用于判断对于某一个分类输入,在所述分类模块产生的分类输出是否满足精度要求,若满足精度要求,则所述高精度高比例的分类模型在第一分支网络模型的输出端提前退出,若不满足精度要求,则放弃所述分类模块产生的分类输出,并返回主干网络模型的中间层,继续完成分类运算。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实现动态计算的高精度高比例的分类模型结构示意图;
图2为本申请实施例提供的分支网络模型结构示意图;
图3为本申请实施例提供的具备两个分支网络模型的分类模型结构示意图;
图4为本申请实施例提供的分支网络模型的训练流程示意图;
图5为本申请实施例提供的主干网络模型的训练流程示意图;
图6为本申请实施例提供的一种实现动态计算的高精度高比例的分类方法流程示意图。
具体实施方式
为了在满足神经网络对输入分类精度要求的基础上,尽可能的提高神经网络的分类效率及减少资源浪费。如图1所示,为本申请实施例提供的一种实现动态计算的高精度高比例的分类模型结构示意图。本申请实施例第一方面提供一种实现动态计算的高精度高比例的分类模型,包括:主干网络模型和至少一个第一分支网络模型;所述主干网络模型包括输入端和输出端,以及设置在所述输入端和所述输出端之间的多个中间层,在多个中间层的1/4-1/3的层数之间,插入所述第一分支网络模型。
所述第一分支网络模型按照功能分类,包括两大部分,第一部分为分类模块,用于产生插入处的分类输出,即分类预测结果;第二部分为置信度确定模块,用于判断对于某一个分类输入,在所述分类模块产生的分类输出是否满足精度要求,若满足精度要求,则所述高精度高比例的分类模型在第一分支网络模型的输出端提前退出,若不满足精度要求,则放弃所述分类模块产生的分类输出,并返回主干网络模型的中间层,继续完成分类运算。
其中,如图2所示,为本申请实施例提供的分支网络模型结构示意图,为了通过所述分类模块提前预测出分类输出,所述分类模块包括依次相接的卷积层、池化层和全连接层;所述卷积层至少设置有第一卷积块,且所述第一卷积块包括并列的三组卷积,所述三组卷积的卷积核大小依次为3×3、5×5和7×7;所述池化层的步长为2,且所述池化层通过全连接层产生分类输出,并连接所述置信度确定模块。
其中,如图2所示,所述置信度确定模块包括依次设置的softmax计算层、交叉熵计算层和阈值比较层;所述softmax计算层用于将全连接层的分类输出转化为概率张量并产生对应的二值向量,所述交叉熵计算层用于对所述张量以及对应的二值向量做交叉熵计算,获得预测置信度,所述阈值比较层用于将所述预测置信度与阈值进行比较,并获得比较结果,所述阈值提前设置,用于判断所述预测置信度是否满足所述高精度高比例的分类模型的预测精度。
若比较结果为预测置信度小于或者等于所述阈值,则所述第一分支网络模型的输出端输出所述分类输出;若比较结果为预测置信度大于所述阈值,则丢弃所述分类输出,返回主干网络模型的中间层继续进行预测计算。
其中,所述二值向量产生方式为:例如,某个样本softmax的输出的概率张量为[0.08,0.01,0.91],则产生对应二值向量时,将其中最大的概率值位置置1,其他位置置0,即二值向量为[0,0,1]。将[0.08,0.01,0.91]与[0,0,1]做交叉熵计算,得到的结果即可作为评价这一样本的预测置信度。将预测置信度与提前设定好的阈值做比较,若比较结果为预测置信度大于所述阈值,则说明这一点的预测结果是正确样本的概率过低,即返回主干网络模型的中间层继续完成余下的分类运算,第一分支网络模型的分类输出直接丢弃;若比较结果为预测置信度小于或者等于所述阈值,则所述第一分支网络模型的输出端输出所述分类输出,所述高精度高比例的分类模型的分类运算,在所述第一分支网络模型出提前退出。
本申请实施例提供的一种实现动态计算的高精度高比例的分类模型,将动态计算与量化稀疏的网络模型想融合,进一步降低网络平均延时以及平均功耗。这一融合压缩方案将针对输入冗余的动态计算和针对网络参数冗余的稀疏量化方法同时使用,这种结合方法因为利用的是不同部分的冗余,所以一起使用后可以达到互不影响精度的效果,从而可以建立一个高压缩率同时保持高精度的网络模型。
如图2所示,在本申请的部分实施例中,所述卷积层还设置有至少一个第二卷积块,所述第二卷积块连接在所述第一卷积块之后。
其中,在分类运算简单的情况下,例如,在图片识别分类中,图像分辨率较小,且类别数较少,容易分类数据集中,如CIFAR 10数据,可以至设置第一卷积块,或者在所述第一卷积块后再设置一个第二卷积块。但是,在部分分类运算更复杂的场景下,为了保证分类输出的精度,例如,图像分辨率较大,类别数较多的困难数据集,如ImageNet数据集,可以在第一卷积块后再设置多个第二卷积块结构,且所述第二卷积块的卷积核大小为3×3。
在困难数据集如ImageNet数据集,其主干网络模型进入第一分支网络模型的通道数较大,会给第一分支网络模型带来的额外计算量,为了避免增加所述第一分支网络模型的额外计算量,为了避免所述高精度高比例的分类模型的计算量和存储量超过片上的部署平台资源上限,同时确保高精度高比例的分类模型整体的压缩率,如图2所示,在本申请的部分实施例中,在满足分类预测精度需求的前提下,所述卷积层还设置第三卷积块,所述第三卷积块设置在所述第一卷积块之前,且所述第三卷积块的卷积核大小为1×1。
对于较深层的网络模型,例如所述主主干网络模型的中间层层数大于50层,此时插入一个第一分支网络模型,在所述第一分支网络完成提前预测并退出的概率较低,即较难满足分类预测精度需求,从而需要所述主干网络模型完成整个分类预算,导致仍然需要占用较大的片上资源,为了解决这一问题,如图3所示,为本申请实施例提供的具备两个分支网络模型的分类模型结构示意图,在本申请分部分实施例中,所述一种动态计算的高精度高比例网络模型还包括第二分支网络模型,所述第二分支网络模型插入多个中间层的1/2层数之后,所述第二分支网络模型的结构与所述第一分支网络的结构相同。即所述第一分支网络模型与所述第二分支网络模型均为所述主干网络模型的分支结构。
本申请实施例提供的高精度高比例的分类模型,通过机器学习获得,在进行机器学习时,可以先对分支网络模型(第一分支网络模型和第二分支网络模型)进行训练,再对所述主干网络模型进行训练;也可以先对所述主干网络模型进行训练,再对分支网络模型(第一分支网络模型和第二分支网络模型)进行训练。本申请实施例提供的训练顺序为:先训练分支网络模型,再训练主干网络模型。
其中,如图4所示,所述第一分支网络模型的训练过程包括步骤S401至步骤S407。
步骤S401,获取一组训练样本集,计算所述训练样本集的输出以及输出对应的标签向量的交叉熵,并将计算的交叉熵作为基本损失函数。
步骤S402,获取高精度高比例网络模型的总损失函数,所述高精度高比例网络模型的总损失函数为第一分支网络模型的基本损失函数与主网络模型的基本损失函数的线性和。
其中,所述总损失函数为:Loss=a×Lossearlyexit+(1-a)*Lossmain,式中,Lossearlyexit为第一分支网络模型的基本损失函数,Lossmain为主干网络模型的基本损失函数,a∈(0,1)。
步骤S403,利用所述一组训练样本集和总损失函数,对第一分支网络原始模型进行预训练,获得第一分支网络初步模型。
步骤S404,获取提前退出置信度,所述提前退出置信度为第一分支网络初步模型的输出以及二值向量的交叉熵,利用提前退出置信度和验证样本集测试第一分支网络初步模型,获得阈值p。其中,阈值p的确定还需要考虑高精度高比例的分类模型的精度要求,本申请实施例中,将所述阈值p定为提前退出置信度的1.5倍。
步骤S405,利用整流函数对第一分支网络原始模型的基本损失函数进行整流,整流变化节点为1.5p,获得第一分支网络初步模型的基本损失函数。
其中,所述整流函数为:式中,x=1.5p为整流变化节点。
整流函数的目的是对高损失值的样本,也就是困难样本,将其梯度变为原来的十分之一倍。因为对于困难样本,高精度高比例的分类模型并不会使用分支网络模型(第一分支网络模型和第二分支网络模型)的分类输出作为最后的输出结果,这样可以避免过分关注分支网络模型对困难样本的梯度下降,而降低分支网络模型在简单样本上的表现。
步骤S406,对第一分支网络初步模型的基本损失函数和网络模型的基本损失函数进行重新组合,获得重新组合的总损失函数。
其中,重新组合的总损失函数,重新对分支网络模型(第一分支网络模型和第二分支网络模型)进行训练。重新组合的总损失函数为:
Loss=a×f(Lossearlyexit,p)+(1-a)*Lossmain
步骤S407,利用所述一组训练样本集和重新组合的总损失函数,对第一分支网络初步模型进行训练,或者第一分支网络模型。
需要说明的,所述分支网络模型(第一分支网络模型和第二分支网络模型)与所述主干网络模型的训练顺序可以改变,例如,先训练主干网络模型,再使用上文所提的损失函数训练分支网络模型。但需要说明的是,一定先完成步骤S401至步骤S405,根据预训练结果,获得第一分支网络初步模型,以确定最终用于训练的整流变化节点1.5p。
需要说明的是,整流函数只需对高Loss整流。若高精度高比例的分类模型具有多个分支网络模型(即,包括第一分支网络模型以外的分支网络模型),从第n个分支得到的样本提前退出置信度范围为pn-1至pn,那么,仍然只需要f(x,pn)对该节点的损失函数进行整流。因为Loss值低于pn-1的样本可以认为是对于该分支网络模型的简单样本,实践表明,增加简单样本的数量有助于提高该分支网络模型退出点的泛化能力,因此只需要将困难样本进行整流,降低Loss的梯度值。
需要说明的是,整流函数还可以选其它形式,对于各个线性参数的具体取值,应视作超参数来调节。
本申请实施例,在完成步骤S401-步骤S407对于第一分支网络模型的训练之后,如图5所示,采用步骤S501至步骤S503训练所述主干网络模型。
步骤S501,获取一组主干网络训练样本集,利用所述一组主干网络训练样本集,对主干网络原始模型进行预训练,获得主干网络的初步模型。
获得一个神经网络原始模型,例如,一个普通的卷积神经网络网络,或者Transformer等网络,利一组主干网络训练样本集对其进行预训练,直到其收敛到最好的精度,获得主干网络的初步模型。
步骤S502,将所述第一分支网络模型插入所述主干网络的初步模型,并利用所述第一分支网络模型的加权损失对插入第一分支网络模型的主干网络的初步模型进行训练,获得高精度高比例的初步分类模型。
对于步骤S501预训练好的主干网络的初步模型,将按照步骤S401至步骤S407训练好的第一分支网络模型(或者还包括按照同样方法训练的第二分支网络模型)插入主干网络的初步模型,利用第一分支网络模型(或者还包括按照同样方法训练的第二分支网络模型)的加权损失做训练,直到主干网络的初步模型收敛到相对较好的精度。
步骤S503,对所述高精度高比例的初步分类模型进行稀疏和量化训练,获得所述一种实现动态计算的高精度高比例的分类模型。
其中,在完成步骤S503之后,所述高精度高比例的分类模型中包括被训练完成的主干网络的模型。所述稀疏训练的稀疏格式不限,例如将不重要的值(比如较小的网络参数值)在训练中置零或剪枝掉某些通道。所述量化训练过程中的位宽不做严格限制,但不能小于网络模型可以承受的最小位宽,对于大多数网络来说,网络可承受的最小位宽典型值为8比特或6比特。上述稀疏和量化训练,可以对所述主干网络模型或者分支网络模型(第一分支网络模型和第二分支网络模型)同时施加。
本申请实施例第二方面还提供一种实现动态计算的高精度高比例的分类方法,所述实现动态计算的高精度高比例的分类方法由本申请实施例第一方面提供的一种实现动态计算的高精度高比例的分类模型执行,如图6所示,为本申请实施例提供的一种实现动态计算的高精度高比例的分类方法流程示意图,包括步骤S601至步骤S609,对于所述高精度高比例的分类方法中未详细介绍的技术内容,请参照本申请实施例第一方面提供的实现动态计算的高精度高比例的分类模型。
步骤S601,所述主干网络模型的输入端获取分类输入,并沿主干网络模型顺序运行直至中间层,并得到所述中间层产生的中间过程特征数据。
步骤S602,所述第一分支网络模型从插入处的中间层获得中间过程特征数据。
步骤S603,所述第一分支网络模型的卷积层对中间过程特征数据进行卷积计算,获得卷积过程特征数据。
步骤S604,所述池化层对所述卷积过程特征数据进行数据降维,获得降维特征数据。
步骤S605,所述全连接层获取所述降维特征数据,并生成分类输出。
步骤S606,所述softmax计算层将分类输出转化为张量并产生对应的二值向量。
步骤S607,所述交叉熵计算层对所述张量以及对应的二值向量做交叉熵计算,获得预测置信度。
步骤S608,所述阈值比较层将所述预测置信度与阈值进行比较,并获得比较结果。
步骤S609,若比较结果为预测置信度小于或者等于所述阈值,则所述第一分支网络模型的输出端输出所述分类输出;若比较结果为预测置信度大于所述阈值,则所述第一分支网络模型的输出端丢弃所述分类输出,并返回主干网络的中间层继续进行分类运算。
本申请实施例第三方面提供一种计算机设备,包括:
存储器,用于存储计算机程序。
处理器,用于执行所述计算机程序时实现如本申请实施例第二方面提供的一种高精度高比例的分类方法的步骤。
存储器,用于存储计算机程序。
处理器,用于执行所述计算机程序时实现如本申请第二实施例所述的图片去雾及识别方法的步骤。
本申请实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理执行时实现如本申请实施例第二方面提供的一种高精度高比例的分类方法的步骤。
由以上技术方案可知,本申请实施例提供一种实现动态计算的高精度高比例的分类模型及分类方法,以及实现所述分类模型及分类方法的一种计算机设备和一种计算机可读存储介质。所述高精度高比例的分类模型包括:主干网络模型和至少一个第一分支网络模型;所述主干网络模型包括输入端和输出端,以及设置在所述输入端和所述输出端之间的多个中间层,在多个中间层的1/4-1/3的层数之间,插入所述第一分支网络模型;所述第一分支网络模型包括分类模块和置信度确定模块,所述分类模块包括依次相接的卷积层、池化层和全连接层;所述卷积层至少设置有第一卷积块,且所述第一卷积块包括并列的三组卷积,所述三组卷积的卷积核大小依次为3×3、5×5和7×7;所述池化层的步长为2,且所述池化层通过全连接层产生分类输出,并连接所述置信度确定模块;所述置信度确定模块包括依次设置的softmax计算层、交叉熵计算层和阈值比较层;所述softmax计算层用于将分类输出转化为张量并产生对应的二值向量,所述交叉熵计算层用于对所述张量以及对应的二值向量做交叉熵计算,获得预测置信度,所述阈值比较层用于将所述预测置信度与阈值进行比较,并获得比较结果;若比较结果为预测置信度小于或者等于所述阈值,则所述第一分支网络模型的输出端输出所述分类输出;若比较结果为预测置信度大于所述阈值,则丢弃所述分类输出,返回主干网络模型的中间层继续进行预测计算。
在实际应用过程中,分类模块,用于产生插入处的分类输出,所述置信度确定模块,用于判断对于某一个分类输入,在所述分类模块产生的分类输出是否满足精度要求,若满足精度要求,则所述高精度高比例的分类模型在第一分支网络模型的输出端提前退出,若不满足精度要求,则放弃所述分类模块产生的分类输出,并返回主干网络模型的中间层,继续完成分类运算。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (10)
1.一种实现动态计算的高精度高比例的图像分类系统,其特征在于,包括:主干网络模型和至少一个第一分支网络模型;所述主干网络模型包括输入端和输出端,以及设置在所述输入端和所述输出端之间的多个中间层,在多个中间层的1/4-1/3的层数之间,插入所述第一分支网络模型;
所述第一分支网络模型包括分类模块和置信度确定模块,所述分类模块包括依次相接的卷积层、池化层和全连接层;所述卷积层至少设置有第一卷积块,且所述第一卷积块包括并列的三组卷积,所述三组卷积的卷积核大小依次为3×3、5×5和7×7;所述池化层的步长为2,且所述池化层通过全连接层产生分类输出,并连接所述置信度确定模块;
所述置信度确定模块包括依次设置的softmax计算层、交叉熵计算层和阈值比较层;所述softmax计算层用于将全连接层的分类输出转化为概率张量并产生对应的二值向量,所述交叉熵计算层用于对所述张量以及对应的二值向量做交叉熵计算,获得预测置信度,所述阈值比较层用于将所述预测置信度与阈值进行比较,并获得比较结果;
所述二值向量的产生方式为:将所述概率张量中最大的概率值位置置1,其他位置的概率值置0,获得二值向量;
若比较结果为预测置信度小于或者等于所述阈值,则所述第一分支网络模型的输出端输出所述分类输出;若比较结果为预测置信度大于所述阈值,则丢弃所述分类输出,返回主干网络模型的中间层继续进行预测计算。
2.根据权利要求1所述的一种实现动态计算的高精度高比例的图像分类系统,其特征在于,所述卷积层还设置有至少一个第二卷积块,所述第二卷积块连接在所述第一卷积块之后,且所述第二卷积块的卷积核大小为3×3。
3.根据权利要求1所述的一种实现动态计算的高精度高比例的图像分类系统,其特征在于,所述卷积层还设置第三卷积块,所述第三卷积块设置在所述第一卷积块之前,且所述第三卷积块的卷积核大小为1× 1。
4.根据权利要求1所述的一种实现动态计算的高精度高比例的图像分类系统,其特征在于,所述一种动态计算的高精度高比例网络模型还包括第二分支网络模型,所述第二分支网络模型插入多个中间层的1/2层数之后,所述第二分支网络模型的结构与所述第一分支网络的结构相同。
5.根据权利要求1所述的一种实现动态计算的高精度高比例的图像分类系统,其特征在于,所述第一分支网络模型通过以下训练方法获得:
获取一组训练样本集,计算所述训练样本集的输出以及输出对应的标签向量的交叉熵,并将计算的交叉熵作为基本损失函数;
获取高精度高比例网络模型的总损失函数,所述高精度高比例网络模型的总损失函数为第一分支网络模型的基本损失函数与主网络模型的基本损失函数的线性和;
利用所述一组训练样本集和总损失函数,对第一分支网络原始模型进行预训练,获得第一分支网络初步模型;
获取提前退出置信度,所述提前退出置信度为第一分支网络初步模型的输出以及二值向量的交叉熵,利用提前退出置信度和验证样本集测试第一分支网络初步模型,获得阈值p;
利用整流函数对第一分支网络原始模型的基本损失函数进行整流,整流变化节点为1.5p,获得第一分支网络初步模型的基本损失函数;
对第一分支网络初步模型的基本损失函数和网络模型的基本损失函数进行重新组合,获得重新组合的总损失函数;
利用所述一组训练样本集和重新组合的总损失函数,对第一分支网络初步模型进行训练,或者第一分支网络模型。
6.根据权利要求5所述的一种实现动态计算的高精度高比例的图像分类系统,其特征在于,在完成所述第一分支网络模型的训练之后,还包括:
获取一组主干网络训练样本集,利用所述一组主干网络训练样本集,对主干网络原始模型进行预训练,获得主干网络的初步模型;
将所述第一分支网络模型插入所述主干网络的初步模型,并利用所述第一分支网络模型的加权损失对插入第一分支网络模型的主干网络的初步模型进行训练,获得高精度高比例的初步分类模型;
对所述高精度高比例的初步分类模型进行稀疏和量化训练,获得所述一种实现动态计算的高精度高比例的分类模型。
7.根据权利要求5所述的一种实现动态计算的高精度高比例的图像分类系统,其特征在于,所述总损失函数为:;
其中,为第一分支网络模型的基本损失函数,/>为主干网络模型的基本损失函数,/>;
所述整流函数为:,其中,x=1.5p为整流变化节点。
8.一种实现动态计算的高精度高比例的图像分类方法,其特征在于,所述实现动态计算的高精度高比例的分类方法由权利要求1-7任一项所述的一种实现动态计算的高精度高比例的图像分类系统执行,包括:
所述主干网络模型的输入端获取分类输入,并沿主干网络模型顺序运行直至中间层,并得到所述中间层产生的中间过程特征数据;
所述第一分支网络模型从插入处的中间层获得中间过程特征数据;
所述第一分支网络模型的卷积层对中间过程特征数据进行卷积计算,获得卷积过程特征数据;
所述池化层对所述卷积过程特征数据进行数据降维,获得降维特征数据;
所述全连接层获取所述降维特征数据,并生成分类输出;
所述softmax计算层将分类输出转化为张量并产生对应的二值向量;
所述交叉熵计算层对所述张量以及对应的二值向量做交叉熵计算,获得预测置信度;
所述阈值比较层将所述预测置信度与阈值进行比较,并获得比较结果;
若比较结果为预测置信度小于或者等于所述阈值,则所述第一分支网络模型的输出端输出所述分类输出;若比较结果为预测置信度大于所述阈值,则所述第一分支网络模型的输出端丢弃所述分类输出,并返回主干网络的中间层继续进行分类运算。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求8所述的一种实现动态计算的高精度高比例的图像分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理执行时实现如权利要求8所述的一种高精度高比例的图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011607740.3A CN112633402B (zh) | 2020-12-30 | 2020-12-30 | 一种实现动态计算的高精度高比例的分类模型及分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011607740.3A CN112633402B (zh) | 2020-12-30 | 2020-12-30 | 一种实现动态计算的高精度高比例的分类模型及分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633402A CN112633402A (zh) | 2021-04-09 |
CN112633402B true CN112633402B (zh) | 2024-05-03 |
Family
ID=75286569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011607740.3A Active CN112633402B (zh) | 2020-12-30 | 2020-12-30 | 一种实现动态计算的高精度高比例的分类模型及分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633402B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537296A (zh) * | 2021-06-22 | 2021-10-22 | 广州云从鼎望科技有限公司 | 特征检测方法、装置及计算机存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
GB201900883D0 (en) * | 2019-01-22 | 2019-03-13 | Toshiba Kk | A computer vision system and method |
CN109948647A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种基于深度残差网络的心电图分类方法及系统 |
CN110866565A (zh) * | 2019-11-26 | 2020-03-06 | 重庆邮电大学 | 一种基于卷积神经网络的多分支图像分类方法 |
CN110956201A (zh) * | 2019-11-07 | 2020-04-03 | 江南大学 | 一种基于卷积神经网络的图像失真类型分类方法 |
CN111382788A (zh) * | 2020-03-06 | 2020-07-07 | 西安电子科技大学 | 基于二值量化网络的高光谱图像分类方法 |
CN111506755A (zh) * | 2020-04-22 | 2020-08-07 | 广东博智林机器人有限公司 | 图片集的分类方法和装置 |
WO2020173115A1 (zh) * | 2019-02-25 | 2020-09-03 | 深圳市商汤科技有限公司 | 网络模块和分配方法及装置、电子设备和存储介质 |
CN111914924A (zh) * | 2020-07-28 | 2020-11-10 | 西安电子科技大学 | 一种快速舰船目标检测方法、存储介质及计算设备 |
-
2020
- 2020-12-30 CN CN202011607740.3A patent/CN112633402B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
GB201900883D0 (en) * | 2019-01-22 | 2019-03-13 | Toshiba Kk | A computer vision system and method |
CN109948647A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种基于深度残差网络的心电图分类方法及系统 |
WO2020173115A1 (zh) * | 2019-02-25 | 2020-09-03 | 深圳市商汤科技有限公司 | 网络模块和分配方法及装置、电子设备和存储介质 |
CN110956201A (zh) * | 2019-11-07 | 2020-04-03 | 江南大学 | 一种基于卷积神经网络的图像失真类型分类方法 |
CN110866565A (zh) * | 2019-11-26 | 2020-03-06 | 重庆邮电大学 | 一种基于卷积神经网络的多分支图像分类方法 |
CN111382788A (zh) * | 2020-03-06 | 2020-07-07 | 西安电子科技大学 | 基于二值量化网络的高光谱图像分类方法 |
CN111506755A (zh) * | 2020-04-22 | 2020-08-07 | 广东博智林机器人有限公司 | 图片集的分类方法和装置 |
CN111914924A (zh) * | 2020-07-28 | 2020-11-10 | 西安电子科技大学 | 一种快速舰船目标检测方法、存储介质及计算设备 |
Non-Patent Citations (12)
Title |
---|
A multi-branch ResNet with discriminative features for detection of replay speech signals;Xingliang Cheng 等;《original paper》;20201229;1-13 * |
Xingliang Cheng 等.A multi-branch ResNet with discriminative features for detection of replay speech signals.《original paper》.2020,1-13. * |
刘狄 等.基于LSTM特征提取的有限新息率畸变信号重构 .《电子学报》.2022,(第1期),217-225. * |
唐芃.基于弱监督学习的物体检测及其在图像分类中的应用.《中国博士学位论文全文数据库 (信息科技辑)》.2019,I138-44. * |
基于LSTM特征提取的有限新息率畸变信号重构;刘狄 等;《电子学报》;20220228;217-225 * |
基于弱监督学习的物体检测及其在图像分类中的应用;唐芃;《中国博士学位论文全文数据库(信息科技辑)》;20190523;I138-44 * |
基于改进Mask R-CNN的交通监控视频车辆检测算法;陆飞 等;《南京师范大学学报(工程技术版)》;20201220;第20卷(第4期);44-50 * |
基于超像素和生成对抗网络视网膜血管分割方法;李孟歆 等;《集成技术》;20201115;第9卷(第6期);21-28 * |
李孟歆 等.一种基于超像素和生成对抗网络的视网膜血管分割方法.《集成技术》.2020,第9卷(第6期),21-28. * |
深度学习研究现状及其轨道交通领域的应用;熊群芳等;《控制与信息技术》;20180405;1-6 * |
熊群芳 等.深度学习研究现状及其在轨道交通领域的应用 .《控制与信息技术 》.2018,1-6. * |
陆飞 等.基于改进 Mask R-CNN 的交通监控视频车辆检测算法.《南京师范大学学报(工程技术版) 》.2020,第20卷(第4期),44-50. * |
Also Published As
Publication number | Publication date |
---|---|
CN112633402A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gribonval et al. | Sample complexity of dictionary learning and other matrix factorizations | |
CN111626300A (zh) | 基于上下文感知的图像语义分割模型及建模方法 | |
Jin et al. | Rc-darts: Resource constrained differentiable architecture search | |
CN111507521A (zh) | 台区电力负荷预测方法及预测装置 | |
CN111464881B (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN114445420B (zh) | 编解码结构结合注意力机制的图像分割模型及其训练方法 | |
CN114863407B (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
US20240135174A1 (en) | Data processing method, and neural network model training method and apparatus | |
CN114821169B (zh) | 微服务架构下的方法级无侵入调用链路追踪方法 | |
US11210474B2 (en) | Language processing using a neural network | |
CN111783935B (zh) | 卷积神经网络构建方法、装置、设备及介质 | |
CN111860790A (zh) | 一种提高深度残差脉冲神经网络精度以优化图像分类的方法及其系统 | |
CN112633402B (zh) | 一种实现动态计算的高精度高比例的分类模型及分类方法 | |
CN114639000A (zh) | 一种基于跨样本注意力聚合的小样本学习方法和装置 | |
CN113806645A (zh) | 标签分类系统及标签分类模型的训练系统 | |
CN111159450A (zh) | 图片分类方法、装置、计算机设备和存储介质 | |
CN112561050A (zh) | 一种神经网络模型训练方法及装置 | |
CN111783936B (zh) | 卷积神经网络构建方法、装置、设备及介质 | |
CN117852588A (zh) | 一种基于深层残差神经网络的ai芯片测评参数确定方法 | |
WO2021027257A1 (zh) | 计算机执行的、利用神经网络进行语言处理的方法及装置 | |
CN112836804A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111126617A (zh) | 一种选择融合模型权重参数的方法、装置及设备 | |
US20230161783A1 (en) | Device for accelerating self-attention operation in neural networks | |
CN116052040A (zh) | 基于多模态查询向量和置信度的指代视频分割方法 | |
Wei et al. | Activation Redistribution Based Hybrid Asymmetric Quantization Method of Neural Networks. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |