CN113642711B - 一种网络模型的处理方法、装置、设备和存储介质 - Google Patents
一种网络模型的处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113642711B CN113642711B CN202110937253.1A CN202110937253A CN113642711B CN 113642711 B CN113642711 B CN 113642711B CN 202110937253 A CN202110937253 A CN 202110937253A CN 113642711 B CN113642711 B CN 113642711B
- Authority
- CN
- China
- Prior art keywords
- loss
- network model
- outlier
- value
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 230000004913 activation Effects 0.000 claims abstract description 80
- 238000009826 distribution Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000013139 quantization Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 54
- 230000008569 process Effects 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 8
- 239000004973 liquid crystal related substance Substances 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 2
- 230000006403 short-term memory Effects 0.000 claims 2
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种网络模型的处理方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及深度学习技术领域。具体实现方案为:根据网络模型中网络层输出的特征点的特征值,确定网络模型中激活分布的门限值;采用激活分布的门限值对特征点进行处理,并确定特征点的离群损失;将网络模型的误差损失和所述离群损失,作为模型总损失;根据模型总损失,更新网络模型中的网络参数。本公开实施例能够降低量化损失且减少存储空间占用。
Description
技术领域
本公开涉及人工智能技术领域,具体为深度学习技术领域,尤其涉及一种网络模型的处理方法、装置、设备和存储介质。
背景技术
随着深度学习技术的飞速发展,人工神经网络等相关研究被推向高潮,其被应用于人工智能、计算机视觉、机器人控制等多个领域。
在网络模型中对于模型的训练一般需要复杂的过程和较长的时间,已保证训练的有效性和准确性。然而,神经网络的压缩问题成为深度学习领域的重要问题。
发明内容
本公开提供了一种用于网络模型的处理的方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种网络模型的处理方法,包括:
根据网络模型中网络层输出的特征点的特征值,确定网络模型中激活分布的门限值;
采用激活分布的门限值对特征点进行处理,并确定特征点的离群损失;
将网络模型的误差损失和所述离群损失,作为模型总损失;
根据模型总损失,更新网络模型中的网络参数。
根据本公开的另一方面,提供了一种网络模型的处理装置,包括:
门限确定模块,用于根据网络模型中网络层输出的特征点的特征值,确定网络模型中激活分布的门限值;
特征处理模块,用于采用激活分布的门限值对特征点进行处理,并确定特征点的离群损失;
损失合并模块,用于将网络模型的误差损失和所述离群损失,作为模型总损失;
参数更新模块,用于根据模型总损失,更新网络模型中的网络参数。
根据本公开的又一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任意实施例所提供的网络模型的处理方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任意实施例所提供的网络模型的处理方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任意实施例所提供的网络模型的处理方法。
根据本公开的技术,能够降低网络模型的量化损失。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种网络模型的处理方法的示意图;
图2是根据本公开实施例提供的另一种网络模型的处理方法的示意图;
图3是根据本公开实施例提供的又一种网络模型的处理方法的示意图;
图4是根据本公开实施例提供的一种网络模型的处理装置的示意图;
图5是用来实现本公开实施例的网络模型的处理方法的电子设备的框图;
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
以下结合附图,对本公开实施例提供的该方案进行详细说明。
图1是根据本公开实施例提供的一种网络模型的处理方法的示意图,本公开实施例可适用于对网络模型进行处理的情况。该方法可由一种网络模型的处理装置来执行,该装置可采用硬件和/或软件的方式来实现,可配置于电子设备中。参考图1,该方法具体包括如下:
S110、根据网络模型中网络层输出的特征点的特征值,确定网络模型中激活分布的门限值;
S120、采用激活分布的门限值对特征点进行处理,并确定特征点的离群损失;
S130、将网络模型的误差损失和所述离群损失,作为模型总损失;
S140、根据模型总损失,更新网络模型中的网络参数。
网络模型是指深度学习领域中的人工神经网络的训练模型,例如可以是卷积神经网络、循环神经网络、长短期记忆神经网络、小波神经网络等,对网络模型的网络结构不做具体限定。神经网络的网络模型可以包括输入层、隐含层和输出层三部分,其中隐含层可包括多个网络层,上一网络层的输出作为下一网络层的输入,以迭代方式对网络模型进行训练,本公开实施例中用于输出特征图(Feature map)的网络层可以为隐含层。特征图用于表征图像的特征(例如颜色特征、灰度特征等)。特征图对应于至少一个通道的特征矩阵,每个通道对应于图像的一种特征。特征点为特征矩阵中的元素。以8×8的特征矩阵为例,包括64个特征点。特征点的取值称为特征值,特征值可以为网络参数的表达式,因其根据激活函数计算得来,特征值也称为激活值。激活分布是指激活值的分布情况,即激活值的取值范围区间。
激活分布的门限值用于识别特征点中的离群点。采用激活分布的门限值对特征点进行处理可以包括:若任一特征点的特征值超出激活分布的门限值,则该特征点为离群点,且将该特征点的特征值与对应的门限值之间的距离作为该特征点的离群损失。
在激活分布分别具有最大门限值和最小门限值的情况下,最大门限值和最小门限值的绝对值可以相同,若任一特征点的特征值大于最大门限值,则该将特征点作为离群点,且将该特征点减去最大门限值的差值作为该特征点的离群损失;若任一特征点的特征值小于最小门限值,则将该特征点作为离群点,且将该特征点的特征值减去最小门限值的差值作为该特征点的离群损失。
网络模型的误差损失可以根据网络模型中输出层的实际输出值与理论输出值之间的差确定。通过将网络模型的误差损失与特征点的离群损失结合,作为模型总损失。并且,根据模型总损失对网络模型中的网络参数进行更新。需要说明的是,在根据模型总损失对网络参数更新过程中,可以对特征点的离群损失做第一运算处理,且对网络模型的误差损失做第二运算处理,第二运算处理可以为最小化处理,第一运算处理由网络模型决定,可以与第二运算处理不同,例如第二运算处理可以为最大化处理。通过根据激活分布的门限值识别特征点中的离群点,通过调整网络模型中的网络参数,使离群损失最小化,能够降低离群点与激活分布的门限值之间的距离,即能够降低离群点与激活分布之间的距离,从而在后续对网络模型进行网络量化过程中,能够降低因离群点引起的量化损失。
本公开实施例在模型训练过程中,不仅考虑网络模型的误差损失,还对特征点的离群损失进行最小化处理,能够降低离群点与激活分布之间的距离,从而在后续对网络模型进行网络量化过程中,能够降低因离群点引起的量化损失,并且通过网络量化还能够降低网络模型的存储空间占用,提高网络模型的处理速度。
在一种可选实施方式中,所述网络模型的处理方法还包括:在网络模型训练完成之后,对网络模型中的网络参数进行量化,得到轻量模型。
网络量化又称为低精度(Low precision)处理,是指降低网络参数的精度,可以将高精度的网络参数转化成低精度的网络参数,比如将用32位表达的浮点数转化成用8位、3位甚至2位等占用较少内存空间的形式进行存储。通过对网络模型中的网络参数进行量化,得到轻量的网络模型。网络量化不仅可以减少模型的内存空间占用,从而成倍的缩减人工神经网络的存储空间;并且,由于存放显存或者寄存器的数据更多,还能够加快网络运算速度。
图2是根据本公开实施例提供的另一种网络模型的处理方法的示意图,本实施例是在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的网络模型的处理方法包括:
S210、获取网络模型中网络层对当前样本数据进行处理所输出的当前特征点的当前特征值,且对所述当前特征值求绝对值得到当前绝对值;
S220、根据所述当前绝对值确定网络模型中激活分布的平均值;
S230、根据所述激活分布的平均值,确定所述激活分布的门限值;
S240、采用激活分布的门限值对特征点进行处理,并确定特征点的离群损失;
S250、将网络模型的误差损失和所述离群损失,作为模型总损失;
S260、根据模型总损失,更新网络模型中的网络参数。
当前样本数据指在当前训练过程中网络模型所输入的样本数据。为了统一对最大门限值和最小门限值进行处理,对网络层输出的每一个当前特征值进行绝对值运算,得到各当前绝对值,仍以网络层输出的8×8的特征矩阵为例,可以得到64个当前绝对值。并且,确定各当前绝对值的平均值。
由于激活分布应该属于均匀分布,故可以将2倍的平均值作为激活分布的最大值,即作为激活分布的门限值。即使特征矩阵中存在离群点,但是少量离群点对特征值的平均值的影响不会太大,即平均值偏差小于离群点偏差,通过根据平均值确定激活分布的门限值,能够降低离群点对激活分布的门限值的影响,提高门限值的准确度,从而提高后续离群损失的准确度。
在一个具体的例子中,在对当前样本数据进行处理过程中,网络层输出了一个8×8的特征矩阵,其中有64个当前特征值,每个当前特征值有正有负,为了提高处理效率对它们进行绝对值运算,得到了各当前特征值的绝对值,通过平均值运算,得到激活分布的平均值,假设此平均值为10,同时假设当前激活分布属于均匀分布,则根据均匀分布的特点,选择2倍的平均值作为当前网络层的门限值,即门限值为20,也就是所有的特征值的绝对值不大于20的特征点是正常特征点,绝对值大于20的特征点即为离群点。
在一种可选实施方式中,所述根据所述当前绝对值确定网络模型中激活分布的平均值,包括:对所述当前绝对值求平均,得到当前平均值;根据网络模型中激活分布的平均值、激活分布系数、当前平均值和当前系数,更新激活分布的平均值。
激活分布系数代表了之前的网络层产生的激活分布对网络模型的影响权重,当前系数代表当前激活分布对网络模型的影响权重,这两个系数均可为人为设定的。其中,激活分布系数远远大于当前系数,例如可以取激活分布系数为0.99,当前系数为0.01。
在一个具体的例子中,将S210中得到的一组绝对值求平均得当前平均值,再根据设定的激活分布系数和当前系数对激活分布的平均值进行重新计算。例如通过公式Mean=0.99×mean+0.01×mean(X)更新激活分布的平均值,其中,Mean是更新后的平均值,mean为历史激活分布的平均值,mean(X)是当前网络层输出的特征值的平均值,激活分布系数设为0.99,当前系数设为0.01。通过对激活分布的平均值进行平滑处理,能够降低当前样本数据异常对激活分布的平均值的影响,使网络训练更加平滑。例如,在某一样本数据为脏数据或噪声图片的情况下,能够降低该样本数据对激活分布的平均值的影响。
本公开实施例通过对当前网络层的平均值进行计算,根据不同的影响权重重新对激活分布的平均值进行调整,从而计算得出门限值,用以筛选所有特征点中不符合门限值的离群点,降低了离群点对网络层训练过程中的影响,提高了模型的准确率;并且,能够降低网络层的量化损失。
图3是根据本公开实施例提供的又一种网络模型的处理方法的示意图,本实施例是在上述实施例的基础上提出的一种可选方案。参见图3,本实施例提供的网络模型的处理方法包括:
S310、根据网络模型中网络层输出的特征点的特征值,确定网络模型中激活分布的门限值;
S320、采用激活分布的门限值对特征点进行处理,并确定特征点的离群损失;
S330、采用均衡系数对离群损失进行放大;
S340、将经放大的离群损失与网络模型的误差损失之和,作为模型总损失;
S350、根据模型总损失,更新网络模型中的网络参数。
均衡系数是用于对离群损失进行放大的,以提高离群损失的权重,其可以人为设定,例如可以为10。由于网络模型的误差损失和离群损失处于不同的数量级,离群损失的实际值远远小于误差损失的实际值,导致离群损失的作用体现不明显。因此采用均衡系数对离群损失进行放大,在保证误差损失能够达到条件的同时,还能够使得离群损失满足最大条件,平衡了两种误差之间的数量级的差距,从而达到均衡两种损失的效果。通过均衡系数提高离群损失数量级的方法可以有效均衡误差损失和离群损失对网络模型的影响。
在一种可选实施方式中,所述均衡系数为网络模型的误差损失与离群损失的比值。
由于网络模型的误差损失和离群损失处于不同的数量级,则通过均衡系数为离群损失提高至和误差损失同等的数量级,因此将误差损失和离群损失的比值作为用以提高数量级的均衡系数。由于人为设定固定值平衡两种损失可能导致二者被平衡的不够精细、准确,因此该均衡系数选取误差损失和离群损失的比值,不论两种损失的数量级如何改变,该比值必定可以将离群损失的数量级提高至误差损失同等大小,因此这样设置均衡系数可以跟随两种损失的变化而变化,起到动态平衡两种损失的效果。
在一种可选实施方式中,采用激活分布的门限值对特征点进行处理,并确定特征点的离群损失,包括:
根据如下公式确定特征点的离群损失:
Loss1=Min{[(X–Max)+abs(X–Max)]/2};
其中,Loss1为特征点的离群损失,X为特征点的绝对值,Max为激活分布的门限值,abs()为求绝对值,Min()为最小化处理。
具体的,(X–Max)是特征点的绝对值减去激活分布的门限值。若(X–Max)值为负,则证明该特征点是位于门限值范围内的正常特征点,将(X–Max)值取绝对值,相加后结果为零,相互抵消,则此正常特征点不存在离群损失。若(X–Max)值为正,则证明该特征点是位于门限值范围外的离群点,(X–Max)和abs(X–Max)值相等,相加后除以2得到(X–Max)值,再进行最小化处理,即得到该离群点的离群损失。在模型参数更新过程中,通过对离群损失进行最小化处理,能够降低离群点和激活分布之间的损失差距,从而进一步提高网络模型训练的精度,增强了网络模型训练的效率。
本公开实施例通过特征点的离群损失公式筛选离群点并计算出其离群损失,并将离群损失放大至和误差损失同等数量级,平衡了两种损失对网络模型的影响,降低了量化过程中的量化损失,通过负反馈调节了输入参数,提高了网络模型的训练效率。
图4是根据本公开实施例提供的一种网络模型的处理装置的示意图,本实施例可适用于网络模型的量化的情况,该装置配置于电子设备中,可实现本公开任意实施例所述的网络模型的处理方法。参考图4,该网络模型的处理装置400具体包括如下:
门限确定模块410,用于根据网络模型中网络层输出的特征点的特征值,确定网络模型中激活分布的门限值;
特征处理模块420,用于采用激活分布的门限值对特征点进行处理,并确定特征点的离群损失;
损失合并模块430,用于将网络模型的误差损失和所述离群损失,作为模型总损失;
参数更新模块440,用于根据模型总损失,更新网络模型中的网络参数。
在一种可选实施方式中,所述门限确定模块410包括:
绝对值单元,用于获取网络模型中网络层对当前样本数据进行处理所输出的当前特征点的当前特征值,且对所述当前特征值求绝对值得到当前绝对值;
平均值单元,用于根据所述当前绝对值确定网络模型中激活分布的平均值;
门限值单元,用于根据所述激活分布的平均值,确定所述激活分布的门限值。
在一种可选实施方式中,所述平均值单元包括:
平均值子单元,用于对所述当前绝对值求平均,得到当前平均值;
更新子单元,用于根据网络模型中激活分布的平均值、激活分布系数、当前平均值和当前系数,更新激活分布的平均值。
在一种可选实施方式中,所述特征处理模块420包括:
根据如下公式确定特征点的离群损失:
Loss1=Min{[(X–Max)+abs(X–Max)]/2};
其中,Loss1为特征点的离群损失,X为特征点的绝对值,Max为激活分布的门限值,abs()为求绝对值,Min()为最小化处理。
在一种可选实施方式中,所述损失合并模块430包括:
损失放大单元,用于采用均衡系数对离群损失进行放大;
损失合并单元,用于将经放大的离群损失与网络模型的误差损失之和,作为模型总损失。
在一种可选实施方式中,所述均衡系数为网络模型的误差损失与离群损失的比值。
在一种可选实施方式中,所述网络模型的处理装置还包括:
量化模块,用于在网络模型训练完成之后,对网络模型中的网络参数进行量化,得到轻量模型。
本公开实施例的技术方案所提供的一种网络模型的处理装置可执行本公开任意实施例所提供的网络模型的处理方法,具备执行网络模型的处理方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如网络模型的处理方法。例如,在一些实施例中,网络模型的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的网络模型的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行网络模型的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (14)
1.一种网络模型的处理方法,包括:
获取网络模型中网络层对当前样本数据进行处理所输出的当前特征点的当前特征值,且对所述当前特征值求绝对值得到当前绝对值;其中,所述网络模型包括:卷积神经网络、循环神经网络、长短期记忆神经网络和小波神经网络;所述特征点为特征图对应的至少一个通道的特征矩阵中的元素;所述特征图用于表征图像的颜色特征和/或灰度特征;
根据所述当前绝对值确定网络模型中激活分布的平均值;
根据所述激活分布的平均值,确定所述激活分布的门限值;
将特征点的特征值与对应的门限值之间的距离,作为该特征点的离群损失;
将网络模型的误差损失与所述离群损失结合,作为模型总损失;
根据模型总损失,更新网络模型中的网络参数。
2.根据权利要求1所述的方法,其中,所述根据所述当前绝对值确定网络模型中激活分布的平均值,包括:
对所述当前绝对值求平均,得到当前平均值;
根据网络模型中激活分布的平均值、激活分布系数、当前平均值和当前系数,更新激活分布的平均值。
3.根据权利要求1-2中任一项所述的方法,其中,所述将特征点的特征值与对应的门限值之间的距离,作为该特征点的离群损失,包括:
根据如下公式确定特征点的离群损失:
Loss1=Min{[(X–Max)+abs(X–Max)]/2};
其中,Loss1为特征点的离群损失,X为特征点的绝对值,Max为激活分布的门限值,abs()为求绝对值,Min()为最小化处理。
4.根据权利要求1-2中任一项所述的方法,其中,所述将网络模型的误差损失与所述离群损失结合,作为模型总损失,包括:
采用均衡系数对离群损失进行放大;
将经放大的离群损失与网络模型的误差损失之和,作为模型总损失。
5.根据权利要求4所述的方法,其中,所述均衡系数为网络模型的误差损失与离群损失的比值。
6.根据权利要求1-2中任一项所述的方法,还包括:
在网络模型训练完成之后,对网络模型中的网络参数进行量化,得到轻量模型。
7.一种网络模型的处理装置,包括:
门限确定模块,用于根据网络模型中网络层输出的特征点的特征值,确定网络模型中激活分布的门限值;其中,所述网络模型包括:卷积神经网络、循环神经网络、长短期记忆神经网络和小波神经网络;所述特征点为特征图对应的至少一个通道的特征矩阵中的元素;所述特征图用于表征图像的颜色特征和/或灰度特征;
特征处理模块,用于将特征点的特征值与对应的门限值之间的距离,作为该特征点的离群损失;
损失合并模块,用于将网络模型的误差损失与所述离群损失结合,作为模型总损失;
参数更新模块,用于根据模型总损失,更新网络模型中的网络参数;
其中,所述门限确定模块包括:
绝对值单元,用于获取网络模型中网络层对当前样本数据进行处理所输出的当前特征点的当前特征值,且对所述当前特征值求绝对值得到当前绝对值;
平均值单元,用于根据所述当前绝对值确定网络模型中激活分布的平均值;
门限值单元,用于根据所述激活分布的平均值,确定所述激活分布的门限值。
8.根据权利要求7所述的装置,其中,所述平均值单元包括:
平均值子单元,用于对所述当前绝对值求平均,得到当前平均值;
更新子单元,用于根据网络模型中激活分布的平均值、激活分布系数、当前平均值和当前系数,更新激活分布的平均值。
9.根据权利要求7所述的装置,其中,所述特征处理模块具体用于:
根据如下公式确定特征点的离群损失:
Loss1=Min{[(X–Max)+abs(X–Max)]/2};
其中,Loss1为特征点的离群损失,X为特征点的绝对值,Max为激活分布的门限值,abs()为求绝对值,Min()为最小化处理。
10.根据权利要求7所述的装置,其中,所述损失合并模块包括:
损失放大单元,用于采用均衡系数对离群损失进行放大;
损失合并单元,用于将经放大的离群损失与网络模型的误差损失之和,作为模型总损失。
11.根据权利要求10所述的装置,其中,所述均衡系数为网络模型的误差损失与离群损失的比值。
12.根据权利要求7-11中任一项所述的装置,还包括:
量化模块,用于在网络模型训练完成之后,对网络模型中的网络参数进行量化,得到轻量模型。
13. 一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110937253.1A CN113642711B (zh) | 2021-08-16 | 2021-08-16 | 一种网络模型的处理方法、装置、设备和存储介质 |
PCT/CN2022/110208 WO2023020289A1 (zh) | 2021-08-16 | 2022-08-04 | 网络模型的处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110937253.1A CN113642711B (zh) | 2021-08-16 | 2021-08-16 | 一种网络模型的处理方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642711A CN113642711A (zh) | 2021-11-12 |
CN113642711B true CN113642711B (zh) | 2023-10-31 |
Family
ID=78422030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110937253.1A Active CN113642711B (zh) | 2021-08-16 | 2021-08-16 | 一种网络模型的处理方法、装置、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113642711B (zh) |
WO (1) | WO2023020289A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642711B (zh) * | 2021-08-16 | 2023-10-31 | 北京百度网讯科技有限公司 | 一种网络模型的处理方法、装置、设备和存储介质 |
CN115034388B (zh) * | 2022-07-07 | 2023-04-28 | 北京百度网讯科技有限公司 | 排序模型的量化参数的确定方法、装置及电子设备 |
CN116542298A (zh) * | 2023-05-19 | 2023-08-04 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414679A (zh) * | 2019-08-02 | 2019-11-05 | 厦门美图之家科技有限公司 | 模型训练方法、装置、电子设备和计算机可读存储介质 |
CN110782021A (zh) * | 2019-10-25 | 2020-02-11 | 浪潮电子信息产业股份有限公司 | 一种图像分类方法、装置、设备及计算机可读存储介质 |
US10778707B1 (en) * | 2016-05-12 | 2020-09-15 | Amazon Technologies, Inc. | Outlier detection for streaming data using locality sensitive hashing |
CN112308201A (zh) * | 2019-07-31 | 2021-02-02 | 中科寒武纪科技股份有限公司 | 神经网络量化方法、装置、芯片、电子设备及板卡 |
CN113011581A (zh) * | 2021-02-23 | 2021-06-22 | 北京三快在线科技有限公司 | 神经网络模型压缩方法、装置、电子设备及可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11961001B2 (en) * | 2017-12-15 | 2024-04-16 | Nvidia Corporation | Parallel forward and backward propagation |
CN111914946B (zh) * | 2020-08-19 | 2021-07-06 | 中国科学院自动化研究所 | 针对离群点移除方法的对抗样本生成方法、系统和装置 |
CN113191973B (zh) * | 2021-04-29 | 2023-09-01 | 西北大学 | 一种基于无监督网络框架的文物点云数据去噪方法 |
CN113221812A (zh) * | 2021-05-26 | 2021-08-06 | 广州织点智能科技有限公司 | 人脸关键点检测模型的训练方法和人脸关键点检测方法 |
CN113642711B (zh) * | 2021-08-16 | 2023-10-31 | 北京百度网讯科技有限公司 | 一种网络模型的处理方法、装置、设备和存储介质 |
-
2021
- 2021-08-16 CN CN202110937253.1A patent/CN113642711B/zh active Active
-
2022
- 2022-08-04 WO PCT/CN2022/110208 patent/WO2023020289A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10778707B1 (en) * | 2016-05-12 | 2020-09-15 | Amazon Technologies, Inc. | Outlier detection for streaming data using locality sensitive hashing |
CN112308201A (zh) * | 2019-07-31 | 2021-02-02 | 中科寒武纪科技股份有限公司 | 神经网络量化方法、装置、芯片、电子设备及板卡 |
CN110414679A (zh) * | 2019-08-02 | 2019-11-05 | 厦门美图之家科技有限公司 | 模型训练方法、装置、电子设备和计算机可读存储介质 |
CN110782021A (zh) * | 2019-10-25 | 2020-02-11 | 浪潮电子信息产业股份有限公司 | 一种图像分类方法、装置、设备及计算机可读存储介质 |
CN113011581A (zh) * | 2021-02-23 | 2021-06-22 | 北京三快在线科技有限公司 | 神经网络模型压缩方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
监督学习中的损失函数及应用研究;邓建国;张素兰;张继福;荀亚玲;刘爱琴;;大数据(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2023020289A1 (zh) | 2023-02-23 |
CN113642711A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113642711B (zh) | 一种网络模型的处理方法、装置、设备和存储介质 | |
CN112560996B (zh) | 用户画像识别模型训练方法、设备、可读存储介质及产品 | |
CN112580732B (zh) | 模型训练方法、装置、设备、存储介质和程序产品 | |
CN113642710B (zh) | 一种网络模型的量化方法、装置、设备和存储介质 | |
CN113962362A (zh) | 强化学习模型训练方法、决策方法、装置、设备及介质 | |
CN112818387A (zh) | 模型参数调整的方法、设备、存储介质及程序产品 | |
CN113436105A (zh) | 模型训练和图像优化方法、装置、电子设备及存储介质 | |
CN115147680B (zh) | 目标检测模型的预训练方法、装置以及设备 | |
CN114742237A (zh) | 联邦学习模型聚合方法、装置、电子设备及可读存储介质 | |
CN114492794A (zh) | 用于处理数据的方法、装置、设备、介质和产品 | |
CN113052063A (zh) | 置信度阈值选择方法、装置、设备以及存储介质 | |
CN115759209B (zh) | 神经网络模型的量化方法、装置、电子设备及介质 | |
CN115457365B (zh) | 一种模型的解释方法、装置、电子设备及存储介质 | |
CN112749679B (zh) | 模型的训练方法、人脸识别方法、装置、设备和介质 | |
CN113792804A (zh) | 图像识别模型的训练方法、图像识别方法、装置及设备 | |
CN112651453A (zh) | 损失函数的自适应方法、装置、设备和存储介质 | |
CN116702861B (zh) | 深度学习模型的压缩方法、训练方法、处理方法和装置 | |
CN116611495B (zh) | 深度学习模型的压缩方法、训练方法、处理方法及装置 | |
CN113361575B (zh) | 模型训练方法、装置和电子设备 | |
CN112308199B (zh) | 数据块的处理方法、装置及存储介质 | |
CN115546701A (zh) | 匹配特征确定方法、装置及电子设备 | |
US20220261619A1 (en) | Data block processing method and apparatus, device, and storage medium | |
CN112653885B (zh) | 视频重复度获取方法、电子设备及存储介质 | |
CN113362428B (zh) | 用于配置颜色的方法、装置、设备、介质和产品 | |
CN116631318A (zh) | 显示面板及其调试方法、调试装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |