CN113255901A - 实时量化方法及实时量化系统 - Google Patents

实时量化方法及实时量化系统 Download PDF

Info

Publication number
CN113255901A
CN113255901A CN202110759386.4A CN202110759386A CN113255901A CN 113255901 A CN113255901 A CN 113255901A CN 202110759386 A CN202110759386 A CN 202110759386A CN 113255901 A CN113255901 A CN 113255901A
Authority
CN
China
Prior art keywords
quantization
feature map
calculating
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110759386.4A
Other languages
English (en)
Other versions
CN113255901B (zh
Inventor
梁军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qigan Electronic Information Technology Co ltd
Original Assignee
Shanghai Qigan Electronic Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qigan Electronic Information Technology Co ltd filed Critical Shanghai Qigan Electronic Information Technology Co ltd
Priority to CN202110759386.4A priority Critical patent/CN113255901B/zh
Publication of CN113255901A publication Critical patent/CN113255901A/zh
Application granted granted Critical
Publication of CN113255901B publication Critical patent/CN113255901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种实时量化方法及用于执行所述实时量化方法的实时量化系统。所述实时量化方法包括输入原始特征图,依据所述原始特征图得到数据最大值和数据最小值;依据所述数据最大值和所述数据最小值,计算初始量化因子;进行速度量化流程和优化量化流程中的任一流程,依据所述初始量化因子,依次计算量化因子对、第一特征图和第二特征图,直接在线上实时量化原始特征图,避免了线下量化不能很好地量化全部的输入数据的问题,解决了深度神经网络计算量高的问题,提高了深度神经网络的计算效率。通过计算量化因子对,提高了量化精度。适用性更广,量化数据更完整,量化结果更可靠。

Description

实时量化方法及实时量化系统
技术领域
本发明涉及深度神经网络技术领域,尤其涉及一种实时量化方法及实时量化系统。
背景技术
深度神经网络是基于学习的方法的一种,其通过逐层抽象特征 ,组合底层抽象形成高层特征抽象,来发现数据的特征,解决不同的数据表示问题。其拓扑结构和计算方式模拟人脑神经系统 ,事实证明可准确地感知数据特征。深度神经网络包括CNN,DNN,RNN等结构。近年基于深度神经网络的方法的目标图像识,语音识别,大数据分析等方面别得到很好的效果。
但是深度神经网络结构复杂,规模大,计算量高,对应用深度神经网络的使用条件提出较高要求,这成为现在主要问题之一。
公开号为CN 112200275 A的发明专利,公开了人工神经网络的量化方法及装置,所述量化方法包括:根据图像集中的部分图像,来计算理想分布p;根据理想分布p,来从图像集中筛选出用于对该人工神经网络进行量化的量化图集;采用所述量化图集来对该人工神经网络进行量化。该发明提高了人工神经网络的量化精度,降低因网络压缩而造成的性能损失,实现筛选量化图片的自动化,在原始数据集较大时可极大地提升图像选择的效率,同时也大量节省人的时间与精力。该发明采用从图片集的部分图像中选取一个量化因子使得最终的推理结果和原始数据推理结果的相似度最大,从而实现人工神经网络的量化。而这一过程中并不是网络推理过程实时进行的,而是在部署推理之前提前计算好的,提前计算好网络每一层图像的量化因子存在以下不足:
其一,对于不同
的输入使用同一套量化因子进行优化,只能对多数输入进行量化,不能很好地量化的所有的个体输入,即有少数的输入数据得不到很好地量化。
其二,线下量化时选取的图片集并不能包含所有可能的输入分布,即输入分布中未选取的图片集不能得到很好的量化,所以得出的量化位不能对所有可能的输入分布都有很好的表现。
因此,有必要提供实时量化方法及实时量化系统以解决上述的现有技术中存在的问题。
发明内容
本发明的目的在于提供一种实时量化方法及实时量化系统,以解决深度神经网络计算量高、线下量化不能很好的量化全部输入数据的问题。
为实现上述目的,本发明的所述实时量化方法包括步骤:
S1:输入原始特征图,依据所述原始特征图得到数据最大值和数据最小值;
S2:依据所述数据最大值和所述数据最小值,计算初始量化因子;
S3:进行速度量化流程和优化量化流程中的任一流程,依据所述初始量化因子,依次计算量化因子对、第一特征图和第二特征图。
本发明的所述实时量化方法的有益效果在于:
先输入原始特征图,然后依据所述原始特征图计算出量化因子、量化因子对,并依据量化因子对进一步计算第一特征图和第二特征图,直接在线上实时量化原始特征图,因此不用提前预设量化因子,避免了线下量化不能很好地量化全部的输入数据的问题,解决了深度神经网络计算量高的问题,提高了深度神经网络的计算效率。通过计算量化因子对,提高了量化精度。并且可以依据量化需求选择速度量化流程或优化量化流程,为量化提供了更多的选择和更大的容错率的同时,也使得本发明的所述实时量化方法适用于不同的应用场景,适用性更广,量化数据更完整,量化结果更可靠。
优选地,步骤S3中,所述计算初始量化因子包括:
依据所述原始特征图得到原始特征图的数据总量、原始数据最大值和原始数据最小值,计算所述原始数据最大值和原始数据最小值的差值;
将所述原始数据最大值和原始数据最小值的差值除以所述原始特征图的数据总量,得到所述初始量化因子。其有益效果在于:本发明的所述初始量化因子依据所述原始特征图中原始数据最大值和原始数据最小值来计算而得出,兼顾了原始特征图中的最大数据值和最小数据值,适用于原始特征图中的数据在0的左右两侧分布不均匀的场景,从而求得的所述初始量化因子更加准确可靠,可对在原始特征图中0的两侧分布不均匀的的所有数据进行量化。
优选地,所述原始特征图的数据总量为所述原始特征图的数据中所有的浮点值和所有的整数的数量总和。
优选地,步骤S3中,进行所述速度量化流程包括步骤:
S300:依据所述初始量化因子,计算所述量化因子对;
S301:依据所述量化因子对计算所述第一特征图;
S302:依据所
述第一特征图计算零点值;
S303:依据步骤S301的所述第一特征图和步骤S302的所述零点值,计算第二特征图。步骤S300至步骤S303的有益效果在于:依次计算量化因子对、第一特征图、零点值和第二特征图,以最快速率地量化原始特征图中的数据,提高了量化速度。
进一步优选地,步骤S302中,所述依据所述第一特征图计算零点值包括,依据所述第一特征图得到第一数据最大值和第一数据最小值,计算所述第一数据最大值和所述第一数据最小值的中点,得到所述零点值。其有益效果在于:计算的所述零点值和所述量化因子对,可以在所述原始特征图中的0的两侧数据不均匀的情况下实现非对称量化,并且可以利用0两侧值域的数据,充分利用所述原始特征图的所有值域范围,从而提升了量化精度。
优选地,步骤S3中,进行所述优化量化流程包括步骤:
S310:预设搜索范围和遍历次数;
S311:依据所述初始量化因子、所述搜索范围和所述遍历次数,计算若干二次量化因子;
S312:依次计算每个所述二次量化因子的量化因子对和所述原始量化因子的量化因子对,得到若干量化因子对;
S313:依据所述若干量化因子对,计算得到若干第一特征图;
S314:依据所述若干第一特征图,依次计算每一个所述第一特征图对应的零点值和第二特征图;
S315:依次计算步骤S314中的所述第二特征图的指标分数,根据所述指标分数选择最优的第二特征图作为量化结果输出。步骤S310至步骤S315的有益效果在于:通过预设搜索范围和遍历次数,依次计算若干二次量化因子、若干量化因子对、若干第一特征图和若干第二特征图,并通过计算所述第二特征图的指标分数,从而选择最优的第二特征图作为量化结果输出,进一步优化量化操作,对原始特征图进行多次量化操作,取其最佳量化结果,从而进一步提高量化精度,提高量化结果的可靠性。
进一步优选地,步骤S314中,所述零点值为所述第一特征图的数据最大值和数据最小值的中点值。
进一步优选地,步骤S315中,计算所述第二特征图的指标分数包括:依次计算每一个所述第二特征图相对于所述原始特征图的KL散度,并对若干所述KL散度进行排序,判定所述KL散度最小的所述第二特征图为所述最优的第二特征图。
进一步优选地,步骤S315中,计算所述第二特征图的指标分数包括:依次计算每一个所述第二特征图与所述原始特征图的余弦相似度得到若干余弦相似度,并对所述若干所述余弦相似度进行排序,判定最大的所述余弦相似度对应的所述第二特征图为所述最优的第二特征图。
进一步优选地,步骤S315中,计算所述第二特征图的指标分数包括:依次计算每一个所述第二特征图相对于所述原始特征图的KL散度和余弦相似度;
设置第一系数和第二系数,所述第一系数和所述第二系数的和为1;
使用所述第一系数分别乘以每个所述KL散度得到若干优化KL散度;
分别计算1减去每个余弦相似度得到若干差值,使用第二系数分别乘以每个所述差值得到若干优化余弦相似度;
对每个第二特征图对应的优化KL散度和优化余弦相似度分别进行求和,得到若干综合指标分数,在所述若干综合指标分数中判定取值最小的所述综合指标分数对应的所述第二特征图为最优的第二特征图。
优选地,还包括步骤S4:将所述第一特征图和神经网络权重的卷积计算转换为所述第二特征图和所述神经网络权重的卷积与所述零点值和所述神经网络权重的卷积的和;
计算所述神经网络权重的在不同维度方向上的和,得到权重自累加值;
将所述零点值和神经网络权重的卷积转换为所述零点值和所述权重自累加值的乘积。其有益效果在于:将第一特征图与神经网络权重的卷积计算转化为第二特征图和神经网络权重的卷积与所述零点值和所述神经网络权重的卷积的和,并将零点值和神经网络权重的卷积转换为零点值和神经网络权重自累加值的乘积,从而极大地减少了卷积计算步骤,大大降低了量化的计算量和计算难度。
进一步优选地,计算所述神经网络权重的在其不同维度方向上的和,得到权重自累加值包括:
将所述神经网络权重拆分为若干子权重,所述子权重为立方体矩阵;
分别计算每一个所述立方体矩阵在不同维度方向上的元素累加的和,得到若干子权重的值,对所有的所述子权重的值进行求和,得到所述权重自累加值。
进一步优选地,所述第二特征图和所述神经网络权重的卷积计算与所述零点值和所述神经网络权重的卷积计算同时进行。其有益效果在于:第二特征图和神经网络权重的卷积计算与零点值和神经网络权重的卷积计算同时进行,零点值和神经网络权重的卷积计算不占用第二特征图和所述神经网络权重的卷积的计算时间,而零点值和神经网络权重的卷积计算步骤少、时间短,从而降低了第一特征图和神经网络权重的卷积计算步骤和时间,提高了卷积计算效率。
本发明还提供一种实时量化系统,包括:
输入模块,用于输入原始特征图;
排序模块,与所述输入模块连接,依据所述原始特征图得到数据最大值和数据最小值;
计算模块,与所述排序模块和所述输入模块连接,用于计算初始量化因子;
选择模块,与所述输入模块和所述计算模块连接,用于选择速度量化流程和优化量化流程中的任一流程;
存储模块,与所述输入模块和所述选择模块连接,用于存储所述原始特征图、第一特征图和第二特征图。
本发明的所述实时量化系统的有益效果在于:
通过输入模块输入原始特征图,然后通过计算模块计算初始量化因子,直接在线上实时量化原始特征图,避免了线下量化不能很好地量化全部的输入数据的问题。选择模块依据量化需求选择速度量化流程或优化量化流程,为量化提供了更多的选择和更大的容错率的同时,也使得本发明的所述实时量化方法适用于不同的应用场景,适用性更广,量化数据更完整,量化结果更可靠。
优选地,所述计算模块还用于依据所述初始量化因子计算所述量化因子对、所述第一特征图和所述第二特征图。其有益效果在于:通过计算量化因子对,提高了量化精度。
附图说明
图1为本发明的实时量化方法的流程图;
图2为本发明的速度量化流程的流程图;
图3为本发明的优化量化流程的流程图;
图4为本发明的实时量化系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另外定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
针对现有技术存在的问题,本发明的实施例提供了一种实时量化方法,图1为本发明的实时量化方法的流程图。参照图1,本发明的所述实时量化方法包括步骤:
S1:输入原始特征图,依据原始特征图得到数据最大值和数据最小值;
S2:依据数据最大值和数据最小值,计算初始量化因子;
S3:进行速度量化流程和优化量化流程中的任一流程,依据初始量化因子,依次计算量化因子对、第一特征图和第二特征图;
S4:将第一特征图和神经网络权重的卷积计算转换为第二特征图和神经网络权重的卷积与零点值和神经网络权重的卷积的和;
计算神经网络权重的在其不同维度方向上的和,得到权重自累加值;
将零点值和神经网络权重的卷积转换为零点值和神经网络权重自累加值的乘积。步骤S4的优点在于:将第一特征图与神经网络权重的卷积计算转化为第二特征图和神经网络权重的卷积与零点值和神经网络权重的卷积的和,并将零点值和神经网络权重的卷积计算转换为零点值和神经网络权重自累加值的乘积计算,从而极大地减少了卷积计算步骤,大大降低了量化的计算量和计算难度。
本发明的实时量化方法的优点在为:
先输入原始特征图,然后依据原始特征图计算出量化因子、量化因子对,并依据量化因子对计算第一特征图和第二特征图,直接在线上实时量化原始特征图,避免了线下量化不能很好地量化全部的输入数据的问题,解决了深度神经网络计算量高的问题,提高了深度神经网络的计算效率。通过计算量化因子对,提高了量化精度。并且可以依据量化需求选择速度量化流程或优化量化流程,为量化提供了更多的选择和更大的容错率的同时,也使得本发明的实时量化方法适用于不同的应用场景,适用性更广,量化数据更完整,量化结果更可靠。
作为本发明一种优选的实施方式,步骤S3中,计算初始量化因子包括:
依据原始特征图得到原始特征图的数据总量、原始数据最大值和原始数据最小值,计算原始数据最大值和原始数据最小值的差值;
将原始数据最大值和原始数据最小值的差值除以原始特征图的数据总量,得到初始量化因子。其优点为:本发明的初始量化因子依据原始特征图中原始数据最大值和原始数据最小值来计算而得出,兼顾了原始特征图中的最大数据值和最小数据值,适用于原始特征图中的数据在0的左右两侧分布不均匀的场景,从而求得的初始量化因子更加准确可靠,可对在原始特征图中0的两侧分布不均匀的的所有数据进行量化。
作为本发明一种优选的实施方式,原始特征图的数据总量为原始特征图的数据中所有的浮点值和所有的整数的数量总和。
作为本发明一种优选的实施方式,图2为本发明的速度量化流程的流程图。参照图2,进行速度量化流程包括步骤:
S300:依据初始量化因子,计算量化因子对;
S301:依据量化因子对计算第一特征图;
S302:依据第一特征图计算零点值;
S303:依据步骤S301的第一特征图和步骤S302的零点值,计算第二特征图。步骤S300至步骤S303的优点为:依次计算量化因子对、第一特征图、零点值和第二特征图,以最快速率地量化原始特征图中的数据,提高了量化速度。
作为本发明一种优选的实施方式,步骤S302中,计算零点值包括:依据第一特征图得到第一数据最大值和第一数据最小值,计算第一数据最大值和第一数据最小值的中点,得到零点值。其优点在于:计算的零点值和量化因子对,可以在原始特征图中的0的两侧数据不均匀的情况下实现非对称量化,并且可以利用0两侧值域的数据,充分利用原始特征图的所有值域范围,从而提升了量化精度。
作为本发明一种优选的实施方式,图2为本发明的速度量化流程的流程图。参照图3,进行优化量化流程包括步骤:
S310:预设搜索范围和遍历次数;
S311:依据初始量化因子、搜索范围和遍历次数,计算若干二次量化因子;
S312:依次计算每个二次量化因子的量化因子对和原始量化因子的量化因子对,得到若干量化因子对;
S313:依据若干量化因子对,计算得到若干第一特征图;
S314:依据若干第一特征图,依次计算每一个第一特征图对应的零点值和第二特征图;
S315:依次计算步骤S314中的第二特征图的指标分数,根据所述指标分数选择最优的第二特征图作为量化结果输出。步骤S310至步骤S315的优点在于:通过预设搜索范围和遍历次数,依次计算若干二次量化因子、若干量化因子对、若干第一特征图和若干第二特征图,并通过计算第二特征图的指标分数,从而选择最优的第二特征图作为量化结果输出,优化量化操作,对原始特征图进行多次量化操作,取其最佳量化结果,从而提高量化精度,提高量化结果的可靠性。
作为本发明一种优选的实施方式,步骤S314中,零点值为第一特征图的数据最大值和数据最小值的中点值。
作为本发明一种优选的实施方式,步骤S315中,计算第二特征图的指标分数包括:依次计算每一个第二特征图相对于原始特征图的KL散度得到若干KL散度,并对若干KL散度进行排序,判定KL散度最小的第二特征图为最优的第二特征图。
作为本发明一种优选的实施方式,步骤S315中,计算第二特征图的指标分数包括:依次计算每一个第二特征图与原始特征图的余弦相似度得到若干余弦相似度,并对若干余弦相似度进行排序,判定最大的余弦相似度对应的第二特征图为最优的第二特征图。
作为本发明一种优选的实施方式,步骤S315中,计算第二特征图的指标分数包括:依次计算每一个第二特征图相对于原始特征图的KL散度和余弦相似度;
设置第一系数和第二系数,第一系数和第二系数的和为1;
使用第一系数分别乘以KL散度得到若干优化KL散度;
分别计算1减去每个余弦相似度得到若干差值,使用第二系数乘以若干差值得到优化余弦相似度;
对每个第二特征图对应的优化KL散度和优化余弦相似度进行求和,得到若干综合指标分数,在若干综合指标分数中判定取值最小的综合指标分数对应的第二特征图为最优的第二特征图。
在本发明的一种具体实施方式中,综合指标分数的计算公式为:
Figure 834614DEST_PATH_IMAGE001
Figure 790938DEST_PATH_IMAGE002
其中,fraction为综合指标分数,α为第一参数,β为第二参数,KL为KL散度,cosinesimilarity为余弦相似度。
在一些实施方式中,α=0.5,β=0.5。
作为本发明一种优选的实施方式,第二特征图等于第一特征图减去零点值的差。
作为本发明一种优选的实施方式,计算神经网络权重的在其不同维度方向上的和,得到权重自累加值包括:
将神经网络权重拆分为若干子权重,子权重为立方体矩阵;
分别计算每一个立方体矩阵在不同维度方向上的元素累加的和,得到若干子权重的值;对所有的子权重的值进行求和,得到权重自累加值。
作为本发明一种优选的实施方式,第二特征图和神经网络权重的卷积计算与零点值和神经网络权重的卷积计算同时进行。其优点在于:第二特征图和神经网络权重的卷积计算与零点值和神经网络权重的卷积计算同时进行,零点值和神经网络权重的卷积计算不占用第二特征图和神经网络权重的卷积计算时间,而零点值和神经网络权重的卷积计算步骤少、时间短,从而降低了第一特征图和神经网络权重的卷积计算步骤和时间,提高了卷积计算效率。
图4为本发明的实时量化系统的结构示意图。参照图4,本发明还提供一种实时量化系统,包括:
输入模块1,用于输入原始特征图;输入模块1包括预设单元10,用于预设相关参数,如预设搜索范围和遍历次数。
排序模块2,与输入模块1连接,依据原始特征图得到数据最大值和数据最小值;
计算模块3,与排序模块2和输入模块1连接,用于计算初始量化因子;
选择模块4,与输入模块1和计算模块3连接,用于选择速度量化流程和优化量化流程中的任一流程;
存储模块5,与输入模块1和选择模块4连接,用于存储原始特征图、第一特征图和第二特征图。
还包括判定选出模块6,判定选出模块6与排序模块2连接,判定选出模块2的排序结果,判定最优的第二特征图,并将最优的第二特征图作为量化的结果输出。
本发明的实时量化系统的优点在于:
通过输入模块1输入原
始特征图,然后通过计算模块3计算初始量化因子,直接在线上实时量化原始特征图,避免了线下量化不能很好地量化全部的输入数据的问题。选择模块4依据量化需求选择速度量化流程或优化量化流程,为量化提供了更多的选择和更大的容错率的同时,也使得本发明的实时量化方法适用于不同的应用场景,适用性更广,量化数据更完整,量化结果更可靠。
作为本发明一种优选的实施方式,计算模块4还用于依据初始量化因子计算量化因子对、第一特征图和第二特征图。其优点在于:通过计算量化因子对,提高了量化精度。
作为本发明一种具体地实施方式,计算模块3包括乘法器40、加法器31、卷积计算单元32和移位单元33,移位单元33用于对特征图中的数据进行左移或右移操作,如1<<10表示对数据1右移10位。乘法器30和加法器31用于计算量化因子、第一特征图和第二特征图。乘法器30、加法器31和移位单元33的组合用来计算量化因子对。优选地,用移位单元33代替除法器,降低计算量。卷积计算单元32用于计算第二特征图与神经网络权重的卷积。
计算模块3还用于计算第二特征图相对于原始特征图的KL散度,并通过排序模块2对若干KL散度进行排序,通过判定选出模块6判定KL散度最小的第二特征图为最优的第二特征图。
计算模块3还用于计算每一个第二特征图与原始特征图的余弦相似度,通过排序模块2对若干余弦相似度进行排序,通过判定选出模块6判定最大的余弦相似度对应的第二特征图为最优的第二特征图。
另外,计算模块3还用于计算依次计算每一个第二特征图相对于原始特征图的KL散度和余弦相似度,然后通过0.5×KL散度+ 0.5×(1-余弦相似度)计算每一个第二特征图的指标分数,通过排序模块2对指标分数进行排序,通过判定选出模块6判定指标分数最小的第二特征图为最优的第二特征图。
下面结合具体实施例来说明本发明的实时量化方法和装置的效果:
以一张RGB图片(IMG)为原始特征图,其数据的值域为[0,255], IMG = [0,1…255], 将原始特征图量化,并用int8格式表示。
可说明的是,int8是指使用8个bit表示的有符号的数值, 值域为[-128, 127]。
由于用int8表示原始特征图IMG,因此现有的量化方法为:用128除以256得到量化因子,此时量化因子为0.5。依据量化公式可以得出量化结果:
Figure 30289DEST_PATH_IMAGE003
Figure 656443DEST_PATH_IMAGE004
。由此可以得出以 下结论:
(a)上述得到量化因子0.5是个浮点值,也就是说原始特征图IMG要先转换为浮点之后再与浮点量化因子进行浮点运算。然而在神经网络计算芯片中,在同等吞吐量和算力的情况下,浮点运算需要占用较大的神经网络计算芯片面积,不确定的浮点也会占用芯片较大面基,而且功耗也大,相应地增加了神经网络计算芯片的成本。
(b)这个量化过程没有利用int8值域的负数部分,即为利用值域[-128, -1]中的数据,所以这种使用单一侧量化方法在原始特征图中数据在0左右分布不均或值域严重不平衡的情况下,单一侧量化方法不能够充分利用int8的有效值域范围,从而使得神经网络的量化精度不佳,量化结果不可靠。
为了解决上述的现有量化方法的问题,本发明的设计了实时量化方法。实时量化方法包括步骤:
S1:输入原始特征图 FM32,依据原始特征图得到数据最大值和数据最小值;原始特征图FM32包括若干浮点值和若干整数,即FM32包括FMf32和FMi32。可说明的是,FMf32表示特征图的数据是32位浮点组成的,FMi32表示特征图的数据是32位整数组成的。
S2:依据原始特征图FM32的数据最大值max(FM)和数据最小值min(FM),计算初始量化因子SCALE;
S3:进行速度量化流程或优化流程;
实施例一
进行速度量化流程步骤为:
S300:依据初始量化因子SCALE,计算量化因子对SCALE_MULTI,SCALE_SHIFT;
S301:依据量化因子SCALE_MULTI,SCALE_SHIFT对计算第一特征图FMi9
S302:依据第一特征图FMi9计算零点值ZP;
S303:依据步骤S301的第一特征图FMi9和步骤S302的零点值ZP,计算第二特征图FMi8
具体地,量化因子对是采用分数的方法来表示浮点量化因子。由于一个浮点可以用一个分数近似表示,如 0.3 = 300/1000≈307/1024。为了硬件计算的高效性且避免设计复杂度,可以避免使用除法器,用移位单元代替除法器。 FM * 0.3 ≈ (FM * 307) >> 10。其中“>>”表示右移,(FM * 307) >> 10表示(FM * 307)右移10个单位,其等价于(FM *307) 除以210
由于上述设计,将现有技术的浮点乘法计算转换为了定点乘法和右移计算,由于定点乘法的硬件设计复杂度远比浮点乘法的硬件设计复杂度低,且能量效率更高,而且右移操作硬件设计简单,几乎不消耗时间。所以使用量化因子对来代替浮点量化因子,可以极大的简化硬件设计复杂度,提高能量利用率,提高计算速度,降低成本。进一步的,在该设计中如果确定了该分数的分母,那么也可确定其分数的分子。例如一个浮点数0.3,设分母为1<<10, 那么分子为307,即307/1024 = 0.2998≈0.3。其中1<<10表示1左移10位,1<<10等于1乘以210。这样一来,设计相关硬件可以快速地根据浮点量化因子计算出量化因子对。
非对称量化是对采用以FM数值值域的中点作为零点值进行量化。以上述的RGB图片(IMG)。采用非对称量化,量化因子的计算公式如下。
Figure 230512DEST_PATH_IMAGE005
SCALE为量化因子,256为RGB图片的数据总量。
可补充的是,下述的实施例二的优化量化流程的量化因子的计算公式与上述的实施例一的速度量化流程的计算公式相同。
再根据量化因子SCALE求出相应的量化因子对SCALE_MULTI, SCALE_SHIFT。根据不同的量化精度需要可以设计出相应的位宽的量化右移因子寄存器,和相应的位宽量化乘法因子寄存器。若量化精度为10,则采用以下步骤计算量化因子对:
(1)若判断SCALE=1,无需计算量化因子对,跳过量化流程。
(2)若判断SCALE<1,设置SCALE_SHIFT = 10,SCALE_MULTI=1023,并逐步减小 SCALE_MULTI 使得
Figure 803576DEST_PATH_IMAGE006
的结果和SCALE的值最接近,即
Figure 84385DEST_PATH_IMAGE007
,其中
Figure 819123DEST_PATH_IMAGE008
表示趋向于,
Figure 874629DEST_PATH_IMAGE009
表示1 左移SCALE_SHIFT位。
(3)若判断SCALE>1, 设置SCALE_MULTI = 1024,SCALE_SHIFT = 9,先逐步减小 SCALE_SHIFT使得(1*SCALE_MULTI)>>SCALE_SHIFT = ceil(SCALE),其中(1*SCALE_MULTI) >>SCALE_SHIFT表示(1*SCALE_MULTI)右移SCALE_SHIFT位,ceil(SCALE)表示对SCALE进行 向上取整,即取大于或者等于SCALE的最小整数。 再逐步减小SCALE_MULTI, 使得
Figure 985805DEST_PATH_IMAGE010
的结果和SCALE的值最接近,即使
Figure 262065DEST_PATH_IMAGE011
可补充的是,下文的实施例二的优化量化流程的量化因子对的计算方法和上述的实施例一的速度量化流程的量化因子对的计算方法相同。
再根据公式计算FMi9,因为经过量化后,FM的数值值域最大不会超过int9的范围,所以可以使用int9的位宽接收结果,而不用int32的位宽接收结果。这样可以进一步节省带宽,降低硬件成本。FMi9的计算公式如下:
Figure 682551DEST_PATH_IMAGE012
最后计算零点值
Figure 450787DEST_PATH_IMAGE013
, 零点值即为FMi9的数值最大值和 FMi9的数值最小值的中点。
FMi9与FMi8的关系公式如下:
Figure 21446DEST_PATH_IMAGE014
进一步地,为了更准确计算本发明的第二特征图,对上述的第二特征图的公式进行优化,得到第二特征图FMi8的的计算公式:
Figure 73584DEST_PATH_IMAGE015
其中E表示对浮点数进行四舍五入。
可补充的是,下文的优化量化流程的第一特征图FMi9的计算方法和上述的速度量化流程的第二特征图FMi9计算方法和计算公式均相同。相应的,优化量化流程的零点值和速度量化流程的零点值的计算公式也相同。
实施例二
进行优化优化流程包括步骤:
S310:预设搜索范围R和遍历次数N;
S311:依据初始量化因子 SCALE、搜索范围R和遍历次数N,计算若干二次量化因子SCALE1,SCALE2…SCALE2N
二次量化因子的具体计算公式如下:
当i≤N时,
Figure 478021DEST_PATH_IMAGE016
当i>N时,
Figure 451662DEST_PATH_IMAGE017
在一些具体地实施方式中,SCALE=1,搜索范围R=20,遍历次数N=4,依据上述公式得到8个二次量化因子,8个二次量化因子分别为 0.8, 0.85, 0.90, 0.95, 1.05, 1.10,1.15, 1.20。加上初始的量化因子 SCALE,总共有9个待选量化因子。
S312:依次计算二次量化因子SCALE1,SCALE2…SCALE2N的量化因子对和原始量化因子SCALE的量化因子对 SCALE_MULTI, SCALE_SHIFT,得到若干量化因子对 SCALE_MULTI1,SCALE_SHIFT1,SCALE_MULTI2, SCALE_SHIFT2, …SCALE_MULTI2N, SCALE_SHIFT2N。可说明的是,依据二次量化因子计算量化因子对,及依据原始量化因子对计算量化因子对的方法与上述的速度量化流程中计算量化因子对的方法相同,因此不在赘述。
S313:依据若干量化因子对,计算得到若干第一特征图FMi9,FM1i9,FM2i9…FM2Ni9
S314:依据第一特征图,依次计算每一个第一特征图对应的零点值ZP,ZP1,ZP2…ZP2N和第二特征图FMi8,FM1i8,FM2i8…FM2Ni8
S315:依次计算步骤S314中的第二特征图的指标分数,选择最优的第二特征图作为量化结果输出。具体地,计算第二特征图的指标分数可采用下述三种方法中的任意一种方法:
(1)依次计算每一个第二特征图相对于原始特征图的KL散度,并对若干KL散度进行排序,判定KL散度最小的第二特征图为最优的第二特征图。
KL散度公式如下:
Figure 842323DEST_PATH_IMAGE018
其中,p(x)表示数据x在第二特征图中的概率分布,q(x)表示数据x在原始特征图 的概率分布,
Figure 280126DEST_PATH_IMAGE019
表示第二特征图相对于原始特征图的散度。
(2)依次计算每一个第二特征图与原始特征图的余弦相似度,并对若干余弦相似度进行排序,判定最大的余弦相似度对应的第二特征图为最优的第二特征图。
余弦相似度公式如下:
Figure 527568DEST_PATH_IMAGE020
cosine similarity表示第二特征图与原始特征图的余弦相似度,A表示第二特征图的向量,B表示原始特征图的向量,θ为向量A与向量B的夹角,Ai表示第二特征图中的数据,Bi表示原始特征图中的数据。
可说明的是,余弦相似度表示两个向量的夹角的余弦值,值域为[-1, 1], 余弦值越大表示两个向量越相似,余弦值越小表示两个向量越不相似。
(3)依次计算每一个第二特征图相对于原始特征图的KL散度和余弦相似度,然后通过指标分数=0.5×KL散度+ 0.5×(1-余弦相似度)计算每一个第二特征图的指标分数,并对指标分数进行排序,判定指标分数最小的第二特征图为最优的第二特征图。
在卷积神经网络(Convolutional Neural Networks,CNN)中,卷积的计算量占比 非常大,所以为了加速卷积计算和减少位宽,应该使用 int8计算卷积而不是 int9。所以
Figure 863871DEST_PATH_IMAGE021
的卷积公式可以转换为下述公式:
Figure 307491DEST_PATH_IMAGE022
其中,⊙表示卷积操作,WT表示神经网络权重。
上述的
Figure 537484DEST_PATH_IMAGE023
的卷积计算可以被优化 ,具体地优化步骤如下:
Figure 549302DEST_PATH_IMAGE024
等价于ZP ×(WT在不同维度方向的自累加值)。
卷积中的WT的一般可以表示为 N*C*H*W。WT可以拆分为N个子权重,每个子权重可以记作WTi,每个子权重WTi是一个立方体矩阵。因为子权重WTi是立方体矩阵,因此可以用三个维度方向的维度尺寸表示,即立方体矩阵用C*H*W表示, 其中C、H、W分别表示不同的维度方向的维度尺寸,C为深度,H为高度,W为宽度。每个子权重WTi的值等于对应的立方体矩阵在维度方向C、H、W上的所有元素之和。因此WT在不同维度方向的自累加值等于N个WTi的值的和。
所以WT和ZP的卷积最后的结果就是 N个数组成的向量,相当于是一个偏置BIAS。
WT的尺寸一般不大,相比于传统的卷积神经网络的卷积计算量,用ZP×WT在不同 维度方向的自累加值计算
Figure 45006DEST_PATH_IMAGE024
,将卷积计算换算成了乘法计算和求和的加法计 算,降低了计算步骤,从而大大节省了计算时间,而且计算
Figure 298176DEST_PATH_IMAGE025
不需要等待卷积的 结果,即
Figure 195725DEST_PATH_IMAGE026
可以和
Figure 378444DEST_PATH_IMAGE027
的卷积计算可以同时进行,因此计算
Figure 813974DEST_PATH_IMAGE028
是不需要增加额外的时间的,也不会占用或延长
Figure 412445DEST_PATH_IMAGE029
的计算时间。 由于FMi8的位数比FMi9的位数少,因此
Figure 882610DEST_PATH_IMAGE029
的卷积计算比
Figure 173914DEST_PATH_IMAGE030
的卷积 计算的计算量更小,计算速度更快。因此,上述的卷积换算公式
Figure 627898DEST_PATH_IMAGE031
,并将
Figure 92377DEST_PATH_IMAGE032
转换为ZP ×WT在不同维度方向的自累加值可以极大地减少神经网络的卷积 计算时间。
虽然在上文中详细说明了本发明的实施方式,但是对于本领域的技术人员来说显而易见的是,能够对这些实施方式进行各种修改和变化。但是,应理解,这种修改和变化都属于权利要求书中的本发明的范围和精神之内。而且,在此说明的本发明可有其它的实施方式,并且可通过多种方式实施或实现。

Claims (15)

1.一种实时量化方法,其特征在于,包括步骤:
S1:输入原始特征图,依据所述原始特征图得到数据最大值和数据最小值;
S2:依据所述数据最大值和所述数据最小值,计算初始量化因子;
S3:进行速度量化流程和优化量化流程中的任一流程,依据所述初始量化因子,依次计算量化因子对、第一特征图和第二特征图。
2.如权利要求1所述的实时量化方法,其特征在于,步骤S2中,所述计算初始量化因子包括:
依据所述原始特征图得到原始特征图的数据总量、原始数据最大值和原始数据最小值,计算所述原始数据最大值和原始数据最小值的差值;
将所述原始数据最大值和原始数据最小值的差值除以所述原始特征图的数据总量,得到所述初始量化因子。
3.如权利要求2所述的实时量化方法,其特征在于,所述原始特征图的数据总量为所述原始特征图的数据中所有的浮点值和所有的整数的数量总和。
4.如权利要求1所述的实时量化方法,其特征在于,步骤S3中,进行所述速度量化流程包括步骤:
S300:依据所述初始量化因子,计算所述量化因子对;
S301:依据所述量化因子对计算所述第一特征图;
S302:依据所述第一特征图计算零点值;
S303:依据步骤S301的所述第一特征图和步骤S302的所述零点值,计算第二特征图。
5.如权利要求4所述的实时量化方法,其特征在于,步骤S302中,所述依据所述第一特征图计算零点值包括,依据所述第一特征图得到第一数据最大值和第一数据最小值,计算所述第一数据最大值和所述第一数据最小值的中点,得到所述零点值。
6.如权利要求1所述的实时量化方法,其特征在于,步骤S3中,进行所述优化量化流程包括步骤:
S310:预设搜索范围和遍历次数;
S311:依据所述初始量化因子、所述搜索范围和所述遍历次数,计算若干二次量化因子;
S312:依次计算每个所述二次量化因子的量化因子对和所述原始量化因子的量化因子对,得到若干量化因子对;
S313:依据所述若干量化因子对,计算得到若干第一特征图;
S314:依据所述若干第一特征图,依次计算每一个所述第一特征图对应的零点值和第二特征图;
S315:依次计算步骤S314中的所述第二特征图的指标分数,根据所述指标分数选择最优的第二特征图作为量化结果输出。
7.如权利要求6所述的实时量化方法,其特征在于,步骤S314中,所述零点值为所述第一特征图的数据最大值和数据最小值的中点值。
8.如权利要求6所述的实时量化方法,其特征在于,步骤S315中,计算所述第二特征图的指标分数包括:依次计算每一个所述第二特征图相对于所述原始特征图的KL散度得到若干KL散度,并对所述若干所述KL散度进行排序,判定所述KL散度最小的所述第二特征图为所述最优的第二特征图。
9.如权利要求6所述的实时量化方法,其特征在于,步骤S315中,计算所述第二特征图的指标分数包括:依次计算每一个所述第二特征图与所述原始特征图的余弦相似度得到若干余弦相似度,并对所述若干所述余弦相似度进行排序,判定最大的所述余弦相似度对应的所述第二特征图为所述最优的第二特征图。
10.如权利要求6所述的实时量化方法,其特征在于,步骤S315中,计算所述第二特征图的指标分数包括:依次计算每一个所述第二特征图相对于所述原始特征图的KL散度和余弦相似度;
设置第一系数和第二系数,所述第一系数和所述第二系数的和为1;
使用所述第一系数分别乘以所述KL散度得到若干优化KL散度;
分计算1减去每个余弦相似度得到若干差值,使用第二系数乘以所述若干差值得到若干优化余弦相似度;
对每个第二特征图对应的优化KL散度和优化余弦相似度分别进行求和,得到若干综合指标分数,在所述若干综合指标分数中判定取值最小的所述综合指标分数对应的所述第二特征图为最优的第二特征图。
11.如权利要求6所述的实时量化方法,其特征在于,还包括
步骤S4:将所述第一特征图和神经网络权重的卷积计算转换为所述第二特征图和神经网络权重的卷积与所述零点值和神经网络权重的卷积的和;
计算所述神经网络权重的在其不同维度方向上的和,得到权重自累加值;
将所述零点值和神经网络权重的卷积转换为所述零点值和所述权重自累加值的乘积。
12.如权利要求11所述的实时量化方法,其特征在于,计算所述神经网络权重的在其不同维度方向上的和,得到权重自累加值包括:
将所述神经网络权重拆分为若干子权重,所述子权重为立方体矩阵;
分别计算每一个所述立方体矩阵在不同维度方向上的元素累加的和,得到若干子权重的值;对所有的所述子权重的值进行求和,得到所述权重自累加值。
13.如权利要求11所述的实时量化方法,其特征在于,所述第二特征图和所述神经网络权重的卷积计算与所述零点值和所述神经网络权重的卷积计算同时进行。
14.一种实时量化系统,其特征在于,包括:
输入模块,用于输入原始特征图;
排序模块,与所述输入模块连接,依据所述原始特征图得到数据最大值和数据最小值;
计算模块,与所述排序模块和所述输入模块连接,用于计算初始量化因子;
选择模块,与所述输入模块和所述计算模块连接,用于选择速度量化流程和优化量化流程中的任一流程;
存储模块,与所述输入模块和所述选择模块连接,用于存储所述原始特征图、第一特征图和第二特征图。
15.如权利要求14所述的实时量化系统,其特征在于,所述计算模块还用于依据所述初始量化因子计算所述量化因子对、所述第一特征图和所述第二特征图。
CN202110759386.4A 2021-07-06 2021-07-06 实时量化方法及实时量化系统 Active CN113255901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110759386.4A CN113255901B (zh) 2021-07-06 2021-07-06 实时量化方法及实时量化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110759386.4A CN113255901B (zh) 2021-07-06 2021-07-06 实时量化方法及实时量化系统

Publications (2)

Publication Number Publication Date
CN113255901A true CN113255901A (zh) 2021-08-13
CN113255901B CN113255901B (zh) 2021-10-08

Family

ID=77190741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110759386.4A Active CN113255901B (zh) 2021-07-06 2021-07-06 实时量化方法及实时量化系统

Country Status (1)

Country Link
CN (1) CN113255901B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017049496A1 (en) * 2015-09-23 2017-03-30 Intel Corporation Apparatus and method for local quantization for convolutional neural networks (cnns)
CN108053028A (zh) * 2017-12-21 2018-05-18 深圳云天励飞技术有限公司 数据定点化处理方法、装置、电子设备及计算机存储介质
CN108345939A (zh) * 2017-01-25 2018-07-31 微软技术许可有限责任公司 基于定点运算的神经网络
US20200012926A1 (en) * 2018-07-05 2020-01-09 Hitachi, Ltd. Neural network learning device and neural network learning method
CN111950716A (zh) * 2020-08-25 2020-11-17 云知声智能科技股份有限公司 一种优化int8的量化方法及系统
CN112183726A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 一种神经网络全量化方法及系统
CN112200275A (zh) * 2020-12-09 2021-01-08 上海齐感电子信息科技有限公司 人工神经网络的量化方法及装置
CN112449703A (zh) * 2018-09-21 2021-03-05 华为技术有限公司 在设备中的神经网络模型的量化方法和装置
CN112446491A (zh) * 2021-01-20 2021-03-05 上海齐感电子信息科技有限公司 神经网络模型实时自动量化方法及实时自动量化系统
CN112733964A (zh) * 2021-02-01 2021-04-30 西安交通大学 一种强化学习自动感知权重分布的卷积神经网络量化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381205A (zh) * 2020-09-29 2021-02-19 北京清微智能科技有限公司 一种神经网络低比特量化方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017049496A1 (en) * 2015-09-23 2017-03-30 Intel Corporation Apparatus and method for local quantization for convolutional neural networks (cnns)
CN108345939A (zh) * 2017-01-25 2018-07-31 微软技术许可有限责任公司 基于定点运算的神经网络
CN108053028A (zh) * 2017-12-21 2018-05-18 深圳云天励飞技术有限公司 数据定点化处理方法、装置、电子设备及计算机存储介质
US20200012926A1 (en) * 2018-07-05 2020-01-09 Hitachi, Ltd. Neural network learning device and neural network learning method
CN112449703A (zh) * 2018-09-21 2021-03-05 华为技术有限公司 在设备中的神经网络模型的量化方法和装置
CN111950716A (zh) * 2020-08-25 2020-11-17 云知声智能科技股份有限公司 一种优化int8的量化方法及系统
CN112183726A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 一种神经网络全量化方法及系统
CN112200275A (zh) * 2020-12-09 2021-01-08 上海齐感电子信息科技有限公司 人工神经网络的量化方法及装置
CN112446491A (zh) * 2021-01-20 2021-03-05 上海齐感电子信息科技有限公司 神经网络模型实时自动量化方法及实时自动量化系统
CN112733964A (zh) * 2021-02-01 2021-04-30 西安交通大学 一种强化学习自动感知权重分布的卷积神经网络量化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SAI QIAN ZHANG等: "Training for multi-resolution inference using reusable quantization terms", 《PROCEEDINGS OF THE 26TH ACM INTERNATIONAL CONFERENCE ON ARCHITECTURAL SUPPORT FOR PROGRAMMING LANGUAGES AND OPERATING SYSTEMS》 *
XIAO YAN等: "QNet: An Adaptive Quantization Table Generator Based on Convolutional Neural Network", 《IEEE TRANSACTIONS ON IMAGE PROCESSING 》 *
丁立德: "支持国产计算平台的深度学习加速技术研究", 《中国优秀硕士论文全文数据库信息科技辑》 *
孙浩然等: "基于参数量化的轻量级图像压缩神经网络研究", 《信息技术》 *

Also Published As

Publication number Publication date
CN113255901B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN110378468B (zh) 一种基于结构化剪枝和低比特量化的神经网络加速器
CN111684473B (zh) 提高神经网络阵列的性能
CN110852416B (zh) 基于低精度浮点数数据表现形式的cnn硬件加速计算方法及系统
CN109934331B (zh) 用于执行人工神经网络正向运算的装置和方法
JP6528893B1 (ja) 学習プログラム、学習方法、情報処理装置
CN109840154B (zh) 一种移动云环境下基于任务依赖的计算迁移方法
CN110852434B (zh) 基于低精度浮点数的cnn量化方法、前向计算方法及硬件装置
CN107292458A (zh) 一种应用于神经网络芯片的预测方法和预测装置
CN108182469A (zh) 一种神经网络模型训练方法、系统、装置及存储介质
KR20200094056A (ko) 컨벌루션 신경망 파라미터 최적화 방법, 컨벌루션 신경망 연산방법 및 그 장치
CN112561050A (zh) 一种神经网络模型训练方法及装置
CN111091183A (zh) 一种神经网络加速系统和方法
CN113255901B (zh) 实时量化方法及实时量化系统
CN118171702A (zh) 一种基于多模型联合学习的神经网络量化方法
CN111383157A (zh) 图像处理方法、装置、车载运算平台、电子设备及系统
Xiao et al. Research on fpga based convolutional neural network acceleration method
US11551087B2 (en) Information processor, information processing method, and storage medium
US20200134434A1 (en) Arithmetic processing device, learning program, and learning method
CN112446461A (zh) 一种神经网络模型训练方法及装置
CN113743012B (zh) 一种多用户场景下的云-边缘协同模式任务卸载优化方法
CN115936067A (zh) 一种具有eca通道注意力机制的神经网络
WO2023059215A1 (en) Apparatus and method for winograd convolution
Liu et al. Block-Wise Dynamic-Precision Neural Network Training Acceleration via Online Quantization Sensitivity Analytics
CN114298291A (zh) 一种模型量化处理系统及一种模型量化处理方法
CN113033661A (zh) 一种基于嵌入式平台特点改进的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant