CN116956997A - 用于时序数据处理的lstm模型量化重训练方法、系统及设备 - Google Patents

用于时序数据处理的lstm模型量化重训练方法、系统及设备 Download PDF

Info

Publication number
CN116956997A
CN116956997A CN202310850298.4A CN202310850298A CN116956997A CN 116956997 A CN116956997 A CN 116956997A CN 202310850298 A CN202310850298 A CN 202310850298A CN 116956997 A CN116956997 A CN 116956997A
Authority
CN
China
Prior art keywords
quantization
lstm
layer
retraining
lstm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310850298.4A
Other languages
English (en)
Inventor
王月娇
马钟
杨超杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Microelectronics Technology Institute
Original Assignee
Xian Microelectronics Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Microelectronics Technology Institute filed Critical Xian Microelectronics Technology Institute
Priority to CN202310850298.4A priority Critical patent/CN116956997A/zh
Publication of CN116956997A publication Critical patent/CN116956997A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及人工智能领域,尤其涉及一种用于时序数据处理的LSTM模型量化重训练方法、系统及设备,包括:将量化校准集修正为时间序列图像组与多样化图像组的有效组合配置形成组合图像,对LSTM模型进行量化校准;基于LSTM模型的量化校准方法,对LSTM模型进行了基于均匀‑对称量化策略的量化操作,确定LSTM模型的量化参数生成方法;针对生成LSTM量化参数的方法,采用直通滤波器的实现方式,在训练中考虑LSTM量化前后的误差,经由训练学习得到合理的LSTM模型。本发明突破现有量化方法仅仅依赖于静态量化校准集的局限,在CPU/GPU上支持实现对LSTM模型的多比特量化重训练,提升基于LSTM的神经网络模型的量化算法的量化精度。

Description

用于时序数据处理的LSTM模型量化重训练方法、系统及设备
技术领域
本发明涉及人工智能领域,具体为一种用于时序数据处理的LSTM模型量化重训练方法、系统及设备。
背景技术
长短期记忆网络(LSTM)是循环神经网络(RNN)的一种改进形式,能够依据之前时刻的时序信息来预测下一时刻的输出。LSTM在RNN基础上引入了门控机制和记忆单元,能有效解决RNN在处理大量文本时会产生梯度消失或梯度爆炸的问题,并且对较长语句的输入具备长距离的依赖。许多最广泛使用的实时AI应用程序如文本生成、机器翻译、语音识别、生成图像描述等现在都基于LSTM,从经验中学习以解决各种以前无法解决的问题。
LSTM主要用于执行时序数据处理任务,然而,在这些任务中,LSTM模型受到延迟,能量和模型大小的严格限制。量化算法通过降低模型的数值位宽来压缩原始网络,通过量化部署可以有效降低预测过程的计算资源需求,减少计算和推理时间。然而,目前面向LSTM模型的量化算法尚未考虑LSTM的时序输入特性带来的影响,主要表现在两个方面:(1)用于常规算子的普通量化校准图像不具有时序特性;(2)用于LSTM的量化校准图像不能保证量化的多样性。即使将LSTM转换为现有的常规层,仍然采用传统的均匀-对称量化方法,容易导致LSTM层的量化数据集不具有序列一致性,进而导致量化精度有较大的损失。
发明内容
针对现有技术中存在的问题,本发明提供一种用于时序数据处理的LSTM模型量化重训练方法,在CPU/GPU上支持实现对LSTM模型的多比特量化重训练,提升基于LSTM的神经网络模型的量化算法的量化精度。
本发明是通过以下技术方案来实现:
一种用于时序数据处理的LSTM模型量化重训练方法,包括:
将量化校准集修正为时间序列图像组与多样化图像组的有效组合配置形成组合图像,对LSTM模型进行量化校准;
基于LSTM模型的量化校准方法,对LSTM模型进行了基于均匀-对称量化策略的量化操作,确定LSTM模型的量化参数生成方法;
针对生成LSTM量化参数的方法,采用直通滤波器的实现方式,在训练中考虑LSTM量化前后的误差,经由训练学习得到合理的LSTM模型。
优选的,假设LSTM层的时间步长为T,模型的输入大小为C×H×W,用于普通层量化的校准集数量设置为N,选取N组不同场景的数据集,每组中包含具有训练一致性的T组时间序列数据集,即组合图像的量化校准集维度为N×T。
优选的,量化校准集由具有不同种类、不同背景、不同角度、不同光照、不同时间序列特征的图像组成。
优选的,组合图像N×T用于普通层的量化校准;遇到LSTM层时,根据LSTM的时间步长,将不同的图像组逐步发送到每个时间步长,其中每个不同的图像组具有时间序列特征。
优选的,首先将N×T组数据全部送入普通层,根据本层的输出数据分布选择激活量化阈值,每层l的数据维度均为N×T×Cl×Hl×Wl,当遭遇LSTM层时,按照时间步长T的大小,将输入量化校准集等量的划分为T个维度为N×Cl×Hl×Wl的张量,分别作为LSTM中T个计算单元的输入,根据N组输入数据的逐层权重和激活输出分布范围逐层选择权重和激活量化阈值,最后把T个输出张量序列合并为一个输出作为LSTM这一层的输出;此时,若LSTM层后仍有普通层,继续将N×T组输出数据对后续层校准。
优选的,量化参数的生成具体操作如下:对每一层的权重和输出均插入伪量化操作,即先将浮点值量化到低比特整数,再反量化回浮点值,每次使用伪量化后的数值执行算子计算,完成计算后再进行一遍伪量化,统计量化参数,送入下一层;逐层类推,当前层的输出作为下一层的输入;其中,在第一层生成量化参数时对输入进行伪量化操作。
优选的,在训练中,量化重训练的具体过程为:首先给出权重和激活的量化表示,然后在训练中基于batch数据的准确率和压缩率指标,最终输出的权重浮点表示模型一方面可供精度评估,另一方面可用于PC或NPU平台部署。
一种用于时序数据处理的LSTM量化校准系统,包括图像配置模块、量化模块和量化重训练模块,图像配置模块用于将量化校准集修正为时间序列图像组与多样化图像组的有效组合配置形成组合图像,量化模块用于进行量化和生成量化参数,量化重训练模块用于采用直通滤波器的实现方式进行量化重训练。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时所述方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明一种用于时序数据处理的LSTM模型量化重训练方法考虑了量化算法的多样性、泛化性和序列特征要求,突破现有量化方法仅仅依赖于静态量化校准集的局限,在CPU/GPU上支持实现对LSTM模型的多比特量化重训练,提升基于LSTM的神经网络模型的量化算法的量化精度。
本发明一种用于时序数据处理的LSTM模型量化重训练方法首先考虑到了LSTM层的时间序列特征影响,设计了用于时序数据处理的LSTM模型量化重训练方法,一方面将具有不同种类、不同背景、不同角度、不同光照的组合图像用于普通层的量化校准,另一方面将具有时间序列特性的单元图像组逐步送入LSTM层的每个时间步生成量化参数;然后对LSTM模型进行了基于均匀-对称量化策略的量化操作,确定了LSTM模型的量化参数生成方法;最后设计了基于直通滤波器的LSTM量化重训练方法,实现了CPU/GPU端对多比特LSTM量化重训练的支持。
本发明中量化校准集由具有不同种类、不同背景、不同角度、不同光照、不同时间序列特征的图像组成,这样能够保证量化的多样性和科学性,增强覆盖面的广泛性,提升量化算法的泛化性。
本发明一种用于时序数据处理的LSTM模型量化重训练方法拓宽了量化算法的适用范围,提升了模型的量化准确率,增强了时间序列预测任务的量化部署有效性。
本发明中所提出的方法确定了一个用于时序特征处理的LSTM模型的量化参数生成方法,在CPU/GPU上支持多比特量化重训练,不仅保证了量化的多样性和科学性,增强了量化算法的泛化性,还提高了量化算法的计算精度,基于CPU进行的多比特量化感知重训练相比现有文献的量化算法分别获得了字符级/单词级语言预测和图像分类应用领域的度量指标最好值,甚至在4-bit精度超越了全精度基线指标。
本发明中所提出的用于时序数据处理的LSTM模型量化重训练技术是人工智能领域的前沿研究,增强复杂时间序列预测任务的量化部署有效性,这项技术设计拓宽了量化算法的适用范围,提高了LSTM量化模型的准确率,与现有技术的比较实验表明,所提出的量化方法不仅在不同数据集不同位宽下超越了现有经典量化算法,而且具有与全精度基线相当甚至更好的性能。
本发明通过所提方法量化后的LSTM模型可以被广泛应用于各种时序数据预测任务。在文本处理领域,可以进行文本分类、序列注释、汇总文档、文本翻译、文本生成文本、文本生成语音和语音识别等;在计算机视觉领域,可用于视频分类,图像注释,视频注释以及最近流行的视觉问答。
附图说明
图1为本发明中LSTM模型的量化校准流程图;
图2为本发明中LSTM模型的量化参数生成流程图;
图3为实施例1中1-bit精度下量化重训练的Loss迭代曲线;
图4为实施例1中1-bit精度下量化重训练的BPC迭代曲线;
图5为实施例1中2-bit精度下量化重训练的Loss迭代曲线;
图6为实施例1中2-bit精度下量化重训练的BPC迭代曲线;
图7为实施例1中两类数据集上的不同位宽的BPC值分布。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明公开了一种用于时序数据处理的LSTM模型量化重训练方法,将量化校准集修正为时间序列图像组与多样化图像组的有效组合配置形成组合图像,对LSTM模型进行量化校准。融合LSTM层的神经网络模型既有成熟普通层,也有LSTM层。只为普通层构建的网络模型的量化校准集比较简单,可选取一定数量的不同类别、不同背景、不同角度、不同光照、具有不同时间序列特征的多样化图像组合作为量化校准集。
LSTM层同样可以使用普通层的量化校准方法,即首先将所有量化校准集全部送入普通层,根据逐层的输出数据分布选择激活量化阈值,当遭遇LSTM层时,不论时间步长的大小如何,都将输入量化校准集重复地送入LSTM的每个时间步,分别作为LSTM中每个计算单元的输入,最后把每个输出张量序列合并为一个输出作为LSTM这一层的输出。此时,若LSTM层后仍有普通层,继续将N×T组输出数据对后续层校准。
然而,由于LSTM处理的数据集一般为时间序列,即在不同时间上收集到的用于所描述现象随时间变化的数据,一旦按照上述基本方法处理,极易造成量化数据集在LSTM层不具有多样性和时间序列一致性,进而导致量化精度的损失较大。因此,本发明中公开了一种用于时序数据处理的LSTM模型量化校准方法,即将量化校准集修正为时间序列图像组与多样化图像组的有效组合配置,对融合LSTM层的网络模型进行量化。
假设LSTM层的时间步长为T,模型的输入大小为C×H×W,用于普通层量化的校准集数量设置为N,选取N组不同场景的数据集,每组中包含具有训练一致性的T组时间序列数据集,即组合图像的量化校准集维度为N×T。
一方面,组合图像N×T用于普通层的量化校准。另一方面,遇到LSTM层时,根据LSTM的时间步长,将不同的图像组逐渐发送到每个时间步长,其中每个不同的图像组具有时间序列特征,具体量化流程如图1。
首先将N×T组数据全部送入普通层,根据本层的输出数据分布选择激活量化阈值,每层l的数据维度均为N×T×Cl×Hl×Wl,当遭遇LSTM层时,按照时间步长T的大小,将输入量化校准集等量的划分为T个维度为N×Cl×Hl×Wl的张量,分别作为LSTM中T个计算单元的输入,根据N组输入数据的逐层权重和激活输出分布范围逐层选择权重和激活量化阈值,最后把T个输出张量序列合并为一个输出作为LSTM这一层的输出。此时,若LSTM层后仍有普通层,继续将N×T组输出数据对后续层校准。
然后,针对一个具有LSTM层的神经网络模型,以层类型为单位分离LSTM层的计算流程为全连接层(FC)、Eltwise层(Eltwise Add、Eltwise Prod)和非线性层(Sigmoid、Tanh)的多个普通神经网络层的有序组合,将LSTM层与既有普通层进行衔接,完成LSTM模型的量化校准,最终采用均匀-对称量化策略逐层生成LSTM层的量化参数。其中FC实现了输入/隐藏与权重/偏置的乘加操作,Eltwise Add和Eltwise Prod实现了LSTM层的单元状态计算和隐藏状态计算,Sigmoid、Tanh层实现了非线性计算。
基于LSTM模型的量化校准方法,对LSTM模型进行了基于均匀-对称量化策略的量化操作,确定LSTM模型的量化参数生成方法。参照图2,量化参数生成的具体操作如下:对每一层的权重和输出均插入伪量化操作,即先将浮点值量化到低比特整数,再反量化回浮点值,每次使用伪量化后的数值执行算子计算,如卷积、池化、上采样,完成计算后再进行一遍伪量化,统计量化参数,送入下一层;逐层类推,当前层的输出作为下一层的输入;其中,在第一层生成量化参数时对输入进行伪量化操作。
浮点型数据映射成整型数据的均匀-对称量化方法如图2所示,阈值t/c为根据数据动态范围选取的量化参数,通过合理选取阈值的方式尽量保证少丢失信息。以8bit量化为例,权重按照值域中的绝对值最大值作为阈值,按比例映射到正负127的范围内。这种简单的映射只适用于均匀分布,当数据分布不均匀时,动态范围的损失会造成很大程度的精度下降。而激活选择阈值c的方式由KL-divergence进行判别,采用相对熵的方式衡量分布的差异程度,寻找最优的阈值。通过阈值c将原始信息在映射之前进行截断,构成对称且分布良好的截断信息,将其映射到int8的范围,避免了动态范围资源被浪费的问题。其中,激活阈值并非根据一张输入图片计算,而是根据一组量化校准图像的激活均衡得到。
综合目前对量化的研究,如何提高量化后神经网络模型的精度是需要重点解决的问题。由于直接对LSTM采用均匀-对称量化映射策略,将浮点型神经网络模型量化为整型网络会不可避免的带来精度损失,并且这种精度损失随着神经网络规模、任务复杂性的增加而增大。因此,结合量化的特征在训练中考虑量化误差,经由训练学习得到合理的LSTM模型,使模型对量化更友好是提高量化性能的关键。
本发明中针对生成LSTM量化参数的方法,采用直通滤波器的实现方式,在训练中考虑LSTM量化前后的误差,经由训练学习得到合理的LSTM模型。即在训练中基于batch数据的准确率和压缩率指标,在模型的性能和计算量之间实现最佳的折衷。具体过程如下:首先给出权重和激活的量化表示,然后在训练中基于batch数据的准确率和压缩率指标,最终输出的权重浮点表示模型一方面可供精度评估,另一方面可用于PC或NPU平台部署。
权重量化表示:
(1)首先,计算浮点权重矩阵W所有分量的绝对值的最大值S:
S=max| W|
(2)然后,对W的绝对值进行均匀量化,bit_width为量化位宽,得到量化后的权重矩阵Wq
Wq=Round[|W|×(2bit-width-1)/s]/(2bit-width-1)
(3)最后,对量化后的权重矩阵Wq伪量化,得到浮点权重表示:
W′=sign(W)·S·Wq
激活值量化表示:
(1)首先,计算激活值X所有分量的绝对值的最大值S:
S=max|X|
(2)然后,对X的绝对值进行均匀量化,bit_width为量化位宽,得到量化后的激活矩阵Rq
Rq=Round[|X|×(2bit_width-1)/S]
(3)重构浮点激活值表示:
根据step 1和step 2,设计具体训练步骤如下,循环每一组图像(batch):
1)根据每个batch的输入、标签和输出计算量化后权重Wq的交叉熵损失函数;
2)逐层计算目标损失函数并累加所有层的值;
3)计算梯度,SGD反向传播,更新权重比特级表示和/>中的值,截断所有分量为[0,2]之间,此处使用STE方法训练多比特模型,STE训练公式如下:
前向传递:
反向传播:
其中wq为量化后权重矩阵Wq的分量,ws为对浮点权重矩阵W分离得到的Ws(W=s.Ws)中的每个分量。STE放宽了二元约束并允许对Ws中的元素进行梯度更新。在前向传递过程中,S.Wa将用于重构模型权重W并计算损失,这证明了当前模型在量化后的性能。来自反向传播的梯度w.r.t.Wq将通过舍入函数进行更新。因此,可以使用任何基于梯度的优化器来训练所提出的位表示。
本发明首先设计了用于时序数据处理的LSTM量化校准方法,一方面将具有不同种类、不同背景、不同角度、不同光照的组合图像用于普通层的量化校准,另一方面将具有时间序列特性的单元图像组逐步送入LSTM层的每个时间步生成量化参数;然后对LSTM模型进行了基于均匀-对称量化策略的量化操作,确定了LSTM模型的量化参数生成方法;最后设计了基于直通滤波器的LSTM量化重训练方法,实现了CPU/GPU端对多比特LSTM量化重训练的支持。
为了验证本发明提出的LSTM量化重训练方法的有效性,针对相关文献中的实验结果,分别在字符/单词级语言建模任务上进行了对比实验。此外,为了体现用于时序数据处理的量化校准方法的新颖性和创新性,同时进行了算法自身的消融实验。
本发明中所提的方法与全精度LSTM基线(32-bit)和当下先进的LSTM量化方法进行比较,包括(i)1-bit LSTM量化方法:二进制连接网络(BCN)、二进制权重网络(BWN)以及损失感知二值化网络(LAB);(ii)2-bit LSTM量化方法:三元权重网络(TWN)、具有近似解的损失感知三元化网络(LAT)和三元化连接网络(TCN)。(iii)多比特LSTM量化方法:为了简化表示,我们将所有比较的多比特量化方法,包括均匀量化、平衡量化、贪婪近似量化、精确贪婪近似量化和交替多位量化方法分别简写为Uniform、Balanced、Greedy、Refined和Alternating。本发明中应用这些方法来量化单个LSTM层的全精度预训练模型。
实施例1字符级语言预测
LSTM将字符序列作为输入,并在每个时间步预测下一个字符。训练目标是目标序列的交叉熵损失,通过每个字符的比特数(BPC)指标评估量化方法的性能。实验在两个基准数据集上进行:(i)列夫·托尔斯泰的《战争与和平》(War and Peace);(ii)宾夕法尼亚树库(Penn Treebank)。在War and Peace和Penn Treebank上,均采用具有512个隐藏单元的单层LSTM,优化器使用Adam。
表1展示了量化LSTM的测试BPC值和尺寸大小。每组中BPC值最低的方法以粗体显示。
由实验结果分析可得:
(1)与全精度LSTM基线的比较:无论在Penn Treebank还是在War and Peace数据集上,所有通过2-bit、4-bit和8-bit位宽量化LSTM的方法的性能指标与全精度基线较为相近。而通过1-bit位宽量化的方法除了BWN和LAB之外均与全精度基线有较大差距,但需要的存储空间却小得多。
(2)不同量化方法之间的比较:对于量化的1-bit LSTM,BWN和LAB的表现明显优于BCN。与其他比较方法相比,我们的量化方法在2-bit精度下,在两个数据集上分别实现了1.446和1.723的最低BPC值。而在4-bit和8-bit精度下,也取得了相对较小的量化误差,具有一定的性能竞争优势。
不同量化精度下量化重训练的损失函数(Loss)和BPC迭代曲线如图3-6所示。从图3-4可以看出,在1-bit精度下,我们方法的Loss和BPC比BCN下降得快一点,与其他方法持平。从图5-6可以看出,在2-bit精度下,我们的Loss和BPC值在所有比较方法中收敛速度最快。
(3)不同精度位宽的比较:为了更加全面地了解我们的量化方法在不同位宽下的BPC值,我们通过直接量化训练好的全精度网络来进行实验。War and Peace和PennTreebank数据集上的结果如图7所示。从图中可以看出,本发明提出的方法在所有不同的比特位宽上仍然具有竞争力。随着位宽的增加,本发明提出的方法逐渐对字符级语言建模做出了更准确的预测。
实施例2单词级语言预测
本发明在Penn Treebank数据集上,进行预测下一个单词的实验。分别采用具有300和650个隐藏单元的单层LSTM进行验证。优化器是SGD。以每个单词的Perplexity(PPW)度量指标来对所有的比较方法进行量化重训练,该度量是语言模型在预测下一个单词时有多少“混淆”的指标。对于交替多位量化方法,由于参考文献中仅给出了隐藏单元数为300的结果,故本次实验不再计算。为了使基准测试尽可能公平,我们选择的其他量化LSTM的模型都基于量化感知训练(QAT)。我们比较的重点不是原始浮点精度,而是应用量化时度量的变化。
表2单词级语言预测任务中LSTM的PPW指标变化情况
表2显示了不同隐藏单元数的量化LSTM的测试PPW值和变化情况。对于量化的1-bit LSTM,我们的方法和BCN没有达到与全精度基线相当的性能。但是在2-bit LSTM情况下,相比其他所有方法,我们的方法在两种隐藏单元数目下分别相比全精度基线达到了3.31和4.64的最小量化误差。
为了进一步评估较大位宽下其他量化方法对单个LSTM层的影响,我们将提出的量化方法获得的结果与文献中其他量化方法的结果进行了比较。本次实验在Penn Treebank数据集上进行,仅考虑LSTM的隐藏单元数为300,分别从PPW和相对均方误差(MSE)这两项指标衡量方法性能。
表3记录了全精度基线和较大量化位宽下LSTM的PPW和相对MSE。最低的PPW和相对MSE值以粗体显示。如表3所示,本发明提出的量化方法在所有量化方法中获得了最低的度量。
值得一提的是,我们的方法在4-bit精度下低于全精度基线模型的PPW值,也就是说本发明所提出的量化方法不仅在不同数据集不同位宽下超越了现有经典量化算法,而且具有与全精度基线相当甚至更好的性能。
表3较大位宽下LSTM的PPW 和Relative MSE指标变化情况
实施例3时序量化消融实验
在本节中,为了进一步分析LSTM时序量化校准方法设计的有效性,在UCF101数据集上进行了时序量化校准消融实验。UCF101数据集是一个视频动作识别分类数据集,共有101个类别,前55个类别中的2083个视频样本被选为测试数据集。量化前的精度计算基于Pytorch框架的模型推理实现,量化后的精度通过在PC端进行模型量化重训练得来,评估指标为量化后的精度损失(Acc loss)。
表4时序量化校准方法消融实验
为获得更高精度的计算结果,实验分别对AlexNet-LSTM和VGG-LSTM这两类基于LSTM层的网络模型进行了量化校准。实验结果如表4所示,其中“√”表示添加了本发明所提的量化校准方法,没有“√”标识的表示使用了普通层的量化校准方法(见第5.1节)。实验结果表明,采用LSTM时序量化校准方法的精度损失从1.544%(或2.707%)降低到0.803%(或1.68%)。验证了该策略可以提高LSTM量化计算的准确性。
本发明设计了用于时序数据处理的LSTM量化校准方法,一方面将具有不同种类、不同背景、不同角度、不同光照的组合图像用于普通层的量化校准,另一方面将具有时间序列特性的单元图像组逐步送入LSTM层的每个时间步生成量化参数;然后对LSTM模型进行了基于均匀-对称量化策略的量化操作,确定了LSTM模型的量化参数生成方法;最后设计了基于直通滤波器的LSTM量化重训练方法,实现了CPU/GPU端对多比特LSTM量化重训练的支持。本发明拓宽了量化算法的适用范围,提升了模型的量化准确率,增强了时间序列预测任务的量化部署有效性。
本发明还公开了一种用于时序数据处理的LSTM量化校准系统,包括图像配置模块、量化模块和量化重训练模块,图像配置模块用于将量化校准集修正为时间序列图像组与多样化图像组的有效组合配置形成组合图像,量化模块用于进行量化和生成量化参数,量化重训练模块用于采用直通滤波器的实现方式进行量化重训练。
本发明还公开了一种终端设备,包括存储器、处理器以及存储在所述存储器中并在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时所述方法的步骤。
以上所述的仅仅是本发明的较佳实施例,并不用以对本发明的技术方案进行任何限制,本领域技术人员应当理解的是,在不脱离本发明精神和原则的前提下,该技术方案还可以进行若干简单的修改和替换,这些修改和替换也均属于权利要求书所涵盖的保护范围之内。

Claims (10)

1.一种用于时序数据处理的LSTM模型量化重训练方法,其特征在于,包括:
将量化校准集修正为时间序列图像组与多样化图像组的有效组合配置形成组合图像,对LSTM模型进行量化校准;
基于LSTM模型的量化校准方法,对LSTM模型进行了基于均匀-对称量化策略的量化操作,确定LSTM模型的量化参数生成方法;
针对生成LSTM量化参数的方法,采用直通滤波器的实现方式,在训练中考虑LSTM量化前后的误差,经由训练学习得到合理的LSTM模型。
2.根据权利要求1所述的用于时序数据处理的LSTM模型量化重训练方法,其特征在于,假设LSTM层的时间步长为T,模型的输入大小为C×H×W,用于普通层量化的校准集数量设置为N,选取N组不同场景的数据集,每组中包含具有训练一致性的T组时间序列数据集,即组合图像的量化校准集维度为N×T。
3.根据权利要求2所述的用于时序数据处理的LSTM模型量化重训练方法,其特征在于,量化校准集由具有不同种类、不同背景、不同角度、不同光照、不同时间序列特征的图像组成。
4.根据权利要求2所述的用于时序数据处理的LSTM模型量化重训练方法,其特征在于,组合图像N×T用于普通层的量化校准;遇到LSTM层时,根据LSTM的时间步长,将不同的图像组逐步发送到每个时间步长,其中每个不同的图像组具有时间序列特征。
5.根据权利要求4所述的用于时序数据处理的LSTM模型量化重训练方法,其特征在于,首先将N×T组数据全部送入普通层,根据本层的输出数据分布选择激活量化阈值,每层l的数据维度均为N×T×Cl×Hl×Wl,当遭遇LSTM层时,按照时间步长T的大小,将输入量化校准集等量的划分为T个维度为N×Cl×Hl×Wl的张量,分别作为LSTM中T个计算单元的输入,根据N组输入数据的逐层权重和激活输出分布范围逐层选择权重和激活量化阈值,最后把T个输出张量序列合并为一个输出作为LSTM这一层的输出;此时,若LSTM层后仍有普通层,继续将N×T组输出数据对后续层校准。
6.根据权利要求5所述的用于时序数据处理的LSTM模型量化重训练方法,其特征在于,量化参数的生成具体操作如下:对每一层的权重和输出均插入伪量化操作,即先将浮点值量化到低比特整数,再反量化回浮点值,每次使用伪量化后的数值执行算子计算,完成计算后再进行一遍伪量化,统计量化参数,送入下一层;逐层类推,当前层的输出作为下一层的输入;其中,在第一层生成量化参数时对输入进行伪量化操作。
7.根据权利要求5所述的用于时序数据处理的LSTM模型量化重训练方法,其特征在于,在训练中,量化重训练的具体过程为:首先给出权重和激活的量化表示,然后在训练中基于batch数据的准确率和压缩率指标,最终输出的权重浮点表示模型一方面可供精度评估,另一方面可用于PC或NPU平台部署。
8.一种用于时序数据处理的LSTM量化校准系统,其特征在于,包括图像配置模块、量化模块和量化重训练模块,图像配置模块用于将量化校准集修正为时间序列图像组与多样化图像组的有效组合配置形成组合图像,量化模块用于进行量化和生成量化参数,量化重训练模块用于采用直通滤波器的实现方式进行量化重训练。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
CN202310850298.4A 2023-07-11 2023-07-11 用于时序数据处理的lstm模型量化重训练方法、系统及设备 Pending CN116956997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310850298.4A CN116956997A (zh) 2023-07-11 2023-07-11 用于时序数据处理的lstm模型量化重训练方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310850298.4A CN116956997A (zh) 2023-07-11 2023-07-11 用于时序数据处理的lstm模型量化重训练方法、系统及设备

Publications (1)

Publication Number Publication Date
CN116956997A true CN116956997A (zh) 2023-10-27

Family

ID=88459653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310850298.4A Pending CN116956997A (zh) 2023-07-11 2023-07-11 用于时序数据处理的lstm模型量化重训练方法、系统及设备

Country Status (1)

Country Link
CN (1) CN116956997A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117931788A (zh) * 2024-03-21 2024-04-26 松立控股集团股份有限公司 一种多相机图像数据去重和时序校正的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117931788A (zh) * 2024-03-21 2024-04-26 松立控股集团股份有限公司 一种多相机图像数据去重和时序校正的方法
CN117931788B (zh) * 2024-03-21 2024-05-28 松立控股集团股份有限公司 一种多相机图像数据去重和时序校正的方法

Similar Documents

Publication Publication Date Title
CN111626330B (zh) 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
EP3270330B1 (en) Method for neural network and apparatus performing same method
WO2022006919A1 (zh) 基于激活定点拟合的卷积神经网络训练后量化方法及系统
CN111105017A (zh) 神经网络量化方法、装置及电子设备
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
Moya Rueda et al. Neuron pruning for compressing deep networks using maxout architectures
CN114186672A (zh) 一种用于脉冲神经网络的高效高精度训练算法
CN116956997A (zh) 用于时序数据处理的lstm模型量化重训练方法、系统及设备
Li et al. Automatic densenet sparsification
CN114970853A (zh) 一种跨范围量化的卷积神经网络压缩方法
CN114677548A (zh) 基于阻变存储器的神经网络图像分类系统及方法
CN112598129A (zh) 基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架
Zhou et al. Online filter weakening and pruning for efficient convnets
CN114943335A (zh) 一种三值神经网络逐层优化方法
CN113240090B (zh) 图像处理模型生成方法、图像处理方法、装置及电子设备
Yao et al. Rapq: Rescuing accuracy for power-of-two low-bit post-training quantization
CN116543289B (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
CN112613604A (zh) 神经网络的量化方法及装置
Chin et al. A high-performance adaptive quantization approach for edge CNN applications
CN115905546A (zh) 基于阻变存储器的图卷积网络文献识别装置与方法
CN115062777B (zh) 卷积神经网络的量化方法、量化装置、设备及存储介质
CN112529637B (zh) 基于情景感知的服务需求动态预测方法及系统
CN113177627B (zh) 优化系统、重新训练系统及其方法及处理器和可读介质
Goel et al. CompactNet: High accuracy deep neural network optimized for on-chip implementation
CN114139678A (zh) 卷积神经网络量化方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination