CN115018076B

CN115018076B - 一种用于智能伺服驱动器的ai芯片推理量化方法

Info

Publication number: CN115018076B
Application number: CN202210946190.0A
Authority: CN
Inventors: 杨庆研; 郑军; 熊欣欣
Original assignee: Jushi Technology Shenzhen Co ltd
Current assignee: Matrixtime Robotics Shanghai Co ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-08
Anticipated expiration: 2042-08-09
Also published as: CN115018076A

Abstract

本发明具体公开了一种用于智能伺服驱动器的AI芯片推理量化方法，具体为：1）基于AI芯片的应用程序接口构建推理模型；2）基于原模型采集伺服驱动器推理序列数据及中间过程数据；3）基于推理模型对上述采集数据进行有符号8位整数量化优化；4）采用传播误差的评价方法，对量化后的模型进行精度的评估，并对精度进行优化；所述推理量化方法可有效降低推理过程的精度损失，有力促进了AI算法在伺服驱动器上的应用。

Description

一种用于智能伺服驱动器的AI芯片推理量化方法

技术领域

本发明涉及AI芯片推理量化技术领域，特别涉及一种用于智能伺服驱动器的AI芯片推理量化方法。

背景技术

伺服驱动器是一种重要的基本工业产品，广泛的应用于各类工业电机控制之中。伺服驱动器主要由驱动电路等硬件和控制算法两部分构成。传统的驱动器在硬件上主要由ARM（Advanced RISC Machines公司研发的一种处理器架构）芯片、数字信号处理（DSP，Digital Signal Processing）芯片或是X86（英特尔公司推出的16位微处理器）平台的各类中央处理器（CPU，Central Processing Unit）芯片做为主控芯片。传统的伺服驱控器采用比例积分微分（PID， Proportional-Integral-Derivative ）控制算法等传统方法进行各类控制。传控的伺服控制器，在高精度的控制任务中（例如点到点运动中的快速振动抑制，高精度轨跟踪等），会因为各类原因产生控制性能不够的问题。现代人工智能（AI，Artificial Intelligence）技术的发展日新月异，已经在技术应用领域产生翻天覆地的影响，引领着新一代的技术革命。目前各类AI算法在伺服驱控领域的应用很少。其中一个主要原因是，伺服驱动器一般的控制频率都较高。例如电流环的控制频率要求至少在16K左右。一般的算法很难满足速度要求。并且伺服驱动器一般成本较低，不能采用较高算力的芯片，这就更进一步的限制了AI算法在伺服驱动器上的应用。

模型量化是一种可以显著提高推理速度的方法，模型量化，通过将32位的浮点数据转为8位的整型数据。但是，此过程难免产生精度损失。不同于一般的AI推理任务的精度损失是一次性的。在伺服驱动器中，一次控制相关的精度损失会导致下一时刻的被控对象的状态发生与预期不符的变化，进而影响下一次的推理结果，也就是精度损失是有传播效应的。这就导致目前常见的各AI芯片提供的量化方法（如实时张量（TensorRT），精简张量流（tflite， Tensorflow Lite）等）并不适用于伺服驱动器的应用。

本方案针对推理过程，提出一种用于智能伺服驱动器的AI芯片推理量化方法，以降低量化过程中的精度损失。

发明内容

本发明的目的在于提一种用于智能伺服驱动器的AI芯片推理量化方法，以有效降低量化过程中的精度损失。

鉴于此，本发明的方案如下：

一种用于智能伺服驱动器的AI芯片推理量化方法，包括如下步骤：

S100.基于AI芯片的应用程序接口构建推理模型：

S101.根据原架构的应用程序接口加载模型，读取各层对应的权重并导出；

S102.通过实时张量重新构建网络并导入权重；

S200.基于原模型采集伺服驱动器推理序列数据及中间过程数据，形成{状态-动作-状态}数据对，并以定步和轨迹长度的形式进行存储；

S300.基于推理模型对步骤S200中的数据进行量化优化，生成量化精度的描述文件；

S400.采用传播误差的评价方法，对量化后的模型进行精度的评估，并对精度进行优化。

本发明中，所述步骤S102将所有长短期记忆网络层用实时张量（TensorRT）的递归神经网络算子重建定义，并在递归神经网络的输入层加乱序（shuffle）层，采用重排序（Permutation）调整输入形状。

进一步地，所述步骤S102将长短期记忆网络算子的权重按格式拆分为递归神经网络所需要的三个子参数权重，再导入重构的网络。

本发明中，所述步骤S200中记录长短期记忆网络层的隐含状态数据对，经推理形成按时间顺序的轨迹。

本发明中，所述步骤S400中精度评估包括系统收敛程度及累计精度损失。

进一步地，所述步骤S400中精度优化过程基于量化结果进行微调训练。

优选地，所述优化过程为：先用量化后的模型进行推理，保存每层长短期记忆网络的隐藏状态的结果和分布，求出此分布的极值；然后对训练网络隐藏状态的输出层的激活函数增加一个固定的限制函数，用上述极值对激活函数的输出进行限定；对新的训练网络进行微调。

进一步地，所述步骤S400中累计精度损失采用如下公式进行计算：

其中，loss代表累计精度损失，t为推理的时间步，T为推理的总步数，state和action为校准数据集中的轨迹状态和推理动作，state’和action’为采用量化模型得到的轨迹状态和推理动作；k1和k2为状态精度损失和动作精度损失系数。

相对于现有技术，本发明的有益效果为：

1. 本发明提供的推理量化方法可有效降低推理过程的精度损失，有力促进了AI算法在伺服驱动器上的应用；

2. 本发明采用实时张量（TensorRT）量化方法，可以有效的降低模型规模，推理速度可以提高5倍以上；针对伺服驱动器的AI推理中存在的推理误差传播问题，提出一种有效的评价方法，可以避免推理模型失效；

3. 本发明充分利用实时张量（TensorRT）的量化信息，提出了一种再训练方法，可以有效的降低量化过程中的精度损失。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明所述推理量化方法流程图。

图2为本发明所述量化精度优化训练网络结构。

具体实施方式

为了使本发明的目的、技术方案和有益技术效果更加清晰明白，以下结合附图和具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并不是为了限定本发明。

本发明提供一种用于智能伺服驱动器的AI芯片推理量化方法，智能伺服驱动器是指该驱动器是通过集成AI运算能力和智能控制算法，来进行电机驱动器各功能的控制。所述方法流程如图1所示，具体步骤如下：

第一步：将推理模型用目标AI芯片的应用程序接口（API，ApplicationProgramming Interface）进行模型重构（如支持NVIDIA芯片的实时张量（TensorRT）应用程序接口（API，Application Programming Interface））等。通过张量流（tensorflow，谷歌公司开源的深度学习框架）、火炬（pytorch，脸书公司开源的深度学习框架）等训练所得的模型，首先需要通过张量流（tensorflow）、火炬（pytorch）等原架构的应用程序接口加载模型。其次，读取各层的名称，以及各层的权重。再将网络权重参数以层为单位，导出为一个文本格式的权重文件。最后，通过实时张量（TensorRT）的C++ 应用程序接口，按原网络结构重新构建网络：

1）创建一个空的权重变量权重图（weightMap），用来导入上述权重；

2）按原网络结构采用实时张量（TensorRT）的C++ 应用程序接口进行网络重构。重构时将所有长短期记忆网络层需用实时张量（TensorRT）的递归神经网络算子采用重建定义。并且在递归神经网络的输入层前半加乱序（shuffle）层，采用重排序列（Permutation）(1,2,0)操作，调整输入形状；

3）导入上一步的权重文件，并将长短期记忆网络算子的权重按格式拆分为递归神经网络所需要的三个子参数权重。所有权重存在权重图（weightMap）中，并应用于重构的网络。

第二步：采集量化校准数据。根据伺服驱动器的特点，采集推理序列数据及中间过程数据，形成由多条轨迹，构成的目标优化数据。在数据收集中要考虑如下特殊要求：可以用于考虑精度的量化过程；可以用于评价量化后模型的传播误差；可以用于量化后的进一步优化（第五步）。用于伺服控制的AI算法，一般是由强化学习训练所得。其输入为观测的各种系统状态，其输出为当前状态所需的执行的动作。系统执行控制动作后，会产生新的状态。首先用原模型以32位浮点（float32）精度，在训练环境中进行连续推理，得到一系列的{状态-动作}数据对。同时记录网络推理过程中的一些必要中间数据，用于后续优化。本方案中，主要记录长短期记忆网络层的隐含状态信息，隐藏式状态信息由两个主要数据构成。将这些数据对，按时间顺序排列存储为一条轨迹，进行多次连续的推理，得到一组推理轨迹，作为后续优化用原始数据。

具体采集量化校准数据过程如下：

1）确定数据来源和数据格式。为了可以完成量化过程，用原模型以32位浮点（float32）精度，在训练环境中进行连续推理，获取数据。伺服驱动器中要表征的是一系列在某个控制状态下，采用某个控制动作，进而得到下一个控制状态的动态过程。因此，采用{状态-动作-状态}数据对的时间序列作为基本数据存储格式，用于进行量化优化；

2）将基础数据以定步和轨迹长度的形式进行存储，用于完成评价后模型的传播误差的评价。本方案中，在采集数据的时候控制频率不变，第一条轨迹都设相同的长度。例如，以10K的控制频率，进行2秒的推理，则每一条轨迹长度为2000步；

3）同时保存推理中的时序信息，用于完成后续的进一步优化。由于时序性的特点，因此常用算法常要用于时序相关的网络结构如长短期记忆网络等网络结构。因此，同时记录网络推理过程中的一些必要中间数据，用于后续优化。本方案中，主要记录长短期记忆网络层的隐藏状态信息，隐藏状态信息由两个主要数据构成。将这些数据对，按时间顺序排列存储为一条轨迹。进行多次连续的推理，得到一组推理轨迹。作为后续优化用原始数据。

第三步：利用上述数据进行有符号8位整数（int8）量化优化。以实时张量（TensorRT）例应用程序接口，首先，实现实时张量（TensorRT）中的8位整型最大最小标定（IInt8MaxMinCalibrator2）接口类，定义一个标定器（calibrator）。此标定器（calibrator）可以按上一步的记录的格式，读取所存储轨迹文件，将其重组为训练数据批量（batch）。并提供批量（batch）的读取功能。其次，定义一个实时张量（TensorRT）的构建配置（IBuilderConfig），定义数据类型为有符号8位整数（int8），并将标定器（calibrator）的地址通过设置8位整型标定器（setInt8Calibrator）函数, 传入到构建配置（IBuilderConfig）中。最后，依据配置（config）文件，生成实时张量（TensorRT）的量化后的引擎（engine）文件用于推理，同时生成量化精度的描述文件。

第四步：采用考虑传播误差的评价方法，对量化后的模型进行精度的验证。实时张量（TensorRT）可以根据每一个由激活函数所定义的层进行量化评估。但是，无法考虑伺服控制中连续推理所产生的误差传播效应。首先，根据伺服控制器的工作范围，采用均匀采样的方法生成一系列的初始工况状态。其次，把所有的初始工况进行推理测试，对所有轨迹进行控制精度的评估。主要包括两个主要评估指标：1）控制系统是否收敛。此步对所有初始工况进行长时间的持续推理，推理时间至少为训练中单条轨迹时间的2倍。对所有推理轨迹进行是否收敛到一个小的状态范围的评估。2）累计精度损失。对所有推理轨迹，取训练中单条轨迹的长度，按如下公式进行误差计算：

其中：loss代表精度损失。t为推理的时间步，T为推理的总步数。state和action为校准数据集中的轨迹状态和推理动作，state’和action’为采用量化模型得到的轨迹状态和推理动作。k1和k2为状态精度损失和动作精度损失系数，一般可分别取0.2和0.8。此算法同时考虑了动作绝对误差和传播累计误差。当两个误差都较小时，状态误差状趋向于零。

第五步：基于量化结果的微调训练，提高量化精度。如果推理精度不满足要求。则可以尝试训练过程中对长短期记忆网络的隐藏状态进行固定重映射的8位的计算截断。首先，用量化后的模型进行推理，并且保存每层长短期记忆网络的隐藏状态的结果和分布。此分布即为，量化模型所能处理的无精度损失分布。求出此分布的最大值和量小值。其次，对训练网络，将隐藏状态的输出层的激活函数后增加一个固定的限制函数。用上一求出的最大值和最小值，限制激活函数的输出大小。最后，对新的训练网络进行微调。一种具体的操作见图2，其中的最大最小操作为额外新增操作。此操作无优化参数。当网络参数的分布在微调过程中不产生大的变化时，通过上述操作，相当于让隐藏状态进行8位精度的截断训练。微调后的模型，再经过上述量化过程，可以得到推理精度损失更少的量化模型。

本发明所述方法中第一步采用各AI芯片自带的应用程序接口来完成，第二步、第四步和第五步是针对智能伺服驱动器来进行的。第一步和第三步，主要是采用AI芯片自带的应用程序接口来进行。本方法中的第二、四和五步并不限于AI芯片的种类。本发明提供的推理量化方法可以有效的提高量化模型的推理速度和推理精度，采用实时张量（TensorRT）量化方法，可以有效的降低模型规模，推理速度可以提高5倍以上。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言可容易地实现另外的优点和修改，故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

Claims

1.一种用于智能伺服驱动器的AI芯片推理量化方法，其特征在于，包括如下步骤：

S100.基于AI芯片的应用程序接口构建推理模型：

S102.基于原架构模型通过实时张量重新构建网络并导入权重, 作为推理模型的重构的网络；

S200.基于未经实时张量处理的原模型采集伺服驱动器推理序列数据及中间过程数据，形成{状态-动作-状态}数据对，并以固定时间步长和数据对时间序列轨迹长度的形式进行存储；

2.根据权利要求1所述的AI芯片推理量化方法，其特征在于，所述步骤S102将所有长短期记忆网络层用实时张量的递归神经网络算子重建定义，并在递归神经网络的输入层加乱序层，采用重排序调整输入形状。

3.根据权利要求2所述的AI芯片推理量化方法，其特征在于，所述步骤S102将长短期记忆网络算子的权重按格式拆分为递归神经网络所需要的三个子参数权重，再导入重构的网络。

4.根据权利要求1所述的AI芯片推理量化方法，其特征在于，所述步骤S200中记录长短期记忆网络层的隐藏状态数据对，经推理形成按时间顺序的轨迹。

5.根据权利要求1所述的AI芯片推理量化方法，其特征在于，所述步骤S400中精度评估包括系统收敛程度及累计精度损失。

6.根据权利要求5所述的AI芯片推理量化方法，其特征在于，所述步骤S400中精度优化过程基于量化结果进行微调训练。

7.根据权利要求6所述的AI芯片推理量化方法，其特征在于，所述优化过程为：

先用量化后的模型进行推理，保存每层长短期记忆网络的隐藏状态的结果和分布，求出此分布的极值；然后对训练网络隐藏状态的输出层的激活函数增加一个固定的限制函数，用上述极值对激活函数的输出进行限定；对新的训练网络进行微调。

8.根据权利要求5所述的AI芯片推理量化方法，其特征在于，所述步骤S400中累计精度损失采用如下公式进行计算：