CN111858351A

CN111858351A - 一种基于差分评估的深度学习推理引擎测试方法

Info

Publication number: CN111858351A
Application number: CN202010712793.5A
Authority: CN
Inventors: 房春荣; 曹可凡; 刘佳玮
Original assignee: Shenzhen Muzhi Technology Co ltd
Current assignee: Shenzhen Muzhi Technology Co ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-30

Abstract

一种基于差分评估的深度学习推理引擎测试方法，包含模型导入检查模块、中间表示获取模块和结果评估模块。在模型导入检查模块，分析引擎是否支持模型所涉及的所有算子和相关参数，结合引擎内部的异常捕获机制和导入前后的模型结构对比，判断模型导入引擎后结构是否保持一。在中间表示获取模块，整理不同编译器所提供的获取IR数据的途径，通过人工处理对引擎信息和对应的获取指令进行封装，并生成统一的调用接口。在结果评估模块，获取适用于差分测试任务的编译器列表，包括编译器名称和对应的模型来源，并调用中间表示获取接口得到IR数据。

Description

一种基于差分评估的深度学习推理引擎测试方法

技术领域

本发明属于软件工程和机器学习领域，特别是针对深度学习推理引擎的模型处理。对于深度学习模型处理的中间过程和输出结果，评估推理引擎对具体深度学习框架的支持性。

背景技术

随着人工智能的快速发展，基于深度学习(DL)技术的神经网络模型纷纷涌现，并在自动驾驶、医疗诊断等前沿领域被广泛使用。为了提供方便的模型训练与部署服务，TensorFlow、PyTorch、Caffe等深度学习框架应需而生。然而由于平台支持差异等一系列问题，在多种硬件上部署特定框架训练出的DL模型存在许多困难，由此推动了社区中DL编译器的研究和开发。不同DL编译器的算子支持和内部推理优化方式差异较大，由此DL编译器测试等质量保障手段显得更加重要。

目前尚未有公开的针对深度学习推理引擎的测试方法。在传统编译器的测试过程中，差分测试是有效解决测试Oracle问题的主流方法。然而在针对深度学习推理引擎的测试任务中，深度学习编译器在输入数据模式和内部执行上与传统编译器存在较大差异。因此，尽管DL编译器和传统编译器存在相似之处，都是将前端输入转化为适用于具体硬件的后端输出，且均存在中间IR表示和编译优化等特性，但是DL编译器以深度学习模型为主要输入形式，且在推理优化的过程中更加关注矩阵运算等数值处理过程，与传统的编译优化技术和内部数据结构存在差异。因此，我们希望针对深度学习推理引擎的自身特点，设计可有效用于推理引擎测试任务的差分测试技术，从而达到测试目的。

目前深度学习方面的差分测试工作主要局限于基于深度学习模型质量的深度学习框架测试，推理引擎的测试工作尚未进入研究者的视野。

基于上述工作，本发明深度挖掘了在推理引擎执行过程中的数据流信息。这些信息的隐含缺陷是难以发掘的，但是通过差分对比后可以被检测到。因此本发明基于差分测试方法，将推理引擎执行的中间结果和输出进行总结，并选取多款同类推理引擎，在消除差异性的基础上对输出结果进行对比，从而定位隐含缺陷。

发明内容

本发明要解决的问题是：深度学习编译器的测试Oracle难以解决，单一输出结果的有效性难以评估。我们的发明能够通过差分测试，对比多款同类型编译器推理过程和输出结果的一致性，为编译器的模型质量评估提供参考依据。

本发明的技术方案为：一种基于差分评估的深度学习推理引擎测试技术，其特征是能采用差分测试技术对推理过程进行评估。该测试技术包含以下三个模块：

1)

模型导入检查模块：模型导入首先分析引擎是否支持模型所涉及的所有算子和相关参数，如果不支持且该引擎并非待测引擎，则将不支持的引擎移出差分对比候选引擎列表。接着，通过结合引擎内部的异常捕获机制和导入前后的模型结构对比，分析模型导入引擎后结构是否保持一致。如果出现不一致情况，则定位差异位置，并对差异位置、差异原因和差异类型进行记录。对于有效的导入模型，其结构将被编译器调整优化，并生成图IR。图IR最终被传递到引擎的硬件平台上，进过硬件运算优化后生成低级IR并被部署。

2)

中间表示获取模块：首先需要整理不同编译器所提供的获取IR数据的途径，包括命令行参数、文件重定位等。然后通过人工处理对引擎信息和对应的获取指令进行封装，并生成统一的调用接口，从而为结果评估模块提供中间表示获取服务。

3)

结果评估模块：编译器差分测试技术，首先获取适用于差分测试任务的编译器列表，包括编译器名称和对应的模型来源，并调用中间表示获取接口得到IR数据。考虑到不同编译器及其内部编译器的IR实现和表示方法不同，如XLA采用HLO格式，而TVM采用lambda表达式，通过一致性转化流程，生成统一的IR替代格式，包括算子和对应参数，从而实现中间结果的可比性。我们采用对比分析作为随机网络的测试Oracle，严格检查IR的功能完整性和连通有效性，并尝试通过一些额外指标，如计算复杂性，衡量编译器的优化效果。最终评估模块收集并记录出现不一致所对应的模型、框架、引擎和差异信息，并将额外指标作为参考信息进行记录与统计。

本发明的特点在于：

1.首次关注深度学习推理引擎的测试工作。

2.首次利用差分测试方法进行深度学习推理引擎测试。

3.首次将推理引擎测试工作自动化。

附图说明

图1为本发明实施总流程图。

图2为关键模块1流程图。

图3为关键步骤2流程图。

图4为关键步骤3流程图。

具体实施方式

本发明中涉及的几项关键技术是利用推理引擎支持的一些深度学习框架构造模型，并利用多款推理引擎来进行差分测试，并进行测试验证，具体实现上使用了提供待测模型的深度学习框架Caffe、Pytorch、Tensorflow等。

1.模型信息识别

在本发明中，我们对作为测试输入的模型类型进行结构和属性分析。一般的神经网络模型信息，主要包含框架依赖，模型的算子列表和权重等。这些信息将被使用在模型导入阶段，用于确认具体推理引擎是否有效支持针对该模型的推理部署。

2.推理引擎支持列表生成

本发明中，我们获取和分析测试任务所涉及的推理引擎，以人工方式整理推理引擎所支持的深度学习框架(如Caffe、Pytorch、Tensorflow等)、深度学习算子和底层硬件，并生成列表。这些信息的主要来源是推理引擎开发者和社区提供的官方文档，并规定了测试任务的测试范围。

3.模型筛查

本发明中，我们采用人工提取的支持列表对原始测试数据集中的测试模型进行筛选，保留与列表规定范围相符的模型输入，这批模型在理论上是推理引擎支持的。然后将筛选得到的模型作为测试数据集，并针对不同推理引擎进行一致性处理。

4.异常机制建立

本发明中，我们利用人工设计的方法，分析整合不同推理引擎内置的异常捕获机制，在模型导入的整个过程中进行实时异常检测。如果模型在执行过程中发现异常，我们直接将该模型的结构信息和异常信息进行记录，从而作为一个潜在的推理引擎缺陷。

5.中间节点归纳

本发明中，我们通过人工整理不同编译器内部IR格式和IR获取方式。接着我们对IR节点进行分类，并对每一类节点的标记进行聚类。最后我们为每一个聚簇封装一个API，用于获取该模式下的IR节点数据。

6.模型导入

本发明中，我们将筛选后的数据集进行一致性处理，并作为各推理引擎的输入。在执行过程中，如果异常机制没有未检查到模型的推理过程异常，我们对该模型调用节点信息获取API，得到模型对应的各IR节点数据和推理输出结果。

7.差分评估

本发明中，我们对IR节点数据进行一致性转化，将诸如HLO格式、lambda格式的IR信息进行等价转换。然后我们采用对比分析作为随机网络的测试Oracle，严格检查IR的功能完整性和连通有效性，并尝试通过一些额外指标，如计算复杂性，衡量编译器的优化效果。最终评估模块收集并记录出现不一致所对应的模型、框架、引擎和差异信息，并将额外指标作为参考信息进行记录与统计。

在本实例中，我们发现了多个模型导入推理异常，并根据异常类型进行了人工划分整合。在差异评估部分，我们发现了6种主要的差异类型，涉及所有的待测推理引擎和深度学习框架，我们总结了差异在推理引擎和深度学习框架的分布情况和差异程度，其中差异程度主要基于差异次数和差异距离。

Claims

1.一种基于差分评估的深度学习推理引擎测试方法，其特征是分析引擎是否支持模型所涉及的所有算子和相关参数并定位；整理IR数据的途径，为结果评估模块提供中间表示获取服务；收集并记录出现不一致所对应的模型、框架、引擎和差异信息，并将额外指标作为参考信息进行记录与统计。

2.根据权利要求1所描述的分析引擎是否支持模型所涉及的所有算子和相关参数并定位，其特征是：模型导入首先分析引擎是否支持模型所涉及的所有算子和相关参数，如果不支持且该引擎并非待测引擎，则将不支持的引擎移出差分对比候选引擎列表。接着，通过结合引擎内部的异常捕获机制和导入前后的模型结构对比，分析模型导入引擎后结构是否保持一致。如果出现不一致情况，则定位差异位置，并对差异位置、差异原因和差异类型进行记录。

3.根据权利要求1所描述的以测试对前序数据处理后的数据概况通过多个指标展示，其特征是：首先需要整理不同编译器所提供的获取IR数据的途径，包括命令行参数、文件重定位等。然后通过人工处理对引擎信息和对应的获取指令进行封装，并生成统一的调用接口，从而为结果评估模块提供中间表示获取服务。

4.根据权利要求1所描述的以降维形式展示多维特征的数据拓扑图，其特征是：首先获取适用于差分测试任务的编译器列表，包括编译器名称和对应的模型来源，并调用中间表示获取接口得到IR数据。采用对比分析作为随机网络的测试Oracle，严格检查IR的功能完整性和连通有效性，并尝试通过一些额外指标，如计算复杂性，衡量编译器的优化效果。