CN113128556B

CN113128556B - 基于变异分析的深度学习测试用例排序方法

Info

Publication number: CN113128556B
Application number: CN202110260480.5A
Authority: CN
Inventors: 陈俊洁; 尤翰墨; 王赞; 张颖异
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2022-10-28
Anticipated expiration: 2041-03-10
Also published as: CN113128556A

Abstract

本发明公开了一种基于变异分析的深度学习测试用例排序方法，技术方案包括以下三点：(1)为模型和测试输入设计多种变异算子；(2)特征提取；(3)测试排序模型的训练和使用。与现有技术相比，本发明所能够达成的有益效果包括了1)便于开发者优先标注揭错能力强的测试用例，从而减少标注成本、提升测试效率；2)可以广泛适用于多种领域和多种格式的数据；3)提供了适用于多场景和多领域的深度学习测试用例排序方法PRIMA。

Description

基于变异分析的深度学习测试用例排序方法

技术领域

本发明涉及深度学习应用和深度学习测试领域，特别是涉及一种深度学习测试用例排序方法。

背景技术

深度学习测试中的深度神经网络(Deep Neural Network，简称DNN)模型通常是由多层构成的。其中每层包含大量的神经元，层与层之间的神经元依靠特定的权重相连，这些权重是模型在训练集数据中经过多轮训练后获得的。根据模型结构的差异，DNN模型通常分为两类：卷积神经网络(Convolutional Neural Network，简称CNN)和循环神经网络(Recurrent Neural Network，简称RNN)。DNN测试是最常见的用于保证DNN模型质量的方法，可以发现DNN模型中的缺陷。DNN测试的输入是指用于放入模型中预测的输入数据包括图像、文本等，随着模型涉及的领域不同有所区别。通过人工标注确定每个测试输入所对应的真实标签。在模型质量评估中，将模型预测所得的标签和真实标签作比较，即可发现模型是否预测错误。

和传统软件工程中回归测试的测试优化类似，深度学习测试优化包括选择和排序，用于减少测试成本、提升测试效率。深度学习测试面临的巨大挑战之一是标注成本过高，这是因为待标注数据集通常规模庞大，需要人工手动标注和多次校验以保证统计学的准确性。除此之外，特定的数据集的标注过程不仅仅需要人力成本，还需要标注者具有大量领域相关知识，这使得测试用例标注代价高昂。因此需要对测试输入进行筛选和排序，优先将符合条件和揭示错误的测试用例筛选出来，可以大幅减少标注成本、提升测试效率，这是深度学习测试优化的重要途径。

测试用例旨在选择一小部分测试用例，使其分布和原始测试用例集一致，进而使用小部分测试用例替代大规模数据集评估模型准确率。测试用例排序则通过特定算法实现测试用例的排序，因此将更容易揭示模型错误的测试用例赋予更高的优先级，这意味着测试人员可以在有限的测试时间中，优先标注更有可能致错的测试用例，从而达到最优的测试效果。常见的深度学习测试用例排序方法大致分为基于置信度的排序方法和基于惊喜值的排序方法，从不同的角度对测试用例的揭错能力进行了描述。

现有的前沿排序方法通常是基于置信度的测试用例排序方法和基于惊喜值的测试用例排序方法。①基于置信度的测试用例排序方法(如DeepGini)：倾向于将预测概率分布较平均的测试用例赋予更高优先级，这种排序方式多面向分类问题，不能直接用于回归等任务。②基于惊喜值的测试用例排序方法：又分为基于可能性的惊喜值排序(Likelihood-based Surprise Accuracy，简称LSA)和基于距离的惊喜值排序(Distance-based Surprise Accuracy，简称DSA)，LSA对测试用例集的要求较严苛，很容易出现失常的问题；DSA仅仅适用于分类任务，且耗时较长。除此之外，上述现有的测试用例排序方法在面临测试集和训练集分布差异较大的情况时效果会变差。

发明内容

为了解决减少现有技术中测试标注数量、以提升测试标注的效率的问题，本发明提出了一种基于变异分析的深度学习测试用例排序方法(PRIMA)，实现了按照测试用例的揭错能力对其进行排序的新颖、且适用于对多领域的对深度学习模型的测试用例进行优先级排序，提出了的深度学习测试用例排序方法。

本发明为解决上述问题而采取的技术方案如下：

一种基于变异分析的深度学习测试用例排序方法，该方法包括以下步骤：

步骤1：为深度学习模型和测试输入设计变异算子，以寻找测试用例；其中：

针对深度学习模型设计的变异算子包括四种即高斯模糊、权重调换、神经元状态反转和神经元状态屏蔽，其所需满足的设计条件为：在每层选取10％的神经元进行扰动，对于变异算子高斯模糊，将高斯噪声的扰动方差设为该层神经元的标准差；每次生成100个变异模型，用于计算平均值以排除随机影响；

针对测试输入设计的变异算子所需满足的设计条件为：①对于图像领域的变异算子所需满足的设计条件为：每次选择整体像素数5％大小的相邻像素块作为变异区域；②针对自然语言文本的变异算子所需满足的设计条件为：每次选择一个字母进行变异，作为平衡，对每个测试用例根据每种变异算子生成50个变异体；③针对预定义的数据的变异算子所需满足的设计条件为：对每个测试用例根据每种变异算子生成50个变异体；

步骤2：分别将原始数据集和变异后的数据集输入到原始模型中，以提取测试输入变异分析过程所需特征，具体操作为：对验证集和待标记测试集数据进行特征提取，之后，将验证集和待标注测试集中每个测试用例对应的两类特征拼接整合在一起，分别生成验证集特征和待标注测试集特征；

步骤3：训练和使用测试排序模型，训练完善的排序模型将根据待标注测试集的特征，利用验证集的特征对测试集排序进行指导。

本发明的基于变异分析的深度学习测试用例排序方法(PRIMA)能够达成以下有益效果：

1)便于开发者优先标注揭错能力强的测试用例，从而减少标注成本、提升测试效率；

2)可以广泛适用于多种领域和多种格式的数据；

3)提供了适用于多场景和多领域的深度学习测试用例排序方法PRIMA。

附图说明

图1为本发明的一种基于变异分析的深度学习测试用例排序方法(PRIMA)整体流程图；

图2为本发明的一种基于变异分析的深度学习测试用例排序方法(PRIMA)具体实施过程示意图；

图3为揭错效果曲线示意图；

图4为本发明的一种基于变异分析的深度学习测试用例排序方法(PRIMA)的排序学习模型参数影响示意图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步详细描述。

本发明的一种基于变异分析的深度学习测试用例排序方法(PRIMA)，采用Python语言实现，同时使用Keras 2.3.1作为前端的高层级深度学习库和使用XGBoost 1.1.1用于排序训练模型搭建。本发明在128G Intel Xeon Silver-4214机器上实现，带有八块RTX1080Ti GPU，使用的操作系统为Ubuntu 18.04。

本发明的技术方案包括以下三点：(1)为模型和测试输入设计多种变异算子，(2)特征提取，(3)测试排序模型的训练和使用，利用变异分析寻找揭错能力强的测试用例，这三点均属于本发明的创新点，

如图1所示，为本发明的一种基于变异分析的深度学习测试用例排序方法(PRIMA)整体流程图。该流程具体包括以下步骤：

步骤1：为深度学习模型和测试输入设计变异算子，以寻找揭错能力强的测试用例；

无论是对深度学习模型还是对测试输入进行变异，变异算子设计都遵循“对最基本元素进行轻微变异”这一宗旨，因为过大的变异通常会导致深度学习模型和测试用例失效，为深度学习测试带来负面的效果。为了保证变动较小，PRIMA对每条变异算子的大小进行了一定的限制。

其中，针对深度学习模型设计的变异算子(本发明设计了四种变异算子：高斯模糊、权重调换、神经元状态反转、神经元状态屏蔽)所需满足的设计条件为：在每层选取10％的神经元进行扰动，特别对于高斯模糊设定而言，将高斯噪声的扰动方差设为该层神经元的标准差；每次生成100个变异模型，用于计算平均值排除随机影响。由于深度学习模型应用领域不同，对不同领域测试输入设计的变异算子及参数设置稍有区别。针对深度学习模型的变异算子设计：对于DNN模型而言，每个DNN模型是由多层组成的，每层都有一定数量的神经元，神经元和权重是DNN的基本构成元素，选取神经元的激活状态和权重作为模型的基本变异元素。为了保证模型的变动较小，选择层内变异作为变异方式。

针对测试输入设计的变异算子所需满足的设计条件为：①对于图像领域的变异算子所需满足的设计条件为：每次选择整体像素数5％大小的相邻像素块作为变异区域。特别针对像素高斯模糊这一变异算子，将扰动方差设定为0.8。②针对自然语言文本的变异算子(字符乱序、字符复写、字符替换)所需满足的设计条件为：每次选择一个字母进行变异，由于数据集中文本长度各不相同，作为平衡，对每个测试用例根据每种变异算子生成50个变异体。③针对预定义的数据的变异算子所需满足的设计条件为：对每个测试用例根据每种变异算子(连续数据浮动、离散数据修改)生成50个变异体。在做特征提取时会对数据进行处理，其中计算平均值可以大幅减少随机性的影响。在测试输入变异算子设计：由于模型的任务和领域不同，测试输入往往也随之变换。如果输入是图像，则针对基本像素进行扰动，设计了五种针对图像的变异算子：像素高斯模糊、像素置白、像素置黑、像素颜色置反、像素乱序；如果输入是序列数据(例如自然语言文本)，则针对每个字母进行扰动，设计了三种针对自然语言文本的变异算子：字符乱序、字符复写、字符替换；对于已经定义的特征向量，PRIMA针对每一个数据进行扰动，针对数据的特性，设计了两种变异算子，一种是针对离散数据的修改，另一种是对连续数据进行浮动调整。

变异算子的设计思路是对模型或者测试输入的基本元素进行“微小”的变异，用于提取特征进行变异分析。不仅对深度学习模型进行变异，也同样对测试输入进行变异。如果一个变异的测试用例和原始用例在原模型的预测结果不同，即认为这个测试用例被模型“杀死”，这意味着这个测试用例的大部分信息都被模型充分利用，该测试用例自身被充分探索；同理，如果一个测试用例在原始模型和变异模型中得到不同的结果，这意味着这个测试用例可以“杀死”模型，这说明该测试用例可以对模型进行充分的测试和探索。由此，分别对模型和测试输入进行变异，以寻找揭错能力强的测试用例。在设计针对输入和模型的变异算子时，宗旨是“进行微小的变异”，即通常只选择很小范围的基本元素进行轻微的变异，原因是过大的变异通常会导致不可预测或失效的变异效果，而小的变异容易定位，也更容易模拟真实世界中可能出现的场景。

步骤2：分别将原始数据集和变异后的数据集输入到原始模型中，以提取测试输入变异分析过程所需特征(具体为对验证集和待标记测试集数据进行特征提取)；之后，将验证集和待标注测试集中每个测试用例对应的两类特征拼接整合在一起，分别生成验证集特征和待标注测试集特征两个文件，本步骤还包括对上述特征进行统计和匹配；

特征提取的具体操作为：先将变异的验证集和测试集输入到原始模型中，获取与测试输入相关的特征；再将原始测试数据输入到变异模型中，获取与深度学习模型相关的特征；在收集数据之后，为了保证所有数据的分布在0到1区间内，防止“高维失效”情况的出现，将对每一列特征数据做归一化处理。假设测试输入实例集A(验证集或者测试集)有u个测试用例，该集合表示为A＝{a₁,a₂,......,a_u}，共计有v个特征的特征集可表示为F＝{f₁,f₂,......,f_v}，设每个测试实例a_i的特征f_j未经归一化的数据为x_ij(1≤i≤u,1≤j≤v)，其归一化后的数值

表示为：

在特征经过归一化处理后，验证集的特征将在训练排序学习模型的过程中使用，训练完善的排序模型将根据待标注测试集的特征，指导测试用例排序。

依据上述的神经网络模型变异算子设计了多种特征用于变异分析。这些特征不仅仅包含一个测试用例“杀死”的模型数量(或被模型“杀死”的数量)，也包含各种度量差异程度的指标。假设测试输入集T＝{t₁,t₂,......,t_s}，拥有g类的待测深度学习模型M，由第R种变异算子生成的变异模型集合为

由第r种变异算子对测试用例t_k生成的变异测试输入集合为

测试用例

在模型M上进行预测的概率向量可以表示为

被预测的类别被记作

对于某一测试用例t_k和待测模型M的特征表示如下：

本步骤设计了两类特征表征变异前后的差异，第一类用以衡量类间变化，第二类衡量预测概率之间的变化。

(一)类间特征包括以下几种：

F₁ ^a：用于衡量变异体被“杀死”的数量，即在每种变异算子下，预测结果

(或者

)与C[t_kM]不同的变异体个数。

F₁ ^b：集合

(或者

)|

(或者

)与C[t_kiM]不同}的大小，即变异体总体被错分为多少类别，这表明了测试用例揭示多样错误的能力。

F₁ ^c：

(或者

)与C[t_kM]不同的类别中，每类对应的变异体数量的最大值，这反映了变异体的分布情况。

(二)概率间特征包括以下几种：

平均差异程度，

(或者

)与P[t_kM]的平均差异，这种差异是依据距离进行计算的，PRIMA选取了余弦距离。

(或者

)与P[t_kM]的差异的概率分布情况。PRIMA将区间[0，1]分为十个相同大小的区间，统计各区间内差异值的分布情况。

统计各变异体在C[t_kM]类别上置信度的差异值的平均值。在原始输入和原始模型预测类别上的置信度变化情况与揭错能力紧密相关。

如图3所示，为为揭错效果曲线示意图。

步骤3：训练和使用测试排序模型，利用验证集的特征对测试集排序进行指导。

使用XGBoost的“pairwise”排序方法进行排序，具体处理包括：

1)XGBoost利用经过数据处理的验证集的特征文件进行训练。在训练过程中，根据数据特征的集合，利用模型验证集中提取的特征构建排序学习(learning-to-rank)模型的训练集。对于每个验证集中的实例，依据其是否被待测原始模型正确预测进行0和1的标注。对这些数据进行归一化处理，以保证这些数据放缩分布在0-1的区间中。在数据处理完成之后，利用此模型对待标记测试数据集中的测试用例进行排序。对于回归任务，PRIMA不再利用0和1作为标签，而是选择均方误差(MSE)作为标签，PRIMA倾向于将MSE更大的测试用例赋予更高的优先级。对于分类任务，验证集的标签是0和1，0意味着该输入实例可以发现原始模型的错误，1意味着输入实例会被原始模型正确分类。对于回归任务，验证集的标签是MSE，MSE越大意味着回归模型的错误越严重。2)在完成排序学习模型训练之后，将处理完成的待标注数据集的特征输入到训练好的排序模型中，排序模型会给每个测试用例进行评分和排序，优先找出揭错能力更强的测试用例。3)在排序完成后，会将排序结果导出，并计算排序结果的RAUC，评估排序结果的错误探测能力。

XGBoost的排序学习模型包含多个超参数，这些超参数的数值会影响最终的排序结果。为了取得相对稳定且可复现的结果，在实验过程中，本发明使用控制变量的方法，对各主要参数对排序结果的影响进行了对比探究。在实验过程中，主要选取了max_depth(XGBoost模型最大的树深度)、colsample_bytree(在建立树过程中对每列特征的采集比)、learning_rate(XGBoost的学习率)进行研究。

之所以选择XGBoost的排序学习进行模型构建，是因为①排序模型的训练集标签是0和1，这实际上是分类的标签，XGBoost排序算法善于利用这些分类标签进行排序；②使用决策树集成模型可以从基本特征中有效学习到更复杂的特征，这适用于PRIMA所对应的任务；③与其他排序学习算法相比，XGBoost的有效性和高效性已经得到了充分验证；④XGBoost可以度量每个特征对排序结果的贡献程度，这使得排序结果更容易被解释。

图2为本发明的一种基于变异分析的深度学习测试用例排序方法(PRIMA)具体实施过程示意图，是本发明流程实现的具体实例。

为了验证PRIMA的有效性，科学地对实验结果进行分析，本发明在包括MNIST，CIFAR-10等36组实验数据集模型和4组实际应用场景下进行了实验。本发明中使用的所有模型和数据集均在表1中列出。如表1所示，为深度学习模型及数据集。这些数据集和模型包括3种领域(图像、文字和预定义数据)、2种任务(分类任务和回归任务)、2种模型结构(卷积神经网络和循环神经网络)，2种使用情境(训练集受到污染和迁移学习)，2种样本类别(正常样本和对抗样本)。本发明选取RAUC-N衡量排序效果。按照排序结果进行遍历，如果该排序成功侦测到一个被待测模型预测错误的测试用例，则侦测错误数量加一，由此构成横坐标为测试用例数，纵坐标为错误侦测数的揭错效果曲线，如图2所示。在理想状态下，所有的错误测试用例会被优先排到队列前部。RAUC是指目标排序和理想排序揭错效果曲线下面积比。PRIMA统计排序结果中前100，200，300，500，1000个测试用例的RAUC，RAUC-N不仅能够反映排序结果前N个测试用例的揭错有效性，也可以反映揭错的效率。除此之外，本发明选取排序时间，作为衡量排序效率的指标。

总体实验结果如表2所示。如表2所示，为排序方法效果对比。在180组(36个项目*5个标准)实验结果中，PRIMA在94.44％(180组实验中的170组)的项目上取得最佳效果，对比方法中，DeepGini只在5.56％(180组中的10组)的项目上取得最佳效果。在分类模型上(编号1-24，31-36)，PRIMA的平均结果取值范围为0.868到0.919，比DeepGini平均提升8.50％-18.24％，比LSA提升34.16％-57.17％，比DSA平均提升27.29％-40.23％。在回归模型中(编号25-30)，PRIMA比LSA平均提升17.27％-131.01％。经过统计学检验，PRIMA方法和其他方法的p值小于0.05，这意味着PRIMA显著优于其他对比排序方法。

除此之外，PRIMA在多种情境下均可取得优异效果。从各种领域的角度看，除了在图像领域(编号1-30)有较好效果之外，在自然语言文本领域(编号31-35)，在RAUC-100这一指标上，PRIMA比DeepGini，LSA和DSA平均提升了39.17％，321.68％和47.99％。在预定义好的特征中(编号36)，RAUC-All甚至达到了0.966，而对比方法DeepGini和DSA仅有0.743和0.730。

在训练集受到污染的情境下(编号18-20)，PRIMA显著优于所有对比方法，PRIMA的平均效果在0.983到1之间，而其他对比方法，例如DeepGini仅仅在0.443到0.583之间。在迁移学习数据集上(编号21-24)，PRIMA的效果在0.859到0.919之间，而DeepGini效果在0.740到0.849之间，这证明了PRIMA在各个情境下的显著优越性。

如图3所示，为揭错效果曲线示意图。是本发明选取了6个有代表性的数据集模型进行验证的实验结果，该实验结果表明PRIMA在各种参数设置下表现较稳定，并根据效果推荐max_depth设为5，colsample_bytree设为0.5，learning_rate设为0.05。

表1

表2

Claims

1.一种基于变异分析的深度学习测试用例排序方法，其特征在于，该方法包括以下步骤：

针对深度学习模型设计的变异算子包括四种即高斯模糊、权重调换、神经元状态反转和神经元状态屏蔽，其所需满足的设计条件为：在每层选取10%的神经元进行扰动，对于变异算子高斯模糊，将高斯噪声的扰动方差设为该层神经元的标准差；每次生成100个变异模型，用于计算平均值以排除随机影响；

针对测试输入设计的变异算子所需满足的设计条件为：①对于图像领域的变异算子所需满足的设计条件为：每次选择整体像素数5%大小的相邻像素块作为变异区域；②针对自然语言文本的变异算子所需满足的设计条件为：每次选择一个字母进行变异，作为平衡，对每个测试用例根据每种变异算子生成50个变异体；③针对预定义的数据的变异算子所需满足的设计条件为：对每个测试用例根据每种变异算子生成50个变异体；

步骤2：分别将原始数据集和变异后的数据集输入到原始模型中，以提取测试输入变异分析过程所需特征，具体操作为：对验证集和待标记测试集数据进行特征提取，之后，将验证集和待标注测试集中每个测试用例对应的两类特征拼接整合在一起，分别生成验证集特征和待标注测试集特征；其中，两类特征包括第一类的类间特征，用于衡量变异体被“杀死”的数量、变异体总体被错分为多少类别以及每类对应的变异体数量的最大值；第二类的概率间特征，包括平均差异程度、差异的概率分布情况；各变异体在相关类别上置信度的差异值的平均值；

2.如权利要求1所述的一种基于变异分析的深度学习测试用例排序方法，其特征在于，所述特征提取的具体操作为：先将变异的验证集和测试集输入到原始深度学习模型中，获取与测试输入相关的特征；再将原始测试数据输入到变异模型中，获取与深度学习模型相关的特征；在收集数据之后，将对每一列特征数据做归一化处理，在特征经过归一化处理后，验证集的特征将在训练排序学习模型的过程中使用。