CN114721934A

CN114721934A - 基于多目标优化的深度学习测试输入选择方法

Info

Publication number: CN114721934A
Application number: CN202111601502.6A
Authority: CN
Inventors: 陈俊洁; 沐燕舟; 王赞; 王建敏; 贾娇
Original assignee: Tianjin University; Technology and Engineering Center for Space Utilization of CAS
Current assignee: Tianjin University; Technology and Engineering Center for Space Utilization of CAS
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-07-08

Abstract

本发明公开了一种基于多目标优化的深度学习测试输入选择方法，基于待测DNN模型的中间层输出，作为T中全体测试输入的特征表示，完成预处理；通过聚类对原始测试集的数据分布进行初步评估；而后以待测模型的预测标签作为区分原始测试集中数据类别的参考信息，对原始测试集与测试子集之间聚类形成的各个数据簇中不同类别测试输入占当前簇的比例差异之和进行计算，以此为优化目标进化更新种群总体；利用多目标优化算法，得到若干个Pareto最优解，用户根据实际测试需求从Pareto最优解中选择出一个解构建出期望的测试子集X。本发明通过筛选出一个能够保持原始测试集性质的小规模测试子集帮助开发人员有效降低标注成本，提升测试效率。

Description

基于多目标优化的深度学习测试输入选择方法

技术领域

本发明涉及软件测试领域中的深度神经网络测试技术，特别是涉及深度学习测试输入选择方法。

背景技术

一、深度神经网络及测试

在测试深度神经网络(Deep neural network，简称DNN)DNN模型时，通常是将测试输入的实际测试预言与DNN模型预测给出的输出值之间进行比较，进而判断DNN模型的预测性能，即判定对于给定的测试输入，DNN模型是否正确地完成了预测任务。

DNN模型由多层组成，每层包含多个神经元，研究人员通过分析DNN模型的结构提出了不同的覆盖标准。例如，1)用于测试真实世界DNN模型的白盒框架以及神经元覆盖标准；2)包括神经元级覆盖标准和层级覆盖标准在内的一系列更细粒度的充分性标准；3)DNN模型的惊喜值和惊喜覆盖率，惊喜值用于定量测量测试数据相对于待测模型的意外惊喜程度(即意外充足性)，惊喜覆盖率用于测量具有特定激活特征的神经元的覆盖率；4)对RNN模型进行定量分析的五个覆盖标准。研究人员还研究了测试生成技术。例如，对DNN模型应用了concolic测试、一个覆盖率引导的模糊测试框架DeepHunter以及简单有效的基于模糊的黑盒攻击方法DeepSearch。

二、深度学习测试输入的优化

深度学习测试输入的优化包括选择和排序在内的两种工作，其中选择工作的目的是为了从原始测试集中挑选出一定数量具有代表性的测试输入，这些测试输入组合成的集合能够有效代替原始测试集的测试性质，因此只需对这部分少量的测试输入进行标注就可以代替原始测试集完成测试任务，降低标注代价。排序工作的目的是为了从原始测试集中挑选出一定数量对模型测试有价值的测试输入，例如能够有效暴露模型错误。通过对这些测试输入进行标注同样可以降低标注代价。研究人员已经提出了多种实现选择工作的方法，例如1)简单随机采样方法从原始集合中无放回地逐个选取，直到达到给定待抽取的样本数量为止，其优势是操作简单，时间开销小。然而，这种简单随机抽样方法的性能很大程度上受所选样本容量的限制，当样本容量较小时，选取的样本不足以代表总体的真实分布性质。2)CSS(Confidence-based Stratified Sampling)方法基于模型预测时得到的样本置信度高低对原始测试输入进行分层，然后在不同取值区间按照特定比例进行分层采样，直到选中样本的数量达到预先设定的标注数量。该方法侧重于在置信度较低的层次进行挑选。不足之处在于此方法仅适用于准确率高的模型。3)基于交叉熵的采样方法CES(CrossEntropy-based Sampling)，其首先使用随机方法挑选出初始被选测试集，然后经过多轮迭代最小化筛选子集和原始集合之间的交叉熵差异。相比于CSS方法，CES方法能在更多的模型上表现出有效性。但是，该方法效果受到很大程度随机性的影响，因此并不稳定。5)一种两阶段筛选约减方法DeepReduce，其通过同时满足测试充分性和输出分布相似性来选择测试输入集的子集，首先通过贪心策略选择一个测试充分性最小的测试数据子集，然后通过启发式的方法和基于相对熵最小化向子集中添加更多的测试数据，在评价筛选测试子集质量时，该方法仍然是从单一的整体准确率进行评估，并没有考虑新子集是否能够覆盖原集合中所有类别，也没有考虑在单个类别上的测试输入准确率差异。6)一种基于聚类的测试输入选择方法PACE(Practical ACcuracy Estimation)，其首先通过HDBSCAN算法对原始无标签测试输入进行聚类，将聚类结果划分成正常点簇和异常点簇，并分别利用基于MMD-critic的原型采样和自适应随机采样方法分别对这两类数据簇采样。该方法的不足之处是在测试输入类别较多的测试集集上的单个分类的准确率估计表现不稳定。

三、多目标优化

多目标优化问题(Multi-Objective Optimization Problems,MOP)在计算机科学领域是一个广泛存在的问题。这类问题由两个或两个以上相互之间存在冲突关系的目标组成。而正是由于优化目标之间存在的冲突性质，这类问题无法找到一个在所有目标上同时都达到最优取值的解，而往往以一组在优化目标上权衡折衷的解作为最终的解决方案。多目标优化问题的定义如下式所示：

其中，x表示具体的解决策略也就是多目标优化过程中更新迭代的具体对象，是n维实数域R向量空间S中的一个解，每个位置的元素代表原始测试集中对应编号的测试输入被选中的权重，f_I(x)，f₂(x)，...，f_M(x)表示1，2，...，M个优化目标函数，搜索方向或是最大化(max)或是最小化(min)。

多目标优化的其他相关定义如下所示：

定义1(Pareto支配关系)：对于两个不同的解决策略x₁和x₂，如果采用x₁达到的目标没有一个输于x₂，并且至少存在一个目标优于x₂，则称x₁支配x₂，或称x₁对x₂具备Pareto优势。

定义2(Pareto最优解)：在所有求得的可行解中不存在任一解能够支配当前解x，则称x是一个Pareto最优解。

定义3(Pareto最优解集)：所有求出的Pareto最优解的全集。

目前，研究人员已经提出了大量多目标进化算法(Multi-ObjectiveEvolutionary Algorithms，简称MOEA)，而这些方法也在大量实际场景中得到应用，其有效性得到了有力验证。

发明内容

本发明提出了一种基于多目标优化的深度学习测试输入选择方法，通过将深度学习测试输入选择问题建模成多目标优化问题，设计合理的优化目标，利用已有的经典遗传进化算法进行迭代求解，构造出能够有效替代原始大规模无标签测试集的较小规模测试子集，且在不同类别的待测DNN模型和不同规模不同类型的深度学习测试集上具有较为稳定的效果。

本发明利用以下技术方案实现：

一种基于多目标优化的深度学习测试输入选择方法，该方法具体包括以下步骤：

步骤1、数据加载及预处理操作，具体包括：

将原始测试集T中的各类数据存储格式数字向量化处理后加载到程序中，抽取待测DNN模型对测试输入的中间层输出，根据数据的特征取值特点对测试输入的特征表示进行至少包含降维、标准化在内的预处理操作；

步骤2、对经过预处理操作的原始测试集T划分成m个数据簇，采用HDBSCAN聚类方法评估原始测试集的数据分布，获得各个聚类构成的簇中各类数据占比差异之和作为测试子集，具体包括：

对经过预处理操作的原始测试集T执行软聚类算法，聚类原则是依据m个数据簇相应的各个类别测试输入占当前数据簇的比例情况；

步骤3、利用多目标优化算法NSGA-II对测试集T中的每个数据簇进行目标优化，具体包括：

对多目标优化算法NSGA-II的基本参数进行配置，即更新进化轮次Iters、种群总体个数NIND、优化目标数量M；然后，基于设置好的参数再初始化种群Population，获得种群Population中的个体和元素，其中任一个体代表针对原始测试集的一种具体选择方案，任一元素代表该位置的测试输入被选中的权重；确定最终选择方案时，将个体向量按照元素进行降序排序，取权重最大的前n个位置的测试输入构成新的测试子集；运行完成后，将得到的Pareto最优解存储到NDSet中，每个Pareto最优解代表一种具体的选择测试输入的方案；

最终，用户根据测试需求从得到的Pareto最优解选择出一个解，构建出期望的测试子集X，确定最终的选择方案。

与现有技术相比，本发明通过筛选出一个能够保持原始测试集性质的小规模测试子集帮助开发人员有效降低标注成本，提升测试效率。

附图说明

图1为本发明的一种基于多目标优化的深度学习测试输入选择方法整体流程；

图2为整体准确率估计误差的Scott-Knott ESD检验结果对比图；

图3为NC估计误差的Scott-Knott ESD检验结果对比图；

图4为NBC估计误差的Scott-Knott ESD检验结果对比图；

图5为SNAC估计误差的Scott-Knott ESD检验结果对比图；

图6TKNC估计误差的Scott-Knott ESD检验结果对比图。

具体实施方式

以下结合附图和具体实施例对本发明的技术方案进行详细说明。

如图1所示，为本发明的一种基于多目标优化的深度学习测试输入选择方法整体流程图。本发明整体流程包括数据预处理、聚类计算、多目标优化求解三个部分。具体流程如下：

步骤1、数据加载及预处理操作，具体包括：

将原始测试集T中的各类数据存储格式数字向量化处理后加载到程序中，抽取待测DNN模型对测试输入的中间层输出，根据数据的特征取值特点对测试输入的特征表示进行降维、标准化等操作；

对经过预处理操作的原始测试集T执行软聚类算法，聚类原则是依据m个数据簇相应的各个类别测试输入占当前数据簇的比例情况，具体操作即：对于原始测试集T的数据簇总集合G中任意新簇g_k，初始化原始测试集T的数据簇总集合G中任意新簇g_k的数据分布变量singleClusterProportion，保存g_k中各个类别测试输入的分布占比值，然后将每个新簇g_k的singleClusterProportion变量都存入新变量totalLabelsProportions；

对多目标优化算法NSGA-II的基本参数进行配置，即更新进化轮次Iters、种群总体个数NIND、优化目标数量M(步骤(2)完成后原始测试集产生了多少簇，就有多少优化目标)；然后，基于设置好的参数再初始化种群Population，获得种群Population中的个体和元素，其中任一个体代表针对原始测试集的一种具体选择方案(分别以st维向量表示)，任一元素代表该位置的测试输入被选中的权重(取值为1-100的实数)；确定最终选择方案时，将个体向量按照元素进行降序排序，取权重最大的前n个位置的测试输入构成新的测试子集；运行完成后，将得到的Pareto最优解存储到NDSet中，每个Pareto最优解代表一种具体的选择测试输入的方案；

最终，用户根据测试需求从得到的Pareto最优解选择出一个解，构建出期望的测试子集X，确定最终的选择方案，并返回；

步骤4、适应度函数设计：

利用多目标优化中的适应度函数确定种群个体的优化目标取值，从而决定种群的优化搜索方向，适应度函数设计与最终求得的Pareto最优解集的质量直接相关。当前步骤介绍本发明在进行多目标优化计算时才用的适应度函数，总体流程为：

以某轮次的种群总体Population、原始测试集T的数据分布情况集合totalLabelsProportions、预定义的测试子集规模n以及D预测的类别信息predictLabels当成输入；

基于种群Population中每个个体Individual的向量元素的取值，将前n个权重最大的测试输入选出，构建测试子集T′，测试子集T′的聚类数据记作G′＝{g₁,g₂,...,g_t},t≤m。对于原始测试集的簇集合G中的某个簇G_[i]，如果测试子集的簇集合G′中不包含G_[i]的样本，那么簇G_[i]上的优化目标直接记为簇G_[i]中各个类别测试输入数据的占比之和；否则计算簇G′_[i]中各个类别测试输入的占比情况，依次与原始测试集中簇G[i]的各类测试输入占比情况作差，将结果的绝对值存进e，而簇G_[i]上的优化目标就是e中元素之和。Objvalues中存放每个Individual的优化目标值，等到种群Population遍历完，输出种群Population中全部个体的优化目标值集合Objvalues，将作为适应度函数的最终结果返回给NSGA-II算法。

本发明具体实施例描述如下：

本发明的输入参数主要有给定的待测DNN模型D、待标注的原始测试集T，其规模大小为t；用户预定义的测试子集规模n。本发明由Python3.7.4编码完成，并基于keras2.3.1和tensorflow1.15.0对实验对象中的深度学习测试集提取特征。此外，在算法实现过程中分别采用了特征降维算法、聚类算法以及多目标优化算法，这些都由Python的成熟框架scikit-learn0.23.1、hdbscan0.8.26、geatpy2.6.0提供。

本发明所涉及的参数主要包括聚类参数、降维参数、特征类型参数以及多目标优化参数。其中前三种参数共同影响聚类效果，第四种参数则直接影响最终求解出的Pareto解的质量。具体来说，希望聚类的结果能够有效区分出不同类别的测试输入，每个簇的不同类别应该越少越好，针对于不同类型的实验对象，聚类参数和降维参数的设置均遵循PACE中的推荐进行取值；而特征类型参数的最佳设置取-1即模型最后的输出层参数。而多目标优化参数主要是决定进化迭代的次数以及种群总体个数，前者决定了收敛的时机，后者决定了搜索空间的范围，将这两个参数都设置为50。其他选择方法的实现，以及参数设置都遵循已有工作的推荐。

关于实验数据集及待测DNN模型：

实验对象包括深度学习测试集以及待测DNN模型，总共使用了6组分类任务的深度学习测试集-DNN模型组合构成的实验对象作为实验及评估分析的最小单位。表1给出了所用模型及测试集的。详细信息。在该表中，最后四列分别表示待测DNN模型的大小、深度学习测试集规模(包含的测试输入的数量)、模型在测试集上所达到的整体准确率以及测试集中包含的不同的测试输入类别数量。

本发明方法在验证性能有效性时，选用的对比方法为目前深度学习测试输入选择领域内最新的选择方法PACE(Practical ACcuracy Estimation)，这是最新提出的一种深度学习测试输入选择方法，并在之前的研究中已经与现有方法(CES等)做过全面比较。

此外，为了从多个角度综合评估本发明的性能，设计了本发明的几种变体方法进行研究：

1.DMOS-Nocluster方法：该方法跳过了聚类的步骤，直接以原始测试集与选出的测试子集在不同类别测试输入的占比差异作为优化目标进行求解，以求出的Pareto解集中，各个类别测试输入的准确率估计平均误差最小的解作为最终选择方案。类似地，同样通过整体准确率、测试覆盖等指标评估最终求解出的选择方案的性能，进而分析聚类的步骤对DMOS方法的贡献。

2.DMOS-Median方法：该方法选取了DMOS方法求解出的Pareto解集中各个类别测试输入的准确率估计误差的中位数作为最终结果。

3.DMOS-Best方法：该方法选取了DMOS方法求解出的Pareto解集中各个类别测试输入的准确率估计平均误差最小的解作为最终结果。

4.EA-Best方法：该方法直接以原始测试集与选出的测试子集在各个真实类别上测试输入的准确率估计误差作为优化目标,尝试多组参数,使用NSGA-II进行求解。EA-Best方法设计的初衷是为了探究采用多目标优化的形式对各个类别测试输入准确覆盖的极限情况，所以每次选取各个类别测试输入的准确率估计平均误差最小的解作为最终结果。虽然EA-Best方法求出的结果并不是理论最优的，但是结果显示不同实验参数设置下的性能差异并不大，因此可以认为EA-Best方法求出的结果是接近理论最优的情况，可以作为基准与本发明进行比较。

结论：

从整体准确率的估计误差、NC、NBC、SNAC、TKNC这四个测试覆盖指标的估计误差共五个角度进行Scott-Knott ESD检验分析，以探究本发明从其他评测指标来看能否比其他选择方法具备与原始测试集更相似的测试性质。如图2至图6所示，各类选择方法在整体准确率和测试覆盖度量上的估计误差越小越好，因此图中方法的排名应是越靠右表示方法的性能越好。结果显示，DMOS-Best和DMOS-Median方法在四种测试覆盖指标上的估计误差都低于PACE，且在整体准确率的估计误差显著优于PACE。从箱线图的各个方法的上界看，虽然DMOS-Best、DMOS-Median方法与PACE持平且有时超过PACE，但从箱线图中的中位线及下界来看，本发明方法在五个指标上能够达到更低的估计误差且性能更稳定。

如表1所示，为本发明验证性能采用的实验对象信息表，给出了所用模型及测试集的。详细信息。最后四列分别表示待测DNN模型的大小、深度学习测试集规模(包含的测试输入的数量)、模型在测试集上所达到的整体准确率以及测试集中包含的不同的测试输入类别数量。

表1

如表2所示，为CIFAR10-ResNet20实验对象上各个类别测试输入的准确率估计平均误差变化表。

表2

如表3所示，为MNIST-LENET1实验对象上各个类别测试输入的准确率估计平均误差变化表。

表3

如表4所示，为MNIST-LENET4实验对象上各个类别测试输入的准确率估计平均误差变化表。

表4

如表5所示，为MNIST-LENET5实验对象上各个类别测试输入的准确率估计平均误差变化表。

表5

如表6所示，为CIFAR10-VGG16实验对象上各个类别测试输入的准确率估计平均误差变化表。

表6

如表7所示，为CIFAR100-ResNet20实验对象上各个类别测试输入的准确率估计平均误差变化表。

表7

如表8所示，为四种多目标优化方法与PACE在6组实验对象上不同类别的Win/Tie/Loss分析。

表8

如表9所示，为各个方法在6个评测指标上的平均误差结果。表9展示了各个方法在不同评测指标上的平均误差结果，从第一行各个类别测试输入的平均准确率估计误差来看，DMOS-Nocluster、DMOS-Best、DMOE-Median、PACE方法在6组实验对象共计98组实验上各个类别测试输入准确率的平均误差分别4.527％、4.208％、6.443％和8.425％，与PACE相比，这三种方法与PACE相比平均降低了3.898％、4.217％、1.982％的误差，平均提升幅度(计算公式为(PACE-DMOS-X)/PACE)分别为46.267％、50.053％、23.525％。这说明了本发明对于目前领域内经典方法PACE的性能优越性。

从表9中第3-7行来看，DMOS-Nocluster、DMOS-Best、DMOE-Median、PACE方法在6组实验对象共计98组实验上平均整体准确率误差分别1.527％、1.270％、1.475％和2.531％，与PACE相比，这三种方法分别平均降低了1.004％、1.261％和1.056％的误差，对PACE的平均提升幅度分别为39.668％、49.822％和41.723％；DMOS-Nocluster、DMOS-Best、DMOE-Median、PACE方法在6组实验对象共计98组实验上四种测试覆盖标准的平均误差分别9.314％、9.359％、9.403％和9.690％，与PACE相比，这三种方法平均降低了0.376％、0.331％、0.287％的误差，对PACE的平均提升幅度分别为0.039％、0.034％、0.030％。这同样充分说明了本发明性能的优越性。

表9

如表10所示，本发明的实验结果。从时间开销方面验证了本发明的有效性。第一列中实验对象的ID与表1中的信息对应，第二列中括号中左边的数字代表本发明在当前实验对象下选出1000个测试输入的测试子集花费的时间开销，右边的数字则是PACE的时间开销，加粗的元素表示该方法时间开销更小，方法性能更好。值得注意的是，表中结果显示现有测试输入选择方法进行筛选的时间成本开销(以秒为量级单位)远远小于人工标注的成本，而从表中的数据看，本发明方法在5个实验对象上的时间开销要小于最新的选择方法PACE，仅在一个实验对象上多于PACE充分说明了本发明的高效性。

表10

Claims

1.一种基于多目标优化的深度学习测试输入选择方法，其特征在于，该方法具体包括以下步骤：

步骤1、数据加载及预处理操作，具体包括：

将原始测试集T中的各类数据存储格式数字向量化处理后加载到程序中，抽取待测DNN模型对测试输入的中间层输出，根据数据的特征取值特点对测试输入的特征表示进行预处理操作；

2.如权利要求1所述的基于多目标优化的深度学习测试输入选择方法，其特征在于，多目标算法的适应度函数设计包括以下具体流程：

基于种群Population中每个个体Individual的向量元素的取值，将前n个权重最大的测试输入选出，构建测试子集T′，测试子集T′的聚类数据记作G′＝{g₁,g₂,...,g_t},t≤m。对于原始测试集的簇集合G中的某个簇G_[i]，如果测试子集的簇集合G′中不包含G_[i]的样本，那么簇G_[i]上的优化目标直接记为簇G_[i]中各个类别测试输入数据的占比之和；否则计算簇G′_[i]中各个类别测试输入的占比情况，依次与原始测试集中簇G[i]的各类测试输入占比情况作差，将结果的绝对值存进e，而簇G_[i]上的优化目标就是e中元素之和。Objvalues中存放每个Individual的优化目标值，直至种群Population遍历完，输出种群Population中全部个体的优化目标值集合Objvalues，将作为适应度函数的最终结果返回给NSGA-II算法。

3.如权利要求1所述的基于多目标优化的深度学习测试输入选择方法，其特征在于，所述步骤2中，对于原始测试集T的数据簇总集合G中任意新簇g_k，初始化原始测试集T的数据簇总集合G中任意新簇g_k的数据分布变量singleClusterProportion，保存g_k中各个类别测试输入的分布占比值，然后将每个新簇g_k的singleClusterProportion变量都存入新变量totalLabelsProportions。

4.如权利要求1所述的基于多目标优化的深度学习测试输入选择方法，其特征在于，根据原始测试集T中的各类数据需要，所述预处理操作具体包含降维和标准化操作。