CN110597715B

CN110597715B - 一种基于模糊测试的测试样本优化方法

Info

Publication number: CN110597715B
Application number: CN201910801955.XA
Authority: CN
Inventors: 张晶; 陈诚; 王健敏
Original assignee: Yunnan Xiaorun Technology Service Co ltd; Kunming University of Science and Technology
Current assignee: Yunnan Xiaorun Technology Service Co ltd; Kunming University of Science and Technology
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2021-04-06
Anticipated expiration: 2039-08-28
Also published as: CN110597715A

Abstract

本发明涉及一种基于模糊测试的测试样本优化方法，属于软件漏洞挖掘领域。本发明首先筛除随机样本中应用程序不接受的样本，并利用基于动态规划的算法计算样本精简集，减小初始样本的规模；然后在测试过程中用动态污点分析技术跟踪污点传播路径并记录样本经过的指令，利用Simhash和海明距离的改进算法求解样本传播路径相似度，进一步降低样本冗余；最后对触发异常的样本进行遗传变异构建新的测试样本以增加样本的有效性。本发明有效减小了测试样本冗余，并且提升了测试样本的有效性。

Description

一种基于模糊测试的测试样本优化方法

技术领域

本发明涉及一种基于模糊测试的测试样本优化方法，属于软件漏洞挖掘领域。

背景技术

软件漏洞是指软件在设计、实施、运行过程中潜藏的不足，黑客等不法分子可通过漏洞访问甚至破坏软件系统，从而造成巨大的经济损失。目前最常用的软件漏洞检测方法是模糊测试，模糊测试是一种将错误数据(即测试样本)故意发送到软件以发现软件中暗藏的漏洞的技术。但是传统的模糊测试技术随机产生测试样本，所以测试样本的重复性较高，同时大量测试样本在输入程序时直接被程序拒绝。因此需要减少模糊测试的测试样本数量，提升样本挖掘漏洞的有效性。

鉴于此，本发明基于云南省技术创新人才项目(2019HB113)进行研究工作。

发明内容

本发明提供了一种基于模糊测试的测试样本优化方法，以用于通过对初始的随机测试进行进行精简获得优化集，同时根据精简的样本获取其中导致程序异常的样本进行遗传变异，共同产生重复性较低的测试样本。

本发明的技术方案是：一种基于模糊测试的测试样本优化方法，所述方法步骤如下：

Step1、将模糊测试工具对应用程序进行测试时产生的随机测试样本记为初始样本，如果测试样本中存在样本类型不满足应用程序的输入规则，则将此类的测试样本记为无效样本，删除初始样本中的无效样本，并将剩下的所有样本记为样本集Σ＝{S₁,S₂,…,S_i,…}；其中，S_i表示第i个测试样本；

Step2、利用静态程序分析软件对应用程序进行分析，得到基本块之间的调用关系，即得到测试样本覆盖的基本块的情况；基本块记为b，则第j个基本块记为b_j，基本块集记为B＝{b₁,b₂,…,b_j,…}；样本S_i对基本块的覆盖情况记为λ(S_i)＝{b_r,b_s,…}，其中r≠s；样本集Σ的某些样本可能覆盖了相同的基本块，利用基于动态规划的算法将样本集Σ未覆盖相同基本块的样本记为精简集ω；

Step3、将精简集ω中的所有样本标记为污点，利用污点分析技术跟踪污点的传播，并记录污点的传播路径和导致程序异常的样本；

Step4、利用基于Simhash和海明距离的改进算法求解样本对应的污点之间的传播路径相似度，删除传播路径相似度较高的样本；将删除了样本传播路径相似度高的样本之后的测试样本集记为优化集Σ_op；

Step5、对步骤Step3中得出的导致程序异常的样本进行遗传变异产生新的测试样本，将由遗传变异算法生成的所有样本构成的集合记为变异集Σ_va；

Step6、将步骤Step4得到的优化集Σ_op和Step5得到的变异集Σ_va中的样本作为模糊测试产生的随机样本优化后的测试样本。

利用基于动态规划的算法计算精简集ω，该算法包括：

(1)将样本集Σ中样本的个数记为N，根据样本个数N将精简集ω分为N个阶段，第k个阶段的精简集ω_k对基本块的覆盖情况记为λ(ω_k)＝{b_p,b_q,…}，其中p≠q；第k+1个阶段的精简集ω_k+1的基本块覆盖情况为λ(ω_k+1)；并创建备忘录TA；其中，第1阶段的精简集ω₁和第1个样本能覆盖的基本块相同，即λ(ω₁)＝λ(S₁)，则第1阶段的精简集ω₁＝{S₁}，将第1阶段的精简集ω₁的基本块覆盖情况λ(ω₁)记录在备忘录TA中；

(2)求解状态转移方程：从备忘录TA中调出第k阶段的精简集ω_k的基本块覆盖情况λ(ω_k)，精简集ω_k+1的基本块覆盖情况为式(1)：

λ(ω_k+1)＝max{λ(ω_k),λ(ω_k)+λ(S_k+1)}(1)

其中，max为求两个集合中不同元素最多的集合；将第k+1阶段的精简集ω_k+1的基本块覆盖情况λ(ω_k+1)记录在备忘录TA中；

精简集ω_k到精简集ω_k+1的状态转移方程为式(2)：

(3)定义最优子结构：若选择样本S_k+1加入精简集ω_k+1中，存在两种情况：(a)λ(ω_k+1)＝λ(ω_k)，即精简集w_k能覆盖的基本块包含了样本S_k+1能覆盖的基本块；(b)λ(ω_k+1)>λ(ω_k)，即精简集w_k能覆盖的基本块不包含样本S_k+1能覆盖的基本块：

若满足情况(a)则说明精简集ω_k是精简集ω_k+1的最优子结构，样本S_k+1不在精简集ω_k+1中，即精简集ω_k+1的最优子结构R(ω_k+1)＝ω_k；

若满足情况(b)则说明精简集ω_k+1的最优子结构为其本身，样本S_k+1在精简集ω_k+1中，即精简集ω_k+1的最优子结构R(ω_k+1)＝ω_k+1；

(4)求解精简集ω：根据状态转移方程对所有样本进行计算，全部样本计算完得到最后阶段的最优子结构即为最终状态的精简集ω。

所述Step3具体为：将精简集ω中的所有样本标记为污点，则第l个样本标记为污点ST_l，将污点ST_l记为二元组ST_l<v_ln,tag_ln>，将污点ST_l在传播路径上经过的指令按顺序记录，即污点ST_l的传播路径为Seq_l＝[I_{l_1},I_{l_2},…,I_{l_n},…]，将污点分析操作记为三元组T<ST,D,C>：

如果污点ST_l在传播路径上没有经过无害处理D就能直接传播到污点汇聚点C，则污点ST_l对应的样本导致程序出现异常，并将该样本加入异常样本集Ω中；

如果污点ST_l在传播路径上经过无害处理D后最终的污点变量的污点标志为0，即不能传播到污点汇聚点，则说明程序不存在异常，因此不将该污点加入异常样本集Ω中；

如果污点ST_l在传播路径上经过无害处理D后最终的污点变量的污点标志为1，则说明无法判断程序是否存在异常，因此不将该污点加入异常样本集Ω中；

其中，v_ln表示污点ST_l在传播路径上第n个污点变量，并将经过的指令记为I_{l_n}；tag_ln表示污点变量v_ln的污点标志，tag_ln＝1表示是污点标志，tag_ln＝0表示非污点标志；D表示无害处理，如对污点变量v_ln进行加密或是移除等操作；C表示污点汇聚点，即污点ST_l在传播路径上最终的污点变量的污点标志为1。

所述步骤Step4具体为：将精简集ω中的第a个样本所对应的污点ST_a、第b个样本所对应记的污点ST_b的传播路径相似度记为sim(ST_a,ST_b)，利用基于Simhash和海明距离的改进算法求解样本对应的污点之间的传播路径相似度，算法过程如下：

Step4.1、计算指令重复率：污点ST_a和污点ST_b中的指令集的重复率为式(3)：

其中，tok(Seq_a)和tok(Seq_b)表示污点传播路径Seq_a和Seq_b去除重复指令的集合；cnt表示求集合的数量；

Step4.2、提取分词：将污点传播路径中每G条指令划分为一个分词，G取30；

Step4.3、计算样本传播路径的签名值：首先将第c个分词记为P_c，通过hash算法计算每个分词的hash值，然后按每个分词的重要程度的高低设定不同的权重，将分词P_c的权重记为W_c；再根据权重W_c，将分词的hash值进行加权处理，得到加权数字串，将加权数字串累计形成一个序列串；最后进行降维处理，即将序列串中大于0的数字记为1，小于0的数字记为0，由此得到污点传播路径的签名值；

Step4.4、计算海明距离：对比污点ST_a和污点ST_b传播路径的签名值，若相应位上的数字相同则海明距离加1，记污点ST_a和污点ST_b的海明距离为Hamming(ST_a,ST_b)；

Step4.5、计算污点传播路径相似度：污点ST_a和污点ST_b的传播路径相似度为式(4)：

Step4.6、若两个样本对应的污点传播路径相似度sim(ST_a,ST_b)的值高于预设值A，则随机删除其中一个样本，若低于预设值则保留两个样本；将删除了传播路径相似度高的样本之后的测试样本集记为优化集Σ_op。

所述步骤Step5具体为：

Step5.1、初始化种群：将异常样本集Ω中所有样本作为初始样本，并将其转为二进制编码；

Step5.2、交叉变异方法：对父代样本进行交叉变异，由此生成子代样本，设定生成子代样本的个数为n，记样本S_d的第x代样本中的第y个样本为S_{d_x_y}；交叉操作采用两点交叉的方式，样本长度记为L，然后随机选取2个0到L之间的数作为交叉点，然后交换这两个点的值；变异操作采用基本位变异的方式，随机产生1个0到L之间的数作为变异点位置，对该位置上的值取反；对二进制编码进行还原得到子代样本；

Step5.3、确定样本适应性函数：子代样本的适应性函数为式(5)：

其中N_λ(S_d)表示样本S_d覆盖的基本块数量；

Step5.4、选择操作方法：用子代样本中适应性函数值最高的子代样本与其父代样本的适应性函数值进行比较：若子代样本适应性函数值大于父代样本，则保留该子代样本，删除父代样本；否则，不替换；

Step5.5、停止条件：由迭代次数作为停止条件，将迭代终止时生成的所有样本构成的集合记为变异集Σ_va，若未到停止条件，则循环执行步骤Step5.2到步骤Step5.4。

本发明的有益效果是：由于模糊测试产生的初始随机测试样本是盲目且低效的，因此需要减少测试样本的数量；本发明首先筛除随机样本中应用程序不接受的样本，并利用基于动态规划的算法计算样本精简集，减小初始样本的规模；然后在测试过程中用动态污点分析技术跟踪污点传播路径并记录样本经过的指令，利用Simhash和海明距离的改进算法求解样本传播路径相似度，进一步降低样本冗余；最后对触发异常的样本进行遗传变异构建新的测试样本以增加样本的有效性。本发明有效减小了测试样本冗余，并且提升了测试样本的有效性。

附图说明

图1为本发明的流程图；

图2为本发明污点分析过程图；

图3为签名值计算过程。

具体实施方式

实施例1：如图1-3所示，一种基于模糊测试的测试样本优化方法，所述方法步骤如下：

Step1、将模糊测试工具Sully对应用程序进行测试时产生的随机测试样本记为初始样本，如果测试样本中存在样本类型不满足应用程序的输入规则，则将此类的测试样本记为无效样本，删除初始样本中的无效样本，并将剩下的所有样本记为样本集Σ＝{S₁,S₂,…,S_i}；其中，S_i表示第i个测试样本；

将模糊测试工具对应用程序进行测试时产生的随机测试样本记为初始样本。利用静态程序分析工具对软件进行词法分析、语法分析、语义分析判断测试样本的样本类型是否符合软件的输入规则。常见样本类型及其输入规则如表1所示。

表1常见样本类型及软件的输入规则

若测试样本的样本类型不满足上述的输入规则的测试样本记为无效样本，筛除无效样本，将剩下的样本样本记为样本集Σ。将样本集Σ中的测试样本记为S，则第i个测试样本记为S_i，样本集Σ＝{S₁,S₂,…,S_i}。

Step2、利用静态程序分析软件对应用程序进行分析，得到基本块之间的调用关系，即得到测试样本覆盖的基本块的情况；基本块记为b，则第j个基本块记为b_j，基本块集记为B＝{b₁,b₂,…,b_j}；样本S_i对基本块的覆盖情况记为λ(S_i)＝{b_r,b_s,…}，其中基本块的编号r≠s；样本集Σ的某些样本可能覆盖了相同的基本块，利用基于动态规划的算法将样本集Σ未覆盖相同基本块的样本记为精简集ω；

进一步地，可以设置利用基于动态规划的算法计算精简集ω，该算法包括：

(1)将样本集Σ中样本的个数记为N，根据样本个数N将精简集ω分为N个阶段，第k个阶段的精简集ω_k对基本块的覆盖情况记为λ(ω_k)＝{b_p,b_q,…}，其中p≠q；第k+1个阶段的精简集ω_k+1的基本块覆盖情况为λ(ω_k+1)；并创建备忘录TA；其中，第1阶段的精简集ω₁和第1个样本能覆盖的基本块相同，即λ(ω₁)＝λ(S₁)，则第1阶段的精简集ω₁＝{S₁}，将第1阶段的精简集ω₁的基本块覆盖情况λ(ω₁)记录在备忘录TA中。

λ(ω_k+1)＝max{λ(ω_k),λ(ω_k)+λ(S_k+1)}(1)

其中max为求两个集合中不同元素最多的集合；将第k+1阶段的精简集ω_k+1的基本块覆盖情况λ(ω_k+1)记录在备忘录TA中；

精简集ω_k到精简集ω_k+1的状态转移方程为式(2)：

例如程序基本块集B＝{b₁,b₂,b₃,b₄,b₅,b₆,b₇,b₈,b₉,b₁₀,b₁₁,b₁₂,b₁₃,b₁₄,b₁₅}，样本集为Σ＝{S₁,S₂,S₃,S₄,S₅,S₆,S₇,S₈}。而样本对基本块的覆盖情况如下所示：λ(S₁)＝{b₁,b₁₃,b₁₄}，λ(S₂)＝{b₅,b₆,b₉,b₁₁}，λ(S₃)＝{b₁,b₂,b₄,b₅,b₁₃,b₁₄,b₁₅}，λ(S₄)＝{b₃,b₉}，λ(S₅)＝{b₂,b₃}，λ(S₆)＝{b₄,b₅,b₆}，λ(S₇)＝{b₃,b₇,b₈,b₉,b₁₀,b₁₂}，λ(S₈)＝{b₂,b₄,b₆,b₁₀,b₁₄}。第1阶段：根据上述算法的步骤(1)，将精简集ω分成8个阶段，并创建备忘录TA。第1阶段的精简集ω₁和第1个样本能覆盖的基本块相同，λ(ω₁)＝λ(S₁)＝{b₁,b₁₃,b₁₄}，则第1阶段的精简集ω₁＝{S₁}。将第1阶段的精简集ω₁的基本块覆盖情况λ(ω₁))＝{b₁,b₁₃,b₁₄}记录在备忘录TA中。第2阶段：根据步骤(2)从备忘录TA中调出第1阶段的精简集ω₁的基本块覆盖情况λ(ω₁)＝{b₁,b₁₃,b₁₄}，第2阶段的精简集ω₂的基本块覆盖情况为：

λ(ω₂)＝max{λ(ω₁),λ(ω₁)+λ(S₂)}

＝max{{b₁,b₁₃,b₁₄},{b₁,b₅,b₆,b₉,b₁₁,b₁₃,b₁₄}}

＝{b₁,b₅,b₆,b₉,b₁₁,b₁₃,b₁₄}

将第2阶段的精简集ω₂的基本块覆盖情况λ(ω₂)＝＝{b₁,b₅,b₆,b₉,b₁₁,b₁₃,b₁₄}存入备忘录TA中。精简集ω₁到精简集ω₂的状态转移方程为ω₂＝ω₁+S₂，即精简集ω₂＝{S₁,S₂}。根据步骤(3)，若选择样本S₂加入第2阶段的精简集ω₂中，则λ(ω₂)>λ(ω₁)，即精简集ω₂的最优子结构为其本身R(ω₂)＝ω₂。同上述方式得出第3阶段的精简集ω₃＝{S₁,S₂,S₃}，第4阶段的精简集ω₄＝{S₁,S₂,S₃,S₄}。第5阶段：根据步骤(2)从备忘录TA中调出第4阶段的精简集ω₁的基本块覆盖情况λ(ω₄)＝{b₁,,b₂,b₃,b₄,b₅,b₆,b₉,b₁₁,b₁₃,b₁₄,b₁₅}，第5阶段的精简集ω₅的基本块覆盖情况为

λ(ω₅)＝max{λ(ω₄),λ(ω₄)+λ(S₅)}

＝max{{b₁,,b₂,b₃,b₄,b₅,b₆,b₉,b₁₁,b₁₃,b₁₄,b₁₅},

{b₁,,b₂,b₃,b₄,b₅,b₆,b₉,b₁₁,b₁₃,b₁₄,b₁₅}}

＝{b₁,,b₂,b₃,b₄,b₅,b₆,b₉,b₁₁,b₁₃,b₁₄,b₁₅}

将第5阶段的精简集ω₅的基本块覆盖情况λ(ω₅)＝{b₁,,b₂,b₃,b₄,b₅,b₆,b₉,b₁₁,b₁₃,b₁₄,b₁₅}存入备忘录TA中。精简集ω₄到精简集ω₅的状态转移方程为ω₅＝ω₄，即精简集ω₅＝{S₁,S₂,S₃,S₄}。根据步骤(3)，若选择样本S₅加入第5阶段的精简集ω₅中，则λ(ω₅)＝λ(ω₄)，即精简集ω₅的最优子结构为精简集ω₄。同上述方式得出第6阶段的精简集ω₆＝ω₅＝{S₁,S₂,S₃,S₄}，第7阶段的精简集ω₇＝{S₁,S₂,S₃,S₄,S₇}，第8阶段的精简集ω₈＝ω₇＝{S₁,S₂,S₃,S₄,S₇}。因此根据步骤(4)得出精简集ω＝{S₁,S₂,S₃,S₄,S₇}。

进一步地，可以设置所述Step3具体为：将精简集ω中的所有样本标记为污点，则第l个样本标记为污点ST_l，将污点ST_l记为二元组ST_l<v_ln,tag_ln>，将污点ST_l在传播路径上经过的指令按顺序记录，即污点ST_l的传播路径为Seq_l＝[I_{l_1},I_{l_2},…,I_{l_n},…]，将污点分析操作记为三元组T<ST,D,C>：

污点根据传播逻辑进行传递，传播逻辑见表2所示。

表2污点传播逻辑

例如精简集ω＝{S₁,S₂}，根据上述步骤，将精简集ω中的S₁和S₂标记为污点，则第1个样本S₁标记为污点ST₁，第2个样本S₂标记为污点ST₂。污点ST₁和污点ST₂根据表2的传播逻辑进行传播，传播情况为：污点ST₁在传播路径上第1个污点变量v₁₁，污点标志tag₁₁＝1，经过的指令记为I_{1_1}；在传播路径上第2个污点变量v₁₂，污点标志tag₁₂＝1，经过的指令记为I_{1_2}；在传播路径上第3个污点变量v₁₃，污点标志tag₁₃＝1，经过的指令记为I_{1_3}；在传播路径上第4个污点变量v₁₄，污点标志tag₁₄＝1，经过的指令记为I_{1_4}，污点ST₁在传播路径上最终的污点变量的污点标志为1，即ST₁<v₁₄,tag₁₄>为污点汇聚点C。污点ST₂在传播路径上第1个污点变量v₂₁，污点标志tag₂₁＝1，经过的指令记为I_{2_1}；在传播路径上第2个污点变量v₂₂，污点标志tag₂₂＝1，经过的指令记为I_{2_2}；在传播路径上第3个污点变量v₂₃，污点标志tag₂₃＝1，经过的指令记为I_{2_3}，污点变量v₂₃经过无害处理D(加密/移除)；在传播路径上第4个污点变量v₂₄，污点标志tag₂₄＝0，经过的指令记为I_{2_4}。因此污点ST₁的传播路径为Seq₁＝[I_{1_1},I_{1_2},I_{_3},I_{1_4}]，污点ST₂的传播路径为Seq₂＝[I_{2_1},I_{2_2},I_{2_3},I_{2_4}]。污点ST₁在传播路径上没有经过无害处理D，直接传播到污点汇聚点C，则污点ST₁对应的样本S₁导致程序出现异常，并将该样本加入异常样本集Ω中，即Ω＝{S₁}；污点ST₂在传播路径上经过无害处理D(加密/移除)后，最终的污点变量的污点标志为0，即不能传播到污点汇聚点，则说明程序不存在异常。污点分析过程如图2所示。

进一步地，可以设置所述步骤Step4具体为：将精简集ω中的第a个样本所对应的污点ST_a、第b个样本所对应记的污点ST_b的传播路径相似度记为sim(ST_a,ST_b)，利用基于Simhash和海明距离的改进算法求解样本对应的污点之间的传播路径相似度，算法过程如下：

Step4.1、计算指令重复率：样本传播过程中经过的指令重复次数对样本传播路径相似度有较大影响，若污点ST_a传播路径中某个指令重复次数多，而污点ST_b中另一个不同的指令重复次数多，此时会造成污点ST_a和污点ST_b的传播路径相似度过低。

污点ST_a和污点ST_b中的指令集的重复率为式(3)：

Step4.2、提取分词：若将每条指令作为一个分词将占用大量内存同时运算时间增加，另外考虑到污点传播路径中前后几条指令之间存在关联关系，因此将几条指令组合为一个特征单词，以提高对比效率。将污点传播路径中每G条指令划分为一个分词，G取30；

例如样本S₃对应污点ST₃，样本S₄对应污点ST₄。污点ST₃的传播路径Seq₃＝[I_{3_1},I_{3_2},…,I_{3_120}]，ST₄的传播路径为Seq₄＝[I_{4_1},I_{4_2},,…,I_{4_150}]。其中污点ST₃的的传播路径Seq₃指令集合除去重复指令后剩下的集合tok(Seq₃)的数量cnt(tok(Seq₃))＝80；污点ST₄的传播路径Seq₄指令集合除去某些重复指令后剩下的集合tok(Seq₄)的数量cnt(tok(Seq₄))＝120；而污点ST₃和污点ST₄的传播路径指令集合tok(Seq₃)∧tok(Seq₄)除去某些重复指令后剩下的集合数量cnt(tok(Seq₃)∧tok(Seq₄))＝150。设定两个样本对应的污点传播路径相似度的预设值A＝5。根据上述步骤Step4.1，污点ST₃和污点ST₄中的指令集的重复率为

根据上述步骤Step4.2，污点ST₃传播路径中的指令划分后的分词为P₁,P₂,P₃,P₄；污点ST₄传播路径中的指令划分后的分词为P₂,P₅,P₆,P₇,P₈。根据上述步骤Step4.3，污点ST₃的分词P₁,P₂,P₃,P₄对应的权重为W₁＝2,W₂＝4,W₃＝1,W₄＝5；污点ST₄的分词P₂,P₅,P₆,P₇,P₈对应的权重为W₂＝4,W₅＝1,W₆＝3,W₇＝5,W₈＝4。污点ST₃和污点ST₄传播路径的签名值的计算过程如图3所示。则污点ST₃传播路径的签名值为100111，污点ST₄传播路径的签名值为000111。根据上述步骤Step4.4，污点ST₃和污点ST₄传播路径的签名值对应位上的数字相同个数为5，所以污点ST₃和污点ST₄的海明距离Hamming(ST₃,ST₄)＝5。根据上述步骤Step4.5，污点ST₃和污点ST₄的传播路径相似度为：

污点ST₃和污点ST₄的传播路径相似度sim(ST₃,ST₄)＝5.8，高于预设值A＝5。因此删除污点ST₃和污点ST₄对应的样本S₃和样本S₄中的任一个。假设删除样本S₄，则优化集Σ_op＝{S₃}。

Step5、对Step3中得出的异常样本集Ω中导致程序异常的样本进行遗传变异产生新的测试样本，将由遗传变异算法生成的所有样本构成的集合记为变异集Σ_va；

进一步地，可以设置所述步骤Step5具体为：

Step5.3、确定样本适应性函数：子代样本的适应度存在两种情况：一是若子代样本能覆盖的基本块数量越多则其适应性越高；二是若子代样本在传播的过程中经过的路径和父代样本越相似则适应性越低。子代样本的适应性函数为式(5)：

其中N_λ(S_d)表示样本S_d覆盖的基本块数量。

Step5.4、选择操作方法：

因为排挤选择方法可以提高样本群体的多样性，所以本发明采用此方法，用子代样本中适应性函数值最高的子代样本与其父代样本的适应性函数值进行比较：若子代样本适应性函数值大于父代样本，则保留该子代样本，删除父代样本；否则，不替换；

例如异常样本集Ω＝{S₁}，样本S₁覆盖的基本块数量N_λ(S₁)＝10，适应性函数Adap(S₁)＝2。停止条件为迭代次数50次。根据上述步骤Step5.1，将样本S₁作为初始样本，并将其转为二进制编码00010001111001001011。根据步骤Step5.2，初始样本S₁为父代样本，设定生成子代样本的个数n＝5。样本S₁的第1代样本中的第1个样本为S_{1_1_1}，对其进行交叉变异操作。交叉操作：随机选取第1个数和第11个数为交叉点，即00010001111001001011，交叉后为10010001110001001011。变异操作：随机选取第7个数为变异点，即00010001111001001011，变异后为00010011111001001011。对二进制编码进行还原得到样本S_{1_1_1}。同上述方式得到样本S_{1_1_2}、S_{1_1_3}、S_{1_1_4}、S_{1_1_5}。根据步骤Step5.3，样本S_{1_1_1}覆盖的基本块数量N_λ(S_{1_1_1})＝12，样本S_{1_1_1}在传播的过程中经过的路径和样本S₁相似度sim(S₁,S_{1_1_1})＝4，则样本S_{1_1_1}的适应性函数为

小于样本S₁适应性函数Adap(S₁)＝2，因此不保留样本S_{1_1_1}。样本S_{1_1_2}的适应性函数Adap(S_{1_1_2})＝2.3，样本S_{1_1_3}的适应性函数Adap(S_{1_1_3})＝3.1，样本S_{1_1_4}的适应性函数Adap(S_{1_1_4})＝1，样本S_{1_1_5}的适应性函数Adap(S_{1_1_5})＝1.3，因此保留样本S_{1_1_2}和S_{1_1_3}，删除父代样本S₁。将样本样本S_{1_1_2}和S_{1_1_3}作为父代样本。根据步骤Step5.5，未到停止条件，则循环执行步骤Step5.2到步骤Step5.4。假设最终得到样本S_{1_1_2}、S_{1_1_3}、S_{1_2_3}、S_{1_14_5}、S_{1_15_1}。

将生成的所有样本构成的集合记为变异集Σ_va，即Σ_va＝{S_{1_1_2}，S_{1_1_3}，S_{1_2_3}，S_{1_14_5}，S_{1_15_1}}。

例如模糊测试产生的随机样本Σ＝{S₁,S₂,S₃,S₄,S₅,S₆,S₇,S₈}，Step4得到的优化集Σ_op＝{S₃,S₅,S₆}，Step5得到的变异集Σ_va＝{S_{3_1_2}，S_{3_1_3}，S_{3_2_3}，S_{3_14_5}，S_{3_15_1}，S_{6_1_3}，S_{6_22_1}，S_{6_24_5}，S_{6_25_1}}。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于模糊测试的测试样本优化方法，其特征在于：所述方法步骤如下：

Step6、将步骤Step4得到的优化集Σ_op和Step5得到的变异集Σ_va中的样本作为模糊测试产生的随机样本优化后的测试样本；

利用基于动态规划的算法计算精简集ω，该算法包括：

(1)将样本集Σ中样本的个数记为N，根据样本个数N将精简集ω分为N个阶段，第k个阶段的精简集ω_k的基本块的覆盖情况记为λ(ω_k)＝{b_p,b_q,…}，其中p≠q；第k+1个阶段的精简集ω_k+1的基本块覆盖情况为λ(ω_k+1)；并创建备忘录TA；其中，第1阶段的精简集ω₁和第1个样本能覆盖的基本块相同，即λ(ω₁)＝λ(S₁)，则第1阶段的精简集ω₁＝{S₁}，将第1阶段的精简集ω₁的基本块覆盖情况λ(ω₁)记录在备忘录TA中；其中，k＝1,2,...N；

λ(ω_k+1)＝max{λ(ω_k),λ(ω_k)+λ(S_k+1)}(1)

精简集ω_k到精简集ω_k+1的状态转移方程为式(2)：

(4)求解精简集ω：根据状态转移方程对所有样本进行计算，全部样本计算完得到最后阶段的最优子结构即为最终状态的精简集ω；

Step4.6、若两个样本对应的污点传播路径相似度sim(ST_a,ST_b)的值高于预设值A，则随机删除其中一个样本，若低于预设值则保留两个样本；将删除了传播路径相似度高的样本之后的测试样本集记为优化集Σ_op；

所述步骤Step5具体为：

Step5.2、交叉变异方法：对父代样本进行交叉变异，由此生成子代样本，设定生成子代样本的个数为n，记第d个父代样本S_d的第x代样本中的第y个子代样本为S_{d_x_y}；交叉操作采用两点交叉的方式，样本长度记为L，然后随机选取2个0到L之间的数作为交叉点，然后交换这两个点的值；变异操作采用基本位变异的方式，随机产生1个0到L之间的数作为变异点位置，对该位置上的值取反；对二进制编码进行还原得到子代样本；其中，d表示父代样本的编号，x表示迭代次数，y表示子代样本的编号；

其中N_λ(S_d)表示样本S_d覆盖的基本块数量；

2.根据权利要求1所述的基于模糊测试的测试样本优化方法，其特征在于：所述Step3具体为：将精简集ω中的所有样本标记为污点，则第l个样本标记为污点ST_l，将污点ST_l记为二元组ST_l<v_ln,tag_ln>，将污点ST_l在传播路径上经过的指令按顺序记录，即污点ST_l的传播路径为Seq_l＝[I_{l_1},I_{l_2},…,I_{l_n},…]，将污点分析操作记为三元组T<ST_l,D,C>：