CN112328465A

CN112328465A - 一种基于深度学习与遗传算法的浏览器样本集获取方法

Info

Publication number: CN112328465A
Application number: CN201910715239.XA
Authority: CN
Inventors: 方勇; 刘亮; 张磊; 朱光夏天
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2021-02-05

Abstract

本发明公开了一种浏览器模糊测试样本集获取方法，包括以下步骤：（1）对文档进行预处理，统计html文件元素，得到输入向量与元素统计数据；（2）使用LSTM神经网络进行深度学习，将生成的样本解码得到生成样本。（3）将生成样本进行树状编码得到父代种群，计算适应度函数。（4）使用优化遗传算子对父代种群进行优化，直到满足终止结果。该方法可以用于浏览器漏洞挖掘，其挖掘方向更有针对性，挖掘效率也更高。

Description

一种基于深度学习与遗传算法的浏览器样本集获取方法

技术领域

本发明涉及一种基于深度学习与遗传算法的浏览器样本集获取方法，属于漏洞挖掘技术领域。

背景技术

浏览器作为上网的必要工具，占据十分重要的地位，其受到安全威胁与攻击的频率也要高于其他软件。在常见的攻击场景中，攻击者通过攻击浏览器或包含链接的其他文件使浏览器错误解析数据，通过攻击浏览器内存获得缓存数据或使用浏览器作为跳板解析通信协议、攻击服务器与数据库。浏览器泄露的内存中可能包括个人账号、密码等敏感信息，通过攻击浏览器服务器与数据库有可能获得大量用户数据。对浏览器进行漏洞挖掘可以提前暴露浏览器的安全隐患，并进行针对新的更新，从而加强浏览器安全指数。传统的针对浏览器的漏洞挖掘主要技术包括基于生成的模糊测试技术与基于变异的模糊测试技术。基于生成的模糊测试技术能有效覆盖目标程序的几乎所有输入点并进行无差别的挖掘，但是其没有任何指向性，得到的Crash也往往无法利用；基于变异的模糊测试技术能针对某一类漏洞进行针对性的挖掘，但其覆盖输入点较少，而且十分依赖作为变异基础的种子文件。使用深度学习与各类算法对样本集进行优化能够获得更有效的样本，使得漏洞挖掘效率更高。目前这种方法也面临着三个问题，一是针对已知样本进行特异性优化，无法普适性的挖掘特定种类漏洞。第二是无法绕过目标程序中的防护措施，当遇见循环或反复调用时浪费计算资源。另外一点则是并且使用过于复杂的网络与算法会降低样本生成的速度，从而影响漏洞挖掘效率。

基于以上问题，我们提出了一种基于深度学习并结合遗传算法来进行漏洞挖掘样本集生成与优化的新方法。该方法使用的种子文件带有漏洞利用代码，其本身就具有很强的漏洞挖掘作用。使用这些种子文件作为深度神经网络学习的基础，生成的样本同样具有较高的漏洞挖掘价值，同时为了使生成的样本获得更多的代码覆盖率、触发更多的Crash，使用遗传算法针对html文件进行特异性优化，选择合适的编码策略与适应度函数算法，同时针对选择、交叉、变异算子进行针对性优化。最后利用模糊测试工具对生成的样本进行漏洞挖掘。

目前已知相关的方法利用深度学习与遗传算法对浏览器进行漏洞挖掘（[39]Jääskelä E. Genetic algorithm in code coverage guided fuzz testing[J]. Dept.Comput. Sci. Eng., Univ. Oulu, 2016.;Fang Y, Huang C, Liu L, et al. Researchon Malicious JavaScript Detection Technology Based on LSTM[J]. IEEE Access,2018, 6: 59118-59125. ）。但是目前针对浏览器本身的漏洞挖掘样本集生成与优化没有通用的流程与框架。在框架检测中，通过提取种子文件的元素信息与结构信息，使其在神经网络学习时不被打乱相关结构，适用范围更广，可以覆盖xml等高度结构化的文件格式。此外，我们的方法是基于单向LSTM网络与遗传算法来进行样本生成与优化，计算开销较小，能够应用于大规模的样本生成与测试。通过实验也表明该发明的方法能有效应用与浏览器漏洞挖掘。

发明内容

本发明的目的在于为提高浏览器漏洞挖掘效率而提供一种基于深度学习与遗传算法来进行样本获取的方法与框架。

本发明通过以下技术方案来实现上述目的：

本发明所述样本集生成与优化方法整体框架图如图1所示，主要包括样本生成、优化与测试三个阶段。其中对样本生成阶段包括如下步骤：

（1）对训练样本数据进行预处理，将文件中的元素进行统计并按统一格式存入数据库；

（2）利用300维度的One-Hot编码方案将元素进行编码，并进行向量化，对所有文档都进行该操作，得到所有文档的向量；

（3）将向量按照文件中的元素顺序排序，同一个文件中的元素所划成的向量同一批输入深度学习网络中，使用深度学习网络学习样本；

（4）将此时神经网络的输出向量进行解码，写入空白文件中，获得生成样本；

（5）对生成样本进行格式检查，若一段时间内80%的生成样本格式均符合html格式规范，则认为此时神经网络训练成熟。

在样本优化阶段，按照如下方法进行：

（1）将待优化样本使用能保存html文件格式的树状编码方案进行编码，每一个样本获得一个个体，所有个体组成父代种群；

（2）保守估计优化后的样本集能覆盖目标程序90%的代码，使用保守估计策略设定适应度函数

；

（3）计算种群中所有个体的适应度函数值

，并按照适应度函数值排序，记录适应度函数最大的个体与函数值

，以及适应度函数平均值

；

（4）对种群按选择概率

进行轮盘赌选择，将选择到的个体直接进入下一代。并使用最优保存策略保证遗传迭代是正向的；

（5）对种群按交叉概率进行双点交叉。为了保证交叉过程中文件格式不被损坏，采用两次单点交叉来替代一次双点交叉；

（6）对种群按变异概率

选择个体进行变异。为了保证种群总体稳定，并能尽量获得新的基因，采用单点变异与自重组变异结合对被选择个体进行变异；

（7）将经过选择、交叉、变异后的种群进行解码，置入模糊器中进行模糊测试，若代码覆盖率高于90%，或迭代次数达到200次，或种群的适应度函数20代无明显变化，则结束遗传算法，输出样本集。否则，将此时的子代种群设置为父代种群，重复步骤（3）至步骤（7）。

在样本测试阶段，按照如下方法进行：

（1）使用AFL对被测试的浏览器进行插桩，以监控测试样本达到的代码覆盖率。使用morph进行模糊测试，保存崩溃现场与恶意样本；

（2）将得到的模糊测试样本集使用被测试的浏览器逐个打开，并监控浏览器状态；

（3）若被打开的文件使浏览器崩溃，采集崩溃现场，并保存使浏览器崩溃的样本名称。若浏览器正常运行，则不做任何处理；

（4）重复步骤（2）、步骤（3），指导所有被测试样本集均被浏览器运行过；

（5）统计浏览器崩溃情况与代码覆盖率，分析触发的Crash数量与现场信息，分析Crash具体情况，重现Crash崩溃现场，以获得浏览器漏洞信息。

上述方法的基本原理如下。

浏览器处理的html文件一般由多个标签对组成，在标签中有对标签属性的相关描述，在标签之间有各类文本。这些标签用来保证文件满足基本的各式需求。在某些标签中存在被插入的任意代码，这些代码一般用作进行漏洞触发利用以及投放攻击载荷等。包括漏洞利用的环境搭建、触发代码、shellcode以及部分辅助代码。每个文件针对不同的漏洞，文件的结构与漏洞利用代码也不尽相同，但是针对某一类漏洞的漏洞利用文件有较为规范的模式与恶意代码信息。基于这些特点，我们的方法主要通过神经网络学习文件中的标签与文本本身的信息与位置信息，将其按照一定规则向量化，将向量化的数据送入深度学习模型来训练生成模型。在样本预处理模块，数据库中存放了元素的标签、位置、内容、出现频率等信息，用以样本生成时进行对照，从而选出合适的标签与文本。在神经网络训练中，使用交叉熵函数作为神经网络的损失函数，使用均方根误差算法（Root Mean Square Prop，RMSProp）作为优化算法降低损失函数。对神经网络生成的样本进行实时监控，同一批次中80%以上的样本均满足html格式规范则认为神经网络训练完成，此时的网络可以用于样本生成。将此时的网络生成的样本进行模糊测试，采集模糊测试时的各项指标如代码覆盖率、Crash触发数量等，发现此时的样本集可以挖掘出比种子文件集更多的Crash，但是只能覆盖60%左右的代码，说明此时的样本集的挖掘深度较深，但覆盖到的目标浏览器的输入点数量不足。在此基础上，使用遗传算法进行样本优化，在保证样本集挖掘深度的同时覆盖更多的输入点。为了保证html文档的格式与结构信息，采用树状结构对样本进行编码，将文件保存村DOM树的格式，每一个标签或者文本均为一个节点，其中标签所转化为的节点可以有子节点，而文本转化为的节点自身一定为叶子节点，不含子节点。使用树状编码方案能够在不影响文件结构信息的情况下对样本进行遗传算法优化处理。采用保守估计的方式计算种群中每一个个体的适应度函数值，根据适应度函数值的大小对种群进行优化。在选择算子中，采用轮盘赌算子选择需要传入下一代的样本。为了避免选择时丢弃了适应度函数值最高的个体，对种群进行最优保存策略进行筛选。在交叉算子中，使用双点交叉，并采用两次单点交叉替代一次双点交叉的方案。在变异算子中，采用基本位变异与自重组变异算子对被选中的个体进行变异。由于个体中被优化的均为节点，即遗传算法中的基因，能保证在解码时每个节点都被解释成一个标签对，因此不用对优化后的样本进行格式检查。最后讲优化后的样本送入模糊测试模块进行测试，并实时统计测试数据。

具体地，在样本生成阶段的步骤（1）中，针对html文件进行预处理。将文件中的标签、标签属性、文本等元素进行统计，并以标签或外层标签与人工标注编号合并的字符串作为键值放入数据库字典中。

样本生成阶段的步骤（2）中，针对标签、标签属性、文本分别进行编码，并将编码后的向量进行合并，在向量末尾附上位置信息与出现概率，得到每个元素对应的向量。

样本生成阶段的步骤（4）中，对输出的向量进行解析，先分离位置与出现概率，对元素的向量数据与数据库中存放的向量数据进行对比，取其欧式距离最近的一位作为解析出的元素，将其与分离出的位置信息与出现概率合并，获得输出向量。

样本生成阶段的步骤（5）中，对生成的样本进行格式检查，统计字符”<”、字符”>”与字符”</”的数量，剔除所有存在标签不闭合或标签不成对出现情况的样本。

样本优化阶段的步骤（2）中，设计适应度函数保守估计值

，即代码覆盖率至少达到90%以上，该参数可以根据实际情况进行不同程度的调节。适应度函数的计算公式为：

（1）。

样本优化阶段的步骤（4）中，根据轮判赌算子进行选择，为了保证每次遗传迭代均使得适应度函数值增加，即正向优化，对选择过后的种群进行最优选择策略。

将当前种群n按照适应度函数值

排序，并使用当前记录的适应度函数值最高的个体

进行比较，若被记录的个体适应度函数值

大于当前种群中适应度函数值最高的个体

，说明在选择时丢失了适应度函数值最高的个体，此时将被记录的个体插入到当代种群中，并删除适应度函数值最低的个体。即：

（2）。

样本优化阶段的步骤（5）中，交叉概率根据种群适应度函数值的波动情况而自适应变换，当种群个体适应度函数最高值与平均值相差较小时，交叉概率较大。交叉概率的计算公式为：

（3）。

样本优化阶段的步骤（6）中，使用基本位变异将被选择的个体中的某个基因使用等价基因替换，使用自重组变异在保证文件上下级结构不变的情况下打乱上下级之间的连接关系并随机分配子节点。变异概率根据种群适应度函数值的波动情况而自适应变换，当种群个体适应度函数最高值与平均值相差较小时，变异概率较大。变异概率的计算公式为：

（4）。

在测试验证步骤中，将使用深度神经网络生成的样本进行遗传算法优化后的样本送入随机模糊变异器进行模糊变异，将输出的样本作为实验组，将种子文件经过遗传算法优化后送入模糊变异器变异、种子文件仅经过遗传算法优化、种子文件仅经过模糊变异器变异、生成文件仅经过遗传算法优化、生成文件仅经过模糊变异器变异的样本均作为对照组进行对比实验。

本发明的有益效果在于：

本发明利用了含有漏洞利用结构与代码的样本作为种子文件供给深度神经网络进行学习，生成的样本经过遗传算法优化后获得测试样本集，使用优化后的测试样本集进行模糊测试。在种子文件的选择中，采用具有类似攻击模式的样本，通过学习其构造与恶意代码，生成的样本具有漏洞挖掘价值，并且能针对种子文件所指向的漏洞种类进行深度挖掘。该方法从学习样本上指导了模糊测试样本集的挖掘方向，弥补了传统模糊测试中方向不确定，平铺计算资源的问题，在遗传算法优化后能够在覆盖大部分输入点的情况下深度挖掘特定种类的浏览器漏洞。此外，该方法的效率高，计算开销较小，能够生成大批量的漏洞挖掘样本，可以应用于大规模的模糊测试。

附图说明

图1是本发明中的总体框架结构图。

图2是本发明实施中样本预处理步骤图。

图3是本发明实施中样本预处理结果图。

图4是本发明实施中深度神经网络结构图。

图5是本发明实施中生成样本步骤图。

图6是本发明实施中生成样本测试结果图。

图7是本发明实施中遗传算法结构图。

图8是本发明实施中交叉算子原理图。

图9是本发明实施中自重组算子原理图。

图10是本发明实施中终止判定原理图。

图11为本发明的方法与传统漏洞挖掘策略的样本覆盖率对比结果。

图12为本发明的方法与传统漏洞挖掘策略的Crash触发效率对比结果。

具体实施方式

下面结合具体实施例和附图对本发明作进一步说明。

为了使本发明所述浏览器漏洞挖掘样本获取方法更加便于理解和接近于真是应用，下面从样本生成与优化模型和用于实际浏览器漏洞挖掘进行整体流程的说明，其中包括本发明的核心神经网络的结构与优化遗传算子：

（1）收集相关的样本并对其进行分类，将栈溢出、堆溢出、整数溢出、释放后重用等内存破坏漏洞利用样本筛选出。构建样本库时只选择内存破坏类漏洞利用样本。为了提高深度神经网络学习效率、明确学习方向，使用人工变异的方式扩充样本集。一共获得样本1400个，其中栈溢出样本630个，堆溢出样本230个，整数溢出样本170个，释放后重用样本370个；

（2）对样本进行预处理。将栈溢出、堆溢出、整数溢出漏洞的前置标签、跳板指令与辅助利用代码分别作为一个整体进行编码，对释放后重用漏洞的申请内存、释放内存、指针调用等代码分别作为一个整体进行编码。将编码后的向量按照图3中的格式保存一份置入数据库中；

（3）将向量化的数据输入图4的神经网络中，通过对输出向量的解码得到测试样本，对样本进行解析，当一段时间内80%以上的样本均满足html格式规范则认为此时的神经网络已经成熟；

（4）神经网络训练成熟后，生成40000个样本进行模糊测试，图5是测试结果；

（5）在生成样本的基础上，针对图6（c）中的路径覆盖率不足的问题，使用遗传算法按照图7步骤对样本集进行优化。使用200个体作为一个种群，将待优化的40000个样本划分为200个种群同步进行遗传迭代；

（6）为保留html文件结构信息，使用树状编码对样本进行编码；

（7）保守估计样本覆盖率能达到90%，将适应度函数值中的保守估计值

设为0.9。将交叉于变异概率中参数

的取值分别为

；

（8）使用轮盘赌算子在每代种群中选择80%的个体直接传入下一代，并通过最优保存策略保证每次选择均为正向优化；

（9）针对双点交叉出现的部分问题，根据公式（3）的交叉概率，采用图8的两次单点交叉替代一次双点交叉，保证交叉算子不破坏样本的具体结构；

（10）为了使变异算子产生更多的基因，根据公式（4）的变异概率，使用图9中自重组算子对样本进行变异；

（11）为了保证在种群满足要求时及时停止、不满足要求时不无限制的消耗计算资源，使用图10所示的流程对子代种群进行终止判定。当满足样本覆盖率大于90%、连续20次迭代种群适应度函数无明显变化或迭代次数超过200中的其中一条时停止遗传迭代，将此时的种群解码输出；

（12）使用遗传算法解码输出的样本进行模糊测试，在样本覆盖率与Crash触发数量上与传统的漏洞挖掘策略进行对比。对照组2即为传统的基于变异的浏览器漏洞挖掘策略，对照组3至对照组5均进行了不同程度的优化。图11是样本覆盖率的测试结果对比，图12是Crash触发数量的测试结果对比。实验结果显示本发明设计的样本获取流程优于传统的漏洞挖掘策略。其样本覆盖率达到92.6%，触发了92个Crash。

上述实施例只是本发明的较佳实施例，并不是对本发明技术方案的限制，只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案，均应视为落入本发明专利的权利保护范围内。

Claims

1.一种基于深度学习与遗传算法的浏览器模糊测试样本集获取方法，其特征在于包括以下步骤：

步骤一：对文件进行预处理，并建立元素库；

步骤二：在文件向量化后，送入深度学习模型进行训练，并对模型相关参数进行优化后得到生成模型；

步骤三：使用生成模型生成样本集，对于生成的样本集进行样本过滤；

步骤四：对过滤后的样本进行树状编码，并使用保守估计策略计算样本的适应度函数值；

步骤五：使用轮盘赌选择与最优保存策略进行选择算子运算；

步骤六：使用两次单点交叉代替一次双点交叉进行交叉算子运算；

步骤七：使用基本位变异与自重组变异进行变异算子运算；

步骤八：解码运算后的种群，获得此时优化后的模糊测试样本集；

步骤九：对样本进行过滤，丢弃不符合html格式规范的文件；

步骤十：利用得到的此时的样本集对浏览器进行模糊测试；

步骤十一：对当代种群进行终止判定，满足终止条件则得到优化后的种群，否则重复步骤五到步骤十；

步骤十二：使用优化后的种群进行模糊测试，获得测试结果。

2.根据权利1所述的基于深度学习与遗传算法的浏览器模糊测试样本集获取方法，其特征在于：对文档进行预处理步骤中，针对标签元素，将其标签本身与便签属性分开记录；针对插入的恶意代码，使用外层标签作为键值的组成部分，将代码本身作为文本存储；在元素存储时，将外层标签与自定义编号作为唯一键值；在神经网络学习时，采用交叉熵作为损失函数，使用RMSProp算法作为优化算法；在样本生成时，通过检测标签完整性与标签对应性来过滤不合格式规范的样本，得到待优化的样本集；在编码样本时，采用能保留html结构的树状编码；在选择算子运算时，使用轮盘赌算子与最优保存策略进行选择；在交叉算子运算时，使用两次单点交叉代替一次双点交叉运算；在变异算子运算时，使用基本位变异和自重组变异进行变异算子运算；在优化完成后，针对样本代码覆盖率、适应度函数值变化和迭代次数三个指标进行终止判定，达到某个阈值后停止迭代，得到优化后的样本集。

3.根据权利2所述的基于深度学习与遗传算法的浏览器模糊测试样本集获取方法其特征在于：

（1）在文件预处理过程中，提取的5个元素特征如下：上层标签、自定义编号、元素内容、元素出现位置、元素出现频率，其中元素出现位置与元素出现频率属于全局统计数据；

（2）在进行遗传算法优化时，针对样本的结构与特性进行了适应性的优化，分别使用树状编码来保留待优化样本中的结构信息、使用轮盘赌选择和最优保存策略来保证优化是正向的、使用两次单点交叉替代一次双点交叉来保证个体结构不被破坏、使用基本位变异与自重组变异获得新的染色体组合，其中交叉概率的计算公式为：

（3）

变异概率的计算公式为：

（4）。

4.根据权利3所述的基于深度学习与遗传算法的浏览器模糊测试样本集获取方法其特征在于：将深度学习、遗传算法与模糊测试三者进行组合，根据实际情况进行适应性的改进，并按照高效率的工作流程整合的道德样本获取框架。