CN112307473A

CN112307473A - 一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型

Info

Publication number: CN112307473A
Application number: CN201910705360.4A
Authority: CN
Inventors: 方勇; 黄诚; 刘亮; 邱瑶瑶; 苏瑜
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2021-02-02

Abstract

本申请涉及计算机技术领域，发明设计了一种基于Bi‑LSTM网络和注意力机制的恶意JavaScript代码检测系统。所述方法应用于网页恶意脚本代码检测，所述方法包括：获取目标web页面的源码，得到待测样本；对待测样本进行转换；得到抽象语法树；基于抽象语法树提取代码的词法单元序列；采用FastText词向量模型对词法单元序列进行训练，得到词向量特征；构建基于Bi‑LSTM网络和注意力机制的分类模型，以确定待测样本是否为恶意脚本，得到对恶意JavaScript代码的高效检测的系统。

Description

一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型

技术领域

本申请涉及计算机技术领域，具体而言，发明设计了一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型。该模型基于JavaScript的抽象语法树提取词法单元序列，对其进行词向量提取，利用基于Bi-LSTM网络和注意力机制的分类算法高效地检测网页中的恶意JavaScript代码。

背景技术

日益丰富的互联网应用给人民的生活带来便利，然而广泛的应用场景也暴露了越来越多的网络安全风险和问题。攻击人员通过在Web页面中注入恶意的JavaScript代码实现恶意行为，如传播木马病毒、获取用户敏感信息和加密挖矿等。网页中的恶意代码灵活多变，攻击人员常常利用加密或混淆等技术躲避检测，具有隐匿性强，检测难度大等特点。本发明提出基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型，在提高模型检测准确率的同时，能减少恶意代码检测所耗费的资源与时间。

恶意JavaScript脚本代码造成的严重危害已引起广泛关注。当前已有不少研究成果。主要分为静态分析、动态分析和结合两者的动静态分析方法。

静态分析方法主要通过特征匹配或提取源码的静态特征。例如基于漏洞库的模型，利用操作码漏洞特征和有限确定自动机（DFA）匹配网页挂马攻击，可以快速检测已知漏洞，不足之处在于需要及时更新操作码特征库。

动态分析方法提取代码执行时的行为特征或基于蜜罐模拟浏览器环境执行JavaScript代码。Cova等人提出低交互蜜罐工具JSAND，采用HtmlUnit与Rhino引擎模拟客户端环境，提取代码中重定向目标和次数、字符串定义与被调用的比率、动态代码执行次数等十大特征来检测恶意JavaScript代码。不过基于动态分析的方法检测速度慢。

Junjie等结合动静态分析方法，提取代码文本信息、程序结构以及危险函数调用等特征，输入到机器学习模型中来识别恶意代码，其根据代码的攻击特征向量和动态执行轨迹将识别出的恶意代码分类为八种已知的攻击类型。

基于深度学习的恶意JavaScript代码检测模型近年来逐步发展。例如基于堆叠去噪自编码器的恶意JavaScript代码检测方法。不过模型存在一定的误报率。

基于静态分析的检测方法检测具有检测效率高，资源占用小等优势，不过检测模型依赖特征选择和算法模型。基于动态分析的检测方法主要存在系统消耗资源大、执行时间长的劣势。因此，如何保证模型检测准确率的同时，减少恶意代码检测所耗费的资源与时间是研究的一个要点。

针对恶意JavaScript代码的特征提取及检测主要解决的难题在于以下几点。

（1）如何从变量松散、嵌套复杂的JavaScript源代码中提取全面客观的特征。

（2）如何选择更加适合当前语料的词向量模型。

（3）如何构建合适的深度学习网络以及对恶意JavaScript代码检测效果进行测试。

本系统重点对于以上三个问题进行解决，实现一个基于Bi-LSMT网络和注意力机制的恶意JavaScript代码检测模型。

发明内容

有鉴于此，本申请实施例提供一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型，旨在从语义分析角度对JavaScript恶意代码进行检测，以提高检测准确率和检测效率。

本申请实施例提供了一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测方法。所述方法应用于网页恶意脚本代码检测，所述方法包括：

获取目标web页面的源码，得到待测样本；

对待测样本进行转换；得到抽象语法树；

基于抽象语法树提取代码的词法单元序列；

采用FastText词向量模型对词法单元序列进行训练，得到词向量特征；

构建基于Bi-LSTM网络和注意力机制的分类模型，以确定待测样本是否为恶意脚本，得到对恶意JavaScript代码的高效检测的系统。可选地，所述方法还包括：

获取多个web页面源码，预处理数据，对收集的样本进行清洗，分离出其中的JavaScript代码；

可选地，对所述分离出的JavaScript代码经过词法分析器与开源语法解析器Esprima进行解析生成抽象语法树；

可选地，通过深度后序优先遍历抽象语法树的节点，提取代码的词法单元序列；

可选地，基于FastText词向量模型对语料进行词向量训练；

所述方法还包括：基于深度学习网络Bi-LSTM及注意力机制构建检测模型的多项开发的先进模型。通过对样本数据进行预处理，提取样本词法单元序列的词向量特征，使用Bi-LSTM网络和注意力机制对网页中的恶意JavaScript代码进行检测。

该发明旨在实现如下目标。

（1）模型从源代码中清洗得到JavaScript代码，模型从代码中提取特征并进行分类判定，检测样本中的代码是否为恶意，对于判定为恶意的代码标注其中的关键代码片段。

（2）模型能够对收集到的样本代码进行预处理，能将JavaScript代码部分从网页源码中分离出来，在训练前期，对数据集进行清洗、去重。

（3）模型可以对训练样本中的词法单元序列进行训练获得词向量模型，然后根据词向量模型生成序列的词向量特征。

（4）模型所花费的时间代价应该较小，能够准确高效地检测出恶意JavaScript代码，且花费时间少。

为了实现上述目的，该发明采用了如下技术方案：基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型主要分为四个部分：数据准备模块、词法单元序列生成模块、词向量训练模块和恶意脚本代码检测模块。

数据准备主要完成前期的数据准备工作，包括收集正常代码和恶意代码、清洗代码、对重复样本文件进行过滤、标记正负样本等。

词法单元序列生成模块的主要工作是将保证代码能够正常转化成抽象语法树，再通过遍历语法树的节点生成词法单元序列。

词向量训练模块主要完成将词法单元序列表征为相应的词向量特征的工作，利用FastText模型训练出高质量的词向量。

恶意代码检测模块则是将生成的词向量输入到基于Bi-LSTM和注意力机制的模型中训练，通过该模型对待检样本进行判别，对于判别为恶意类别的样本，还会输出注意力层的权重，并将其权重值进行可视化展示以定位关键的代码片段。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1是本申请一实施例提出的模型训练和检测结构图；

图2是本申请一实施例提出的抽象语法树生成流程图；

图3是本申请一实施例提出的基于Bi-LSTM与注意力机制的检测模型图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清除、完整地描述。

参考图1，图1是本申请一实例提出的基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型流程图，该模型应用于恶意JavaScript检测。图1详细地描绘了恶意JavaScript代码检测模型在训练和检测两个阶段的流程。通过对收集的样本进行清洗，然后在NodeJS的执行环境下，使用Esprima解析器将代码转换成抽象语法树，提取词法单元序列保存为文本文件。其中，图2展示了抽象语法树的生成过程。在训练阶段，使用FastText模型对词法单元序列进行训练，获得词法单元的词向量。将提取的词向量特征输入到深度学习网络中，训练获得恶意JavaScript代码的检测模型。在检测阶段，提取待检样本的词法单元序列，利用训练得到的词向量字典生成待检样本序列的词向量，根据图3中所示的检测模型图，将前文所述的词法单元序列作为模型的输入，分别经过词向量层、Bi-LSTM层与注意力机制层，最终输出分类结果，对于判定为恶意的样本，将其注意力权重值进行可视化，以标注恶意样本中的关键代码片段。

本发明的工作过程是：在NodeJS的环境下使用开源语法解析器Esprima将源代码进行解析，依据深度后序优先遍历节点生成词法单元序列，由于FastText词向量模型能通过subword信息丰富词向量，从词的内部捕获有效内容，因此选用FastText词向量模型对语料进行训练及生成词向量。利用基于Bi-LSTM网络和注意力机制对提取的词向量进行分类模型训练及判定，通过实验对网络的超参数进行调试以训练出最优分类模型。此外，对于判定为恶意的样本，可视化其注意力层权重值以标注样本中的关键代码片段。

其中，基于FastText词向量算法进行词向量模型优化的过程如下：

JavaScript的抽象语法树的词法单元类型中许多词属于同一类型，比如声明类、表达式类，同一类型的词都具有相同的后缀，词法单元的内部结构中在很大程度上能体现当前节点的语义，在词向量训练时应当充分考虑词的内部结构。FastText词向量模型是一种基于Word2Vec词向量模型的扩展，Word2Vec模型忽视了词的内部结构，而FastText使用subword的信息，将每个词表示成一个字符级的n-gram词袋，一个单词的词向量表示与每个n-gram字符相关联。对于一个词

，该词的n-gram字符集合表示为

,分割后每个n-gram字符的词向量表示为

，词汇

的词向量表示为

，则目标函数公式为

。

分类模型中Bi-LSTM网络和注意力机制的输入为词法单元序列经过词向量训练后的对应词向量特征，通过实验对损失函数、优化函数以及激活函数的值进行确定，以及对批大小batch-size、神经元数量unit等参数进行调试，训练得到效果最优的分类模型，同时利用dropout层和Early Stopping策略防止模型过拟合，具体原理为在训练中的某次迭代过程中，验证集的损失函数值小于最小的验证损失函数值，则保存当前的模型；反之，若本次迭代与最小验证损失函数值的迭代的距离超过了设置的等待迭代数，则停止训练过程，以此确定参数迭代轮数epochs的值。

Claims

1.一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型，其特征在于，所述方法应用于恶意JavaScript代码检测，所述方法包括：

获取目标web页面的源码，得到待测样本；

对待测样本进行转换；得到抽象语法树；

基于抽象语法树提取代码的词法单元序列；

构建基于Bi-LSTM网络和注意力机制的分类模型，以确定待测样本是否为恶意脚本，得到对恶意JavaScript代码的高效检测的系统。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个样本网页源码，预处理数据，对收集的样本进行清洗，分离出其中的JavaScript代码。

3.根据权利要求1所述的方法，其特征在于，对分离出的JavaScript代码转换成抽象语法树，包括：

使用Esprima语法解析器，将纯净的JavaScript文件转换成抽象语法树；

通过深度后序优先遍历语法树上的节点得到词法单元序列；

样本的词法单元序列作为词向量模型的训练语料集。

4.根据权利要求1所述的方法，其特征在于，基于语义分析的分类器模型，所述方法包括：

通过FastText词向量模型对语料进行词向量训练；

利用FastText词向量模型，对样本的词法单元序列语料进行训练，得到语料的词向量模型；根据词向量模型生成每个样本的词向量特征，作为分类器的输入特征。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于Bi-LSTM网络和注意力机制的检测方法对词向量特征进行抽象迭代训练，生成二元分类模型；

通过分类模型判定为恶意代码的样本，输出模型网络中注意力层的权重值，使用热力图进行可视化展示，根据可视化结果标注样本中的关键代码片段。

6.根据权利要求1所述的基于语义分析的特征提取和深度学习算法构建的分类模型，其特征在于：

基于JavaScript抽象语法树提取词法单元序列；通过FastText词向量模型对语料进行词向量训练；

基于Bi-LSTM网络和注意力机制的分类模型对样本进行判定，通过对模型的超参数的调优，训练出最优的恶意JavaScript代码检测模型。

7.根据权利要求4所述的基于语义分析的分类器模型，其特征在于：

基于JavaScript的抽象语法树提取词法单元序列，时间代价小，能够有效表征源代码；

基于FastText模型训练词向量特征，在JavaScript的词法单元中，许多词法单元拥有相同的后缀，词的内部结构可以一定程度体现当前词的语义，FastText将词法单元转化成字符级的N-gram词袋，词法单元的词向量由所有分词词袋的向量组成，充分利用了词缀信息。

8.根据权利要求5所述的基于Bi-LSTM网络与注意力机制的分类器模型，其特征在于：

Bi-LSTM网络在序列文本处理中，能充分利用序列的上文语义依赖及下文语义依赖，即能充分利用序列的上下文信息，能有效处理有监督的二分类问题；

注意力机制能聚焦序列中的重要代码片段，对不同的词法单元序列进行加权，降低数据处理维度；

根据注意力层的权重值标注样本中的关键代码片段，帮助分析人员进一步分析还原恶意代码。