CN108920954A

CN108920954A - 一种恶意代码自动化检测平台及方法

Info

Publication number: CN108920954A
Application number: CN201810685518.1A
Authority: CN
Inventors: 张东红; 张震宇
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-11-30
Anticipated expiration: 2038-06-28
Also published as: CN108920954B

Abstract

本发明涉及恶意代码自动化检测平台及方法，通过自动化采集可执行样本，对其进行筛选、检测等预处理，对可执行样本进行反汇编，提取其操作码特征，根据提取的操作码特征对样本进行向量化表示，并使用向量化表示的样本训练恶意代码分类检测模型，然后使用该训练得到的恶意代码检测模型对未知可执行样本进行检测，判断其是否是恶意代码。本发明创新性地提出使用线性扫描反汇编算法对样本进行反汇编提取操作码特征，能够更加快速、高效、准确地对样本进行检测。此外，本发明能够自动化的采集和预处理样本，并能够根据配置自动化地划分数据集、反汇编样本、提取操作码特征。

Description

一种恶意代码自动化检测平台及方法

技术领域

本发明涉及一种恶意代码自动化检测平台及方法，特别是一种基于线性扫描反汇编提取操作码特征的恶意代码自动化检测平台及方法，属于信息安全技术领域。

背景技术

恶意代码，也称为恶意软件，可以定义为在一定环境下执行对计算机系统或者网络系统的机密性、完整性、可用性产生威胁，具有恶意企图的代码序列。根据恶意代码的自身运行、传播以及攻击方式的不同主要可以分为三个类别：蠕虫、病毒、木马。虽然在本发明中对恶意代码的类别进行了区分，但是通常在日常生活中，人们普遍会将所有类型的恶意代码都称为病毒。在本发明中，也不对恶意代码的具体类别进行区分，将所有类别的恶意代码统以恶意代码代称。恶意代码的传播和运行不仅会给个人带来严重危害，还可能会对企事业单位、政府机关等机构的计算机系统造成影响，甚至会窃取用户、公民敏感信息，给国家安全带来严重威胁，需要能够及时检测到恶意代码采取应对措施。当前大数据网络环境下，恶意代码数量与日俱增，恶意代码检测对抗技术越来越成熟，依靠传统恶意代码检测技术难以应对。为此，借鉴机器学习在数据分析上取得的良好成果，结合传统恶意代码分析和检测技术的安全经验，构建基于机器学习的恶意代码检测方案，通过训练分类模型来自动化地学习样本中的固有规律，实现快速、高效、智能地恶意代码检测，已经成为目前恶意代码检测工作中的一个重点研究方向。在这些研究工作中，操作码特征作为可执行样本的一种有效表示方法，引起研究人员的广泛关注。借鉴机器学习文本分类技术，基于操作码特征进行恶意代码检测也是当前研究工作中的一个热点。

虽然现有工作中(如Shabtai等人[Shabtai A,Moskovitch R,Feher C,etal.Detecting unknown malicious code by applying classification techniques onopcode patterns[J].Security Informatics,2012,1(1):1.])使用操作码特征进行恶意代码检测能够比较准确、有效地检测恶意代码，但仍然存在样本特征提取失败率高，提取效率低，训练样本利用率低等问题，影响恶意代码检测效率以及准确率。

考虑到这种基于文本分类技术的恶意代码检测，借鉴了机器学习文本分类技术，而机器学习算法又是数据驱动的算法，所以至少有两方面因素会影响恶意代码检测模型的性能。它们分别是反汇编代码的质量和用于训练恶意代码检测模型的样本数量。从这两方面因素进行入手，在样本特征提取过程中，可以使用线性扫描反汇编算法提取操作码特征替代现有研究工作中使用的递归下降反汇编算法，在反汇编代码不准确可容忍的情况下提高样本的反汇编成功率和效率，为恶意代码检测模型的训练提供更为充分和有效的训练数据。这样就可以解决现有研究工作中样本特征提取失败率高，提取效率低，训练样本利用率低等问题，提高恶意代码检测模型的检测能力以及泛化能力，具有很好的实际应用价值和研究意义。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种恶意代码自动化检测平台及方法，通过使用线性扫描反汇编算法对样本进行反汇编，提高样本反汇编和提取操作码特征的成功率和效率，增大最终用于恶意代码检测模型训练的样本数量，并实现了这一平台，来提高恶意代码检测效率和准确率，更加有效检测出可执行样本是否是恶意代码。

本发明技术解决方案：一种恶意代码自动化检测平台，检测平台自动化采集样本，对样本筛选和检测等预处理，划分样本数据集，对样本进行反汇编并提取其操作码序列特征，对样本进行向量化表示，训练恶意代码检测模型并对待检测样本进行检测；所述自动化检测平台包括：样本采集模块、样本预处理模块、数据集划分模块、特征提取模块、特征选择模块、训练检测模块；

样本采集模块：根据预先配置的采集来源以及采集规则，使用自动化采集脚本，自动化访问网络地址或本地样本路径，根据采集规则进行分析和下载样本；

样本预处理模块：对采集到的样本进行预处理，筛选出样本中的可执行样本文件，并对筛选得到的可执行样本文件进行检测；对可执行样本进行检测，是指使用现有杀毒软件或者在线恶意代码检测引擎进行检测，得到该样本文件是否是恶意代码，以及恶意代码所属的恶意代码家族类别；

数据集划分模块：根据用户配置，将筛选并检测后的可执行样本进行数据划分，得到两个样本数据集合；

特征提取模块：对样本使用线性扫描反汇编算法进行反汇编，得到样本的反汇编代码，然后根据用户配置提取样本的操作码序列特征；

特征选择模块：根据用户配置的操作码序列词表或者经过选择得到的操作码序列特征子集，对每个样本进行向量化表示，得到每个样本的特征向量；选择操作码序列特征子集，是指根据用户配置的方法和衡量指标，选择出符合要求的操作码序列特征；

训练检测模块：根据用户配置，选择相应的分类模型算法，使用表示每个样本的特征向量训练恶意代码检测分类模型，并保存训练得到的恶意代码检测模型，用以对待检测样本进行检测，得到其是否是恶意代码，以及恶意代码家族类别。

一种恶意代码自动化检测方法，实现步骤如下：

(1)对用户自定义添加或者检测平台预定义的采集地址及规则进行自动化分析和采集样本，得到更有效、更全面的样本数据集；

(2)对采集得到样本进行自动化预处理和分析，筛选出可执行样本文件，并用户自定义添加或者检测平台预定义的配置对可执行样本进行检测，得到每个样本的类别；

(3)根据用户配置选择相应的数据划分方法将筛选和检测后的可执行样本划分为训练和测试集；测试集与训练集尽可能互斥，即测试集中的样本尽量保证不在训练集中出现、也未在训练过程中使用过；

(4)使用线性扫描反汇编算法对可执行样本进行反汇编，得到其反汇编代码，然后根据用户配置提取相应的操作码序列特征；

(5)对可执行样本进行向量化表示，向量化过程根据用户定义的操作码序列词表，或者根据配置选择操作码序列特征子集对样本进行向量化；

(6)使用表示每个样本的特征向量，根据配置，训练相应的恶意代码分类检测模型，并将训练得到的恶意代码检测模型进行保存，用于检测对待检测样本进行检测，判断其是否是恶意代码，以及恶意代码家族类别。

本发明与现有技术相比的优点在于：

(1)采集来源以及采集规则可自定义：用户可以自定义想要采集的样本地址，以及相应的采集规则，添加到自动化检测平台中，与传统检测工具相比，能够非常简单的添加新的的数据源，使得该自动化检测平台能够很便捷的增加样本数据，增强了检测平台的灵活性与可用性，提高了恶意代码检测的有效性；

(2)自动化预处理样本：能够自动化地从原始样本数据集中筛选出可执行样本文件，并能够根据配置自动化对样本使用本地杀毒软件或者在线检测引擎对样本进行检测，相比于传统检测工具，能够更加全面和准确地对样本进行检测，同时该自动化检测平台使用代理池访问在线检测引擎的方法，增强了该检测平台的检测效率；

(3)使用线性扫描反汇编提取操作码特征：本发明提出使用线性扫描反汇编算法对样本进行反汇编提取操作码特征，这是本发明相比与其他软件逐一发送测试用例最大的不同点，也是最大优点，解决了现有研究工作中样本特征提取失败率高，提取效率低，训练样本利用率低等问题，提高恶意代码检测模型的检测能力以及泛化能力；

(4)高效：由于本发明改进了样本反汇编提取操作码特征的方法，提高了整体构建恶意代码检测模型的效率，相比于传统检测工具，能够更为高效、快速地反汇编样本提取操作码特征，进而训练得到恶意代码检测模型。

附图说明

图1为本发明平台体系结构图；

图2为样本采集模块结构图；

图3为样本预处理模块结构图；

图4为数据集划分模块结构图；

图5为特征提取模块结构图；

图6为特征选择模块结构图；

图7为训练检测模块结构图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明一种基于线性扫描反汇编提取操作码特征的恶意代码自动化检测平台及方法，采用平台基于Ubuntu 14.10操作系统，通过自动化采集可执行样本，对其进行筛选、检测等预处理，对可执行样本进行反汇编，提取其操作码特征，根据提取的操作码特征对样本进行向量化表示，并使用向量化表示的样本训练恶意代码分类检测模型，然后使用该训练得到的恶意代码检测模型对未知可执行样本进行检测，判断其是否是恶意代码。本发明创新性地提出使用线性扫描反汇编算法对样本进行反汇编提取操作码特征，能够更加快速、高效、准确地对样本进行检测。此外，该检测平台能够自动化的采集和预处理样本，并能够根据配置自动化地划分数据集、反汇编样本、提取操作码特征。

更具体地包括以下几个模块：样本采集模块、样本预处理模块、数据集划分模块、特征提取模块、特征选择模块、训练检测模块。

上述实现过程具体实施如下：

1.样本采集模块

如图2所示，样本采集模块的具实现过程如下：

(1)首先从config文件中加载样本采集的配置文件，包括网络样本的配置文件和本地样本的配置文件；如果配置文件加载失败，会加载平台预定义的默认配置；配置文件中包含样本采集的地址，以及样本采集的规则；

(2)根据配置访问样本采集的地址，对于网络样本会根据配置的采集规则自动解析样本页面，获取样本的下载链接，并自动下载保存样本；对于本地样本，会根据配置的采集规则自动复制样本，保存到样本存储路径下；

(3)计算每个采集到的样本的哈希值，去掉重复样本，并将去重后的样本输出到样本预处理模块；

2.样本预处理模块

如图3所示，样本预处理模块的具体要求实现过程如下：

(1)对经过去重后的采集的样本进行文件类型文件，删除非可执行样本文件，保留可执行样本文件；可执行样本文件根据样本的文件头信息进行判断；

(2)检测保留的可执行样本文件，根据检测结果将可执行样本分别移动至不同的文件目录中，并将最终的检测结果输入到数据集划分模块中；样本检测根据配置使用本地杀毒引擎进行检测，或者使用在线检测引擎VirusTotal进行检测，检测结果中超过2/3的杀毒引擎认为是恶意代码，则认为其是恶意代码；在线检测引擎通过IP代理池进行访问检测；

3.数据集划分模块

如图4所示，数据集划分模块的具体实现过程如下：

(1)加载数据划分配置文件，如果加载失败，使用检测平台预定义的默认配置；检测平台默认使用留出法进行数据集划分，即直接将初始样本数据集划分为两个互斥的集合，其中一个数据集作为训练集，另外一个作为测试集；检测平台默认将3/4样本划分为训练集，剩余1/4样本作为测试集；检测平台默认在训练集中选取等量的恶意代码样本和非恶意代码样本；

(2)根据平台加载的配置，将经过检测的样本进行数据集划分，将划分得到的训练数据集和测试数据集输入到特征提取模块；样本从原始数据集文件中随机选取；

4.特征提取模块

如图5所示，特征提取模块的具体实现过程如下：

(1)对训练数据集样本和测试数据集样本分别使用线性扫描反汇编算法进行反汇编，得到其反汇编代码，并进行存储；

线性扫描反汇编算法描述如下：

线性扫描反汇编算法从输入样本的第一个可执行字节开始反汇编(第2行)，并且在每次反汇编一条指令代码之后，向后移动指令代码相应的长度，并从下一条指令代码继续进行反汇编(第5行)

线性扫描反汇编算法从输入样本的第一个可执行字节开始反汇编(第2行)，并且在每次反汇编一条指令代码之后，向后移动指令代码相应的长度，从下一条指令代码继续进行反汇编(第5行)；

(2)加载特征提取配置文件，如果加载失败，使用检测平台预定义的默认配置；检测平台默认提取2-gram操作码序列；

(3)根据加载配置，从反汇编代码中生成n-gram操作码序列特征，并将生成得到的训练数据集操作码序列和测试数据集操作码序列输入到特征选择模块；

5.特征选择模块

如图6所示，特征选择模块的具体实现过程如下：

(1)加载特征选择配置，如果加载失败，使用检测平台预定义的默认配置进行特征选择；平台默认使用过滤式操作码特征选择的方法，根据TF-IDF指标选择权重最高的300个操作码序列作为特征；

操作码特征f_i在样本d_j上的TF-IDF权重w_i,j计算公式如下：

其中，tf_i,j表示操作码特征f_i在样本d_j上的词项频率，即操作码特征f_i在样本d_j中出现的频率；idf_i表示操作码特征f_i的逆文档频率，即全部样本中包含操作码特征f_i的样本数，并对其取反和取对数；n_i,j表示操作码特征f_i在样本d_j中出现的次数；N表示样本总数；n_i表示全部样本中包含操作码特征f_i的样本数，为防止分母出现零，进行加1操作。

(2)根据选择的操作码序列特征，对每个样本进行向量化表示。遍历训练数据集操作码序列和测试集操作码序列，统计每个样本中，选择的操作码序列特征频数，并进行归一化表示，将归一化后参数的频数作为该样本的特征向量参数的权重；

样本归一化词频根据如下公式进行计算：

其中，n_i,j表示操作码序列特征f_i在样本d_j中出现的次数；n_k,j表示操作码序列特征f_k在样本d_j中出现的次数；w_i,j表示操作码序列特征f_i在样本d_j上的归一化权重。

(3)将每个向量化表示的样本转换成向量矩阵，得到训练数据集向量矩阵和测试数据集向量矩阵，输入到训练检测模块；向量矩阵每行表示一条样本，并用数字表示样本类别；

6.训练检测模块

如图7所示，训练检测模块的实现过程如下：

(1)加载模型训练配置文件，如果加载失败，使用检测平台预定义的默认配置；检测平台默认使用支持向量机(support vector machine，SVM)算法，结合多项式核函数(polynomial kernel)训练恶意代码检测模型；

(2)加载训练数据集向量矩阵，根据配置训练恶意代码检测模型，将训练得到的恶意代码检测模型保存到本地，得到恶意代码检测模型；

(3)加载本地保存的恶意代码检测模型，和测试数据集向量矩阵，使用恶意代码检测模型对测试集进行恶意代码检测，并输出检测结果，即是否是恶意代码。

总之，本发明通过自动采集和预处理样本，将样本数据集划分之后，使用线性扫描反汇编算法进行反汇编，得到其反汇编代码，然后从反汇编代码中提取操作码特征序列，使用选择得到的操作码序列对样本进行向量化表示，随后创建向量矩阵输入到机器学习分类算法中进行训练，得到恶意代码检测模型，然后使用该训练得到的恶意代码检测模型对测试集样本进行检测，得到其是否恶意代码的检测结果。该检测平台创新性地提出使用线性扫描反汇编算法反汇编样本提取其操作码特征，支持快速、自定义、自动化地训练恶意代码检测模型和对样本进行检测，在平台内置丰富的样本采集配置、数据划分配置、特征提取配置、特征选择配置和模型训练配置，在满足使用者需求的基础上，使用者可以根据自己的使用需求添加额外配置来丰富该检测平台的功能。本发明能够自动化地完成对样本的采集和预处理、数据集的划分、特征的提取和选择，恶意代码检测模型的训练以及未知样本的恶意代码检测，从而实现最佳的检测效果。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种恶意代码自动化检测平台，其特征在于：包括样本采集模块、样本预处理模块、数据集划分模块、特征提取模块、特征选择模块、训练检测模块；

样本预处理模块：对采集样本进行自动化预处理，自动筛选出所述样本中的可执行样本文件，并对筛选的所述可执行样本文件进行自动化检测，并保存相应的检测结果；所述对可执行样本进行检测，是指使用现有杀毒软件或者在线恶意代码检测引擎进行检测，得到所述样本文件是否是恶意代码，以及恶意代码所属的恶意代码家族类别，从而得到筛选并检测后的可执行样本；

数据集划分模块：根据用户配置，将筛选并检测后的可执行样本进行数据划分，得到两个样本数据集合；数据划分是将检测后的可执行样本数据集合划分成训练数据集和测试数据集；测试数据集尽可能地与训练数据集互斥，即测试数据集中的样本尽量保证不在训练数据集中出现，也没有在模型训练过程中使用过；

特征提取模块：对训练数据集和测试数据集中的样本分别使用线性扫描反汇编算法进行反汇编，分别得到训练数据集和测试数据集中样本的反汇编代码，然后根据用户配置分别从训练数据集和测试数据集反汇编得到的反汇编代码中提取每个集合中样本的操作码序列特征；

特征选择模块：首先加载用户配置的操作码序列特征词表，或者根据用户配置的特征选择方法和特征衡量指标从训练数据集中，选择得到符合要求的操作码序列特征子集，然后根据用户配置的操作码序列词表或者经过选择得到的操作码序列特征子集对训练数据集和测试数据集中的每个样本进行向量化表示，得到每个样本的特征向量；所述操作码序列词表是指用户预先配置的，用于向量化样本的操作码序列集合；

训练检测模块：根据用户配置，选择相应的分类模型算法，使用表示每个训练数据集样本的特征向量训练恶意代码检测模型，并保存训练完成得到的恶意代码检测模型，用以对待检测样本进行检测，得到进行检测的样本是否是恶意代码，以及恶意代码家族类别。

2.根据权利要求1所述的恶意代码自动化检测平台，其特征在于：使用线性扫描反汇编算法进行反汇编得到样本的反汇编代码的过程是：首先加载需要进行反汇编的可执行样本，然后从该加载的可执行样本的第一个可执行字节开始，根据汇编手册逐指令进行反汇编，得到每条指令的反汇编代码进行保存。

3.根据权利要求1所述的恶意代码自动化检测平台，其特征在于：所述训练检测模块中：根据用户配置，选择相应的分类模型算法；该功能通过预先实现分类模型算法，如支持向量机分类模型算法、随机森林分类模型算法，然后运行过程中根据用户配置选择。

4.一种恶意代码自动化检测方法，其特征在于：实现步骤如下：

(2)对采集得到样本进行自动化预处理和分析，筛选出可执行样本文件，并根据用户自定义添加或者检测平台预定义的配置对可执行样本进行检测，得到每个样本的类别；

(3)根据用户配置选择相应的数据划分方法将筛选和检测后的可执行样本划分为训练数据集和测试数据集；测试数据集与训练数据集尽可能互斥，即测试数据集中的样本尽量保证不在训练数据集中出现、也未在训练过程中使用过；