CN107273752A

CN107273752A - 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法

Info

Publication number: CN107273752A
Application number: CN201710495331.0A
Authority: CN
Inventors: 胡昌振; 吕坤; 张皓
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2017-10-20
Anticipated expiration: 2037-06-26
Also published as: CN107273752B

Abstract

本发明涉及一种基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法，属于信息安全技术领域。具体操作为：步骤一、构建一个漏洞数据库，收集漏洞记录。步骤二、确定特权集类别。步骤三、训练词频‑逆向文件频率分类器。步骤四、测试词频‑逆向文件频率分类器分类结果和准确率。步骤五、建立朴素贝叶斯分类器。步骤六、测试朴素贝叶斯分类器分类结果和准确率。步骤七、分类器融合。本发明提出的支持漏洞关联性挖掘的漏洞自动分类法与已有方法相比较，其优点是：本发明方法不仅利用了漏洞数据库中“漏洞描述”字段，同时考虑了漏洞的“可用性评分”、“影响性评分”等属性对漏洞关联性的影响，分类准确率得到大幅提高。

Description

基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法

技术领域

本发明涉及一种基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法，属于信息安全技术领域。

背景技术

网络安全脆弱性是指计算机系统中存在某些可能被恶意主体(攻击者或攻击程序)利用的安全漏洞，从而可能导致对系统资源的非授权访问或对系统造成其他损害。近年来逐渐发展成熟的脆弱性扫描技术及CVE(Common Vulnerabilities&Exposures，公共漏洞和暴露)标准与通用漏洞评分系统(Common Vulnerability Scoring System,CVSS)漏洞评级方法，可以检测并发现网络中存在的脆弱点，但无法分析脆弱点之间的关联性与相互利用关系。而网络风险中的攻击手段往往是通过彼此关联的漏洞，从一个漏洞切入，逐步利用网络中与此相关的漏洞扩散至整个网络。因此研究挖掘漏洞之间的关联性有重大意义。

漏洞关联图是一个描述漏洞间关联关系的有向图，它提供了一种形式化、系统化描述漏洞关联性的方法，能比较直观地反映出漏洞之间的关联关系。漏洞的关联往往体现在某低用户级L的攻击者通过成功地利用某个漏洞，获得一定的特权提升，从而在非授权的情况下达到了一个高用户级H的目的。现有的一种描述用户权限提升过程的方法是采用“特权”、“特权集”与“特权提升”的概念，利用决策树的方法将访问者与特权集集合起来，将访问者分为若干类，并将其拥有的特权集按重要程度设置一个量化的权值，比如在0-1之内的若干个小数。

目前存在的漏洞分类法主要有普渡大学COAST实验室的Aslam提出的Unix操作系统分类法，分为操作故障、环境故障和编码故障，但由于没有具体的量化指标，无法评价漏洞的危害级别；哈工大的汪立东提出的软件弱点分类法，描述了漏洞对机密性、完整性和可用性等安全性的影响，Knight等人提出的广义分类法，将弱点分为社会工程、策略疏忽、逻辑错误和软件漏洞四种类型，由于一定程度上的概念模糊，类与类之间不具备互斥性。

以上分类方法都是将漏洞作为单一缺陷来分析，张永铮强调了漏洞之间的关联性，提出了判断漏洞前后关联性的前提是漏洞可以按“前提特权集”及“结果特权集”进行的准确分类，实现了一种新颖的支持关联性挖掘的多维量化属性漏洞分类法，然而并没有明确指出每一类的具体特征，无法自动进行分类。

国家发明专利《支持漏洞关联性挖掘的漏洞自动分类方法》(申请号：201710052203.9)从漏洞的自然语言描述中挖掘出每条漏洞的“前提特权集”及“结果特权集”所属的特权集分类，并根据“特权提升”的概念来判断漏洞之间存在的关联关系，达到分类的目的。但其缺点是只利用了数据库中“漏洞描述”字段这个单一属性，忽视了漏洞的其他属性对漏洞关联性的影响，比如漏洞的“可用性评分”、“影响性评分”等属性。因此，该方法的分类准确率还有待提高。

发明内容

本发明的目的是提出一种基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法，通过漏洞的特征属性与自然语言描述挖掘出漏洞的“前提特权集”与“结果特权集”，并以此来判断漏洞之间存在的关联关系。

本发明的目的是通过以下技术方案实现的。

本发明提出的一种基于词频-逆向文件频率和朴素贝叶斯融合模型的漏洞自动分类方法，具体操作为：

步骤一、构建一个漏洞数据库，收集漏洞记录。

选取国家漏洞数据库(National Vulnerability Database，NVD)作为数据源，构建一个漏洞数据库。

所述漏洞数据库包括：通用漏洞(Common Vulnerabilities and Exposures，CVE)编号、通用漏洞评分系统(Common Vulnerability Scoring System,CVSS)评分、是否需要网络、获取容易程度、是否需要认证、机密性影响、完整性影响、可用性影响、漏洞描述、前提特权集、结果特权集。

其中，通用漏洞CVE编号、通用漏洞评分系统CVSS评分、是否需要网络、获取容易程度、是否需要认证、机密性影响、完整性影响、可用性影响、漏洞描述字段是通过国家漏洞数据库直接获取的。前提特权集和结果特权集为空。

所述漏洞描述字段是用自然语言描述漏洞的特征，“漏洞描述”字段为“…users/attackers to…by/via…”格式。

步骤二、确定特权集类别。

特权集类别包括：超级系统管理员特权集、普通系统管理员特权集、普通用户特权集、访问者特权集、受限访问者特权集。

所述超级系统管理员特权集包含系统管理员所拥有的所有权限。超级系统管理员为拥有系统最高权限的用户帐号，超级系统管理员的权限为：管理系统设备、系统文件和系统进程，读写任意文件内容。攻击者利用超级系统管理员特权集造成的危害有：植入系统级木马，以虚假身份欺骗或直接追加、修改、删除、创建文件内容，造成系统不可恢复性崩溃。

所述普通系统管理员特权集包含系统管理员所拥有的部分权限。普通管理员的权限为：管理部分系统设备、系统文件和系统进程，读写部分系统文件内容。攻击者利用普通系统管理员特权集造成的危害有：通过追加、修改、删除、创建某些系统文件内容或系统进程内存空间的数据结构，造成系统某些文件看起来不可用、系统当机或拒绝服务。

所述普通用户特权集包含普通用户所拥有的所有权限。普通用户所拥有的权限为：在自己独立私有的资源空间内追加、修改、删除、创建个人文件。攻击者利用普通用户特权集造成的的危害有：植入用户级木马，修改普通用户的所有文件或进程空间的内容，导致用户崩溃或不可用。

所述访问者特权集包含受信任的系统远程访问者所拥有的所有权限。受信任的系统远程访问者所拥有的权限有：与系统交互数据、扫描系统信息。攻击者利用访问者特权集造成的危害有：帮助其他受限访问者用户完成身份验证或发送大量数据包造成系统内存溢出。

所述受限访问者特权集是指除去以上四种角色之外的、被系统防火墙隔离在外的不受信任的访问者所拥有的权限。不受信任的访问者仅拥有证实主机有效性的权限，不具备使用该系统的任何权限。攻击者利用受限访问者特权集不能对系统造成危害。

漏洞的前提特权集的取值集合为{“受限访问者特权集”，“访问者特权集”，“普通用户特权集”}，结果特权集的取值集合为{“访问者特权集”，“普通用户特权集”，“普通系统管理员特权集”，“超级系统管理员特权集”}。

步骤三、训练词频-逆向文件频率(Term Frequency-Inverse DocumentFrequency,TFIDF)分类器。

针对步骤二所述的5个特权集类别，分别训练3个前提特权集训练器和4个结果特权集训练器。具体操作为：

步骤3.0：从步骤一中所述漏洞数据库中选取一部分漏洞记录，作为训练数据集。然后人工标注每条漏洞记录的前提特权集和结果特权集。

步骤3.1：从训练数据集中选取前提特权集为普通用户特权集的300条以上数据。

步骤3.2：对每条训练数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“by/via”之后的部分截取出来，存入文件d₁中，每条训练数据占一行，文件d₁的行数用符号J₁表示。

步骤3.3：利用开源分词工具(StandardAnalyzer)对文件d₁进行处理，统计每个单词出现的数量，文件d₁中出现的单词的数量用符号I₁表示。

步骤3.4：通过公式(1)计算单词的重要性。

其中，tf_i,j表示第i个单词在第j行的重要性，i和j均为正整数，并且i∈[1，I₁]，j∈[1，J₁]；n_i,j表示第i个单词在第j行中出现的次数。

步骤3.5：通过公式(2)计算第i个单词的逆向文件频率，用符号idf_i表示。逆向文件频率用来度量单词的普遍性。

其中，t_i表示第i个单词；|{j:t_i∈r_j}|表示文件d₁包含单词t_i的行数。

步骤3.6：通过公式(3)计算单词的权重得分。

其中，TFIDF_i表示第i个单词的权重得分。

某一行的高词语频率，以及该词语在整个文件内的低行数频率，可以产生高权重的TFIDF_i。因此，TFIDF_i值倾向于过滤掉常见词语，保留重要的词语。

步骤3.7：将文件d₁中出现的单词按照TFIDF_i值降序排列，取前K个词作为特征关键词，K∈[5,12]。记录特征关键词及对应的TFIDF_i值。并通过公式(4)计算每个关键词的AVL_i值，AVL_i值的作用是将权重得分映射到0-1中。

步骤3.8：经过步骤3.1至3.7的操作，得到前提特权集为普通用户特权集对应的特征关键词及对应的AVL_i值。

步骤3.9：从训练数据集中选取前提特权集为访问者特权集的300条以上数据。重复3.2至至3.7的操作，得到前提特权集为访问者特权集对应的特征关键词及对应的AVL_i值。

步骤3.10：从训练数据集中选取前提特权集为受限访问者特权集的300条以上数据。重复3.2至至3.7的操作，得到前提特权集为受限访问者特权集对应的特征关键词及对应的AVL_i值。

步骤3.11：从训练数据集中选取结果特权集为超级系统管理员特权集的300条以上数据。

步骤3.12：对每条训练数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“to”到“by/via”之间的部分截取出来，存入文件d₂中，每条训练数据占一行，文件d₂的行数用符号J₂表示。

步骤3.13：利用开源分词工具(StandardAnalyzer)对文件d₂进行处理，统计每个单词出现的数量，文件d₂中出现的单词的数量用符号I₂表示。

步骤3.14：通过公式(5)计算单词的重要性。

其中，tf_i′,j′表示第i′个单词在第j′行的重要性，i′和j′均为正整数，并且i∈[1，I₂]，j∈[1，J₂]；n_i′,j′表示第i′个单词在第j′行中出现的次数。

步骤3.15：通过公式(6)计算第i′个单词的逆向文件频率，用符号idf_i′表示。逆向文件频率用来度量单词的普遍性。

其中，t_i′表示第i′个单词；|{j′:t_i′∈r_j′}|表示文件d₂包含单词t_i′的行数。

步骤3.16：通过公式(7)计算单词的权重得分。

其中，TFIDF_i′表示第i′个单词的权重得分。

步骤3.17：将文件d₂中出现的单词按照TFIDF_i′值降序排列，取前K'个词作为特征关键词，K'∈[5,12]，K'为人为设定值。记录特征关键词及对应的TFIDF_i′值。然后，通过公式(8)计算每个关键词的权重得分映射到0-1中，得到的结果用符号AVL_i'表示。

步骤3.18：经过步骤3.11至3.17的操作，得到结果特权集为超级系统管理员特权集对应的特征关键词及对应的AVL_i'值。

步骤3.19：从训练数据集中选取结果特权集为普通系统管理员特权集的300条以上数据。重复3.12至至3.17的操作，得到结果特权集为普通系统管理员特权集对应的特征关键词及对应的AVL_i'值。

步骤3.20：从训练数据集中选取结果特权集为普通用户特权集的300条以上数据。重复3.12至3.17的操作，得到结果特权集为普通用户特权集对应的特征关键词及对应的AVL_i'值。

步骤3.21：从训练数据集中选取结果特权集为访问者特权集的300条以上数据。重复3.12至至3.17的操作，得到结果特权集为访问者特权集对应的特征关键词及对应的AVL_i'值。

步骤四、测试词频-逆向文件频率分类器分类结果和准确率。

步骤4.1：从步骤一中所述漏洞数据库中选取一条测试数据。

步骤4.2：对测试数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“by/via”之后的部分截取出来，并利用开源分词工具(StandardAnalyzer)处理，得到若干个单词。

步骤4.3：对于步骤4.2得到的单词，依次查找每个单词是否在步骤3.8得到前提特权集为普通用户特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i值并求和，结果用符号P₁表示。

步骤4.4：对于步骤4.2得到的单词，依次查找每个单词是否在步骤3.9得到前提特权集为访问者特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i值并求和，结果用符号P₂表示。

步骤4.5：对于步骤4.2得到的单词，依次查找每个单词是否在步骤3.10得到前提特权集为受限访问者特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i值并求和，结果用符号P₃表示。

步骤4.6：比较P₁、P₂和P₃的值，选取最大值对应的特权集作为该条测试数据的前提特权集的值。

步骤4.7：对测试数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“to”到“by/via”之间的部分截取出来，并利用开源分词工具(StandardAnalyzer)处理，得到若干个单词。

步骤4.8：对于步骤4.7得到的单词，依次查找每个单词是否在步骤3.18得到的结果特权集为超级系统管理员特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i'值并求和，结果用符号R₁表示。

步骤4.9：对于步骤4.7得到的单词，依次查找每个单词是否在步骤3.19得到的结果特权集为普通系统管理员特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i'值并求和，结果用符号R₂表示。

步骤4.10：对于步骤4.7得到的单词，依次查找每个单词是否在步骤3.20得到的结果特权集为普通用户特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i'值并求和，结果用符号R₃表示。

步骤4.11：对于步骤4.7得到的单词，依次查找每个单词是否在步骤3.21得到的访问者特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i'值并求和，结果用符号R₄表示。

步骤4.12：比较R₁、R₂、R₃和R₄的值，选取最大值对应的特权集作为该条测试数据的结果特权集的值。

步骤4.13：在步骤一所述的漏洞数据库中选取100条以上前提特权集为受限访问者特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.2至4.6的操作，得到所述100条以上测试数据的前提特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_P1表示。

步骤4.14：在步骤一所述的漏洞数据库选取100条以上前提特权集为访问者特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复4.2至4.6的操作，得到所述100条以上测试数据前提特权集的分类结果，对比预先标注的分类结果，并将准确率记录为AR_P2。

步骤4.15：在步骤一所述的漏洞数据库选取100条以上前提特权集为普通用户特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复4.2至4.6的操作，得到所述100条以上测试数据前提特权集的分类结果，对比预先标注的分类结果，并将准确率记录为AR_P3。

步骤4.16：利用公式(9)计算词频-逆向文件频率分类器在前提特权集分类结果的平均准确率，用符号W_PRE₁表示。

W_PRE₁＝(AR_P1+AR_P2+AR_P3)/3 (9)

步骤4.17：在步骤一所述的漏洞数据库中选取100条以上结果特权集为访问者特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R1表示。

步骤4.18：在步骤一所述的漏洞数据库中选取100条以上结果特权集为普通用户特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R2表示。

步骤4.19：在步骤一所述的漏洞数据库中选取100条以上结果特权集为普通系统管理员特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R3表示。

步骤4.20：在步骤一所述的漏洞数据库中选取100条以上结果特权集为超级系统管理员特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R4表示。

步骤4.21：利用公式(10)计算词频-逆向文件频率分类器在结果特权集分类结果的平均准确率。

W_RES₁＝(AR_R1+AR_R2+AR_R3+AR_R4)/4 (10)

步骤五、建立朴素贝叶斯分类器。

每一个漏洞拥有前提特权集与结果特权集，所以训练2个朴素贝叶斯分类器，一个是前提特权集训练器和一个是结果特权集训练器。具体操作为：

步骤5.1：在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据，构成训练数据集，所述训练数据集中前提特权集分别是“受限访问者特权集”、“访问者特权集”、“普通用户特权集”的数据条数相同。

用符号C表示前提特权集所有的分类集合，C＝{c₁,c₂,c₃}，其中，c₁表示“受限访问者特权集”，c₂表示“访问者特权集”，c₃表示“普通用户特权集”。

步骤5.2：用符号V_A表示漏洞数据的属性集合，V_A＝{a₁,a₂...a₇}，其中，a₁表示通用漏洞评分系统评分，a₂表示是否需要网络，a₃表示获取容易程度，a₄表示是否需要认证，a₅表示机密性影响，a₆表示完整性影响，a₇表示可用性影响。

步骤5.3：对于步骤5.1选取的训练数据集，统计训练数据的前提特权集分别在c₁、c₂、c₃中每一个属性a_x的概率分布P(a_x|c_y)，(x∈[1,7],y∈[1,3])。为了防止出现P(a_x|c_y)的值为0时，对结果产生不利影响，设定P(a_x|c_y)＝0时，P(a_x|c_y)＝1。

经过步骤5.1至步骤5.3完成前提特权集分类器的建立。

步骤5.4：在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据，构成训练数据集，所述训练数据集中结果特权集分别是“访问者特权集”、“普通用户特权集”、“普通系统管理员特权集”与“超级系统管理员特权集”的数据条数相同。

用符号C'表示结果特权集所有的分类集合，C'＝{c′₁,c′₂,c′₃,c′₄}，其中，c'₁表示“访问者特权集”，c'₂表示“普通用户特权集”，c'₃表示“普通系统管理员特权集”，c'₄表示“超级系统管理员特权集”。

步骤5.5：用符号V_A表示漏洞数据的属性集合，V_A＝{a₁,a₂...a₇}，其中，a₁表示通用漏洞评分系统评分，a₂表示是否需要网络，a₃表示获取容易程度，a₄表示是否需要认证，a₅表示机密性影响，a₆表示完整性影响，a₇表示可用性影响。

步骤5.6：对于步骤5.4选取的训练数据集，统计其结果特权集分别在c₁′、c′₂、c₃′和c'₄中每一个属性a_x′的概率分布P(a_x|c′_y′)，(x∈[1,7],y′∈[1,4])。为了防止出现0值对结果产生不利影响，当P(a_x|c′_y′)＝0时，设定P(a_x|c′_y′)＝1。

经过步骤5.4至步骤5.6完成结果特权集分类器的建立。

步骤六、测试朴素贝叶斯分类器分类结果和准确率。

步骤6.1：步骤4.1中所述测试数据，用符号V_B表示。

步骤6.2：根据贝叶斯定理，利用公式(11)来计算测试数据V_B的前提特权集对应于分类c_y的概率值。

其中，N表示步骤5.1中所述训练数据集中训练样本的数量；P(V_B|c_y)P(c_y)利用公式(12)计算得到。

步骤6.3：为了表示方便，把步骤6.2计算得到的概率值P(c_y|V_B)用符号PRE_BP_y表示，y∈[1,3]；然后，将PRE_BP_y中最大的概率值对应的分类作为测试数据V_B的前提特权集的值。

步骤6.4：根据贝叶斯定理，利用公式(13)来计算测试数据V_B的结果特权集对应于分类c′_j的概率值。

其中，P(V_B|c′_y')P(c′_y')利用公式(14)计算得到。

步骤6.5：为了方便表示，把通过步骤6.4计算得到的概率值P(c′_y′|V_B)用符号PRE_BP_y′表示，y′∈[1,4]。然后，将PRE_BP_y′中最大的概率值对应的分类作为测试数据V_B的结果特权集的值。

步骤6.6：在步骤一提到的漏洞数据库中选取300条以上漏洞数据，作为测试数据。其中前提特权集属于受限访问者特权集、访问者特权集、普通用户特权集的测试数据数据条数相同。

步骤6.7：依次对选取出来的每条测试数据重复步骤6.2至6.3的操作，得到所述300条以上测试数据的前提特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号W_PRE₂表示。

步骤6.8：在步骤一提到的漏洞数据库中选取400条以上已分类的漏洞数据，作为测试数据。其中结果特权集属于访问者特权集、普通用户特权集、普通系统管理员特权集、超级系统管理员特权集的测试数据数据条数相同。

步骤6.9：依次对选取出来的每条测试数据重复步骤6.4至6.5的操作，得到所述400条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号W_RES₂表示。

步骤七、分类器融合。

对于测试数据V_B，通过计算它在两个分类器中前提特权集与结果特权集的分类结果，通过准确率作为得数权重将两个结果进行融合。具体为：

步骤7.1：对于测试数据V_B，通过公式(15)计算它的前提特权集的分类结果，并从3个F_PRE_q值中选择最大值，并把所述最大值对应的分类作为测试数据V_B的前提特权集。

F_PRE_q＝PRE_AVL_q×W_PRE₁+PRE_BP_q×W_PRE₂,q∈[1,3] (15)

步骤7.2：对于测试数据V_B，通过公式公式(16)计算它的结果特权集的分类结果，并从4个F_RES_q'值中选择最大值，并把所述最大值对应的分类作为测试数据V_B的结果特权集。

F_RES_q'＝RES_AVL_q'×W_RES₁+RES_BP_q'×W_RES₂,q'∈[1,4] (16)

经过上述步骤的操作，即完成对测试数据V_B的自动分类。

有益效果

本发明提出的支持漏洞关联性挖掘的漏洞自动分类法与已有方法相比较，其优点是：本发明方法不仅利用了漏洞数据库中“漏洞描述”字段，同时考虑了漏洞的“可用性评分”、“影响性评分”等属性对漏洞关联性的影响，分类准确率得到大幅提高。

附图说明

图1为本发明具体实施方式中支持漏洞关联性挖掘的漏洞自动分类法的流程图；

图2为本发明具体实施方式中使用相同的漏洞数据库，分别采用决策树方法(DT)、神经网络分类法(BPN)、贝叶斯分类方法(BAYES)和国家发明专利《支持漏洞关联性挖掘的漏洞自动分类方法》(申请号：201710052203.9)中的方法(TFIDF)以及本发明方法(FUSION)对漏洞进行分类，分类结果的准确率柱状图。

具体实施方式

下面结合附图和实施例对本发明技术方案做详细描述。

采用本发明提出的基于词频-逆向文件频率和朴素贝叶斯融合模型的漏洞自动分类方法对漏洞进行分类并得到漏洞间关联关系的操作流程如图1所示，具体操作步骤为：

步骤一、构建一个漏洞数据库，从国家漏洞数据库(National VulnerabilityDatabase，NVD)下载2010-2016年的漏洞数据，挑选linux下漏洞数据并筛选字段后导入本地数据库。

本地漏洞数据库字段如表1所示。

表1漏洞数据库字段表

字段名称	中文名称	字段来源
			CVE_ID	通用漏洞编号	name
CVSS_SCORE	通用漏洞评级系统评分	CVSS_score
			VECTOR_AV	是否需要网络	CVSS_vector
VECTOR_AC	获取容易程度	CVSS_vector
			VECTOR_AU	是否需要认证	CVSS_vector
VECTOR_C	机密性影响	CVSS_vector
			VECTOR_I	完整性影响	CVSS_vector
VECTOR_N	可用性影响	CVSS_vector
			DESCRIPT	漏洞描述	descript
V_PRE	前提特权集	漏洞描述字段挖掘
			V_RES	结果特权集	漏洞描述字段挖掘

步骤二、确定特权集类别。

特权集类别包括：超级系统管理员特权集、普通系统管理员特权集、普通用户特权集、访问者特权集、受限访问者特权集。每个特权集对应英文标识如表2所示。

表2特权集对应英文标识表

步骤三、训练词频-逆向文件频率分类器分类器。

步骤3.0：从步骤一中所述漏洞数据库中选取一部分漏洞记录，作为训练数据集。然后人工标注每条漏洞记录的前提特权集和结果特权集。包含漏洞描述、前提特权集和结果特权集的训练数据集如表3所示。

表3训练数据集

步骤3.1：从训练数据集中选取前提特权集为普通用户特权集的323条数据。

步骤3.2：对每条训练数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…users to…by/via…”格式。将“to”到“by/via”之间的部分截取出来，存入文件d₁中，每条训练数据占一行，文件d₁的行数J₁＝323。

步骤3.3：利用开源分词工具(StandardAnalyzer)对文件d₁进行处理，统计每个单词出现的数量，文件d₁中出现的单词的数量I₁＝1346。

步骤3.4：通过公式(1)计算单词的重要性。

文件d₁中的第1个单词为“execute”，在第一行出现了1次，而第一行一共出现了5个单词，所以单词“execute”在第一行的重要性tf_i,j＝0.2。

在全部323行数据中，包含单词“execute”的行数为46行，所以单词“execute”的idf₁＝0.84.

步骤3.6：通过公式(3)计算单词的权重得分。单词“execute”的TFIDF₁值为9.66.

其中，TFIDF_i表示第i个单词的权重得分。

步骤3.7：将文件d₁中出现的单词按照TFIDF_i值降序排列，取前8个词作为特征关键词，记录特征关键词及对应的TFIDF_i值。

步骤3.8：经过步骤3.1至3.7的操作，得到前提特权集为普通用户特权集对应的特征关键词及对应的TFIDF_i值与AVL_i值，如表4所示。

表4前提特权集为普通用户特权集的特征关键词与对应的TFIDF_i值对应表

步骤3.9：从训练数据集中选取前提特权集为访问者特权集的300条以数据。重复3.2至至3.7的操作，得到前提特权集为访问者特权集对应的特征关键词及对应的TFIDF_i值，如表5所示。

表5前提特权集为访问者特权集的特征关键词与对应的TFIDF_i值对应表

特征关键词	TFIDF_i	AVL_i
			package	12.84	0.37
craft	11.67	0.34
			vector	7.56	0.22
access	5.78	0.17
			file	4.96	0.14
message	2.01	0.06
			send	1.45	0.04
bypass	1.04	0.03

步骤3.10：从训练数据集中选取前提特权集为受限访问者特权集的300条以上数据。重复3.2至至3.7的操作，得到前提特权集为受限访问者特权集对应的特征关键词及对应的TFIDF_i值，如表6所示。

表6前提特权集为受限访问者特权集的特征关键词与对应的TFIDF_i值对应表

步骤3.11：从训练数据集中选取结果特权集为超级系统管理员特权集的300条数据。

步骤3.12：对每条训练数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…users to…by/via…”格式。将“by/via”之后的部分截取出来，存入文件d₂中，每条训练数据占一行，文件d₂的行数用符号J2表示。

步骤3.14：通过公式(4)计算单词的重要性。

其中，tf_i′,_j′表示第i′个单词在第j′行的重要性，i′和j′均为正整数，并且i∈[1，I₂]，j∈[1，J₂]；n_i′,j′表示第i′个单词在第j′行中出现的次数。

步骤3.15：通过公式(5)计算第i′个单词的逆向文件频率，用符号idf_i′表示。逆向文件频率用来度量单词的普遍性。

步骤3.16：通过公式(6)计算单词的权重得分。

其中，TFIDF_i′表示第i′个单词的权重得分。

步骤3.17：将文件d₂中出现的单词按照TFIDF_i′值降序排列，取前8个词作为特征关键词。记录特征关键词及对应的TFIDF_i′值。

步骤3.18：经过步骤3.11至3.17的操作，得到结果特权集为超级系统管理员特权集对应的特征关键词及对应的TFIDF_i′值，如表7所示。

表7结果特权集为超级系统管理员特权集的特征关键词与对应的TFIDF_i值对应表

特征关键词	TFIDF_i	AVL_i
			root	11.24	0.18
gain	10.63	0.17
			obtain	10.26	0.17
access	9.54	0.15
			privilege	9.32	0.15
system	5.64	0.09
			denial	2.54	0.04
service	2.54	0.04

步骤3.19：从训练数据集中选取结果特权集为普通系统管理员特权集的300条以上数据。重复3.12至至3.17的操作，得到结果特权集为普通系统管理员特权集对应的特征关键词及对应的TFIDF_i′值，如表8所示。

表8结果特权集为普通系统管理员特权集的特征关键词与对应的TFIDF_i值对应表

特征关键词	TFIDF_i	AVL_i
			privilege	9.87	0.25
gain	9.56	0.25
			access	8.72	0.22
arbitrary	3.21	0.08
			service	2.54	0.06
bypass	2.19	0.06
			denial	1.96	0.05
guest	1.21	0.03

步骤3.20：从训练数据集中选取结果特权集为普通用户特权集的300条以上数据。重复3.12至至3.17的操作，得到结果特权集为普通用户特权集对应的特征关键词及对应的TFIDF_i′值。

表9结果特权集为普通用户特权集的特征关键词与对应的TFIDF_i值对应表

步骤3.21：从训练数据集中选取结果特权集为访问者特权集的300条以上数据。重复3.12至至3.17的操作，得到结果特权集为访问者特权集对应的特征关键词及对应的TFIDF_i′值。

表10结果特权集为访问者特权集的特征关键词与对应的TFIDF_i值对应表

特征关键词	TFIDF_i	AVL_i
			firewall	8.54	0.19
gain	7.65	0.17
			bypass	7.43	0.17
list	5.94	0.12
			transmission	5.61	0.12
communication	4.93	0.11
			sensitive	3.38	0.07
read	2.63	0.05

步骤四、测试词频-逆向文件频率分类器分类结果和准确率。

步骤4.1：从步骤一中所述漏洞数据库中选取一条测试数据。

选取的测试数据CVE_ID为CVE-2014-3390，漏洞描述字段为“The VirtualNetwork Management Center(VNMC)policy implementation in Cisco ASA Software8.7before 8.7(1.14),9.2before 9.2(2.8),and 9.3before 9.3(1.1)allows localusers to obtain Linux root access by leveraging administrative privileges andexecuting a crafted script”。

截取的漏洞描述字段内容为“leveraging administrative privileges andexecuting a crafted script”，得到的单词为(“leverage”,“administrative”,“privilege”,“execute”,“craft”,“script”)。

对于步骤4.2得到的单词，“leverage”、“execute”、“craft”和“script”在步骤3.8得到的前提集为普通用户特权集对应的特征关键词中出现，将它们对应的AVL_i值相加，所以P₁＝0.57.

步骤4.2得到的单词都没有在步骤3.9得到前提集为访问者特权集对应的特征关键词中出现，所以P₂＝0.

步骤4.2得到的单词都没有在步骤3.10得到前提集为受限访问者特权集对应的特征关键词中出现，所以P₃＝0。

比较P₁、P₂和P₃的值，选取最大值P₁对应的普通用户特权集作为该条测试数据的前提特权集的值，所以该条漏洞数据的前提特权集字段的值为“user”。

截取的漏洞描述字段内容为“obtain Linux root access”，得到的单词为(“obtain”,“Linux”,“root”,“access”)。

对于步骤4.7得到的单词，“root”、“obtain”、“access”在步骤3.18得到的结果集为超级系统管理员特权集对应的特征关键词中出现，将它们对应的TFIDF_i'值相加，所以R₁＝0.5。

对于步骤4.7得到的单词，“access”在步骤3.19得到的结果集为普通系统管理员特权集对应的特征关键词中出现，将它对应的TFIDF_i'值作为R₂，所以R₂＝0.22.

对于步骤4.7得到的单词，“access”在步骤3.20得到的结果集为普通用户特权集对应的特征关键词中出现，将它对应的TFIDF_i'值作为R₃，所以R₃＝0.04。

步骤4.7得到的单词都没有在步骤3.21得到的结果集为访问者特权集对应的特征关键词中出现，所以R₄＝0.

步骤4.12：比较R₁、R₂、R₃和R₄的值，选取R₁对应的超级系统管理员特权集作为该条测试数据的结果特权集的值，所以该条漏洞数据的结果特权集的值为“root”。

步骤4.13：在步骤一所述的漏洞数据库中选取100条前提特权集为受限访问者特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.2至4.6的操作，得到所述100条以上测试数据的前提特权集的分类结果，对比预先标注的分类结果，计算准确率，AR_P1＝91.46％。

步骤4.14：在步骤一所述的漏洞数据库选取100条前提特权集为访问者特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复4.2至4.6的操作，得到所述100条以上测试数据前提特权集的分类结果，对比预先标注的分类结果，并记录准确率AR_P2＝94.52％。

步骤4.15：在步骤一所述的漏洞数据库选取100条前提特权集为普通用户特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复4.2至4.6的操作，得到所述100条以上测试数据前提特权集的分类结果，对比预先标注的分类结果，并将准确率记录为AR_P3，AR_P3＝89.25％。

W_PRE₁＝(AR_P1+AR_P2+AR_P3)/3 (9)

计算结果为W_PRE₁＝91.74％。

步骤4.17：在步骤一所述的漏洞数据库中选取100条结果特权集为访问者特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R1表示，AR_R1＝88.46％。

步骤4.18：在步骤一所述的漏洞数据库中选取100条结果特权集为普通用户特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R2表示，AR_R2＝92.49％。

步骤4.19：在步骤一所述的漏洞数据库中选取100条结果特权集为普通系统管理员特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R3表示，AR_R3＝95.28％。

步骤4.20：在步骤一所述的漏洞数据库中选取100条结果特权集为超级系统管理员特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R4表示，AR_R4＝93.81％。

W_RES₁＝(AR_R1+AR_R2+AR_R3+AR_R4)/4 (10)

计算结果为W_RES₁＝92.51％。

步骤五、建立朴素贝叶斯分类器。

步骤5.2：用符号V_A表示漏洞数据的属性集合，V_A＝{a₁,a₂...a₇}，其中，a₁表示通用漏洞评分系统评分，a₂表示是否需要网络，a₃表示获取容易程度，a₄表示是否需要认证，a₅表示机密性影响，a₆表示完整性影响，a₇表示可用性影响。其中除了a₁外，其余均为离散型数值，所以我们需要把a₁的取值离散化，实验中设置了“0-2”、“2-4”、“4-6”、“6-8”、“8-10”五组值。

经过步骤5.1至步骤5.3完成前提特权集分类器的建立。

步骤5.5：用符号V_A表示漏洞数据的属性集合，V_A＝{a₁,a₂...a₇}，其中，a₁表示通用漏洞评分系统评分，a₂表示是否需要网络，a₃表示获取容易程度，a₄表示是否需要认证，a₅表示机密性影响，a₆表示完整性影响，a₇表示可用性影响。其中除了a₁外，其余均为离散型数值，所以我们需要把a₁的取值离散化，实验中设置了“0-2”、“2-4”、“4-6”、“6-8”、“8-10”五组值。

经过步骤5.4至步骤5.6完成结果特权集分类器的建立。

步骤六、测试朴素贝叶斯分类器分类结果和准确率。

步骤6.1：步骤4.1中所述测试数据，用符号V_B表示。

CVE_ID为CVE-2014-3390的测试数据V_B，我们得到它的PRE_BP_i值为0.67，对应前提特权集分类为“user”。

其中，P(V_B|c′_y')P(c′_y')利用公式(14)计算得到。

CVE_ID为CVE-2014-3390的测试数据V_B，我们得到它的RES_BP_i'值为0.58，对应前提特权集分类为“root”。

步骤6.6：在步骤一提到的漏洞数据库中选取330条漏洞数据，作为测试数据。其中前提特权集属于受限访问者特权集、访问者特权集、普通用户特权集的测试数据数据条数相同。

实验计算得到W_PRE₂＝86.34％。

步骤6.8：在步骤一提到的漏洞数据库中选取480条漏洞数据，作为测试数据。其中结果特权集属于访问者特权集、普通用户特权集、普通系统管理员特权集、超级系统管理员特权集的测试数据数据条数相同。

步骤6.9：依次对选取出来的每条测试数据重复步骤6.4至6.5的操作，得到所述480测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号W_RES₂表示。

实验计算得W_RES₂＝84.78％。

步骤七、分类器融合。

F_PRE_q＝PRE_AVL_q×W_PRE₁+PRE_BP_q×W_PRE₂,q∈[1,3] (15)

实验中选取CVE-2016-2207漏洞作测试，该漏洞在前提特权集三个分类受限访问者特权集、访问者特权集与普通用户特权集的结果分别记为PRE_AVL₁＝0.56、PRE_AVL₂＝0.27与PRE_AVL₃＝0.12；在贝叶斯分类器同样得到它在这三个分类上的结果，分别记作PRE_BP₁＝0.53、PRE_BP₂＝0.36与PRE_BP₃＝0.11。

利用公式(15)对最终结果进行计算，得到F_PRE₁＝0.97，F_PRE₂＝0.57，F_PRE₃＝0.21。把F_PRE₁对应的分类结果“access”作为待分类漏洞CVE-2016-2207的前提特权集。

步骤7.2：对于测试数据V_B，通过公式公式(16)计算它的结果特权集的分类结果，并从4个F_{_}RES_q'值中选择最大值，并把所述最大值对应的分类作为测试数据V_B的结果特权集。

F_RES_q'＝RES_AVL_q'×W_RES₁+RES_BP_q'×W_RES₂,q'∈[1,4] (16)

实验中选取CVE-2016-2207漏洞作测试，该漏洞在结果特权集四个分类访问者特权集、普通用户特权集、普通系统管理员特权集与超级系统管理员特权集的结果分别记为RES_AVL₁＝0、RES_AVL₂＝0.52、RES_AVL₃＝0.28与RES_AVL₄＝0.21；在贝叶斯分类器同样得到它在这四个分类上的结果，分别记作RES_BP₁＝0.18、RES_BP₂＝0.44、RES_BP₃＝0.21与RES_BP₄＝0.17，利用公式(16)计算融合得到的结果。

利用公式(16)对最终结果进行计算，得到F_RES₁＝0.15，F_RES₂＝0.85，F_RES₃＝0.44，F_RES₄＝0.34。把F_RES₂对应的分类结果“user”作为待分类漏洞CVE-2016-2207的结果特权集。

比较漏洞CVE-2016-2207与漏洞CVE-2014-3390，漏洞CVE-2016-2207的前提特权集为access，结果特权集为user；漏洞CVE-2014-3390的前提特权集为user，结果特权集为root。对于一个远程访问者来说，特权集为access，不能直接利用漏洞CVE-2014-3390，但是该远程访问者可以先利用漏洞CVE-2016-2207使自己的特权集提升至user，然后就可以利用漏洞CVE-2016-2207，最终一个远程访问者通过一次多级攻击获取了系统的root权限。由此可以得出漏洞CVE-2016-2207与漏洞CVE-2014-3390是相关联的。

为了说明本方法(FUSION)的有效性，使用相同的漏洞数据库，分别采用决策树方法(DT)、神经网络分类法(BPN)、贝叶斯分类方法(BAYES)和国家发明专利《支持漏洞关联性挖掘的漏洞自动分类方法》(申请号：201710052203.9)中的方法(TFIDF)对漏洞进行分类，分类结果的准确率如图2所示。

从图2可以看出，单独使用TFIDF分类方法使得漏洞分类平均准确率达到了约88.74％。在这几种分类上的整体表现基本优于DT、BPN与BAYES，这是因为关于漏洞特权提升的描述信息更多的存在于“漏洞描述”字段中，这个结果表明对自然语言文本的特征提取取得了不错的效果，较为准确地找到了体现每一种分类本质的单词或词组。而后三个分类器也有平均约70％的准确率，这表示漏洞的其他属性如影响性评分、可用性评分等属性与特权提升也存在着一些间接的联系，比如漏洞前提特权集的等级越高，一定程度上反应了较高的攻击复杂度，而漏洞结果特权集越高表示漏洞的危害程度越大等等。

实验结果证明了TFIDF与BAYES两个分类器的融合产生了非常不错的效果，使得分类的准确率获得了大幅提升，在不同分类上的平均准确率达到了94.9％。

Claims

1.一种基于词频-逆向文件频率和朴素贝叶斯融合模型的漏洞自动分类方法，具体操作为：

步骤一、构建一个漏洞数据库，收集漏洞记录；

选取国家漏洞数据库NVD作为数据源，构建一个漏洞数据库；

所述漏洞数据库包括：通用漏洞CVE编号、通用漏洞评分系统CVSS评分、是否需要网络、获取容易程度、是否需要认证、机密性影响、完整性影响、可用性影响、漏洞描述、前提特权集、结果特权集；

其中，通用漏洞CVE编号、通用漏洞评分系统CVSS评分、是否需要网络、获取容易程度、是否需要认证、机密性影响、完整性影响、可用性影响、漏洞描述字段是通过国家漏洞数据库直接获取的；前提特权集和结果特权集为空；

所述漏洞描述字段是用自然语言描述漏洞的特征，“漏洞描述”字段为“…users/attackers to…by/via…”格式；

步骤二、确定特权集类别；

特权集类别包括：超级系统管理员特权集、普通系统管理员特权集、普通用户特权集、访问者特权集、受限访问者特权集；

所述超级系统管理员特权集包含系统管理员所拥有的所有权限；超级系统管理员为拥有系统最高权限的用户帐号，超级系统管理员的权限为：管理系统设备、系统文件和系统进程，读写任意文件内容；攻击者利用超级系统管理员特权集造成的危害有：植入系统级木马，以虚假身份欺骗或直接追加、修改、删除、创建文件内容，造成系统不可恢复性崩溃；

所述普通系统管理员特权集包含系统管理员所拥有的部分权限；普通管理员的权限为：管理部分系统设备、系统文件和系统进程，读写部分系统文件内容；攻击者利用普通系统管理员特权集造成的危害有：通过追加、修改、删除、创建某些系统文件内容或系统进程内存空间的数据结构，造成系统某些文件看起来不可用、系统当机或拒绝服务；

所述普通用户特权集包含普通用户所拥有的所有权限；普通用户所拥有的权限为：在自己独立私有的资源空间内追加、修改、删除、创建个人文件；攻击者利用普通用户特权集造成的的危害有：植入用户级木马，修改普通用户的所有文件或进程空间的内容，导致用户崩溃或不可用；

所述访问者特权集包含受信任的系统远程访问者所拥有的所有权限；受信任的系统远程访问者所拥有的权限有：与系统交互数据、扫描系统信息；攻击者利用访问者特权集造成的危害有：帮助其他受限访问者用户完成身份验证或发送大量数据包造成系统内存溢出；

所述受限访问者特权集是指除去以上四种角色之外的、被系统防火墙隔离在外的不受信任的访问者所拥有的权限；不受信任的访问者仅拥有证实主机有效性的权限，不具备使用该系统的任何权限；攻击者利用受限访问者特权集不能对系统造成危害；

漏洞的前提特权集的取值集合为{“受限访问者特权集”，“访问者特权集”，“普通用户特权集”}，结果特权集的取值集合为{“访问者特权集”，“普通用户特权集”，“普通系统管理员特权集”，“超级系统管理员特权集”}；

步骤三、训练词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TFIDF)分类器；

针对步骤二所述的5个特权集类别，分别训练3个前提特权集训练器和4个结果特权集训练器；具体操作为：

步骤3.0：从步骤一中所述漏洞数据库中选取一部分漏洞记录，作为训练数据集；然后人工标注每条漏洞记录的前提特权集和结果特权集；

步骤3.1：从训练数据集中选取前提特权集为普通用户特权集的300条以上数据；

步骤3.2：对每条训练数据中的“漏洞描述”字段进行处理；“漏洞描述”字段为“…user/attackers to…by/via…”格式；将“by/via”之后的部分截取出来，存入文件d₁中，每条训练数据占一行，文件d₁的行数用符号J₁表示；

步骤3.3：利用开源分词工具对文件d₁进行处理，统计每个单词出现的数量，文件d₁中出现的单词的数量用符号I₁表示；

步骤3.4：通过公式(1)计算单词的重要性；

<mrow> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，tf_i,j表示第i个单词在第j行的重要性，i和j均为正整数，并且i∈[1，I₁]，j∈[1，J₁]；n_i,j表示第i个单词在第j行中出现的次数；

步骤3.5：通过公式(2)计算第i个单词的逆向文件频率，用符号idf_i表示；逆向文件频率用来度量单词的普遍性；

<mrow> <msub> <mi>idf</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <msub> <mi>J</mi> <mn>1</mn> </msub> <mrow> <mo>|</mo> <mo>{</mo> <mi>j</mi> <mo>:</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>}</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中，t_i表示第i个单词；|{j:t_i∈r_j}|表示文件d₁包含单词t_i的行数；

步骤3.6：通过公式(3)计算单词的权重得分；

<mrow> <msub> <mi>TFIDF</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>j</mi> </munder> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>idf</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中，TFIDF_i表示第i个单词的权重得分；

某一行的高词语频率，以及该词语在整个文件内的低行数频率，可以产生高权重的TFIDF_i；因此，TFIDF_i值倾向于过滤掉常见词语，保留重要的词语；

步骤3.7：将文件d₁中出现的单词按照TFIDF_i值降序排列，取前K个词作为特征关键词，K∈[5,12]；记录特征关键词及对应的TFIDF_i值；并通过公式(4)计算每个关键词的AVL_i值，AVL_i值的作用是将权重得分映射到0-1中；

<mrow> <msub> <mi>AVL</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>TFIDF</mi> <mi>i</mi> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>TFIDF</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

步骤3.8：经过步骤3.1至3.7的操作，得到前提特权集为普通用户特权集对应的特征关键词及对应的AVL_i值；

步骤3.9：从训练数据集中选取前提特权集为访问者特权集的300条以上数据；重复3.2至至3.7的操作，得到前提特权集为访问者特权集对应的特征关键词及对应的AVL_i值；

步骤3.10：从训练数据集中选取前提特权集为受限访问者特权集的300条以上数据；重复3.2至至3.7的操作，得到前提特权集为受限访问者特权集对应的特征关键词及对应的AVL_i值；

步骤3.11：从训练数据集中选取结果特权集为超级系统管理员特权集的300条以上数据；

步骤3.12：对每条训练数据中的“漏洞描述”字段进行处理；“漏洞描述”字段为“…user/attackers to…by/via…”格式；将“to”到“by/via”之间的部分截取出来，存入文件d₂中，每条训练数据占一行，文件d₂的行数用符号J₂表示；

步骤3.13：利用开源分词工具对文件d₂进行处理，统计每个单词出现的数量，文件d₂中出现的单词的数量用符号I₂表示；

步骤3.14：通过公式(5)计算单词的重要性；

<mrow> <msub> <mi>tf</mi> <mrow> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>n</mi> <mrow> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <mrow> <munder> <mo>&Sigma;</mo> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> </munder> <msub> <mi>n</mi> <mrow> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中，tf_i′,j′表示第i′个单词在第j′行的重要性，i′和j′均为正整数，并且i∈[1，I₂]，j∈[1，J₂]；n_i′,j′表示第i′个单词在第j′行中出现的次数；

步骤3.15：通过公式(6)计算第i′个单词的逆向文件频率，用符号idf_i′表示；逆向文件频率用来度量单词的普遍性；

<mrow> <msub> <mi>idf</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> </msub> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <msub> <mi>J</mi> <mn>2</mn> </msub> <mrow> <mo>|</mo> <mo>{</mo> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> <mo>:</mo> <msub> <mi>t</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> </msub> <mo>&Element;</mo> <msub> <mi>r</mi> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msub> <mo>}</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中，t_i′表示第i′个单词；|{j′:t_i′∈r_j′}|表示文件d₂包含单词t_i′的行数；

步骤3.16：通过公式(7)计算单词的权重得分；

<mrow> <msub> <mi>TFIDF</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </munder> <msub> <mi>tf</mi> <mrow> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <mo>&times;</mo> <msub> <mi>idf</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中，TFIDF_i′表示第i′个单词的权重得分；

步骤3.17：将文件d₂中出现的单词按照TFIDF_i′值降序排列，取前K'个词作为特征关键词，K'∈[5,12]，K'为人为设定值；记录特征关键词及对应的TFIDF_i′值；然后，通过公式(8)计算每个关键词的权重得分映射到0-1中，得到的结果用符号AVL_i'表示；

<mrow> <msub> <mi>AVL</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> </msub> <mo>=</mo> <msub> <mi>TFIDF</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>K</mi> <mo>&prime;</mo> </msup> </munderover> <msub> <mi>TFIDF</mi> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

步骤3.18：经过步骤3.11至3.17的操作，得到结果特权集为超级系统管理员特权集对应的特征关键词及对应的AVL_i'值；

步骤3.19：从训练数据集中选取结果特权集为普通系统管理员特权集的300条以上数据；重复3.12至至3.17的操作，得到结果特权集为普通系统管理员特权集对应的特征关键词及对应的AVL_i'值；

步骤3.20：从训练数据集中选取结果特权集为普通用户特权集的300条以上数据；重复3.12至3.17的操作，得到结果特权集为普通用户特权集对应的特征关键词及对应的AVL_i'值；

步骤3.21：从训练数据集中选取结果特权集为访问者特权集的300条以上数据；重复3.12至至3.17的操作，得到结果特权集为访问者特权集对应的特征关键词及对应的AVL_i'值；

步骤四、测试词频-逆向文件频率分类器分类结果和准确率；

步骤4.1：从步骤一中所述漏洞数据库中选取一条测试数据；

步骤4.2：对测试数据中的“漏洞描述”字段进行处理；“漏洞描述”字段为“…user/attackers to…by/via…”格式；将“by/via”之后的部分截取出来，并利用开源分词工具处理，得到若干个单词；

步骤4.3：对于步骤4.2得到的单词，依次查找每个单词是否在步骤3.8得到前提特权集为普通用户特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i值并求和，结果用符号P₁表示；

步骤4.4：对于步骤4.2得到的单词，依次查找每个单词是否在步骤3.9得到前提特权集为访问者特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i值并求和，结果用符号P₂表示；

步骤4.5：对于步骤4.2得到的单词，依次查找每个单词是否在步骤3.10得到前提特权集为受限访问者特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i值并求和，结果用符号P₃表示；

步骤4.6：比较P₁、P₂和P₃的值，选取最大值对应的特权集作为该条测试数据的前提特权集的值；

步骤4.7：对测试数据中的“漏洞描述”字段进行处理；“漏洞描述”字段为“…user/attackers to…by/via…”格式；将“to”到“by/via”之间的部分截取出来，并利用开源分词工具处理，得到若干个单词；

步骤4.8：对于步骤4.7得到的单词，依次查找每个单词是否在步骤3.18得到的结果特权集为超级系统管理员特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i'值并求和，结果用符号R₁表示；

步骤4.9：对于步骤4.7得到的单词，依次查找每个单词是否在步骤3.19得到的结果特权集为普通系统管理员特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i'值并求和，结果用符号R₂表示；

步骤4.10：对于步骤4.7得到的单词，依次查找每个单词是否在步骤3.20得到的结果特权集为普通用户特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i'值并求和，结果用符号R₃表示；

步骤4.11：对于步骤4.7得到的单词，依次查找每个单词是否在步骤3.21得到的访问者特权集对应的特征关键词中出现，如果出现，则记录该特征关键词对应的AVL_i'值并求和，结果用符号R₄表示；

步骤4.12：比较R₁、R₂、R₃和R₄的值，选取最大值对应的特权集作为该条测试数据的结果特权集的值；

步骤4.13：在步骤一所述的漏洞数据库中选取100条以上前提特权集为受限访问者特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.2至4.6的操作，得到所述100条以上测试数据的前提特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_P1表示；

步骤4.14：在步骤一所述的漏洞数据库选取100条以上前提特权集为访问者特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复4.2至4.6的操作，得到所述100条以上测试数据前提特权集的分类结果，对比预先标注的分类结果，并将准确率记录为AR_P2；

步骤4.15：在步骤一所述的漏洞数据库选取100条以上前提特权集为普通用户特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复4.2至4.6的操作，得到所述100条以上测试数据前提特权集的分类结果，对比预先标注的分类结果，并将准确率记录为AR_P3；

步骤4.16：利用公式(9)计算词频-逆向文件频率分类器在前提特权集分类结果的平均准确率，用符号W_PRE₁表示；

W_PRE₁＝(AR_P1+AR_P2+AR_P3)/3 (9)

步骤4.17：在步骤一所述的漏洞数据库中选取100条以上结果特权集为访问者特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R1表示；

步骤4.18：在步骤一所述的漏洞数据库中选取100条以上结果特权集为普通用户特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R2表示；

步骤4.19：在步骤一所述的漏洞数据库中选取100条以上结果特权集为普通系统管理员特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R3表示；

步骤4.20：在步骤一所述的漏洞数据库中选取100条以上结果特权集为超级系统管理员特权集的漏洞数据，作为测试数据，然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作，得到所述100条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号AR_R4表示；

步骤4.21：利用公式(10)计算词频-逆向文件频率分类器在结果特权集分类结果的平均准确率；

W_RES₁＝(AR_R1+AR_R2+AR_R3+AR_R4)/4 (10)

步骤五、建立朴素贝叶斯分类器；

每一个漏洞拥有前提特权集与结果特权集，所以训练2个朴素贝叶斯分类器，一个是前提特权集训练器和一个是结果特权集训练器；具体操作为：

步骤5.1：在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据，构成训练数据集，所述训练数据集中前提特权集分别是“受限访问者特权集”、“访问者特权集”、“普通用户特权集”的数据条数相同；

用符号C表示前提特权集所有的分类集合，C＝{c₁,c₂,c₃}，其中，c₁表示“受限访问者特权集”，c₂表示“访问者特权集”，c₃表示“普通用户特权集”；

步骤5.2：用符号V_A表示漏洞数据的属性集合，V_A＝{a₁,a₂...a₇}，其中，a₁表示通用漏洞评分系统评分，a₂表示是否需要网络，a₃表示获取容易程度，a₄表示是否需要认证，a₅表示机密性影响，a₆表示完整性影响，a₇表示可用性影响；

步骤5.3：对于步骤5.1选取的训练数据集，统计训练数据的前提特权集分别在c₁、c₂、c₃中每一个属性a_x的概率分布P(a_x|c_y)，(x∈[1,7],y∈[1,3])；为了防止出现P(a_x|c_y)的值为0时，对结果产生不利影响，设定P(a_x|c_y)＝0时，P(a_x|c_y)＝1；

经过步骤5.1至步骤5.3完成前提特权集分类器的建立；

步骤5.4：在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据，构成训练数据集，所述训练数据集中结果特权集分别是“访问者特权集”、“普通用户特权集”、“普通系统管理员特权集”与“超级系统管理员特权集”的数据条数相同；

用符号C'表示结果特权集所有的分类集合，C'＝{c′₁,c′₂,c′₃,c′₄}，其中，c'₁表示“访问者特权集”，c'₂表示“普通用户特权集”，c'₃表示“普通系统管理员特权集”，c'₄表示“超级系统管理员特权集”；

步骤5.5：用符号V_A表示漏洞数据的属性集合，V_A＝{a₁,a₂...a₇}，其中，a₁表示通用漏洞评分系统评分，a₂表示是否需要网络，a₃表示获取容易程度，a₄表示是否需要认证，a₅表示机密性影响，a₆表示完整性影响，a₇表示可用性影响；

步骤5.6：对于步骤5.4选取的训练数据集，统计其结果特权集分别在c′₁、c′₂、c′₃和c′₄中每一个属性a_x′的概率分布P(a_x|c′_y′)，(x∈[1,7],y′∈[1,4])；为了防止出现0值对结果产生不利影响，当P(a_x|c′_y′)＝0时，设定P(a_x|c′_y′)＝1；

经过步骤5.4至步骤5.6完成结果特权集分类器的建立；

步骤六、测试朴素贝叶斯分类器分类结果和准确率；

步骤6.1：步骤4.1中所述测试数据，用符号V_B表示；

步骤6.2：根据贝叶斯定理，利用公式(11)来计算测试数据V_B的前提特权集对应于分类c_y的概率值；

其中，N表示步骤5.1中所述训练数据集中训练样本的数量；P(V_B|c_y)P(c_y)利用公式(12)计算得到；

步骤6.3：为了表示方便，把步骤6.2计算得到的概率值P(c_y|V_B)用符号PRE_BP_y表示，y∈[1,3]；然后，将PRE_BP_y中最大的概率值对应的分类作为测试数据V_B的前提特权集的值；

步骤6.4：根据贝叶斯定理，利用公式(13)来计算测试数据V_B的结果特权集对应于分类c′_j的概率值；

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>c</mi> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>&prime;</mo> </msubsup> <mo>|</mo> <msub> <mi>V</mi> <mi>B</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>B</mi> </msub> <mo>|</mo> <msubsup> <mi>c</mi> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>c</mi> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>B</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>

其中，P(V_B|c′_y')P(c′_y')利用公式(14)计算得到；

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>V</mi> <mi>B</mi> <mo>&prime;</mo> </msubsup> <mo>|</mo> <msubsup> <mi>c</mi> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>c</mi> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <munderover> <mo>&Pi;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>7</mn> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>x</mi> </msub> <mo>|</mo> <msubsup> <mi>c</mi> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>

步骤6.5：为了方便表示，把通过步骤6.4计算得到的概率值P(c′_y′|V_B)用符号PRE_BP_y′表示，y′∈[1,4]；然后，将PRE_BP_y′中最大的概率值对应的分类作为测试数据V_B的结果特权集的值；

步骤6.6：在步骤一提到的漏洞数据库中选取300条以上漏洞数据，作为测试数据；其中前提特权集属于受限访问者特权集、访问者特权集、普通用户特权集的测试数据数据条数相同；

步骤6.7：依次对选取出来的每条测试数据重复步骤6.2至6.3的操作，得到所述300条以上测试数据的前提特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号W_PRE₂表示；

步骤6.8：在步骤一提到的漏洞数据库中选取400条以上已分类的漏洞数据，作为测试数据；其中结果特权集属于访问者特权集、普通用户特权集、普通系统管理员特权集、超级系统管理员特权集的测试数据数据条数相同；

步骤6.9：依次对选取出来的每条测试数据重复步骤6.4至6.5的操作，得到所述400条以上测试数据的结果特权集的分类结果，对比预先标注的分类结果，计算准确率，用符号W_RES₂表示；

步骤七、分类器融合；

对于测试数据V_B，通过计算它在两个分类器中前提特权集与结果特权集的分类结果，通过准确率作为得数权重将两个结果进行融合；具体为：

步骤7.1：对于测试数据V_B，通过公式(15)计算它的前提特权集的分类结果，并从3个F_PRE_q值中选择最大值，并把所述最大值对应的分类作为测试数据V_B的前提特权集；

F_PRE_q＝PRE_AVL_q×W_PRE₁+PRE_BP_q×W_PRE₂ (15)

其中，q∈[1,3]。

步骤7.2：对于测试数据V_B，通过公式公式(16)计算它的结果特权集的分类结果，并从4个F_RES_q'值中选择最大值，并把所述最大值对应的分类作为测试数据V_B的结果特权集；

F_{_}RES_q'＝RES_AVL_q'×W_RES₁+RES_BP_q'×W_RES₂ (16)

其中，q'∈[1,4]。

经过上述步骤的操作，即完成对测试数据V_B的自动分类。