CN107273752A - 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法 - Google Patents
基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法 Download PDFInfo
- Publication number
- CN107273752A CN107273752A CN201710495331.0A CN201710495331A CN107273752A CN 107273752 A CN107273752 A CN 107273752A CN 201710495331 A CN201710495331 A CN 201710495331A CN 107273752 A CN107273752 A CN 107273752A
- Authority
- CN
- China
- Prior art keywords
- mrow
- privilege
- msub
- vulnerability
- privilege set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 144
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000002411 adverse Effects 0.000 claims description 6
- 230000026676 system process Effects 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 claims description 3
- 238000001408 paramagnetic relaxation enhancement Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000005065 mining Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/034—Test or assess a computer or a system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法,属于信息安全技术领域。具体操作为:步骤一、构建一个漏洞数据库,收集漏洞记录。步骤二、确定特权集类别。步骤三、训练词频‑逆向文件频率分类器。步骤四、测试词频‑逆向文件频率分类器分类结果和准确率。步骤五、建立朴素贝叶斯分类器。步骤六、测试朴素贝叶斯分类器分类结果和准确率。步骤七、分类器融合。本发明提出的支持漏洞关联性挖掘的漏洞自动分类法与已有方法相比较,其优点是:本发明方法不仅利用了漏洞数据库中“漏洞描述”字段,同时考虑了漏洞的“可用性评分”、“影响性评分”等属性对漏洞关联性的影响,分类准确率得到大幅提高。
Description
技术领域
本发明涉及一种基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法,属于信息安全技术领域。
背景技术
网络安全脆弱性是指计算机系统中存在某些可能被恶意主体(攻击者或攻击程序)利用的安全漏洞,从而可能导致对系统资源的非授权访问或对系统造成其他损害。近年来逐渐发展成熟的脆弱性扫描技术及CVE(Common Vulnerabilities&Exposures,公共漏洞和暴露)标准与通用漏洞评分系统(Common Vulnerability Scoring System,CVSS)漏洞评级方法,可以检测并发现网络中存在的脆弱点,但无法分析脆弱点之间的关联性与相互利用关系。而网络风险中的攻击手段往往是通过彼此关联的漏洞,从一个漏洞切入,逐步利用网络中与此相关的漏洞扩散至整个网络。因此研究挖掘漏洞之间的关联性有重大意义。
漏洞关联图是一个描述漏洞间关联关系的有向图,它提供了一种形式化、系统化描述漏洞关联性的方法,能比较直观地反映出漏洞之间的关联关系。漏洞的关联往往体现在某低用户级L的攻击者通过成功地利用某个漏洞,获得一定的特权提升,从而在非授权的情况下达到了一个高用户级H的目的。现有的一种描述用户权限提升过程的方法是采用“特权”、“特权集”与“特权提升”的概念,利用决策树的方法将访问者与特权集集合起来,将访问者分为若干类,并将其拥有的特权集按重要程度设置一个量化的权值,比如在0-1之内的若干个小数。
目前存在的漏洞分类法主要有普渡大学COAST实验室的Aslam提出的Unix操作系统分类法,分为操作故障、环境故障和编码故障,但由于没有具体的量化指标,无法评价漏洞的危害级别;哈工大的汪立东提出的软件弱点分类法,描述了漏洞对机密性、完整性和可用性等安全性的影响,Knight等人提出的广义分类法,将弱点分为社会工程、策略疏忽、逻辑错误和软件漏洞四种类型,由于一定程度上的概念模糊,类与类之间不具备互斥性。
以上分类方法都是将漏洞作为单一缺陷来分析,张永铮强调了漏洞之间的关联性,提出了判断漏洞前后关联性的前提是漏洞可以按“前提特权集”及“结果特权集”进行的准确分类,实现了一种新颖的支持关联性挖掘的多维量化属性漏洞分类法,然而并没有明确指出每一类的具体特征,无法自动进行分类。
国家发明专利《支持漏洞关联性挖掘的漏洞自动分类方法》(申请号:201710052203.9)从漏洞的自然语言描述中挖掘出每条漏洞的“前提特权集”及“结果特权集”所属的特权集分类,并根据“特权提升”的概念来判断漏洞之间存在的关联关系,达到分类的目的。但其缺点是只利用了数据库中“漏洞描述”字段这个单一属性,忽视了漏洞的其他属性对漏洞关联性的影响,比如漏洞的“可用性评分”、“影响性评分”等属性。因此,该方法的分类准确率还有待提高。
发明内容
本发明的目的是提出一种基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法,通过漏洞的特征属性与自然语言描述挖掘出漏洞的“前提特权集”与“结果特权集”,并以此来判断漏洞之间存在的关联关系。
本发明的目的是通过以下技术方案实现的。
本发明提出的一种基于词频-逆向文件频率和朴素贝叶斯融合模型的漏洞自动分类方法,具体操作为:
步骤一、构建一个漏洞数据库,收集漏洞记录。
选取国家漏洞数据库(National Vulnerability Database,NVD)作为数据源,构建一个漏洞数据库。
所述漏洞数据库包括:通用漏洞(Common Vulnerabilities and Exposures,CVE)编号、通用漏洞评分系统(Common Vulnerability Scoring System,CVSS)评分、是否需要网络、获取容易程度、是否需要认证、机密性影响、完整性影响、可用性影响、漏洞描述、前提特权集、结果特权集。
其中,通用漏洞CVE编号、通用漏洞评分系统CVSS评分、是否需要网络、获取容易程度、是否需要认证、机密性影响、完整性影响、可用性影响、漏洞描述字段是通过国家漏洞数据库直接获取的。前提特权集和结果特权集为空。
所述漏洞描述字段是用自然语言描述漏洞的特征,“漏洞描述”字段为“…users/attackers to…by/via…”格式。
步骤二、确定特权集类别。
特权集类别包括:超级系统管理员特权集、普通系统管理员特权集、普通用户特权集、访问者特权集、受限访问者特权集。
所述超级系统管理员特权集包含系统管理员所拥有的所有权限。超级系统管理员为拥有系统最高权限的用户帐号,超级系统管理员的权限为:管理系统设备、系统文件和系统进程,读写任意文件内容。攻击者利用超级系统管理员特权集造成的危害有:植入系统级木马,以虚假身份欺骗或直接追加、修改、删除、创建文件内容,造成系统不可恢复性崩溃。
所述普通系统管理员特权集包含系统管理员所拥有的部分权限。普通管理员的权限为:管理部分系统设备、系统文件和系统进程,读写部分系统文件内容。攻击者利用普通系统管理员特权集造成的危害有:通过追加、修改、删除、创建某些系统文件内容或系统进程内存空间的数据结构,造成系统某些文件看起来不可用、系统当机或拒绝服务。
所述普通用户特权集包含普通用户所拥有的所有权限。普通用户所拥有的权限为:在自己独立私有的资源空间内追加、修改、删除、创建个人文件。攻击者利用普通用户特权集造成的的危害有:植入用户级木马,修改普通用户的所有文件或进程空间的内容,导致用户崩溃或不可用。
所述访问者特权集包含受信任的系统远程访问者所拥有的所有权限。受信任的系统远程访问者所拥有的权限有:与系统交互数据、扫描系统信息。攻击者利用访问者特权集造成的危害有:帮助其他受限访问者用户完成身份验证或发送大量数据包造成系统内存溢出。
所述受限访问者特权集是指除去以上四种角色之外的、被系统防火墙隔离在外的不受信任的访问者所拥有的权限。不受信任的访问者仅拥有证实主机有效性的权限,不具备使用该系统的任何权限。攻击者利用受限访问者特权集不能对系统造成危害。
漏洞的前提特权集的取值集合为{“受限访问者特权集”,“访问者特权集”,“普通用户特权集”},结果特权集的取值集合为{“访问者特权集”,“普通用户特权集”,“普通系统管理员特权集”,“超级系统管理员特权集”}。
步骤三、训练词频-逆向文件频率(Term Frequency-Inverse DocumentFrequency,TFIDF)分类器。
针对步骤二所述的5个特权集类别,分别训练3个前提特权集训练器和4个结果特权集训练器。具体操作为:
步骤3.0:从步骤一中所述漏洞数据库中选取一部分漏洞记录,作为训练数据集。然后人工标注每条漏洞记录的前提特权集和结果特权集。
步骤3.1:从训练数据集中选取前提特权集为普通用户特权集的300条以上数据。
步骤3.2:对每条训练数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“by/via”之后的部分截取出来,存入文件d1中,每条训练数据占一行,文件d1的行数用符号J1表示。
步骤3.3:利用开源分词工具(StandardAnalyzer)对文件d1进行处理,统计每个单词出现的数量,文件d1中出现的单词的数量用符号I1表示。
步骤3.4:通过公式(1)计算单词的重要性。
其中,tfi,j表示第i个单词在第j行的重要性,i和j均为正整数,并且i∈[1,I1],j∈[1,J1];ni,j表示第i个单词在第j行中出现的次数。
步骤3.5:通过公式(2)计算第i个单词的逆向文件频率,用符号idfi表示。逆向文件频率用来度量单词的普遍性。
其中,ti表示第i个单词;|{j:ti∈rj}|表示文件d1包含单词ti的行数。
步骤3.6:通过公式(3)计算单词的权重得分。
其中,TFIDFi表示第i个单词的权重得分。
某一行的高词语频率,以及该词语在整个文件内的低行数频率,可以产生高权重的TFIDFi。因此,TFIDFi值倾向于过滤掉常见词语,保留重要的词语。
步骤3.7:将文件d1中出现的单词按照TFIDFi值降序排列,取前K个词作为特征关键词,K∈[5,12]。记录特征关键词及对应的TFIDFi值。并通过公式(4)计算每个关键词的AVLi值,AVLi值的作用是将权重得分映射到0-1中。
步骤3.8:经过步骤3.1至3.7的操作,得到前提特权集为普通用户特权集对应的特征关键词及对应的AVLi值。
步骤3.9:从训练数据集中选取前提特权集为访问者特权集的300条以上数据。重复3.2至至3.7的操作,得到前提特权集为访问者特权集对应的特征关键词及对应的AVLi值。
步骤3.10:从训练数据集中选取前提特权集为受限访问者特权集的300条以上数据。重复3.2至至3.7的操作,得到前提特权集为受限访问者特权集对应的特征关键词及对应的AVLi值。
步骤3.11:从训练数据集中选取结果特权集为超级系统管理员特权集的300条以上数据。
步骤3.12:对每条训练数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“to”到“by/via”之间的部分截取出来,存入文件d2中,每条训练数据占一行,文件d2的行数用符号J2表示。
步骤3.13:利用开源分词工具(StandardAnalyzer)对文件d2进行处理,统计每个单词出现的数量,文件d2中出现的单词的数量用符号I2表示。
步骤3.14:通过公式(5)计算单词的重要性。
其中,tfi′,j′表示第i′个单词在第j′行的重要性,i′和j′均为正整数,并且i∈[1,I2],j∈[1,J2];ni′,j′表示第i′个单词在第j′行中出现的次数。
步骤3.15:通过公式(6)计算第i′个单词的逆向文件频率,用符号idfi′表示。逆向文件频率用来度量单词的普遍性。
其中,ti′表示第i′个单词;|{j′:ti′∈rj′}|表示文件d2包含单词ti′的行数。
步骤3.16:通过公式(7)计算单词的权重得分。
其中,TFIDFi′表示第i′个单词的权重得分。
步骤3.17:将文件d2中出现的单词按照TFIDFi′值降序排列,取前K'个词作为特征关键词,K'∈[5,12],K'为人为设定值。记录特征关键词及对应的TFIDFi′值。然后,通过公式(8)计算每个关键词的权重得分映射到0-1中,得到的结果用符号AVLi'表示。
步骤3.18:经过步骤3.11至3.17的操作,得到结果特权集为超级系统管理员特权集对应的特征关键词及对应的AVLi'值。
步骤3.19:从训练数据集中选取结果特权集为普通系统管理员特权集的300条以上数据。重复3.12至至3.17的操作,得到结果特权集为普通系统管理员特权集对应的特征关键词及对应的AVLi'值。
步骤3.20:从训练数据集中选取结果特权集为普通用户特权集的300条以上数据。重复3.12至3.17的操作,得到结果特权集为普通用户特权集对应的特征关键词及对应的AVLi'值。
步骤3.21:从训练数据集中选取结果特权集为访问者特权集的300条以上数据。重复3.12至至3.17的操作,得到结果特权集为访问者特权集对应的特征关键词及对应的AVLi'值。
步骤四、测试词频-逆向文件频率分类器分类结果和准确率。
步骤4.1:从步骤一中所述漏洞数据库中选取一条测试数据。
步骤4.2:对测试数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“by/via”之后的部分截取出来,并利用开源分词工具(StandardAnalyzer)处理,得到若干个单词。
步骤4.3:对于步骤4.2得到的单词,依次查找每个单词是否在步骤3.8得到前提特权集为普通用户特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi值并求和,结果用符号P1表示。
步骤4.4:对于步骤4.2得到的单词,依次查找每个单词是否在步骤3.9得到前提特权集为访问者特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi值并求和,结果用符号P2表示。
步骤4.5:对于步骤4.2得到的单词,依次查找每个单词是否在步骤3.10得到前提特权集为受限访问者特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi值并求和,结果用符号P3表示。
步骤4.6:比较P1、P2和P3的值,选取最大值对应的特权集作为该条测试数据的前提特权集的值。
步骤4.7:对测试数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“to”到“by/via”之间的部分截取出来,并利用开源分词工具(StandardAnalyzer)处理,得到若干个单词。
步骤4.8:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.18得到的结果特权集为超级系统管理员特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R1表示。
步骤4.9:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.19得到的结果特权集为普通系统管理员特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R2表示。
步骤4.10:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.20得到的结果特权集为普通用户特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R3表示。
步骤4.11:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.21得到的访问者特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R4表示。
步骤4.12:比较R1、R2、R3和R4的值,选取最大值对应的特权集作为该条测试数据的结果特权集的值。
步骤4.13:在步骤一所述的漏洞数据库中选取100条以上前提特权集为受限访问者特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.2至4.6的操作,得到所述100条以上测试数据的前提特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARP1表示。
步骤4.14:在步骤一所述的漏洞数据库选取100条以上前提特权集为访问者特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复4.2至4.6的操作,得到所述100条以上测试数据前提特权集的分类结果,对比预先标注的分类结果,并将准确率记录为ARP2。
步骤4.15:在步骤一所述的漏洞数据库选取100条以上前提特权集为普通用户特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复4.2至4.6的操作,得到所述100条以上测试数据前提特权集的分类结果,对比预先标注的分类结果,并将准确率记录为ARP3。
步骤4.16:利用公式(9)计算词频-逆向文件频率分类器在前提特权集分类结果的平均准确率,用符号W_PRE1表示。
W_PRE1=(ARP1+ARP2+ARP3)/3 (9)
步骤4.17:在步骤一所述的漏洞数据库中选取100条以上结果特权集为访问者特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR1表示。
步骤4.18:在步骤一所述的漏洞数据库中选取100条以上结果特权集为普通用户特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR2表示。
步骤4.19:在步骤一所述的漏洞数据库中选取100条以上结果特权集为普通系统管理员特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR3表示。
步骤4.20:在步骤一所述的漏洞数据库中选取100条以上结果特权集为超级系统管理员特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR4表示。
步骤4.21:利用公式(10)计算词频-逆向文件频率分类器在结果特权集分类结果的平均准确率。
W_RES1=(ARR1+ARR2+ARR3+ARR4)/4 (10)
步骤五、建立朴素贝叶斯分类器。
每一个漏洞拥有前提特权集与结果特权集,所以训练2个朴素贝叶斯分类器,一个是前提特权集训练器和一个是结果特权集训练器。具体操作为:
步骤5.1:在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据,构成训练数据集,所述训练数据集中前提特权集分别是“受限访问者特权集”、“访问者特权集”、“普通用户特权集”的数据条数相同。
用符号C表示前提特权集所有的分类集合,C={c1,c2,c3},其中,c1表示“受限访问者特权集”,c2表示“访问者特权集”,c3表示“普通用户特权集”。
步骤5.2:用符号VA表示漏洞数据的属性集合,VA={a1,a2...a7},其中,a1表示通用漏洞评分系统评分,a2表示是否需要网络,a3表示获取容易程度,a4表示是否需要认证,a5表示机密性影响,a6表示完整性影响,a7表示可用性影响。
步骤5.3:对于步骤5.1选取的训练数据集,统计训练数据的前提特权集分别在c1、c2、c3中每一个属性ax的概率分布P(ax|cy),(x∈[1,7],y∈[1,3])。为了防止出现P(ax|cy)的值为0时,对结果产生不利影响,设定P(ax|cy)=0时,P(ax|cy)=1。
经过步骤5.1至步骤5.3完成前提特权集分类器的建立。
步骤5.4:在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据,构成训练数据集,所述训练数据集中结果特权集分别是“访问者特权集”、“普通用户特权集”、“普通系统管理员特权集”与“超级系统管理员特权集”的数据条数相同。
用符号C'表示结果特权集所有的分类集合,C'={c′1,c′2,c′3,c′4},其中,c'1表示“访问者特权集”,c'2表示“普通用户特权集”,c'3表示“普通系统管理员特权集”,c'4表示“超级系统管理员特权集”。
步骤5.5:用符号VA表示漏洞数据的属性集合,VA={a1,a2...a7},其中,a1表示通用漏洞评分系统评分,a2表示是否需要网络,a3表示获取容易程度,a4表示是否需要认证,a5表示机密性影响,a6表示完整性影响,a7表示可用性影响。
步骤5.6:对于步骤5.4选取的训练数据集,统计其结果特权集分别在c1′、c′2、c3′和c'4中每一个属性ax′的概率分布P(ax|c′y′),(x∈[1,7],y′∈[1,4])。为了防止出现0值对结果产生不利影响,当P(ax|c′y′)=0时,设定P(ax|c′y′)=1。
经过步骤5.4至步骤5.6完成结果特权集分类器的建立。
步骤六、测试朴素贝叶斯分类器分类结果和准确率。
步骤6.1:步骤4.1中所述测试数据,用符号VB表示。
步骤6.2:根据贝叶斯定理,利用公式(11)来计算测试数据VB的前提特权集对应于分类cy的概率值。
其中,N表示步骤5.1中所述训练数据集中训练样本的数量;P(VB|cy)P(cy)利用公式(12)计算得到。
步骤6.3:为了表示方便,把步骤6.2计算得到的概率值P(cy|VB)用符号PRE_BPy表示,y∈[1,3];然后,将PRE_BPy中最大的概率值对应的分类作为测试数据VB的前提特权集的值。
步骤6.4:根据贝叶斯定理,利用公式(13)来计算测试数据VB的结果特权集对应于分类c′j的概率值。
其中,P(VB|c′y')P(c′y')利用公式(14)计算得到。
步骤6.5:为了方便表示,把通过步骤6.4计算得到的概率值P(c′y′|VB)用符号PRE_BPy′表示,y′∈[1,4]。然后,将PRE_BPy′中最大的概率值对应的分类作为测试数据VB的结果特权集的值。
步骤6.6:在步骤一提到的漏洞数据库中选取300条以上漏洞数据,作为测试数据。其中前提特权集属于受限访问者特权集、访问者特权集、普通用户特权集的测试数据数据条数相同。
步骤6.7:依次对选取出来的每条测试数据重复步骤6.2至6.3的操作,得到所述300条以上测试数据的前提特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号W_PRE2表示。
步骤6.8:在步骤一提到的漏洞数据库中选取400条以上已分类的漏洞数据,作为测试数据。其中结果特权集属于访问者特权集、普通用户特权集、普通系统管理员特权集、超级系统管理员特权集的测试数据数据条数相同。
步骤6.9:依次对选取出来的每条测试数据重复步骤6.4至6.5的操作,得到所述400条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号W_RES2表示。
步骤七、分类器融合。
对于测试数据VB,通过计算它在两个分类器中前提特权集与结果特权集的分类结果,通过准确率作为得数权重将两个结果进行融合。具体为:
步骤7.1:对于测试数据VB,通过公式(15)计算它的前提特权集的分类结果,并从3个F_PREq值中选择最大值,并把所述最大值对应的分类作为测试数据VB的前提特权集。
F_PREq=PRE_AVLq×W_PRE1+PRE_BPq×W_PRE2,q∈[1,3] (15)
步骤7.2:对于测试数据VB,通过公式公式(16)计算它的结果特权集的分类结果,并从4个F_RESq'值中选择最大值,并把所述最大值对应的分类作为测试数据VB的结果特权集。
F_RESq'=RES_AVLq'×W_RES1+RES_BPq'×W_RES2,q'∈[1,4] (16)
经过上述步骤的操作,即完成对测试数据VB的自动分类。
有益效果
本发明提出的支持漏洞关联性挖掘的漏洞自动分类法与已有方法相比较,其优点是:本发明方法不仅利用了漏洞数据库中“漏洞描述”字段,同时考虑了漏洞的“可用性评分”、“影响性评分”等属性对漏洞关联性的影响,分类准确率得到大幅提高。
附图说明
图1为本发明具体实施方式中支持漏洞关联性挖掘的漏洞自动分类法的流程图;
图2为本发明具体实施方式中使用相同的漏洞数据库,分别采用决策树方法(DT)、神经网络分类法(BPN)、贝叶斯分类方法(BAYES)和国家发明专利《支持漏洞关联性挖掘的漏洞自动分类方法》(申请号:201710052203.9)中的方法(TFIDF)以及本发明方法(FUSION)对漏洞进行分类,分类结果的准确率柱状图。
具体实施方式
下面结合附图和实施例对本发明技术方案做详细描述。
采用本发明提出的基于词频-逆向文件频率和朴素贝叶斯融合模型的漏洞自动分类方法对漏洞进行分类并得到漏洞间关联关系的操作流程如图1所示,具体操作步骤为:
步骤一、构建一个漏洞数据库,从国家漏洞数据库(National VulnerabilityDatabase,NVD)下载2010-2016年的漏洞数据,挑选linux下漏洞数据并筛选字段后导入本地数据库。
本地漏洞数据库字段如表1所示。
表1漏洞数据库字段表
字段名称 | 中文名称 | 字段来源 |
CVE_ID | 通用漏洞编号 | name |
CVSS_SCORE | 通用漏洞评级系统评分 | CVSS_score |
VECTOR_AV | 是否需要网络 | CVSS_vector |
VECTOR_AC | 获取容易程度 | CVSS_vector |
VECTOR_AU | 是否需要认证 | CVSS_vector |
VECTOR_C | 机密性影响 | CVSS_vector |
VECTOR_I | 完整性影响 | CVSS_vector |
VECTOR_N | 可用性影响 | CVSS_vector |
DESCRIPT | 漏洞描述 | descript |
V_PRE | 前提特权集 | 漏洞描述字段挖掘 |
V_RES | 结果特权集 | 漏洞描述字段挖掘 |
步骤二、确定特权集类别。
特权集类别包括:超级系统管理员特权集、普通系统管理员特权集、普通用户特权集、访问者特权集、受限访问者特权集。每个特权集对应英文标识如表2所示。
表2特权集对应英文标识表
漏洞的前提特权集的取值集合为{“受限访问者特权集”,“访问者特权集”,“普通用户特权集”},结果特权集的取值集合为{“访问者特权集”,“普通用户特权集”,“普通系统管理员特权集”,“超级系统管理员特权集”}。
步骤三、训练词频-逆向文件频率分类器分类器。
针对步骤二所述的5个特权集类别,分别训练3个前提特权集训练器和4个结果特权集训练器。具体操作为:
步骤3.0:从步骤一中所述漏洞数据库中选取一部分漏洞记录,作为训练数据集。然后人工标注每条漏洞记录的前提特权集和结果特权集。包含漏洞描述、前提特权集和结果特权集的训练数据集如表3所示。
表3训练数据集
步骤3.1:从训练数据集中选取前提特权集为普通用户特权集的323条数据。
步骤3.2:对每条训练数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…users to…by/via…”格式。将“to”到“by/via”之间的部分截取出来,存入文件d1中,每条训练数据占一行,文件d1的行数J1=323。
步骤3.3:利用开源分词工具(StandardAnalyzer)对文件d1进行处理,统计每个单词出现的数量,文件d1中出现的单词的数量I1=1346。
步骤3.4:通过公式(1)计算单词的重要性。
其中,tfi,j表示第i个单词在第j行的重要性,i和j均为正整数,并且i∈[1,I1],j∈[1,J1];ni,j表示第i个单词在第j行中出现的次数。
文件d1中的第1个单词为“execute”,在第一行出现了1次,而第一行一共出现了5个单词,所以单词“execute”在第一行的重要性tfi,j=0.2。
步骤3.5:通过公式(2)计算第i个单词的逆向文件频率,用符号idfi表示。逆向文件频率用来度量单词的普遍性。
其中,ti表示第i个单词;|{j:ti∈rj}|表示文件d1包含单词ti的行数。
在全部323行数据中,包含单词“execute”的行数为46行,所以单词“execute”的idf1=0.84.
步骤3.6:通过公式(3)计算单词的权重得分。单词“execute”的TFIDF1值为9.66.
其中,TFIDFi表示第i个单词的权重得分。
某一行的高词语频率,以及该词语在整个文件内的低行数频率,可以产生高权重的TFIDFi。因此,TFIDFi值倾向于过滤掉常见词语,保留重要的词语。
步骤3.7:将文件d1中出现的单词按照TFIDFi值降序排列,取前8个词作为特征关键词,记录特征关键词及对应的TFIDFi值。
步骤3.8:经过步骤3.1至3.7的操作,得到前提特权集为普通用户特权集对应的特征关键词及对应的TFIDFi值与AVLi值,如表4所示。
表4前提特权集为普通用户特权集的特征关键词与对应的TFIDFi值对应表
步骤3.9:从训练数据集中选取前提特权集为访问者特权集的300条以数据。重复3.2至至3.7的操作,得到前提特权集为访问者特权集对应的特征关键词及对应的TFIDFi值,如表5所示。
表5前提特权集为访问者特权集的特征关键词与对应的TFIDFi值对应表
特征关键词 | TFIDFi | AVLi |
package | 12.84 | 0.37 |
craft | 11.67 | 0.34 |
vector | 7.56 | 0.22 |
access | 5.78 | 0.17 |
file | 4.96 | 0.14 |
message | 2.01 | 0.06 |
send | 1.45 | 0.04 |
bypass | 1.04 | 0.03 |
步骤3.10:从训练数据集中选取前提特权集为受限访问者特权集的300条以上数据。重复3.2至至3.7的操作,得到前提特权集为受限访问者特权集对应的特征关键词及对应的TFIDFi值,如表6所示。
表6前提特权集为受限访问者特权集的特征关键词与对应的TFIDFi值对应表
步骤3.11:从训练数据集中选取结果特权集为超级系统管理员特权集的300条数据。
步骤3.12:对每条训练数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…users to…by/via…”格式。将“by/via”之后的部分截取出来,存入文件d2中,每条训练数据占一行,文件d2的行数用符号J2表示。
步骤3.13:利用开源分词工具(StandardAnalyzer)对文件d2进行处理,统计每个单词出现的数量,文件d2中出现的单词的数量用符号I2表示。
步骤3.14:通过公式(4)计算单词的重要性。
其中,tfi′,j′表示第i′个单词在第j′行的重要性,i′和j′均为正整数,并且i∈[1,I2],j∈[1,J2];ni′,j′表示第i′个单词在第j′行中出现的次数。
步骤3.15:通过公式(5)计算第i′个单词的逆向文件频率,用符号idfi′表示。逆向文件频率用来度量单词的普遍性。
其中,ti′表示第i′个单词;|{j′:ti′∈rj′}|表示文件d2包含单词ti′的行数。
步骤3.16:通过公式(6)计算单词的权重得分。
其中,TFIDFi′表示第i′个单词的权重得分。
步骤3.17:将文件d2中出现的单词按照TFIDFi′值降序排列,取前8个词作为特征关键词。记录特征关键词及对应的TFIDFi′值。
步骤3.18:经过步骤3.11至3.17的操作,得到结果特权集为超级系统管理员特权集对应的特征关键词及对应的TFIDFi′值,如表7所示。
表7结果特权集为超级系统管理员特权集的特征关键词与对应的TFIDFi值对应表
特征关键词 | TFIDFi | AVLi |
root | 11.24 | 0.18 |
gain | 10.63 | 0.17 |
obtain | 10.26 | 0.17 |
access | 9.54 | 0.15 |
privilege | 9.32 | 0.15 |
system | 5.64 | 0.09 |
denial | 2.54 | 0.04 |
service | 2.54 | 0.04 |
步骤3.19:从训练数据集中选取结果特权集为普通系统管理员特权集的300条以上数据。重复3.12至至3.17的操作,得到结果特权集为普通系统管理员特权集对应的特征关键词及对应的TFIDFi′值,如表8所示。
表8结果特权集为普通系统管理员特权集的特征关键词与对应的TFIDFi值对应表
特征关键词 | TFIDFi | AVLi |
privilege | 9.87 | 0.25 |
gain | 9.56 | 0.25 |
access | 8.72 | 0.22 |
arbitrary | 3.21 | 0.08 |
service | 2.54 | 0.06 |
bypass | 2.19 | 0.06 |
denial | 1.96 | 0.05 |
guest | 1.21 | 0.03 |
步骤3.20:从训练数据集中选取结果特权集为普通用户特权集的300条以上数据。重复3.12至至3.17的操作,得到结果特权集为普通用户特权集对应的特征关键词及对应的TFIDFi′值。
表9结果特权集为普通用户特权集的特征关键词与对应的TFIDFi值对应表
步骤3.21:从训练数据集中选取结果特权集为访问者特权集的300条以上数据。重复3.12至至3.17的操作,得到结果特权集为访问者特权集对应的特征关键词及对应的TFIDFi′值。
表10结果特权集为访问者特权集的特征关键词与对应的TFIDFi值对应表
特征关键词 | TFIDFi | AVLi |
firewall | 8.54 | 0.19 |
gain | 7.65 | 0.17 |
bypass | 7.43 | 0.17 |
list | 5.94 | 0.12 |
transmission | 5.61 | 0.12 |
communication | 4.93 | 0.11 |
sensitive | 3.38 | 0.07 |
read | 2.63 | 0.05 |
步骤四、测试词频-逆向文件频率分类器分类结果和准确率。
步骤4.1:从步骤一中所述漏洞数据库中选取一条测试数据。
选取的测试数据CVE_ID为CVE-2014-3390,漏洞描述字段为“The VirtualNetwork Management Center(VNMC)policy implementation in Cisco ASA Software8.7before 8.7(1.14),9.2before 9.2(2.8),and 9.3before 9.3(1.1)allows localusers to obtain Linux root access by leveraging administrative privileges andexecuting a crafted script”。
步骤4.2:对测试数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“by/via”之后的部分截取出来,并利用开源分词工具(StandardAnalyzer)处理,得到若干个单词。
截取的漏洞描述字段内容为“leveraging administrative privileges andexecuting a crafted script”,得到的单词为(“leverage”,“administrative”,“privilege”,“execute”,“craft”,“script”)。
步骤4.3:对于步骤4.2得到的单词,依次查找每个单词是否在步骤3.8得到前提特权集为普通用户特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi值并求和,结果用符号P1表示。
对于步骤4.2得到的单词,“leverage”、“execute”、“craft”和“script”在步骤3.8得到的前提集为普通用户特权集对应的特征关键词中出现,将它们对应的AVLi值相加,所以P1=0.57.
步骤4.4:对于步骤4.2得到的单词,依次查找每个单词是否在步骤3.9得到前提特权集为访问者特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi值并求和,结果用符号P2表示。
步骤4.2得到的单词都没有在步骤3.9得到前提集为访问者特权集对应的特征关键词中出现,所以P2=0.
步骤4.5:对于步骤4.2得到的单词,依次查找每个单词是否在步骤3.10得到前提特权集为受限访问者特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi值并求和,结果用符号P3表示。
步骤4.2得到的单词都没有在步骤3.10得到前提集为受限访问者特权集对应的特征关键词中出现,所以P3=0。
步骤4.6:比较P1、P2和P3的值,选取最大值对应的特权集作为该条测试数据的前提特权集的值。
比较P1、P2和P3的值,选取最大值P1对应的普通用户特权集作为该条测试数据的前提特权集的值,所以该条漏洞数据的前提特权集字段的值为“user”。
步骤4.7:对测试数据中的“漏洞描述”字段进行处理。“漏洞描述”字段为“…user/attackers to…by/via…”格式。将“to”到“by/via”之间的部分截取出来,并利用开源分词工具(StandardAnalyzer)处理,得到若干个单词。
截取的漏洞描述字段内容为“obtain Linux root access”,得到的单词为(“obtain”,“Linux”,“root”,“access”)。
步骤4.8:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.18得到的结果特权集为超级系统管理员特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R1表示。
对于步骤4.7得到的单词,“root”、“obtain”、“access”在步骤3.18得到的结果集为超级系统管理员特权集对应的特征关键词中出现,将它们对应的TFIDFi'值相加,所以R1=0.5。
步骤4.9:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.19得到的结果特权集为普通系统管理员特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R2表示。
对于步骤4.7得到的单词,“access”在步骤3.19得到的结果集为普通系统管理员特权集对应的特征关键词中出现,将它对应的TFIDFi'值作为R2,所以R2=0.22.
步骤4.10:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.20得到的结果特权集为普通用户特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R3表示。
对于步骤4.7得到的单词,“access”在步骤3.20得到的结果集为普通用户特权集对应的特征关键词中出现,将它对应的TFIDFi'值作为R3,所以R3=0.04。
步骤4.11:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.21得到的访问者特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R4表示。
步骤4.7得到的单词都没有在步骤3.21得到的结果集为访问者特权集对应的特征关键词中出现,所以R4=0.
步骤4.12:比较R1、R2、R3和R4的值,选取R1对应的超级系统管理员特权集作为该条测试数据的结果特权集的值,所以该条漏洞数据的结果特权集的值为“root”。
步骤4.13:在步骤一所述的漏洞数据库中选取100条前提特权集为受限访问者特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.2至4.6的操作,得到所述100条以上测试数据的前提特权集的分类结果,对比预先标注的分类结果,计算准确率,ARP1=91.46%。
步骤4.14:在步骤一所述的漏洞数据库选取100条前提特权集为访问者特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复4.2至4.6的操作,得到所述100条以上测试数据前提特权集的分类结果,对比预先标注的分类结果,并记录准确率ARP2=94.52%。
步骤4.15:在步骤一所述的漏洞数据库选取100条前提特权集为普通用户特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复4.2至4.6的操作,得到所述100条以上测试数据前提特权集的分类结果,对比预先标注的分类结果,并将准确率记录为ARP3,ARP3=89.25%。
步骤4.16:利用公式(9)计算词频-逆向文件频率分类器在前提特权集分类结果的平均准确率,用符号W_PRE1表示。
W_PRE1=(ARP1+ARP2+ARP3)/3 (9)
计算结果为W_PRE1=91.74%。
步骤4.17:在步骤一所述的漏洞数据库中选取100条结果特权集为访问者特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR1表示,ARR1=88.46%。
步骤4.18:在步骤一所述的漏洞数据库中选取100条结果特权集为普通用户特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR2表示,ARR2=92.49%。
步骤4.19:在步骤一所述的漏洞数据库中选取100条结果特权集为普通系统管理员特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR3表示,ARR3=95.28%。
步骤4.20:在步骤一所述的漏洞数据库中选取100条结果特权集为超级系统管理员特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR4表示,ARR4=93.81%。
步骤4.21:利用公式(10)计算词频-逆向文件频率分类器在结果特权集分类结果的平均准确率。
W_RES1=(ARR1+ARR2+ARR3+ARR4)/4 (10)
计算结果为W_RES1=92.51%。
步骤五、建立朴素贝叶斯分类器。
每一个漏洞拥有前提特权集与结果特权集,所以训练2个朴素贝叶斯分类器,一个是前提特权集训练器和一个是结果特权集训练器。具体操作为:
步骤5.1:在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据,构成训练数据集,所述训练数据集中前提特权集分别是“受限访问者特权集”、“访问者特权集”、“普通用户特权集”的数据条数相同。
用符号C表示前提特权集所有的分类集合,C={c1,c2,c3},其中,c1表示“受限访问者特权集”,c2表示“访问者特权集”,c3表示“普通用户特权集”。
步骤5.2:用符号VA表示漏洞数据的属性集合,VA={a1,a2...a7},其中,a1表示通用漏洞评分系统评分,a2表示是否需要网络,a3表示获取容易程度,a4表示是否需要认证,a5表示机密性影响,a6表示完整性影响,a7表示可用性影响。其中除了a1外,其余均为离散型数值,所以我们需要把a1的取值离散化,实验中设置了“0-2”、“2-4”、“4-6”、“6-8”、“8-10”五组值。
步骤5.3:对于步骤5.1选取的训练数据集,统计训练数据的前提特权集分别在c1、c2、c3中每一个属性ax的概率分布P(ax|cy),(x∈[1,7],y∈[1,3])。为了防止出现P(ax|cy)的值为0时,对结果产生不利影响,设定P(ax|cy)=0时,P(ax|cy)=1。
经过步骤5.1至步骤5.3完成前提特权集分类器的建立。
步骤5.4:在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据,构成训练数据集,所述训练数据集中结果特权集分别是“访问者特权集”、“普通用户特权集”、“普通系统管理员特权集”与“超级系统管理员特权集”的数据条数相同。
用符号C'表示结果特权集所有的分类集合,C'={c′1,c′2,c′3,c′4},其中,c'1表示“访问者特权集”,c'2表示“普通用户特权集”,c'3表示“普通系统管理员特权集”,c'4表示“超级系统管理员特权集”。
步骤5.5:用符号VA表示漏洞数据的属性集合,VA={a1,a2...a7},其中,a1表示通用漏洞评分系统评分,a2表示是否需要网络,a3表示获取容易程度,a4表示是否需要认证,a5表示机密性影响,a6表示完整性影响,a7表示可用性影响。其中除了a1外,其余均为离散型数值,所以我们需要把a1的取值离散化,实验中设置了“0-2”、“2-4”、“4-6”、“6-8”、“8-10”五组值。
步骤5.6:对于步骤5.4选取的训练数据集,统计其结果特权集分别在c1′、c′2、c3′和c'4中每一个属性ax′的概率分布P(ax|c′y′),(x∈[1,7],y′∈[1,4])。为了防止出现0值对结果产生不利影响,当P(ax|c′y′)=0时,设定P(ax|c′y′)=1。
经过步骤5.4至步骤5.6完成结果特权集分类器的建立。
步骤六、测试朴素贝叶斯分类器分类结果和准确率。
步骤6.1:步骤4.1中所述测试数据,用符号VB表示。
步骤6.2:根据贝叶斯定理,利用公式(11)来计算测试数据VB的前提特权集对应于分类cy的概率值。
其中,N表示步骤5.1中所述训练数据集中训练样本的数量;P(VB|cy)P(cy)利用公式(12)计算得到。
步骤6.3:为了表示方便,把步骤6.2计算得到的概率值P(cy|VB)用符号PRE_BPy表示,y∈[1,3];然后,将PRE_BPy中最大的概率值对应的分类作为测试数据VB的前提特权集的值。
CVE_ID为CVE-2014-3390的测试数据VB,我们得到它的PRE_BPi值为0.67,对应前提特权集分类为“user”。
步骤6.4:根据贝叶斯定理,利用公式(13)来计算测试数据VB的结果特权集对应于分类c′j的概率值。
其中,P(VB|c′y')P(c′y')利用公式(14)计算得到。
步骤6.5:为了方便表示,把通过步骤6.4计算得到的概率值P(c′y′|VB)用符号PRE_BPy′表示,y′∈[1,4]。然后,将PRE_BPy′中最大的概率值对应的分类作为测试数据VB的结果特权集的值。
CVE_ID为CVE-2014-3390的测试数据VB,我们得到它的RES_BPi'值为0.58,对应前提特权集分类为“root”。
步骤6.6:在步骤一提到的漏洞数据库中选取330条漏洞数据,作为测试数据。其中前提特权集属于受限访问者特权集、访问者特权集、普通用户特权集的测试数据数据条数相同。
步骤6.7:依次对选取出来的每条测试数据重复步骤6.2至6.3的操作,得到所述300条以上测试数据的前提特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号W_PRE2表示。
实验计算得到W_PRE2=86.34%。
步骤6.8:在步骤一提到的漏洞数据库中选取480条漏洞数据,作为测试数据。其中结果特权集属于访问者特权集、普通用户特权集、普通系统管理员特权集、超级系统管理员特权集的测试数据数据条数相同。
步骤6.9:依次对选取出来的每条测试数据重复步骤6.4至6.5的操作,得到所述480测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号W_RES2表示。
实验计算得W_RES2=84.78%。
步骤七、分类器融合。
对于测试数据VB,通过计算它在两个分类器中前提特权集与结果特权集的分类结果,通过准确率作为得数权重将两个结果进行融合。具体为:
步骤7.1:对于测试数据VB,通过公式(15)计算它的前提特权集的分类结果,并从3个F_PREq值中选择最大值,并把所述最大值对应的分类作为测试数据VB的前提特权集。
F_PREq=PRE_AVLq×W_PRE1+PRE_BPq×W_PRE2,q∈[1,3] (15)
实验中选取CVE-2016-2207漏洞作测试,该漏洞在前提特权集三个分类受限访问者特权集、访问者特权集与普通用户特权集的结果分别记为PRE_AVL1=0.56、PRE_AVL2=0.27与PRE_AVL3=0.12;在贝叶斯分类器同样得到它在这三个分类上的结果,分别记作PRE_BP1=0.53、PRE_BP2=0.36与PRE_BP3=0.11。
利用公式(15)对最终结果进行计算,得到F_PRE1=0.97,F_PRE2=0.57,F_PRE3=0.21。把F_PRE1对应的分类结果“access”作为待分类漏洞CVE-2016-2207的前提特权集。
步骤7.2:对于测试数据VB,通过公式公式(16)计算它的结果特权集的分类结果,并从4个F_RESq'值中选择最大值,并把所述最大值对应的分类作为测试数据VB的结果特权集。
F_RESq'=RES_AVLq'×W_RES1+RES_BPq'×W_RES2,q'∈[1,4] (16)
实验中选取CVE-2016-2207漏洞作测试,该漏洞在结果特权集四个分类访问者特权集、普通用户特权集、普通系统管理员特权集与超级系统管理员特权集的结果分别记为RES_AVL1=0、RES_AVL2=0.52、RES_AVL3=0.28与RES_AVL4=0.21;在贝叶斯分类器同样得到它在这四个分类上的结果,分别记作RES_BP1=0.18、RES_BP2=0.44、RES_BP3=0.21与RES_BP4=0.17,利用公式(16)计算融合得到的结果。
利用公式(16)对最终结果进行计算,得到F_RES1=0.15,F_RES2=0.85,F_RES3=0.44,F_RES4=0.34。把F_RES2对应的分类结果“user”作为待分类漏洞CVE-2016-2207的结果特权集。
比较漏洞CVE-2016-2207与漏洞CVE-2014-3390,漏洞CVE-2016-2207的前提特权集为access,结果特权集为user;漏洞CVE-2014-3390的前提特权集为user,结果特权集为root。对于一个远程访问者来说,特权集为access,不能直接利用漏洞CVE-2014-3390,但是该远程访问者可以先利用漏洞CVE-2016-2207使自己的特权集提升至user,然后就可以利用漏洞CVE-2016-2207,最终一个远程访问者通过一次多级攻击获取了系统的root权限。由此可以得出漏洞CVE-2016-2207与漏洞CVE-2014-3390是相关联的。
为了说明本方法(FUSION)的有效性,使用相同的漏洞数据库,分别采用决策树方法(DT)、神经网络分类法(BPN)、贝叶斯分类方法(BAYES)和国家发明专利《支持漏洞关联性挖掘的漏洞自动分类方法》(申请号:201710052203.9)中的方法(TFIDF)对漏洞进行分类,分类结果的准确率如图2所示。
从图2可以看出,单独使用TFIDF分类方法使得漏洞分类平均准确率达到了约88.74%。在这几种分类上的整体表现基本优于DT、BPN与BAYES,这是因为关于漏洞特权提升的描述信息更多的存在于“漏洞描述”字段中,这个结果表明对自然语言文本的特征提取取得了不错的效果,较为准确地找到了体现每一种分类本质的单词或词组。而后三个分类器也有平均约70%的准确率,这表示漏洞的其他属性如影响性评分、可用性评分等属性与特权提升也存在着一些间接的联系,比如漏洞前提特权集的等级越高,一定程度上反应了较高的攻击复杂度,而漏洞结果特权集越高表示漏洞的危害程度越大等等。
实验结果证明了TFIDF与BAYES两个分类器的融合产生了非常不错的效果,使得分类的准确率获得了大幅提升,在不同分类上的平均准确率达到了94.9%。
Claims (1)
1.一种基于词频-逆向文件频率和朴素贝叶斯融合模型的漏洞自动分类方法,具体操作为:
步骤一、构建一个漏洞数据库,收集漏洞记录;
选取国家漏洞数据库NVD作为数据源,构建一个漏洞数据库;
所述漏洞数据库包括:通用漏洞CVE编号、通用漏洞评分系统CVSS评分、是否需要网络、获取容易程度、是否需要认证、机密性影响、完整性影响、可用性影响、漏洞描述、前提特权集、结果特权集;
其中,通用漏洞CVE编号、通用漏洞评分系统CVSS评分、是否需要网络、获取容易程度、是否需要认证、机密性影响、完整性影响、可用性影响、漏洞描述字段是通过国家漏洞数据库直接获取的;前提特权集和结果特权集为空;
所述漏洞描述字段是用自然语言描述漏洞的特征,“漏洞描述”字段为“…users/attackers to…by/via…”格式;
步骤二、确定特权集类别;
特权集类别包括:超级系统管理员特权集、普通系统管理员特权集、普通用户特权集、访问者特权集、受限访问者特权集;
所述超级系统管理员特权集包含系统管理员所拥有的所有权限;超级系统管理员为拥有系统最高权限的用户帐号,超级系统管理员的权限为:管理系统设备、系统文件和系统进程,读写任意文件内容;攻击者利用超级系统管理员特权集造成的危害有:植入系统级木马,以虚假身份欺骗或直接追加、修改、删除、创建文件内容,造成系统不可恢复性崩溃;
所述普通系统管理员特权集包含系统管理员所拥有的部分权限;普通管理员的权限为:管理部分系统设备、系统文件和系统进程,读写部分系统文件内容;攻击者利用普通系统管理员特权集造成的危害有:通过追加、修改、删除、创建某些系统文件内容或系统进程内存空间的数据结构,造成系统某些文件看起来不可用、系统当机或拒绝服务;
所述普通用户特权集包含普通用户所拥有的所有权限;普通用户所拥有的权限为:在自己独立私有的资源空间内追加、修改、删除、创建个人文件;攻击者利用普通用户特权集造成的的危害有:植入用户级木马,修改普通用户的所有文件或进程空间的内容,导致用户崩溃或不可用;
所述访问者特权集包含受信任的系统远程访问者所拥有的所有权限;受信任的系统远程访问者所拥有的权限有:与系统交互数据、扫描系统信息;攻击者利用访问者特权集造成的危害有:帮助其他受限访问者用户完成身份验证或发送大量数据包造成系统内存溢出;
所述受限访问者特权集是指除去以上四种角色之外的、被系统防火墙隔离在外的不受信任的访问者所拥有的权限;不受信任的访问者仅拥有证实主机有效性的权限,不具备使用该系统的任何权限;攻击者利用受限访问者特权集不能对系统造成危害;
漏洞的前提特权集的取值集合为{“受限访问者特权集”,“访问者特权集”,“普通用户特权集”},结果特权集的取值集合为{“访问者特权集”,“普通用户特权集”,“普通系统管理员特权集”,“超级系统管理员特权集”};
步骤三、训练词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TFIDF)分类器;
针对步骤二所述的5个特权集类别,分别训练3个前提特权集训练器和4个结果特权集训练器;具体操作为:
步骤3.0:从步骤一中所述漏洞数据库中选取一部分漏洞记录,作为训练数据集;然后人工标注每条漏洞记录的前提特权集和结果特权集;
步骤3.1:从训练数据集中选取前提特权集为普通用户特权集的300条以上数据;
步骤3.2:对每条训练数据中的“漏洞描述”字段进行处理;“漏洞描述”字段为“…user/attackers to…by/via…”格式;将“by/via”之后的部分截取出来,存入文件d1中,每条训练数据占一行,文件d1的行数用符号J1表示;
步骤3.3:利用开源分词工具对文件d1进行处理,统计每个单词出现的数量,文件d1中出现的单词的数量用符号I1表示;
步骤3.4:通过公式(1)计算单词的重要性;
<mrow>
<msub>
<mi>tf</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>n</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mi>i</mi>
</munder>
<msub>
<mi>n</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,tfi,j表示第i个单词在第j行的重要性,i和j均为正整数,并且i∈[1,I1],j∈[1,J1];ni,j表示第i个单词在第j行中出现的次数;
步骤3.5:通过公式(2)计算第i个单词的逆向文件频率,用符号idfi表示;逆向文件频率用来度量单词的普遍性;
<mrow>
<msub>
<mi>idf</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mfrac>
<msub>
<mi>J</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>|</mo>
<mo>{</mo>
<mi>j</mi>
<mo>:</mo>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>r</mi>
<mi>j</mi>
</msub>
<mo>}</mo>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ti表示第i个单词;|{j:ti∈rj}|表示文件d1包含单词ti的行数;
步骤3.6:通过公式(3)计算单词的权重得分;
<mrow>
<msub>
<mi>TFIDF</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>j</mi>
</munder>
<msub>
<mi>tf</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>&times;</mo>
<msub>
<mi>idf</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,TFIDFi表示第i个单词的权重得分;
某一行的高词语频率,以及该词语在整个文件内的低行数频率,可以产生高权重的TFIDFi;因此,TFIDFi值倾向于过滤掉常见词语,保留重要的词语;
步骤3.7:将文件d1中出现的单词按照TFIDFi值降序排列,取前K个词作为特征关键词,K∈[5,12];记录特征关键词及对应的TFIDFi值;并通过公式(4)计算每个关键词的AVLi值,AVLi值的作用是将权重得分映射到0-1中;
<mrow>
<msub>
<mi>AVL</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<msub>
<mi>TFIDF</mi>
<mi>i</mi>
</msub>
<mo>/</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>TFIDF</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
步骤3.8:经过步骤3.1至3.7的操作,得到前提特权集为普通用户特权集对应的特征关键词及对应的AVLi值;
步骤3.9:从训练数据集中选取前提特权集为访问者特权集的300条以上数据;重复3.2至至3.7的操作,得到前提特权集为访问者特权集对应的特征关键词及对应的AVLi值;
步骤3.10:从训练数据集中选取前提特权集为受限访问者特权集的300条以上数据;重复3.2至至3.7的操作,得到前提特权集为受限访问者特权集对应的特征关键词及对应的AVLi值;
步骤3.11:从训练数据集中选取结果特权集为超级系统管理员特权集的300条以上数据;
步骤3.12:对每条训练数据中的“漏洞描述”字段进行处理;“漏洞描述”字段为“…user/attackers to…by/via…”格式;将“to”到“by/via”之间的部分截取出来,存入文件d2中,每条训练数据占一行,文件d2的行数用符号J2表示;
步骤3.13:利用开源分词工具对文件d2进行处理,统计每个单词出现的数量,文件d2中出现的单词的数量用符号I2表示;
步骤3.14:通过公式(5)计算单词的重要性;
<mrow>
<msub>
<mi>tf</mi>
<mrow>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<mo>,</mo>
<msup>
<mi>j</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>n</mi>
<mrow>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<mo>,</mo>
<msup>
<mi>j</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mrow>
<munder>
<mo>&Sigma;</mo>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
</munder>
<msub>
<mi>n</mi>
<mrow>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<mo>,</mo>
<msup>
<mi>j</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,tfi′,j′表示第i′个单词在第j′行的重要性,i′和j′均为正整数,并且i∈[1,I2],j∈[1,J2];ni′,j′表示第i′个单词在第j′行中出现的次数;
步骤3.15:通过公式(6)计算第i′个单词的逆向文件频率,用符号idfi′表示;逆向文件频率用来度量单词的普遍性;
<mrow>
<msub>
<mi>idf</mi>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>=</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mfrac>
<msub>
<mi>J</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>|</mo>
<mo>{</mo>
<msup>
<mi>j</mi>
<mo>&prime;</mo>
</msup>
<mo>:</mo>
<msub>
<mi>t</mi>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>&Element;</mo>
<msub>
<mi>r</mi>
<msup>
<mi>j</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>}</mo>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ti′表示第i′个单词;|{j′:ti′∈rj′}|表示文件d2包含单词ti′的行数;
步骤3.16:通过公式(7)计算单词的权重得分;
<mrow>
<msub>
<mi>TFIDF</mi>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<msup>
<mi>j</mi>
<mo>&prime;</mo>
</msup>
</munder>
<msub>
<mi>tf</mi>
<mrow>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<mo>,</mo>
<msup>
<mi>j</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>&times;</mo>
<msub>
<mi>idf</mi>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,TFIDFi′表示第i′个单词的权重得分;
步骤3.17:将文件d2中出现的单词按照TFIDFi′值降序排列,取前K'个词作为特征关键词,K'∈[5,12],K'为人为设定值;记录特征关键词及对应的TFIDFi′值;然后,通过公式(8)计算每个关键词的权重得分映射到0-1中,得到的结果用符号AVLi'表示;
<mrow>
<msub>
<mi>AVL</mi>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>=</mo>
<msub>
<mi>TFIDF</mi>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>/</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msup>
<mi>K</mi>
<mo>&prime;</mo>
</msup>
</munderover>
<msub>
<mi>TFIDF</mi>
<msup>
<mi>j</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
步骤3.18:经过步骤3.11至3.17的操作,得到结果特权集为超级系统管理员特权集对应的特征关键词及对应的AVLi'值;
步骤3.19:从训练数据集中选取结果特权集为普通系统管理员特权集的300条以上数据;重复3.12至至3.17的操作,得到结果特权集为普通系统管理员特权集对应的特征关键词及对应的AVLi'值;
步骤3.20:从训练数据集中选取结果特权集为普通用户特权集的300条以上数据;重复3.12至3.17的操作,得到结果特权集为普通用户特权集对应的特征关键词及对应的AVLi'值;
步骤3.21:从训练数据集中选取结果特权集为访问者特权集的300条以上数据;重复3.12至至3.17的操作,得到结果特权集为访问者特权集对应的特征关键词及对应的AVLi'值;
步骤四、测试词频-逆向文件频率分类器分类结果和准确率;
步骤4.1:从步骤一中所述漏洞数据库中选取一条测试数据;
步骤4.2:对测试数据中的“漏洞描述”字段进行处理;“漏洞描述”字段为“…user/attackers to…by/via…”格式;将“by/via”之后的部分截取出来,并利用开源分词工具处理,得到若干个单词;
步骤4.3:对于步骤4.2得到的单词,依次查找每个单词是否在步骤3.8得到前提特权集为普通用户特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi值并求和,结果用符号P1表示;
步骤4.4:对于步骤4.2得到的单词,依次查找每个单词是否在步骤3.9得到前提特权集为访问者特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi值并求和,结果用符号P2表示;
步骤4.5:对于步骤4.2得到的单词,依次查找每个单词是否在步骤3.10得到前提特权集为受限访问者特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi值并求和,结果用符号P3表示;
步骤4.6:比较P1、P2和P3的值,选取最大值对应的特权集作为该条测试数据的前提特权集的值;
步骤4.7:对测试数据中的“漏洞描述”字段进行处理;“漏洞描述”字段为“…user/attackers to…by/via…”格式;将“to”到“by/via”之间的部分截取出来,并利用开源分词工具处理,得到若干个单词;
步骤4.8:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.18得到的结果特权集为超级系统管理员特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R1表示;
步骤4.9:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.19得到的结果特权集为普通系统管理员特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R2表示;
步骤4.10:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.20得到的结果特权集为普通用户特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R3表示;
步骤4.11:对于步骤4.7得到的单词,依次查找每个单词是否在步骤3.21得到的访问者特权集对应的特征关键词中出现,如果出现,则记录该特征关键词对应的AVLi'值并求和,结果用符号R4表示;
步骤4.12:比较R1、R2、R3和R4的值,选取最大值对应的特权集作为该条测试数据的结果特权集的值;
步骤4.13:在步骤一所述的漏洞数据库中选取100条以上前提特权集为受限访问者特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.2至4.6的操作,得到所述100条以上测试数据的前提特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARP1表示;
步骤4.14:在步骤一所述的漏洞数据库选取100条以上前提特权集为访问者特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复4.2至4.6的操作,得到所述100条以上测试数据前提特权集的分类结果,对比预先标注的分类结果,并将准确率记录为ARP2;
步骤4.15:在步骤一所述的漏洞数据库选取100条以上前提特权集为普通用户特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复4.2至4.6的操作,得到所述100条以上测试数据前提特权集的分类结果,对比预先标注的分类结果,并将准确率记录为ARP3;
步骤4.16:利用公式(9)计算词频-逆向文件频率分类器在前提特权集分类结果的平均准确率,用符号W_PRE1表示;
W_PRE1=(ARP1+ARP2+ARP3)/3 (9)
步骤4.17:在步骤一所述的漏洞数据库中选取100条以上结果特权集为访问者特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR1表示;
步骤4.18:在步骤一所述的漏洞数据库中选取100条以上结果特权集为普通用户特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR2表示;
步骤4.19:在步骤一所述的漏洞数据库中选取100条以上结果特权集为普通系统管理员特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR3表示;
步骤4.20:在步骤一所述的漏洞数据库中选取100条以上结果特权集为超级系统管理员特权集的漏洞数据,作为测试数据,然后依次对选取出来的每条测试数据重复步骤4.7至4.12的操作,得到所述100条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号ARR4表示;
步骤4.21:利用公式(10)计算词频-逆向文件频率分类器在结果特权集分类结果的平均准确率;
W_RES1=(ARR1+ARR2+ARR3+ARR4)/4 (10)
步骤五、建立朴素贝叶斯分类器;
每一个漏洞拥有前提特权集与结果特权集,所以训练2个朴素贝叶斯分类器,一个是前提特权集训练器和一个是结果特权集训练器;具体操作为:
步骤5.1:在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据,构成训练数据集,所述训练数据集中前提特权集分别是“受限访问者特权集”、“访问者特权集”、“普通用户特权集”的数据条数相同;
用符号C表示前提特权集所有的分类集合,C={c1,c2,c3},其中,c1表示“受限访问者特权集”,c2表示“访问者特权集”,c3表示“普通用户特权集”;
步骤5.2:用符号VA表示漏洞数据的属性集合,VA={a1,a2...a7},其中,a1表示通用漏洞评分系统评分,a2表示是否需要网络,a3表示获取容易程度,a4表示是否需要认证,a5表示机密性影响,a6表示完整性影响,a7表示可用性影响;
步骤5.3:对于步骤5.1选取的训练数据集,统计训练数据的前提特权集分别在c1、c2、c3中每一个属性ax的概率分布P(ax|cy),(x∈[1,7],y∈[1,3]);为了防止出现P(ax|cy)的值为0时,对结果产生不利影响,设定P(ax|cy)=0时,P(ax|cy)=1;
经过步骤5.1至步骤5.3完成前提特权集分类器的建立;
步骤5.4:在步骤一所述的漏洞数据库中选取一部分漏洞数据作为训练数据,构成训练数据集,所述训练数据集中结果特权集分别是“访问者特权集”、“普通用户特权集”、“普通系统管理员特权集”与“超级系统管理员特权集”的数据条数相同;
用符号C'表示结果特权集所有的分类集合,C'={c′1,c′2,c′3,c′4},其中,c'1表示“访问者特权集”,c'2表示“普通用户特权集”,c'3表示“普通系统管理员特权集”,c'4表示“超级系统管理员特权集”;
步骤5.5:用符号VA表示漏洞数据的属性集合,VA={a1,a2...a7},其中,a1表示通用漏洞评分系统评分,a2表示是否需要网络,a3表示获取容易程度,a4表示是否需要认证,a5表示机密性影响,a6表示完整性影响,a7表示可用性影响;
步骤5.6:对于步骤5.4选取的训练数据集,统计其结果特权集分别在c′1、c′2、c′3和c′4中每一个属性ax′的概率分布P(ax|c′y′),(x∈[1,7],y′∈[1,4]);为了防止出现0值对结果产生不利影响,当P(ax|c′y′)=0时,设定P(ax|c′y′)=1;
经过步骤5.4至步骤5.6完成结果特权集分类器的建立;
步骤六、测试朴素贝叶斯分类器分类结果和准确率;
步骤6.1:步骤4.1中所述测试数据,用符号VB表示;
步骤6.2:根据贝叶斯定理,利用公式(11)来计算测试数据VB的前提特权集对应于分类cy的概率值;
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>y</mi>
</msub>
<mo>|</mo>
<msub>
<mi>V</mi>
<mi>B</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>B</mi>
</msub>
<mo>|</mo>
<msub>
<mi>c</mi>
<mi>y</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>y</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>B</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,N表示步骤5.1中所述训练数据集中训练样本的数量;P(VB|cy)P(cy)利用公式(12)计算得到;
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>B</mi>
</msub>
<mo>|</mo>
<msub>
<mi>c</mi>
<mi>y</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>y</mi>
</msub>
<mo>)</mo>
</mrow>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mn>7</mn>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>x</mi>
</msub>
<mo>|</mo>
<msub>
<mi>c</mi>
<mi>y</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
步骤6.3:为了表示方便,把步骤6.2计算得到的概率值P(cy|VB)用符号PRE_BPy表示,y∈[1,3];然后,将PRE_BPy中最大的概率值对应的分类作为测试数据VB的前提特权集的值;
步骤6.4:根据贝叶斯定理,利用公式(13)来计算测试数据VB的结果特权集对应于分类c′j的概率值;
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>c</mi>
<msup>
<mi>y</mi>
<mo>&prime;</mo>
</msup>
<mo>&prime;</mo>
</msubsup>
<mo>|</mo>
<msub>
<mi>V</mi>
<mi>B</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>B</mi>
</msub>
<mo>|</mo>
<msubsup>
<mi>c</mi>
<msup>
<mi>y</mi>
<mo>&prime;</mo>
</msup>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>c</mi>
<msup>
<mi>y</mi>
<mo>&prime;</mo>
</msup>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mi>B</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>13</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,P(VB|c′y')P(c′y')利用公式(14)计算得到;
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>V</mi>
<mi>B</mi>
<mo>&prime;</mo>
</msubsup>
<mo>|</mo>
<msubsup>
<mi>c</mi>
<msup>
<mi>y</mi>
<mo>&prime;</mo>
</msup>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>c</mi>
<msup>
<mi>y</mi>
<mo>&prime;</mo>
</msup>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>x</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mn>7</mn>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>x</mi>
</msub>
<mo>|</mo>
<msubsup>
<mi>c</mi>
<msup>
<mi>y</mi>
<mo>&prime;</mo>
</msup>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>14</mn>
<mo>)</mo>
</mrow>
</mrow>
步骤6.5:为了方便表示,把通过步骤6.4计算得到的概率值P(c′y′|VB)用符号PRE_BPy′表示,y′∈[1,4];然后,将PRE_BPy′中最大的概率值对应的分类作为测试数据VB的结果特权集的值;
步骤6.6:在步骤一提到的漏洞数据库中选取300条以上漏洞数据,作为测试数据;其中前提特权集属于受限访问者特权集、访问者特权集、普通用户特权集的测试数据数据条数相同;
步骤6.7:依次对选取出来的每条测试数据重复步骤6.2至6.3的操作,得到所述300条以上测试数据的前提特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号W_PRE2表示;
步骤6.8:在步骤一提到的漏洞数据库中选取400条以上已分类的漏洞数据,作为测试数据;其中结果特权集属于访问者特权集、普通用户特权集、普通系统管理员特权集、超级系统管理员特权集的测试数据数据条数相同;
步骤6.9:依次对选取出来的每条测试数据重复步骤6.4至6.5的操作,得到所述400条以上测试数据的结果特权集的分类结果,对比预先标注的分类结果,计算准确率,用符号W_RES2表示;
步骤七、分类器融合;
对于测试数据VB,通过计算它在两个分类器中前提特权集与结果特权集的分类结果,通过准确率作为得数权重将两个结果进行融合;具体为:
步骤7.1:对于测试数据VB,通过公式(15)计算它的前提特权集的分类结果,并从3个F_PREq值中选择最大值,并把所述最大值对应的分类作为测试数据VB的前提特权集;
F_PREq=PRE_AVLq×W_PRE1+PRE_BPq×W_PRE2 (15)
其中,q∈[1,3]。
步骤7.2:对于测试数据VB,通过公式公式(16)计算它的结果特权集的分类结果,并从4个F_RESq'值中选择最大值,并把所述最大值对应的分类作为测试数据VB的结果特权集;
F_RESq'=RES_AVLq'×W_RES1+RES_BPq'×W_RES2 (16)
其中,q'∈[1,4]。
经过上述步骤的操作,即完成对测试数据VB的自动分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710495331.0A CN107273752B (zh) | 2017-06-26 | 2017-06-26 | 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710495331.0A CN107273752B (zh) | 2017-06-26 | 2017-06-26 | 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107273752A true CN107273752A (zh) | 2017-10-20 |
CN107273752B CN107273752B (zh) | 2020-12-11 |
Family
ID=60069582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710495331.0A Active CN107273752B (zh) | 2017-06-26 | 2017-06-26 | 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273752B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549817A (zh) * | 2018-04-19 | 2018-09-18 | 北京理工大学 | 一种基于文本深度学习的软件安全漏洞预测方法 |
CN108763961A (zh) * | 2018-06-04 | 2018-11-06 | 中国电子信息产业集团有限公司第六研究所 | 一种基于大数据的隐私数据分级方法和装置 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
CN110768977A (zh) * | 2019-10-21 | 2020-02-07 | 中国民航信息网络股份有限公司 | 一种安全漏洞信息的抓取方法及系统 |
CN111914259A (zh) * | 2019-05-09 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 数据处理方法及计算设备 |
CN112215002A (zh) * | 2020-11-02 | 2021-01-12 | 浙江大学 | 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 |
CN117473511A (zh) * | 2023-12-27 | 2024-01-30 | 中国联合网络通信集团有限公司 | 边缘节点漏洞数据处理方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
CN102739652A (zh) * | 2012-06-07 | 2012-10-17 | 中国电子科技集团公司第三十研究所 | 网络抗攻击性能评估指标体系构建方法及装置 |
EP2651099A1 (en) * | 2012-04-12 | 2013-10-16 | Netflix, Inc. | Method and System For Improving Security and Reliability in a Networked Application Environment |
US20160127407A1 (en) * | 2014-10-31 | 2016-05-05 | Ca, Inc. | Certification of correct behavior of cloud services using shadow rank |
CN105991521A (zh) * | 2015-01-30 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 网络风险评估方法和装置 |
-
2017
- 2017-06-26 CN CN201710495331.0A patent/CN107273752B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
EP2651099A1 (en) * | 2012-04-12 | 2013-10-16 | Netflix, Inc. | Method and System For Improving Security and Reliability in a Networked Application Environment |
CN102739652A (zh) * | 2012-06-07 | 2012-10-17 | 中国电子科技集团公司第三十研究所 | 网络抗攻击性能评估指标体系构建方法及装置 |
US20160127407A1 (en) * | 2014-10-31 | 2016-05-05 | Ca, Inc. | Certification of correct behavior of cloud services using shadow rank |
CN105991521A (zh) * | 2015-01-30 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 网络风险评估方法和装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549817A (zh) * | 2018-04-19 | 2018-09-18 | 北京理工大学 | 一种基于文本深度学习的软件安全漏洞预测方法 |
CN108763961A (zh) * | 2018-06-04 | 2018-11-06 | 中国电子信息产业集团有限公司第六研究所 | 一种基于大数据的隐私数据分级方法和装置 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
CN111914259A (zh) * | 2019-05-09 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 数据处理方法及计算设备 |
CN110768977A (zh) * | 2019-10-21 | 2020-02-07 | 中国民航信息网络股份有限公司 | 一种安全漏洞信息的抓取方法及系统 |
CN112215002A (zh) * | 2020-11-02 | 2021-01-12 | 浙江大学 | 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 |
CN117473511A (zh) * | 2023-12-27 | 2024-01-30 | 中国联合网络通信集团有限公司 | 边缘节点漏洞数据处理方法、装置、设备及存储介质 |
CN117473511B (zh) * | 2023-12-27 | 2024-04-02 | 中国联合网络通信集团有限公司 | 边缘节点漏洞数据处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107273752B (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273752B (zh) | 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法 | |
Maiorca et al. | R-PackDroid: API package-based characterization and detection of mobile ransomware | |
CN106897625A (zh) | 支持漏洞关联性挖掘的漏洞自动分类方法 | |
Sun et al. | Detecting anomalous user behavior using an extended isolation forest algorithm: an enterprise case study | |
US20190347327A1 (en) | Systems and methods for automatically assigning one or more labels to discussion topics shown in online forums on the dark web | |
CN107577942A (zh) | 一种用于Android恶意软件检测的混合特征筛选方法 | |
CN105224600B (zh) | 一种样本相似度的检测方法及装置 | |
Xiao et al. | From patching delays to infection symptoms: Using risk profiles for an early discovery of vulnerabilities exploited in the wild | |
CN108509561B (zh) | 基于机器学习的岗位招聘数据筛选方法、系统及存储介质 | |
CN107368592B (zh) | 一种用于网络安全报告的文本特征模型建模方法及装置 | |
CN117081858B (zh) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 | |
Vanamala et al. | Topic modeling and classification of Common Vulnerabilities And Exposures database | |
Alzhrani et al. | Automated big text security classification | |
Layton et al. | Unsupervised authorship analysis of phishing webpages | |
CN110263566A (zh) | 一种海量日志提权行为检测及分类方法 | |
CN105631336A (zh) | 检测移动装置上的恶意文件的系统及方法 | |
Harbola et al. | Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set | |
CN109344913B (zh) | 一种基于改进MajorClust聚类的网络入侵行为检测方法 | |
CN110008701A (zh) | 基于elf文件特征的静态检测规则提取方法及检测方法 | |
CN113158206A (zh) | 一种基于决策树的文档安全等级划分方法 | |
Boonyopakorn | The optimization and enhancement of network intrusion detection through fuzzy association rules | |
CN114510720A (zh) | 一种基于特征融合和NLP技术的Android恶意软件分类方法 | |
CN114398887A (zh) | 一种文本分类方法、装置及电子设备 | |
Musa | HEFESTDROID: highly effective features for android malware detection and analysis | |
CN105095752B (zh) | 病毒数据包的识别方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171020 |
|
RA01 | Restoration of patent right | ||
RA01 | Restoration of patent right |
Former decision: deemed withdrawal of patent application after publication Former decision publication date: 20200403 |
|
GR01 | Patent grant | ||
GR01 | Patent grant |