CN113656807A - 一种漏洞管理方法、装置、设备及存储介质 - Google Patents
一种漏洞管理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113656807A CN113656807A CN202110967169.4A CN202110967169A CN113656807A CN 113656807 A CN113656807 A CN 113656807A CN 202110967169 A CN202110967169 A CN 202110967169A CN 113656807 A CN113656807 A CN 113656807A
- Authority
- CN
- China
- Prior art keywords
- vulnerability
- solutions
- vulnerabilities
- data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 31
- 238000012360 testing method Methods 0.000 claims description 21
- 238000012217 deletion Methods 0.000 claims description 19
- 230000037430 deletion Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007123 defense Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种漏洞管理方法、装置、设备及存储介质。该方法包括:采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段;通过关键词提取从所述目标漏洞字段中提取特征关键词,并基于所述特征关键词得到每个漏洞对应的特征向量;基于所述特征向量利用预先构建的层次聚类模型对所有漏洞进行聚类;获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案。能够提高漏洞管理效率、漏洞解决效率。
Description
技术领域
本发明涉及网络安全领域,特别涉及一种漏洞管理方法、装置、设备及存储介质。
背景技术
随着各个行业信息化程度的提高,信息安全问题也日渐凸显。漏洞是指系统的软硬件缺陷,可被非授权的人员非法利用。漏洞的发现、利用和防御是网络攻防的焦点。目前,漏洞的种类和数量逐渐增多,因此对软件漏洞的管理和分析变得越来越重要,现有技术中,通过对检测到的漏洞生成相应的漏洞解决方案以进行漏洞的管理,面对大量的漏洞降低了漏洞管理效率。因此,如何提高漏洞管理效率,提高漏洞解决效率是目前亟需解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种漏洞管理方法、装置、设备及介质,能够提高漏洞修复和管理的效率。其具体方案如下:
第一方面,本申请公开了一种漏洞管理方法,包括:
采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段;
通过关键词提取从所述目标漏洞字段中提取特征关键词,并基于所述特征关键词得到每个漏洞对应的特征向量;
基于所述特征向量利用预先构建的层次聚类模型对所有漏洞进行聚类;
获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案。
可选的,所述通过关键词提取从所述目标漏洞字段中提取特征关键词,包括:
对所述目标漏洞字段进行字符删除和分词处理,得到漏洞分词;所述字符删除包括中文停止词删除、标点符号删除和特殊字符删除;
通过关键词提取从所述漏洞分词中提取得到所述特征关键词。
可选的,所述基于所述特征关键词得到每个漏洞对应的特征向量,包括:
计算每个所述特征关键词对应的词频和TF-IDF值,并基于所述词频和所述TF-IDF值建立向量空间模型,以得到每个漏洞对应的特征向量。
可选的,所述采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段,包括:
利用爬虫从多个漏洞平台采集得到多个漏洞对应的漏洞数据;
对所述漏洞数据进行数据标准化解析,以得到目标漏洞字段;所述目标漏洞字段包括漏洞名称、漏洞描述、影响实体、影响后果、解决方案、CVE编号、CNNVD编号和NVD编号。
可选的,所述对所述漏洞数据进行数据标准化解析,以得到目标漏洞字段之后,还包括:
基于所述CVE编号、CNNVD编号和NVD编号按照漏洞来源优先级,对所述目标漏洞字段进行去重操作,以得到去重后的目标漏洞字段。
可选的,所述获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案,包括:
从所述目标漏洞字段中,提取相同类型的每个漏洞对应的所述解决方案;
利用余弦相似度算法计算每个所述解决方案之间的相似度,并对大于相似度阈值的所述解决方案进行去重及合并处理,以最终得到该类型漏洞的通用漏洞解决方案。
可选的,所述层次聚类模型的构建过程,包括:
将漏洞数据按照漏洞随机分成k份,并依次选取1份作为测试集其余作为训练集;
利用所述训练集通过层次聚类算法训练待训练模型,并采用余弦相似度算法计算所述训练集内不同漏洞数据之间的相似度,然后利用所述测试集对训练后模型进行测试,并保存模型的评估指标;
通过依次选取的训练集和测试集不断进行模型训练,得到所述层次聚类模型,并将每次保存的所述评估指标的平均值作为所述层次聚类模型的评估指标。
第二方面,本申请公开了一种漏洞管理装置,包括:
采集模块,用于采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段;
特征提取模块,用于通过关键词提取从所述目标漏洞字段中提取特征关键词,并基于所述特征关键词得到每个漏洞对应的特征向量;
聚类模块,用于基于所述特征向量利用预先构建的层次聚类模型对所有漏洞进行聚类;
通用漏洞解决方案生成模块,用于获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的漏洞管理方法。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中计算机程序被处理器执行时实现前述的漏洞管理方法。
本申请中,采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段;通过关键词提取从所述目标漏洞字段中提取特征关键词,并基于所述特征关键词得到每个漏洞对应的特征向量;基于所述特征向量利用预先构建的层次聚类模型对所有漏洞进行聚类;获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案。可见,根据关键词提取的漏洞数据中的特征关键词,得到每个洞的特征向量,然后根据该特征向量利用层次聚类模型对所有漏洞进行聚类,并在聚类后,通过对相同类型的漏洞对应的漏洞解决方案进行去重合并,得到同一类型漏洞对应的一个通用漏洞解决方案,以得到不同类型漏洞对应的通用漏洞解决方案,大大提高漏洞聚类准确率,同时输出各类漏洞的通用漏洞解决方案以方便运维人员对暂无漏洞解决方案的漏洞快速进行漏洞修复,提高了漏洞管理的能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种漏洞管理方法流程图;
图2为本申请提供的一种具体的漏洞管理方法流程图;
图3为本申请提供的一种漏洞管理装置结构示意图;
图4为本申请提供的一种电子设备结构图。
具体实施方式
现有技术中,通过对检测到的漏洞生成相应的漏洞解决方案以进行漏洞的管理,面对大量的漏洞降低了漏洞管理效率。为克服上述技术问题,本申请提出一种漏洞管理方法,能够提高漏洞管理效率、漏洞解决效率。
本申请实施例公开了一种漏洞管理方法,参见图1所示,该方法可以包括以下步骤:
步骤S11:采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段。
本实施例中,首先采集漏洞数据,然后对上述漏洞数据进行预处理得到目标漏洞字段,即需要的数据字段。
本实施例中,所述采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段,可以包括:利用爬虫从多个漏洞平台采集得到多个漏洞对应的漏洞数据;对所述漏洞数据进行数据标准化解析,以得到目标漏洞字段;所述目标漏洞字段包括漏洞名称、漏洞描述、影响实体、影响后果、解决方案、CVE(Common Vulnerabilities&Exposures,公共漏洞和暴露)编号、CNNVD(China National Vulnerability Database of Information Securit,中国国家信息安全漏洞库)编号和NVD(National Vulnerability Database,漏洞数据库)编号。即如图2所示,通过爬虫技术从多个漏洞平台采集得到多个漏洞的漏洞数据,然后对洞数据进行数据标准化解析,得到漏洞名称、漏洞描述、影响实体、影响后果、解决方案、CVE编号、CNNVD编号和NVD编号等字段数据。
本实施例中,所述对所述漏洞数据进行数据标准化解析,以得到目标漏洞字段之后,还可以包括:基于所述CVE编号、CNNVD编号和NVD编号按照漏洞来源优先级,对所述目标漏洞字段进行去重操作,以得到去重后的目标漏洞字段。可以理解的是,通过设置漏洞来源优先级,根据漏洞的唯一性标识CVE编号、CNNVD编号和NVD编号进行漏洞去重,保留来源优先级最高的漏洞数据。
步骤S12:通过关键词提取从所述目标漏洞字段中提取特征关键词,并基于所述特征关键词得到每个漏洞对应的特征向量。
本实施例中,得到上述目标漏洞数据后,通过关键词提取技术从上述目标漏洞数据中提取得到关键特征词,然后将特征关键词的文本数据转换为特征向量以为后续的聚类提供基础。
本实施例中,所述通过关键词提取从所述目标漏洞字段中提取特征关键词,可以包括:对所述目标漏洞字段进行字符删除和分词处理,得到漏洞分词;所述字符删除包括中文停止词删除、标点符号删除和特殊字符删除;通过关键词提取从所述漏洞分词中提取得到所述特征关键词。即本实施例中在提取特征关键词之前,先删除上述目标漏洞字段中指定的中文停止词、标点符号和特殊字符,并对目标漏洞字段文本进行分词,并将单词中所有字母的大写形式转换为字母的小写形式,得到漏洞分词,然后再通过关键词提取从漏洞分词中提取得到上述特征关键词。
本实施例中,所述基于所述特征关键词得到每个漏洞对应的特征向量,可以包括:计算每个所述特征关键词对应的词频和TF-IDF值,并基于所述词频和所述TF-IDF值建立向量空间模型,以得到每个漏洞对应的特征向量。具体的,可以通过列出各字段所有出现的特征关键词,并对每个特征关键词行数字编码,然后计算每个特征关键词的词频和TF-IDF值(term frequency–inverse document frequency,词频-逆文档频率值);然后根据词频和TF-IDF值建立向量空间模型,以利用特征向量表征漏洞字段文本数据。
步骤S13:基于所述特征向量利用预先构建的层次聚类模型对所有漏洞进行聚类。
本实施例中,得到上述特征向量后,根据上述特征向量利用预先构建的层次聚类模型对所有获取的漏洞进行聚类,上述层次聚类模型可以为采用k折交叉验证构建的层次聚类模型。
本实施例中,所述层次聚类模型的构建过程,可以包括:将漏洞数据按照漏洞随机分成k份,并依次选取1份作为测试集其余作为训练集;利用所述训练集通过层次聚类算法训练待训练模型,并采用余弦相似度算法计算所述训练集内不同漏洞数据之间的相似度,然后利用所述测试集对训练后模型进行测试,并保存模型的评估指标;通过依次选取的训练集和测试集不断进行模型训练,得到所述层次聚类模型,并将每次保存的所述评估指标的平均值作为所述层次聚类模型的评估指标。
具体的,先进行数据划分,将漏洞数据随机分成k份(k大于等于2),依次取出一份作为测试集,剩余k-1份作为训练集;然后基于漏洞的特征向量使用余弦相似度算法计算两两漏洞的余弦值,得到两两漏洞的相似度,其中,夹角余弦值越大,两个向量的夹角越小,表示越相似。在模型训练阶段,采用层次聚类训练待训练模型,将具有一定相似度的漏洞归为一类。可以理解的是,通过两两漏洞的相似度计算,每个漏洞都被映射到一个R维空间的向量中,而R为词典中分词的数量。并且,本实施例中采用层次聚类方法训练得到层次聚类模型,层次聚类算法是通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点的算法。层次聚类在开始时将每个数据看成一个类,接着合并两个最相似的,直到最后合并成一个组为止,适用于不存在分类体系、类别数不确定的场合。进一步,训练完后利用测试集进行测试,计算并保存模型的评估指标。由于将漏洞数据随机分成k份,因此通过k次不断训练后得到拟合度较高的层次聚类模型,这样每个子集都有一次机会作为测试集,其余机会作为训练集,然后,计算k组测试结果的平均值作为层次聚类模型精度的估计,并作为当前k折交叉验证下层次聚类模型的性能指标。可见,根据关键词提取从技术提取特征关键词及统计词频率以得到漏洞数据的特征向量,基于余弦相似度算法,通过运用k折交叉验证构建层次聚类模型,k折交叉验证重复运用子样本进行训练和验证,可以提高层次聚类模型的泛化性和拟合度,进而提高漏洞聚类的准确度。
步骤S14:获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案。
本实施例中,对漏洞进行聚类后,获取漏洞分别对应的漏洞解决方案,并对同一类型漏洞对应的所有漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案,由此,得到每种类型的漏洞对应的通用漏洞解决方案。
本实施例中,所述获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案,可以包括:从所述目标漏洞字段中,提取相同类型的每个漏洞对应的所述解决方案;利用余弦相似度算法计算每个所述解决方案之间的相似度,并对大于相似度阈值的所述解决方案进行去重及合并处理,以最终得到该类型漏洞的通用漏洞解决方案。即利用余弦相似度算法计算每个漏洞解决方案对应其他同类漏洞解决方案的相似度,达到相似度阈值后合并相似解决方案,最终得到不同类型漏洞对应的不同的通用漏洞解决方案。
由上可见,本实施例中根据关键词提取的漏洞数据中的特征关键词,得到每个洞的特征向量,然后根据该特征向量利用层次聚类模型对所有漏洞进行聚类,并在聚类后,通过对相同类型的漏洞对应的漏洞解决方案进行去重合并,得到同一类型漏洞对应的一个通用漏洞解决方案,以得到不同类型漏洞对应的通用漏洞解决方案,大大提高漏洞聚类准确率,能够对漏洞进行有效地聚类管理,不但可以提高漏洞的修复和管理的效率,也可以减少系统被攻击和破坏的风险,针对不同类型提供通用漏洞解决方案,有助于增强用户针对性地消除漏洞和及时应对新公开的漏洞,提高系统安全性。
相应的,本申请实施例还公开了一种漏洞管理装置,参见图3所示,该装置包括:
采集模块11,用于采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段;
特征提取模块12,用于通过关键词提取从所述目标漏洞字段中提取特征关键词,并基于所述特征关键词得到每个漏洞对应的特征向量;
聚类模块13,用于基于所述特征向量利用预先构建的层次聚类模型对所有漏洞进行聚类;
通用漏洞解决方案生成模块14,用于获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案。
由上可见,本实施例中根据关键词提取的漏洞数据中的特征关键词,得到每个洞的特征向量,然后根据该特征向量利用层次聚类模型对所有漏洞进行聚类,并在聚类后,通过对相同类型的漏洞对应的漏洞解决方案进行去重合并,得到同一类型漏洞对应的一个通用漏洞解决方案,以得到不同类型漏洞对应的通用漏洞解决方案,大大提高漏洞聚类准确率,同时输出各类漏洞的通用漏洞解决方案以方便运维人员对暂无漏洞解决方案的漏洞快速进行漏洞修复,提高了漏洞管理的能力。
在一些具体实施例中,所述特征提取模块12具体可以包括:
删除及分词单元,用于对所述目标漏洞字段进行字符删除和分词处理,得到漏洞分词;所述字符删除包括中文停止词删除、标点符号删除和特殊字符删除;
提取单元,用于通过关键词提取从所述漏洞分词中提取得到所述特征关键词。
在一些具体实施例中,所述特征提取模块12具体可以包括:
特征向量生成单元,用于计算每个所述特征关键词对应的词频和TF-IDF值,并基于所述词频和所述TF-IDF值建立向量空间模型,以得到每个漏洞对应的特征向量。
在一些具体实施例中,所述采集模块11具体可以包括:
漏洞采集单元,用于利用爬虫从多个漏洞平台采集得到多个漏洞对应的漏洞数据;
数据解析单元,用于对所述漏洞数据进行数据标准化解析,以得到目标漏洞字段;所述目标漏洞字段包括漏洞名称、漏洞描述、影响实体、影响后果、解决方案、CVE编号、CNNVD编号和NVD编号。
在一些具体实施例中,所述采集模块11具体可以包括:
目标漏洞字段去重单元,用于基于所述CVE编号、CNNVD编号和NVD编号按照漏洞来源优先级,对所述目标漏洞字段进行去重操作,以得到去重后的目标漏洞字段。
在一些具体实施例中,所述通用漏洞解决方案生成模块14具体可以包括:
解决方案提取单元,用于从所述目标漏洞字段中,提取相同类型的每个漏洞对应的所述解决方案;
相似度计算单元,用于利用余弦相似度算法计算每个所述解决方案之间的相似度,并对大于相似度阈值的所述解决方案进行去重及合并处理,以最终得到该类型漏洞的通用漏洞解决方案。
在一些具体实施例中,所述聚类模块13具体可以包括:
层次聚类模型构建单元,用于将漏洞数据按照漏洞随机分成k份,并依次选取1份作为测试集其余作为训练集;利用所述训练集通过层次聚类算法训练待训练模型,并采用余弦相似度算法计算所述训练集内不同漏洞数据之间的相似度,然后利用所述测试集对训练后模型进行测试,并保存模型的评估指标;通过依次选取的训练集和测试集不断进行模型训练,得到所述层次聚类模型,并将每次保存的所述评估指标的平均值作为所述层次聚类模型的评估指标。
进一步的,本申请实施例还公开了一种电子设备,参见图4所示,图中的内容不能被认为是对本申请的使用范围的任何限制。
图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的漏洞管理方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及包括漏洞数据在内的数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的漏洞管理方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述任一实施例公开的漏洞管理方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种漏洞管理方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种漏洞管理方法,其特征在于,包括:
采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段;
通过关键词提取从所述目标漏洞字段中提取特征关键词,并基于所述特征关键词得到每个漏洞对应的特征向量;
基于所述特征向量利用预先构建的层次聚类模型对所有漏洞进行聚类;
获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案。
2.根据权利要求1所述的漏洞管理方法,其特征在于,所述通过关键词提取从所述目标漏洞字段中提取特征关键词,包括:
对所述目标漏洞字段进行字符删除和分词处理,得到漏洞分词;所述字符删除包括中文停止词删除、标点符号删除和特殊字符删除;
通过关键词提取从所述漏洞分词中提取得到所述特征关键词。
3.根据权利要求1所述的漏洞管理方法,其特征在于,所述基于所述特征关键词得到每个漏洞对应的特征向量,包括:
计算每个所述特征关键词对应的词频和TF-IDF值,并基于所述词频和所述TF-IDF值建立向量空间模型,以得到每个漏洞对应的特征向量。
4.根据权利要求1所述的漏洞管理方法,其特征在于,所述采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段,包括:
利用爬虫从多个漏洞平台采集得到多个漏洞对应的漏洞数据;
对所述漏洞数据进行数据标准化解析,以得到目标漏洞字段;所述目标漏洞字段包括漏洞名称、漏洞描述、影响实体、影响后果、解决方案、CVE编号、CNNVD编号和NVD编号。
5.根据权利要求4所述的漏洞管理方法,其特征在于,所述对所述漏洞数据进行数据标准化解析,以得到目标漏洞字段之后,还包括:
基于所述CVE编号、CNNVD编号和NVD编号按照漏洞来源优先级,对所述目标漏洞字段进行去重操作,以得到去重后的目标漏洞字段。
6.根据权利要求4所述的漏洞管理方法,其特征在于,所述获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案,包括:
从所述目标漏洞字段中,提取相同类型的每个漏洞对应的所述解决方案;
利用余弦相似度算法计算每个所述解决方案之间的相似度,并对大于相似度阈值的所述解决方案进行去重及合并处理,以最终得到该类型漏洞的通用漏洞解决方案。
7.根据权利要求1至6任一项所述的漏洞管理方法,其特征在于,所述层次聚类模型的构建过程,包括:
将漏洞数据按照漏洞随机分成k份,并依次选取1份作为测试集其余作为训练集;
利用所述训练集通过层次聚类算法训练待训练模型,并采用余弦相似度算法计算所述训练集内不同漏洞数据之间的相似度,然后利用所述测试集对训练后模型进行测试,并保存模型的评估指标;
通过依次选取的训练集和测试集不断进行模型训练,得到所述层次聚类模型,并将每次保存的所述评估指标的平均值作为所述层次聚类模型的评估指标。
8.一种漏洞管理装置,其特征在于,包括:
采集模块,用于采集漏洞数据,并对所述漏洞数据进行预处理以得到目标漏洞字段;
特征提取模块,用于通过关键词提取从所述目标漏洞字段中提取特征关键词,并基于所述特征关键词得到每个漏洞对应的特征向量;
聚类模块,用于基于所述特征向量利用预先构建的层次聚类模型对所有漏洞进行聚类;
通用漏洞解决方案生成模块,用于获取相同类型的漏洞分别对应的漏洞解决方案,并对所有所述漏洞解决方案进行去重合并处理,将去重合并后的漏洞解决方案作为该类型漏洞的通用漏洞解决方案。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的漏洞管理方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中计算机程序被处理器执行时实现如权利要求1至7任一项所述的漏洞管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967169.4A CN113656807B (zh) | 2021-08-23 | 2021-08-23 | 一种漏洞管理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967169.4A CN113656807B (zh) | 2021-08-23 | 2021-08-23 | 一种漏洞管理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656807A true CN113656807A (zh) | 2021-11-16 |
CN113656807B CN113656807B (zh) | 2024-04-16 |
Family
ID=78480695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110967169.4A Active CN113656807B (zh) | 2021-08-23 | 2021-08-23 | 一种漏洞管理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656807B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021156A (zh) * | 2022-01-05 | 2022-02-08 | 北京华云安信息技术有限公司 | 漏洞自动化聚合的整理方法、装置、设备以及存储介质 |
CN115422556A (zh) * | 2022-11-07 | 2022-12-02 | 中国科学技术大学 | 漏洞利用概率预测方法、系统、设备及存储介质 |
CN115563619A (zh) * | 2022-09-27 | 2023-01-03 | 北京墨云科技有限公司 | 基于文本预训练模型的漏洞相似性对比方法及系统 |
CN116108455A (zh) * | 2023-04-12 | 2023-05-12 | 北京华云安信息技术有限公司 | 漏洞去重方法、装置、设备以及存储介质 |
CN116502241A (zh) * | 2023-06-29 | 2023-07-28 | 中汽智联技术有限公司 | 一种基于PoC载荷库的漏洞扫描工具增强方法和系统 |
CN116662576A (zh) * | 2023-07-26 | 2023-08-29 | 北京天云海数技术有限公司 | 一种安全漏洞与法律法规的关联方法及关联系统 |
CN117473417A (zh) * | 2023-11-27 | 2024-01-30 | 北京远大宏略科技股份有限公司 | 一种基于云计算的信息安全威胁漏洞监管方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886020A (zh) * | 2019-01-24 | 2019-06-14 | 燕山大学 | 基于深度神经网络的软件漏洞自动分类方法 |
CN110502902A (zh) * | 2019-08-07 | 2019-11-26 | 杭州海康威视数字技术股份有限公司 | 一种漏洞分类方法、装置及设备 |
US20200057858A1 (en) * | 2018-08-20 | 2020-02-20 | Veracode, Inc. | Open source vulnerability prediction with machine learning ensemble |
CN111049858A (zh) * | 2019-12-26 | 2020-04-21 | 杭州安恒信息技术股份有限公司 | 一种基于交叉验证的基线扫描漏洞去重方法、装置及设备 |
CN112417893A (zh) * | 2020-12-16 | 2021-02-26 | 江苏徐工工程机械研究院有限公司 | 一种基于语义层次聚类的软件功能需求分类方法及系统 |
CN112765031A (zh) * | 2021-01-25 | 2021-05-07 | 北京航空航天大学 | 一种群智化漏洞挖掘任务的分解方法 |
-
2021
- 2021-08-23 CN CN202110967169.4A patent/CN113656807B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200057858A1 (en) * | 2018-08-20 | 2020-02-20 | Veracode, Inc. | Open source vulnerability prediction with machine learning ensemble |
CN109886020A (zh) * | 2019-01-24 | 2019-06-14 | 燕山大学 | 基于深度神经网络的软件漏洞自动分类方法 |
CN110502902A (zh) * | 2019-08-07 | 2019-11-26 | 杭州海康威视数字技术股份有限公司 | 一种漏洞分类方法、装置及设备 |
CN111049858A (zh) * | 2019-12-26 | 2020-04-21 | 杭州安恒信息技术股份有限公司 | 一种基于交叉验证的基线扫描漏洞去重方法、装置及设备 |
CN112417893A (zh) * | 2020-12-16 | 2021-02-26 | 江苏徐工工程机械研究院有限公司 | 一种基于语义层次聚类的软件功能需求分类方法及系统 |
CN112765031A (zh) * | 2021-01-25 | 2021-05-07 | 北京航空航天大学 | 一种群智化漏洞挖掘任务的分解方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021156A (zh) * | 2022-01-05 | 2022-02-08 | 北京华云安信息技术有限公司 | 漏洞自动化聚合的整理方法、装置、设备以及存储介质 |
CN115563619A (zh) * | 2022-09-27 | 2023-01-03 | 北京墨云科技有限公司 | 基于文本预训练模型的漏洞相似性对比方法及系统 |
CN115422556A (zh) * | 2022-11-07 | 2022-12-02 | 中国科学技术大学 | 漏洞利用概率预测方法、系统、设备及存储介质 |
CN115422556B (zh) * | 2022-11-07 | 2023-03-24 | 中国科学技术大学 | 漏洞利用概率预测方法、系统、设备及存储介质 |
CN116108455A (zh) * | 2023-04-12 | 2023-05-12 | 北京华云安信息技术有限公司 | 漏洞去重方法、装置、设备以及存储介质 |
CN116502241A (zh) * | 2023-06-29 | 2023-07-28 | 中汽智联技术有限公司 | 一种基于PoC载荷库的漏洞扫描工具增强方法和系统 |
CN116502241B (zh) * | 2023-06-29 | 2023-10-10 | 中汽智联技术有限公司 | 一种基于PoC载荷库的漏洞扫描工具增强方法和系统 |
CN116662576A (zh) * | 2023-07-26 | 2023-08-29 | 北京天云海数技术有限公司 | 一种安全漏洞与法律法规的关联方法及关联系统 |
CN117473417A (zh) * | 2023-11-27 | 2024-01-30 | 北京远大宏略科技股份有限公司 | 一种基于云计算的信息安全威胁漏洞监管方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113656807B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113656807B (zh) | 一种漏洞管理方法、装置、设备及存储介质 | |
CN104714931A (zh) | 用于选择用以代表表格式信息的方法和系统 | |
JP2018500640A (ja) | 特徴的なサブトレースマイニングを使用する、経時的グラフにおける挙動クエリ構築のための方法及びシステム | |
CN112989348B (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
Zhang et al. | Toward unsupervised protocol feature word extraction | |
CN113239365B (zh) | 一种基于知识图谱的漏洞修复方法 | |
CN105024987A (zh) | 一种web业务日志的监测方法和装置 | |
Studiawan et al. | Automatic event log abstraction to support forensic investigation | |
US20220027253A1 (en) | Method, electronic device, and computer program product for analyzing log file | |
Zhang et al. | Ex-action: Automatically extracting threat actions from cyber threat intelligence report based on multimodal learning | |
EP3009942A1 (en) | Social contact message monitoring method and device | |
US20200202233A1 (en) | Future scenario generating device and method, and computer program | |
Alves et al. | Leveraging BERT's Power to Classify TTP from Unstructured Text | |
CN116055067B (zh) | 一种弱口令检测的方法、装置、电子设备及介质 | |
CN111984797A (zh) | 客户身份识别装置及方法 | |
Jing et al. | Augmenting mulval with automated extraction of vulnerabilities descriptions | |
CN115174205B (zh) | 一种网络空间安全实时监测方法、系统及计算机存储介质 | |
CN116302089A (zh) | 基于图片相似度的代码克隆检测方法、系统及存储介质 | |
CN116366312A (zh) | 一种Web攻击检测方法、装置及存储介质 | |
CN107491530B (zh) | 一种基于文件自动标记信息的社会关系挖掘分析方法 | |
CN113688240B (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
WO2022172437A1 (ja) | 影響推定装置、影響推定方法、および、影響推定プログラム | |
CN114003737A (zh) | 基于人工智能的双录审查辅助方法、装置、设备及介质 | |
CN117278271B (zh) | 一种属性基加密的数据传输方法及系统 | |
CN109408713A (zh) | 一种基于用户反馈信息的软件需求检索系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |