CN109063485B

CN109063485B - 一种基于漏洞平台的漏洞分类统计系统及方法

Info

Publication number: CN109063485B
Application number: CN201810846231.2A
Authority: CN
Inventors: 姚茗亮; 史闻博; 鲁冰洁; 刘懿莹; 何忠; 郑乾龙
Original assignee: Northeastern University Qinhuangdao Branch
Current assignee: Northeastern University Qinhuangdao Branch
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2020-08-04
Anticipated expiration: 2038-07-27
Also published as: CN109063485A

Abstract

本发明公开了一种基于漏洞平台的漏洞分类统计方法，该统计方法包括：用编写的脚本获取选定平台上的漏洞数据；采用特征关键词提取技术对所述漏洞数据进行数据特征提取；利用机器学习和自然语言处理技术建立自动分类模型；采用所述自动分类模型对所述数据特征进行分类，得到不同的漏洞类型；根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析。该发明能针对性地分析出不同漏洞类型的出现状况，能对不同地区、不同组织以及不同时间内的漏洞进行清楚的分类统计，提高漏洞归档效率。

Description

一种基于漏洞平台的漏洞分类统计系统及方法

技术领域

本发明涉及电子信息领域技术领域，特别是一种基于漏洞平台的漏洞分类统计系统及方法。

背景技术

随着信息技术的不断发展，人类社会的信息化程度越来越高，整个社会对网络信息的依赖程度也越来越高，从而网络安全的重要性也越来越高。目前各种对网络安全造成威胁的攻击也越来越多，例如，漏洞攻击。漏洞是在硬件、软件、协议的具体实现或系统安全策略上存在的缺陷，从而可以使攻击者能够在未授权的情况下访问或破坏系统。目前，很多行政机构、企业网站都使用第三方建站系统，这些第三方建站系统时不时被发现网站有漏洞。

目前，为保护网络用户的信息安全，各网站都采用一个专门的中心机构进行安全漏洞的统一维护，即人工来收集安全问题、组织专人进行漏洞问题核实和验证、进行漏洞归档等，但是，这些维护工作需要耗费大量的人力和时间，无法对不同地区、不同组织以及不同时间内的漏洞进行清楚的分类统计。

发明内容

本发明的目的是提供了一种基于漏洞平台的漏洞分类统计系统及方法，能针对性地分析出不同漏洞类型的出现状况，能对不同地区、不同组织以及不同时间内的漏洞进行清楚的分类统计，提高漏洞归档效率。

为实现上述目的，本发明提供了如下方案：

一种基于漏洞平台的漏洞分类统计方法，包括：

获取在选定平台上编写的爬虫脚本爬取的漏洞数据；

采用特征关键词提取技术对所述漏洞数据进行数据特征提取；

利用机器学习和自然语言处理技术建立自动分类模型；

采用所述自动分类模型对所述数据特征进行分类，得到不同的漏洞类型；

根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析。

所述采用特征关键词提取技术对所述漏洞数据进行数据特征提取，具体包括：

对所述漏洞数据根据标题进行初步分类；

删除每类漏洞数据中指定的中文停止词；

计算去除中文停止词的漏洞数据中每个词的词频-逆文档频率值；

提取每类漏洞数据中词频-逆文档频率值按照从高至低顺序排列的前250个词；

对每类漏洞数据的前250个词中的重复词进行合并和删除；

将所述重复词作为数据特征。

所述用编写的脚本获取选定平台上的漏洞数据，具体包括：

在众多漏洞平台中选择出漏洞平台；所述选择的漏洞平台为提交漏洞总数和漏洞种类总数综合最多的平台；

收集白帽子安全人员提交到所述漏洞平台的漏洞数据；

针对选择的不同的漏洞平台编写相应的爬虫脚本；

采用所述爬虫脚本从收集到的漏洞数据中爬取相应漏洞数据。

所述根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析，具体包括：

根据不同类型的漏洞所占的百分比分析不同年份的漏洞数量的变化趋势；

根据不同年份收集到的不同单位的漏洞类型总数，判断漏洞类型与各个单位之间的关系；

根据各漏洞类型的提交时间，判断各组织对不同漏洞类型的反应能力；

根据不同地区提交的漏洞类型的数量，判断各地区提供漏洞类型的变化趋势；

根据白帽子安全人员提供的漏洞类型所占的百分比，判断某一漏洞类型数量与相应白帽子安全人员的数量的关系以及各个白帽子安全人员提供不同漏洞类型量的变化趋势。

所述各组织包括上市公司、政府机构、创业公司以及教育机构。

一种基于漏洞平台的漏洞分类统计系统，包括：

数据获取模块，用于获取在选定平台上编写的爬虫脚本爬取的漏洞数据；

数据特征提取模块，用于采用特征关键词提取技术对所述漏洞数据进行数据特征提取；

自动分类模型建立模块，用于利用机器学习和自然语言处理技术建立自动分类模型；

分类模块，用于采用所述自动分类模型对所述数据特征进行分类，得到不同的漏洞类型；

统计模块，用于根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析。

所述数据特征提取模块，具体包括：

初步分类单元，用于对所述漏洞数据根据标题进行初步分类；

删除单元，用于删除每类漏洞数据中指定的中文停止词；

计算单元，用于计算去除中文停止词的漏洞数据中每个词的词频-逆文档频率值；

提取单元，用于提取每类漏洞数据中词频-逆文档频率值按照从高至低顺序排列的前250个词；

筛选单元，用于对每类漏洞数据的前250个词中的重复词进行合并和删除；

数据特征获取单元，用于将所述重复词作为数据特征。

所述数据获取模块，具体包括：

漏洞平台选择单元，用于在众多漏洞平台中选择出漏洞平台；所述选择的漏洞平台为提交漏洞总数和漏洞种类总数综合最多的平台；

漏洞数据收集单元，用于收集白帽子安全人员提交到所述漏洞平台的漏洞数据；

爬虫脚本编写单元，用于针对选择的不同的漏洞平台编写相应的爬虫脚本；

漏洞数据获取单元，用于采用所述爬虫脚本从收集到的漏洞数据中爬取相应漏洞数据。

所述统计模块，具体包括：

年份漏洞统计单元，用于根据不同类型的漏洞所占的百分比分析不同年份的漏洞数量的变化趋势；

单位漏洞统计单元，用于根据不同年份收集到的不同单位的漏洞类型总数，判断漏洞类型与各个单位之间的关系；

组织漏洞统计单元，用于根据各漏洞类型的提交时间，判断各组织对不同漏洞类型的反应能力；

地区漏洞统计单元，用于根据不同地区提交的漏洞类型的数量，判断各地区提供漏洞类型的变化趋势；

安全人员漏洞统计单元，用于根据白帽子安全人员提供的漏洞类型所占的百分比，判断某一漏洞类型数量与相应白帽子安全人员的数量的关系以及各个白帽子安全人员提供不同漏洞类型量的变化趋势。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于漏洞平台的漏洞分类统计系统及方法，采用特征关键词提取技术对所述漏洞数据进行数据特征提取，采用自动分类模型对数据特征进行分类，得到不同的漏洞类型；根据不同漏洞类型的出现情况对不同地区、不同组织以及不同时间内的漏洞进行清楚的分类统计，提高漏洞归档效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于漏洞平台的安全分析评估方法的流程示意图；

图2为本发明基于漏洞平台的安全分析评估系统实施例一的结构示意图；

图3为本发明基于漏洞平台的安全分析评估系统实施例二的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例一种基于漏洞平台的安全分析评估方法的方法流程图。

如图1所示，一种基于漏洞平台的漏洞分类统计方法，包括：

步骤101：获取在选定平台上编写的爬虫脚本爬取的漏洞数据；

步骤102：采用TF-IDF技术对所述漏洞数据进行数据特征提取；

步骤103：利用机器学习和自然语言处理技术建立自动分类模型；

步骤104：采用所述自动分类模型对所述数据特征进行分类，得到不同的漏洞类型；

步骤105：根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析。

所述步骤102：采用TF-IDF技术对所述漏洞数据进行数据特征提取，具体包括：

对所述漏洞数据根据标题进行初步分类；

删除每类漏洞数据中指定的中文停止词；

对每类漏洞数据的前250个词中的重复词进行合并和删除；

将所述重复词作为数据特征。

所述步骤101：用编写的脚本获取选定平台上的漏洞数据，具体包括：

收集白帽子安全人员提交到所述漏洞平台的漏洞数据；

针对选择的不同的漏洞平台编写相应的爬虫脚本；

所述步骤105：根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析，具体包括：

基于漏洞平台的安全分析评估系统的实施例一

图2为本发明基于漏洞平台的安全分析评估系统实施例一的结构示意图。

如图2所示，一种基于漏洞平台的漏洞分类统计系统，包括：

数据获取模块201，用于获取在选定平台上编写的爬虫脚本爬取的漏洞数据；

数据特征提取模块202，用于采用特征关键词提取技术对所述漏洞数据进行数据特征提取；

自动分类模型建立模块203，用于利用机器学习和自然语言处理技术建立自动分类模型；

分类模块204，用于采用所述自动分类模型对所述数据特征进行分类，得到不同的漏洞类型；

统计模块205，用于根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析。

所述数据特征提取模块202，具体包括：

删除单元，用于删除每类漏洞数据中指定的中文停止词；

数据特征获取单元，用于将所述重复词作为数据特征。

所述数据获取模块201，具体包括：

所述统计模块205，具体包括：

其中，所述步骤101：获取在选定平台上编写的爬虫脚本爬取的漏洞数据的阶段，

白帽子安全研究人员向漏洞平台提交高质量漏洞报告的过程中，不仅能够证明安全研究人员实力，也能为我们的数据提供更权威的安全保障，根据对现在安全研究人员的调查，我们以三个因素作为选定漏洞平台的标准：

a)漏洞平台提交的漏洞总数、对公众和研究人员的影响、平台功能和奖励规则；

b)不同行业的公司组织的数量，研究人员与公司之间的反馈；

c)白帽子安全研究人员的数量，他们的技术技能，以及他们在计算机安全方面的经验。

根据上述原则选取多个平台，从多个平台上爬取数据进行分析，随后针对这相应平台编写相应的爬虫脚本爬取相应数据。

在所述步骤102中，进行数据特征提取时，结合相关论文的方法，利用机器学习，采用自己编写的算法将海量数据进行分类，为了利用机器学习，我们需要从数据集中提取特征，每个漏洞类型有许多属性，如标题、研究人员、内容等，通过手动分析少数数据，可以确定标题是不同类型漏洞之间的最佳区别特征，所以我们选择从标题中提取关键字作为分类器的特征。从文本中获取关键词的方法很多，如词频、IF-IDF、语义关键词等。在对这些方法进行评估后，我们选择了IF-IDF算法来提取相关的关键词。

根据漏洞库的常用描述和通用漏洞的名称、特点等。建立一个全面的漏洞词库字典。同时，对漏洞库的词进行权重分配(权重值范围是0-1)，关于权重分配的标准，根据词组的重要性来决定(如：如果匹配到某个特定漏洞名词，权重值为1，如果匹配到某个通用的漏洞描述，权重值为0.5，如果匹配到一些语义较为模糊的词，权重值为0.1)。这个字典是用来判断语义中的关键词的关键。

将语义中的结构助词(如"的"、“地”、“得”)，人称代词(“你”，“我”，“他”)去掉。

然后对剩下的词组或字和漏洞库字典进行匹配，并对匹配到的关键词进行统计，并进行加权求和(某个关键词出现的次数*他的权重)，比较各个关键词的权重和，权值高的就为最终的关键词。

基于漏洞平台的安全分析评估系统的实施例二

如图3所示，从多个漏洞信息泄露平台上编写相应爬虫脚本爬取漏洞数据；从各组织包括上市公司、政府机构、创业公司以及教育机构中的漏洞数据以及来自黑客论坛上的数据中爬取相应漏洞数据；对漏洞数据进行分类得到不同的漏洞类型。

具体的，通过自动分类模型分别得到不同年份、不同地区、不同组织的不同漏洞类型；计算单种漏洞数占总漏洞数的百分比；对单种漏洞数分析不同年份间的变化趋势。

数据集中得到每年不同组织(公司/政府机关/学校)不同类型漏洞提交数的数据；以可视化的方式呈现两者间的关系，并分析各数据横向(即年份)间的波动。

前期获得安全人员相关的数据集，内容包括：被发现的漏洞与其研究人员数量之间的关系；活跃时间超过一定年份的研究人员占同期总研究人员的百分比；包含解决建议的漏洞报告的提交占比；每次安全事故获得的报告提交量。

数据集中得到每年不同应用程序(取提交数前二十位的应用)漏洞提交数的数据；以可视化的方式呈现，根据从平台上抓取到漏洞报告的提交时间、抓取后比较不同安全研究组织(公司/政府/民间)提交重要漏洞报告的时间对各组织的反应能力做出分析。

综上所述，对漏洞数据进行分类得到不同的漏洞数据，进一步得到各地区、各年份、各组织的漏洞分布；根据收集漏洞类型的数目以及总漏洞数量综合判断研究人员的技术层次，并对各漏洞案例进行研究。

扩展性的，根据各地区、各年份和各组织的漏洞分布，大体判断每个地区、各年份以及各组织的整体安全形势问题，以及存在的特殊的漏洞类型所带来的问题，通过可视化的方式将漏洞类型进行展示，让平台使用者能具有一种目标意识，能针对性地分析出不同漏洞类型的出现状况，能对不同地区、不同组织以及不同时间内的漏洞进行清楚的分类统计，针对性的收集漏洞信息，判断漏洞类型，提高漏洞归档效率。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于漏洞平台的漏洞分类统计方法，其特征在于，包括：

用编写的脚本获取选定平台上的漏洞数据；

利用机器学习和自然语言处理技术建立自动分类模型；

根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析，具体包括：

2.根据权利要求1所述的一种基于漏洞平台的漏洞分类统计方法，其特征在于，所述采用特征关键词提取技术对所述漏洞数据进行数据特征提取，具体包括：

对所述漏洞数据根据标题进行初步分类；

删除每类漏洞数据中指定的中文停止词；

对每类漏洞数据的前250个词中的重复词进行合并和删除；

将所述重复词作为数据特征。

3.根据权利要求1所述的一种基于漏洞平台的漏洞分类统计方法，其特征在于，所述用编写的脚本获取选定平台上的漏洞数据，具体包括：

收集白帽子安全人员提交到所述漏洞平台的漏洞数据；

针对选择的不同的漏洞平台编写相应的爬虫脚本；

4.根据权利要求1所述的一种基于漏洞平台的漏洞分类统计方法，其特征在于，所述各组织包括上市公司、政府机构、创业公司以及教育机构。

5.一种基于漏洞平台的漏洞分类统计系统，其特征在于，包括：

数据获取模块，用于获取用编写的脚本获取选定平台上的漏洞数据；

统计模块，用于根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析，具体包括：

安全人员漏洞统计单元，用于根据白帽子安全人员提供的漏洞类型所占的百分比，判断某一漏洞类型数量与相应白帽子安全人员的数量以及各个白帽子安全人员提供提供不同漏洞类型的变化趋势。

6.根据权利要求5所述的一种基于漏洞平台的漏洞分类统计系统，其特征在于，所述数据特征提取模块，具体包括：

删除单元，用于删除每类漏洞数据中指定的中文停止词；

数据特征获取单元，用于将所述重复词作为数据特征。

7.根据权利要求5所述的一种基于漏洞平台的漏洞分类统计系统，其特征在于，所述数据获取模块，具体包括：