CN111291376B

CN111291376B - 一种基于众包和机器学习的web漏洞验证方法

Info

Publication number: CN111291376B
Application number: CN201811498958.2A
Authority: CN
Inventors: 陈振宇; 臧晓杰; 仲逸秋; 于越; 房春荣; 张欣
Original assignee: Shenzhen Muzhi Technology Co ltd
Current assignee: Shenzhen Muzhi Technology Co ltd
Priority date: 2018-12-08
Filing date: 2018-12-08
Publication date: 2023-05-05
Anticipated expiration: 2038-12-08
Also published as: CN111291376A

Abstract

基于众包和机器学习的web漏洞验证方法，其特征是使用自然语言处理技术，将众包漏洞验证报告中的文本描述进行分词，同义词替换，并基于DBSCAN的聚类分析等技术。本发明提出了一种全新的基于基于众包和机器学习的web漏洞验证技术，主要用于解决web安全漏洞误报率较高，安全专家团队人员二次人工验证成果过高的问题。本发明的有益效果在于三方面：1、通过众包派发方式，增加漏洞验证参与人员，众包报告结果结合机器学习分析，提升漏洞扫描报表的准确性；2、众包形式的验证方案对比专业安全专家团队验证，有利于节省二次人工验证的成本；3、该发明同时可用于“产教结合”的推广，提高安全专业学生的实践能力。

Description

一种基于众包和机器学习的web漏洞验证方法

技术领域

本发明属于计算机领域，涉及到众包技术和机器学习技术，用于在众包人员提交漏洞报告之后对其有效地筛选以及评判其内容的准确性，方便之后技术专家对漏洞的定位和审核，为一种对漏洞报告的自动化验证方法。

背景技术

众包指的是一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的大众的做法。众包的任务通常是由个人来承担。这里的工作任务是众包人员对网络安全漏洞的发现或者重现，然后以文本的形式提交漏洞报告。

现市场众多的漏洞安全检测软件并不能做到完美的检测效果，以及有一定的误报率，公司内部靠人力重现漏洞场景对于公司来说是一笔不小的人力开销，用众包的方式收集漏洞报告又会出现报告质量参差不齐而且数量众多的问题，如何在这些漏洞报告中提取我们想要的关键性内容，如何筛选符合规范的报告，以及如何评判一个报告的准确性就是我们目前要解决的问题。

自然语言处理会先对报告进行一系列的分词和提取操作，通过对关键词的词频统计达到对报告准确性的分析。

机器学习方法主要通过DBSCAN的聚类方法，是一种典型的基于密度的聚类方法，可以无需事先知道聚类的个数以及黄金标准数据的情况下，找出形状不规则的聚类。

发明内容

本发明要解决的问题是：提出一种全新的基于众包和机器学习的web漏洞验证技术，主要用于解决web安全漏洞误报率较高，安全专家团队人员二次人工验证成果过高的问题。

本发明的技术方案为：基于众包和机器学习的web漏洞验证方法，其特征是使用自然语言分析及聚类分析，通过对众包人员提交的漏洞验证报告进行分析后确定web漏洞是否为误报，具体步骤为：

1）收集漏洞验证报告：收集众包人员提交的漏洞验证报告。

2）预处理漏洞验证报告，过滤不符合格式的漏洞验证报告，具体分为以下两个子步骤：

2a）根据规定的标准格式，即{R，C，S，L }四个维度是否具备，对不符合标准格式的报告进行过滤；

2b）过滤无关报告：由人工生成一个同义词集合，即将指代同一对象的不同词语作为一个集合，用同义词集合中的一个词语替换漏洞验证报告中含有的该同义词集合中的其他词语；对符合格式的报告中的重现场景等自然语言报告的部分通过同义词替换，后将每份报告中的关键字进行提取后进行词频统计，过滤所有关键字词频出现次数均为0的报告中的关键字进行提取后进行词频统计，过滤所有关键字词频出现次数均为0的报告。

3）对漏洞验证报告聚类分析：

根据步骤2）得到的经有效性筛选后的漏洞验证报告，进行基于{R，C，S，L }四个维度欧式距离的DBSCAN的聚类分析，通过无黄金标准数据参考下的聚类密度相连最大集来确定众包漏洞验证的最终结果：

3a）漏洞验证报告统一格式为{R，C，S，L}格式，其中R为总体性结果判断，分为是否为漏洞两种选项结果；C为漏洞类别，包括已提供多种选项和可扩展类型；S为漏洞验证重现场景，用于记录众包参与人员的漏洞验证过程和重现描述；L为相关链接，用于记录该漏洞经验证后有效相关的链接。为对众包结果DBSCAN聚类更加明显，当R选项为否时，C、S、L三部分都将为空字段。S漏洞验证重现场景作为重要但同时随机不确定性的维度，采取依据漏洞词汇字典库进行词频和深度的权重计算得出数值变量；

3b）通过给定的两个核心参数：Eps和MinPts进行多次迭代后的DBSCAN，其中，Eps定义邻域半径，MinPts定义核心对象的阈值，将得到聚类最大集，结果将确定该漏洞真实与否，如果漏洞为真也将确定其最终类型，并且根据所属该类漏洞的报告集M中的重现场景权重最大值给出参考性的重现记录。

本发明中，漏洞众包验证人员是指互联网软件公司雇佣的具备一定专业web安全知识的非专业验证专家；验证报告是指遵循固定格式，由固定选项和自然语言撰写组成，包括漏洞真实性总体判断、漏洞类型、重现场景、相关链接四部分，由众包人员撰写提交。

本发明的自然语言分析根据漏洞验证报告的语言确定，对于中文语言，采用ICTCLAS中文自然语言处理引擎。

本发明的聚类分析是基于DBSCAN的机器学习方法，其核心思想是从某个选定的核心点出发，不断向密度可达的区域扩张，从而得到一个包含核心点和边界点的最大化区域，区域中的任意两点密度相连。最终，将得到聚类最大堆从而确定漏洞众包验证结果。

本发明引入自然语言处理技术，将众包漏洞验证报告中的文本描述进行分词，同义词替换，基于DBSCAN的聚类分析等技术。本发明提出了一种全新的基于众包和机器学习的web漏洞验证技术，主要用于解决web安全漏洞误报率较高，安全专家团队人员二次人工验证成果过高的问题。本发明的有益效果在于三方面：1、通过众包派发方式，增加漏洞验证参与人员，众包报告结果结合机器学习分析，提升漏洞扫描报表的准确性；2、众包形式的验证方案对比专业安全专家团队验证，有利于节省二次人工验证的成本；3、该发明同时可用于“产教结合”的推广，提高安全专业学生的实践能力。

附图说明

图1为本发明整体流程图；

图2为本发明的实施例中，众包漏洞验证任务列表页面；

图3为本发明的实施例中，漏洞验证报告填写页面；

图4为本发明的实施例中，网站总体漏洞信息概览页面；

图5为本发明的实施例中，漏洞众包验证报告聚类分析结果展示页面；

图6为DBSCAN算法伪代码。

具体实施方式

本发明的目的是接收固定选项和自然语言描述组成的众包漏洞验证报告，对众包漏洞报告进行基于机器学习的聚类分析，得到最终的众包验证结果。具体实施方式有以下三个步骤：漏洞验证报告收集，报告预处理和基于DBSCAN对漏洞报告进行聚类分析从而得到最终结果。

漏洞验证报告收集

所有的漏洞验证报告由众包平台召集的参与众包的人员提供。漏洞验证报告如图2所示分为四个主要部分：结果判断、漏洞类型、重现场景、相关重现链接。其中，漏洞类型和重现场景以及相关重现链接是本发明进行排序的主依据，漏洞验证报告中的运行环境和输出主要用于专业漏洞检测人员的审查。获得了漏洞验证报告后，进行后期处理。

报告预处理

本发明中漏洞验证报告收集时，统一定义为{R，C，S，L}格式，其中R为总体性结果判断，分为是否为漏洞两种选项结果；C为漏洞类别，包括已提供多种选项和可扩展类型；S为漏洞验证重现场景，用于记录众包参与人员的漏洞验证过程和重现描述；L为相关链接，用于记录该漏洞经验证后有效相关的链接。漏洞验证报告由众包人员通过网络进行提交。收集完所有的漏洞验证报告后，对不符合规范的漏洞报告视情况进行调整或舍弃，主要包括字段缺失、分词、同义词转换、关键字提取、词频统计后进行过滤。在此阶段应当以漏洞验证报告格式的统一性与尽可能大的数据量为预处理目标。

基于DBSCAN对漏洞验证报告进行聚类分析

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种典型的基于密度的聚类方法，可以无需事先知道聚类的个数以及黄金标准数据的情况下，找出形状不规则的聚类。

DBSCAN算法有两个核心参数：Eps和MinPts。其中，Eps定义邻域半径，MinPts定义核心对象的阈值。针对数据集合X = {x⁽¹⁾,x⁽²⁾,…,x^(N)},引入cluster标记数组：

通过以下步骤完成DBSCAN聚类分析：

3a). 初始化

给定参数Eps和MinPts；

生成

令K=1；

令.

3b). 生成cluster标记数组

所有的点标记为未访问；

选择一个随机的未访问的点p，标记为已访问：

如果p是核心点，此时将产生一个由p点密度可达的cluster；

如果p的邻域范围内包含少于MinPts数量的点，则p为噪音点；

重复步骤2中的两步，直至所有点均被访问。

Claims

1.一种基于众包和机器学习的web漏洞验证方法，其特征是使用自然语言分析及聚类分析，通过对众包人员提交的漏洞验证报告进行分析后确定web漏洞是否为误报，具体步骤为：

1）收集漏洞验证报告：收集众包人员提交的漏洞验证报告；

2b）过滤无关报告：由人工生成一个同义词集合，即将指代同一对象的不同词语作为一个集合，用同义词集合中的一个词语替换漏洞验证报告中含有的该同义词集合中的其他词语；对符合格式的报告中用于重现场景的属于自然语言叙述的部分，通过同义词替换后，将每份报告中的关键字进行提取后进行词频统计，过滤所有关键字词频出现次数均为0的报告；

3）对漏洞验证报告聚类分析：

根据步骤2）得到的经有效性筛选后的漏洞验证报告，进行基于{R，C，S，L }四个维度欧式距离的聚类分析，通过无黄金标准数据参考下的聚类密度相连最大集来确定众包漏洞验证的最终结果：

3a）漏洞验证报告统一格式为{R，C，S，L}格式，其中R为总体性结果判断，分为是否为漏洞两种选项结果；C为漏洞类别，包括已提供多种选项和可扩展类型；S为漏洞验证重现场景，用于记录众包参与人员的漏洞验证过程和重现描述；L为相关链接，用于记录该漏洞经验证后有效相关的链接；为了让众包结果的聚类效果更加明显，当R选项为否时，C、S、L三部分都将为空字段；S漏洞验证重现场景作为重要但同时随机不确定性的维度，采取依据漏洞词汇字典库进行词频和深度的权重计算得出数值变量；

3b）通过聚类分析算法的参数为依据进行迭代聚类，将得到聚类最大集，结果将确定该漏洞真实与否，如果漏洞为真也将确定其最终类型，并且根据所属该类漏洞的报告集M中的重现场景权重最大值给出参考性的重现记录。

2.根据权利要求1所述的基于众包和机器学习的web漏洞验证方法，其特征是通过对漏洞验证报告进行统一设定，其格式由权利要求1步骤3a）记录；漏洞验证报告由众包人员通过网络进行提交，收集完所有的漏洞验证报告后，统一存储漏洞验证报告库，对不符合设定格式的漏洞验证报告进行调整或舍弃。

3.根据权利要求2所述的基于众包和机器学习的web漏洞验证方法，其特征是步骤2b）的过滤无关报告中的关键词提取部分中，对漏洞验证报告中的重现场景描述进行分词操作，并替换词语。

4.根据权利要求1所述的基于众包和机器学习的web漏洞验证方法，其特征是步骤3b）中的聚类分析算法所使用到的参数，根据众包样本集大小变化应进行相应参数调整。