CN115422556A

CN115422556A - 漏洞利用概率预测方法、系统、设备及存储介质

Info

Publication number: CN115422556A
Application number: CN202211381671.8A
Authority: CN
Inventors: 谭小彬; 程进燕; 施钱宝; 郑烇; 杨坚
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2022-12-02
Anticipated expiration: 2042-11-07
Also published as: CN115422556B

Abstract

本发明公开了一种漏洞利用概率预测方法、系统、设备及存储介质，一方面，仅使用已利用漏洞样本，避免了直接进行二分类面临的不会被利用漏洞类别数据的选择问题；另一方面，对已利用漏洞样本训练聚类模型并进行聚类，不仅使聚类模型学习到了所有已利用漏洞样本，解决了二分类模型对已利用漏洞样本学习不完整的问题，而且解决了将所有已利用漏洞样本视为一个整体时，相似度距离门槛值包含范围过大，几乎将所有漏洞都预测为有可能被利用的问题，并将待预测漏洞聚类到最近的聚类簇，利用它与所属聚类簇的中心向量的相似度距离预测其利用概率，大大提高了预测效果。

Description

漏洞利用概率预测方法、系统、设备及存储介质

技术领域

本发明涉及网络安全技术领域，尤其涉及一种漏洞利用概率预测方法、系统、设备及存储介质。

背景技术

随着计算机技术和互联网技术的发展，网络安全漏洞问题愈发严峻。一旦不法分子成功利用漏洞发起网络攻击，对个人、企业、国家都有可能造成重大损失。网络安全问题已经成为信息时代人类社会面临的共同挑战，如何更好地管理漏洞、针对漏洞进行修复的研究逐渐成为安全领域的研究重点。而如何评估不同漏洞的危害性大小，从而帮助企业解决漏洞修复的优先级问题，将有限的资源投入到修复和解决更容易被攻击并且被攻击后产生的后果和损失更为严重的高危害性漏洞，是研究修复工作的痛点问题。

研究漏洞的危害性主要是从漏洞被利用的可能性和漏洞被利用后可能产生的影响两方面入手。

目前行业内通用的漏洞评估体系——美国通用漏洞评估体系，在计算漏洞被利用的可能性时主要考虑漏洞的攻击路径、攻击复杂度、特权要求、用户交互四个特征。漏洞上报后由专家对漏洞进行评估，量化其攻击路径、攻击复杂度、特权要求、用户交互特征，并由这四个特征根据专家们共同确定的计算公式计算出漏洞被利用的可能性。上述评估过程不仅耗时，而且评估结果与实际的漏洞利用情况差异较大，有不少研究者指出美国通用漏洞评估体系给出的漏洞利用可能性分数和基础分数是预测漏洞利用概率的非常差的指标。

专家和学者们纷纷开始研究如何更好的预测漏洞的利用概率。目前专家和学者们多是将获取到的有实际利用记录的漏洞和在漏洞利用数据库中有利用证明的漏洞作为已利用漏洞类别，在剩余的漏洞中选择部分作为不会被利用漏洞类别，利用这两类数据训练二分类模型，预测漏洞的利用概率。

但是上述做法存在两个较大的问题：

（1）不会被利用漏洞类别数据的选择问题。能确定的是有利用记录的已利用漏洞类别数据，但是，无法事先证明哪些漏洞永远不会被利用。2021年全球安全分析软件的领导者Cognyte 公司对全球的活跃攻击者进行了大规模的研究，发现攻击者仍然关心发布很久的漏洞，研究报告显示在 2020年，攻击者仍利用已有 9 年历史的漏洞 CVE-2012-0158成功发起攻击。因此，将发布时间久远的漏洞作为不会被利用漏洞类别数据显然也不合适。强行选择部分漏洞作为不会被利用漏洞类别训练模型，无法保证选择的这部分漏洞不会被利用的合理性。

（2）二分类预测模型对已利用漏洞类别学习的完整性问题。对于漏洞评估和漏洞修复而言，任何已利用漏洞都是不能忽视的重点关注对象。已利用漏洞和暂时没有利用记录的漏洞，都属于漏洞，它们的分布很接近，而二分类或多分类模型，对于已利用漏洞类别的学习能力很难达到百分百，二分类或多分类模型为了最大程度区分不同类，会丢弃一小部分距离其它已利用漏洞较远的已利用漏洞，认为它们是不会被利用漏洞，这会导致评估和修复时忽视这一小部分漏洞，对于评估和修复工作不利。

发明内容

本发明的目的是提供一种漏洞利用概率预测方法、系统、设备及存储介质，能够提高预测准确性。

本发明的目的是通过以下技术方案实现的：

一种漏洞利用概率预测方法，包括：

获取已利用漏洞样本的描述文本以及待预测漏洞的描述文本，并分别进行预处理后，再通过向量化处理，获得已利用漏洞样本的向量与待预测漏洞的向量；

使用已利用漏洞样本的向量训练聚类模型，获得多个聚类簇的中心向量，对于每一个聚类簇，通过计算聚类簇的中心向量与聚类簇中各已利用漏洞样本的向量的相似度距离值确定聚类簇的相似度距离门槛值；

利用训练后的聚类模型预测待预测漏洞的向量所属聚类簇，再计算所述待预测漏洞的向量与其所属聚类簇的中心向量的相似度距离值d，根据相似度距离值d与待预测漏洞的向量所属聚类簇的相似度距离门槛值大小，判断待预测漏洞是否被利用。

一种漏洞利用概率预测系统，包括：

数据获取单元，用于获取已利用漏洞样本的描述文本以及待预测漏洞的描述文本；

数据预处理单元，用于对已利用漏洞样本的描述文本以及待预测漏洞的描述文本分别进行预处理；

文本向量化单元，用于对预处理后的已利用漏洞样本的描述文本以及待预测漏洞的描述文本进行向量化处理，获得已利用漏洞样本的向量与待预测漏洞的向量；

聚类单元，用于使用已利用漏洞样本的向量训练聚类模型，获得多个聚类簇的中心向量；

相似度距离门槛值计算单元，用于对于每一个聚类簇，通过计算聚类簇的中心向量与聚类簇中各已利用漏洞样本的向量的相似度距离值确定聚类簇的相似度距离门槛值；

预测单元，用于利用训练后的聚类模型预测待预测漏洞的向量所属聚类簇，再计算所述待预测漏洞的向量与其所属聚类簇的中心向量的相似度距离值d，根据相似度距离值d与待预测漏洞的向量所属聚类簇的相似度距离门槛值大小，判断待预测漏洞是否被利用。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，一方面，仅使用已利用漏洞样本，避免了直接进行二分类面临的不会被利用漏洞类别数据的选择问题；另一方面，对已利用漏洞样本训练聚类模型并进行聚类，不仅使聚类模型学习到了所有已利用漏洞样本，解决了二分类模型对已利用漏洞样本学习不完整的问题，而且解决了将所有已利用漏洞样本视为一个整体时，相似度距离门槛值包含范围过大，几乎将所有漏洞都预测为有可能被利用的问题，并将待预测漏洞聚类到最近的聚类簇，利用它与所属聚类簇的中心向量的相似度距离预测其利用概率，大大提高了预测效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种漏洞利用概率预测方法的流程图；

图2为本发明实施例提供的一种漏洞利用概率预测系统的示意图；

图3为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“和/或”是表示两者任一或两者同时均可实现，例如，X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的漏洞利用概率预测方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种漏洞利用概率预测方法，其主要包括如下步骤：

步骤1、获取已利用漏洞样本的描述文本以及待预测漏洞的描述文本，并分别进行预处理后，再通过向量化处理，获得已利用漏洞样本的向量与待预测漏洞的向量。

步骤2、使用已利用漏洞样本的向量训练聚类模型，获得多个聚类簇的中心向量，对于每一个聚类簇，通过计算聚类簇的中心向量与聚类簇中各已利用漏洞样本的向量的相似度距离值确定聚类簇的相似度距离门槛值。

步骤3、利用训练后的聚类模型预测待预测漏洞的向量所属聚类簇，再计算所述待预测漏洞的向量与其所属聚类簇的中心向量的相似度距离值d，根据相似度距离值d与待预测漏洞的向量所属聚类簇的相似度距离门槛值大小，判断待预测漏洞是否被利用。

本发明实施例提供的上述方案解决了现有方案存在的两项技术问题，能够极大的提升预测准确度。为了便于理解，下面针对上述方法做详细的介绍，如图1所示上述方法主要包括如下部分。

一、获取数据。

本发明实施例中，主要获得两类描述文本数据，一类为已利用漏洞样本的描述文本，另一类为待预测漏洞的描述文本；两类描述文本数据的数目均没有限制，用户可以根据实际情况设定具体的数目。

二、数据预处理。

本发明实施例中，需要与以上两类描述文本数据进行数据清洗，并提取出所需的文本数据。预处理操作主要包括：转小写操作、去停用词操作、提取词干操作、提取动词与名词操作等文本预处理操作。

示例性的：去除的停用词可以为常见的人称代词、介词等常用停用词；提取词干和提取动词、名词操作可利用常用的自然语言处理工具包NLTK完成。

三、文本向量化。

本发明实施例中，使用词向量模块将两类描述文本数据经数据预处理后获得的数据进行向量化，获得已利用漏洞的向量与待预测漏洞的向量，方便后续输入模型训练、预测。

示例性的：词向量模型可选择对单词级别进行编码的word2vector模型（一种词向量模型）、对句子级别进行编码的doc2vector模型（一种文档向量模型）、对句子和词都进行编码的模型等。

四、聚类。

本发明实施例中，选择合适的聚类模型和聚类模型参数，使用已利用漏洞的向量训练聚类模型，获得该聚类模型对应的多个聚类簇的中心向量与簇标签。通过对不同的聚类簇数做实验选择最优的聚类簇数，对应的聚类模型即为最终最优的聚类模型。

本发明实施例中，采用无监督方式训练聚类模型，将已利用漏洞的向量作为训练数据，聚类模型训练过程即完成对已利用漏洞进行聚类和标注。

聚类模型的选择：以划分式聚类模型为例。

输入：已利用漏洞样本的向量，聚类模型参数（聚类簇数C，最大迭代次数，簇中心收敛阈值）。

聚类过程：

（1）选择C个已利用漏洞样本的向量为各初始聚类簇的中心。

（2）分别计算剩余已利用漏洞样本的向量到各初始聚类簇的中心的距离，将已利用漏洞样本的向量划分到距离最近的初始聚类簇中心所属的初始聚类簇。

（3）对于各初始聚类簇，分别计算所属的所有已利用漏洞样本的向量的均值，并以此更新各初始聚类簇的中心。

比较更新后的聚类簇中心和更新前的聚类簇中心，如果更新后的聚类簇中心和更新前的聚类簇中心的距离小于簇中心收敛阈值，或迭代次数超过最大迭代次数，认为聚类已经收敛，终止迭代，获得多个聚类簇的中心向量与簇标签，簇标签主要用于对不同聚类簇进行区分标记。否则，重复步骤（2）~步骤（3）。

最优聚类模型参数的选择：

（1）最大迭代次数：次要参数，示例性的：可选择常用值300。

（2）簇中心收敛阈值：次要参数，示例性的：可选择常用值1e-4。

（3）聚类簇数：重要参数，最优值由用户根据实际情况确定。选择不同的聚类簇数训练聚类模型，得到对应的多个聚类模型，通过衡量每个聚类模型对训练样本（已利用漏洞样本）的聚类效果评价指标（例如，聚类簇内距离和聚类簇间距离），选择合适的聚类簇数作为聚类模型最优的聚类簇数。其中，聚类簇数越多，漏洞划分的越细，被预测为可能被利用的漏洞越少，对于后续修复等工作来说，更专注于实际情况下被利用可能性更高的漏洞，但是，聚类簇数太多也会导致聚类效果下降，而且聚类簇内已利用漏洞样本数越少，模型越容易过拟合。极端情况如每一个已利用漏洞样本聚为1簇，每一个聚类簇的相似度距离门槛值范围都会非常狭窄，几乎只有与该聚类簇内已利用漏洞样本的文本向量完全近似的待预测漏洞向量才会被预测为有可能被利用，此时极端过拟合。

五、计算相似度距离门槛值。

本发明实施例中，对于每一个聚类簇，通过计算聚类簇的中心向量与聚类簇中各已利用漏洞样本的向量的相似度距离值确定聚类簇的相似度距离门槛值，使聚类簇内所有已利用漏洞样本都分布在以聚类簇中心为中心、以聚类簇的相似度距离门槛值为半径的球内。

本发明实施例中，采用余弦相似度计算相似度距离，逐一计算聚类簇中每一已利用漏洞样本的向量与聚类簇的中心向量的相似度距离值，选出所有相似度距离值中的最小值作为聚类簇的相似度距离门槛值，相关公式可以表示为：

其中，Ti表示第i个聚类簇的相似度距离门槛值，clusteri表示第i个聚类簇的中心向量，vj表示第i个聚类簇中的第j个已利用漏洞样本的向量，ni表示第i个聚类簇中已利用漏洞样本的向量的数目，函数

表示相似度距离度量函数，函数min(.)表示取最小值。

示例性的：相似度距离可以选择欧式距离或者余弦距离等，如果选择余弦距离，则相似度距离度量函数

为余弦相似度度量函数cos(.)。

六、预测。

本发明实施例中，利用训练后的聚类模型预测待预测漏洞的向量所属聚类簇，即根据预测出的待预测漏洞的向量聚类后的簇标签确定待预测漏洞的向量所属聚类簇。之后，计算所述待预测漏洞的向量与其所属聚类簇的中心向量的相似度距离值d，根据相似度距离值d与待预测漏洞的向量所属聚类簇的相似度距离门槛值大小，判断待预测漏洞是否被利用，具体的：若相似度距离值d小于相应聚类簇的相似度距离门槛值，则待预测漏洞与其所属聚类簇内所有已利用漏洞样本的相似度较低，判定待预测漏洞不会被利用；若相似度距离值d大于等于相应聚类簇的相似度距离门槛值，则判定待预测漏洞有可能会被利用。

优选的：为防止过拟合，利用获取的已利用漏洞样本的总数与聚类簇数计算弹性变量，并利用所述弹性变量对所有聚类簇的相似度距离门槛值分别进行弹性处理，稍微增加各个聚类簇的相似度距离门槛值的包含范围，其原理为：聚类模型整体的过拟合程度与获取的已利用漏洞样本总数N（前述“获取数据”部分得到）成反比、与聚类簇数C成正比，第i个聚类簇的过拟合程度与该聚类簇内包含的已利用漏洞样本数ni成反比，因此，计算弹性变量以及利用所述弹性变量对所有聚类簇的相似度距离门槛值分别进行弹性处理的过程表示为：

其中，N表示获取的已利用漏洞样本的总数，

表示第i个聚类簇的弹性变量，Ti表示第i个聚类簇的相似度距离门槛值，

表示弹性处理后的第i个聚类簇的相似度距离门槛值。

之后，根据相似度距离值d与相应的弹性处理后的聚类簇的相似度距离门槛值大小，判断待预测漏洞是否被利用，此部分判断逻辑与前文相同。

本发明实施例上述方案，主要具有如下优点：

（1）仅使用已利用漏洞样本，避免了直接进行二分类面临的不会被利用漏洞类别数据的选择问题。

（2）对已利用漏洞样本训练聚类模型并进行聚类，不仅使聚类模型学习到了所有已利用漏洞样本，解决了二分类模型对已利用漏洞样本学习不完整的问题，而且解决了将所有已利用漏洞样本视为一个整体时，相似度距离门槛值包含范围过大，几乎将所有漏洞都预测为有可能被利用的问题，并将待预测漏洞聚类到最近的聚类簇，利用它与所属聚类簇的中心向量的相似度距离预测其利用概率，大大提高了预测效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种漏洞利用概率预测系统，其主要基于前述实施例提供的方法实现，如图2所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图3所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种漏洞利用概率预测方法，其特征在于，包括：

2.根据权利要求1所述的一种漏洞利用概率预测方法，其特征在于，所述通过计算聚类簇的中心向量与聚类簇中各已利用漏洞样本的向量的相似度距离值确定聚类簇的相似度距离门槛值包括：

逐一计算聚类簇中每一已利用漏洞样本的向量与聚类簇的中心向量的相似度距离值，选出所有相似度距离值中的最小值作为聚类簇的相似度距离门槛值。

3.根据权利要求1或2所述的一种漏洞利用概率预测方法，其特征在于，确定聚类簇的相似度距离门槛值的公式表示为：

表示相似度距离度量函数，函数min(.)表示取最小值。

4.根据权利要求1所述的一种漏洞利用概率预测方法，其特征在于，所述利用训练后的聚类模型预测待预测漏洞的向量所属聚类簇包括：

使用已利用漏洞样本的向量训练聚类模型时，还获得每一聚类簇的簇标签，预测待预测漏洞的向量所属聚类簇时，根据预测出的待预测漏洞的向量聚类后的簇标签确定待预测漏洞的向量所属聚类簇。

5.根据权利要求1所述的一种漏洞利用概率预测方法，其特征在于，所述根据相似度距离值d与待预测漏洞的向量所属聚类簇的相似度距离门槛值大小，判断待预测漏洞是否被利用包括：

若相似度距离值d小于待预测漏洞的向量所属聚类簇的相似度距离门槛值，则判定待预测漏洞不会被利用；

若相似度距离值d大于等于待预测漏洞的向量所属聚类簇的相似度距离门槛值，则判定待预测漏洞会被利用。

6.根据权利要求1或5所述的一种漏洞利用概率预测方法，其特征在于，该方法还包括：利用获取的已利用漏洞样本的总数与聚类簇数计算弹性变量，并利用所述弹性变量对所有聚类簇的相似度距离门槛值分别进行弹性处理，再根据相似度距离值d与相应的弹性处理后的聚类簇的相似度距离门槛值大小，判断待预测漏洞是否被利用。

7.根据权利要求6所述的一种漏洞利用概率预测方法，其特征在于，对于第i个聚类簇，计算弹性变量并对相似度距离门槛值进行弹性处理的过程表示为：

其中，N表示获取的已利用漏洞样本的总数，C表示聚类簇数，ni表示第i个聚类簇中已利用漏洞样本的向量的数目，

表示弹性处理后的第i个聚类簇的相似度距离门槛值。

8.一种漏洞利用概率预测系统，其特征在于，基于权利要求1~7任一项所述的方法实现，该系统包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。