CN117473512B

CN117473512B - 基于网络测绘的漏洞风险评估方法

Info

Publication number: CN117473512B
Application number: CN202311825796.XA
Authority: CN
Inventors: 李澄清; 邝亚鑫; 韩宁; 陈学鹏
Original assignee: Hunan Huashun Xin'an Technology Co ltd; Xiangtan University
Current assignee: Hunan Huashun Xin'an Technology Co ltd; Xiangtan University
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-22
Anticipated expiration: 2043-12-28
Also published as: CN117473512A

Abstract

本发明属于漏洞风险评估领域，公开了一种基于网络测绘的漏洞风险评估方法，包括以下步骤：S1、获取行业网络资产信息作为分类模型的训练数据；S2、将训练数据进行预处理，使用支持向量机作为分类器训练模型；S3、分析漏洞对应的网络资产指纹；S4、根据网络资产指纹在网络测绘搜索引擎中获取需要分析的网络资产数据，并对其进行预处理转换成文本向量，根据文本向量得到对应的行业类型；S5、从互联网公开漏洞数据库查询漏洞危害程度相关的信息，并筛选出所需要的漏洞影响信息，计算漏洞风险分数；S6、将获取的漏洞信息以及漏洞对应的网络测绘行业资产占比应用于风险评估模型，输出漏洞的风险评估指数。

Description

基于网络测绘的漏洞风险评估方法

技术领域

本发明属于漏洞风险评估技术领域，具体涉及一种基于网络测绘的漏洞风险评估方法。

背景技术

随着互联网的普及和发展，网络安全无论对于国家、企事业单位还是网民个体而言都至关重要。零日漏洞频发，给社会稳定和国民经济健康发展造成了严重安全隐患。现有的漏洞影响评估大都只关注漏洞本身的破坏，忽视了漏洞影响范围和行业等有效信息。网络空间测绘是一种新兴网络技术，通过网络探测、采集、挖掘等方式，精准发现和识别网络交换设备、接入设备等实体资源以及信息内容等虚拟资源及其网络属性，分析它们在网络空间、地理空间以及社会空间的相关属性，进而以逻辑图和地理信息图的形式呈现，具备一定的优越性。但目前的网络空间测绘技术并没有很好的应用在漏洞风险评估上，缺少使两者有机结合的方法。

因此，需要设计一种基于网络测绘的漏洞风险评估方法。

发明内容

本发明的目的在于提供一种基于网络测绘的漏洞风险评估方法，以解决当前网络空间测绘技术在漏洞风险评估方面应用不足的问题。现有技术未能有效将网络空间测绘与漏洞风险评估有机结合。

为实现上述目的，本发明提供了一种基于网络测绘的漏洞风险评估方法，包括以下步骤：

S1、将所有行业划分为与网络安全相关度高的几个行业以及其他行业，通过网络测绘搜索引擎获取网络资产数据实际存活数量排名在一定名次之前的国家名单，将排名在一定名次之前的国家的网络资产数据按前述的行业划分进行行业类型分类，并提取各行业类型网络资产数据作为分类模型的训练数据；

S2、将训练数据进行预处理，预处理包括将标题纳入分类模型、对数据进行去重以及去干扰操作，然后转换为特征向量，使用支持向量机作为分类器训练模型；

S3、根据输入的漏洞名称从漏洞库查询用于辅助获取网络资产指纹的信息，分析漏洞对应的网络资产指纹；

S4、根据网络资产指纹在网络测绘搜索引擎中获取需要分析的网络资产数据，并对其进行预处理转换成文本向量，根据文本向量得到对应的行业类型，统计行业类型的数量和占比；

S5、从互联网公开漏洞数据库查询漏洞危害程度相关的信息，并筛选出所需要的漏洞影响信息，计算漏洞风险分数；

S6、将获取的漏洞信息以及漏洞对应的网络测绘行业资产占比应用于风险评估模型，输出漏洞的风险评估指数。

在一种具体的实施方式中，所述步骤S1中，包括以下分步骤：

S1a、将所有行业分为医疗、能源、金融、通信、政府、交通、云服务提供商和其他共八个行业类型，通过网络测绘搜索引擎获取网络资产数据实际存活数量排名在一定名次之前的国家名单，实际存活数量排名以最近1~365天内实际存活IP数量为依据；

S1b、收集所获取国家的互联网行业资产关键词，行业资产关键词包括域名、自治系统号；

S1c、筛选出能够明确区分行业的自治系统号，利用自治系统号和域名，通过网络测绘搜索引擎API得到首页HTML半结构化文本作为分类模型的训练数据，所述首页HTML半结构化文本包括文本内容、标题和链接。

在一种具体的实施方式中，所述步骤S2，包括以下分步骤：

S2a、将训练数据进行预处理，预处理包括：解析HTML半结构化文本，去除对分类存在干扰的字符，对分类存在干扰的字符包括JavaScript代码、链接和网页标签，只提取文本标签内容；在进行行业类型分类时，单独把标题作为一个重要的特征纳入分类模型中；通过使用哈希去重的方法进行去重处理；

将提取后的内容先处理为词频-逆文档频率向量，再使用潜语义分析模型将文本的词向量空间转化为语义级别的向量空间；

S2b、对处理后的向量采用支持向量机分类器训练出分类模型，所用训练集为((x₁,y₁),(x₂,y₂),…(x_i,y_i),…,(x_n,y_n))，其中x_i∈R^m为特征向量，m为向量维度，n为训练集内的向量的个数，y_i表示具体行业类型的标号，y_i∈{1,2,…,K}，K表示行业类型可能数；每个行业类型对应一个二元分类器，用于将其中的一个行业类型k与其他所有行业类型进行区分，k为一个具体的行业类型，支持向量机通过最小化分类器的误差来学习K个分类器，以便将每个行业类型与其他所有行业类型进行区分；

对于行业类型k，训练一个针对该行业类型的支持向量机二元分类器，将其视为“正例”，而将所有其他行业类型视为“负例”；

在每次训练中，通过优化参数，使目标函数最小化，学习一个针对特定行业类型的分离超平面，它由w_k和b_k表示，w_k表示将行业类型k与其他行业类型区分开的超平面的法向量，b_k表示用于将行业类型k与其他行业类型区分开的超平面的偏置，超平面将行业类型k与其他所有行业类型进行分离，通过优化目标函数

来寻找超平面；在测试阶段，对于新的特征向量，将其输入到所有K个分类器中，并选择输出预测得分最高的类型作为最终分类结果。

在一种具体的实施方式中，所述步骤S3中，包括以下分步骤：

S3a、从漏洞库查询用于辅助获取网络资产指纹的漏洞信息，包括漏洞影响的具体软件、版本信息、厂商官网链接以及官方漏洞通告信息，通过搜索引擎收集与系统界面以及厂商相关的关键信息，包括产品名称、系统界面特征、技术文档、用户手册；对收集结果进行分析，确认漏洞影响的网络资产，对得到的网络资产进行扫描，分析访问网站证书信息、网页图标、协议、网页源代码来辅助寻找网络资产指纹的特征数据；

S3b、通过获取到的漏洞资产特征数据，筛选出漏洞所影响系统的唯一标识和特征，将得到的标识和特征转换成网络测绘搜索引擎能够解析的指纹语句。

在一种具体的实施方式中，所述步骤S4中，包括以下分步骤：

S4a、通过网络资产指纹在网络测绘搜索引擎API中获取网络资产初始数据，该数据包括以“IP+端口”或“域名+端口”资产组合下的网页HTML半结构化文本；

S4b、将处理好的网络资产初始数据处理为特征向量输入到训练好的支持向量机分类器中，得到对应的行业类型，统计漏洞对各行业的影响资产比例和数量。

在一种具体的实施方式中，所述步骤S5，包括以下步骤：

S5a、从互联网公开漏洞数据库查询待分析漏洞信息，漏洞信息包括漏洞类型、历史漏洞数量、漏洞等级、漏洞补丁时长、是否有公开漏洞利用脚本以及CVSS (CommonVulnerability Scoring System)分数；

S5b、根据获取的漏洞信息，按照通用CVSS的计算公式，修改利用难度权重，完善漏洞中可能没有的时间指标组和环境指标组，最终得到一个新的漏洞分数。

在一种具体的实施方式中，所述步骤S6中，包括以下分步骤：

S6a、计算时间衰减因子

来评估漏洞的时效性，其中t代表漏洞影响会降到最低所需的天数，Δt代表衰减步长，α ₀代表漏洞风险最低影响，β代表衰减率；

S6b、根据漏洞分数和行业资产占比，计算风险演化分数

，

其中VS代表漏洞分数，K表示行业类型可能数，P _k表示行业类型k受漏洞影响的比例，W _k表示与行业类型k相关联的权重，NS代表漏洞影响的公网资产数量；

S6c、生成漏洞风险演化曲线，展示漏洞风险随时间变化的趋势，并输出包括漏洞风险演化分数、漏洞类型、漏洞利用难度、漏洞影响行业范围在内的风险评估指数。

相比于现有技术，本发明具有以下有益效果：

本发明提出了一种基于网络测绘的漏洞风险评估方法，通过漏洞风险评估与网络测绘结合，有效分析漏洞影响范围和相关行业，更全面地评估漏洞对网络系统安全的影响度。

本发明通过对网络资产进行行业类型标注，构建行业分类模型，有助于决策者识别并保护关键资产，提高网络系统的安全性。

设计的漏洞风险评估模型在使用中能快速给出漏洞风险评估指数，有效分析漏洞的全局影响范围和行业，全面评估漏洞对网络系统安全的影响度，提高漏洞安全管理效率。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请一部分的附图旨在进一步理解本发明，展示本发明的示意性实施例及其说明，但并不对本发明进行不当限定。在附图中：

图1是本发明一种实施例的流程图；

图2是本发明一种实施例的网络资产行业分类方法示意图；

图3是本发明一种实施例的获取漏洞网络资产指纹示意图。

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚，以下结合实施例，对本发明进行进一步详细说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

本发明公开了一种基于网络测绘的漏洞风险评估方法，工作流程图如图1所示。通过网络测绘搜素引擎获取行业网络资产作为训练数据；使用支持向量机分类器训练出资产行业分类模型；根据漏洞名称在公开漏洞数据库查询相关漏洞信息，分析出漏洞对应的网络资产指纹；根据指纹获取漏洞对应的资产数据，使用行业分类模型对漏洞影响的资产进行行业标注，获得漏洞对各行业的影响资产比例和数量；收集漏洞的危害程度相关信息，计算其风险分数；最后通过设计的风险评估模型输出漏洞的风险评估指数。

1、收集行业分类模型训练数据：

将所有行业划分为与网络安全相关度高的几个行业以及其他行业，比如将行业类型分为医疗、能源、金融、通信、政府、交通、云服务提供商及其他共八个类型。在网络测绘搜索引擎中搜索IP值0.0.0.0/0，即搜索整个IPv4的地址范围，来获取互联网资产实际存活数量排名在一定名次之前的国家名单，比如选排名前50~150的国家名单，优选排名前100的国家名单。资产排名将基于网络测绘搜索引擎在最近1~365天内扫描的实际存活IP数量，优选最近一个月内扫描的实际存活IP数量进行评定。从而收集上述国家及其对应的网站资产数据，有助于进行网页分类。由于存在不同语言的网站内容，收集足够提供数据样本的国家有助于提高分类效果，并且有助于更好地理解和分析全球互联网资产情况。

根据收集到的国家，通过在搜索引擎和一些官方网站寻找各个国家的互联网行业资产关键词。行业资产关键词包括域名、筛选后的自治系统号。

将自治系统号、域名通过网络测绘搜索引擎的API得到网页HTML半结构化文本，优选只取首页HTML半结构化文本，域名主要通过在网络测绘搜索引擎搜索子域名得到结果，HTML半结构化文本包括文本内容、标题、链接和其他网页元素。

在收集行业资产训练数据时，仅选择互联网资产实际存活数量排名前100的国家的行业资产数据。相对于资产数量较少的国家，选择具有较高互联网资产数量的国家，有助于找到和获取相关行业资产数据，提高效率同时不影响模型预测效果。

本发明中筛选自治系统号可以从收集到的自治系统号中筛选出能够明确区分行业的自治系统号，例如教育、政府、金融行业等，便于后续通过自治系统号来寻找特定行业的网络资产。从而可以解决一些可能带来混淆的情况，例如运营商自治系统号可能被多个实体使用，无法清晰区分其所属的行业。从而更精准地定位特定行业的网络资产。

对收集的网络资产数据进行预处理，该步骤主要包括将标题纳入分类模型、对数据进行去重以及去干扰操作。预处理具体包括：第一，因为得到的HTML半结构化文本可能包含的一些干扰，例如JavaScript代码、链接、网页标签等对分类存在干扰的字符，所以通过解析HTML源代码，然后提取常见文本标签下的字符，并且去除其中的链接来为后续的数据处理和分析提供更准确的数据基础。第二，在进行行业分类时，网页标题是一个非常重要的分析依据，需要单独把标题作为一个重要的特征纳入分类模型中。第三，由于收集到的网络资产数据非常庞大，其中可能存在大量相同的HTML文本，因此必须进行去重处理。通过使用哈希去重的方法，可以提高处理效率。

在进行网络测绘搜索引擎获取HTML半结构化文本时，可以使用测绘搜索引擎预先计算的文本哈希值，对数据进行去重处理。这样可以减低后续的去重成本，提高数据分析效率。

2、训练文本向量分类模型：

将提取后的网络资产文本先处理为词频-逆文档频率向量表示，利用该表示形式可以更好地表达文本的特征和重要性。词频-逆文档频率模型允许将词语在文档集合中的重要性进行加权，减少常见词汇的影响，从而凸显关键词汇的特征。接下来，通过使用潜语义分析模型，基于奇异值分解的主成分分析，对向量进行降维处理。这个过程使高维的向量表示转换为低维向量表示。通过这种方式，文本词向量空间被转换为更具语义含义的向量空间，可以更好地捕捉文本的语义特征，即语义级别的向量空间。

选择支持向量机模型作为分类器，并利用生成的网络资产文本词向量，对收集到的向量进行训练，得到训练好的分类模型，用于后续的漏洞网络资产行业分类。

所述的支持向量机模型数学表达如下，所用训练集为((x₁,y₁),(x₂,y₂),…(x_i,y_i),…,(x_n,y_n))，其中x_i∈R^m为特征向量，m为向量维度，n为训练集内的向量的个数，y_i表示具体行业类型的标号，y_i∈{1,2,…,K}，比如y_i表示医疗、能源、金融、通信、政府、交通、云服务提供商、其他等类型的标号，K为行业类型可能数。每个行业类型对应一个二元分类器，用于将行业类型k与其他所有行业类型进行区分，k为一个具体的行业类型。支持向量机通过最小化分类器的误差来学习K个分类器，以便将每个行业类型与其他所有行业类型进行区分；

对于每个行业类型，训练一个针对该行业类型的支持向量机二元分类器。将行业类型k视为“正例”，而所有其他行业类型视为“负例”；

在每次训练中，通过优化参数，使目标函数最小化，学习一个针对特定类型的分离超平面。

超平面由w_k和b_k表示，w_k表示将第k个行业类型（也称行业类型k）与其他行业类型区分开的超平面的法向量，b _k表示将第k个行业类型与其他行业类型区分开的超平面的偏置，超平面将行业类型k与其他所有行业类型进行分离。通过优化目标函数

来寻找超平面。

在测试阶段，对于新的特征向量，将其输入到所有K个分类器中，并选择输出预测得分最高的行业类型作为最终分类结果。

3、分析漏洞对应的网络资产指纹：

从互联网公开漏洞库查询用于辅助获取网络资产指纹的漏洞信息，公开漏洞库包括NVD (National Vulnerability Database)、 CVE(Common Vulnerabilities andExposures) 、 CNVD (Chinese National Vulnerability Database )等漏洞公开数据库。在漏洞数据库中通常可以获取到漏洞影响的具体软件、版本信息、厂商官网链接以及官方漏洞通告信息。通告信息通常包括漏洞的详细描述和影响的系统版本。通过上述漏洞信息分析出影响产品的互联网资产，即网络资产数据。

通过谷歌搜索引擎收集与系统界面以及厂商相关的关键信息，包括产品名称、系统界面特征、技术文档、用户手册等。使用谷歌搜索引擎语法以及网络测绘搜索引擎结合收集与系统界面有关的关键信息。分析搜索结果，确认漏洞所影响的网络资产。

对获取的网络资产进行扫描，并分析访问系统的网站证书信息、网页图标、协议、网页源代码等，以辅助寻找网络资产指纹的特征数据。

通过获取到的漏洞资产特征数据，筛选漏洞对应影响系统的唯一标识和特征，根据选定的标识和特征，构建适用于网络测绘搜索引擎的可以准确识别目标系统特征和类型的指纹语句。指纹语句通常是一种描述特定网络设备或系统属性的文本字符串，由唯一的关键字、版本号、特征字符串、协议指纹等组成。通过利用这些关键信息，能够让网络测绘引擎更准确地识别目标系统的特征和类型。

基于分析得到的网络资产指纹使用网络测绘搜索引擎提供的API获取需要分析的网络资产初始数据，数据包括以“IP+端口”或者“域名+端口”资产组合对应下的网页HTML半结构化文本。

对于分析出来的标识和特征，可以采用与、或、非逻辑运算进行筛选和识别网络资产。使用“逻辑与”可以帮助确定多个特征同时存在时的情况，“逻辑或”则可用于确定多个特征中的任意一个是否存在，“逻辑非”可以帮助排除特定的标识或特征，通过巧妙地组合这些逻辑运算可提高网络资产指纹的准确性。

4、资产行业类型标注：

将获取到的网络资产指纹通过调用网络测绘搜索引擎API，获取与指纹信息匹配的网络资产，将其标记为待分类资产。通过已训练的支持向量机模型对待分类资产进行分类。支持向量机分类器使用训练过程中学习到的模型和权重，对输入的网络资产进行分类，并返回每个网络资产所属的行业类型判断结果，也就是得到对应的行业类型。统计行业类型的数量和占比，也就是统计漏洞对各行业的影响资产比例和数量。

5、计算漏洞风险分数：

从互联网公开漏洞数据库查询待分析漏洞信息，漏洞信息包括漏洞类型、历史漏洞数量、漏洞等级、漏洞补丁时长、是否有公开漏洞利用脚本以及CVSS(CommonVulnerability Scoring System)分数。

根据从互联网公开漏洞数据库查询获取的漏洞信息，按照通用CVSS的计算公式，修改利用难度权重，完善漏洞中可能没有的时间指标组和环境指标组，最终得到一个新的漏洞分数。

6、通过风险评估模型输出漏洞风险评估指数：

计算时间衰减因子

其中t代表漏洞影响会降到最低所需天数，Δt代表衰减步长，α ₀代表漏洞风险最低影响，β代表衰减率。根据漏洞分数和行业资产占比，计算风险演化分数

，

其中VS代表漏洞分数，K表示行业类型可能数，P _k表示第k个关键基础行业类型受漏洞影响的比例，W _k表示与第k个关键基础行业类型相关联的权重，NS代表漏洞影响的公网资产数量。

生成漏洞风险演化曲线，展示漏洞风险随时间变化的趋势，并输出包括漏洞风险演化分数、漏洞类型、漏洞利用难度、漏洞影响行业范围在内的风险评估指数。

以上内容是结合具体的优选实施方式对本发明作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替换，都应当视为属于本发明的保护范围。

Claims

1.基于网络测绘的漏洞风险评估方法，其特征在于，包括以下步骤：

所述步骤S2，包括以下分步骤：

在每次训练中，通过优化参数，使目标函数最小化，学习一个针对行业类型k的分离超平面，它由w_k和b_k表示，w_k表示将行业类型k与其他行业类型区分开的超平面的法向量，b_k表示用于将行业类型k与其他行业类型区分开的超平面的偏置，超平面将行业类型k与其他所有行业类型进行分离，通过优化目标函数

来寻找超平面；在测试阶段，对于新的特征向量，将其输入到所有K个分类器中，并选择输出预测得分最高的类型作为最终分类结果；

2.根据权利要求1所述的基于网络测绘的漏洞风险评估方法，其特征在于，所述步骤S1中，包括以下分步骤：

S1a、将所有行业分为医疗、能源、金融、通信、政府、交通、云服务提供商和其他共八个行业类型，通过网络测绘搜索引擎获取网络资产数据实际存活数量排名在一定名次之前的国家名单，实际存活数量排名以最近1～365天内实际存活IP数量为依据；

3.根据权利要求1所述的基于网络测绘的漏洞风险评估方法，其特征在于，所述步骤S3中，包括以下分步骤：

4.根据权利要求1所述的基于网络测绘的漏洞风险评估方法，其特征在于，所述步骤S4中，包括以下分步骤：

5.根据权利要求1所述的基于网络测绘的漏洞风险评估方法，其特征在于，所述步骤S5，包括以下步骤：

S5a、从互联网公开漏洞数据库查询待分析漏洞信息，漏洞信息包括漏洞类型、历史漏洞数量、漏洞等级、漏洞补丁时长、是否有公开漏洞利用脚本以及CVSS(CommonVulnerability Scoring System)分数；

6.根据权利要求1所述的基于网络测绘的漏洞风险评估方法，其特征在于，所述步骤S6中，包括以下分步骤：

S6a、计算时间衰减因子

来评估漏洞的时效性，其中t代表漏洞影响会降到最低所需的天数，Δt代表衰减步长，α₀代表漏洞风险最低影响，β代表衰减率；

S6b、根据漏洞分数和行业资产占比，计算风险演化分数

其中VS代表漏洞分数，K表示行业类型可能数，P_k表示行业类型k受漏洞影响的比例，W_k表示与行业类型k相关联的权重，NS代表漏洞影响的公网资产数量；