CN114021147B

CN114021147B - 基于bitmap预测工控网漏洞的系统

Info

Publication number: CN114021147B
Application number: CN202111358157.8A
Authority: CN
Inventors: 李峰; 孙晓鹏; 和希文; 侯绪森; 张帅民; 胡建秋; 袁晓露; 王善军
Original assignee: Shandong Yuntian Safety Technology Co ltd
Current assignee: Shandong Yuntian Safety Technology Co ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-08-19
Anticipated expiration: 2041-11-17
Also published as: CN114021147A

Abstract

本发明涉及一种基于bitmap预测工控网漏洞的系统，实现步骤S501、基于预设的训练周期确定Summary周期检测窗口TK；步骤S502、以B_e作为TK中第a位信息，获取第e个周期检测窗口信息TK_e,基于B_e和TK_e中的位变化，确定B_e的特征权重w_e;步骤S503、基于每一B_e的特征权重w_e和Summary文本Str_e确定每一Summary文本对应的Summary特征参数值；步骤S504、基于样本漏洞id对应的Summary特征参数值构建模型输入向量，训练得到工控网漏洞预测模型，基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。本发明能够快速准确预测工控网漏洞爆发概率，提高工控网的安全性。

Description

基于bitmap预测工控网漏洞的系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于bitmap预测工控网漏洞的系统。

背景技术

随着云计算、大数据、人工智能、物联网等新一代信息技术与制造技术的加速融合，工业控制系统由从原始的封闭独立走向开放、由单机走向互联、由自动化走向智能化。在工业企业获得巨大发展动能的同时,也出现了大量安全隐患，针对工业控制系统的网络(以下简称工控网)攻击越演越烈，工业控制系统迫切需要得到安全防护。

工业控制系统的系统漏洞，是影响工控网安全的重要因素，工控网漏洞不能像IT系统一样，得到及时的漏洞修复，大量漏洞长期存在。因此，如不能及时的预测工控网漏洞爆发的情况，采取相应的防御措施，则无法保证工控网的安全。由此可知，如何准确高效地预测工控网漏洞爆发情况，成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种基于bitmap预测工控网漏洞的系统，能够快速准确预测工控网漏洞爆发概率，从而实现基于工控网漏洞爆发概率采取相应的防御措施，提高工控网的安全性。

根据本发明一方面，提供了一种基于bitmap预测工控网漏洞的系统，

包括处理器、数据库和存储有计算机程序的存储介质，处理器与数据库通信连接，所述数据库中存储有基于每一漏洞id对应的Summary的文本随更新周期变化生成的bitmap，若当前周期的Summary的文本相对于前一周期的Summary的文本没有发生变化，当前周期在bitmap对应周期位置设置为0，否则，设置为1，B_e为第e个更新周期在bitmap上对应的取值，B_e等于0或1,e的取值为1到无穷大；

所述存储介质中存储的计算机程序包括第五计算机程序，所述处理器实行所述第五计算机程序时，实现以下步骤：

步骤S501、基于预设的训练周期确定Summary周期检测窗口TK，TK＝a*Te，a为大于1的正整数，Te为Summary更新周期；

步骤S502、以B_e作为TK中第a位信息，获取第e个周期检测窗口信息TK_e,基于B_e和TK_e中的位变化，确定B_e的特征权重w_e；

步骤S503、基于每一B_e的特征权重w_e和Summary文本Str_e确定每一Summary文本对应的Summary特征参数值PCS_e＝w_e*g(Str_e),其中，g(Str_e)为基于Str_e确定的原始特征参数值；

步骤S504、基于样本漏洞id对应的Summary特征参数值构建模型输入向量，训练得到工控网漏洞预测模型，基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种基于bitmap预测工控网漏洞的系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明的基于bitmap预测工控网漏洞的系统具体采用bitmap存储Summary的周期变化率，大大减小了数据存储占用的空间。基于bitmap来获取特征权重w_e，运算速度快，准确度高，提高了获取特征权重w_e的准确性和效率。从而提高了训练工控网漏洞预测模型的准确度和训练效率，进而提高了预测工控网漏洞爆发概率的准确度和预测效率。基于此来设置合理的防御措施，提升工控网的安全性和稳定性。该系统特别适用于Summary更新频率低的应用场景，即Summary更新频率低于预设的更新频率阈值的应用场景。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的预测工控网漏洞的系统框架示意图；

图2为本发明实施例一提供的基于互联网和工控网漏洞参数预测工控网漏洞流程图；

图3为本发明实施例二提供的基于修正参数预测工控网漏洞流程图；

图4为本发明实施例三提供的基于Summary长度特征预测工控网漏洞的流程图；

图5为本发明实施例四提供的基于Summary分词特征预测工控网漏洞的流程图；

图6为本发明实施例五提供的基于bitmap预测工控网漏洞的流程图；

图7为本发明实施例六提供的基于N-gram预测工控网漏洞的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对本发明提出的具体实施方式及其功效，详细说明如后。

工控网是企业内网，通过网关与互联网之间进行通信，工控网内连接有多个单片机、DSP、工控机和传感器等等。同一漏洞可能在互联网上爆发，也可能在工控网上爆发。每个漏洞(Common Vulnerabilities，简称CVE)均有对应的漏洞id(可以是国际标准组织为每一漏洞标注的唯一标识)和特征参数。漏洞特征参数包括从互联网爬取的互联网漏洞特征参数和从工控网爬取的工控网漏洞特征参数。作为示例，互联网漏洞特征参数具体可包括通用漏洞评分系统(Common Vulnerability Scoring System，简称CVSS)为每一漏洞id设置的CVSS值，summary(漏洞描述文本)参数、CVSS参数、CWE(Common WeaknessEnumeration，通用缺陷枚举)参数、产品组参数、参考网站域名参数和其他自定义互联网参数等等，summary参数具体可包括summary文本长度、summary分词特征等。工控网漏洞特征参数包括网关参数和工控网内部状态参数等等。每一互联网漏洞特征参数和工控网漏洞特征参数均对应有自己的更新周期，且各参数的更新周期之间可能存在巨大差异。

本发明实施例提供一种预测工控网漏洞的系统，如图1所示，包括处理器、数据库和存储有计算机程序的存储介质，处理器与数据库通信连接。本领域技术人员知晓，处理器设置于服务器上，服务器和数据库并非特指的一台硬件设备和/或软件设备，还可以是服务器集群、存储集群等。可以理解的是，能够进行数据处理的任何计算设备或多个计算设备的组合均可以设置所述服务器，能够进行数据存储的任何存储设备或多个存储设备的组合均可以认为是所述数据库。服务器和数据库可以是独立的设备，也可以共享一个或多个独立设备。

所述数据库中存储有所有互联网漏洞id对应的互联网漏洞特征参数列表P＝{P₁，P₂,…P_M}、互联网漏洞特征参数的更新周期列表TP＝{TP₁，TP₂，…TP_M}、工控网漏洞特征参数列表Q＝{Q₁，Q₂,…Q_N}和工控网漏洞特征参数更新周期列表TQ＝{TQ₁，TQ₂，…TQ_N}。P_m为第m个互联网漏洞特征参数，TP_m为P_m的更新周期，m的取值范围为1到M，M为互联网漏洞特征参数数量。Q_n为第n个工控网漏洞特征参数，TQ_n为Q_n的更新周期，n的取值范围为1到N，N为工控网漏洞特征参数数量。

互联网漏洞特征参数列表具体包括CVSS值、CVSS参数、CWE参数、产品组参数、参考网站域名参数、summary参数等中的至少一个。互联网漏洞特征参数列表根据每一互联网漏洞特征参数对应的更新周期对应更新。工控网漏洞特征参数列表具体包括网关参数和工控网内部状态参数等中的至少一个。

工控网漏洞特征参数根据每一工控网漏洞特征参数的更新周期对应更新。需要说明的是，互联网漏洞特征参数更新较慢，而工控网漏洞特征参数可以通过工控网内部监控获取对应的工控网漏洞特征参数，更新频率快，具体可以精确至小时级甚至分钟级。因此，互联网漏洞特征参数更新周期远大于工控网漏洞特征参数更新周期，具体可设置为max(TP_m)/min(TQ_n)>D1,其中，D1为预设的第一阈值，D1根据具体应用场景设置。例如D1的取值范围设置为[10,100]，优选的，D1＝20。虽然工控网和互联网是通过网关隔离，但是漏洞在互联网爆发的趋势和工控网爆发的趋势具有一致性，且互联网上能够爬取更多的漏洞特征参数，因此可以基于工控网漏洞特征参数和互联网漏洞特征参数，结合人工智能训练工控网漏洞预测模型，来预测漏洞在工控网上爆发的概率。

作为一种示例，所述处理器对计算机程序处理时实现以下步骤：

步骤S1、基于预设的样本漏洞id集合从所述互联网漏洞特征参数列表和工控网漏洞特征参数列表中获取每一样本漏洞id对应的漏洞特征向量，构建训练参数集；

步骤S2、根据所述训练参数集训练得到工控网漏洞预测模型；

步骤S3、基于所述工控网漏洞预测模型预测待测漏洞id在工控网上爆发的概率。

可以理解的是，由于是采用历史数据来预测漏洞爆发的概率，因此样本漏洞id集合可以是当前漏洞id集合中的一部分漏洞id，也可以是全部漏洞id，根据具体需求来设定。

由于存在多种互联网漏洞特征参数和工控网漏洞特征参数，且更新周期各不相同，可以选取不同的漏洞特征参数，通过不同的处理方式来训练得到不同的工控网漏洞预测模型。以下将通过多个实施例详细介绍具体实施方式，如无特殊说明，各实施例的技术内容均可以相互引用。

实施例一、

所述存储介质中存储的计算机程序包括第一计算机程序，所述处理器实行所述第一计算机程序时，实现以下步骤：

步骤S101、获取训练数据集的训练周期T₀＝LCM(TP_m)，LCM为求最小公倍数函数。

由于不同P_m和Q_n的更新周期差异性大，如果直接采用滑动窗口来选取训练参数，会导致很多参数在一定时间内并不发生变化，浪费计算资源，对模型训练意义不大，因此本实施例选取TP_m的小公倍数作为训练周期口。需要说明的是，由于互联网漏洞特征参数更新周期远大于工控网漏洞特征参数更新周期，因此，在选取时间窗口时仅考虑互联网漏洞特征参数更新周期即可，这样既能保证每一样本漏洞id均能采集到所有互联网漏洞特征参数和工控网漏洞特征参数，且避免浪费算力，提高了模型训练的效率。

步骤S102、从所述数据库获取每一样本漏洞id对应的距离当前时刻之前T₀内P_m的参数值列表、Q_n的参数值列表和工控网漏洞爆发概率真值；

工控网漏洞爆发概率真值指的是样本预测时刻对应的工控网漏洞实际爆发概率，工控网漏洞实际爆发概率也是在对应更新周期内更新的参数，工控网漏洞实际爆发概率由所在的工控网漏洞爆发概率更新周期内，汇报爆发该漏洞的工控网主机设备数量除以所有监控的工控网主机设备数量得到。

步骤S103、基于每一样本漏洞id的P_m的参数值列表确定样本漏洞id对应的P_m的训练参数值PC_m，基于每一样本漏洞id的Q_n的参数值列表确定样本漏洞id对应的Q_n的训练参数值QC_n，基于PC_m和QC_n生成每一样本漏洞id的模型输入向量；

步骤S104、根据所有样本漏洞id模型输入向量和工控网漏洞爆发概率真值训练得到工控网漏洞预测模型：

f(x)＝a₁*x₁+a₂*x₂+…a_M+N*x_M+N，

其中，x_i为样本漏洞id对应的P_m的训练参数值或Q_n的训练参数值，a_i为x_i的权重系数，i的取值范围为1到M+N；

步骤S105、基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。

作为一种示例，所述步骤S104包括：

步骤S114、将所有样本漏洞id模型输入向量输入预设的工控网漏洞预测模型中，得到样本工控网漏洞爆发概率预测值。

步骤S124、根据样本工控网漏洞爆发概率预测值和真值调整权重系数，训练得到所述工控网漏洞预测模型。

作为一种示例，所述步骤S105中，优选采用与训练数据集的训练周期T₀相同的周期，采用步骤S102-步骤S104相同的输入向量构建策略来预测工控网漏洞爆发概率，预测准确性高。

作为另一种示例，训练工控网漏洞预测模型时所选择的时间周期远大于工控网漏洞特征参数的周期，但由于工控网漏洞特征参数的周期断，更新频率快，因此，当有至少一个工控网漏洞特征参数更新时，即可对工控网漏洞进行预测，预测灵敏度高，且对于新爆发的漏洞具有极强的可预测性。具体的，所述步骤S105包括：

步骤S134、获取预测周期T₁＝min(TQ_n)；

步骤S144、每间隔T₁采集待测漏洞id对应的当前时刻的P_m的参数值或Q_n的参数值，构建待测漏洞id对应的输入向量；

步骤S154、将所述待测漏洞id对应的输入向量输入所述工控网漏洞预测模型中，得到待测漏洞id在当前时刻之后T₁时刻时工控网漏洞爆发概率。

作为一种优选示例，所述步骤S103中，每一样本漏洞id对应的距离当前时刻之前T₀内P_m的参数值列表为{PC_m1,PC_m2,…PC_mA}，其中，PC_ma为P_m在T₀内的第a个参数值，a的取值范围为1到A，A为P_m在距离当前时刻之前T₀内采集到的P_m参数值总数量，A＝T₀/TP_m，基于每一样本漏洞id的P_m的参数值列表确定样本漏洞id对应的P_m的训练参数值PC_m，包括：

步骤S113、基于下式确定P_m的训练参数值PC_m：

由于参数更新周期不同，因此大部分互联网漏洞特征参数工控网漏洞特征参数在训练周期内将会获取多个特征参数，因此需要基于多个特征参数确定合理的特征参数值，来构建模型输入。作为一种优选示例，所述步骤S103中，每一样本漏洞id对应的距离当前时刻之前T₀内Q_n的参数值列表为{QC_n1,QC_n2,…QC_nB},QC_nb为Q_n在距离当前时刻之前T₀内的第b个参数值，b的取值范围为1到B，B为Q_n在距离当前时刻之前T₀内采集到的Q_n参数值总数量，B＝T₀/TQ_n，基于每一样本漏洞id的Q_n的参数值列表确定样本漏洞id对应的Q_n的训练参数值QC_n包括：

步骤S123、基于下式确定Q_n的训练参数值QC_n：

随着时间的推移，漏洞可能会有新增，漏洞特征参数和漏洞特征参数更新周期也可能会有变化，因此，为了进一步提高工控网漏洞预测模型的准确度，所述处理器实行所述第一计算机程序时，实现以下步骤：

步骤S100、每间隔T₀，重新执行步骤S101-步骤S104更新所述工控网漏洞预测模型。

实施例一所述系统，通过设置合理的训练数据集的训练周期，获取互联网漏洞特征参数和工控网漏洞特征参数，并基于训练周期内的互联网漏洞特征参数和工控网漏洞特征参数分别确认对应的参数值，再转换为输入向量，训练得到工控网漏洞预测模型。基于多个维度的互联网漏洞特征参数和工控网漏洞特征参数，能够快速准确预测工控网漏洞爆发概率，基于此来设置合理的防御措施，提升工控网的安全性和稳定性。实施例一特别适用于能够同时获取互联网漏洞特征参数和工控网漏洞特征参数的应用场景。

实施例二、

需要说明的是，互联网漏洞特征参数比较多，且容易获取，但在有些应用场景下，受限于工控网规模等多种因素，可能无法获取到足量的工控网漏洞特征参数来训练工控网漏洞预测模型。但由于同一漏洞在工控网爆发的趋势与在互联网爆发的整体趋势一致，具有相关联性，因此，可以基于工控网和互联网漏洞爆发的关联关系结合互联网漏洞特征参数来对工控网漏洞爆发概率进行预测。

具体的，所述存储介质中存储的计算机程序包括第二计算机程序，所述处理器实行所述第二计算机程序时，实现以下步骤：

步骤S201、从所述数据库获取预设训练周期内每一样本漏洞id对应的P_m的参数值列表、互联网漏洞实际爆发概率列表、工控网漏洞实际爆发概率列表和工控网漏洞爆发概率真值。

其中，预设训练周期可以根据具体的训练需求设定，也可以直接基于实施例一种获取互联网漏洞特征参数更新周期最小公倍数的方式来确定。互联网漏洞实际爆发概率也是在对应更新周期内更新的参数，互联网漏洞实际爆发概率由所在的互联漏洞爆发概率更新周期内，汇报爆发该漏洞的互联网主机设备数量除以所有监控的互联网主机设备数量得到。获取工控网漏洞爆发概率真值和工控网漏洞实际爆发概率的具体算法在实施例一中已详细描述，在此不再赘述。

步骤S202、基于互联网漏洞实际爆发概率列表和工控网漏洞实际爆发概率列表确定每一样本漏洞id对应的修正参数P_CVE，基于每一样本漏洞id对应的P_m的参数值列表确定对应的训练参数值PC_m，基于PC_m生成每一样本漏洞id的模型输入向量。

需要说明的是，修正参数P_CVE是表示对于每一样本漏洞id互联网实际漏洞爆发概率与工控网实际漏洞爆发概率值之间的关联关系，每一样本漏洞id均有一个对应的修正参数P_CVE，是基于每一漏洞id动态变化的值。

步骤S203、根据所有样本漏洞id对应的修正参数P_CVE、模型输入向量和工控网漏洞爆发概率真值训练得到工控网漏洞预测模型：

f(x)＝b₀*P_CVE+b₁*x₁+b₂*x₂+…b_M*x_M；

其中，x_j为样本漏洞id对应的P_m的训练参数值，b_j为x_j的权重系数，j的取值范围为1到M。

需要说明的是，上述模型基于互联网漏洞特征参数构建输入向量，并基于对应的表征互联网实际漏洞爆发概率与工控网实际漏洞爆发概率值之间的关联关系的修正参数P_CVE同时作为模型输入，实现了基于互联网漏洞特征参数来预测工控网漏洞爆发的概率。

步骤S204、基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。

可以理解的是，漏洞预测模型训练好以后，可以基于任意时刻漏洞对应的输入参数，来预测该漏洞在工控网爆发的概率。

由于基于修正参数P_CVE和互联网特征参数来预测工控网漏洞爆发概率。因此，在模型训练过程中，如何确定合理准确的修正参数P_CVE尤为重要。作为一种示例，所述步骤S202中，基于互联网漏洞实际爆发概率列表和工控网漏洞实际爆发概率列表确定每一样本漏洞id对应的修正参数P_CVE，包括：

步骤S212、根据预设训练周期内每一样本漏洞id对应的互联网漏洞实际爆发概率列表、工控网漏洞实际爆发概率列表获取互联网与工控网漏洞爆发关联参数列表{R₁，R₂，…R_C},R_c为第c个关联参数，c的取值范围为1到C，C为样本漏洞id在预设训练周期内得到的关联参数总数，R_c＝CH_c1/CH_c2，CH_c1为第c时刻互联网漏洞实际爆发概率值，CH_c2为第c时刻工控网漏洞实际爆发概率。

步骤S222、根据{R₁，R₂，…R_C}确定样本漏洞id对应的修正参数P_CVE。

作为一种示例，所述步骤S222包括：

步骤S232、获取{R₁，R₂，…R_C}的平均值R_AVG，根据R_AVG和{R₁，R₂，…R_C}获取第一变化参数SR1：

步骤S242、若SR1大于等于预设的第二阈值D2，则获取{R₁，R₂，…R_C}的最大值R_max，设置P_CVE＝R_max，否则，设置P_CVE＝R_AVG。

需要说明的是，若SR1大于等于预设的第二阈值D2，说明漏洞在当前训练周期内，存在突然的爆发期，因此，选择{R₁，R₂，…R_C}的最大值作为修正参数P_CVE更准确。若SR1小于第二阈值D2，说明漏洞在当前训练周期内，相对平稳，因此选择{R₁，R₂，…R_C}作为修正参数P_CVE更准确。通过合理选择准确的修正参数P_CVE能够提高工控网漏洞预测模型的准确度，且能够使得模型对于新出现的漏洞预测具有很强的灵敏性，特别适用于对新出现漏洞预测的应用场景。

为了进一步提高选择修正参数P_CVE的合理性和准确定，所述步骤S242中，若SR1小于D2，还可进一步执行以下步骤：

步骤S252、获取{R₁，R₂，…R_C}的最小值R_min，根据R_min、R_AVG、R_max获取第二变化参数SR2：

步骤S262、若SR2大于等于1，则设置P_CVE＝R_min，否则，设置P_CVE＝R_max。

需要说明的是，当SR2大于等于1时，说明R_min的影响性更大，因此优选P_CVE＝R_min，这种情况通常适用于以下场景，对于一个一直存在的漏洞，突然被修复了，这种场景下，R_min的影响性更大，选择P_CVE＝R_min，能够提高模型准确度。若当SR2小于1时，说明R_max的影响性更大，因此优选P_CVE＝R_max，这样能够使得模型对于新出现的漏洞预测具有很强的灵敏性，特别适用于对新出现漏洞预测的应用场景。

作为示例，所述步骤S202中，基于每一样本漏洞id对应的P_m的参数值列表确定对应的训练参数值PC_m，包括：

步骤S272、将每一样本漏洞id对应的P_m的参数值列表中所有参数的最大值、最小值或均值确定为对应的训练参数值PC_m。

实施例二所述系统，通过互联网漏洞特征参数和表征互联网实际漏洞爆发概率与工控网实际漏洞爆发概率值之间的关联关系的修正参数P_CVE构建模型输入参数，训练得到工控网漏洞预测模型。实现了基于多个维度的互联网漏洞特征参数和修正参数P_CVE，来快速准确预测工控网漏洞爆发概率，基于此来设置合理的防御措施，提升工控网的安全性和稳定性。实施例二特别适用于不易获取工控网漏洞特征参数的应用场景。基于此来设置合理的防御措施，提升工控网的安全性和稳定性。

Summary参数是权威机构对漏洞的文本描述，能够准确可靠地反应漏洞特征，因此可以基于Summary来构建用于预测工控网漏洞的特征参数。Summary是非结构化参数，因此需要基于Summary的文本特征来构建特征参数值，例如现有技术中，直接基于Summary的长度，Summary的长度越长，说明该漏洞危害性越大，需要处理的紧急程度越高。但是，由于Summary通常是权威机构定期更新所有的Summary，但只有周期内发生变化的漏洞的Summary才会改变，其他周期内未变化的Summary在更新时还是保持与上一周期的Summary一致。例如，对于一个三年前爆发的严重漏洞，存在较长的文本描述信息，但是三年内没有再发生过其他变化，因此Summary描述一直停留在三年前的描述状态，如果仅从Summary文本直接构建特征参数值，那么显然是极有可能出现构建Summary特征参数值不准确的情况。因此，需要根据Summary的变化来赋予对应的特征权重值，提高构建Summary特征参数的准确性。由此可知，如何确定每一Summary对应的特征权重值尤为重要，以下通过几个具体实施例进行详细说明。

实施例三、

所述存储介质中存储的计算机程序包括第三计算机程序，所述处理器实行所述第三计算机程序时，实现以下步骤：

步骤S300、从所述数据库获取每一样本漏洞id在对应的Summary的文本序列{Str₁,Str₂,…}，Str_e为第e个更新周期对应的Summary的文本，e的取值范围为1到无穷大。

步骤S301、当e＝1时，根据Str_e的长度确定Str_e的特征权重w_e。

通过步骤S301，可以为每一Str_e设置对应的初始特征权重。

步骤S302、当e>1时，比较Str_e-1和Str_e的文本信息，若完全一致，则判断z*w_e-1是否大于预设的第一特征权重阈值w_emin，若大于，则设置w_e＝z*w_e-1，其中，z为预设的权重调整系数，0<z<1,若z*w_e-1小于等于w_emin，则设置w_e＝w_emin，若Str_e-1和Str_e的文本信息不一致，则根据Str_e的长度确定Str_e的特征权重w_e。

需要说明的是，当Str_e-1和Str_e的文本信息完全一致时，说明Summary未更新，因此需要乘以z，来降低对应的特征权重。优选的，z设置为1/2但有些Summary存在长期不更新的情况，不能无限制减小，因此设置第一特征权重阈值w_emin，当w_e降低至一定程度时，取最小值即可。而当Str_e-1和Str_e的文本信息不一致时，说明Summary进行了更改，因此需要直接基于当前的Str_e的长度确定Str_e的特征权重w_e。

步骤S303、基于每一Str_e的特征权重w_e和Str_e确定每一Str_e对应的Summary特征参数值PCS_e＝w_e*g(Str_e),其中，g(Str_e)为基于Str_e确定的原始特征参数值。

需要说明的是，g(Str_e)可以直接基于现有的算法来获取，即直接基于文本特征来确定一个对应的参数值，现有算法在此不再赘述。w_e是基于Summary本身的特征参数以及连续周期内Summary的变化来确定的，因此，使得获取到的Summary特征参数值PCS_e更加准确可靠，从而提高模型准确性。

步骤S304、基于样本漏洞id对应的Summary特征参数值构建模型输入向量，训练得到工控网漏洞预测模型，基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。

可以理解的是，构建输入向量时，可以引入其他需要的互联网漏洞特征参数和工控网漏洞特征参数，具体参数处理可以基于实施例一和实施例二中所述的方式，也可以采用现有的数据处理方式，在此不再赘述。

作为示例，所述步骤S301和步骤S302中，根据Str_e的长度确定Str_e的特征权重w_e，包括：

步骤S311、将Str_e的长度L_e与预设的第一长度阈值L_min和第二长度阈值L_max对比，第一长度阈值L_min小于第二长度阈值L_max，若L_e<L_min，则设置w_e＝w_emin，若L_e>L_max，则设置w_e＝w_emax，w_emax为预设的第二特征权重阈值，所述第二特征权重阈值大于所述第一特征权重阈值，L_e在[L_min，L_max]范围内，则设置w_e＝k₁*L_e，其中，k₁为预设的第一线性变化系数。

通过步骤S311，能够基于Str_e的长度L_e确定一个准确可靠的初始特征权重。优选的，k₁设置为(w_emax-w_emin)/w_emax

作为一种优选示例，当e>1时，在执行步骤S311之前还包括：

步骤S310、判断w_e-1是否基于w_e-1＝z*w_e-2设置，若是，且Str_e-1和Str_e的文本信息不一致，则设置w_emin＝w_e-1。

当w_e-1＝z*w_e-2时，说明前两个周期内的Summary未发生变化，且上一周期已经对权重进行了缩小，而当前周期相较于上一周期的Summary发生了变化，那么当前周期的权重一定大于上一周的权重，此时可将本周期内的w_emin设置为w_e-1，提高了获取本周期的特征权重的准确性。可以理解的是，若不是步骤S310中所述情况，那么w_emin仍为原始预设数值。

作为示例，所述步骤S304中、基于样本漏洞id对应的Summary特征参数值构建模型输入向量，训练得到工控网漏洞预测模型，包括：

步骤S314、根据样本漏洞id对应的Summary特征参数值、预设的互联网漏洞特征参数，以及预设的工控网漏洞特征参数，确定每一样本漏洞id的模型输入向量；

步骤S324、基于样本漏洞id对应的模型输入向量和工控网漏洞爆发概率真值训练得到所述工控网漏洞预测模型。

可以理解的是，模型样本输入确定好后，获取对应的样本真值即可对选择的人工智能模型进行训练，输入参数可以设置预设的训练周期选择，基于实施例一和实施例二中对输入参数的处理方式进行处理，也可才能用现有的处理方式来处理，在此不在赘述。

需要说明的是，执行步骤S300之后直接执行步骤S301的算法适用于从e＝1时刻，即有对应的Summary文本的漏洞id，但有些漏洞id是后续新增的，针对此类漏洞id也可设置一套对应的特征权重确定策略，作为一种示例，所述步骤S300之后还包括：

步骤S311、若{Str₁,Str₂,…}中连续前nr个Str_e为空，Str_nr+1不为空，则设置Str_nr+1的特征权重w_nr+1＝w_emax，w_emax为预设的第二特征权重阈值，然后初始化e＝nr+2，执行步骤S302。

需要说明的是，若{Str₁,Str₂,…}中连续前nr个Str_e为空，Str_nr+1不为空，说明在对应的漏洞id在nr+1为新增漏洞id，那么将Str_nr+1的特征权重w_nr+1直接设置为最大值第二特征权重阈值即可，能够在保证精确度的前提下，减少数据处理量，提高数据处理效率。

实施例三能够根据连续周期内Summary的文本变化和长度变化来调整Summary的特征权重，且Summary的文本变化易于判断，长度参数易于获取，因此提高获取Summary特征参数值的准确度和获取效率，从而提高了训练工控网漏洞预测模型的准确度和训练效率，进而提高了预测工控网漏洞爆发概率的准确度和预测效率。基于此来设置合理的防御措施，提升工控网的安全性和稳定性。

实施例四、

实施例四提供一种更适用于Summary更新频率高，即Summary更新频率超过预设的更新频率阈值的应用场景。

所述存储介质中存储的计算机程序包括第四计算机程序，所述处理器实行所述第四计算机程序时，实现以下步骤：

步骤S400、从所述数据库获取每一样本漏洞id在对应的Summary的文本序列{Str₁,Str₂,…}，Str_e为第e个更新周期对应的Summary的文本，e的取值范围为1到无穷大。

步骤S401、对Str_e进行分词处理，并采用预设的停用词库去停用词，得到Str_e对应的分词集合A_e。

需要说明的是，预设的停用词库可以为基于技术构建的停用词库，并可以根据应用需求不断不更。也可以是后续实施例中描述的工业互联网停用词库，也可根据实施例六中描述的工业互联网停用词库的更新方式更新工业互联网停用词库，在此不再赘述。

步骤S402、当e＝1时，根据A_e的分词数量确定Str_e的特征权重w_e。

通过步骤S402，可以为基于A_e的分词数量每一Str_e设置对应的初始特征权重。

步骤S403、当e>1时，比较Str_e-1和Str_e的文本信息，若完全一致，则设置w_e＝w_e-1，若Str_e-1和Str_e的文本信息不完全一致，则对分词集合A_e和分词集合A_e-1进行集合差集运算，得到A_e相对于A_e-1的差集分词数A_e-A_e-1，以及A_e-1相对于A_e的差集分词数A_e-1-A_e1，设置w_e＝[(A_e-A_e-1)/(A_e-1-A_e1)]*w_e-1。

需要说明的是，当Str_e-1和Str_e的文本信息完全一致时，说明Summary未更新，由于Summary更新频率快，因此，可直设置w_e＝w_e-1。若Str_e-1和Str_e的文本信息不完全一致，则需要基于A_e与A_e-1之间的变化关系来确定特征权重变化系数[(A_e-A_e-1)/(A_e-1-A_e1)]，进而基于[(A_e-A_e-1)/(A_e-1-A_e1)]和上一周期的权重w_e-1来确定w_e，A_e-A_e-1与A_e-1-A_e1相比，若A_e-A_e-1大于A_e-1-A_e1，说明A_e在A_e-1的基础上增加了更多词语，如果A_e-A_e-1小于A_e-1-A_e1说明A_e在A_e-1的基础上减少了更多词语，这样就会使得A_e在A_e-1的基础上增加了更多词语时，特征权重变大，A_e在A_e-1的基础上减少了更多词语时，特征权重变小，提高了确定特征权重w_e的准确性。

步骤S404、基于每一Str_e的特征权重w_e和Str_e确定每一Str_e对应的Summary特征参数值PCS_e＝w_e*g(Str_e),其中，g(Str_e)为基于Str_e确定的原始特征参数值。

步骤S405、基于样本漏洞id对应的Summary特征参数值构建模型输入向量，训练得到工控网漏洞预测模型，基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。

作为一种示例，所述步骤S402包括：

步骤S412、将A_e的分词数量SA_e与预设的第一分词数量阈值SU_min和第一分词数量阈值SU_max对比，其中，SU_min<SU_max，若SA_e<SU_min，则设置w_e＝ws_min，ws_min为预设的第三特征权重阈值，若SA_e>SU_max，则设置w_e＝ws_max，ws_max为预设的第四特征权重阈值，若为预设的第三特征权重阈值在[SU_min，SU_max],则设置w_e＝k₂*SA_e，其中，k₂为预设的第二线性变化系数。

优选的，ws_min设置为0，ws_max设置为1，便于计算。

通过步骤S412，能够基于A_e的分词数量SA_e确定一个准确可靠的初始特征权重。优选的，k₂设置为(ws_max-ws_min)/ws_max。

需要说明的是，执行步骤S401之后直接执行步骤S402的算法适用于从e＝1时刻，即有对应的Summary文本的漏洞id，但有些漏洞id是后续新增的，针对此类漏洞id也可设置一套对应的特征权重确定策略，作为一种示例，所述步骤S401之后还包括：

步骤422、若{Str₁,Str₂,…}中连续前ns个Str_e的A_e为空，A_e+1不为空，则设置Str_ns+1的特征权重w_ns+1＝ws_max，ws_max为预设的第三特征权重阈值，然后初始化e＝ns+2，执行步骤S403。

需要说明的是，若{Str₁,Str₂,…}中连续前ns个Str_e的A_e为空，A_e+1不为空，说明在对应的漏洞id在ns+1为新增漏洞id，那么将Str_ns+1的特征权重w_ns+1直接设置为最大值第三特征权重阈值即可，能够在保证精确度的前提下，减少数据处理量，提高数据处理效率。

作为一种示例，所述步骤S405中、基于样本漏洞id对应的Summary特征参数值构建模型输入向量，训练得到工控网漏洞预测模型，包括：

步骤S415、根据样本漏洞id对应的Summary特征参数值、预设的互联网漏洞特征参数，以及预设的工控网漏洞特征参数，确定每一样本漏洞id的模型输入向量；

步骤S425、基于样本漏洞id对应的模型输入向量和工控网漏洞爆发概率真值训练得到所述工控网漏洞预测模型。

实施例四特别适用于Summary更新频率高的应用场景，即Summary更新频率高于预设的更新频率阈值的应用场景。能够根据连续周期内Summary的文本的分词变化关系来调整Summary的特征权重，提高了获取Summary特征参数值的准确度和获取效率，从而提高了训练工控网漏洞预测模型的准确度和训练效率，进而提高了预测工控网漏洞爆发概率的准确度和预测效率。基于此来设置合理的防御措施，提升工控网的安全性和稳定性。

实施例五、

实施例五特别适用于Summary更新频率低的应用场景，即Summary更新频率低于预设的更新频率阈值的应用场景。

所述系统还包括基于每一漏洞id对应的Summary的文本随更新周期变化生成的bitmap(位图)，采用bitmap存储，能够节省数据存储空间。若当前周期的Summary的文本相对于前一周期的Summary的文本没有发生变化，当前周期在bitmap对应周期位置设置为0，否则，设置为1，B_e为第e个更新周期在bitmap上对应的取值，B_e等于0或1,e的取值为1到无穷大。

可以理解的是，周期检测窗口TK中包含了a个bit(位)，每个bit对应一个更新周期。优选的，a取值为8。

步骤S502、以B_e作为TK中第a位信息，获取第e个周期检测窗口信息TK_e,基于B_e和TK_e中的位变化，确定B_e的特征权重w_e。

需要说明的是，以B_e作为TK中第a位信息，即B_e为TK中的最后一位信息。TK_e中的位变化即TK_e中的a位的变化关系，对应于连续a个周期的Summary的变化关系。例如a位全为0，则说明连续a个周期内，Summary没有发生变化。再如，B_e为1，说明B_e对应的Summary相较于上一周期的Summary发生了变化。再如，B_e为0，B_e-a1为1，B_e-a1与B_e之间全部为0，则说明B_e对应的Summary连续a1个周期没有发生变化，因此，基于B_e和TK_e中的位变化，即可确定B_e的特征权重w_e

步骤S503、基于每一B_e的特征权重w_e和Summary文本Str_e确定每一Summary文本对应的Summary特征参数值PCS_e＝w_e*g(Str_e),其中，g(Str_e)为基于Str_e确定的原始特征参数值。

作为一种示例，所述步骤S502中，所述基于B_e和TK_e中的位变化，确定B_e的特征权重w_e，包括：

步骤S512、判断B_e是否为1，若为1，则设置w_e＝wb_max，wb_max为预设的第五特征权重阈值，否则，执行步骤S522；

步骤S522、获取TK_e中与B_e最近的取值为1的位与B_e间隔的位数d,判断(wb_max-wb_min)/d是否小于预设的第六特征权重阈值wb_min，若小于，则设置w_e＝wb_min，否则设置w_e＝(wb_max-wb_min)/d，wb_min<wb_max。

由于Summary更新频率低，当Summary相较于上一周期的Summary发生更新时，应当具备高权重，通过步骤S512-步骤S522，可以当前周期相较于上一周期发生变化的w_e直接设置为wb_max，这样既能保证准确性，又能减少计算量。当然可以理解的是，如果需要更为精确的结果，则可以基于实施例三和实施例四中的Summary长度或分词结果来具体计算，在此不再赘述。当Summary相较于上一周期的Summary未发生更新时，则基于当前周期与最一次更新周期的距离来确定对应的权重，基于位图来获取K_e中与B_e最近的取值为1的位与B_e间隔的位数d，计算量小，且计算效率高。

作为一种示例，为了进一步提特征权重获取的准确定，可以基于上一周期检测窗口的结果动态调整wb_max和wb_min，所述步骤S522之后还包括：

步骤S532、获取基于当前Summary周期检测窗口TK得到的所有w_e中的最大值max(w_e)和最小值min(w_e),更新wb_max＝max(w_e)，更新wb_min＝min(w_e)。

为了进一步提高获取特征权重的效率，可以直接基于bitmap进行位运算，作为示例，所述步骤S502包括：

步骤S542、以B_e作为TK中第a位信息，获取第e个周期检测窗口内的bitmap_e，初始化WK为二进制，WK的对应初始十进制数为2^a-1；

步骤S552、判断当前bitmap_e的最后一位是否为0，若为0，则执行步骤S562，若为1，则执行步骤S572；

步骤S562、将第e个周期检测窗口右移一位，更新bitmap_e，WK右移一位，返回执行步骤S552；

步骤S572、将当前WK确定为B_e的特征权重w_e。

以a取值为8为例，以B_e作为TK中第a位信息，获取第e个周期检测窗口内的bitmap_e为00110000，初始化WK为10000000，当前bitmap_e的最后一位是0，将bitmap_e右移一位得到00011000，WK右移一位得到01000000，循环执行，直至bitmap_e的最后一位为1，此时WK的值即为B_e的特征权重w_e。通过步骤S542-步骤S572采用为运算来获取特征权重w_e，提高了获取特征权重w_e的效率。

实施例五特别适用于Summary更新频率低的应用场景，即Summary更新频率低于预设的更新频率阈值的应用场景。具体采用bitmap存储Summary的周期变化率，大大减小了数据存储占用的空间。基于bitmap来获取特征权重w_e，运算速度快，准确度高，提高了获取特征权重w_e的准确性和效率。从而提高了训练工控网漏洞预测模型的准确度和训练效率，进而提高了预测工控网漏洞爆发概率的准确度和预测效率。基于此来设置合理的防御措施，提升工控网的安全性和稳定性。

实施例三到实施例五描述了三套确定每一Summary文本对应的Summary特征权重的方法，实施例六将进一步描述一种确定原始特征参数值g(Str_e)的方式，然后基于g(Str_e)和对应的特征权重即可确定每一Summary文本对应的Summary特征参数值PCS_e。g(Str_e)具体可以基于现有的特征处理算法，基于Summary文本特征来获取g(Str_e)。也可以基于实施例六所描述分方案来获取g(Str_e)

实施例六、

所述系统包括预设的工业互联网停用词库，所述互联网停用词库存储工业互联网领域常用的停用词。每一样本漏洞id对应的Summary的文本序列为{Str₁,Str₂,…}，Str_e为第e个更新周期对应的Summary的文本，e的取值范围为1到无穷大。

所述存储介质中存储的计算机程序包括第六计算机程序，所述处理器实行所述第六计算机程序时，实现以下步骤：

步骤S601、基于所述工业互联网停用词库将Str_e中的工业互联网停用词去除，并在工业互联网停用词的位置对Str_e进行分割，生成对应的文本片段序列{Fr_e1,Fr_e2,…Fr_eI},Fr_ei为Str_e的第i个文本片段，i的取值范围为1到I,I为Str_e的文本片段总数。

其中，以ABCDEFG为一段文本为例，每个字母表示一个词，假设C和E为所述工业互联网停用词库中的停用词，那么将C和E去除，同时将剩下的文本分割为AB、D和FG三个文本片段。

步骤S602、对每一Str_e的每一Fr_ei执行预设的N-gram分词处理，N为正整数，取值范围为[Kn₁,Kn₂]，每一Str_e的所有Fr_ei的分词合并去重，得到对应的分词向量FB_e。

需要说明的是，如果直接每一Summary进行N-gram分词处理，由于Summary文本数量庞大，如果直接将所有Summary文本N-gram的分词结果进行one-hot编码，会使得向量维度过大，所需计算量大，数据处理效率低。而本实施例通过步骤S601将每一Summary基于停用词进行分段，再将分段后的文本片段逐一进行N-gram分词，能够大大降低向量维度，提高数据处理效率。N-gram的具体分词过程为现有技术，在此不再展开描述。优选的，kn₁取值为3，kn₂取值为6。

步骤S603、将所有的FB_e中的分词合并去重，得到分词集合FC，将FC的分词数量确定为one-hot编码的维度。

步骤S604、基于one-hot编码的维度对分词向量FB_e进行one-hot编码，得到每一Str_e的原始特征参数值。

one-hot编码的具体编码过程为现有技术，在此不再展开描述。可以理解的是，当对分词向量FB_e进行one-hot编码后，基于编码结果可以得到对应的Str_e的原始特征参数值。

步骤S605、基于样本漏洞id对应的Str_e的原始特征参数值建模型输入向量，训练得到工控网漏洞预测模型，基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。

所述步骤S605中可以直接基于Str_e的原始特征参数值结合其他漏洞特征参数值建模型输入向量，为了进一步提高Summary特征参数值的准确性，可以为每一Str_e赋予对应的权重，作为一种示例，所述步骤S605中，基于样本漏洞id对应的Str_e的原始特征参数值建模型输入向量，包括：

步骤S615、基于样本漏洞id对应的Str_e的原始特征参数值g(Str_e)和对应的特征权重w_e，确定每一Str_e对应的Summary特征参数值PCS_e＝w_e*g(Str_e)，基于样本漏洞id对应的Summary特征参数值构建模型输入向量。

其中，Str_e对应的特征权重w_e基于Str_e，以及当前Summary文本基于历史Summary文本的变化确定。具体可采用实施例三、实施例四、实施例五中的至少一种方式来确定w_e，在此不再赘述。

为了进一步提高Summary参数值的处理效率和准确度，可以对工业互联网停用词库进行更新，作为示例，所述处理器实行所述第六计算机程序时，还实现工业互联网停用词库更新流程，包括以下步骤：

步骤S600、初始化N-gram中的N＝Kn2，

步骤S610、对所有漏洞id对应的Summary文本基于所述工业互联网停用词库分割成文本片段，并去除工业互联网停用词，再对每一文本片段作N-gram分词处理，获取N-gram分词数量列表；

步骤S620、将N-gram分词数量大于预设的分词数量阈值D3的N-gram分词加入所述工业互联网停用词库中，判断Kn是否大于Kn₁，若是，则设置Kn＝Kn-1，返回执行步骤S610，若Kn等于Kn₁，则结束所述工业互联网停用词库更新流程。

通过步骤S600-步骤S620，结合对所有Summary文本的N-gram处理，更新工业互联网停用词库，使得停用词库基于Summary文本的更新状况同步更新，提高了获取Summary参数值的处理效率和准确度。

优选的，

其中，D3与

和SN呈正相关，D3与avg(Kn)呈负相关，SN为所有漏洞的所有Summary总数量，L_j为第j个Summary的长度，avg(N)为N-gram中N的所有取值的均值。

实施例六通过工业互联网停用词库对Summary文本去停用词和分段的处理，减少了对所有Summary文本进行N-gram处理后的分词数量，从而降低了对分词向量FB_e进行one-hot编码的编码维度，提高了获取Str_e的原始特征参数值的效率和准确性，从而提高了训练工控网漏洞预测模型的准确度和训练效率，进而提高了预测工控网漏洞爆发概率的准确度和预测效率，基于此来设置合理的防御措施，提升工控网的安全性和稳定性。

实施例七、

一种服务器，包括至少一个实施例一至实施例六中所述的系统。

所述服务器能够基于互联网漏洞特征参数和工控网漏洞特征参数快速准确地训练工控网漏洞预测模型，从而能够基于工控网漏洞预测模型快速准确地预测工控网漏洞爆发概率，基于此来设置合理的防御措施，提升工控网的安全性和稳定性。

需要说明的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的部分步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于bitmap预测工控网漏洞的系统，其特征在于，

包括处理器、数据库和存储有计算机程序的存储介质，处理器与数据库通信连接，所述数据库中存储有基于每一漏洞id对应的Summary的文本随更新周期变化生成的bitmap，Summary为漏洞描述文本，若当前周期的Summary的文本相对于前一周期的Summary的文本没有发生变化，当前周期在bitmap对应周期位置设置为0，否则，设置为1，B_e为第e个更新周期在bitmap上对应的取值，B_e等于0或1,e的取值为1到无穷大；

所述步骤S502中，所述基于B_e和TK_e中的位变化，确定B_e的特征权重w_e，包括：

步骤S522、获取TK_e中与B_e最近的取值为1的位与B_e间隔的位数d,判断(wb_max-wb_min)/d是否小于预设的第六特征权重阈值wb_min，若小于，则设置w_e＝wb_min，否则设置w_e＝(wb_max-wb_min)/d，wb_min<wb_max；

2.根据权利要求1所述的系统，其特征在于，

所述步骤S522之后还包括：

3.根据权利要求1所述的系统，其特征在于，

所述步骤S502包括：

步骤S542、以B_e作为TK中第a位信息，获取第e个周期检测窗口内的bitmap_e，初始化WK为二进制数，WK的对应初始十进制数为2^a-1；

步骤S572、将当前WK确定为B_e的特征权重w_e。

4.根据权利要求1所述的系统，其特征在于，

a取值为8。

5.一种服务器，其特征在于，包括权利要求1到4中任意一项所述的系统。