CN114021150A - 基于N-gram预测工控网漏洞的系统 - Google Patents
基于N-gram预测工控网漏洞的系统 Download PDFInfo
- Publication number
- CN114021150A CN114021150A CN202111358163.3A CN202111358163A CN114021150A CN 114021150 A CN114021150 A CN 114021150A CN 202111358163 A CN202111358163 A CN 202111358163A CN 114021150 A CN114021150 A CN 114021150A
- Authority
- CN
- China
- Prior art keywords
- vulnerability
- str
- control network
- industrial control
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于N‑gram预测工控网漏洞的系统,实现步骤S601、基于工业互联网停用词库将Stre中的工业互联网停用词去除,并在工业互联网停用词的位置对Stre进行分割,生成对应的文本片段序列;步骤S602、对每一Frei执行预设的N‑gram分词处理,每一Stre的所有Frei的分词合并去重,得到对应的分词向量FBe;步骤S603、将所有的FBe中的分词合并去重,得到分词集合FC,将FC的分词数量确定为one‑hot编码的维度;步骤S604、基于one‑hot编码的维度对分词向量FBe进行one‑hot编码,得到每一Stre的原始特征参数值;步骤S605、基于Stre的原始特征参数值训练得到工控网漏洞预测模型,预测工控网漏洞爆发概率。本发明能够快速准确预测工控网漏洞爆发概率,提高工控网的安全性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于N-gram预测工控网漏洞的系统。
背景技术
随着云计算、大数据、人工智能、物联网等新一代信息技术与制造技术的加速融合,工业控制系统由从原始的封闭独立走向开放、由单机走向互联、由自动化走向智能化。在工业企业获得巨大发展动能的同时,也出现了大量安全隐患,从2010年针对伊朗核工厂的Stuxnet病毒,到2014年席卷欧洲的Havex病毒等,针对工业控制系统的网络(以下简称工控网)攻击越演越烈,工业控制系统迫切需要得到安全防护。
工业控制系统的系统漏洞,是影响工控网安全的重要因素,工控网漏洞不能像IT系统一样,得到及时的漏洞修复,大量漏洞长期存在。因此,如不能及时的预测工控网漏洞爆发的情况,采取相应的防御措施,则无法保证工控网的安全。由此可知,如何准确高效地预测工控网漏洞爆发情况,成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种基于N-gram预测工控网漏洞的系统,能够快速准确预测工控网漏洞爆发概率,从而实现基于工控网漏洞爆发概率采取相应的防御措施,提高工控网的安全性。
根据本发明一方面,提供了一种基于N-gram预测工控网漏洞的系统,
包括处理器、数据库和存储有计算机程序的存储介质,处理器与数据库通信连接,所述数据库中存储有预设的工业互联网停用词库和所有互联网漏洞id对应的Summary的文本序列,每一样本漏洞id对应的Summary的文本序列为{Str1,Str2,…},Stre为第e个更新周期对应的Summary的文本,e的取值范围为1到无穷大;所述存储介质中存储的计算机程序包括第六计算机程序,所述处理器实行所述第六计算机程序时,实现以下步骤:
步骤S601、基于所述工业互联网停用词库将Stre中的工业互联网停用词去除,并在工业互联网停用词的位置对Stre进行分割,生成对应的文本片段序列{Fre1, Fre2,…FreI}, Frei为Stre的第i个文本片段,i的取值范围为1到I,I为Stre的文本片段总数;
步骤S602、对每一Stre的每一Frei执行预设的N-gram分词处理,N为正整数,取值范围为[Kn1, Kn2],每一Stre的所有Frei的分词合并去重,得到对应的分词向量FBe;
步骤S603、将所有的FBe中的分词合并去重,得到分词集合FC,将FC的分词数量确定为one-hot编码的维度;
步骤S604、基于one-hot编码的维度对分词向量FBe进行one-hot编码,得到每一Stre的原始特征参数值;
步骤S605、基于样本漏洞id对应的Stre的原始特征参数值建模型输入向量,训练得到工控网漏洞预测模型,基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种基于N-gram预测工控网漏洞的系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明基于N-gram预测工控网漏洞系统具体采用bitmap存储Summary的周期变化率,大大减小了数据存储占用的空间。基于bitmap来获取特征权重we,运算速度快,准确度高,提高了获取特征权重we的准确性和效率。从而提高了训练工控网漏洞预测模型的准确度和训练效率,进而提高了预测工控网漏洞爆发概率的准确度和预测效率。基于此来设置合理的防御措施,提升工控网的安全性和稳定性。该系统特别适用于Summary更新频率低的应用场景,即Summary更新频率低于预设的更新频率阈值的应用场景。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的预测工控网漏洞的系统框架示意图;
图2为本发明实施例一提供的基于互联网和工控网漏洞参数预测工控网漏洞流程图;
图3为本发明实施例二提供的基于修正参数预测工控网漏洞流程图;
图4为本发明实施例三提供的基于Summary长度特征预测工控网漏洞的流程图;
图5为本发明实施例四提供的基于Summary分词特征预测工控网漏洞的流程图;
图6为本发明实施例五提供的基于bitmap预测工控网漏洞的流程图;
图7为本发明实施例六提供的基于N-gram预测工控网漏洞的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明提出的具体实施方式及其功效,详细说明如后。
工控网是企业内网,通过网关与互联网之间进行通信,工控网内连接有多个单片机、DSP、工控机和传感器等等。同一漏洞可能在互联网上爆发,也可能在工控网上爆发。每个漏洞(Common Vulnerabilities ,简称CVE)均有对应的漏洞id(可以是国际标准组织为每一漏洞标注的唯一标识)和特征参数。漏洞特征参数包括从互联网爬取的互联网漏洞特征参数和从工控网爬取的工控网漏洞特征参数。作为示例,互联网漏洞特征参数具体可包括通用漏洞评分系统(Common Vulnerability Scoring System,简称CVSS)为每一漏洞id设置的CVSS值, summary(漏洞描述文本)参数、CVSS参数、CWE(Common WeaknessEnumeration,通用缺陷枚举)参数、产品组参数、参考网站域名参数和其他自定义互联网参数等等,summary参数具体可包括summary文本长度、summary分词特征等。工控网漏洞特征参数包括网关参数和工控网内部状态参数等等。每一互联网漏洞特征参数和工控网漏洞特征参数均对应有自己的更新周期,且各参数的更新周期之间可能存在巨大差异。
本发明实施例提供一种预测工控网漏洞的系统,如图1所示,包括处理器、数据库和存储有计算机程序的存储介质,处理器与数据库通信连接。本领域技术人员知晓,处理器设置于服务器上,服务器和数据库并非特指的一台硬件设备和/或软件设备,还可以是服务器集群、存储集群等。可以理解的是,能够进行数据处理的任何计算设备或多个计算设备的组合均可以设置所述服务器,能够进行数据存储的任何存储设备或多个存储设备的组合均可以认为是所述数据库。服务器和数据库可以是独立的设备,也可以共享一个或多个独立设备。
所述数据库中存储有所有互联网漏洞id对应的互联网漏洞特征参数列表P={P1,P2,…PM}、互联网漏洞特征参数的更新周期列表TP={TP1,TP2,…TPM}、工控网漏洞特征参数列表Q={Q1,Q2,…QN}和工控网漏洞特征参数更新周期列表TQ={TQ1,TQ2,…TQN}。Pm为第m个互联网漏洞特征参数,TPm为Pm的更新周期,m的取值范围为1到M,M为互联网漏洞特征参数数量。Qn为第n个工控网漏洞特征参数,TQn为Qn的更新周期,n的取值范围为1到N,N为工控网漏洞特征参数数量。
互联网漏洞特征参数列表具体包括CVSS值、CVSS参数、CWE参数、产品组参数、参考网站域名参数、summary参数等中的至少一个。互联网漏洞特征参数列表根据每一互联网漏洞特征参数对应的更新周期对应更新。工控网漏洞特征参数列表具体包括网关参数和工控网内部状态参数等中的至少一个。
工控网漏洞特征参数根据每一工控网漏洞特征参数的更新周期对应更新。需要说明的是,互联网漏洞特征参数更新较慢,而工控网漏洞特征参数可以通过工控网内部监控获取对应的工控网漏洞特征参数,更新频率快,具体可以精确至小时级甚至分钟级。因此,互联网漏洞特征参数更新周期远大于工控网漏洞特征参数更新周期,具体可设置为max(TPm)/min(TQn)>D1,其中,D1为预设的第一阈值,D1根据具体应用场景设置。例如D1的取值范围设置为[10,100],优选的,D1=20。虽然工控网和互联网是通过网关隔离,但是漏洞在互联网爆发的趋势和工控网爆发的趋势具有一致性,且互联网上能够爬取更多的漏洞特征参数,因此可以基于工控网漏洞特征参数和互联网漏洞特征参数,结合人工智能训练工控网漏洞预测模型,来预测漏洞在工控网上爆发的概率。
作为一种示例,所述处理器对计算机程序处理时实现以下步骤:
步骤S1、基于预设的样本漏洞id集合从所述互联网漏洞特征参数列表和工控网漏洞特征参数列表中获取每一样本漏洞id对应的漏洞特征向量,构建训练参数集;
步骤S2、根据所述训练参数集训练得到工控网漏洞预测模型;
步骤S3、基于所述工控网漏洞预测模型预测待测漏洞id在工控网上爆发的概率。
可以理解的是,由于是采用历史数据来预测漏洞爆发的概率,因此样本漏洞id集合可以是当前漏洞id集合中的一部分漏洞id,也可以是全部漏洞id,根据具体需求来设定。
由于存在多种互联网漏洞特征参数和工控网漏洞特征参数,且更新周期各不相同,可以选取不同的漏洞特征参数,通过不同的处理方式来训练得到不同的工控网漏洞预测模型。以下将通过多个实施例详细介绍具体实施方式,如无特殊说明,各实施例的技术内容均可以相互引用。
实施例一、
所述存储介质中存储的计算机程序包括第一计算机程序,所述处理器实行所述第一计算机程序时,实现以下步骤:
步骤S101、获取训练数据集的训练周期T0=LCM(TPm),LCM为求最小公倍数函数。
由于不同Pm和Qn的更新周期差异性大,如果直接采用滑动窗口来选取训练参数,会导致很多参数在一定时间内并不发生变化,浪费计算资源,对模型训练意义不大,因此本实施例选取TPm的小公倍数作为训练周期口。需要说明的是,由于互联网漏洞特征参数更新周期远大于工控网漏洞特征参数更新周期,因此,在选取时间窗口时仅考虑互联网漏洞特征参数更新周期即可,这样既能保证每一样本漏洞id均能采集到所有互联网漏洞特征参数和工控网漏洞特征参数,且避免浪费算力,提高了模型训练的效率。
步骤S102、从所述数据库获取每一样本漏洞id对应的距离当前时刻之前T0内Pm的参数值列表、Qn的参数值列表和工控网漏洞爆发概率真值;
工控网漏洞爆发概率真值指的是样本预测时刻对应的工控网漏洞实际爆发概率,工控网漏洞实际爆发概率也是在对应更新周期内更新的参数,工控网漏洞实际爆发概率由所在的工控网漏洞爆发概率更新周期内,汇报爆发该漏洞的工控网主机设备数量除以所有监控的工控网主机设备数量得到。
步骤S103、基于每一样本漏洞id的Pm的参数值列表确定样本漏洞id对应的Pm的训练参数值PCm,基于每一样本漏洞id的Qn的参数值列表确定样本漏洞id对应的Qn的训练参数值QCn,基于PCm和QCn生成每一样本漏洞id的模型输入向量;
步骤S104、根据所有样本漏洞id模型输入向量和工控网漏洞爆发概率真值训练得到工控网漏洞预测模型:
f(x)=a1*x1+a2*x2+…aM+N*xM+N,
其中,xi为样本漏洞id对应的Pm的训练参数值或Qn的训练参数值,ai为xi的权重系数,i的取值范围为1到M+N;
步骤S105、基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。
作为一种示例,所述步骤S104包括:
步骤S114、将所有样本漏洞id模型输入向量输入预设的工控网漏洞预测模型中,得到样本工控网漏洞爆发概率预测值。
步骤S124、根据样本工控网漏洞爆发概率预测值和真值调整权重系数,训练得到所述工控网漏洞预测模型。
作为一种示例,所述步骤S105中,优选采用与训练数据集的训练周期T0相同的周期,采用步骤S102-步骤S104相同的输入向量构建策略来预测工控网漏洞爆发概率,预测准确性高。
作为另一种示例,训练工控网漏洞预测模型时所选择的时间周期远大于工控网漏洞特征参数的周期,但由于工控网漏洞特征参数的周期断,更新频率快,因此,当有至少一个工控网漏洞特征参数更新时,即可对工控网漏洞进行预测,预测灵敏度高,且对于新爆发的漏洞具有极强的可预测性。具体的,所述步骤S105包括:
步骤S134、获取预测周期T1=min(TQn);
步骤S144、每间隔T1采集待测漏洞id对应的当前时刻的Pm的参数值或Qn的参数值,构建待测漏洞id对应的输入向量;
步骤S154、将所述待测漏洞id对应的输入向量输入所述工控网漏洞预测模型中,得到待测漏洞id在当前时刻之后T1时刻时工控网漏洞爆发概率。
作为一种优选示例,所述步骤S103中,每一样本漏洞id对应的距离当前时刻之前T0内Pm的参数值列表为{PCm1,PCm2,…PCmA},其中,PCma为Pm在T0内的第a个参数值,a的取值范围为1到A,A为Pm在距离当前时刻之前T0内采集到的Pm参数值总数量,A=T0/TPm,基于每一样本漏洞id的Pm的参数值列表确定样本漏洞id对应的Pm的训练参数值PCm,包括:
步骤S113、基于下式确定Pm的训练参数值PCm:
由于参数更新周期不同,因此大部分互联网漏洞特征参数工控网漏洞特征参数在训练周期内将会获取多个特征参数,因此需要基于多个特征参数确定合理的特征参数值,来构建模型输入。作为一种优选示例,所述步骤S103中,每一样本漏洞id对应的距离当前时刻之前T0内Qn的参数值列表为{QCn1,QCn2,…QCnB}, QCnb为Qn在距离当前时刻之前T0内的第b个参数值,b的取值范围为1到B,B为Qn在距离当前时刻之前T0内采集到的Qn参数值总数量,B=T0/ TQn,基于每一样本漏洞id的Qn的参数值列表确定样本漏洞id对应的Qn的训练参数值QCn包括:
步骤S123、基于下式确定Qn的训练参数值QCn:
随着时间的推移,漏洞可能会有新增,漏洞特征参数和漏洞特征参数更新周期也可能会有变化,因此,为了进一步提高工控网漏洞预测模型的准确度,所述处理器实行所述第一计算机程序时,实现以下步骤:
步骤S100、每间隔T0,重新执行步骤S101-步骤S104更新所述工控网漏洞预测模型。
实施例一所述系统,通过设置合理的训练数据集的训练周期,获取互联网漏洞特征参数和工控网漏洞特征参数,并基于训练周期内的互联网漏洞特征参数和工控网漏洞特征参数分别确认对应的参数值,再转换为输入向量,训练得到工控网漏洞预测模型。基于多个维度的互联网漏洞特征参数和工控网漏洞特征参数,能够快速准确预测工控网漏洞爆发概率,基于此来设置合理的防御措施,提升工控网的安全性和稳定性。实施例一特别适用于能够同时获取互联网漏洞特征参数和工控网漏洞特征参数的应用场景。
实施例二、
需要说明的是,互联网漏洞特征参数比较多,且容易获取,但在有些应用场景下,受限于工控网规模等多种因素,可能无法获取到足量的工控网漏洞特征参数来训练工控网漏洞预测模型。但由于同一漏洞在工控网爆发的趋势与在互联网爆发的整体趋势一致,具有相关联性,因此,可以基于工控网和互联网漏洞爆发的关联关系结合互联网漏洞特征参数来对工控网漏洞爆发概率进行预测。
具体的,所述存储介质中存储的计算机程序包括第二计算机程序,所述处理器实行所述第二计算机程序时,实现以下步骤:
步骤S201、从所述数据库获取预设训练周期内每一样本漏洞id对应的Pm的参数值列表、互联网漏洞实际爆发概率列表、工控网漏洞实际爆发概率列表和工控网漏洞爆发概率真值。
其中,预设训练周期可以根据具体的训练需求设定,也可以直接基于实施例一种获取互联网漏洞特征参数更新周期最小公倍数的方式来确定。互联网漏洞实际爆发概率也是在对应更新周期内更新的参数,互联网漏洞实际爆发概率由所在的互联漏洞爆发概率更新周期内,汇报爆发该漏洞的互联网主机设备数量除以所有监控的互联网主机设备数量得到。获取工控网漏洞爆发概率真值和工控网漏洞实际爆发概率的具体算法在实施例一中已详细描述,在此不再赘述。
步骤S202、基于互联网漏洞实际爆发概率列表和工控网漏洞实际爆发概率列表确定每一样本漏洞id对应的修正参数PCVE,基于每一样本漏洞id对应的Pm的参数值列表确定对应的训练参数值PCm,基于PCm生成每一样本漏洞id的模型输入向量。
需要说明的是,修正参数PCVE是表示对于每一样本漏洞id互联网实际漏洞爆发概率与工控网实际漏洞爆发概率值之间的关联关系,每一样本漏洞id均有一个对应的修正参数PCVE,是基于每一漏洞id动态变化的值。
步骤S203、根据所有样本漏洞id对应的修正参数PCVE、模型输入向量和工控网漏洞爆发概率真值训练得到工控网漏洞预测模型:
f(x)=b0*PCVE+b1*x1+b2*x2+…bM *xM;
其中,xj为样本漏洞id对应的Pm的训练参数值,bj为xj的权重系数,j的取值范围为1到M。
需要说明的是,上述模型基于互联网漏洞特征参数构建输入向量,并基于对应的表征互联网实际漏洞爆发概率与工控网实际漏洞爆发概率值之间的关联关系的修正参数PCVE同时作为模型输入,实现了基于互联网漏洞特征参数来预测工控网漏洞爆发的概率。
步骤S204、基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。
可以理解的是,漏洞预测模型训练好以后,可以基于任意时刻漏洞对应的输入参数,来预测该漏洞在工控网爆发的概率。
由于基于修正参数PCVE和互联网特征参数来预测工控网漏洞爆发概率。因此,在模型训练过程中,如何确定合理准确的修正参数PCVE尤为重要。作为一种示例,所述步骤S202中,基于互联网漏洞实际爆发概率列表和工控网漏洞实际爆发概率列表确定每一样本漏洞id对应的修正参数PCVE,包括:
步骤S212、根据预设训练周期内每一样本漏洞id对应的互联网漏洞实际爆发概率列表、工控网漏洞实际爆发概率列表获取互联网与工控网漏洞爆发关联参数列表{R1,R2,…RC},Rc为第c个关联参数,c的取值范围为1到C,C为样本漏洞id在预设训练周期内得到的关联参数总数,Rc=CHc1/CHc2,CHc1为第c时刻互联网漏洞实际爆发概率值,CHc2为第c时刻工控网漏洞实际爆发概率。
步骤S222、根据{R1,R2,…RC}确定样本漏洞id对应的修正参数PCVE。
作为一种示例,所述步骤S222包括:
步骤S232、获取{R1,R2,…RC}的平均值RAVG,根据RAVG和{R1,R2,…RC}获取第一变化参数SR1:
步骤S242、若SR1大于等于预设的第二阈值D2,则获取{R1,R2,…RC}的最大值Rmax,设置PCVE=Rmax,否则,设置PCVE=RAVG。
需要说明的是,若SR1大于等于预设的第二阈值D2,说明漏洞在当前训练周期内,存在突然的爆发期,因此,选择{R1,R2,…RC}的最大值作为修正参数PCVE更准确。若SR1小于第二阈值D2,说明漏洞在当前训练周期内,相对平稳,因此选择{R1,R2,…RC}作为修正参数PCVE更准确。通过合理选择准确的修正参数PCVE能够提高工控网漏洞预测模型的准确度,且能够使得模型对于新出现的漏洞预测具有很强的灵敏性,特别适用于对新出现漏洞预测的应用场景。
为了进一步提高选择修正参数PCVE的合理性和准确定,所述步骤S242中,若SR1小于D2,还可进一步执行以下步骤:
步骤S252、获取{R1,R2,…RC}的最小值Rmin,根据Rmin、RAVG、Rmax获取第二变化参数SR2:
步骤S262、若SR2大于等于1,则设置PCVE=Rmin,否则,设置PCVE=Rmax。
需要说明的是,当SR2大于等于1时,说明Rmin的影响性更大,因此优选PCVE=Rmin,这种情况通常适用于以下场景,对于一个一直存在的漏洞,突然被修复了,这种场景下,Rmin的影响性更大,选择PCVE=Rmin,能够提高模型准确度。若当SR2小于1时,说明Rmax的影响性更大,因此优选PCVE=Rmax,这样能够使得模型对于新出现的漏洞预测具有很强的灵敏性,特别适用于对新出现漏洞预测的应用场景。
作为示例,所述步骤S202中,基于每一样本漏洞id对应的Pm的参数值列表确定对应的训练参数值PCm,包括:
步骤S272、将每一样本漏洞id对应的Pm的参数值列表中所有参数的最大值、最小值或均值确定为对应的训练参数值PCm。
实施例二所述系统,通过互联网漏洞特征参数和表征互联网实际漏洞爆发概率与工控网实际漏洞爆发概率值之间的关联关系的修正参数PCVE构建模型输入参数,训练得到工控网漏洞预测模型。实现了基于多个维度的互联网漏洞特征参数和修正参数PCVE,来快速准确预测工控网漏洞爆发概率,基于此来设置合理的防御措施,提升工控网的安全性和稳定性。实施例二特别适用于不易获取工控网漏洞特征参数的应用场景。基于此来设置合理的防御措施,提升工控网的安全性和稳定性。
Summary参数是权威机构对漏洞的文本描述,能够准确可靠地反应漏洞特征,因此可以基于Summary来构建用于预测工控网漏洞的特征参数。Summary是非结构化参数,因此需要基于Summary的文本特征来构建特征参数值,例如现有技术中,直接基于Summary的长度,Summary的长度越长,说明该漏洞危害性越大,需要处理的紧急程度越高。但是,由于Summary通常是权威机构定期更新所有的Summary,但只有周期内发生变化的漏洞的Summary才会改变,其他周期内未变化的Summary在更新时还是保持与上一周期的Summary一致。例如,对于一个三年前爆发的严重漏洞,存在较长的文本描述信息,但是三年内没有再发生过其他变化,因此Summary描述一直停留在三年前的描述状态,如果仅从Summary文本直接构建特征参数值,那么显然是极有可能出现构建Summary特征参数值不准确的情况。因此,需要根据Summary的变化来赋予对应的特征权重值,提高构建Summary特征参数的准确性。由此可知,如何确定每一Summary对应的特征权重值尤为重要,以下通过几个具体实施例进行详细说明。
实施例三、
所述存储介质中存储的计算机程序包括第三计算机程序,所述处理器实行所述第三计算机程序时,实现以下步骤:
步骤S300、从所述数据库获取每一样本漏洞id在对应的Summary的文本序列{Str1,Str2,…},Stre为第e个更新周期对应的Summary的文本,e的取值范围为1到无穷大。
步骤S301、当e=1时,根据Stre的长度确定Stre的特征权重we。
通过步骤S301,可以为每一Stre设置对应的初始特征权重。
步骤S302、当e>1时,比较Stre-1和Stre的文本信息,若完全一致,则判断z*we-1是否大于预设的第一特征权重阈值wemin,若大于,则设置we=z*we-1,其中,z为预设的权重调整系数,0<z<1,若z*we-1小于等于wemin,则设置we=wemin,若Stre-1和Stre的文本信息不一致,则根据Stre的长度确定Stre的特征权重we。
需要说明的是,当Stre-1和Stre的文本信息完全一致时,说明Summary未更新,因此需要乘以z,来降低对应的特征权重。优选的,z设置为1/2但有些Summary存在长期不更新的情况,不能无限制减小,因此设置第一特征权重阈值wemin,当we降低至一定程度时,取最小值即可。而当Stre-1和Stre的文本信息不一致时,说明Summary进行了更改,因此需要直接基于当前的Stre的长度确定Stre的特征权重we。
步骤S303、基于每一Stre的特征权重we和Stre确定每一Stre对应的Summary特征参数值PCSe=we*g(Stre),其中,g(Stre)为基于Stre确定的原始特征参数值。
需要说明的是,g(Stre)可以直接基于现有的算法来获取,即直接基于文本特征来确定一个对应的参数值,现有算法在此不再赘述。we是基于Summary本身的特征参数以及连续周期内Summary的变化来确定的,因此,使得获取到的Summary特征参数值PCSe更加准确可靠,从而提高模型准确性。
步骤S304、基于样本漏洞id对应的Summary特征参数值构建模型输入向量,训练得到工控网漏洞预测模型,基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。
可以理解的是,构建输入向量时,可以引入其他需要的互联网漏洞特征参数和工控网漏洞特征参数,具体参数处理可以基于实施例一和实施例二中所述的方式,也可以采用现有的数据处理方式,在此不再赘述。
作为示例,所述步骤S301和步骤S302中,根据Stre的长度确定Stre的特征权重we,包括:
步骤S311、将Stre的长度Le与预设的第一长度阈值Lmin和第二长度阈值Lmax对比,第一长度阈值Lmin小于第二长度阈值Lmax,若Le<Lmin,则设置we=wemin,若Le>Lmax,则设置we=wemax,wemax为预设的第二特征权重阈值,所述第二特征权重阈值大于所述第一特征权重阈值,Le在[Lmin,Lmax]范围内,则设置we=k1*Le,其中,k1为预设的第一线性变化系数。
通过步骤S311,能够基于Stre的长度Le确定一个准确可靠的初始特征权重。优选的,k1设置为(wemax- wemin)/ wemax
作为一种优选示例,当e>1时,在执行步骤S311之前还包括:
步骤S310、判断we-1是否基于we-1=z*we-2设置,若是,且Stre-1和Stre的文本信息不一致,则设置wemin= we-1。
当we-1=z*we-2时,说明前两个周期内的Summary未发生变化,且上一周期已经对权重进行了缩小,而当前周期相较于上一周期的Summary发生了变化,那么当前周期的权重一定大于上一周的权重,此时可将本周期内的wemin设置为we-1,提高了获取本周期的特征权重的准确性。可以理解的是,若不是步骤S310中所述情况,那么wemin仍为原始预设数值。
作为示例,所述步骤S304中、基于样本漏洞id对应的Summary特征参数值构建模型输入向量,训练得到工控网漏洞预测模型,包括:
步骤S314、根据样本漏洞id对应的Summary特征参数值、预设的互联网漏洞特征参数,以及预设的工控网漏洞特征参数,确定每一样本漏洞id的模型输入向量;
步骤S324、基于样本漏洞id对应的模型输入向量和工控网漏洞爆发概率真值训练得到所述工控网漏洞预测模型。
可以理解的是,模型样本输入确定好后,获取对应的样本真值即可对选择的人工智能模型进行训练,输入参数可以设置预设的训练周期选择,基于实施例一和实施例二中对输入参数的处理方式进行处理,也可才能用现有的处理方式来处理,在此不在赘述。
需要说明的是,执行步骤S300之后直接执行步骤S301的算法适用于从e=1时刻,即有对应的Summary文本的漏洞id,但有些漏洞id是后续新增的,针对此类漏洞id也可设置一套对应的特征权重确定策略,作为一种示例,所述步骤S300之后还包括:
步骤S311、若{Str1,Str2,…}中连续前nr个Stre为空,Strnr+1不为空,则设置Strnr+1的特征权重wnr+1= wemax,wemax为预设的第二特征权重阈值,然后初始化e=nr+2,执行步骤S302。
需要说明的是,若{Str1,Str2,…}中连续前nr个Stre为空,Strnr+1不为空,说明在对应的漏洞id在nr+1为新增漏洞id,那么将Strnr+1的特征权重wnr+1直接设置为最大值第二特征权重阈值即可,能够在保证精确度的前提下,减少数据处理量,提高数据处理效率。
实施例三能够根据连续周期内Summary的文本变化和长度变化来调整Summary的特征权重,且Summary的文本变化易于判断,长度参数易于获取,因此提高获取Summary特征参数值的准确度和获取效率,从而提高了训练工控网漏洞预测模型的准确度和训练效率,进而提高了预测工控网漏洞爆发概率的准确度和预测效率。基于此来设置合理的防御措施,提升工控网的安全性和稳定性。
实施例四、
实施例四提供一种更适用于Summary更新频率高,即Summary更新频率超过预设的更新频率阈值的应用场景。
所述存储介质中存储的计算机程序包括第四计算机程序,所述处理器实行所述第四计算机程序时,实现以下步骤:
步骤S400、从所述数据库获取每一样本漏洞id在对应的Summary的文本序列{Str1,Str2,…},Stre为第e个更新周期对应的Summary的文本,e的取值范围为1到无穷大。
步骤S401、对Stre进行分词处理,并采用预设的停用词库去停用词,得到Stre对应的分词集合Ae。
需要说明的是,预设的停用词库可以为基于技术构建的停用词库,并可以根据应用需求不断不更。也可以是后续实施例中描述的工业互联网停用词库,也可根据实施例六中描述的工业互联网停用词库的更新方式更新工业互联网停用词库,在此不再赘述。
步骤S402、当e=1时,根据Ae的分词数量确定Stre的特征权重we。
通过步骤S402,可以为基于Ae的分词数量每一Stre设置对应的初始特征权重。
步骤S403、当e>1时,比较Stre-1和Stre的文本信息,若完全一致,则设置we=we-1,若Stre-1和Stre的文本信息不完全一致,则对分词集合Ae和分词集合Ae-1进行集合差集运算,得到Ae相对于Ae-1的差集分词数Ae- Ae-1,以及Ae-1相对于Ae的差集分词数Ae-1-Ae1,设置we=[(Ae- Ae-1)/(Ae-1-Ae1) ]* we-1。
需要说明的是,当Stre-1和Stre的文本信息完全一致时,说明Summary未更新,由于Summary更新频率快,因此,可直设置we=we-1。若Stre-1和Stre的文本信息不完全一致,则需要基于Ae与Ae-1之间的变化关系来确定特征权重变化系数[( Ae- Ae-1)/(Ae-1-Ae1) ],进而基于[( Ae- Ae-1)/(Ae-1-Ae1) ]和上一周期的权重we-1来确定we,Ae- Ae-1与Ae-1-Ae1相比,若Ae-Ae-1大于Ae-1-Ae1,说明Ae在Ae-1的基础上增加了更多词语,如果Ae- Ae-1小于Ae-1-Ae1说明Ae在Ae-1的基础上减少了更多词语,这样就会使得Ae在Ae-1的基础上增加了更多词语时,特征权重变大,Ae在Ae-1的基础上减少了更多词语时,特征权重变小,提高了确定特征权重we的准确性。
步骤S404、基于每一Stre的特征权重we和Stre确定每一Stre对应的Summary特征参数值PCSe=we*g(Stre),其中,g(Stre)为基于Stre确定的原始特征参数值。
需要说明的是,g(Stre)可以直接基于现有的算法来获取,即直接基于文本特征来确定一个对应的参数值,现有算法在此不再赘述。we是基于Summary本身的特征参数以及连续周期内Summary的变化来确定的,因此,使得获取到的Summary特征参数值PCSe更加准确可靠,从而提高模型准确性。
步骤S405、基于样本漏洞id对应的Summary特征参数值构建模型输入向量,训练得到工控网漏洞预测模型,基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。
可以理解的是,构建输入向量时,可以引入其他需要的互联网漏洞特征参数和工控网漏洞特征参数,具体参数处理可以基于实施例一和实施例二中所述的方式,也可以采用现有的数据处理方式,在此不再赘述。
作为一种示例,所述步骤S402包括:
步骤S412、将Ae的分词数量SAe与预设的第一分词数量阈值SUmin和第一分词数量阈值SUmax对比,其中,SUmin<SUmax,若SAe< SUmin,则设置we= wsmin,wsmin为预设的第三特征权重阈值,若SAe>SUmax,则设置we= wsmax,wsmax为预设的第四特征权重阈值,若为预设的第三特征权重阈值在[SUmin,SUmax],则设置we=k2*SAe,其中,k2为预设的第二线性变化系数。
优选的,wsmin设置为0,wsmax设置为1,便于计算。
通过步骤S412,能够基于Ae的分词数量SAe确定一个准确可靠的初始特征权重。优选的, k2设置为(wsmax-wsmin)/ wsmax。
需要说明的是,执行步骤S401之后直接执行步骤S402的算法适用于从e=1时刻,即有对应的Summary文本的漏洞id,但有些漏洞id是后续新增的,针对此类漏洞id也可设置一套对应的特征权重确定策略,作为一种示例,所述步骤S401之后还包括:
步骤422、若{Str1,Str2,…}中连续前ns个Stre的Ae为空,Ae+1不为空,则设置Strns+1的特征权重wns+1= wsmax,wsmax为预设的第三特征权重阈值,然后初始化e=ns+2,执行步骤S403。
需要说明的是,若{Str1,Str2,…}中连续前ns个Stre的Ae为空,Ae+1不为空,说明在对应的漏洞id在ns+1为新增漏洞id,那么将Strns+1的特征权重wns+1直接设置为最大值第三特征权重阈值即可,能够在保证精确度的前提下,减少数据处理量,提高数据处理效率。
作为一种示例,所述步骤S405中、基于样本漏洞id对应的Summary特征参数值构建模型输入向量,训练得到工控网漏洞预测模型,包括:
步骤S415、根据样本漏洞id对应的Summary特征参数值、预设的互联网漏洞特征参数,以及预设的工控网漏洞特征参数,确定每一样本漏洞id的模型输入向量;
步骤S425、基于样本漏洞id对应的模型输入向量和工控网漏洞爆发概率真值训练得到所述工控网漏洞预测模型。
实施例四特别适用于Summary更新频率高的应用场景,即Summary更新频率高于预设的更新频率阈值的应用场景。能够根据连续周期内Summary的文本的分词变化关系来调整Summary的特征权重,提高了获取Summary特征参数值的准确度和获取效率,从而提高了训练工控网漏洞预测模型的准确度和训练效率,进而提高了预测工控网漏洞爆发概率的准确度和预测效率。基于此来设置合理的防御措施,提升工控网的安全性和稳定性。
实施例五、
实施例五特别适用于Summary更新频率低的应用场景,即Summary更新频率低于预设的更新频率阈值的应用场景。
所述系统还包括基于每一漏洞id对应的Summary的文本随更新周期变化生成的bitmap(位图),采用bitmap存储,能够节省数据存储空间。若当前周期的Summary的文本相对于前一周期的Summary的文本没有发生变化,当前周期在bitmap对应周期位置设置为0,否则,设置为1, Be为第e个更新周期在bitmap上对应的取值,Be等于0或1, e的取值为1到无穷大。
所述存储介质中存储的计算机程序包括第五计算机程序,所述处理器实行所述第五计算机程序时,实现以下步骤:
步骤S501、基于预设的训练周期确定Summary周期检测窗口TK,TK=a*Te,a为大于1的正整数,Te为Summary更新周期;
可以理解的是,周期检测窗口TK中包含了a个bit(位),每个bit对应一个更新周期。优选的,a取值为8。
步骤S502、以Be作为TK中第a位信息,获取第e个周期检测窗口信息TKe,基于Be和TKe中的位变化,确定Be的特征权重we。
需要说明的是,以Be作为TK中第a位信息,即Be为TK中的最后一位信息。TKe中的位变化即TKe中的a位的变化关系,对应于连续a个周期的Summary的变化关系。例如a位全为0,则说明连续a个周期内,Summary没有发生变化。再如,Be为1,说明Be对应的Summary相较于上一周期的Summary发生了变化。再如,Be为0,Be-a1为1,Be-a1与Be之间全部为0,则说明Be对应的Summary连续a1个周期没有发生变化,因此,基于Be和TKe中的位变化,即可确定Be的特征权重we
步骤S503、基于每一Be的特征权重we和Summary文本Stre确定每一Summary文本对应的Summary特征参数值PCSe=we*g(Stre),其中,g(Stre)为基于Stre确定的原始特征参数值。
需要说明的是,g(Stre)可以直接基于现有的算法来获取,即直接基于文本特征来确定一个对应的参数值,现有算法在此不再赘述。we是基于Summary本身的特征参数以及连续周期内Summary的变化来确定的,因此,使得获取到的Summary特征参数值PCSe更加准确可靠,从而提高模型准确性。
步骤S504、基于样本漏洞id对应的Summary特征参数值构建模型输入向量,训练得到工控网漏洞预测模型,基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。
可以理解的是,构建输入向量时,可以引入其他需要的互联网漏洞特征参数和工控网漏洞特征参数,具体参数处理可以基于实施例一和实施例二中所述的方式,也可以采用现有的数据处理方式,在此不再赘述。
作为一种示例,所述步骤S502中,所述基于Be和TKe中的位变化,确定Be的特征权重we,包括:
步骤S512、判断Be是否为1,若为1,则设置we=wbmax,wbmax为预设的第五特征权重阈值,否则,执行步骤S522;
步骤S522、获取TKe中与Be最近的取值为1的位与Be间隔的位数d,判断(wbmax-wbmin)/d是否小于预设的第六特征权重阈值wbmin,若小于,则设置we= wbmin,否则设置we=(wbmax- wbmin)/d,wbmin< wbmax。
由于Summary更新频率低,当Summary相较于上一周期的Summary发生更新时,应当具备高权重,通过步骤S512-步骤S522,可以当前周期相较于上一周期发生变化的we直接设置为wbmax,这样既能保证准确性,又能减少计算量。当然可以理解的是,如果需要更为精确的结果,则可以基于实施例三和实施例四中的Summary长度或分词结果来具体计算,在此不再赘述。当Summary相较于上一周期的Summary未发生更新时,则基于当前周期与最一次更新周期的距离来确定对应的权重,基于位图来获取Ke中与Be最近的取值为1的位与Be间隔的位数d,计算量小,且计算效率高。
作为一种示例,为了进一步提特征权重获取的准确定,可以基于上一周期检测窗口的结果动态调整wbmax和wbmin,所述步骤S522之后还包括:
步骤S532、获取基于当前Summary周期检测窗口TK得到的所有we中的最大值max(we)和最小值min(we),更新wbmax= max(we),更新wbmin= min(we)。
为了进一步提高获取特征权重的效率,可以直接基于bitmap进行位运算,作为示例,所述步骤S502包括:
步骤S542、以Be作为TK中第a位信息,获取第e个周期检测窗口内的bitmape,初始化WK为二进制,WK的对应初始十进制数为2a-1;
步骤S552、判断当前bitmape的最后一位是否为0,若为0,则执行步骤S562,若为1,则执行步骤S572;
步骤S562、将第e个周期检测窗口右移一位,更新bitmape,WK右移一位,返回执行步骤S552;
步骤S572、将当前WK确定为Be的特征权重we。
以a取值为8为例,以Be作为TK中第a位信息,获取第e个周期检测窗口内的bitmape为00110000,初始化WK为10000000,当前bitmape的最后一位是0,将bitmape右移一位得到00011000,WK右移一位得到01000000,循环执行,直至bitmape的最后一位为1,此时WK的值即为Be的特征权重we。通过步骤S542-步骤S572采用为运算来获取特征权重we,提高了获取特征权重we的效率。
实施例五特别适用于Summary更新频率低的应用场景,即Summary更新频率低于预设的更新频率阈值的应用场景。具体采用bitmap存储Summary的周期变化率,大大减小了数据存储占用的空间。基于bitmap来获取特征权重we,运算速度快,准确度高,提高了获取特征权重we的准确性和效率。从而提高了训练工控网漏洞预测模型的准确度和训练效率,进而提高了预测工控网漏洞爆发概率的准确度和预测效率。基于此来设置合理的防御措施,提升工控网的安全性和稳定性。
实施例三到实施例五描述了三套确定每一Summary文本对应的Summary特征权重的方法,实施例六将进一步描述一种确定原始特征参数值g(Stre)的方式,然后基于g(Stre)和对应的特征权重即可确定每一Summary文本对应的Summary特征参数值PCSe。g(Stre)具体可以基于现有的特征处理算法,基于Summary文本特征来获取g(Stre)。也可以基于实施例六所描述分方案来获取g(Stre)
实施例六、
所述系统包括预设的工业互联网停用词库,所述互联网停用词库存储工业互联网领域常用的停用词。每一样本漏洞id对应的Summary的文本序列为{Str1,Str2,…},Stre为第e个更新周期对应的Summary的文本,e的取值范围为1到无穷大。
所述存储介质中存储的计算机程序包括第六计算机程序,所述处理器实行所述第六计算机程序时,实现以下步骤:
步骤S601、基于所述工业互联网停用词库将Stre中的工业互联网停用词去除,并在工业互联网停用词的位置对Stre进行分割,生成对应的文本片段序列{Fre1, Fre2,…FreI}, Frei为Stre的第i个文本片段,i的取值范围为1到I,I为Stre的文本片段总数。
其中,以ABCDEFG为一段文本为例,每个字母表示一个词,假设C和E为所述工业互联网停用词库中的停用词,那么将C和E去除,同时将剩下的文本分割为AB、D和FG三个文本片段。
步骤S602、对每一Stre的每一Frei执行预设的N-gram分词处理,N为正整数,取值范围为[Kn1, Kn2],每一Stre的所有Frei的分词合并去重,得到对应的分词向量FBe。
需要说明的是,如果直接每一Summary进行N-gram分词处理,由于Summary文本数量庞大,如果直接将所有Summary文本N-gram的分词结果进行one-hot编码,会使得向量维度过大,所需计算量大,数据处理效率低。而本实施例通过步骤S601将每一Summary基于停用词进行分段,再将分段后的文本片段逐一进行N-gram分词,能够大大降低向量维度,提高数据处理效率。N-gram的具体分词过程为现有技术,在此不再展开描述。优选的,kn1取值为3,kn2取值为6。
步骤S603、将所有的FBe中的分词合并去重,得到分词集合FC,将FC的分词数量确定为one-hot编码的维度。
步骤S604、基于one-hot编码的维度对分词向量FBe进行one-hot编码,得到每一Stre的原始特征参数值。
one-hot编码的具体编码过程为现有技术,在此不再展开描述。可以理解的是,当对分词向量FBe进行one-hot编码后,基于编码结果可以得到对应的Stre的原始特征参数值。
步骤S605、基于样本漏洞id对应的Stre的原始特征参数值建模型输入向量,训练得到工控网漏洞预测模型,基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。
所述步骤S605中可以直接基于Stre的原始特征参数值结合其他漏洞特征参数值建模型输入向量,为了进一步提高Summary特征参数值的准确性,可以为每一Stre赋予对应的权重,作为一种示例,所述步骤S605中,基于样本漏洞id对应的Stre的原始特征参数值建模型输入向量,包括:
步骤S615、基于样本漏洞id对应的Stre的原始特征参数值g(Stre)和对应的特征权重we,确定每一Stre对应的Summary特征参数值PCSe=we*g(Stre),基于样本漏洞id对应的Summary特征参数值构建模型输入向量。
其中,Stre对应的特征权重we基于Stre,以及当前Summary文本基于历史Summary文本的变化确定。具体可采用实施例三、实施例四、实施例五中的至少一种方式来确定we,在此不再赘述。
为了进一步提高Summary参数值的处理效率和准确度,可以对工业互联网停用词库进行更新,作为示例,所述处理器实行所述第六计算机程序时,还实现工业互联网停用词库更新流程,包括以下步骤:
步骤S600、初始化N-gram中的N=Kn2,
步骤S610、对所有漏洞id对应的Summary文本基于所述工业互联网停用词库分割成文本片段,并去除工业互联网停用词,再对每一文本片段作N-gram分词处理,获取N-gram分词数量列表;
步骤S620、将N-gram分词数量大于预设的分词数量阈值D3的N-gram分词加入所述工业互联网停用词库中,判断Kn是否大于Kn1,若是,则设置Kn=Kn-1,返回执行步骤S610,若Kn等于Kn1,则结束所述工业互联网停用词库更新流程。
通过步骤S600-步骤S620,结合对所有Summary文本的N-gram处理,更新工业互联网停用词库,使得停用词库基于Summary文本的更新状况同步更新,提高了获取Summary参数值的处理效率和准确度。
优选的,D3=f[,SN,avg(Kn)],其中,D3与和SN呈正相关,D3与avg(Kn) 呈负相关,SN为所有漏洞的所有Summary总数量,Lj为第j个Summary的长度,avg(N)为N-gram中N的所有取值的均值。
实施例六通过工业互联网停用词库对Summary文本去停用词和分段的处理,减少了对所有Summary文本进行N-gram处理后的分词数量,从而降低了对分词向量FBe进行one-hot编码的编码维度,提高了获取Stre的原始特征参数值的效率和准确性,从而提高了训练工控网漏洞预测模型的准确度和训练效率,进而提高了预测工控网漏洞爆发概率的准确度和预测效率,基于此来设置合理的防御措施,提升工控网的安全性和稳定性。
实施例七、
一种服务器,包括至少一个实施例一至实施例六中所述的系统。
所述服务器能够基于互联网漏洞特征参数和工控网漏洞特征参数快速准确地训练工控网漏洞预测模型,从而能够基于工控网漏洞预测模型快速准确地预测工控网漏洞爆发概率,基于此来设置合理的防御措施,提升工控网的安全性和稳定性。
需要说明的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的部分步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (7)
1.一种基于N-gram预测工控网漏洞的系统,其特征在于,
包括处理器、数据库和存储有计算机程序的存储介质,处理器与数据库通信连接,所述数据库中存储有预设的工业互联网停用词库和所有互联网漏洞id对应的Summary的文本序列,每一样本漏洞id对应的Summary的文本序列为{Str1,Str2,…},Stre为第e个更新周期对应的Summary的文本,e的取值范围为1到无穷大;所述存储介质中存储的计算机程序包括第六计算机程序,所述处理器实行所述第六计算机程序时,实现以下步骤:
步骤S601、基于所述工业互联网停用词库将Stre中的工业互联网停用词去除,并在工业互联网停用词的位置对Stre进行分割,生成对应的文本片段序列{Fre1, Fre2,…FreI}, Frei为Stre的第i个文本片段,i的取值范围为1到I,I为Stre的文本片段总数;
步骤S602、对每一Stre的每一Frei执行预设的N-gram分词处理,N为正整数,取值范围为[Kn1, Kn2],每一Stre的所有Frei的分词合并去重,得到对应的分词向量FBe;
步骤S603、将所有的FBe中的分词合并去重,得到分词集合FC,将FC的分词数量确定为one-hot编码的维度;
步骤S604、基于one-hot编码的维度对分词向量FBe进行one-hot编码,得到每一Stre的原始特征参数值;
步骤S605、基于样本漏洞id对应的Stre的原始特征参数值建模型输入向量,训练得到工控网漏洞预测模型,基于所述工控网漏洞预测模型预测工控网漏洞爆发概率。
2.根据权利要求1所述的系统,其特征在于,
所述处理器实行所述第六计算机程序时,还实现工业互联网停用词库更新流程,包括以下步骤:
步骤S600、初始化N-gram中的N=Kn2,
步骤S610、对所有漏洞id对应的Summary文本基于所述工业互联网停用词库分割成文本片段,并去除工业互联网停用词,再对每一文本片段作N-gram分词处理,获取N-gram分词数量列表;
步骤S620、将N-gram分词数量大于预设的分词数量阈值D3的N-gram分词加入所述工业互联网停用词库中,判断Kn是否大于Kn1,若是,则设置Kn=Kn-1,返回执行步骤S610,若Kn等于Kn1,则结束所述工业互联网停用词库更新流程。
4.根据权利要求1所述的系统,其特征在于,
kn1取值为3,kn2取值为6。
5.根据权利要求1所述的系统,其特征在于,
所述步骤S605中,基于样本漏洞id对应的Stre的原始特征参数值建模型输入向量,包括:
步骤S615、基于样本漏洞id对应的Stre的原始特征参数值g(Stre)和对应的特征权重we,确定每一Stre对应的Summary特征参数值PCSe=we*g(Stre),基于样本漏洞id对应的Summary特征参数值构建模型输入向量。
6.根据权利要求5所述的系统,其特征在于,
Stre对应的特征权重we基于Stre,以及当前Summary文本基于历史Summary文本的变化确定。
7.一种服务器,其特征在于,包括权利要求1到6中任意一项所述的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111358163.3A CN114021150B (zh) | 2021-11-17 | 2021-11-17 | 基于N-gram预测工控网漏洞的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111358163.3A CN114021150B (zh) | 2021-11-17 | 2021-11-17 | 基于N-gram预测工控网漏洞的系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114021150A true CN114021150A (zh) | 2022-02-08 |
CN114021150B CN114021150B (zh) | 2022-11-04 |
Family
ID=80064797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111358163.3A Active CN114021150B (zh) | 2021-11-17 | 2021-11-17 | 基于N-gram预测工控网漏洞的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021150B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191695A (zh) * | 2019-12-19 | 2020-05-22 | 杭州安恒信息技术股份有限公司 | 一种基于深度学习的网站图片篡改检测方法 |
US10839135B1 (en) * | 2018-01-03 | 2020-11-17 | Amazon Technologies, Inc. | Detection of access to text-based transmissions |
US20200380211A1 (en) * | 2019-05-31 | 2020-12-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, computer device and readable medium for knowledge hierarchical extraction of a text |
CN112395878A (zh) * | 2020-12-14 | 2021-02-23 | 深圳供电局有限公司 | 一种基于电价政策的文本处理方法及系统 |
CN112688946A (zh) * | 2020-12-24 | 2021-04-20 | 工业信息安全(四川)创新中心有限公司 | 异常检测特征的构造方法、模块、存储介质、设备及系统 |
CN112910918A (zh) * | 2021-02-26 | 2021-06-04 | 南方电网科学研究院有限责任公司 | 基于随机森林的工控网络DDoS攻击流量检测方法及装置 |
-
2021
- 2021-11-17 CN CN202111358163.3A patent/CN114021150B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839135B1 (en) * | 2018-01-03 | 2020-11-17 | Amazon Technologies, Inc. | Detection of access to text-based transmissions |
US20200380211A1 (en) * | 2019-05-31 | 2020-12-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, computer device and readable medium for knowledge hierarchical extraction of a text |
CN111191695A (zh) * | 2019-12-19 | 2020-05-22 | 杭州安恒信息技术股份有限公司 | 一种基于深度学习的网站图片篡改检测方法 |
CN112395878A (zh) * | 2020-12-14 | 2021-02-23 | 深圳供电局有限公司 | 一种基于电价政策的文本处理方法及系统 |
CN112688946A (zh) * | 2020-12-24 | 2021-04-20 | 工业信息安全(四川)创新中心有限公司 | 异常检测特征的构造方法、模块、存储介质、设备及系统 |
CN112910918A (zh) * | 2021-02-26 | 2021-06-04 | 南方电网科学研究院有限责任公司 | 基于随机森林的工控网络DDoS攻击流量检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114021150B (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11132602B1 (en) | Efficient online training for machine learning | |
CN110677433A (zh) | 一种网络攻击预测的方法、系统、设备及可读存储介质 | |
CN113298127A (zh) | 训练异常检测模型的方法及电子设备 | |
Dong et al. | Fully convolutional spatio-temporal models for representation learning in plasma science | |
CN110322153A (zh) | 监控事件处理方法及系统 | |
CN113792300B (zh) | 基于互联网和工控网漏洞参数预测工控网漏洞的系统 | |
CN114021148B (zh) | 基于Summary分词特征预测工控网漏洞的系统 | |
Cao et al. | A boundary identification approach for the feasible space of structural optimization using a virtual sampling technique-based support vector machine | |
CN114021149B (zh) | 基于修正参数预测工控网漏洞的系统 | |
CN114021151B (zh) | 基于Summary长度特征预测工控网漏洞的系统 | |
CN114021150B (zh) | 基于N-gram预测工控网漏洞的系统 | |
CN113537614A (zh) | 电网工程造价预测模型的构建方法、系统、设备及介质 | |
CN114021147B (zh) | 基于bitmap预测工控网漏洞的系统 | |
Wei et al. | Smart contract fuzzing based on taint analysis and genetic algorithms | |
Shaik et al. | Integrating Random Forest and Support Vector Regression Models for Optimized Energy Consumption Evaluation in Cloud Computing Data Centers | |
CN111008119A (zh) | 一种硬盘预测模型的更新方法、装置、设备及介质 | |
Ji et al. | A Simplified Hypervolume‐Based Evolutionary Algorithm for Many‐Objective Optimization | |
Sakthivel et al. | Fault‐alarm based hybrid control design for uncertain periodic piecewise time‐varying systems with actuator constraints | |
US11201874B2 (en) | Information processing apparatus, control method, and program | |
CN114528412A (zh) | 事件的处理方法、装置、计算机设备及存储介质 | |
CN112307213B (zh) | 预测目标实体状态的方法和系统 | |
Ji et al. | Mechanical Parameter Identification of Hydraulic Engineering with the Improved Deep Q‐Network Algorithm | |
Yang et al. | LMI‐Based Model Predictive Control for a Class of Constrained Uncertain Fuzzy Markov Jump Systems | |
Garg et al. | Accurate byzantine agreement with feedback | |
Beattie | Detecting temporal anomalies in time series data utilizing the matrix profile |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A System for Predicting Industrial Control Network Vulnerability Based on N-gram Effective date of registration: 20230614 Granted publication date: 20221104 Pledgee: Ji'nan rural commercial bank Limited by Share Ltd. high tech branch Pledgor: Shandong Yuntian Safety Technology Co.,Ltd. Registration number: Y2023980043786 |