CN116684200B - 网络安全漏洞的攻击模式的知识补全方法及系统 - Google Patents
网络安全漏洞的攻击模式的知识补全方法及系统 Download PDFInfo
- Publication number
- CN116684200B CN116684200B CN202310947982.4A CN202310947982A CN116684200B CN 116684200 B CN116684200 B CN 116684200B CN 202310947982 A CN202310947982 A CN 202310947982A CN 116684200 B CN116684200 B CN 116684200B
- Authority
- CN
- China
- Prior art keywords
- node
- attack
- knowledge
- information
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 139
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 230000000295 complement effect Effects 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 230000002776 aggregation Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 17
- 238000000354 decomposition reaction Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000005096 rolling process Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及网络安全领域,涉及网络安全漏洞的攻击模式的知识补全方法及系统,包括:将预构建的知识图谱中的节点的属性信息表示为节点初始向量;将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;将所述增强向量用于训练基于图神经网络的知识补全模型;计算知识图谱中的漏洞节点与所述知识补全模型获得的攻击模式节点的存在关系的评分,并根据所述评分选取与所述漏洞节点最相关的K个攻击模式。本申请具有对与漏洞相关联的攻击模式的准确预测和漏洞数据库的补全的效果。
Description
技术领域
本申请涉及网络安全领域,尤其是涉及一种网络安全漏洞的攻击模式的知识补全方法及系统。
背景技术
在当前漏洞攻击模式知识补全技术中,主要采用了图特征计算、矩阵分解和自然语言处理的方法。然而,这些方法存在局限性。
图特征计算方法的做法是构建漏洞、弱点和攻击模式之间的关系图,其中漏洞、弱点和攻击模式被看作图的节点,它们之间的关系则被视为图的边。然后通过计算漏洞节点和攻击模式节点之间的相似度来实现对攻击模式的预测。然而,该方法仅仅利用节点的度数作为特征,未充分利用图中其他的特征信息和节点的属性信息。
矩阵分解方法的做法是构建漏洞和攻击模式的邻接矩阵,使用矩阵分解技术得到漏洞和攻击模式的特征表示,然后计算出漏洞和攻击模式之间存在链接的概率。然而该方法仅利用了漏洞和攻击模式的链接信息,未利用图的其他特征信息和节点的属性信息。
自然语言处理方法则是通过提取漏洞和攻击模式的文本信息,应用自然语言处理算法来计算二者之间的相似度。然而,该方法未利用漏洞、弱点和攻击模式之间的关系图所具备的结构和拓扑信息。
发明内容
为了解决漏洞数据库中缺乏准确攻击模式信息的问题,本申请提供了一种网络安全漏洞的攻击模式的知识补全方法及系统。
本申请提供的一种网络安全漏洞的攻击模式的知识补全方法,采用如下的技术方案:
第一方面,提供一种训练知识补全模型的方法,包括:
将预构建的知识图谱中的节点的属性信息表示为节点初始向量;
将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
将所述增强向量用于训练基于图神经网络的知识补全模型。
第二方面,提供一种网络安全漏洞的攻击模式的知识补全方法,包括:
将预构建的知识图谱中的节点的属性信息表示为节点初始向量;
将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
将所述增强向量用于训练基于图神经网络的知识补全模型;
计算知识图谱中的漏洞节点与所述知识补全模型获得的攻击模式节点的存在关系的评分,并根据所述评分选取与所述漏洞节点最相关的K个攻击模式。
优选的,所述将预构建的知识图谱中的节点的属性信息表示为节点初始向量,之前,还包括:
获取已知的漏洞、弱点、攻击模式、攻击模式分类和/或攻击模式视图的信息;
构建基于已知的漏洞、弱点、攻击模式、攻击模式分类和/或攻击模式视图的知识图谱。
优选的,所述将预构建的知识图谱中的节点的属性信息表示为节点初始向量,包括:利用one-hot编码对取离散值的属性信息做编码。
优选的,所述将预构建的知识图谱中的节点的属性信息表示为节点初始向量,包括:利用词频-逆文档频率算法对节点文本属性信息做编码。
优选的,所述利用one-hot编码对取离散值的属性信息做编码,或利用词频-逆文档频率算法对节点文本属性信息做编码,之后,还包括:利用特征交叉的方式处理属性编码,捕捉所述节点不同属性之间的关联性和交互性,获得节点初始向量。
优选的,所述将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量,包括:
将所述节点初始向量作为简化的图卷积算法的输入,获取包含节点初始向量信息与节点初始向量的关系信息的增强向量。
优选的,所述知识补全模型,包括:图神经网络编码器和链接预测模型;
所述图神经网络编码器,用于学习知识图谱的节点属性以及关系信息,生成节点和关系的最终的节点向量;
所述链接预测模型,用于通过点积法预测漏洞节点和攻击模式节点存在的关系信息的可能性得分。
优选的,所述图神经网络编码器,包含两层卷积层;
每层卷积层,包括:消息传递层和聚合层;
所述消息传递层,用于计算节点和/>节点的邻居节点的消息;
所述聚合层,用于将节点和/>节点的邻居节点的消息进行聚合,得到节点/>在该卷积层的向量表示。
第三方面,提供一种训练知识补全模型的系统,包括:
获取模块:用于获取已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的信息;
构建模块:用于构建基于已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的知识图谱;
创建模块:用于将所述已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的各自的属性信息分别表示为各自的节点初始向量;
第一训练模块:用于将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
第二训练模块:用于将所述增强向量用于训练基于图神经网络的知识补全模型。
第四方面,提供一种网络安全漏洞的攻击模式的知识补全系统,包括:
获取模块:用于获取已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的信息;
构建模块:用于构建基于已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的知识图谱;
创建模块:用于将所述已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的各自的属性信息分别表示为各自的节点初始向量;
第一训练模块:用于将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
第二训练模块:用于将所述增强向量用于训练基于图神经网络的知识补全模型。
补全模块:用于计算知识图谱中的漏洞节点与所述知识补全模型获得的攻击模式节点的存在关系的评分,并根据所述评分选取与所述漏洞节点最相关的K个攻击模式。
综上所述,本申请包括以下至少一种有益技术效果:
在网络漏洞缺乏准确攻击模式信息的情况下,通过结合知识图谱和图神经网络的方法,实现对与漏洞相关的攻击模式的预测,可以发现新的关联关系,并完成知识图谱的补全,该方案能够解决现有方法在准确性和泛化性方面的缺陷。
在生成节点的初始向量表示时,采用特征交叉的策略,以捕捉节点不同属性之间的关联性和交互性作用,从而提供更丰富的特征表达,有助于提升模型的表征能力。
提出使用简化的图算法对模型进行预训练,有助于加快模型收敛速度,降低计算资源的消耗,提高计算效率,解决过度平滑问题,提高模型的准确性。
附图说明
图1是一种训练知识补全模型的方法步骤图;
图2是一种网络安全漏洞的攻击模式的知识补全方法第一实施例步骤图;
图3是一种网络安全漏洞的攻击模式的知识补全方法第二实施例步骤图;
图4是知识图谱逻辑构造图;
图5是知识补全模型的示意图;
图6是一种训练知识补全模型的系统的构成图;
图7是一种网络安全漏洞的攻击模式的知识补全的系统的构成图。
附图标记说明:1、知识补全模型;11、图神经网络编码器;12、链接预测模型;2、一种训练知识补全模型的系统;21、获取模块;22、构建模块;23、创建模块;24、第一训练模块;25、第二训练模块;26、补全模块; 3、一种网络安全漏洞的攻击模式的知识补全的系统。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1-附图6及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
术语解释:
SGC:Simplified Graph Convolution,一种简化的图卷积算法;在图卷积网络(GCN)的基础上进行了简化,将图卷积操作转化为简单的矩阵乘法操作,从而降低了计算和存储的复杂性。一般在有限的硬件资源下计算大规模图时,使用SGC来取代GCN。
知识图谱:Knowledge Graph,是一种结构化的知识表示方法,用于存储和组织大量的实体、属性和它们之间的关系。它是一种用于描述现实世界中实体及其关系的图形化知识模型。知识图谱通常由头节点、尾节点和边构成的三元组组成。节点表示实体或概念,例如人、地点、事件、产品等,而边表示节点之间的关系。这些关系可以是层次关系、属性关系、关联关系等。知识图谱旨在捕捉和表示知识的本质,并提供结构化的、可查询的数据模型。它可以用于构建和组织知识库,使得知识的存储和检索更加高效和准确。
词频-逆文档频率:TF-IDF,Term Frequency–Inverse Document Frequency;一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
因子分解机:FM,Factorization Machine。
One-hot编码:是一种针对离散特征的二进制表示方法,用于将特征的多个取值映射到一个高维向量空间中。在该编码方式中,每个可能的特征取值都被赋予一个唯一的位置,并在编码向量中表示为该位置上的1,而其他位置则为0。这种编码方式将离散特征转换为二进制形式。
由于漏洞数量庞大,系统管理员在对抗网络攻击的漏洞管理方面需要投入大量时间。为了进行高效的漏洞管理,必须迅速准确地收集信息。有效的管理不仅应提供已知漏洞的信息,还应包括可能的攻击信息。目前国际上主要有如下几个公开可用的数据库:CVE(Common Vulnerabilities and Exposures)、NVD(National Vulnerability Database)、CNNVD(China National Vulnerability Database)、CWE(Common Weakness Enumeration)和CAPEC(Common Attack Pattern Enumeration and Classification)。CVE是一个专门提供漏洞信息的词典,它为每个漏洞分配了一个唯一的编号。NVD和CNNVD为漏洞数据数据库,与CVE同步,并提供额外的漏洞信息。CWE是一种定义和分类软件安全缺陷的规范,能够描述漏洞的类别。CAPEC是一个攻击模式枚举词典,它系统化地记录针对漏洞的攻击模式信息。
在查询漏洞攻击模式时,系统管理员通常根据漏洞的CVE-ID(一个漏洞对应一个CVE-ID)到NVD等漏洞数据库查询漏洞相关联的弱点(一个弱点对应一个CWE-ID),然后根据CWE-ID到CWE数据库中查询弱点相关的攻击模式(一个攻击模式对应一个CAPEC-ID),最后使用CAPEC-ID从CAPEC数据库中获取漏洞关联的攻击模式信息,形成一个(CVE-ID>CWE-ID>CAPEC-ID)的查询链。然而,由于CVE和CAPEC是相互独立的,这种方法存在以下问题:
(1) 将近28%的CVE数据缺乏与CWE关联的数据。
(2) CWE具有层次关系,部分CVE关联的CWE层次较高,属于抽象(Abstract)层次,无法精准区分漏洞类别,因此关联得到的攻击模式信息不够准确。
因此,有必要研究准确的漏洞攻击模式预测方法,以进行漏洞攻击模式的知识补全。
第一方面,如图1所示,提供一种训练知识补全模型的方法,包括:
S101:将预构建的知识图谱中的节点的属性信息表示为节点初始向量;
S102:将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
S103:将所述增强向量用于训练基于图神经网络的知识补全模型。
第二方面,如图2所示,提供一种网络安全漏洞的攻击模式的知识补全方法,包括:
S203:将预构建的知识图谱中的节点的属性信息表示为节点初始向量;
S204:将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
S205:将所述增强向量用于训练基于图神经网络的知识补全模型;
S206:计算知识图谱中的漏洞节点与所述知识补全模型获得的攻击模式节点的存在关系的评分,并根据所述评分选取与所述漏洞节点最相关的K个攻击模式。
优选的,如图3所示,所述将预构建的知识图谱中的节点的属性信息表示为节点初始向量,之前,还包括:
S201:获取已知的漏洞、弱点、攻击模式、攻击模式分类和/或攻击模式视图的信息;通过网络爬虫技术从NVD、CNNVD、CWE、CAPEC等数据库中获取漏洞、弱点、攻击模式数据,并将其以CSV文件的形式进行存储。
S202:构建基于已知的漏洞、弱点、攻击模式、攻击模式分类和/或攻击模式视图的知识图谱。设计知识图谱本体,并根据知识图谱本体构建知识图谱。本体包括五类实体,即漏洞(Vulnerability)、弱点(Weakness)、攻击模式(Attack Pattern)、攻击模式分类(Attack Pattern Category)和攻击模式视图(Attack Pattern View)。漏洞实体的属性信息包括:编号、描述、漏洞影响的产品、漏洞攻击向量、攻击复杂度、攻击权限要求和用户交互要求。弱点实体的属性信息包括:编号、名称、描述和抽象层次。攻击模式实体的属性信息包括:编号、名称、描述、抽象层次、攻击步骤、攻击后果、和攻击示例。攻击模式分类属性信息包括:编号、名称和描述。攻击模式视图属性信息包括:编号、名称和描述。关系方面,包括以下几种:关联关系(RelateTo),表示漏洞与弱点、漏洞与攻击模式、弱点与攻击模式之间的关联关系;子关系(ChildOf)表示攻击模式之间的父子关系;同级关系(PeerOf)表示攻击模式之间的同级关系;相似关系(CanAlsoBe)表示某一攻击模式能被视为目标攻击模式;跟随关系(CanFollow)表示某一攻击模式是目标攻击模式的下一步;前置关系(CanPrecede)表示某一攻击模式是目标攻击模式的上一步;成员关系(HasMember)表示攻击模式视图包含目标攻击模式分类或者攻击模式分类包含目标攻击模式。知识图谱如图4所示。
优选的,所述将预构建的知识图谱中的节点的属性信息表示为节点初始向量,包括:利用one-hot编码对取离散值的属性信息做编码。
优选的,所述将预构建的知识图谱中的节点的属性信息表示为节点初始向量,包括:利用词频-逆文档频率算法对节点文本属性信息做编码。对于节点文本属性信息,首先进行文本清洗,包括去除常见词和标点符号、进行分词和词性还原等操作。随后,本申请技术方案采用TF-IDF(词频-逆文档频率)算法将节点文本属性信息转化为向量表示。TF-IDF是一种广泛应用于信息检索和文本挖掘的数值统计方法,用于评估文档或语料库中单词的重要性。TF(词频)衡量了一个词在文档中出现的频率,计算公式为。IDF(逆文档频率)衡量了一个词在语料库中的稀有性或独特性,通过总文档数除以包含该词的文档数并取对数来计算,计算公式为。TF-IDF得分通过将TF值和IDF值相乘得到,即。节点的文本属性信息表示为一个向量,其中每个维度对应词汇表中的一个词汇,值为该词汇的TF-IDF得分。
优选的,所述利用one-hot编码对取离散值的属性信息做编码,或利用词频-逆文档频率算法对节点文本属性信息做编码,之后,还包括:利用特征交叉的方式处理属性编码,捕捉所述节点不同属性之间的关联性和交互性,获得节点初始向量。将漏洞的某些特征组合起来,形成新的特征,能够更有效地预测漏洞的攻击模式。例如,漏洞具有攻击向量和攻击权限要求这两个属性。攻击向量表示攻击发生的环境,包括远程网络(Network)、邻接网络(Adjacent)、本地网络(Local)和物理方式(Physical)。攻击权限要求表示攻击漏洞需要的权限,包括高(High)、低(Low)和无(None),高权限要求表示攻击者需要获取系统的管理员权限,低权限要求表示攻击者需要获取系统的普通用户权限,无权限要求表示攻击者不需要获取系统权限。将这两个属性组合在一起,能够更加准确地判断该漏洞能被哪种攻击模式利用。当一个漏洞的攻击向量为远程网络(Network)且权限要求为低(Low)时,该漏洞更有可能的攻击模式是XXS攻击或SQL注入攻击等;当一个漏洞的攻击向量为邻接网络(Adjacent)且权限要求为无(None)时,该漏洞更有可能的攻击模式是ARP欺骗攻击或洪泛攻击。因此本发明创新性地提出使用特征交叉的方法来学习漏洞节点属性的特征向量,该方法能够捕捉到不同属性之间的关联性和交互作用,从而提供更丰富的特征表达。具体而言,本发明使用FM(Factorization Machine)模型来完成特征交叉,算法公式为:
其中表示节点u进行特征向量,/>为权重。对于节点/>的文本属性,使用TF-IDF进行编码;对于取离散值的属性,使用one-hot方式进行编码。然后将属性编码拼接到一个向量中,形成节点/>的特征向量,/>为节点/>的第/>个特征的值。/>为所有节点的特征向量的第/>个特征组成的隐向量。
优选的,所述将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量,包括:
将所述节点初始向量作为简化的图卷积算法的输入,获取包含节点初始向量信息与节点初始向量的关系信息的增强向量。为了充分利用知识图谱的异构信息,本模块应用预训练的方式来获得更好的节点向量表示。然而,在大规模图上应用预训练时,需要大量的存储空间和更长的计算时间。因此,如何生成一个简单高效的预训练模型成为关键。SGC(Simplified Graph Convolution)是一种简化的图卷积算法。它在图卷积网络(GCN)的基础上进行了简化,将图卷积操作转化为简单的矩阵乘法操作,从而降低了计算和存储的复杂性。一般在有限的硬件资源下计算大规模图时,使用SGC来取代GCN。本发明创新性地将SGC应用于预训练过程中,以学习节点的浅层邻居信息,从而增强节点向量的表示能力。同时,预训练模块能够加快S105模块中模型的收敛速度,减少图神经网络的层数,从而大幅降低计算资源的消耗并解决深层图神经网络引起的过度平滑问题。具体而言,本申请技术方案使用SGC卷积层,将S103模块得到的节点向量作为输入,通过预测漏洞与攻击模式的关联来预训练模型,并获得节点的增强向量表示。具体的计算公式如下:
其中为增强特征表示,/>为S103模块得到的节点特征矩阵,/>为包含自连接的知识图谱的邻接矩阵,/>是为节点的度矩阵,/>,/>为SGC传播的跳数(hop),为权重矩阵。
优选的,如图5所示,所述知识补全模型1,包括:图神经网络编码器11和链接预测模型12;
所述图神经网络编码器11,用于学习知识图谱的节点属性以及关系信息,生成节点和关系的最终的节点向量;
所述链接预测模型12,用于通过点积法预测漏洞节点和攻击模式节点存在的关系信息的可能性得分。通过点积法预测漏洞节点和攻击模式节点存在RelateTo关系的可能性得分,其中/>表示节点/>和节点/>存在/>关系的可能性评分,/>和/>表示节点/>、/>的向量表示,由图神经网络编码器计算得到。
该模型旨在学习图谱节点的属性以及关系信息,生成节点的向量表示。然后,计算两个节点存在关系可能性得分/>,得分越高则两个节点存在关系/>可能性越大。其中/>表示节点/>的向量表示,/>表示节点/>的向量表示,/>表示计算得分的函数,本模型使用了点积函数。
优选的,所述图神经网络编码器11,包含两层卷积层;
每层卷积层,包括:消息传递层和聚合层;
所述消息传递层,用于计算节点和/>节点的邻居节点的消息;对于节点/>,计算节点v和其邻居节点的消息(message)
其中,表示节点/>在/>层的消息,/>表示节点/>在/>层的向量表示,为S104模块得到的节点/>向量,/>表示关系/>在/>层的权重矩阵,/>为ReLu激活函数,/>表示节点/>的邻居节点的集合,/>表示关系类型集合。所述聚合层,用于将节点/>和/>节点的邻居节点的消息进行聚合,得到节点/>在该卷积层的向量表示。将节点/>和邻居节点的消息进行聚合,得到节点/>在/>层的向量表示:
其中:是节点/>在第 /> 层的表示向量。/>为聚合函数,常见的包括求和(Sum),求平均(Mean)和取最大值(Max)。/>为ReLu激活函数。通过上述的图神经网络编码器,本申请技术方案能够获取到包含节点和关系信息的特征向量表示。
在传统的聚合函数中,所有邻居节点的信息都被等同对待,无论其与目标节点的关联度如何。然而,在漏洞知识图谱的补全任务中,这种处理方式存在问题:在数据库中,漏洞与弱点存在关联关系,但并非所有关联关系都是准确的。弱点代表了漏洞的类别信息,并且被分为不同的抽象层次。许多漏洞与高抽象层次的弱点相关联,但高抽象层次的弱点信息无法精确描述漏洞的类别。如果使用传统的聚合函数,不准确的弱点信息会被聚合到漏洞节点的下一层向量表示中,对模型的效果产生负面影响。因此,本申请技术方案希望在聚合节点邻居信息时,能够有选择地降低相关度不高的邻居节点消息的权重,减轻低相关度邻居信息对节点向量表示的影响。
为了解决传统聚合函数无法区分邻居节点相关度的问题,本申请技术方案基于数据特点提出了一种改良的聚合算法。该算法确保聚合结果更准确地聚合了高相关度邻居节点的特征,并减少了低相关度邻居节点的干扰。改良的聚合算法步骤如下:
将初始化为/>
对于每个邻居节点u:
计算节点v和节点u在知识图谱中的描述属性的文本向量之间的余弦距离相似度。相似度越高,加权聚合时的权重越大。
同时,对节点的抽象层次进行约束,不同抽象层次的弱点或攻击模式节点被分配不同的权重。即权重由文本相似度和抽象层次共同决定。
进行权重归一化
将节点u的加权累加到/>中
返回聚合后的节点特征向量
该过程可以用公式表示为: ,其中/>表示计算节点/>的向量表示时节点/>信息的权重。
第三方面,如图6所示,提供一种训练知识补全模型的系统2,包括:
获取模块21:用于获取已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的信息;
构建模块22:用于构建基于已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的知识图谱;
创建模块23:用于将所述已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的各自的属性信息分别表示为各自的节点初始向量;
第一训练模块24:用于将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
第二训练模块25:用于将所述增强向量用于训练基于图神经网络的知识补全模型。
第四方面,如图7所示,提供一种网络安全漏洞的攻击模式的知识补全系统3,包括:
获取模块21:用于获取已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的信息;
构建模块22:用于构建基于已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的知识图谱;
创建模块23:用于将所述已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的各自的属性信息分别表示为各自的节点初始向量;
第一训练模块24:用于将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
第二训练模块25:用于将所述增强向量用于训练基于图神经网络的知识补全模型。
补全模块26:用于计算知识图谱中的漏洞节点与所述知识补全模型获得的攻击模式节点的存在关系的评分,并根据所述评分选取与所述漏洞节点最相关的K个攻击模式。
本申请技术方案提出的方法使用图神经网络进行计算,充分利用漏洞、弱点、攻击模式的文本信息以及它们之间形成的关系图的结构以及拓扑信息得到知识图谱中节点的向量表示,从而提了模型的预测准确性以及泛化能力。本申请技术方案的目标在于,针对现有数据库中漏洞攻击模式知识的不准确性和缺失的问题,对漏洞与攻击模式的关联信息进行补全,任务可以抽象为预测节点之间是否存在链接的链接预测问题,属于节点层次的计算。
在当前漏洞攻击模式知识补全技术中,主要采用了图特征计算、矩阵分解和自然语言处理的方法。然而,这些方法存在局限性。图特征计算方法的做法是构建漏洞、弱点和攻击模式之间的关系图,其中漏洞、弱点和攻击模式被看作图的节点,它们之间的关系则被视为图的边。然后通过计算漏洞节点和攻击模式节点之间的相似度来实现对攻击模式的预测。然而,该方法仅仅利用节点的度数作为特征,未充分利用图中其他的特征信息和节点的属性信息。矩阵分解方法的做法是构建漏洞和攻击模式的邻接矩阵,使用矩阵分解技术得到漏洞和攻击模式的特征表示,然后计算出漏洞和攻击模式之间存在链接的概率。然而该方法仅利用了漏洞和攻击模式的链接信息,未利用图的其他特征信息和节点的属性信息。自然语言处理方法则是通过提取漏洞和攻击模式的文本信息,应用自然语言处理算法来计算二者之间的相似度。在当前漏洞攻击模式知识补全技术中,主要采用了图特征计算、矩阵分解和自然语言处理的方法。然而,这些方法存在局限性。图特征计算方法的做法是构建漏洞、弱点和攻击模式之间的关系图,其中漏洞、弱点和攻击模式被看作图的节点,它们之间的关系则被视为图的边。然后通过计算漏洞节点和攻击模式节点之间的相似度来实现对攻击模式的预测。然而,该方法仅仅利用节点的度数作为特征,未充分利用图中其他的特征信息和节点的属性信息。矩阵分解方法的做法是构建漏洞和攻击模式的邻接矩阵,使用矩阵分解技术得到漏洞和攻击模式的特征表示,然后计算出漏洞和攻击模式之间存在链接的概率。然而该方法仅利用了漏洞和攻击模式的链接信息,未利用图的其他特征信息和节点的属性信息。自然语言处理方法则是通过提取漏洞和攻击模式的文本信息,应用自然语言处理算法来计算二者之间的相似度。然而,该方法未利用漏洞、弱点和攻击模式之间的关系图所具备的结构和拓扑信息。
为了解决这些问题,本发明目的是解决视频监控设备漏洞数据库中缺乏准确攻击模式信息的问题。本申请技术方案提出了一种基于知识图谱和图神经网络的技术方案,通过同时学习节点的文本信息以及图的结构和拓扑信息,实现对与漏洞相关联的攻击模式的准确预测和漏洞数据库的知识补全。
首先,本申请技术方案利用知识图谱的优势,将漏洞节点、攻击模式节点以及它们之间的关系构建成一个图结构。这样的做法能够充分利用节点之间的语义关联,包括漏洞描述、攻击模式描述等文本信息,以及节点之间的拓扑结构,如关联和相似性。这样的综合学习能力使得本申请技术方案能够全面考虑节点的特征,包括其本身的属性和与其他节点的关系。
其次,本申请技术方案引入图神经网络作为计算模型,以学习和表示知识图谱中的节点和关系。图神经网络能够对节点进行向量表示,将节点的文本信息和结构拓扑信息融合在一个统一的向量空间中。通过关系图卷积网络,本申请技术方案能够捕捉到节点的复杂特征和关联关系,从而更准确地预测与漏洞相关联的攻击模式。
通过这种技术方案,本申请技术方案能够补全漏洞数据库中缺失的攻击模式信息,提供准确、全面的漏洞与攻击模式的关联。这对于漏洞预防和攻击防护具有重要意义,能够为安全领域的专业人士提供更全面、准确的信息支持,提高系统的安全性和防御能力。
综上所述,本申请包括以下至少一种有益技术效果:
1.在网络漏洞缺乏准确攻击模式信息的情况下,通过结合知识图谱和图神经网络的方法,实现对与漏洞相关的攻击模式的预测,可以发现新的关联关系,并完成知识图谱的补全,该方案能够解决现有方法在准确性和泛化性方面的缺陷。
2.在生成节点的初始向量表示时,采用特征交叉的策略,以捕捉节点不同属性之间的关联性和交互性作用,从而提供更丰富的特征表达,有助于提升模型的表征能力。
3.提出使用简化的图算法对模型进行预训练,有助于加快模型收敛速度,降低计算资源的消耗,提高计算效率,解决过度平滑问题,提高模型的准确性。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
Claims (11)
1.一种训练知识补全模型的方法,其特征在于,包括:
将预构建的知识图谱中的节点的属性信息表示为节点初始向量;
将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
将所述增强向量用于训练基于图神经网络的知识补全模型。
2.一种网络安全漏洞的攻击模式的知识补全方法,其特征在于,包括:
将预构建的知识图谱中的节点的属性信息表示为节点初始向量;
将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
将所述增强向量用于训练基于图神经网络的知识补全模型;
计算知识图谱中的漏洞节点与所述知识补全模型获得的攻击模式节点的存在关系的评分,并根据所述评分选取与所述漏洞节点最相关的K个攻击模式。
3.根据权利要求2所述的网络安全漏洞的攻击模式的知识补全方法,其特征在于,所述将预构建的知识图谱中的节点的属性信息表示为节点初始向量,之前,还包括:
获取已知的漏洞、弱点、攻击模式、攻击模式分类和/或攻击模式视图的信息;
构建基于已知的漏洞、弱点、攻击模式、攻击模式分类和/或攻击模式视图的知识图谱。
4.根据权利要求2所述的网络安全漏洞的攻击模式的知识补全方法,其特征在于,所述将预构建的知识图谱中的节点的属性信息表示为节点初始向量,包括:利用one-hot编码对取离散值的属性信息做编码。
5.根据权利要求2所述的网络安全漏洞的攻击模式的知识补全方法,其特征在于,所述将预构建的知识图谱中的节点的属性信息表示为节点初始向量,包括:利用词频-逆文档频率算法对节点文本属性信息做编码。
6.根据权利要求4或5所述的网络安全漏洞的攻击模式的知识补全方法,其特征在于,所述利用one-hot编码对取离散值的属性信息做编码,或利用词频-逆文档频率算法对节点文本属性信息做编码,之后,还包括:利用特征交叉的方式处理属性编码,捕捉所述节点不同属性之间的关联性和交互性,获得节点初始向量。
7.根据权利要求2所述的网络安全漏洞的攻击模式的知识补全方法,其特征在于,所述将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量,包括:
将所述节点初始向量作为简化的图卷积算法的输入,获取包含节点初始向量信息与节点初始向量的关系信息的增强向量。
8.根据权利要求 2所述的网络安全漏洞的攻击模式的知识补全方法,其特征在于,所述知识补全模型,包括:图神经网络编码器和链接预测模型;
所述图神经网络编码器,用于学习知识图谱的节点属性以及关系信息,生成节点和关系的最终的节点向量;
所述链接预测模型,用于通过点积法预测漏洞节点和攻击模式节点存在的关系信息的可能性得分。
9.根据权利要求8所述的网络安全漏洞的攻击模式的知识补全方法,其特征在于,所述图神经网络编码器,包含两层卷积层;
每层卷积层,包括:消息传递层和聚合层;
所述消息传递层,用于计算节点和/>节点的邻居节点的消息;
所述聚合层,用于将节点和/>节点的邻居节点的消息进行聚合,得到节点/>在该卷积层的向量表示。
10.一种训练知识补全模型的系统,其特征在于,包括:
获取模块:用于获取已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的信息;
构建模块:用于构建基于已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的知识图谱;
创建模块:用于将所述已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的各自的属性信息分别表示为各自的节点初始向量;
第一训练模块:用于将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
第二训练模块:用于将所述增强向量用于训练基于图神经网络的知识补全模型。
11.一种网络安全漏洞的攻击模式的知识补全系统,其特征在于,包括:
获取模块:用于获取已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的信息;
构建模块:用于构建基于已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的知识图谱;
创建模块:用于将所述已知的漏洞、弱点、攻击模式、攻击模式分类和攻击模式视图的各自的属性信息分别表示为各自的节点初始向量;
第一训练模块:用于将所述节点初始向量作为预训练模型的输入,获取包含节点初始向量信息以及知识图谱中的关系信息的增强向量;
第二训练模块:用于将所述增强向量用于训练基于图神经网络的知识补全模型;
补全模块:用于计算知识图谱中的漏洞节点与所述知识补全模型获得的攻击模式节点的存在关系的评分,并根据所述评分选取与所述漏洞节点最相关的K个攻击模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310947982.4A CN116684200B (zh) | 2023-07-31 | 2023-07-31 | 网络安全漏洞的攻击模式的知识补全方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310947982.4A CN116684200B (zh) | 2023-07-31 | 2023-07-31 | 网络安全漏洞的攻击模式的知识补全方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116684200A CN116684200A (zh) | 2023-09-01 |
CN116684200B true CN116684200B (zh) | 2023-09-26 |
Family
ID=87787649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310947982.4A Active CN116684200B (zh) | 2023-07-31 | 2023-07-31 | 网络安全漏洞的攻击模式的知识补全方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116684200B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216767B (zh) * | 2023-09-05 | 2024-04-05 | 四川大学 | 一种基于图神经网络的漏洞利用攻击预测方法 |
CN117610027B (zh) * | 2024-01-23 | 2024-03-29 | 上海齐同信息科技有限公司 | 一种私有协议漏洞检测方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100369A (zh) * | 2020-07-29 | 2020-12-18 | 浙江大学 | 结合语义的网络故障关联规则生成方法和网络故障检测方法 |
WO2021098372A1 (zh) * | 2019-11-18 | 2021-05-27 | 支付宝(杭州)信息技术有限公司 | 训练用于表征知识图谱的图神经网络模型的方法及装置 |
CN113010691A (zh) * | 2021-03-30 | 2021-06-22 | 电子科技大学 | 一种基于图神经网络的知识图谱推理关系预测方法 |
WO2021139074A1 (zh) * | 2020-01-08 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于知识图谱的案件检索方法、装置、设备及存储介质 |
CN113641829A (zh) * | 2021-07-13 | 2021-11-12 | 北京百度网讯科技有限公司 | 图神经网络的训练与知识图谱的补全方法、装置 |
CN114139709A (zh) * | 2021-12-02 | 2022-03-04 | 国网山西省电力公司晋城供电公司 | 基于图神经网络的电力专业知识图谱自动补全方法 |
CN115238855A (zh) * | 2022-05-23 | 2022-10-25 | 北京邮电大学 | 基于图神经网络的时序知识图谱的补全方法及相关设备 |
CN115481258A (zh) * | 2022-09-20 | 2022-12-16 | 用友网络科技股份有限公司 | 目标模型的构建方法、装置、存储介质和电子设备 |
JP2023101463A (ja) * | 2022-01-10 | 2023-07-21 | 富士通株式会社 | 語義分割モデルを訓練する方法及び装置、並びに画像検出方法 |
-
2023
- 2023-07-31 CN CN202310947982.4A patent/CN116684200B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021098372A1 (zh) * | 2019-11-18 | 2021-05-27 | 支付宝(杭州)信息技术有限公司 | 训练用于表征知识图谱的图神经网络模型的方法及装置 |
WO2021139074A1 (zh) * | 2020-01-08 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于知识图谱的案件检索方法、装置、设备及存储介质 |
CN112100369A (zh) * | 2020-07-29 | 2020-12-18 | 浙江大学 | 结合语义的网络故障关联规则生成方法和网络故障检测方法 |
CN113010691A (zh) * | 2021-03-30 | 2021-06-22 | 电子科技大学 | 一种基于图神经网络的知识图谱推理关系预测方法 |
CN113641829A (zh) * | 2021-07-13 | 2021-11-12 | 北京百度网讯科技有限公司 | 图神经网络的训练与知识图谱的补全方法、装置 |
CN114139709A (zh) * | 2021-12-02 | 2022-03-04 | 国网山西省电力公司晋城供电公司 | 基于图神经网络的电力专业知识图谱自动补全方法 |
JP2023101463A (ja) * | 2022-01-10 | 2023-07-21 | 富士通株式会社 | 語義分割モデルを訓練する方法及び装置、並びに画像検出方法 |
CN115238855A (zh) * | 2022-05-23 | 2022-10-25 | 北京邮电大学 | 基于图神经网络的时序知识图谱的补全方法及相关设备 |
CN115481258A (zh) * | 2022-09-20 | 2022-12-16 | 用友网络科技股份有限公司 | 目标模型的构建方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116684200A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao | Event prediction in the big data era: A systematic survey | |
CN116684200B (zh) | 网络安全漏洞的攻击模式的知识补全方法及系统 | |
Ranjan et al. | LFNN: Lion fuzzy neural network-based evolutionary model for text classification using context and sense based features | |
CN111428054A (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
Qian et al. | Fusing monotonic decision trees | |
CN104298873B (zh) | 一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法 | |
Yang et al. | Identifying influential spreaders in complex networks based on network embedding and node local centrality | |
CN112241481A (zh) | 基于图神经网络的跨模态新闻事件分类方法及系统 | |
Gusmão et al. | Interpreting embedding models of knowledge bases: a pedagogical approach | |
CN113282764B (zh) | 一种网络安全数据知识图谱构建方法及装置 | |
CN114911870A (zh) | 一种面向多源异构工业数据的融合管理架构 | |
Niu et al. | Scaling inference for markov logic via dual decomposition | |
Liu et al. | Social network rumor detection method combining dual-attention mechanism with graph convolutional network | |
CN116244446A (zh) | 社交媒体认知威胁检测方法及系统 | |
Wang et al. | Node pair information preserving network embedding based on adversarial networks | |
Song et al. | Spammer detection using graph-level classification model of graph neural network | |
Zhou et al. | A Neighborhood‐Impact Based Community Detection Algorithm via Discrete PSO | |
Wang et al. | RETRACTED ARTICLE: Intrusion detection and performance simulation based on improved sequential pattern mining algorithm | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统 | |
Jia et al. | Sequence Encoder-Based Spatiotemporal Knowledge Graph Completion | |
Chen et al. | Community Detection Based on DeepWalk Model in Large‐Scale Networks | |
Peng et al. | Learning representations by graphical mutual information estimation and maximization | |
Xu | Deep mining method for high-dimensional big data based on association rule | |
Gong et al. | Finding multi-granularity community structures in social networks based on significance of community partition | |
Shrivastava et al. | AIOIML: automatic integration of ontologies for IoT domain using hybridized machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |