CN116150392A - 威胁情报知识图谱处理方法、装置、设备及存储介质 - Google Patents

威胁情报知识图谱处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116150392A
CN116150392A CN202211596007.5A CN202211596007A CN116150392A CN 116150392 A CN116150392 A CN 116150392A CN 202211596007 A CN202211596007 A CN 202211596007A CN 116150392 A CN116150392 A CN 116150392A
Authority
CN
China
Prior art keywords
knowledge graph
node
threat
preset
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211596007.5A
Other languages
English (en)
Inventor
王旭仁
何松恒
陈文龙
陈蓉
付玉霞
江钧
杨沛安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN202211596007.5A priority Critical patent/CN116150392A/zh
Publication of CN116150392A publication Critical patent/CN116150392A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种威胁情报知识图谱处理方法、装置、设备及存储介质,涉及数据处理技术领域。该威胁情报知识图谱处理方法包括:通过采用多头注意层对初始威胁情报知识图谱进行关系特征的聚合处理,聚合不同的语义特征得到多个预设关系类型的注意力权重,考虑到每个基于预设关系类型的实体特性,通过图注意力网络中的节点注意层聚合节点的不同邻居特征,得到各个节点基于多个预设关系类型的聚合邻居特征,并将多个预设关系类型的注意力权重和各个节点基于多个预设关系类型的聚合邻居特征进行拼接融合处理,得到各个节点最终的目标特征,最后进行目标特征嵌入丰富初始威胁情报知识图谱中的语义信息,使得威胁情报知识图谱的语义信息更全面、更有效。

Description

威胁情报知识图谱处理方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种威胁情报知识图谱处理方法、装置、设备及存储介质。
背景技术
随着通信技术的不断发展,网络安全系统近年来受到了严重的威胁。更加复杂的空间特征给网络安全带来了新的挑战。一方面,攻击者可以使用现有工具毫不费力地渗透到目标系统中。另一方面,越来越多的攻击者热衷于使用零日漏洞(zero-day)和高级长期威胁(Advanced Persistent Threat,APT)等复杂的攻击技术渗透信息系统,使得现有的基于签名的安全防护策略难以抵御未知的网络威胁。
目前流行的基于深度学习和知识图谱融合的图卷积神经网络和图注意力神经网络在链路预测任务中取得了良好的效果。但是由于异构图的复杂性,传统的图神经网络无法直接应用于威胁情报知识图谱,因为它们将嵌入视为大多数静态同构图,并使用简单的无监督网络来处理嵌入,而忽略了图数据的结构复杂性。知识图谱的异质性通常通过关系来反映,这些关系表现出涉及不同三元组的复杂语义特征,传统的知识图谱嵌入技术往往忽略了学习关系的语义特征。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种威胁情报知识图谱处理方法、装置、设备及存储介质,以便解决了威胁情报知识图谱异质性带来的特征嵌入影响,使得威胁情报知识图谱的语义信息更全面、更有效。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种威胁情报知识图谱处理方法,包括:
采用预设的图注意力网络中的多头注意层,对初始威胁情报知识图谱进行关系特征的聚合处理,得到所述初始威胁情报知识图谱中的多个预设关系类型的注意力权重;
采用所述图注意力网络中的节点注意层,对所述初始威胁情报知识图谱进行节点语义信息的聚合处理,得到所述初始威胁情报知识图谱中各个节点基于所述多个预设关系类型的聚合邻居特征;
采用所述图注意力网络中的融合模块,基于所述多个预设关系类型的注意力权重对所述各个节点基于所述多个预设关系类型的聚合邻居特征进行拼接融合处理,得到所述各个节点的目标特征;
采用所述图注意力网络中的嵌入模块,将所述各个节点的目标特征嵌入至所述初始威胁情报知识图谱中,得到目标威胁情报知识图谱。
在可选的实施方式中,所述采用所述图注意力网络中的节点注意层,对所述初始威胁情报知识图谱进行节点语义信息的聚合处理,得到所述初始威胁情报知识图谱中各个节点基于所述多个预设关系类型的聚合邻居特征,包括:
采用所述节点注意层,基于所述各个节点在每个预设关系类型下的邻居权重以及所述各个节点在所述每个预设关系类型下的所有邻居节点,计算所述各个节点在所述每个预设关系类型的融合邻居特征。
在可选的实施方式中,所述采用所述节点注意层,基于所述各个节点在每个预设关系类型下的邻居权重以及所述各个节点在所述每个预设关系类型下的所有邻居节点,计算所述各个节点在所述每个预设关系类型的融合邻居特征之前,所述方法还包括:
采用所述节点注意层,对所述基于所述各个节点在所述每个预设关系类型下的所述所有邻居节点的注意力权重进行归一化,得到所述各个节点在所述每个预设关系类型下的邻居权重。
在可选的实施方式中,所述方法还包括:
采用预设任务的处理模型,对所述目标威胁知识图谱进行处理,得到所述预设任务的处理结果。
在可选的实施方式中,所述采用预设任务的处理模型,对所述目标威胁知识图谱进行处理,得到所述预设任务的处理结果之前,所述方法还包括:
根据多个安全网站的威胁报告,构建威胁情报数据集;所述威胁情报数据集包括:多个样本初始威胁情报知识图谱;
采用所述图注意力网络,分别对所述多个样本初始威胁情报知识图谱进行嵌入处理,得到多个样本目标威胁知识图谱;
根据所述样本目标威胁知识图谱,进行所述预设任务的模型训练,得到所述预设任务的处理模型。
在可选的实施方式中,所述预设任务的处理模型为:链路预测模型,所述采用预设任务的处理模型,对所述目标威胁知识图谱进行处理,得到所述预设任务的处理结果,包括:
采用所述链路预测模型,对所述目标威胁知识图谱中尾部实体缺失的目标三元组进行链路预测,得到所述缺失的目标三元组中所述尾部实体。
在可选的实施方式中,所述预设任务的处理模型为:实体分类模型,所述采用预设任务的处理模型,对所述目标威胁知识图谱进行处理,得到所述预设任务的处理结果,包括:
采用所述实体分类模型,对所述目标威胁知识图谱中属性缺失的目标实体进行实体属性的分类,得到所述目标实体的属性。
第二方面,本申请实施例还提供了一种威胁情报知识图谱处理装置,包括:
处理模块,用于采用预设的图注意力网络中的多头注意层,对初始威胁情报知识图谱进行关系特征的聚合处理,得到所述初始威胁情报知识图谱中的多个预设关系类型的注意力权重;
所述处理模块,还用于采用所述图注意力网络中的节点注意层,对所述初始威胁情报知识图谱进行节点语义信息的聚合处理,得到所述初始威胁情报知识图谱中各个节点基于所述多个预设关系类型的聚合邻居特征;
融合模块,用于采用所述图注意力网络中的融合模块,基于所述多个预设关系类型的注意力权重对所述各个节点基于所述多个预设关系类型的聚合邻居特征进行拼接融合处理,得到所述各个节点的目标特征;
嵌入模块,用于采用所述图注意力网络中的嵌入模块,将所述各个节点的目标特征嵌入至所述初始威胁情报知识图谱中,得到目标威胁情报知识图谱。
第三方面,本申请实施例还提供了一种计算机设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行上述第一方面任一所述的威胁情报知识图谱处理方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面任一所述的威胁情报知识图谱处理方法的步骤。
本申请的有益效果是:
本申请提供一种威胁情报知识图谱处理方法、装置、设备及存储介质,包括:采用预设的图注意力网络中的多头注意层,对初始威胁情报知识图谱进行关系特征的聚合处理,得到初始威胁情报知识图谱中的多个预设关系类型的注意力权重;并采用图注意力网络中的节点注意层,对初始威胁情报知识图谱进行节点语义信息的聚合处理,得到初始威胁情报知识图谱中各个节点基于多个预设关系类型的聚合邻居特征;通过采用图注意力网络中的融合模块,基于多个预设关系类型的注意力权重对各个节点基于多个预设关系类型的聚合邻居特征进行拼接融合处理,得到各个节点的目标特征;最后采用图注意力网络中的嵌入模块,将各个节点的目标特征嵌入至初始威胁情报知识图谱中,得到目标威胁情报知识图谱。
本申请的方法,通过采用多头注意层对初始威胁情报知识图谱进行关系特征的聚合处理,学习不同预设关系类型的重要性,聚合不同的语义特征得到多个预设关系类型的注意力权重,考虑到每个基于预设关系类型的实体特性,通过图注意力网络中的节点注意层聚合节点的不同邻居特征,得到各个节点基于多个预设关系类型的聚合邻居特征,并将多个预设关系类型的注意力权重和各个节点基于多个预设关系类型的聚合邻居特征进行拼接融合处理,得到各个节点最终的目标特征,最后进行目标特征嵌入丰富初始威胁情报知识图谱中的语义信息,解决了威胁情报知识图谱异质性带来的特征嵌入影响,使得威胁情报知识图谱的语义信息更全面、更有效。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种威胁情报知识图谱处理方法的流程示意图;
图2为本申请实施例提供的另一种威胁情报知识图谱处理方法的流程示意图;
图3为本申请实施例提供的一种威情报知识图谱处理方法的示意图;
图4为本申请实施例提供的一种威胁情报知识图谱处理装置的功能模块示意图;
图5为本申请实施例提供的一种计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
知识图谱通常由表示多种具体事实的节点和边组成,其中节点表示知识图谱中的各种实体,边表示实体之间的关系,但是实体和关系反映的语义信息种类繁多,不同的实体和关系使得网络威胁情报知识图谱具有异质性,其中,网络威胁情报知识图谱中的实体在每个关系下显示不同的语义特征,若平等对待每个关系会削弱由重要关系聚集而成的语义特征,因此需要考虑实体之间不同的关系,捕捉丰富的实体和关系特征进行语义特征信息的嵌入,从而实现对威胁情报知识图谱的处理,便于进行后续的预设任务。
如下结合附图通过具体示例对本申请实施例提供的威胁情报知识图谱处理方法进行详细的解释说明。本申请实施例提供的威胁情报知识图谱处理方法可由预先安装有:预设模型训练算法或者检测软件的计算机设备,通过运行算法或者软件实现。计算机设备例如可以为服务器或终端,终端可以为用户计算机。图1为本申请实施例提供的一种威胁情报知识图谱处理方法的流程示意图。如图1所示,该方法包括:
S101、采用预设模型中的多头注意层,对初始威胁情报知识图谱进行关系特征的聚合处理,得到初始威胁情报知识图谱中的多个预设关系类型的注意力权重。
在本实施例中,采用多头注意力机制对初始威胁情报知识图谱进行关系抽样,并根据预设模型中的多头注意层,对初始威胁情报知识图谱中各种关系的语义特征信息进行聚合处理,其中多头注意力机制可以融合多种关系类型的不同方面的嵌入。预设模型采用可实现知识图谱嵌入(Knowledge Graph Embedding,KGE)的模型,例如多模态图注意网络(Multimodal Graph Attention Network,R-MGAT)模型,初始威胁情报知识图谱可表示为G={E,R,S},其中E表示初始威胁情报知识图谱中所有实体,R表示初始威胁情报知识图谱中所有实体之间的关系,S表示初始威胁情报知识图谱中所有的三元组,每个三元组S又可表示为S=(h,r,t),其中h表示为三元组中的头实体,r表示为三元组中头实体和尾实体之间的关系,例如可以为袭击、使用、属于、指代消解等,t表示为三元组中的尾实体。
具体的,对初始威胁情报知识图谱进行关系特征的聚合处理,首先对初始威胁情报知识图谱中的关系重要度进行定义,示例的,将获取到的初始威胁情报知识图谱表示为G,假设初始威胁情报知识图谱中关系类型大小即关系类型数目为|R|,节点数量即实体数量为N,关系向量初始化为r0,多个节点的特征向量可通过特征矩阵进行表示,可以表示为H=[h1,h2,···,hN],例如节点i的特征向量可表示为hi
将关系向量初始化r0输入到预设模型的多头注意层中,多头注意力机制可表示为:
Figure BDA0003992845540000071
Figure BDA0003992845540000072
Multihead=concat(head1,...,headr)WO
其中Q、K、V由关系向量初始化r0乘以相应的权重转换而来,dk表示为V的维数,
Figure BDA0003992845540000073
WO为权矩阵。
将多头注意层的输出表示为α,则初始威胁情报知识图谱中的多个预设关系类型的注意力权重可表示为:
r={α12,...,α|R|}
从而得到多个预设关系类型的注意力权重,若给定预设关系类型为i则注意力权重为αi
S102、采用图注意力网络中的节点注意层,对初始威胁情报知识图谱进行节点语义信息的聚合处理,得到初始威胁情报知识图谱中各个节点基于多个预设关系类型的聚合邻居特征。
其中,由于初始威胁情报知识图谱中不同类型的实体可能出现在不同的特征空间中,不适合直接聚合每个实体的所有邻居特性,因此需要采用图注意力网络(GraphAttention Network,GAT)对初始威胁情报知识图谱中不同节点的节点语义信息进行聚合,从而得到初始威胁情报知识图谱中各个节点基于多个预设关系类型的聚合邻居特征。
S103、采用图注意力网络中的融合模块,基于多个预设关系类型的注意力权重对各个节点基于多个预设关系类型的聚合邻居特征进行拼接融合处理,得到各个节点的目标特征。
根据上述步骤S101得到多个预设关系类型的注意力权重,以及根据上述步骤S102得到各个节点基于多个预设关系类型的聚合邻居特征,通过拼接融合即将各个节点对应的注意力权重和聚合邻居特征相乘并进行累加,得到各个节点的目标特征。
示例的,节点i的目标特征hi'可表示为:
Figure BDA0003992845540000081
其中,αr为节点i在多个预设关系类型为r时的注意力权重,
Figure BDA0003992845540000082
为节点i在多个预设关系类型为r时的聚合邻居特征。
S104、采用图注意力网络中的嵌入模块,将各个节点的目标特征嵌入至初始威胁情报知识图谱中,得到目标威胁情报知识图谱。
具体的,初始威胁情报知识图谱表示为G={E,R,S},通过将各个节点的目标特征嵌入至初始威胁情报知识图谱中,得到的目标威胁情报知识图谱可表示为G'={E',R,S}。
综上所述,本申请的方法,通过采用多头注意层对初始威胁情报知识图谱进行关系特征的聚合处理,学习不同预设关系类型的重要性,聚合不同的语义特征得到多个预设关系类型的注意力权重,为不同预设关系类型分配不同的注意力权重,考虑了不同预设关系类型的语义特征,同时考虑到每个基于预设关系类型的实体特性,通过图注意力网络中的节点注意层聚合节点的不同邻居特征,得到各个节点基于多个预设关系类型的聚合邻居特征,并将多个预设关系类型的注意力权重和各个节点基于多个预设关系类型的聚合邻居特征进行拼接融合处理,得到各个节点最终的目标特征,最后进行目标特征嵌入丰富初始威胁情报知识图谱中的语义信息,解决了威胁情报知识图谱异质性带来的特征嵌入影响,使得威胁情报知识图谱的语义信息更全面、更有效。
在上述实施例提供的威胁情报知识图谱处理方法的基础上,本申请实施例还提供了另一种威胁情报知识图谱处理方法的可能实现方式,采用图注意力网络中的节点注意层,对初始威胁情报知识图谱进行节点语义信息的聚合处理,得到初始威胁情报知识图谱中各个节点基于多个预设关系类型的聚合邻居特征,包括:
采用节点注意层,基于各个节点在每个预设关系类型下的邻居权重以及各个节点在每个预设关系类型下的所有邻居节点,计算各个节点在每个预设关系类型的融合邻居特征。
在本实施例中,通过图注意力网络中的节点注意层,对每个节点在每个预设关系类型的融合邻居特征进行计算,示例的,节点i在预设关系类型r的融合邻居特征
Figure BDA0003992845540000091
可表示为:
Figure BDA0003992845540000092
其中,
Figure BDA0003992845540000093
为节点i基于预设关系类型r下的邻居权重,hj为节点i基于预设关系类型r邻居节点j的特征向量,并且邻居节点的数量定义为/>
Figure BDA0003992845540000094
根据上述公式得到节点i在预设关系类型r的融合邻居特征,从而得到各个节点在每个预设关系类型的融合邻居特征。
由于不同的预设关系类型传达的语义信息不同,且不同类型的实体可能出现在不同的特征空间中,不适合直接聚合每个实体的所有邻居特性,因此,需要考虑到聚合每个基于预设关系类型的实体特性。本申请实施例还提供了另一种威胁情报知识图谱处理方法的可能实现方式。采用节点注意层,基于各个节点在每个预设关系类型下的邻居权重以及各个节点在每个预设关系类型下的所有邻居节点,计算各个节点在每个预设关系类型的融合邻居特征之前,方法还包括:
采用节点注意层,对基于各个节点在每个预设关系类型下的所有邻居节点的注意力权重进行归一化,得到各个节点在每个预设关系类型下的邻居权重。
在本实施例中,通过图注意力网络中的节点注意层,对每个节点基于预设关系类型的所有邻居节点进行注意力权重的计算,示例的,可采用标准的注意力机制进行计算,节点i基于预设关系类型r的邻居节点j的注意力权重
Figure BDA0003992845540000095
可表示为:/>
Figure BDA0003992845540000096
其中,σ为激活函数,||为连接算子,
Figure BDA0003992845540000097
为节点注意向量即邻居权重向量,hi为节点i的特征向量,hj为节点i基于预设关系类型r邻居节点j的特征向量。
通过计算基于预设关系类型的所有邻居节点的注意力权重后,需要对该预设关系类型的所有邻居节点的注意力权重进行归一化,从而得到各个节点在每个预设关系类型下的邻居权重,示例的,节点i基于预设关系类型r下的邻居权重
Figure BDA0003992845540000101
可表示为:
Figure BDA0003992845540000102
其中,hk为节点i基于预设关系类型r邻居节点k的特征向量,根据上述公式计算得到节点i基于预设关系类型r下的邻居权重,从而可以得到各个节点在每个预设关系类型下的邻居权重。
本申请实施例还提供了另一种威胁情报知识图谱处理方法的可能实现方式,方法还包括:
采用预设任务的处理模型,对目标威胁知识图谱进行处理,得到预设任务的处理结果。
在本实施例中,预设任务可以为链路预测任务和实体分类任务,其中,链接预测是为了在目标威胁知识图谱的三元组中给定头部实体和预设关系类型的情况下预测尾部实体,并组成一个正确的三元组,实体分类是为了恢复样本目标威胁知识图谱的三元组中丢失的实体属性。根据不同的预设任务采用相应的预设任务处理模型,并对目标威胁知识图谱进行处理,从而得到不同预设任务的处理结果。
本申请实施例还提供了另一种威胁情报知识图谱处理方法的可能实现方式。图2为本申请实施例提供的另一种威胁情报知识图谱处理方法的流程示意图。如图2所示,采用预设任务的处理模型,对目标威胁知识图谱进行处理,得到预设任务的处理结果之前,方法还包括:
S201、根据多个安全网站的威胁报告,构建威胁情报数据集。
在本实施例中,多个安全网站例如可以为推特、托管平台(GitHub)等,从多个安全网站收集威胁报告即高级长期威胁(Advanced Persistent Threat,APT)报告,通过对威胁报告进行预处理,构建威胁情报数据集,其中威胁情报数据集包括:多个样本初始威胁情报知识图谱,使用文本注释工具(Brat)系统对威胁情报数据集中多个样本初始威胁情报知识图谱的三元组进行在线标记、添加注释,并将注释结果构造成为计算机可处理的格式,并且对多个样本初始威胁情报知识图谱中三元组的标记进行验证。
S202、采用图注意力网络,分别对多个样本初始威胁情报知识图谱进行嵌入处理,得到多个样本目标威胁知识图谱。
采用图注意力网络,多个样本初始威胁情报知识图谱可表示为G={E,R,S},通过将各个节点的目标特征嵌入至多个样本初始威胁情报知识图谱中,得到的多个样本目标威胁情报知识图谱可表示为G'={E',R,S}。
S203、根据样本目标威胁知识图谱,进行预设任务的模型训练,得到预设任务的处理模型。
具体的,预设任务可分为对样本目标威胁知识图谱进行链接预测和实体分类,其中,链接预测是为了在样本目标威胁知识图谱的三元组中给定头部实体和预设关系类型的情况下预测尾部实体,并组成一个正确的三元组,实体分类是为了恢复样本目标威胁知识图谱的三元组中丢失的实体属性。根据预设任务分别对模型训练,从而得到预设任务的处理模型。
本申请实施例提供的方法中,通过获取多个安全网站的威胁报告,构建威胁情报数据集,增强空间融合分析和感知推理能力,并可以对威胁行为进行分析,通过采用图注意力网络,分别对多个样本初始威胁情报知识图谱进行嵌入处理,得到多个样本目标威胁知识图谱,使得多个样本目标威胁知识图谱的语义特征更加丰富,然后根据样本目标威胁知识图谱,进行预设任务的模型训练,得到预设任务的处理模型,对预设任务进行处理。
本申请实施例还提供了另一种威胁情报知识图谱处理方法的可能实现方式。预设任务的处理模型为:链路预测模型,采用预设任务的处理模型,对目标威胁知识图谱进行处理,得到预设任务的处理结果,包括:
采用链路预测模型,对目标威胁知识图谱中尾部实体缺失的目标三元组进行链路预测,得到缺失的目标三元组中尾部实体。
在本实施例中,在对目标威胁知识图谱中尾部实体缺失的目标三元组进行链路预测的过程中,需要基于卷积神经网络的多层卷积网络(ConvE)作为解码器来完成链路预测任务,多层卷积网络可处理目标威胁知识图谱中的多个预设关系类型,为每个基于预设关系类型的三元组生成过滤器,从具有不同关系类型的三元组中提取每个头部实体基于预设关系类型的语义信息特征,并对尾部实体进行预测。示例的,给定三元组为S=(h,r,t),得分函数
Figure BDA0003992845540000121
可定义为:
Figure BDA0003992845540000122
其中,eh表示为三元组中的头部实体,et表示为三元组中的尾部实体,rr表示为关系向量,*表示为卷积运算,f为非线性函数,采用线性整流函数(Linear rectificationfunction,ReLU)作为激活函数。
定义得分函数后,三元组S=(h,r,t)的链接预测任务预测值概率可表示为:
Figure BDA0003992845540000123
根据对每个基于预设关系类型的三元组中的尾部实体计算链接预测任务预测值概率,并对预测值概率进行排序,从而确定缺失的目标三元组中尾部实体。
通过使用交叉熵损失函数训练预设任务的模型,从而得到链路预测模型,其中链路预测模型的损失函数定义为:
Figure BDA0003992845540000124
其中,T是真实三元组和损坏三元组的总集合,T'是由损坏正确三元组生成的错误三元组的集合,
Figure BDA0003992845540000125
为指示符,对于正三元组设置为/>
Figure BDA0003992845540000126
对于负三元组设置为/>
Figure BDA0003992845540000127
根据对损失函数值的计算,当损失函数值满足预设阈值则得到链路预测模型,从而通过对目标威胁知识图谱中尾部实体缺失的目标三元组进行链路预测,得到缺失的目标三元组中尾部实体。
本申请实施例还提供了另一种威胁情报知识图谱处理方法的可能实现方式。预设任务的处理模型为:实体分类模型,采用预设任务的处理模型,对目标威胁知识图谱进行处理,得到预设任务的处理结果,包括:
采用实体分类模型,对目标威胁知识图谱中属性缺失的目标实体进行实体属性的分类,得到目标实体的属性。
在本实施例中,根据实体分类任务对实体分类模型进行训练,采用两层多模态图注意网络架构,在最后一层的输出上对每个节点使用归一化指数(softmax)函数进行激活,通过使用交叉熵损失函数训练预设任务的模型,从而得到实体分类模型,其中实体分类模型的损失函数定义为:
Figure BDA0003992845540000131
其中,Y是标签的节点索引集,
Figure BDA0003992845540000132
是第i个带标签节点的网络输出的第k个条目,tik表示其各自的基础真值标签,根据对损失函数值的计算,当损失函数值满足预设阈值则得到实体分类模型,从而通过实体分类模型对目标威胁知识图谱中属性缺失的目标实体进行实体属性的分类,得到目标实体的属性。
本申请实施例还对威胁情报知识图谱处理方法提供一种完整的示例,图3为本申请实施例提供的一种威情报知识图谱处理方法的示意图。如图3所述,还方法包括:
给定一个威胁情报知识图谱,包括一个头实体和4个尾实体,一个头实体和4个尾实体分别有4种对应的关系,采用多头注意力机制通过模型中的多头注意层,对威胁情报知识图谱中的4种关系特征进行聚合处理,分别得到威胁情报知识图谱中的关系1-4的注意力权重,采用图注意力网络中的节点注意层,对威胁情报知识图谱进行节点语义信息的聚合处理,得到威胁情报知识图谱中头实体基于关系1-4的聚合邻居特征,采用图注意力网络中的融合模块,将基于关系1-4的注意力权重和头实体基于关系1-4的聚合邻居特征进行拼接融合处理,得到头实体的目标特征,最后采用图注意力网络中的嵌入模块,将头实体的目标特征嵌入至威胁情报知识图谱中。
如下继续对执行本申请上述任一实施例提供的威胁情报知识图谱处理装置、计算机设备进行相应的解释,其具体的实现过程以及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。
图4为本申请实施例提供的一种威胁情报知识图谱处理装置的功能模块示意图。如图4所示,该威胁情报知识图谱处理装置100包括:
处理模块110,用于采用预设的图注意力网络中的多头注意层,对初始威胁情报知识图谱进行关系特征的聚合处理,得到初始威胁情报知识图谱中的多个预设关系类型的注意力权重;
处理模块110,还用于采用图注意力网络中的节点注意层,对初始威胁情报知识图谱进行节点语义信息的聚合处理,得到初始威胁情报知识图谱中各个节点基于多个预设关系类型的聚合邻居特征;
融合模块120,用于采用图注意力网络中的融合模块,基于多个预设关系类型的注意力权重对各个节点基于多个预设关系类型的聚合邻居特征进行拼接融合处理,得到各个节点的目标特征;
嵌入模块130,用于采用图注意力网络中的嵌入模块,将各个节点的目标特征嵌入至初始威胁情报知识图谱中,得到目标威胁情报知识图谱。
在可选的实施方式中,处理模块110,还用于采用节点注意层,基于各个节点在每个预设关系类型下的邻居权重以及各个节点在每个预设关系类型下的所有邻居节点,计算各个节点在每个预设关系类型的融合邻居特征。
在可选的实施方式中,该威胁情报知识图谱处理装置100还包括:
归一化模块,用于采用节点注意层,对基于各个节点在每个预设关系类型下的所有邻居节点的注意力权重进行归一化,得到各个节点在每个预设关系类型下的邻居权重。
在可选的实施方式中,处理模块110,还用于采用预设任务的处理模型,对目标威胁知识图谱进行处理,得到预设任务的处理结果。
在可选的实施方式中,该威胁情报知识图谱处理装置100还包括:
构建模块,用于根据多个安全网站的威胁报告,构建威胁情报数据集;威胁情报数据集包括:多个样本初始威胁情报知识图谱;
处理模块110,还用于采用图注意力网络,分别对多个样本初始威胁情报知识图谱进行嵌入处理,得到多个样本目标威胁知识图谱;
训练模块,用于根据样本目标威胁知识图谱,进行预设任务的模型训练,得到预设任务的处理模型。
在可选的实施方式中,处理模块110,还用于采用链路预测模型,对目标威胁知识图谱中尾部实体缺失的目标三元组进行链路预测,得到缺失的目标三元组中尾部实体。
在可选的实施方式中,处理模块110,还用于采用实体分类模型,对目标威胁知识图谱中属性缺失的目标实体进行实体属性的分类,得到目标实体的属性。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图5为本申请实施例提供的一种计算机设备的示意图,该计算机设备可用于威胁情报知识图谱处理。如图5所示,该计算机设备200包括:处理器210、存储介质220、总线230。
存储介质220存储有处理器210可执行的机器可读指令,当计算机设备运行时,处理器210与存储介质220之间通过总线230通信,处理器210执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种存储介质220,存储介质220上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种威胁情报知识图谱处理方法,其特征在于,包括:
采用预设的图注意力网络中的多头注意层,对初始威胁情报知识图谱进行关系特征的聚合处理,得到所述初始威胁情报知识图谱中的多个预设关系类型的注意力权重;
采用所述图注意力网络中的节点注意层,对所述初始威胁情报知识图谱进行节点语义信息的聚合处理,得到所述初始威胁情报知识图谱中各个节点基于所述多个预设关系类型的聚合邻居特征;
采用所述图注意力网络中的融合模块,基于所述多个预设关系类型的注意力权重对所述各个节点基于所述多个预设关系类型的聚合邻居特征进行拼接融合处理,得到所述各个节点的目标特征;
采用所述图注意力网络中的嵌入模块,将所述各个节点的目标特征嵌入至所述初始威胁情报知识图谱中,得到目标威胁情报知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述采用所述图注意力网络中的节点注意层,对所述初始威胁情报知识图谱进行节点语义信息的聚合处理,得到所述初始威胁情报知识图谱中各个节点基于所述多个预设关系类型的聚合邻居特征,包括:
采用所述节点注意层,基于所述各个节点在每个预设关系类型下的邻居权重以及所述各个节点在所述每个预设关系类型下的所有邻居节点,计算所述各个节点在所述每个预设关系类型的融合邻居特征。
3.根据权利要求2所述的方法,其特征在于,所述采用所述节点注意层,基于所述各个节点在每个预设关系类型下的邻居权重以及所述各个节点在所述每个预设关系类型下的所有邻居节点,计算所述各个节点在所述每个预设关系类型的融合邻居特征之前,所述方法还包括:
采用所述节点注意层,对所述基于所述各个节点在所述每个预设关系类型下的所述所有邻居节点的注意力权重进行归一化,得到所述各个节点在所述每个预设关系类型下的邻居权重。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用预设任务的处理模型,对所述目标威胁知识图谱进行处理,得到所述预设任务的处理结果。
5.根据权利要求4所述的方法,其特征在于,所述采用预设任务的处理模型,对所述目标威胁知识图谱进行处理,得到所述预设任务的处理结果之前,所述方法还包括:
根据多个安全网站的威胁报告,构建威胁情报数据集;所述威胁情报数据集包括:多个样本初始威胁情报知识图谱;
采用所述图注意力网络,分别对所述多个样本初始威胁情报知识图谱进行嵌入处理,得到多个样本目标威胁知识图谱;
根据所述样本目标威胁知识图谱,进行所述预设任务的模型训练,得到所述预设任务的处理模型。
6.根据权利要求4所述的方法,其特征在于,所述预设任务的处理模型为:链路预测模型,所述采用预设任务的处理模型,对所述目标威胁知识图谱进行处理,得到所述预设任务的处理结果,包括:
采用所述链路预测模型,对所述目标威胁知识图谱中尾部实体缺失的目标三元组进行链路预测,得到所述缺失的目标三元组中所述尾部实体。
7.根据权利要求4所述的方法,其特征在于,所述预设任务的处理模型为:实体分类模型,所述采用预设任务的处理模型,对所述目标威胁知识图谱进行处理,得到所述预设任务的处理结果,包括:
采用所述实体分类模型,对所述目标威胁知识图谱中属性缺失的目标实体进行实体属性的分类,得到所述目标实体的属性。
8.一种威胁情报知识图谱处理装置,其特征在于,包括:
处理模块,用于采用预设的图注意力网络中的多头注意层,对初始威胁情报知识图谱进行关系特征的聚合处理,得到所述初始威胁情报知识图谱中的多个预设关系类型的注意力权重;
所述处理模块,还用于采用所述图注意力网络中的节点注意层,对所述初始威胁情报知识图谱进行节点语义信息的聚合处理,得到所述初始威胁情报知识图谱中各个节点基于所述多个预设关系类型的聚合邻居特征;
融合模块,用于采用所述图注意力网络中的融合模块,基于所述多个预设关系类型的注意力权重对所述各个节点基于所述多个预设关系类型的聚合邻居特征进行拼接融合处理,得到所述各个节点的目标特征;嵌入模块,用于采用所述图注意力网络中的嵌入模块,将所述各个节点的目标特征嵌入至所述初始威胁情报知识图谱中,得到目标威胁情报知识图谱。
9.一种计算机设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行如权利要求1至7任一所述的威胁情报知识图谱处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的威胁情报知识图谱处理方法的步骤。
CN202211596007.5A 2022-12-12 2022-12-12 威胁情报知识图谱处理方法、装置、设备及存储介质 Pending CN116150392A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211596007.5A CN116150392A (zh) 2022-12-12 2022-12-12 威胁情报知识图谱处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211596007.5A CN116150392A (zh) 2022-12-12 2022-12-12 威胁情报知识图谱处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116150392A true CN116150392A (zh) 2023-05-23

Family

ID=86357397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211596007.5A Pending CN116150392A (zh) 2022-12-12 2022-12-12 威胁情报知识图谱处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116150392A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597358A (zh) * 2020-07-22 2020-08-28 中国人民解放军国防科技大学 基于关系注意力的知识图谱推理方法、装置和计算机设备
CN112528037A (zh) * 2020-12-04 2021-03-19 北京百度网讯科技有限公司 基于知识图谱的边关系预测方法、装置、设备及存储介质
CN114048328A (zh) * 2021-11-22 2022-02-15 齐鲁工业大学 基于转换假设和消息传递的知识图谱链接预测方法及系统
CN114443858A (zh) * 2022-01-20 2022-05-06 电子科技大学(深圳)高等研究院 一种基于图神经网络的多模态知识图谱表示学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597358A (zh) * 2020-07-22 2020-08-28 中国人民解放军国防科技大学 基于关系注意力的知识图谱推理方法、装置和计算机设备
CN112528037A (zh) * 2020-12-04 2021-03-19 北京百度网讯科技有限公司 基于知识图谱的边关系预测方法、装置、设备及存储介质
CN114048328A (zh) * 2021-11-22 2022-02-15 齐鲁工业大学 基于转换假设和消息传递的知识图谱链接预测方法及系统
CN114443858A (zh) * 2022-01-20 2022-05-06 电子科技大学(深圳)高等研究院 一种基于图神经网络的多模态知识图谱表示学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PETAR VELICKOVIC 等: "Graph Attention Networks", ARXIV, pages 1 - 12 *
ZHIFEI LI 等: "Learning Knowledge Graph Embedding With Heterogeneous Relation Attention Networks", IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, pages 1 - 13 *
中国计算机学会: "CCF2020-中国计算机学会文集2021中国计算机科学技术发展报告", 31 October 2021, 机械工业出版社, pages: 361 *
冶忠林: "基于高阶编码的复杂网络链路预测", 30 June 2022, 北京邮电大学出版社, pages: 163 - 164 *

Similar Documents

Publication Publication Date Title
Goodfellow et al. Making machine learning robust against adversarial inputs
CN113536383B (zh) 基于隐私保护训练图神经网络的方法及装置
WO2019175880A1 (en) Method and system for classifying data objects based on their network footprint
CN113961759B (zh) 基于属性图表示学习的异常检测方法
CN110414581B (zh) 图片检测方法和装置、存储介质及电子装置
CN116310667B (zh) 联合对比损失和重建损失的自监督视觉表征学习方法
Zhou et al. Disentangled network alignment with matching explainability
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN116340793A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN115062779A (zh) 基于动态知识图谱的事件预测方法及装置
CN114418189A (zh) 水质等级预测方法、系统、终端设备及存储介质
Makridis et al. XAI enhancing cyber defence against adversarial attacks in industrial applications
Cai et al. Variational autoencoder for classification and regression for out-of-distribution detection in learning-enabled cyber-physical systems
CN115114329A (zh) 数据流异常检测的方法、装置、电子设备和存储介质
CN113591892A (zh) 一种训练数据的处理方法及装置
CN116909788A (zh) 一种任务导向和视角不变的多模态故障诊断方法及系统
CN116150392A (zh) 威胁情报知识图谱处理方法、装置、设备及存储介质
CN115622793A (zh) 一种攻击类型识别方法、装置、电子设备及存储介质
CN115758337A (zh) 基于时序图卷积网络的后门实时监测方法、电子设备、介质
Zhang et al. Can Transformer and GNN Help Each Other?
CN113298265B (zh) 一种基于深度学习的异构传感器潜在相关性学习方法
CN112950222A (zh) 资源处理异常检测方法、装置、电子设备及存储介质
CN116708313B (zh) 流量检测方法、流量检测装置、存储介质和电子设备
CN111813887B (zh) 基于人工智能的现金流数据分析方法、装置、设备及介质
CN118018260A (zh) 网络攻击的检测方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination