CN117807245A - 网络资产图谱中节点特征提取方法及相似节点搜索方法 - Google Patents
网络资产图谱中节点特征提取方法及相似节点搜索方法 Download PDFInfo
- Publication number
- CN117807245A CN117807245A CN202311829927.1A CN202311829927A CN117807245A CN 117807245 A CN117807245 A CN 117807245A CN 202311829927 A CN202311829927 A CN 202311829927A CN 117807245 A CN117807245 A CN 117807245A
- Authority
- CN
- China
- Prior art keywords
- node
- vector
- target
- map
- network asset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000000605 extraction Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 244
- 238000003062 neural network model Methods 0.000 claims abstract description 79
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 238000010586 diagram Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 241000475481 Nebula Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据分析领域,公开了一种网络资产图谱中节点特征提取方法及装置、网络资产图谱中相似节点搜索方法及装置、电子设备及计算机可读存储介质。节点特征提取方法,包括:获取网络资产图谱中每个节点的结构向量和内容向量;根据每个节点的结构向量和所述内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将多个目标特征元素进行融合,得到每个节点的融合特征向量;根据目标图神经网络模型和融合特征向量,获取每个节点的节点图嵌入向量。与现有技术相比,本申请实施例所提供的技术方案能够从多个方面提取网络资产图谱中的节点特征,提升相似节点搜索结果的准确度的优点。
Description
技术领域
本发明涉及数据分析领域,具体而言,涉及一种网络资产图谱中节点特征提取方法及装置、网络资产图谱中相似节点搜索方法及装置、电子设备及计算机可读存储介质。
背景技术
网络资产是指组成网络的基础设施和网络环境的各种实体和资源。它们是组成网络的各种设备、系统、应用程序、数据和信息等。
网络资产图谱是指对网络中的各种资产进行分类、关联和分析的一种图谱结构。它通过图形化的方式呈现网络资产的拓扑结构、属性信息和关联关系,帮助安全团队更好地理解和管理网络资产,提高网络安全的可视化和智能化水平。在网络安全领域,网络资产图谱是一种将网络资产及其相关信息进行结构化和关联的图谱模型,其由大量节点和连接节点的边结构组成,它可以帮助组织全面了解和管理网络资产,提高网络安全的效果和效率。通过收集和分析内网中的网络流量、日志、等信息,自动发现和识别内网中的资产,并将其添加到网络资产图谱中。同时通过与其他节点的关联,可以更好地理解和分析网络资产之间的关系,帮助安全团队更好地进行威胁检测、漏洞管理和安全防护等工作。
对网络资产图谱进行处理和分析的过程离不开对节点的分析过程,而对节点的分析过程离不开节点的特征提取过程。然而,现有技术中提取的节点特征较为片面,导致后续根据节点特征进行网络资产图谱分析,如相似节点的搜索的结果准确率较低。
发明内容
本发明的目的在于提供一种网络资产图谱中节点特征提取方法及装置、网络资产图谱中相似节点搜索方法及装置、电子设备及计算机可读存储介质,能够从多个方面提取网络资产图谱中的节点特征,提升相似节点搜索结果的准确度。
第一方面,本申请实施例提供了一种网络资产图谱中节点特征提取方法,包括:获取网络资产图谱中每个节点的结构向量和内容向量,所述节点用于表征网络资产;根据每个节点的所述结构向量和内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将所述多个目标特征元素进行融合,得到每个所述节点的融合特征向量;根据目标图神经网络模型和所述融合特征向量,获取每个所述节点的节点图嵌入向量。
与现有技术相比,本申请实施例所提供的网络资产图谱中节点特征提取方法中,对网络资产图谱中每个节点的结构向量和内容向量分别进行提取,然后根据目标注意力神经网络模型从每个节点的结构向量和内容向量中选择多个目标特征元素,并将多个目标特征元素进行融合,得到该节点的融合特征向量,并根据目标图神经网络模型和融合特征向量,获取每个节点的节点图嵌入向量,将注意力神经网络模型和图神经网络模型结合使用,综合关注网络资产图谱中各个节点的结构向量和内容向量,注意力神经网络模型可以根据实际需要灵活的为结构向量和内容向量分配权重,图神经网络模型可以充分利用图谱数据中的结构信息和内容信息,即从多个方面提取网络资产图谱中的节点特征。
在可选的实施例中,所述根据每个节点的所述结构向量和内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将所述多个目标特征元素进行融合,包括:对于任一所述节点,计算所述节点的所述结构向量和所述内容向量的和向量,将所述和向量输入所述目标注意力神经网络模型;通过所述目标注意力神经网络模型分别求取所述和向量中各个特征元素的元素得分,并根据所述元素得分,选择所述多个目标特征元素;将所述多个目标特征元素进行拼接,得到所述节点的所述融合特征向量。
在可选的实施例中,对所述目标注意力神经网络模型和目标图神经网络模型进行模型训练,包括:获取样本网络资产图谱,所述样本网络资产图谱包括多个样本节点,每个所述样本节点用于表征相应的样本网络资产;获取所述样本网络资产图谱中每个所述样本节点的样本结构向量和样本内容向量;根据所述样本结构向量和样本内容向量,通过初始注意力神经网络模型选择多个目标样本元素,并对所述多个目标样本元素进行融合,得到每个所述样本节点的样本融合特征向量;对于任意两个所述样本节点,根据两个所述样本节点的两个所述样本融合特征向量,通过初始图神经网络模型获取两个所述样本节点之间直接连接的可能性得分;根据所述可能性得分,对所述初始注意力神经网络模型和初始图神经网络模型进行模型训练,得到所述目标注意力神经网络模型和目标图神经网络模型。
在可选的实施例中,所述获取网络资产图谱中每个节点的结构向量,包括:对于所述网络资产图谱中的任一目标节点,获取所述目标节点的K跳子图数据,根据目标自编码模型和所述K跳子图数据获取所述目标节点的结构向量,其中,K为正整数。
在可选的实施例中,获取网络资产图谱中每个节点的内容向量,包括:对于所述网络资产图谱中的任一目标节点,遍历与所述目标节点连接的全部边结构,获取所述目标节点连接的目标资源数据,所述边结构用于表征两个所述节点之间的连接关系,所述目标资源数据为通过所述边结构与所述目标节点连接的其它节点的参数数据;根据所述目标资源数据获取所述目标节点的内容向量。
在可选的实施例中,所述目标节点为内网IP资产节点;所述获取所述目标节点连接的目标资源数据,包括:获取所述内网IP资产节点连接的端口信息数据,所述端口信息数据包括与所述内网IP资产节点连接的端口的种类和数量。内网IP资产由内网的使用者进行随机分配,与外网IP资产相比不具有归属地等显著特征,在内网资产图谱中,统计内网IP资产节点所连接的端口的种类及数量作为内网IP资产节点的特征,解决了内网IP资产的特征提取问题。
第二方面,本申请实施例提供了一种网络资产图谱中相似节点搜索方法,包括:根据如前述的网络资产图谱中节点特征提取方法获取网络资产图谱中每个节点的节点图嵌入向量;获取检索节点的检索节点图嵌入向量,计算所述网络资产图谱中各个节点的所述节点图嵌入向量与所述检索节点图嵌入向量的向量相似度,节点图嵌入向量获取所述向量相似度满足预设检索条件的节点作为所述检索节点的相似节点。
与现有技术相比,本申请实施例所提供的网络资产图谱中相似节点搜索方法中,通过如前述的网络资产图谱中节点特征提取方法获取网络资产图谱中每个节点的节点图嵌入向量,因此本申请实施例中提取的节点图嵌入向量为从多个方面提取的节点特征,使用该节点图嵌入向量进行相似节点搜索可以有效的提升搜索结果的准确度。
第三方面,本申请实施例提供了一种网络资产图谱中节点特征提取装置,包括:向量获取模块,所述向量获取模块用于获取网络资产图谱中每个节点的结构向量和内容向量;向量融合模块,所述向量融合模块用于根据每个节点的所述结构向量和内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将所述多个目标特征元素进行融合,得到每个所述节点的融合特征向量;特征确定模块,所述特征确定模块用于根据目标图神经网络模型和所述融合特征向量,获取每个所述节点的节点图嵌入向量。
第四方面,本申请实施例提供了一种网络资产图谱中相似节点搜索装置,包括:特征向量获取模块,所述特征向量获取模块用于根据如前述的网络资产图谱中节点特征提取方法获取网络资产图谱中每个节点的节点图嵌入向量;检索模块,所述检索模块用于获取检索节点的检索节点图嵌入向量,计算所述网络资产图谱中各个节点的所述节点图嵌入向量与所述检索节点图嵌入向量的向量相似度,节点图嵌入向量获取所述向量相似度满足预设检索条件的节点作为所述检索节点的相似节点。
第五方面,本申请实施例提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述的网络资产图谱中节点特征提取方法或如前述的网络资产图谱中相似节点搜索方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行实现如前述的网络资产图谱中节点特征提取方法或如前述的网络资产图谱中相似节点搜索方法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一提供的网络资产图谱中节点特征提取方法的流程示意图;
图2为本申请一种实施例所提供的网络资产图谱的示意图;
图3为本申请实施例二提供的网络资产图谱中相似节点搜索方法的流程示意图;
图4为本申请一种实施例中检索节点和目标节点的示意图;
图5为本申请实施例三提供的网络资产图谱中节点特征提取装置的结构示意图;
图6为本申请一种实施例所提供的网络资产图谱中节点特征提取装置的结构示意图;
图7为本申请实施例四提供的网络资产图谱中相似节点搜索装置的结构示意图;
图8为本申请实施例五提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
本发明实施例一提供了一种网络资产图谱中节点特征提取方法,如图1所示,包括:
步骤S101:获取网络资产图谱中每个节点的结构向量和内容向量。
步骤S102:根据每个节点的结构向量和内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将多个目标特征元素进行融合,得到每个节点的融合特征向量。
步骤S103:根据目标图神经网络模型和融合特征向量,获取每个节点的节点图嵌入向量。
与现有技术相比,本申请实施例一所提供的网络资产图谱中节点特征提取方法中,对网络资产图谱中每个节点的结构向量和内容向量分别进行提取,然后从每个节点的结构向量和内容向量中选择多个目标特征元素,并将多个目标特征元素进行融合,得到该节点的融合特征向量,并根据目标图神经网络模型和融合特征向量,获取每个节点的节点图嵌入向量,将注意力神经网络模型和图神经网络模型结合使用,综合关注网络资产图谱中各个节点的结构向量和内容向量,注意力神经网络模型可以根据实际需要灵活的为结构向量和内容向量分配权重,自动化得选择对于任务最重要的目标特征元素,减少特征选择的主观性和局限性,图神经网络模型可以充分利用图谱数据中其他节点的结构信息和内容信息,即从多个方面提取网络资产图谱中的节点特征。
在步骤S101中,如图2所示,网络资产图谱是指通过网络安全工具和技术收集到的关于网络资产的信息,并以图形的形式进行可视化展示和分析。这些图数据可以帮助安全团队更好地理解和管理网络资产,识别潜在的安全风险和威胁。通常图数据存储在NebulaGraph或Neo4j图数据库中,图数据库中导出的图数据以json格式存储。每条json数据包含头节点、尾节点。例如:
在步骤S101中,网络资产图谱中包括多个节点和连接多个节点的边结构。其中,节点用于表征网络资产,例如节点可以表征一个IP地址、一个具体的网络端口等网络资产,边结构用于表征各个节点之间的连接关系。获取网络资产图谱中每个节点的结构向量具体可以包括:对于网络资产图谱中的任一目标节点,获取目标节点的K跳子图数据,根据目标自编码模型和K跳子图数据获取目标节点的结构向量,其中,K为正整数。
具体的,在本申请的一些实施例中,可以分别对每个节点的结构向量进行提取,在对任一节点的结构向量进行提取时,该节点即为目标节点,获取该节点的K跳子图数据。节点的K跳子图数据是指通过K跳算法(k-hop)从起点出发,通过宽度优先搜索(Breadth-First Search,BFS),找出K层与之关联的所有节点,找到的子图即为K跳子图数据,又称之为目标节点的“ego-net”。其中,K为正整数,其具体可以根据实际需要进行灵活的设置。
获取K跳子图数据后,对于每一个目标节点及其对应的K跳子图数据,可以以字典数据结构进行存储,例如可以存储为{‘A’:{‘port’:10,‘domain’:5,‘ip’:6}},其中A为目标节点,‘port’:10代表与目标节点A相连接的端口(port)数量为10,‘domain’:5代编与目标节点A相连的域名(domain)数量为5,‘ip’:6代表与目标节点A相连接的ip数量为6。
然后将目标节点A的K跳子图数据输入到训练完成的自编码模型,利用训练完成的自编码模型,以目标节点的K跳子图数据作为模型输入,得到目标节点的结构向量。在本申请的实施例中,结构向量为多维向量,包括多个结构元素,每个结构元素表征目标节点A的一个结构特征。例如前述的结构向量{‘A’:{‘port’:10,‘domain’:5,‘ip’:6}}中,‘port’:10、‘domain’:5、‘ip’:6分别为结构向量的特征元素,即结构元素。
在步骤S101中,获取网络资产图谱中每个节点的内容向量具体可以包括:对于网络资产图谱中的任一目标节点,遍历与目标节点连接的全部边结构,获取目标节点连接的目标资源数据,根据目标资源数据获取目标节点的内容向量。其中,目标资源数据为预先设置的需要进行内容向量提取的目标资源的相关数据。在不同的应用场景下,目标资源可以根据网络资产图谱的网络资产类型、内容向量提取的相关需要等实际情况进行灵活的设置,在步骤S101中即获取目标资源的相关数据。
在本实施例中,以目标节点为内网IP资产节点为例进行举例说明,当目标节点为内网IP资产节点时,目标资源例如可以设置为端口信息资源;则此时获取目标节点连接的目标资源数据即为:获取内网IP资产节点连接的端口信息数据,端口信息数据包括与内网IP资产节点连接的端口的种类和数量。内网IP资产由内网的使用者进行随机分配,与外网IP资产相比不具有归属地等显著特征,在内网资产图谱中,统计内网IP资产节点所连接的端口的种类及数量作为内网IP资产节点的特征,解决了内网IP资产的特征提取问题。
在获取目标资源数据后,可以将目标资源数据以字典数据结构存储。以目标节点为内网IP资产节点时,目标资源为端口信息资源为例,则可以存储为{‘10.252.19.10’:[‘80’,‘135’,‘1136’,‘443’,‘443’]},其中10.252.19.10代表目标IP节点,[‘80’,‘135’,‘1136’,‘443’,‘443’]代表与IP节点相连接的端口名称列表。为了避免IP资产连接大量同一端口导致特征异常的现象,需要统计每类端口出现数量的统计值。结果以字典数据结构存储,例如{‘10.252.19.10’:{‘80’:1,‘135’:1,‘1136’:1,‘443’:2}},其中’80’:1代表连接了1个’80’端口,‘443’:2代表连接了2个’443’端口。在本申请的实施例中,内容向量为多维向量,包括多个内容元素,每个内容元素表征目标节点A的一个内容特征。例如前述的内容向量{‘10.252.19.10’:[‘80’,‘135’,‘1136’,‘443’,‘443’]}中,‘80’、‘135’、‘1136’、‘443’、‘443’分别为内容向量的特征元素,即内容元素。
对目标资源数据,可以使用MurmurHash3算法将输入数据转换为哈希值作为目标节点的内容向量,或者是使用神经网络、数据降维等方法获得目标节点的内容向量。这样可以将复杂的输入数据映射到固定长度的特征空间中,方便进行特征匹配、聚类、分类等任务。
可以理解的是,前述仅为本申请一些实施例中获取网络资产图谱中每个节点的结构向量和内容向量的具体方法的举例说明,并不构成限定,在本申请的一些其它的实施例中,也可以是其它方法获取每个节点的结构向量和内容向量,具体可以根据实际需要进行灵活的使用。
在步骤S102中,根据每个节点的结构向量和内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将多个目标特征元素进行融合,具体可以为:对于任一节点,计算节点的结构向量和内容向量的和向量,将和向量输入目标注意力神经网络模型;通过目标注意力神经网络模型分别求取和向量中各个特征元素的元素得分,并根据元素得分,选择多个目标特征元素;将多个目标特征元素进行拼接,得到节点的融合特征向量。
目标注意力神经网络模型为训练完成的注意力神经网络模型。具体训练方式参见下文。在预测阶段,以目标节点的结构向量为Xs,内容向量为Xc为例,在计算结构向量Xs和内容向量Xc的和向量前,还可以通过神经网络模型的全连接层对结构向量为Xs,内容向量为Xc进行特征增强,增强后的结构向量为增强后的内容向量为/>其中,Wc和Ws为神经网络模型的全连接层产生的增强向量。然后计算增强后的结构向量和增强后的内容向量的和向量/>将和向量Xm输入目标注意力神经网络模型中,目标注意力神经网络模型即可分别求取和向量中各个特征元素的元素得分,并根据元素得分,选择元素得分大于阈值的多个目标特征元素;将多个目标特征元素进行拼接,得到节点的融合特征向量。
具体计算过程包括:Q=WqXm;K=WkXm;V=WvXm;A=KTQ;A′=softmax(A);Y=VA′。
其中,Q、Wq、K、Wk、V、Wv、A、T为目标注意力神经网络模型产生的中间值;A′为和向量中每个特征元素的重要度分数。基于重要性分数,从和向量中选择的特征元素可以称为目标特征元素。选择的多个目标特征元素拼接在一起,称为融合特征向量。
可以理解的是,前述将和向量输入注意力神经网络模型仅为本申请一些实施例中将结构向量和内容向量输入注意力神经网络模型的一种具体方法的举例说明,在本申请的一些实施例中,也可以是分别将结构向量和内容向量输入注意力神经网络模型。目标注意力神经网络模型即可自动为结构向量的各个结构元素和内容向量的各个内容元素进行重要度分数计算,重要度分数即为结构向量和内容向量的权重值,即分别求取各个结构元素的结构元素得分和各个内容元素的内容元素得分,最后根据结构元素得分和内容元素得分选择多个目标结构元素和多个目标内容元素,多个目标结构元素和多个目标内容元素共同组成多个目标特征元素,将多个目标特征元素融合即得到目标节点的融合特征向量。其中,根据结构元素得分和内容元素得分选择多个目标结构元素和多个目标内容元素具体可以根据所需要的目标结构元素和目标内容元素的需求数量选择结构元素得分和内容元素得分较大的需求数量个结构元素和内容元素作为目标结构元素和目标内容元素,也可以是选择得分大于得分阈值的结构元素和内容元素作为目标结构元素和目标内容元素。
其中,计算每个结构元素的结构元素得分具体可以为对每个结构元素进行单独计算,得到每个结构元素的结构元素得分,也可以是多个结构元素结合作为一个整体进行计算,得到整体的结构元素得分,整体的结构元素得分即为整体中各个结构元素的结构元素得分,或者是将单个结构元素计算和多个元素结合计算混合使用,具体可以根据实际需要进行使用。
在步骤S103中,目标图神经网络模型为训练完成的图神经网络模型,目标注意力神经网络模型和目标图神经网络模型具体训练过程包括:获取样本网络资产图谱,样本网络资产图谱包括多个样本节点,每个样本节点用于表征相应的样本网络资产;获取样本网络资产图谱中每个样本节点的样本结构向量和样本内容向量;根据样本结构向量和样本内容向量,通过初始注意力神经网络模型选择多个目标样本元素,并对多个目标样本元素进行融合,得到每个样本节点的样本融合特征向量;对于任意两个样本节点,根据两个样本节点的两个样本融合特征向量,通过初始图神经网络模型获取两个样本节点之间直接连接的可能性得分;根据可能性得分,对初始注意力神经网络模型和初始图神经网络模型进行模型训练,得到目标注意力神经网络模型和目标图神经网络模型。
具体的,可以采用如前述的方法通过初始注意力神经网络模型获取样本网络资产图谱中各个样本节点的样本融合特征向量,然后将全部样本节点的样本融合特征向量输入初始图神经网络模型中进行模型训练。在训练过程中,可以以任一样本节点作为训练样本节点,将与训练样本节点直接连接的邻居节点作为正样本,其它样本节点作为负样本。对于任意两个样本节点u,v,其对应的样本融合特征向量表示为hu和hv,初始图神经网络模型计算它们之间存在链接可能性的得分yu,v=φ(hu,hv),比对两个相连接节点之间的得分与任意一对节点之间的得分的差异。例如,给定一条连接u和v的边结构,一个好的模型希望u和v之间的得分要高于u和从一个任意的噪声分布v′~Pn(v)中所采样的节点v′之间的得分。使用交叉熵损失:
使用预测两个节点之间是否存在边结构连接作为无监督训练的任务目标,经过训练获得目标注意力神经网络模型和目标图神经网络模型。
本申请实施例二提供了一种网络资产图谱中相似节点搜索方法,请参照图3、图4,图3为本申请实施例二所提供的网络资产图谱中相似节点搜索方法的流程示意图,图4所示为本申请一种实施例中检索节点和目标节点的示意图,如图4所示,在网络资产图谱中搜索检索节点a的相似节点,可以获得相似节点b和相似节点c,相似节点b和相似节点c与节点a具有相似的结构特征和端口信息。
如图3所示网络资产图谱中相似节点搜索方法包括:
步骤S201:获取网络资产图谱中每个节点的节点图嵌入向量。
在本步骤中,可以采用如前述实施例所提供的网络资产图谱中节点特征提取方法获取网络资产图谱中每个节点的节点图嵌入向量,具体节点图嵌入向量获取过程可以参照前述实施例中的具体说明。
步骤S202:获取检索节点的检索节点图嵌入向量,根据检索节点图嵌入向量获取目标节点。
在本步骤中,目标节点为节点图嵌入向量与检索节点图嵌入向量的向量相似度满足预设检索条件的节点。具体的,检索节点为进行相似节点检索的源节点,检索得到的目标节点即为与检索节点相似的节点,具体可以通过遍历计算网络资产图谱中每个节点的节点图嵌入向量与检索节点图嵌入向量的向量相似度,向量相似度例如可以为欧氏距离、余弦相似度等,然后选择向量相似度满足预设检索条件的节点作为目标节点。例如可以选择向量相似度大于某一预设阈值的节点作为目标节点,或者是选择向量相似度最大的若干个节点作为目标节点等,具体可以根据实际需要进行灵活的设置。
在本申请的一些实施例中,可以使用Faiss框架构建索引结构,并根据网络资产图谱的数据规模和搜索需求选择适合的索引类型。在进行检索时将检索节点的检索节点图嵌入向量添加到索引中,索引结构即可使用Faiss框架提供的相似性搜索算法,通过计算查询节点的向量与索引中节点向量的相似度,找到目标节点。
与现有技术相比,本申请实施例二所提供的网络资产图谱中相似节点搜索方法中,通过如前述的网络资产图谱中节点特征提取方法获取网络资产图谱中每个节点的节点图嵌入向量,因此本申请实施例中提取的节点图嵌入向量为从多个方面提取的节点特征,使用该节点图嵌入向量进行相似节点搜索可以有效的提升搜索结果的准确度。
本申请实施例三提供了一种网络资产图谱中节点特征提取装置,如图5所示,包括:向量获取模块301,向量获取模块301用于获取网络资产图谱中每个节点的结构向量和内容向量;向量融合模块302,向量融合模块302用于根据每个节点的结构向量和内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将多个目标特征元素进行融合,得到每个节点的融合特征向量;特征确定模块303,特征确定模块303用于根据目标图神经网络模型和融合特征向量,获取每个节点的节点图嵌入向量。
具体的,在本申请的一些实施例中,如图6所示,向量获取模块301例如可以为神经网络模型,向量融合模块302例如可以为目标注意力神经网络模型,特征确定模块303例如可以为目标图神经网络模型。
可以理解的是,本实施例所提供的网络资产图谱中节点特征提取装置为与前述实施例所提供的网络资产图谱中节点特征提取方法相对应的装置的实施例,因此同样具备与前述网络资产图谱中节点特征提取方法相同的技术效果,具体可以参照前述实施例中的具体说明。
本申请实施例四提供了一种网络资产图谱中相似节点搜索装置,如图7所示,包括:特征向量获取模块401,特征向量获取模块401用于根据如前述的网络资产图谱中节点特征提取方法获取网络资产图谱中每个节点的节点图嵌入向量;检索模块402,检索模块402用于获取检索节点的检索节点图嵌入向量,计算网络资产图谱中各个节点的节点图嵌入向量与检索节点图嵌入向量的向量相似度,节点图嵌入向量获取向量相似度满足预设检索条件的节点作为检索节点的相似节点。
可以理解的是,本实施例所提供的网络资产图谱中相似节点搜索装置为与前述实施例所提供的网络资产图谱中相似节点搜索方法相对应的装置的实施例,因此同样具备与前述网络资产图谱中相似节点搜索方法相同的技术效果,具体可以参照前述实施例中的具体说明。
本发明实施例五涉及一种电子设备,如图8所示,包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行上述各实施例中的方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明实施例六涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种网络资产图谱中节点特征提取方法,其特征在于,包括:
获取网络资产图谱中每个节点的结构向量和内容向量,所述节点用于表征网络资产;
根据每个节点的所述结构向量和所述内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将所述多个目标特征元素进行融合,得到每个所述节点的融合特征向量;
根据目标图神经网络模型和所述融合特征向量,获取每个所述节点的节点图嵌入向量。
2.根据权利要求1所述的网络资产图谱中节点特征提取方法,其特征在于,所述根据每个节点的所述结构向量和内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将所述多个目标特征元素进行融合,包括:
对于任一所述节点,计算所述节点的所述结构向量和所述内容向量的和向量,将所述和向量输入所述目标注意力神经网络模型;
通过所述目标注意力神经网络模型分别求取所述和向量中各个特征元素的元素得分,并根据所述元素得分,选择所述多个目标特征元素;
将所述多个目标特征元素进行拼接,得到所述节点的所述融合特征向量。
3.根据权利要求1所述的网络资产图谱中节点特征提取方法,其特征在于,对所述目标注意力神经网络模型和目标图神经网络模型进行模型训练,包括:
获取样本网络资产图谱,所述样本网络资产图谱包括多个样本节点,每个所述样本节点用于表征相应的样本网络资产;
获取所述样本网络资产图谱中每个所述样本节点的样本结构向量和样本内容向量;
根据所述样本结构向量和样本内容向量,通过初始注意力神经网络模型选择多个目标样本元素,并对所述多个目标样本元素进行融合,得到每个所述样本节点的样本融合特征向量;
对于任意两个所述样本节点,根据两个所述样本节点的两个所述样本融合特征向量,通过初始图神经网络模型获取两个所述样本节点之间直接连接的可能性得分;
根据所述可能性得分,对所述初始注意力神经网络模型和初始图神经网络模型进行模型训练,得到所述目标注意力神经网络模型和目标图神经网络模型。
4.根据权利要求1所述的网络资产图谱中节点特征提取方法,其特征在于,所述获取网络资产图谱中每个节点的结构向量,包括:
对于所述网络资产图谱中的任一目标节点,获取所述目标节点的K跳子图数据,根据目标自编码模型和所述K跳子图数据获取所述目标节点的结构向量,其中,K为正整数。
5.根据权利要求1所述的网络资产图谱中节点特征提取方法,其特征在于,获取网络资产图谱中每个节点的内容向量,包括:
对于所述网络资产图谱中的任一目标节点,遍历与所述目标节点连接的全部边结构,获取所述目标节点连接的目标资源数据,所述边结构用于表征两个所述节点之间的连接关系,所述目标资源数据为通过所述边结构与所述目标节点连接的其它节点的参数数据;
根据所述目标资源数据获取所述目标节点的内容向量。
6.根据权利要求5所述的网络资产图谱中节点特征提取方法,其特征在于,所述目标节点为内网IP资产节点;
所述获取所述目标节点连接的目标资源数据,包括:
获取所述内网IP资产节点连接的端口信息数据,所述端口信息数据包括与所述内网IP资产节点连接的端口的种类和数量。
7.一种网络资产图谱中相似节点搜索方法,其特征在于,包括:
根据如权利要求1至6中任一项所述的网络资产图谱中节点特征提取方法获取网络资产图谱中每个节点的节点图嵌入向量;
获取检索节点的检索节点图嵌入向量,计算所述网络资产图谱中各个节点的所述节点图嵌入向量与所述检索节点图嵌入向量的向量相似度,获取所述向量相似度满足预设检索条件的节点作为所述检索节点的相似节点。
8.一种网络资产图谱中节点特征提取装置,其特征在于,包括:
向量获取模块,所述向量获取模块用于获取网络资产图谱中每个节点的结构向量和内容向量,所述节点用于表征网络资产;
向量融合模块,所述向量融合模块用于根据每个节点的所述结构向量和内容向量,通过目标注意力神经网络模型选择多个目标特征元素,并将所述多个目标特征元素进行融合,得到每个所述节点的融合特征向量;
特征确定模块,所述特征确定模块用于根据目标图神经网络模型和所述融合特征向量,获取每个所述节点的节点图嵌入向量。
9.一种网络资产图谱中相似节点搜索装置,其特征在于,包括:
特征向量获取模块,所述特征向量获取模块用于根据如权利要求1至6中任一项所述的网络资产图谱中节点特征提取方法获取网络资产图谱中每个节点的节点图嵌入向量;
检索模块,所述检索模块用于获取检索节点的检索节点图嵌入向量,计算所述网络资产图谱中各个节点的所述节点图嵌入向量与所述检索节点图嵌入向量的向量相似度,节点图嵌入向量获取所述向量相似度满足预设检索条件的节点作为所述检索节点的相似节点。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任意一项所述的网络资产图谱中节点特征提取方法或如权利要求7所述的网络资产图谱中相似节点搜索方法。
11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行实现如权利要求1至6中任意一项所述的网络资产图谱中节点特征提取方法或如权利要求7所述的网络资产图谱中相似节点搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311829927.1A CN117807245A (zh) | 2023-12-27 | 2023-12-27 | 网络资产图谱中节点特征提取方法及相似节点搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311829927.1A CN117807245A (zh) | 2023-12-27 | 2023-12-27 | 网络资产图谱中节点特征提取方法及相似节点搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117807245A true CN117807245A (zh) | 2024-04-02 |
Family
ID=90426356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311829927.1A Pending CN117807245A (zh) | 2023-12-27 | 2023-12-27 | 网络资产图谱中节点特征提取方法及相似节点搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117807245A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117849907A (zh) * | 2024-03-07 | 2024-04-09 | 江苏省气象台 | 基于多源数据的气象灾害靶向预警方法及系统 |
-
2023
- 2023-12-27 CN CN202311829927.1A patent/CN117807245A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117849907A (zh) * | 2024-03-07 | 2024-04-09 | 江苏省气象台 | 基于多源数据的气象灾害靶向预警方法及系统 |
CN117849907B (zh) * | 2024-03-07 | 2024-05-24 | 江苏省气象台 | 基于多源数据的气象灾害靶向预警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210019674A1 (en) | Risk profiling and rating of extended relationships using ontological databases | |
US10725836B2 (en) | Intent-based organisation of APIs | |
US11734233B2 (en) | Method for classifying an unmanaged dataset | |
US9449115B2 (en) | Method, controller, program and data storage system for performing reconciliation processing | |
CN112165462A (zh) | 基于画像的攻击预测方法、装置、电子设备及存储介质 | |
Nasridinov et al. | A decision tree-based classification model for crime prediction | |
CN112149135B (zh) | 一种安全漏洞的评估方法及装置、计算机可读存储介质 | |
CN111355697A (zh) | 僵尸网络域名家族的检测方法、装置、设备及存储介质 | |
CN113609261B (zh) | 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 | |
CN117807245A (zh) | 网络资产图谱中节点特征提取方法及相似节点搜索方法 | |
CN107679035A (zh) | 一种信息意图检测方法、装置、设备和存储介质 | |
CN116756327B (zh) | 基于知识推断的威胁情报关系抽取方法、装置和电子设备 | |
CN107679075A (zh) | 网络监控方法和设备 | |
JP5014479B2 (ja) | 画像検索装置、画像検索方法及びプログラム | |
KR20120047622A (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
Satish et al. | Big data processing with harnessing hadoop-MapReduce for optimizing analytical workloads | |
Das et al. | Generation of overlapping clusters constructing suitable graph for crime report analysis | |
CN116186298A (zh) | 信息检索方法和装置 | |
KR102405799B1 (ko) | 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템 | |
CN114065767B (zh) | 一种威胁情报的分类及演化关系分析方法 | |
CN113572781A (zh) | 网络安全威胁信息归集方法 | |
CN112750047A (zh) | 行为关系信息提取方法及装置、存储介质、电子设备 | |
Mentzingen et al. | Automation of legal precedents retrieval: findings from a rapid literature review | |
Osuna-Galán et al. | Topology: A theory of a pseudometric-based clustering model and its application in content-based image retrieval | |
Ponnusamy et al. | An Optimized Bagging Learning with Ensemble Feature Selection Method for URL Phishing Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |