CN113656797B - 行为特征提取方法以及行为特征提取装置 - Google Patents
行为特征提取方法以及行为特征提取装置 Download PDFInfo
- Publication number
- CN113656797B CN113656797B CN202111212723.4A CN202111212723A CN113656797B CN 113656797 B CN113656797 B CN 113656797B CN 202111212723 A CN202111212723 A CN 202111212723A CN 113656797 B CN113656797 B CN 113656797B
- Authority
- CN
- China
- Prior art keywords
- node
- path
- meta
- feature set
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 28
- 230000002159 abnormal effect Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000006399 behavior Effects 0.000 claims description 73
- 230000015654 memory Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 11
- 230000003542 behavioural effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 description 18
- 230000014509 gene expression Effects 0.000 description 12
- 238000013500 data storage Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000029052 metamorphosis Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种行为特征提取方法以及行为特征提取装置,包括:对内网机的行为日志数据进行异构图数据结构处理,获得目标异构图;基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集;将第一元路径特定节点特征集输入第一注意力模块,获得目标异构图的第一节点表示;将目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量;将第二元路径特定节点特征集输入第二注意力模块,获得目标异构图的第二节点表示;将第一互信息输入正样本鉴别器,并将第二互信息输入负样本鉴别器,获得内网机的行为日志数据对应的人员行为特征。
Description
技术领域
本公开涉及神经网络技术领域,更具体地说,涉及一种行为特征提取方法以及行为特征提取装置。
背景技术
随着信息技术的发展和网络化应用的普遍推广,在局域网络的内网机的管理中容易发生因为人员操作不当造成内部信息泄露的情况。针对局域网络中的相关人员操作内网机的行为日志数据,可以使用图神经网络对这种非欧几里得数据进行特征挖掘,用来分析内网机操作人员的异常操作,能够在一定程度上降低内部信息泄漏的风险。
内网机的日志数据可能包含多种类型,对其使用图结构进行存储时会产生多种类型的节点和边。现有技术中,通过内网机的日志数据进行人员行为特征提取时,所采用的图神经网络多为同构图神经网络,无法有效的利用不同节点间的属性信息以及不同节点通过连接所传递出的语义信息,导致提取出的人员行为特征与实际人员行为特征偏差较大。
发明内容
本公开提供一种行为特征提取方法以及行为特征提取装置,以至少解决上述相关技术中,通过内网机的日志数据进行人员行为特征提取时,所采用的图神经网络多为同构图神经网络,无法有效的利用不同节点间的属性信息以及不同节点通过连接所传递出的语义信息,导致提取出的人员行为特征与实际人员行为特征偏差较大的技术问题。
根据本公开实施例的第一方面,提供一种行为特征提取方法,包括:获取内网机的行为日志数据;对所述内网机的行为日志数据进行异构图数据结构处理,获得目标异构图,所述目标异构图包含多个节点,所述多个节点中每个节点对应有原始特征,所述多个节点中不同类型的节点之间形成第一元路径;基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集,其中,所述第一节点特征集包含所述多个节点中每个节点对应的原始特征,所述第一元路径集包含多个所述第一元路径,所述第一元路径特定节点特征集包含所述多个节点中每个节点对应的第一特定特征;将所述第一元路径特定节点特征集输入第一注意力模块,获得所述目标异构图的第一节点表示;将所述目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量;将所述第一节点特征集以及所述第一元路径集输入负样本生成器,获得第二节点特征集以及第二元路径集;基于所述第二节点特征集以及所述第二元路径集获取第二元路径特定节点特征集,其中,所述第二元路径特定节点特征集包含所述多个节点中每个节点对应的第二特定特征;将所述第二元路径特定节点特征集输入第二注意力模块,获得所述目标异构图的第二节点表示;利用第一训练鉴别器最大化所述目标异构图的第一节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第一互信息;利用第二训练鉴别器最大化所述目标异构图的第二节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第二互信息;将所述第一互信息输入正样本鉴别器,并将所述第二互信息输入负样本鉴别器,获得所述内网机的行为日志数据对应的人员行为特征。
可选地,所述基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集,包括:
通过以下公式获取所述第一元路径特定节点特征集:
其中,为所述第一元路径特定节点特征集中的第i个节点对应的第一特定特征,为第一节点级的编码器,为所述第一节点特征集中第i个节点的原始特征,为所述第一元路径集中第i个第一元路径对应的邻接矩阵,,n为所述多个节点的数量。
可选地,所述将所述第一元路径特定节点特征集输入第一注意力模块,获得所述目标异构图的第一节点表示,包括:
通过以下公式确定所述多个节点中每个节点对应的权重:
基于所述每个节点对应的权重以及所述第一元路径特定节点特征集,获取所述目标异构图的第一节点表示。
可选地,所述基于所述每个节点对应的权重以及所述第一元路径特定节点特征集,获取所述目标异构图的第一节点表示,包括:
通过以下公式获取所述目标异构图的第一节点表示:
可选地,所述基于所述第二节点特征集以及所述第二元路径集获取第二元路径特定节点特征集,包括:
通过以下公式获取所述第二元路径特定节点特征集:
其中,为所述第二元路径特定节点特征集中的第i个节点对应的第二特定特征,为第二节点级的编码器,为所述第二节点特征集中第i个节点的原始特征,为所述第二元路径集中第i个第二元路径对应的邻接矩阵,,n为所述多个节点的数量。
可选地,所述将所述第二元路径特定节点特征集输入第二注意力模块,获得所述目标异构图的第二节点表示,包括:
通过以下公式确定所述多个节点中每个节点对应的权重:
基于所述每个节点对应的权重以及所述第二元路径特定节点特征集,获取所述目标异构图的第二节点表示。
可选地,所述基于所述每个节点对应的权重以及所述第二元路径特定节点特征集,获取所述目标异构图的第二节点表示,包括:
通过以下公式获取所述目标异构图的第二节点表示:
根据本公开实施例的第二方面,提供一种行为特征提取装置,包括:第一获取模块,被配置为获取内网机的行为日志数据;处理模块,被配置为对所述内网机的行为日志数据进行异构图数据结构处理,获得目标异构图,所述目标异构图包含多个节点,所述多个节点中每个节点对应有原始特征,所述多个节点中不同类型的节点之间形成第一元路径;第二获取模块,被配置为基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集,其中,所述第一节点特征集包含所述多个节点中每个节点对应的原始特征,所述第一元路径集包含多个所述第一元路径,所述第一元路径特定节点特征集包含所述多个节点中每个节点对应的第一特定特征;第一输入模块,被配置为将所述第一元路径特定节点特征集输入第一注意力模块,获得所述目标异构图的第一节点表示;第二输入模块,被配置为将所述目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量;第三输入模块,被配置为将所述第一节点特征集以及所述第一元路径集输入负样本生成器,获得第二节点特征集以及第二元路径集;第三获取模块,被配置为基于所述第二节点特征集以及所述第二元路径集获取第二元路径特定节点特征集,其中,所述第二元路径特定节点特征集包含所述多个节点中每个节点对应的第二特定特征;第四输入模块,被配置为将所述第二元路径特定节点特征集输入第二注意力模块,获得所述目标异构图的第二节点表示;第一最大化模块,被配置为利用第一训练鉴别器最大化所述目标异构图的第一节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第一互信息;第二最大化模块,被配置为利用第二训练鉴别器最大化所述目标异构图的第二节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第二互信息;第五输入模块,被配置为将所述第一互信息输入正样本鉴别器,并将所述第二互信息输入负样本鉴别器,获得所述内网机的行为日志数据对应的人员行为特征。
可选地,所述第二获取模块被配置为:
通过以下公式获取所述第一元路径特定节点特征集:
其中,为所述第一元路径特定节点特征集中的第i个节点对应的第一特定特征,为第一节点级的编码器,为所述第一节点特征集中第i个节点的原始特征,为所述第一元路径集中第i个第一元路径对应的邻接矩阵,,n为所述多个节点的数量。
可选地,所述第一输入模块被配置为:
通过以下公式确定所述多个节点中每个节点对应的权重:
基于所述每个节点对应的权重以及所述第一元路径特定节点特征集,获取所述目标异构图的第一节点表示。
可选地,所述第一输入模块被配置为:
通过以下公式获取所述目标异构图的第一节点表示:
可选地,所述第三获取模块被配置为:
通过以下公式获取所述第二元路径特定节点特征集:
其中,为所述第二元路径特定节点特征集中的第i个节点对应的第二特定特征,为第二节点级的编码器,为所述第二节点特征集中第i个节点的原始特征,为所述第二元路径集中第i个第二元路径对应的邻接矩阵,,n为所述多个节点的数量。
可选地,所述第四输入模块被配置为:
通过以下公式确定所述多个节点中每个节点对应的权重:
基于所述每个节点对应的权重以及所述第二元路径特定节点特征集,获取所述目标异构图的第二节点表示。
可选地,所述第四输入模块被配置为:
通过以下公式获取所述目标异构图的第二节点表示:
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现根据本公开的行为特征提取方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行根据本公开的行为特征提取方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
对内网机的行为日志数据进行异构图数据结构处理,可以有效的利用不同节点间的属性信息以及不同节点通过连接所传递出的语义信息,可以使提取出的人员行为特征与实际人员行为特征偏差较小。并且,利用负样本生成器进行样本加强,可以获得足量的正样本和负样本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是示出根据本公开的示例性实施例的行为特征提取方法的流程图。
图2是示出根据本公开的示例性实施例的行为特征提取的示意图。
图3是示出根据本公开的示例性实施例的一种行为特征提取装置的框图。
图4是示出根据本公开的示例性实施例的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
图神经网络(Graph Nerual Network,GNN)依赖图数据特有的特征表示,能够对节点数据间的依赖关系进行学习建模,可以用来预测没有基本事实(ground-truth)的节点或标签。与卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(RecurrentNeural Network,RNN)必须要使用欧几里得结构的数据进行训练不同,GNN是为了处理非欧几里得数据而产生的神经网络模型。例如,存在于生物化学、图像处理、推荐系统和社会网络分析等多个领域中的数据大多可以以图数据结构进行存放构建,因此在这些领域中GNN的应用研究日益广泛。近年来,关于图神经网络在生物化学、计算机视觉、推荐系统、组合优化、流量优化、归纳逻辑和程序验证等领域的应用已经出现。图神经网络解决的主要任务可概括为节点(图)分类、节点(图)回归、链路预测、节点聚类、图划分和图形可视化。
随着信息技术的发展和网络化应用的普遍推广,在局域网络内网机的管理中极易发生因为人员操作不当造成内部信息泄露。针对局域网络中的相关人员操作内网机的行为日志,使用图神经网络对这种非欧几里得数据进行特征挖掘,用来分析内网机操作人员的异常操作,能够在一定程度上降低内部信息泄漏的风险。现有算法通过内网机日志数据对人员行为进行特征提取时,存在以下不足:
通过内网机的日志数据进行人员行为特征提取时,所采用的图神经网络多为同构图神经网络,无法有效的利用不同节点间的属性信息以及不同节点通过连接所传递出的语义信息,导致提取出的人员行为特征与实际人员行为特征偏差较大;目前应用广泛的图神经网络通常以递归邻域聚合的方式来学习节点的特征向量,因而需要依赖大量有标签的训练样本进行学习。然而实际获取到的内网机日志数据样本,因数据多样性与离散性的特征,针对足量正负标签的获取存在很大困难。
为了解决相关技术中,无法有效的利用不同节点间的属性信息以及不同节点通过连接所传递出的语义信息,导致提取出的人员行为特征与实际人员行为特征偏差较大的技术问题,本公开提出的行为特征提取方法对内网机的行为日志数据进行异构图数据结构处理,可以有效的利用不同节点间的属性信息以及不同节点通过连接所传递出的语义信息,可以使提取出的人员行为特征与实际人员行为特征偏差较小。
为了解决相关技术中,实际获取到的内网机日志数据样本,因数据多样性与离散性的特征,针对足量正负标签的获取存在很大困难的技术问题,本公开提出的行为特征提取方法利用负样本生成器进行样本加强,可以获得足量的正样本和负样本。
需要说明的是,图数据信息是指以图数据结构存储的信息。信息包括图节点对应的对象属性信息,节点之间边对应的关系信息。即假设一个有向图为 G=(V,E),其中包含以下信息:节点与数据中对象之间的映射函数,边与对象之间关系的映射函数。
异构图(Heterogeneous Graph):在上述图数据信息的基础上,当对象的类型多于1类,即图中节点的类型不止1,或边(关系)类型大于1时,该图结构称为异构图。
元路径(Meta Path):在异构图中,针对不同类型的节点,节点之间的包含有对应关系的路径。
元路径集(Meta Path Set):关系路径的序列组成的集合。
图1是示出根据本公开的示例性实施例的行为特征提取方法的流程图。
参照图1,在步骤101,可以获取内网机的行为日志数据。例如,可以获取到底是哪些人在什么时间使用了哪台内网机这种数据。
在步骤102,可以对内网机的行为日志数据进行异构图数据结构处理,获得目标异构图,该目标异构图可以包含多个节点,多个节点中每个节点对应有原始特征,多个节点中不同类型的节点之间形成第一元路径。图2是示出根据本公开的示例性实施例的行为特征提取的示意图。在图2中,左边的虚线框表示图数据局部信息表示编码器,右边的虚线框表示图数据全局信息表示编码器。其中,图数据局部信息表示编码器主要是将图神经网络的节点特征和元路径的邻接矩阵作为同构图进行分别的编码表示,再使用注意力机制得到节点之间的相互影响力权重,通过聚合得到节点的最终特征表示。
在步骤103,可以基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集。其中,第一节点特征集可以包含多个节点中每个节点对应的原始特征,第一元路径集可以包含多个第一元路径,第一元路径特定节点特征集可以包含多个节点中每个节点对应的第一特定特征。
根据本公开的示例性实施例,可以通过以下公式获取第一元路径特定节点特征集:
其中,为第一元路径特定节点特征集中的第i个节点对应的第一特定特征,为第一节点级的编码器,为第一节点特征集中第i个节点的原始特征,为第一元路径集中第i个第一元路径对应的邻接矩阵,,n为多个节点的数量。即可以先根据第一元路径集对节点对象的属性进行编码,得到基于第一元路径集的邻接矩阵。然后,可以根据第一节点特征集以及第一元路径集的邻接矩阵经过映射编码得到第一元路径特定节点特征集。
在步骤104,可以将第一元路径特定节点特征集输入第一注意力模块,获得目标异构图的第一节点表示。需要说明的是,为了能够获取目标异构图中其他类别的节点属性对特定节点属性特征的影响,可以将第一元路径特定节点特征集输入语义级的注意力神经网络,来探索每个节点的元路径特征对最终表示的贡献。
根据本公开的示例性实施例,可以通过以下公式确定多个节点中每个节点对应的权重:
根据本公开的示例性实施例,可以通过以下公式获取目标异构图的第一节点表示:
在步骤105,可以将目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量。需要说明的是,为了更近一步探究异构图内部存在的潜在关系,需要对图数据的全局信息进行挖掘,通过全局表示编码器对全局信息取一个摘要式的向量,以此完成局部表示和全局表示之间的互信息。全局表示编码器的作用是从各个节点的局部信息中,将异构图数据的全局信息进行一个摘要式的向量表示,从而能够帮助模型通过最大化局部表示和全局表示之间的互信息来进行反向学习。在这里全局表示编码器选择基于长短时记忆(Long Short Term Memory,LSTM)架构的Set2vec编码函数,从各个节点特征中获取完整的综合信息,即总结每个节点的综合信息,来得到图数据的总体信息向量表示。
在步骤106,可以将第一节点特征集以及第一元路径集输入负样本生成器,获得第二节点特征集以及第二元路径集。
在步骤107,可以基于第二节点特征集以及第二元路径集获取第二元路径特定节点特征集。其中,第二元路径特定节点特征集包含多个节点中每个节点对应的第二特定特征。
根据本公开的示例性实施例,可以通过以下公式获取第二元路径特定节点特征集:
在步骤108,可以将第二元路径特定节点特征集输入第二注意力模块,获得目标异构图的第二节点表示。因为异构图中包含丰富而复杂的结构信息,特征是通过基于元路径的邻接矩阵存储的,负样本生成器在保持所有节点不变的基础上,对特征矩阵进行重组,改变节点索引,对链接结构进行更新,生成异构图中不存在的样本作为负样本。即可以利用负样本生成器进行样本加强,可以获得足量的正样本和负样本。
根据本公开的示例性实施例,可以通过以下公式确定多个节点中每个节点对应的权重:
根据本公开的示例性实施例,可以通过以下公式获取目标异构图的第二节点表示:
在步骤109,可以利用第一训练鉴别器最大化目标异构图的第一节点表示以及全局摘要向量之间的互信息,获得最大化处理后的第一互信息。
在步骤1010,可以利用第二训练鉴别器最大化目标异构图的第二节点表示以及全局摘要向量之间的互信息,获得最大化处理后的第二互信息。
在步骤1011,可以将第一互信息输入正样本鉴别器,并将第二互信息输入负样本鉴别器,进而可以获得内网机的行为日志数据对应的人员行为特征。即可以通过训练鉴别器最大化正负节点和全局摘要向量之间的互信息,以互信息最大化为目标通过反向传播完成模型对无监督的样本的学习。
图3是示出根据本公开的示例性实施例的一种行为特征提取装置的框图。
参照图3,该行为特征提取装置300可包括第一获取模块301、处理模块302、第二获取模块303、第一输入模块304、第二输入模块305、第三输入模块306、第三获取模块307、第四输入模块308、第一最大化模块309、第二最大化模块3010和第五输入模块3011。
第一获取模块301可获取内网机的行为日志数据。例如,可以获取到底是哪些人在什么时间使用了哪台内网机这种数据。
处理模块302可对内网机的行为日志数据进行异构图数据结构处理,获得目标异构图,该目标异构图可以包含多个节点,多个节点中每个节点对应有原始特征,多个节点中不同类型的节点之间形成第一元路径。图2是示出根据本公开的示例性实施例的特征提取的示意图。在图2中,左边的虚线框表示图数据局部信息表示编码器,右边的虚线框表示图数据全局信息表示编码器。其中,图数据局部信息表示编码器主要是将图神经网络的节点特征和元路径的邻接矩阵作为同构图进行分别的编码表示,再使用注意力机制得到节点之间的相互影响力权重,通过聚合得到节点的最终特征表示。
第二获取模块303可以基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集。其中,第一节点特征集可以包含多个节点中每个节点对应的原始特征,第一元路径集可以包含多个第一元路径,第一元路径特定节点特征集可以包含多个节点中每个节点对应的第一特定特征。
根据本公开的示例性实施例,第二获取模块303可以通过以下公式获取第一元路径特定节点特征集:
其中,为第一元路径特定节点特征集中的第i个节点对应的第一特定特征,为第一节点级的编码器,为第一节点特征集中第i个节点的原始特征,为第一元路径集中第i个第一元路径对应的邻接矩阵,,n为多个节点的数量。即可以先根据第一元路径集对节点对象的属性进行编码,得到基于第一元路径集的邻接矩阵。然后,可以根据第一节点特征集以及第一元路径集的邻接矩阵经过映射编码得到第一元路径特定节点特征集。
第一输入模块304可以将第一元路径特定节点特征集输入第一注意力模块,获得目标异构图的第一节点表示。需要说明的是,为了能够获取目标异构图中其他类别的节点属性对特定节点属性特征的影响,可以将第一元路径特定节点特征集输入语义级的注意力神经网络,来探索每个节点的元路径特征对最终表示的贡献。
根据本公开的示例性实施例,第一输入模块304可以通过以下公式确定多个节点中每个节点对应的权重:
根据本公开的示例性实施例,第一输入模块304可以通过以下公式获取目标异构图的第一节点表示:
第二输入模块305可以将目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量。需要说明的是,为了更近一步探究异构图内部存在的潜在关系,需要对图数据的全局信息进行挖掘,通过全局表示编码器对全局信息取一个摘要式的向量,以此完成局部表示和全局表示之间的互信息。全局表示编码器的作用是从各个节点的局部信息中,将异构图数据的全局信息进行一个摘要式的向量表示,从而能够帮助模型通过最大化局部表示和全局表示之间的互信息来进行反向学习。在这里全局表示编码器选择基于LSTM架构的Set2vec编码函数,从各个节点特征中获取完整的综合信息,即总结每个节点的综合信息,来得到图数据的总体信息向量表示。
第三输入模块306可以将第一节点特征集以及第一元路径集输入负样本生成器,获得第二节点特征集以及第二元路径集。
第三获取模块307可以基于第二节点特征集以及第二元路径集获取第二元路径特定节点特征集。其中,第二元路径特定节点特征集包含多个节点中每个节点对应的第二特定特征。
根据本公开的示例性实施例,第三获取模块307可以通过以下公式获取第二元路径特定节点特征集:
第四输入模块308可以将第二元路径特定节点特征集输入第二注意力模块,获得目标异构图的第二节点表示。因为异构图中包含丰富而复杂的结构信息,特征是通过基于元路径的邻接矩阵存储的,负样本生成器在保持所有节点不变的基础上,对特征矩阵进行重组,改变节点索引,对链接结构进行更新,生成异构图中不存在的样本作为负样本。即可以利用负样本生成器进行样本加强,可以获得足量的正样本和负样本。
根据本公开的示例性实施例,第四输入模块308可以通过以下公式确定多个节点中每个节点对应的权重:
根据本公开的示例性实施例,第四输入模块308可以通过以下公式获取目标异构图的第二节点表示:
第一最大化模块309可以利用第一训练鉴别器最大化目标异构图的第一节点表示以及全局摘要向量之间的互信息,获得最大化处理后的第一互信息。
第二最大化模块3010可以利用第二训练鉴别器最大化目标异构图的第二节点表示以及全局摘要向量之间的互信息,获得最大化处理后的第二互信息。
第五输入模块3011可以将第一互信息输入正样本鉴别器,并将第二互信息输入负样本鉴别器,进而可以获得内网机的行为日志数据对应的人员行为特征。即可以通过训练鉴别器最大化正负节点和全局摘要向量之间的互信息,以互信息最大化为目标通过反向传播完成模型对无监督的样本的学习。
图4是示出根据本公开的示例性实施例的一种电子设备的框图。
参照图4,电子设备400包括至少一个存储器401和至少一个处理器402,所述至少一个存储器401中存储有指令,当指令被至少一个处理器402执行时,执行根据本公开的示例性实施例的行为特征提取方法。
作为示例,电子设备400可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令的装置。这里,电子设备400并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备400还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备400中,处理器402可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器402可运行存储在存储器401中的指令或代码,其中,存储器401还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器401可与处理器402集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器401可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器401和处理器402可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器402能够读取存储在存储器中的文件。
此外,电子设备400还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备400的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还可提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述行为特征提取方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的行为特征提取方法以及行为特征提取装置,对内网机的行为日志数据进行异构图数据结构处理,可以有效的利用不同节点间的属性信息以及不同节点通过连接所传递出的语义信息,可以使提取出的人员行为特征与实际人员行为特征偏差较小。并且,利用负样本生成器进行样本加强,可以获得足量的正样本和负样本。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (16)
1.一种行为特征提取方法,其特征在于,包括:
获取内网机的行为日志数据;
对所述内网机的行为日志数据进行异构图数据结构处理,获得目标异构图,所述目标异构图包含多个节点,所述多个节点中每个节点对应有原始特征,所述多个节点中不同类型的节点之间形成第一元路径;
基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集,其中,所述第一节点特征集包含所述多个节点中每个节点对应的原始特征,所述第一元路径集包含多个所述第一元路径,所述第一元路径特定节点特征集包含所述多个节点中每个节点对应的第一特定特征;
将所述第一元路径特定节点特征集输入第一注意力模块,获得所述目标异构图的第一节点表示;
将所述目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量;
将所述第一节点特征集以及所述第一元路径集输入负样本生成器,获得第二节点特征集以及第二元路径集;
基于所述第二节点特征集以及所述第二元路径集获取第二元路径特定节点特征集,其中,所述第二元路径特定节点特征集包含所述多个节点中每个节点对应的第二特定特征;
将所述第二元路径特定节点特征集输入第二注意力模块,获得所述目标异构图的第二节点表示;
利用第一训练鉴别器最大化所述目标异构图的第一节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第一互信息;
利用第二训练鉴别器最大化所述目标异构图的第二节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第二互信息;
将所述第一互信息输入正样本鉴别器,并将所述第二互信息输入负样本鉴别器,获得所述内网机的行为日志数据对应的人员行为特征。
8.一种行为特征提取装置,其特征在于,包括:
第一获取模块,被配置为获取内网机的行为日志数据;
处理模块,被配置为对所述内网机的行为日志数据进行异构图数据结构处理,获得目标异构图,所述目标异构图包含多个节点,所述多个节点中每个节点对应有原始特征,所述多个节点中不同类型的节点之间形成第一元路径;
第二获取模块,被配置为基于第一节点特征集和第一元路径集获取第一元路径特定节点特征集,其中,所述第一节点特征集包含所述多个节点中每个节点对应的原始特征,所述第一元路径集包含多个所述第一元路径,所述第一元路径特定节点特征集包含所述多个节点中每个节点对应的第一特定特征;
第一输入模块,被配置为将所述第一元路径特定节点特征集输入第一注意力模块,获得所述目标异构图的第一节点表示;
第二输入模块,被配置为将所述目标异构图的第一节点表示输入全局表示编码器,获得全局摘要向量;
第三输入模块,被配置为将所述第一节点特征集以及所述第一元路径集输入负样本生成器,获得第二节点特征集以及第二元路径集;
第三获取模块,被配置为基于所述第二节点特征集以及所述第二元路径集获取第二元路径特定节点特征集,其中,所述第二元路径特定节点特征集包含所述多个节点中每个节点对应的第二特定特征;
第四输入模块,被配置为将所述第二元路径特定节点特征集输入第二注意力模块,获得所述目标异构图的第二节点表示;
第一最大化模块,被配置为利用第一训练鉴别器最大化所述目标异构图的第一节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第一互信息;
第二最大化模块,被配置为利用第二训练鉴别器最大化所述目标异构图的第二节点表示以及所述全局摘要向量之间的互信息,获得最大化处理后的第二互信息;
第五输入模块,被配置为将所述第一互信息输入正样本鉴别器,并将所述第二互信息输入负样本鉴别器,获得所述内网机的行为日志数据对应的人员行为特征。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的行为特征提取方法。
16.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的行为特征提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212723.4A CN113656797B (zh) | 2021-10-19 | 2021-10-19 | 行为特征提取方法以及行为特征提取装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212723.4A CN113656797B (zh) | 2021-10-19 | 2021-10-19 | 行为特征提取方法以及行为特征提取装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656797A CN113656797A (zh) | 2021-11-16 |
CN113656797B true CN113656797B (zh) | 2021-12-21 |
Family
ID=78494610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111212723.4A Active CN113656797B (zh) | 2021-10-19 | 2021-10-19 | 行为特征提取方法以及行为特征提取装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656797B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114070708B (zh) * | 2021-11-18 | 2023-08-29 | 重庆邮电大学 | 基于流量特征提取的虚拟网络功能资源消耗预测方法 |
CN114329455B (zh) * | 2022-03-08 | 2022-07-29 | 北京大学 | 基于异构图嵌入的用户异常行为检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355506A (zh) * | 2016-08-15 | 2017-01-25 | 中南大学 | 一种在线社会网络中影响力最大化初始节点选取方法 |
CN110189167A (zh) * | 2019-05-20 | 2019-08-30 | 华南理工大学 | 一种基于异构图嵌入的移动广告欺诈检测方法 |
CN111163057A (zh) * | 2019-12-09 | 2020-05-15 | 中国科学院信息工程研究所 | 一种基于异构信息网络嵌入算法的用户识别系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170111245A1 (en) * | 2015-10-14 | 2017-04-20 | International Business Machines Corporation | Process traces clustering: a heterogeneous information network approach |
-
2021
- 2021-10-19 CN CN202111212723.4A patent/CN113656797B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355506A (zh) * | 2016-08-15 | 2017-01-25 | 中南大学 | 一种在线社会网络中影响力最大化初始节点选取方法 |
CN110189167A (zh) * | 2019-05-20 | 2019-08-30 | 华南理工大学 | 一种基于异构图嵌入的移动广告欺诈检测方法 |
CN111163057A (zh) * | 2019-12-09 | 2020-05-15 | 中国科学院信息工程研究所 | 一种基于异构信息网络嵌入算法的用户识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113656797A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230195845A1 (en) | Fast annotation of samples for machine learning model development | |
US11537506B1 (en) | System for visually diagnosing machine learning models | |
Bolón-Canedo et al. | Feature selection for high-dimensional data | |
US20230260303A1 (en) | Cross-Modal Weak Supervision For Media Classification | |
CN113656797B (zh) | 行为特征提取方法以及行为特征提取装置 | |
US11314609B2 (en) | Diagnosing and remediating errors using visual error signatures | |
US11567735B1 (en) | Systems and methods for integration of multiple programming languages within a pipelined search query | |
CN111815432A (zh) | 金融服务风险预测方法及装置 | |
US11841892B2 (en) | Generating test scenarios by detecting failure patterns and themes in customer experiences | |
CN114600196A (zh) | 特定领域的人类模型协同注释工具 | |
US20240078473A1 (en) | Systems and methods for end-to-end machine learning with automated machine learning explainable artificial intelligence | |
CN116451081A (zh) | 数据漂移的检测方法、装置、终端及存储介质 | |
WO2016093839A1 (en) | Structuring of semi-structured log messages | |
US11620550B2 (en) | Automated data table discovery for automated machine learning | |
AU2021276239A1 (en) | Identifying claim complexity by integrating supervised and unsupervised learning | |
US20240202458A1 (en) | Generating prompt recommendations for natural language processing tasks | |
CN111737319B (zh) | 用户集群的预测方法、装置、计算机设备和存储介质 | |
CN118159943A (zh) | 人工智能模型学习自省 | |
CN115080856A (zh) | 推荐方法及装置、推荐模型的训练方法及装置 | |
CN116868207A (zh) | 原生于图数据库的决策树 | |
Peng et al. | A general framework for multi-label learning towards class correlations and class imbalance | |
Gu et al. | A locally weighted multi-domain collaborative adaptation for failure prediction in SSDs | |
Wessman | Advanced Algorithms for Classification and Anomaly Detection on Log File Data: Comparative study of different Machine Learning Approaches | |
Goel et al. | An optimized approach for class imbalance problem in heterogeneous cross project defect prediction | |
US20210248206A1 (en) | Systems and methods for generating data retrieval steps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |