CN111737551B - 一种基于异构图注意力神经网络的暗网线索检测方法 - Google Patents

一种基于异构图注意力神经网络的暗网线索检测方法 Download PDF

Info

Publication number
CN111737551B
CN111737551B CN202010452949.0A CN202010452949A CN111737551B CN 111737551 B CN111737551 B CN 111737551B CN 202010452949 A CN202010452949 A CN 202010452949A CN 111737551 B CN111737551 B CN 111737551B
Authority
CN
China
Prior art keywords
network
heterogeneous
heterogeneous information
graph
information network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010452949.0A
Other languages
English (en)
Other versions
CN111737551A (zh
Inventor
陈志鹏
刘春阳
张丽
姜文华
张旭
孙旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202010452949.0A priority Critical patent/CN111737551B/zh
Publication of CN111737551A publication Critical patent/CN111737551A/zh
Application granted granted Critical
Publication of CN111737551B publication Critical patent/CN111737551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于异构图注意力神经网络的暗网线索检测方法:步骤一、对暗网进行文本采集;步骤二、针对采集到的暗网文本信息,进行事件标题、关键词及实体提取,构建动态异构信息网络;步骤三、对构建的异构信息网络中的节点进行embedding处理,并得到各节点的特征向量;步骤四、对异构信息网络的图结构进行学习;步骤五、根据对异构信息网络的图结构学习得到的结果,对异构信息网络中的节点进行线索类别分类,从而完成对暗网信息的线索检测。本发明利用了外部知识库作为依托,并且采用了两套方法来对构建的异构信息网络的图结构进行学习,具有良好的线索检测效果。

Description

一种基于异构图注意力神经网络的暗网线索检测方法
技术领域
本发明涉及机器学习技术,尤其涉及一种基于异构图注意力神经网络的暗网线索检测方法,属于对异构信息网络图结构进行学习的技术。
背景技术
在Tor、I2P、ZeroNet等暗网存在大量威胁公共安全、金融安全、信息安全的线索,对暗网中威胁线索进行检测辨别,对防范上述风险具有重要价值。
现有的暗网线索检测系统,通常是对采集到的暗网信息进行结构化处理、自动化语言翻译、自动降噪处理。对常见涉威胁线索进行分类整理,从而构建自动化的威胁情报线索识别模型。
上述方法,缺乏对于外部文本数据知识库、网络数据知识库的利用和通过构建关于暗网信息的异构信息网络并通过相关技术学习异构信息网络图结构过程。不能很好地利用外部知识对暗网线索检测提供帮助和学习不同来源暗网信息间地隐藏关系。
发明内容
针对上述问题,本发明的目的在于提供一种基于异构图注意力神经网络的暗网线索检测方法,以利用外部知识对暗网线索检测提供帮助和学习不同来源暗网信息间地隐藏关系,提高线索检测效果。
本发明提供一种基于异构图注意力神经网络的暗网线索检测方法。其中对于暗网线索进行检测的方法流程,利用了外部知识库作为依托,并且采用了两套方法来对构建的异构信息网络的图结构进行学习,具有良好的线索检测效果。
一种基于异构图注意力神经网络的暗网线索检测方法,包括如下步骤:
(1)对Tor、I2P、ZeroNet等存在大量威胁公共安全、金融安全、信息安全的线索的暗网进行文本采集;
(2)针对采集到的暗网文本信息,依托利用外部文本数据知识库、网络数据知识库,进行事件标题、关键词及实体提取,并构建动态异构信息网络;
(3)利用现有word embedding技术(如TFIDF、Word2Vec等),对构建的异构信息网络中的节点进行embedding处理,并得到各节点的特征向量;
(4)针对构建的异构信息网络及节点特征向量,采用Graph TransformerNetworks(图变换网络)技术或Heterogeneous Graph Transformer(异构图变换)技术,对异构信息网络的图结构进行学习;
(5)根据对异构信息网络的图结构学习得到的结果,使用GCN(图卷机网络)或Softmax对异构信息网络中的节点进行线索类别分类,从而完成对暗网信息的线索检测。
其中,所述的对生成的异构信息网络,采用Graph Transformer Networks来对其图结构进行学习,Graph Transformer Networks的具体工作原理是:
对于所述生成的异构信息网络,可以将其表示为:G=(V,E),其中:V是节点异构信息网络中节点的集合,E是异构信息网络中节点之间边的集合。用
Figure BDA0002508313180000031
表示节点种类的集合,用
Figure BDA0002508313180000032
表示节点之间边的种类的集合。则可以将异构信息网络G表示为邻接矩阵的集合——
Figure BDA0002508313180000033
其中
Figure BDA0002508313180000034
邻接矩阵的集合
Figure BDA0002508313180000035
可以写成张量的形式A∈RN*N*K,其中
Figure BDA0002508313180000036
N是异构信息网络中节点的个数。
利用Graph Transformer Networks中学习异构信息网络图结构的关键方法是Graph Transform Layer(图形转换层),Graph Transform Layer可以学习某一类元路径的结构,如图1所示,其具体操作是:通过softmax得到的权重
Figure BDA0002508313180000037
对张量A∈RN*N*K中的各邻接矩阵进行1*1卷积,达到对各邻接矩阵加权求和的效果,并分别得到两个图解构Q1、Q2。然后再将图解构Q1、Q2通过矩阵乘法的方式得到新的邻接矩阵集合A(1)
上述操作可以用公式表示为:
Q=F(A;Wφ)=φ(A;softmax(Wφ))
φ表示上述Graph Transform操作。具体地,每一个Qi可以表示为:
Figure BDA0002508313180000038
tl表示
Figure BDA0002508313180000039
中第l类边的类型,
Figure BDA00025083131800000310
第1种类型在第1层的权重。
对于上述生成的异构信息网络,需要学习生成多种类型的元路径,可以采用图2所示的网络结构:
将1*1卷积地输出通道设置为C,然后通过Graph Transform Layer生成多个中间张量Qi∈RN*N*C,然后通过矩阵乘积地方式得到新的邻接矩阵集合地张量Al∈RN*N*C。此后,可将GCN应用于Al∈RN*N*C的每个通道,并将其每个通道经过GCN后的结果拼接起来成为结果Z,可表示为:
Figure BDA0002508313180000041
其中,||是拼接操作,
Figure BDA0002508313180000042
Figure BDA0002508313180000043
的邻接矩阵,
Figure BDA0002508313180000044
是Ai的逆矩阵,I是单位矩阵,Ai是针对第i类edge的邻接矩阵;X∈RN*d是节点的特征矩阵,W∈Rd*d是权重矩阵(d是GCN中可以改变的超参数),随训练优化。
综上所述,利用Graph Transform Network,可对生成的异构信息网络的图结构进行学习,并生成输出新的描述异构信息网络的张量Z。
其中,所述的对于生成的异构信息网络,还可以采用Heterogeneous GraphTransformer(HGT)来对其图结构进行学习:
HGT是一种学习和捕捉生成的异构信息网络中节点动态信息的方法。HGT中的关键成分是HGT layer,目的是获得目标节点的上下文表示。
HGT layer从源节点聚合信息、获得目标节点上下文表示的过程,可以总结为三个部分:异构互注意力;异构消息传递;针对特定任务的聚合。
(1)异构互注意力:
Figure BDA0002508313180000051
Figure BDA0002508313180000052
Figure BDA0002508313180000053
Figure BDA0002508313180000054
关于上述计算过程的解释如下:
首先,对于第i个attention head ATT-headi(s,e,t),将类别为τ(s)的源节点s使用线性映射
Figure BDA0002508313180000055
Figure BDA0002508313180000056
映射成第i个Key向量Ki(s),其中h是attentionheads的数目,
Figure BDA0002508313180000057
是每个attention head的向量维数。
同样地,对目标节点t,也使用线性映射Qi(t)将其映射为第i个Query向量。
接着,计算Qi(t)、Ki(s)间的相似度:
Figure BDA0002508313180000058
是为φ(e)类型的边维护的矩阵,用于捕获节点之间不同的语义关联,用一个先验张量μ∈RA*R*A来表示不同类型的边对目标节点贡献度的不同。
最后将h个attention heads拼接起来得到每个节点对的注意力向量。对于每个目标节点t,聚合它所有邻居的注意力向量,并通过一层softmax,使得每个head的注意力系数和为1。
(2)异构消息传递:
从源节点向目标节点传递信息,这一步是和异构互注意力的计算并行的。异构信息传递的目标是将不同边的元关系合并到消息传递过程中,来缓解不同类型的节点和边分布的差异性。
对于节点对e=(s,t),其在multi-head过程中的Message可以用以下方法来计算:MessageHGT(s,e,t)=||i∈[1,h]MSG-headi(s,e,t)
Figure BDA0002508313180000061
具体过程为:首先使用线性映射
Figure BDA0002508313180000062
Figure BDA0002508313180000063
将类别为τ(s)的源节点s映射成第i个message向量。然后再对特定类型的边维护一个参数矩阵
Figure BDA0002508313180000064
最后再将h个message heads拼接,得到每个节点对的MessageHGT(s,e,t)。
(3)针对特定任务的聚合:
这一步需要对上述异构互注意力和异构信息传递的信息进行聚合。
首先使用attention向量作为权重,对来自源节点s的相应信息进行平均,得到更新后的向量:
Figure BDA0002508313180000065
最后一步是以目标节点的类别τ(s)为索引,将目标节点t的向量映射回到对应类别的分布。具体来说,对更新后的向量
Figure BDA0002508313180000066
使用线性映射
Figure BDA0002508313180000067
然后将前一层的原始向量作为残差连接:
Figure BDA0002508313180000068
这样就得到了目标节点t在第1层的HGT的输出H(l)[t]。
重复上述过程,通过建立多层HGT layer,即可得到生成的异构信息网络中各节点包含其上下文表示的特征向量H[t]。
得到新的描述异构信息网络的张量Z或各节点包含其上下文表示的特征向量H[t]后,通过softmax对各节点进行线索类别分类。即可达到线索检测的目的。具体地,可以将节点的线索类型分为下述几类:诈骗洗钱、数据贩卖、网安情报、枪支及爆炸物、毒品及非法药品、人口色情交易、杀手雇佣、极端主义、反政府。
本发明一种基于异构图注意力神经网络的暗网线索检测方法,优点在于:本方法利用了外部知识库作为依托,并且采用了两套方法来对构建的异构信息网络的图结构进行学习,能很好地利用外部知识对暗网线索检测提供帮助和学习不同来源暗网信息间地隐藏关系,具有良好的线索检测效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为Graph Transform Layer学习某一类元路径的结构的操作流程图:
图2为学习生成多种类型的元路径的网络结构图;
图3为本发明词向量训练方法实施例一的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面以具体地实施例对本发明的技术方案进行详细说明。
本发明提供一种基于异构图注意力神经网络的暗网线索检测系统。
图3为本发明暗网线索检测系统实施例一的流程示意图,如图3所示,本实施例暗网线索检测的方法包括以下步骤:
S101:暗网文本数据采集:
针对Tor、I2P、ZeroNet等暗网站点利用现有爬取技术进行文本信息采集。
S102:针对采集到的暗网文本信息,依托利用外部文本数据知识库、网络数据知识库,进行事件标题、关键词及实体提取,并构建动态异构信息网络:
在采集到来自暗网的文本信息后,可以利用工具(如StanfordNLP等)对来自暗网的文本信息进行事件标题、关键词及实体提取,将提取出来的内容作为异构信息网络的节点。借助外部的知识库和知识图谱(例如维基百科等),对这些节点进行关系匹配,从而建立动态异构信息网络。
S103:利用现有word embedding技术(如TFIDF、Word2Vec等),对构建的异构信息网络中的节点进行embedding处理,并得到各节点的特征向量:
对于生成的异构信息网络中的各节点,采用现有技术(如TFIDF、Word2Vec等),生成对应的特征向量,用以参与后续异构信息网络图结构的学习。
S104:针对构建的异构信息网路及节点特征向量,采用Graph Transform Network技术或Heterogeneous Graph Transformer技术,对异构信息网络的图结构进行学习。
对于生成的异构信息网络,可以采用Graph Transform Network技术或HeterogeneoUs Graph Transformer技术来对图结构进行学习。
1.Graph Transform Network
对于生成的异构信息网络,采用Graph Transformer Networks来对其图结构进行学习。Graph Transformer Networks的具体工作原理是:
对于上述生成的异构信息网络,可以将其表示为:G=(V,E),其中:V是节点异构信息网络中节点的集合,E是异构信息网络中节点之间边的集合。用
Figure BDA0002508313180000091
表示节点种类的集合,用
Figure BDA0002508313180000092
表示节点之间边的种类的集合。则可以将异构信息网络G表示为邻接矩阵的集合——
Figure BDA0002508313180000093
其中
Figure BDA0002508313180000094
邻接矩阵的集合
Figure BDA0002508313180000095
可以写成张量的形式A∈RN*N*K,其中
Figure BDA0002508313180000096
利用Graph Transformer Networks中学习异构信息网络图结构的关键方法是Graph Transform Layer,Graph Transform Layer可以学习某一类元路径的结构,其操作如图1所示:其具体操作是:通过softmax得到的权重
Figure BDA0002508313180000101
对张量A∈RN*N*K中的各邻接矩阵进行1*1卷积,达到对各邻接矩阵加权求和的效果,并分别得到两个图解构Q1、Q2。然后再将图解构Q1、Q2通过矩阵乘法的方式得到新的邻接矩阵集合A(1)
上述操作可以用公式表示为:
Q=F(A;Wφ)=φ(A;softmax(Wφ))
φ表示上述Graph Transform操作。具体地,每一个Qi可以表示为:
Figure BDA0002508313180000102
tl表示
Figure BDA0002508313180000103
中第1类边的类型,
Figure BDA0002508313180000104
第1种类型在第1层的权重。
对于上述生成的异构信息网络,需要学习生成多种类型的元路径,可以采用图2所示的网络结构:
将1*1卷积地输出通道设置为C,然后通过Graph Transform Layer生成多个中间张量Qi∈RN*N*C,然后通过矩阵乘积地方式得到新的邻接矩阵集合地张量Al∈RN*N*C。此后,可将GCN应用于Al∈RN*N*C的每个通道,并将其每个通道经过GCN后的结果拼接起来成为结果Z,可表示为:
Figure BDA0002508313180000105
||是拼接操作,
Figure BDA0002508313180000106
Figure BDA0002508313180000107
的邻接矩阵,
Figure BDA0002508313180000108
是Ai的逆矩阵,I是单位矩阵,Ai是针对第i类edge的邻接矩阵;X∈RN*d是节点的特征矩阵,W∈Rd*d是权重矩阵(d是GCN中可以改变的超参数),随训练优化。
综上所述,利用Graph Transform Network,可对生成的异构信息网络的图结构进行学习,并生成输出新的描述异构信息网络的张量Z。
2.Heterogeneous Graph Transformer
对于生成的异构信息网络,还可以采用Heterogeneous Graph Transformer来对其图结构进行学习。
HGT是一种学习和捕捉生成的异构信息网络中节点动态信息的方法。HGT中的关键成分是HGT layer,目的是获得目标节点的上下文表示,其具体结构如图3所示:图3展示了HGTlayer从源节点聚合信息,获得目标节点上下文表示的过程。可以总结为三个部分:异构互注意力;异构消息传递;针对特定任务的聚合。
(1)异构互注意力:
Figure BDA0002508313180000111
Figure BDA0002508313180000112
Figure BDA0002508313180000113
Figure BDA0002508313180000114
关于上述计算过程的解释如下:
首先,对于第i个attention head ATT-headi(s,e,t),将类别为τ(s)的源节点s使用线性映射
Figure BDA0002508313180000121
Figure BDA0002508313180000122
映射成第i个Key向量Ki(s),其中h是attentionheads的数目,
Figure BDA0002508313180000123
是每个attention head的向量维数。
同样地,对目标节点t,也使用线性映射Qi(t)将其映射为第i个Query向量。
接着,计算Qi(t)、Ki(s)间的相似度:
Figure BDA0002508313180000124
是为φ(e)类型的边维护的矩阵,用于捕获节点之间不同的语义关联,用一个先验张量μ∈RA*R*A来表示不同类型的边对目标节点贡献度的不同。
最后将h个attention heads拼接起来得到每个节点对的注意力向量。对于每个目标节点t,聚合它所有邻居的注意力向量,并通过一层softmax,使得每个head的注意力系数和为1。
(2)异构消息传递:
从源节点向目标节点传递信息,这一步是和异构互注意力的计算并行的。异构信息传递的目标是将不同边的元关系合并到消息传递过程中,来缓解不同类型的节点和边分布的差异性。
对于节点对e=(s,t),其在multi-head过程中的Message可以用以下方法来计算:MessageHGT(s,e,t)=||i∈[1,h]MSG-headi(s,e,t)
Figure BDA0002508313180000125
具体过程为:首先使用线性映射
Figure BDA0002508313180000126
Figure BDA0002508313180000127
将类别为τ(s)的源节点s映射成第i个message向量。然后再对特定类型的边维护一个参数矩阵
Figure BDA0002508313180000131
最后再将h个message heads拼接,得到每个节点对的MessageHGT(s,e,t)。
(3)针对特定任务的聚合:
这一步需要对上述异构互注意力和异构信息传递的信息进行聚合。
首先使用attention向量作为权重,对来自源节点s的相应信息进行平均,得到更新后的向量:
Figure BDA0002508313180000132
最后一步是以目标节点的类别τ(s)为索引,将目标节点t的向量映射回到对应类别的分布。具体来说,对更新后的向量
Figure BDA0002508313180000133
使用线性映射
Figure BDA0002508313180000134
然后将前一层的原始向量作为残差连接:
Figure BDA0002508313180000135
这样就得到了目标节点t在第1层的HGT的输出H(l)[t]。
通过建立多层HGT layer,即可得到生成的异构信息网络中各节点包含其上下文表示的特征向量H[t]。
S105:根据学习异构信息网络的图结构得到的结果,使用GCN或Softmax对异构信息网络中的节点进行线索类别分类,从而完成对暗网信息的线索检测。
通过上述过程得到:新的描述异构信息网络的张量Z或各节点包含其上下文表示的特征向量H[t]后,通过softmax对各节点进行线索类别分类。即可达到线索检测的目的。
具体地,可以将节点的线索类型分为下述几类:
诈骗洗钱、数据贩卖、网安情报、枪支及爆炸物、毒品及非法药品、人口色情交易、杀手雇佣、极端主义、反政府。

Claims (6)

1.一种基于异构图注意力神经网络的暗网线索检测方法,其特征在于:该方法包括如下步骤:
步骤一、对暗网进行文本采集;
步骤二、针对采集到的暗网文本信息,依托利用外部文本数据知识库、网络数据知识库,进行事件标题、关键词及实体提取,并构建动态异构信息网络;
步骤三、利用现有word embedding技术,对构建的异构信息网络中的节点进行embedding处理,并得到各节点的特征向量;
步骤四、针对构建的异构信息网络及节点特征向量,对异构信息网络的图结构进行学习;
步骤五、根据对异构信息网络的图结构学习得到的结果,对异构信息网络中的节点进行线索类别分类,从而完成对暗网信息的线索检测;
其中,步骤四所述的对异构信息网络的图结构进行学习,可以采用Graph TransformerNetworks,生成输出新的描述异构信息网络的张量Z;
其中,所述的采用Graph Transformer Networks,具体如下:
对于所述生成的异构信息网络,将其表示为:G=(V,E),其中:V是节点异构信息网络中节点的集合,E是异构信息网络中节点之间边的集合;用
Figure FDA0003645476650000011
表示节点种类的集合,用
Figure FDA0003645476650000012
表示节点之间边的种类的集合;则可以将异构信息网络G表示为邻接矩阵的集合——
Figure FDA0003645476650000013
其中
Figure FDA0003645476650000014
邻接矩阵的集合
Figure FDA0003645476650000015
可以写成张量的形式A∈RN*N*K,其中
Figure FDA0003645476650000016
N是异构信息网络中节点的个数;
利用Graph Transformer Networks中学习异构信息网络图结构的关键方法是图形转换层Graph Transform Layer,Graph Transform Layer可以学习某一类元路径的结构:通过softmax得到的权重
Figure FDA0003645476650000021
对张量A∈RN*N*K中的各邻接矩阵进行1*1卷积,达到对各邻接矩阵加权求和的效果,并分别得到两个图解构Q1、Q2;然后再将图解构Q1、Q2通过矩阵乘法的方式得到新的邻接矩阵集合A(1)
上述操作可以用公式表示为:
Q=F(A;Wφ)=φ(A;softmax(Wφ))
φ表示上述Graph Transform操作;具体地,每一个Qi可以表示为:
Figure FDA0003645476650000022
tl表示
Figure FDA0003645476650000023
中第1类边的类型,
Figure FDA0003645476650000024
第1种类型在第1层的权重;
对于上述生成的异构信息网络,需要学习生成多种类型的元路径,采用如下网络结构:
将1*1卷积的 输出通道设置为C,然后通过Graph Transform Layer生成多个中间张量Qi∈RN*N*C,然后通过矩阵乘积地方式得到新的邻接矩阵集合地张量Al∈RN*N*C;此后,将GCN应用于Al∈RN*N*C的每个通道,并将其每个通道经过GCN后的结果拼接起来成为结果Z,可表示为:
Figure FDA0003645476650000025
其中,||是拼接操作,
Figure FDA0003645476650000031
Figure FDA0003645476650000032
的邻接矩阵,
Figure FDA0003645476650000033
是Ai的逆矩阵,I是单位矩阵,Ai是针对第i类edge的邻接矩阵;X∈RN*d是节点的特征矩阵,W∈Rd*d是权重矩阵,d是GCN中可以改变的超参数,随训练优化。
2.根据权利要求1所述的一种基于异构图注意力神经网络的暗网线索检测方法,其特征在于:步骤四所述的对异构信息网络的图结构进行学习,还可以采用HGT:
HGT中的关键成分是HGT layer,目的是获得目标节点的上下文表示:包括HGT layer从源节点聚合信息、获得目标节点上下文表示的过程,可以总结为三个部分:异构互注意力;异构消息传递;针对特定任务的聚合。
3.根据权利要求2所述的一种基于异构图注意力神经网络的暗网线索检测方法,其特征在于:所述的异构互注意力,具体如下:
Figure FDA0003645476650000034
Figure FDA0003645476650000035
Figure FDA0003645476650000036
Figure FDA0003645476650000037
关于上述计算过程的解释如下:
首先,对于第i个attention head ATT-headi(s,e,t),将类别为τ(s)的源节点s使用线性映射
Figure FDA0003645476650000038
映射成第i个Key向量Ki(s),其中h是attention heads的数目,
Figure FDA0003645476650000041
是每个attention head的向量维数;
同样地,对目标节点t,也使用线性映射Qi(t)将其映射为第i个Query向量;
接着,计算Qi(t)、Ki(s)间的相似度:
Figure FDA0003645476650000042
是为φ(e)类型的边维护的矩阵,用于捕获节点之间不同的语义关联,用一个先验张量μ∈RA*R*A来表示不同类型的边对目标节点贡献度的不同;
最后将h个attentionheads拼接起来得到每个节点对的注意力向量;对于每个目标节点t,聚合它所有邻居的注意力向量,并通过一层softmax,使得每个head的注意力系数和为1。
4.根据权利要求2所述的一种基于异构图注意力神经网络的暗网线索检测方法,其特征在于:所述的异构消息传递,具体如下:
从源节点向目标节点传递信息,这一步是和异构互注意力的计算并行的;异构信息传递的目标是将不同边的元关系合并到消息传递过程中,来缓解不同类型的节点和边分布的差异性;
对于节点对e=(s,t),其在multi-head过程中的Message可以用以下方法来计算:
MessageHGT(s,e,t)=||i∈[1,h]MSG-headi(s,e,t)
Figure FDA0003645476650000043
具体过程为:首先使用线性映射
Figure FDA0003645476650000044
将类别为τ(s) 的源节点s映射成第i个message向量;然后再对特定类型的边维护一个参数矩阵
Figure FDA0003645476650000051
最后再将h个message heads拼接,得到每个节点对的MessageHGT(s,e,t)。
5.根据权利要求2所述的一种基于异构图注意力神经网络的暗网线索检测方法,其特征在于:所述的针对特定任务的聚合,是对异构互注意力和异构信息传递的信息进行聚合。
6.根据权利要求5所述的一种基于异构图注意力神经网络的暗网线索检测方法,其特征在于;聚合的过程如下:
首先使用attention向量作为权重,对来自源节点s的相应信息进行平均,得到更新后的向量:
Figure FDA0003645476650000052
最后一步是以目标节点的类别τ(s)为索引,将目标节点t的向量映射回到对应类别的分布;具体来说,对更新后的向量
Figure FDA0003645476650000053
使用线性映射
Figure FDA0003645476650000054
Figure FDA0003645476650000055
然后将前一层的原始向量作为残差连接:
Figure FDA0003645476650000056
这样就得到了目标节点t在第1层的HGT的输出H(1)[t];
重复上述过程,通过建立多层HGTlayer,即可得到生成的异构信息网络中各节点包含其上下文表示的特征向量H[t]。
CN202010452949.0A 2020-05-26 2020-05-26 一种基于异构图注意力神经网络的暗网线索检测方法 Active CN111737551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010452949.0A CN111737551B (zh) 2020-05-26 2020-05-26 一种基于异构图注意力神经网络的暗网线索检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010452949.0A CN111737551B (zh) 2020-05-26 2020-05-26 一种基于异构图注意力神经网络的暗网线索检测方法

Publications (2)

Publication Number Publication Date
CN111737551A CN111737551A (zh) 2020-10-02
CN111737551B true CN111737551B (zh) 2022-08-05

Family

ID=72647697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010452949.0A Active CN111737551B (zh) 2020-05-26 2020-05-26 一种基于异构图注意力神经网络的暗网线索检测方法

Country Status (1)

Country Link
CN (1) CN111737551B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455258A (zh) * 2022-09-14 2022-12-09 中国电子科技集团公司第十五研究所 一种网络空间语言描述与分析方法及装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076464B (zh) * 2021-04-13 2022-07-22 国家计算机网络与信息安全管理中心 基于重构编码异常检测的多通道网络线索发现方法与装置
CN113420163B (zh) * 2021-06-25 2022-09-16 中国人民解放军国防科技大学 基于矩阵融合的异构信息网知识图谱补全方法和装置
CN113516379B (zh) * 2021-06-25 2022-08-16 深圳信息职业技术学院 一种智能质检的工单评分方法
CN114741429A (zh) * 2022-04-20 2022-07-12 西安电子科技大学 一种基于图神经网络的Web API关联模式挖掘方法
CN114826735B (zh) * 2022-04-25 2023-11-03 国家计算机网络与信息安全管理中心 一种基于异构神经网络技术的VoIP恶意行为检测方法及系统
CN114900364B (zh) * 2022-05-18 2024-03-08 桂林电子科技大学 基于溯源图和异构图神经网络的高级持续威胁检测方法
CN115002045B (zh) * 2022-07-19 2022-12-09 中国电子科技集团公司第三十研究所 一种基于孪生网络的暗网站点会话识别方法及系统
CN115001861B (zh) * 2022-07-20 2022-12-09 中国电子科技集团公司第三十研究所 一种基于混合指纹特征的暗网服务异常检测方法及系统
CN115883213B (zh) * 2022-12-01 2024-04-02 南京南瑞信息通信科技有限公司 基于连续时间动态异质图神经网络的apt检测方法及系统
CN116821452B (zh) * 2023-08-28 2023-11-14 南京邮电大学 一种图节点分类模型训练方法、图节点分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138561A (zh) * 2015-07-23 2015-12-09 中国测绘科学研究院 一种暗网空间数据采集方法及装置
CN106777339A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于异构网络嵌入模型识别作者的方法
CN109492132A (zh) * 2018-10-26 2019-03-19 广州市香港科大霍英东研究院 异构信息网络嵌入的方法、系统、终端及存储介质
CN111163057A (zh) * 2019-12-09 2020-05-15 中国科学院信息工程研究所 一种基于异构信息网络嵌入算法的用户识别系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11463472B2 (en) * 2018-10-24 2022-10-04 Nec Corporation Unknown malicious program behavior detection using a graph neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138561A (zh) * 2015-07-23 2015-12-09 中国测绘科学研究院 一种暗网空间数据采集方法及装置
CN106777339A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于异构网络嵌入模型识别作者的方法
CN109492132A (zh) * 2018-10-26 2019-03-19 广州市香港科大霍英东研究院 异构信息网络嵌入的方法、系统、终端及存储介质
CN111163057A (zh) * 2019-12-09 2020-05-15 中国科学院信息工程研究所 一种基于异构信息网络嵌入算法的用户识别系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455258A (zh) * 2022-09-14 2022-12-09 中国电子科技集团公司第十五研究所 一种网络空间语言描述与分析方法及装置

Also Published As

Publication number Publication date
CN111737551A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111737551B (zh) 一种基于异构图注意力神经网络的暗网线索检测方法
CN112241481B (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
CN113407759B (zh) 一种基于自适应特征融合的多模态实体对齐方法
CN113656596B (zh) 一种基于三元组筛选融合的多模态实体对齐方法
Mu et al. Graph attention networks for neural social recommendation
CN112381179A (zh) 一种基于双层注意力机制的异质图分类方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
Qiu et al. An adaptive social spammer detection model with semi-supervised broad learning
Cong Personalized recommendation of film and television culture based on an intelligent classification algorithm
CN111709523A (zh) 一种基于内部集成的宽度学习方法
Liu et al. Learning to rank complex network node based on the self-supervised graph convolution model
Muslihi et al. Detecting SQL injection on web application using deep learning techniques: a systematic literature review
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和系统
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN111079930A (zh) 数据集质量参数的确定方法、装置及电子设备
Mariappan et al. Adaptive partitioning‐based copy‐move image forgery detection using optimal enabled deep neuro‐fuzzy network
CN113254580B (zh) 一种特殊群体搜索方法及系统
Rahebi et al. Digital image edge detection using an ant colony optimization based on genetic algorithm
Chulif et al. Herbarium-Field Triplet Network for Cross-domain Plant Identification. NEUON Submission to LifeCLEF 2020 Plant.
Huynh et al. An efficient model for copy-move image forgery detection
Xiong et al. NetCycle+: A framework for collective evolution inference in dynamic heterogeneous networks
CN115580547A (zh) 基于网络数据流间时空相关性的网站指纹识别方法和系统
CN115952438A (zh) 社交平台用户属性预测方法、系统、移动设备及存储介质
CN115618926A (zh) 一种面向纳税人企业分类的重要因子提取方法及装置
Xie et al. PPFGED: Federated learning for graphic element detection with privacy preservation in multi-source substation drawings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant