CN112949748A - 基于图神经网络的动态网络异常检测算法模型 - Google Patents

基于图神经网络的动态网络异常检测算法模型 Download PDF

Info

Publication number
CN112949748A
CN112949748A CN202110317070.XA CN202110317070A CN112949748A CN 112949748 A CN112949748 A CN 112949748A CN 202110317070 A CN202110317070 A CN 202110317070A CN 112949748 A CN112949748 A CN 112949748A
Authority
CN
China
Prior art keywords
graph
network
representation
anomaly detection
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110317070.XA
Other languages
English (en)
Inventor
王宇
张凤斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202110317070.XA priority Critical patent/CN112949748A/zh
Publication of CN112949748A publication Critical patent/CN112949748A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于图神经网络的动态网络异常检测算法模型,将图结构、属性以及动态变化的信息引入模型中,来学习进行异常检测的表示向量。本发明将改进图上无监督的图神经网络框架DGI(Deep graph infomax),然后提出一种面向动态网络无监督表示学习的算法Dynamic‑DGI,该方法能够同时提取网络本身的异常特性以及网络变化的异常特性,用于表示向量的学习。该算法除能够有效提升异常检测准确度外,也能够挖掘网络中存在的有实际意义的异常。针对于目前动态网络异常检测存在的问题,发明贡献包括:将图神经网络应用于动态网络异常检测,从而使网络异常检测可以同时抓住结构上的异常和属性上的异常;提出Dynamic‑DGI框架,从而使模型能够脱离标记数据来学习网络变化的一般特征。

Description

基于图神经网络的动态网络异常检测算法模型
技术领域
基于图神经网络的动态网络异常检测算法模型,属于网络安全领域。
背景技术
网络结构数据因其强大的表示能力,在过去几年间得到了广泛的关注。现实生活中的网络分为静态网络和动态网络:静态网络可以理解为不随时间进行任何变化的网络,比如某时间点上某城市的网络交通;相比于静态网络,动态变化的网络在现实世界中更加普遍,比如社交网络、账户之间的转账交易网络以及计算机通信网络等。在这些随时变化的网络中可能出现一些元素,其变化规律或特征因与一般元素不同而表现出异常的行为,比如计算机网络中具有攻击行为的通信、社交网络中虚假信息的传播以及学术合著网络中不同领域学者之间突然的合作等。尽早地挖掘网络中存在的这些异常,对于维护社会稳定、防御网络攻击或发现新兴的交叉学科方向具有重要的意义。
如何在动态网络中挖掘异常元素是比较困难的问题,其中如何解决特征表示成为了重中之重。为了解决特征表示问题,本发明引入图的表示学习技术,表示学习是随着深度学习的出现而逐渐发展起来的,最经典的图上学习技术可以追溯到2014年Perozzsi等人提出的Deepwalk。学得的网络表示包含了很多有用信息,比如越相似的节点其表示向量之间的距离越小等,这为后续的机器学习提供了良好的输入特征。
发明内容
本发明涉及一种基于图神经网络的动态网络异常检测算法模型,将图结构、属性以及动态变化的信息引入模型中,来学习进行异常检测的表示向量。具体地,本发明将改进图上无监督的图神经网络框架DGI(Deepgraphinfomax),然后提出一种面向动态网络无监督表示学习的算法Dynamic-DGI,该方法能够同时提取网络本身的异常特性以及网络变化的异常特性,用于表示向量的学习。该算法除能够有效提升异常检测准确度外,也能够挖掘网络中存在的有实际意义的异常。针对于目前动态网络异常检测存在的问题,本发明主要的贡献包括:将图神经网络应用于动态网络异常检测,从而使网络异常检测可以同时抓住结构上的异常和属性上的异常;提出Dynamic-DGI的时序网络表示学习框架,从而使模型能够脱离标记数据来学习网络变化的一般特征。
为了达到上述目的,本发明提出一种基于图神经网络的动态网络异常检测算法模型,其算法步骤如下:
步骤一:首先使用图神经网络来提取某时刻图的属性特征和结构特征。
步骤二:然后使用最大化局部与全局表示互信息的策略来进行图表示向量的学习。
步骤三:接着利用长短路记忆模型来结合不同时刻图的信息提取图的变化特征。
步骤四:最后,使用数据流上的异常检测算法来给出异常分数,算法结束。
优选的,在所述基于图神经网络的异常检测算法模型,所述步骤一,图神经网络的一层操作可以分为节点信息传播和信息拼接两个步骤,如下所示:
Figure BDA0002991595680000021
Figure BDA0002991595680000022
其中,
Figure BDA0002991595680000023
为第L层的节点u的隐含表示,
Figure BDA0002991595680000024
为第L层u的邻居信息的汇聚,aggregatel(·)和combinel(·)分别为第L层的聚合操作和更新操作。本发明将通过将图转换成对应的线图(line graph)来获取以边为基本元素的网络,其转换规则如下所示:
Figure BDA0002991595680000025
其中,ei,from为边i的源节点,ei,to为边i的目标节点,对应的线图上的图提取网络r如下所示:
Figure BDA0002991595680000026
使用两组图卷积神经网络结合JKNetwork的构造分别从原图和其对应的线图种提取特征并整合,在进行两部分的特征提取之后,可以得到一个图特征提取框架,该框架将两部分信息进行拼接并做一个线性变换,从而获得所有节点和边的隐含表示。
优选的,在所述基于图神经网络的异常检测算法模型,所述步骤二,通过一个读取函数从节点和边的表示向量种获得图的全局表示,再用最大化互信息的做法进行全局表示向量互信息和局部表示向量互信息的最大化训练。为了使模型更好的抓住子图中的异常特征,本发明提出一种贪心读取的方法,利用当前状态信息对数据流中的边进行采样。首先定义当前状态为Ct∈Rd,其中d表示向量的维度。令D:Rd×Rd→R为两表示向量之间的距离,则边的每一维的读取优先度为
Figure BDA0002991595680000031
其中x∈uniform(0,1),同时encoder(·)为边空间到表示空间的函数,该方法可以将每一维中与当前状态相差最多的信息读取出来,从而能够使当前的异常信息流入图的表示空间中。最终的损失函数下所示:
Figure BDA0002991595680000032
其中,s是使用读取函数从原图的特征隐含表示中获得全图的总结表示。D为一个判别器,用来使用全局表示来分别给正例和负例进行打分,通过给正例尽可能打高分并给负例打低分来进行图的表示向量的学习。
优选的,在所述基于图神经网络的异常检测算法模型,所述步骤三,本发明提出动态网络表示学习框架Dynamic-DGI,该方法结合LSTM和互信息最大化算法来进行动态网络的表示学习。假设再t时刻有子图Gt=(Xt,At)到来,首先使用图神经网络获取其结构特征和属性特征,并使用读取函数获得其全局表示St;然后,将St作为t时刻的输入送入长短路记忆网络中来获得加入变化信息后的向量表示,在进行模型训练的过程中加入变化损失式来约束LSTM的特征提取,如下所示:
Figure BDA0002991595680000033
结合L1和L2可以得到模型的总损失函数,如下所示,其中α和β为超参数:
Figure BDA0002991595680000034
优选的,在所述基于图神经网络的异常检测算法模型,所述步骤四,在使用数据流上得聚类算法时本发明根据节点到其最近的聚类中心的距离作为评价异常分数的标准,并同时更新聚类中心,Streaming k-means使用延迟系数来动态地更新聚类中心。令
Figure BDA0002991595680000041
为已经存在的n0个数据点,此时在时间节点t′有n′个新的数据
Figure BDA0002991595680000042
到来,新的聚类中心c,延迟系数为a,则对应的聚类中心更新为如下所示:
Figure BDA0002991595680000043
之后定义异常分数为数据点到离其最近的聚类中心的距离,如下所示:
scoreanomaly=||cnearest-xi||2
附图说明
图1为本发明基于图神经网络异常检测的算法模型流程图。
具体实施方式
下面将结合本发明实施的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实例仅仅是本发明一部分例子,而不是全部,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于图神经网络异常检测的算法模型,其基本实现过程如下:
步骤一:首先使用图神经网络来提取某时刻图的属性特征和结构特征。
步骤二:然后使用最大化局部与全局表示互信息的策略来进行图表示向量的学习。
步骤三:接着利用长短路记忆模型来结合不同时刻图的信息提取图的变化特征。
步骤四:最后,使用数据流上的异常检测算法来给出异常分数,算法结束。
更为具体地,在步骤一中,在IDS2017和注入异常的Digg数据集上进行测试,对于IDS2017使用其周三一天的数据进行网络异常检测。将1分钟内经过的所有边作为一个子图对数据集进行划分,总共获得了1008个子图,对于每一个子图,当图中的被标注为攻击边的数目多于200时,认为其为异常图。对于Digg数据集,将每100个时间单位内的边作为那一时刻的图对数据集进行划分,并得出共124个子图,将前一半时间的图作为训练集,后一半时间的图作为测试集。
更为具体地,在步骤二中,在测试集中随机选取10%的图作为异常图,并在其内注入异常边。异常注入的方法是随机选取图内的3条边并随机复制30次,之后在没有异常的训练集上训练模型,并在测试集上测试结果。
更为具体地,在步骤三中,使用最大距离读取函数,使模型学习20轮,再使用异常检测算法对学习得到的表示向量进行异常检测之后计算AUC值来评测计算结果。
更为具体地,在步骤四中,设置表示向量的维度为512维并运行10次取其平均AUC值作为结果。

Claims (5)

1.基于图神经网络的动态网络异常检测算法模型,主要包括以下步骤:
步骤一:首先使用图神经网络来提取某时刻图的属性特征和结构特征;
步骤二:然后使用最大化局部与全局表示互信息的策略来进行图表示向量的学习;
步骤三:接着利用长短路记忆模型来结合不同时刻图的信息提取图的变化特征;
步骤四:最后,使用数据流上的异常检测算法来给出异常分数,算法结束。
2.根据权利要求1所述的一种基于图神经网络的异常检测算法,其特征在于,所述步骤一,图神经网络的一层操作可以分为节点信息传播和信息拼接两个步骤,如下所示:
Figure FDA0002991595670000011
Figure FDA0002991595670000012
其中,
Figure FDA0002991595670000013
为第L层的节点u的隐含表示,
Figure FDA0002991595670000014
为第L层u的邻居信息的汇聚,aggregatel(·)和combinel(·)分别为第L层的聚合操作和更新操作,并且本发明将通过将图转换成对应的线图(line graph)来获取以边为基本元素的网络,其转换规则如下所示:
Figure FDA0002991595670000015
其中,ei,from为边i的源节点,ei,to为边i的目标节点,对应的线图上的图正提取网络r如下所示:
Figure FDA0002991595670000016
使用两组图卷积神经网络结合JK Network的构造分别从原图和其对应的线图种提取特征并整合,在进行两部分的特征提取之后,可以得到一个图特征提取框架,该框架将两部分信息进行拼接并做一个线性变换,从而获得所有节点和边的隐含表示。
3.根据权利要求1所述的基于图神经网络的异常检测算法,其特征在于,所述步骤二,通过一个读取函数从节点和边的表示向量种获得图的全局表示,再用最大化互信息的做法进行全局表示向量互信息和局部表示向量互信息的最大化训练,为了使模型更好的抓住子图中的异常特征,本发明提出一种贪心读取的方法,利用当前状态信息对数据流中的边进行采样,首先定义当前状态为Ct∈Rd,其中d表示向量的维度,令D:Rd×Rd→R为两表示向量之间的距离,则边的每一维的读取优先度为
Figure FDA0002991595670000021
其中x∈uniform(0,1),同时encoder(·)为边空间到表示空间的函数,该方法可以将每一维中与当前状态相差最多的信息读取出来,从而能够使当前的异常信息流入图的表示空间中,最终的损失函数下所示:
Figure FDA0002991595670000022
其中,s是使用读取函数从原图的特征隐含表示中获得全图的总结表示,D为一个判别器,用来使用全局表示来分别给正例和负例进行打分,通过给正例尽可能打高分并给负例打低分来进行图的表示向量的学习。
4.根据权利要求1所述的基于图神经网络的异常检测算法,其特征在于,在步骤三,本发明提出动态网络表示学习框架Dynamic-DGI,该方法结合LSTM和互信息最大化算法来进行动态网络的表示学习。
5.根据权利要求1所述的基于图神经网络的异常检测算法,其特征在于,在步骤四在使用数据流上得聚类算法时本发明根据节点到其最近的聚类中心的距离作为评价异常分数的标准,并同时更新聚类中心,Streaming k-means使用延迟系数来动态地更新聚类中心。
CN202110317070.XA 2021-03-23 2021-03-23 基于图神经网络的动态网络异常检测算法模型 Pending CN112949748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110317070.XA CN112949748A (zh) 2021-03-23 2021-03-23 基于图神经网络的动态网络异常检测算法模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110317070.XA CN112949748A (zh) 2021-03-23 2021-03-23 基于图神经网络的动态网络异常检测算法模型

Publications (1)

Publication Number Publication Date
CN112949748A true CN112949748A (zh) 2021-06-11

Family

ID=76227778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110317070.XA Pending CN112949748A (zh) 2021-03-23 2021-03-23 基于图神经网络的动态网络异常检测算法模型

Country Status (1)

Country Link
CN (1) CN112949748A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741688A (zh) * 2022-03-14 2022-07-12 北京邮电大学 一种无监督的主机入侵检测方法及系统
CN114915444A (zh) * 2022-03-23 2022-08-16 中国科学院信息工程研究所 基于图神经网络的DDoS攻击检测方法及装置
CN115883213A (zh) * 2022-12-01 2023-03-31 南京南瑞信息通信科技有限公司 基于连续时间动态异质图神经网络的apt检测方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741688A (zh) * 2022-03-14 2022-07-12 北京邮电大学 一种无监督的主机入侵检测方法及系统
CN114915444A (zh) * 2022-03-23 2022-08-16 中国科学院信息工程研究所 基于图神经网络的DDoS攻击检测方法及装置
CN114915444B (zh) * 2022-03-23 2023-03-10 中国科学院信息工程研究所 基于图神经网络的DDoS攻击检测方法及装置
CN115883213A (zh) * 2022-12-01 2023-03-31 南京南瑞信息通信科技有限公司 基于连续时间动态异质图神经网络的apt检测方法及系统
CN115883213B (zh) * 2022-12-01 2024-04-02 南京南瑞信息通信科技有限公司 基于连续时间动态异质图神经网络的apt检测方法及系统

Similar Documents

Publication Publication Date Title
CN112949748A (zh) 基于图神经网络的动态网络异常检测算法模型
CN109327480B (zh) 一种多步攻击场景挖掘方法
CN113095948B (zh) 一种基于图神经网络的多源异构网络用户对齐方法
CN103020163A (zh) 一种网络中基于节点相似度的网络社区划分方法
CN113297429B (zh) 一种基于神经网络架构搜索的社交网络链路预测方法
CN112464107B (zh) 一种基于多标签传播的社交网络重叠社区发现方法及装置
Gao et al. Evolutionary community discovery in dynamic networks based on leader nodes
CN110533253A (zh) 一种基于异构信息网络的科研合作关系预测方法
CN113254669A (zh) 基于知识图谱的配电网cim模型信息补全方法及系统
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
CN114676292B (zh) 一种超网络高影响力节点排序方法
CN113887698B (zh) 基于图神经网络的整体知识蒸馏方法和系统
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN109977131A (zh) 一种房型匹配系统
CN112235254B (zh) 一种高速主干网中Tor网桥的快速识别方法
CN109255433B (zh) 一种基于相似性的社区检测的方法
CN116467663A (zh) 一种有向动态图数据异常检测方法及系统
CN116150352A (zh) 群体划分方法及相关装置
CN112347369B (zh) 基于网络表征的集成学习动态社会网络链路预测方法
CN111930960A (zh) 一种基于知识图谱技术的光传送网知识的测试方法
CN112445939A (zh) 一种社交网络群体发现系统、方法及存储介质
CN112115174A (zh) 一种基于图计算技术的kyc方法及系统
CN112714080B (zh) 一种基于spark图算法的互连关系分类方法及系统
CN110427569B (zh) 一种基于粗糙集理论的改进密度峰值重叠社区发现方法
CN118245976A (zh) 一种多标签网络上的时序周期社群挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210611