CN115329838A - 一种考虑类别不平衡的属性图异常检测方法 - Google Patents

一种考虑类别不平衡的属性图异常检测方法 Download PDF

Info

Publication number
CN115329838A
CN115329838A CN202210801859.7A CN202210801859A CN115329838A CN 115329838 A CN115329838 A CN 115329838A CN 202210801859 A CN202210801859 A CN 202210801859A CN 115329838 A CN115329838 A CN 115329838A
Authority
CN
China
Prior art keywords
node
nodes
abnormal
class
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210801859.7A
Other languages
English (en)
Inventor
熊盛武
李业威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202210801859.7A priority Critical patent/CN115329838A/zh
Publication of CN115329838A publication Critical patent/CN115329838A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种考虑类别不平衡的属性图异常检测方法,涉及属性图异常检测领域。本发明考虑了属性图异常检测中的一个关键问题,类别不平衡问题,分别在属性图节点表示阶段考虑类别不平衡问题,对于正常节点,节点表示学习阶段仅聚合部分邻居节点信息时而不是全部邻居节点信息,对于异常节点,不仅能够聚合邻居节点信息,还能够聚合其他异常节点的信息。同时在模型训练阶段也考虑到模型训练时会趋于多数类学习,因此通过在节点表示空间对异常类节点表示进行合成过采样,生成一部分额外的异常类节点表示,使得训练时类别趋于平衡,从而提升最后节点分类的效果。

Description

一种考虑类别不平衡的属性图异常检测方法
技术领域
本发明涉及属性图异常检测领域,具体涉及一种考虑类别不平衡的属性图异常检测方法,考虑实际数据集中存在的正负样本类别不平衡的问题,从而更加有效地识别出属性图中的异常节点。
背景技术
当今社会,网络已经成为社会活动,人类活动密不可分的一部分,人类在网络空间中的活跃程度越来越高。然而,在复杂的社交网络中,充斥着大量的虚假信息与恶意链接,这些虚假信息、恶意网站链接等在社交网络中的传播速度远远超过现实世界中信息传播的速度,一条虚假信息通过社交网络中各式各样的关系网传播到五湖四海的用户账号中,可能导致数以万计的用户上当受骗,网络欺诈事件层出不穷。某些纯粹恶意的社交账号发送垃圾广告严重污染了网络安全,影响其他正常用户的使用体验。因此,快速、有效的识别出这些异常账号对于净化网络环境有着重要意义,而属性图异常检测便是其中的手段之一。
属性图异常检测不仅仅需要考虑节点自身的特征属性信息,还需要考虑节点与节点之间的连接关系信息。随着神经网络的发展,最常用的方法便是使用图神经网络与传统方法联合起来进行图异常检测的方法,通过图神经网络学习到所有节点的节点表示,然后再使用传统方法针对节点表示从而识别异常节点。
类别不平衡问题在属性图异常检测模型中的研究也比较突出,一方面,异常检测任务本身与类别不平衡问题是密不可分的,属性图异常检测任务旨在识别出与大多数节点存在较大差异的节点,因此异常的节点在数据集中所占的比例远远小于正常节点。另一方面,类别不平衡问题在模型训练过程中也会使得模型偏向于向多数类学习,使得最后识别异常节点的能力降低。针对类别不平衡问题,现有的属性图异常检测方法主要集中在以下两个方面:仅在图神经网络学习节点表示过程中,对正常节点的邻居节点进行欠采样,对异常节点的邻居节点进行过采样,然后聚合邻居节点信息得到节点表示,用于后续的异常检测任务;在图神经网络学习节点表示阶段不考虑节点的类别不平衡问题,仅在训练阶段使用代价损失函数等增加模型在异常节点预测错误的情况下损失值从而针对异常节点学习。
综上所述,现有的属性图异常检测方法依然存在识别异常节点能力低的问题。
发明内容
为了解决上述技术问题,本发明提出了一种考虑类别不平衡的属性图异常检测方法,使用图神经网络学习到所有的节点表示,在学习节点表示时考虑正负样本类别不平衡的问题从而引入邻居节点采样器与类别平衡的节点采样器作为图神经网络的采样器,同时在模型训练阶段,利用SMOTE思想,得到节点表示后,在节点表示空间对少数类节点进行过采样,使得模型训练时正负样本数量趋于平衡。
本发明具体包含以下步骤:
步骤1,针对社交网络系统,提取系统中用户节点、用户的关联关系信息从而得到这些用户节点连接信息即节点的拓扑结构、每个节点自身的一些内在特征即属性信息,从而将真实世界的结构信息抽象成为属性图数据集;
步骤2:对于步骤1抽象出来的属性图数据集,使用考虑类别不平衡的图神经网络GNN得到所节点的潜在表示,其中图神经网络GNN包括节点采样器,类别平衡的邻居节点采样器与邻居节点信息聚合器;
步骤3,通过步骤2得到属性图的全部节点潜在表示,利用SOMTE思想,在潜在表示空间对异常类节点进行合成过采样从而新生成一部分异常类节点的潜在表示,得到数据增强的节点表示;
步骤4,使用多层感知机MLP获取数据增强后的节点的异常得分,同时设定异常得分的阈值,当节点的异常得分大于阈值时则判定当前节点即为异常节点。
进一步的,步骤2中节点采样器通过节点的类别信息与全局类别信息得到节点的采样概率,其计算公式如下:
Figure BDA0003734175860000021
其中,p(v)表示节点v的采样概率,
Figure BDA0003734175860000022
表示当前节点v所属类别在训练集中出现的频率,
Figure BDA0003734175860000023
表示节点v的类别信息,其中
Figure BDA0003734175860000024
标识节点v为异常节点,
Figure BDA0003734175860000025
标识节点v为正常节点,∝表示正比于,
Figure BDA0003734175860000026
表示当前节点的邻居节点的数量,
Figure BDA0003734175860000027
Figure BDA0003734175860000028
是对原始邻接矩阵A的归一化操作,I为单位矩阵,D是以每个节点的度作为元素的对角矩阵。最后的采样概率与节点邻居节点的数量呈现正相关,p(v)值较高表示每次在训练过程中当前节点被选择进行训练的可能性更大。
进一步的,步骤2中类别平衡的邻居节点采样器,考虑到了正常节点间存在冗余的连接,同时异常节点与同类节点的连接较少,使得聚合邻居节点属性信息更加具有区分性;
对于正常节点,即负样本,其原始邻居节点集记为
Figure BDA0003734175860000029
其第l层欠采样邻居节点集记为
Figure BDA00037341758600000210
其计算公式如下:
Figure BDA0003734175860000031
其中
Figure BDA0003734175860000032
决定了节点u必然是当前节点v的邻居节点,同时通过距离计算公式
Figure BDA0003734175860000033
来去除某些相似度过低的节点,ρ是一个超参数,用于控制保留的邻居节点与目标正常节点之间相似度;
Figure BDA0003734175860000034
使用参数化的方式计算节点间的相似度,通过一层全连接层,使用节点的潜在表示与真实的标签信息得到节点间的相似度,其计算公式如下:
Figure BDA0003734175860000035
其中σ为激活函数,采用sigmoid作为激活函数,Hl(u)为节点u的第l层的节点表示,初始为
Figure BDA0003734175860000036
即为节点u初始属性信息,Wl为全连接层的参数;
对于异常节点,即正样本,其欠采样过程与正常节点的采样过程相似
Figure BDA0003734175860000037
其中ρ-为正样本欠采样超参数,用于控制保留的邻居节点与目标异常节点间的相似度;同时由于异常节点仅存在较少的与其他异常节点的连接,因此还需对异常节点的同类节点进行过采样,其同类过采样邻居节点集记为
Figure BDA0003734175860000038
计算方式为:
Figure BDA0003734175860000039
其中ρ+为正样本过采样超参数,用于其他异常节点与目标异常节点间的相似度,
Figure BDA00037341758600000310
则保证过采样邻居节点均是同类节点,
Figure BDA00037341758600000311
表示节点v的类别信息,其中
Figure BDA00037341758600000312
标识节点v为异常节点,
Figure BDA00037341758600000313
标识节点v为正常节点。
进一步的,用聚合器聚合邻居节点的信息从而得到当前节点的潜在表示,对于正常节点,其l层潜在表示可通过以下公式计算:
Figure BDA00037341758600000314
而对于异常节点,其l层潜在表示需要补充过采样节点的信息,因此公式变为:
Figure BDA00037341758600000315
其中
Figure BDA00037341758600000316
表示级联操作,AGG(*)采用均值聚合方法,Ul为权重矩阵。
进一步的,步骤3中新生成异常类的节点表示H′(v)可以通过如下公式计算:
H′(v)=(1-δ)*Hl(v)+δ*Hl(minof(v))
其中Hl(v)为节点v的l层潜在表示,δ是一个随机值,其值介于[0,1]之间,用于平衡原始节点表示与距离最小同类节点表示,而minof(v)寻找与节点v距离最小的同类节点u来作为新生成的异常节点的参考项,使用
Figure BDA00037341758600000317
保证其类别一致,
Figure BDA00037341758600000318
表示节点v的类别信息,其中
Figure BDA0003734175860000041
标识节点v为异常节点,
Figure BDA0003734175860000042
标识节点v为正常节点;
Figure BDA0003734175860000043
因此完整的节点潜在表示如下所示:
Figure BDA0003734175860000044
其中节点u为通过SMOTE合成的新的异常类节点,其数量少于正负样本差异个数,它们之间的数量关系如下:
Figure BDA0003734175860000045
|·|表示数量,ALLC(0)与ALLC(1)分别表示所有正负样本,系数μ则控制最后合成的少数类样本的数量,其值介于0到1之间。
进一步的,步骤4的具体实现方式如下;
通过步骤3得到数据增强的节点表示后,通过使用多层感知机获取到每个节点的异常分数,其分数的计算公式如下:
score(v)=Sigmoid(Wm*Z(v))
其中Wm是多层感知机的参数,Z(v)为节点v的完整潜在表示,Sigmoid为激活函数,获取到节点的异常分数后,通过与阈值的对比判断节点是否为异常节点。
进一步的,还包括步骤5,以ROC-AUC,GMean作为评价指标判断最后的异常检测的效果。
本发明的有益效果在于:本发明考虑了属性图异常检测中的一个关键问题,类别不平衡问题,分别在属性图节点表示阶段考虑类别不平衡问题,对于正常节点,节点表示学习阶段仅聚合部分邻居节点信息时而不是全部邻居节点信息,对于异常节点,不仅能够聚合邻居节点信息,还能够聚合其他异常节点的信息。同时在模型训练阶段也考虑到模型训练时会趋于多数类学习,因此通过在节点表示空间对异常类节点表示进行合成过采样,生成一部分额外的异常类节点表示,使得训练时类别趋于平衡,从而提升最后节点分类的效果。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的原理图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1和图2,本发明提供的一种考虑类别不平衡的属性图异常检测方法,包括以下步骤:
步骤1:针对社交网络等真实世界的网络系统,提取系统中用户信息、用户的关联关系信息,从而得到这些用户节点连接信息,即节点的拓扑结构、每个节点自身的一些内在特征即属性信息,从而将真实世界的结构信息抽象成为属性图数据集,以YelpChi数据集为例,其数据收集于Yelp点评网站,共有45,954节点,其中14.5%为异常节点;3,846,979条边;每个节点有100维度的特征向量即为节点的属性信息,将其记为
Figure BDA0003734175860000051
其中
Figure BDA0003734175860000052
为节点集,
Figure BDA0003734175860000053
为拓扑结构也称邻接矩阵,其中A(u,v)=1时表示节点对<,v>之间存在连接,当其值为0时表示节点对之间不存在连接,
Figure BDA0003734175860000054
为节点v的属性信息,
Figure BDA0003734175860000055
表示节点v的类别信息,其中
Figure BDA0003734175860000056
标识节点v为异常节点,
Figure BDA0003734175860000057
标识节点v为正常节点。
步骤2:使用考虑类别不平衡的图神经网络(GNN)得到所有节点的潜在表示,其中图神经网络(GNN)包括节点采样器,类别平衡的邻居节点采样器与邻居节点信息聚合器。使用步骤如下;
步骤2.1:节点采样器,通过节点的类别信息与全局类别信息得到节点的采样概率,其计算公式如下:
Figure BDA0003734175860000058
其中,p(v)表示节点v的采样概率,
Figure BDA0003734175860000059
表示当前节点v所属类别在训练集中出现的频率,∝表示正比于,
Figure BDA00037341758600000510
表示当前节点的邻居节点的数量,
Figure BDA00037341758600000511
是对原始邻接矩阵A的归一化操作,I为单位矩阵,D是以每个节点的度作为元素的对角矩阵。最后的采样概率与节点邻居节点的数量呈现正相关,p(v)值较高表示每次在训练过程中当前节点被选择进行训练的可能性更大;
步骤2.2:类别平衡的邻居节点采样器,考虑到正常节点间存在冗余的连接,同时异常节点与同类节点的连接较少,因而设计了类别平衡的邻居节点采样器,使得聚合邻居节点属性信息更加具有区分性;
对于正常节点(负样本),其原始邻居节点集记为
Figure BDA00037341758600000512
其第l层欠采样邻居节点集记为
Figure BDA00037341758600000513
其计算公式如下:
Figure BDA00037341758600000514
其中
Figure BDA00037341758600000515
决定了节点u必然是当前节点v的邻居节点,同时通过距离计算公式
Figure BDA00037341758600000516
来去除某些相似度过低的节点,ρ是一个超参数,用于控制保留的邻居节点与目标正常节点之间相似度。以往大多数方法都是在节点特征空间计算两个节点的欧式空间距离从而得到节点间的相似度,即
Figure BDA00037341758600000517
在这里使用参数化的计算方式,通过一层全连接层,使用节点的潜在表示与真实的标签信息得到节点间的相似度,因此其计算公式更改如下:
Figure BDA0003734175860000061
其中σ为激活函数,通常采用sigmoid作为激活函数,Hl(u)为节点u的第l层的节点表示,初始为
Figure BDA0003734175860000062
即为节点u初始属性信息,Wl为全连接层的参数。
对于异常节点(正样本),其欠采样过程与正常节点的采样过程相似
Figure BDA0003734175860000063
其中ρ-为正样本欠采样超参数,用于控制保留的邻居节点与目标异常节点间的相似度。同时由于异常节点仅存在较少的与其他异常节点的连接,因此还需对异常节点的同类节点进行过采样,其同类过采样邻居节点集记为
Figure BDA0003734175860000064
计算方式为:
Figure BDA0003734175860000065
其中ρ+为正样本过采样超参数,用于其他异常节点与目标异常节点间的相似度,
Figure BDA0003734175860000066
表示节点的类别信息,
Figure BDA0003734175860000067
则保证过采样邻居节点均是同类节点。
步骤2.3:使用聚合器聚合邻居节点的信息从而得到当前节点的潜在表示,对于正常节点,其l层潜在表示可通过以下公式计算:
Figure BDA0003734175860000068
而对于异常节点,其l层潜在表示需要补充过采样节点的信息,因此公式变为:
Figure BDA0003734175860000069
其中
Figure BDA00037341758600000610
表示级联操作,AGG(*)采用均值聚合方法,Ul为权重矩阵。
步骤3:通过步骤2得到属性图的全部节点潜在表示,在潜在表示空间对异常类节点进行合成过采样从而新生成一部分异常类节点的潜在表示,得到数据增强的节点表示,新生成异常类的节点表示H′(v)可以通过如下公式计算:
H′(v)=(1-δ)*Hl(v)+δ*Hl(minof(v))
其中Hl(v)为节点v的l层潜在表示,δ是一个随机值,其值介于[0,1]之间,主要用于平衡原始节点表示与距离最小同类节点表示,而minof(v)寻找与节点v距离最小的同类节点u来作为新生成的异常节点的参考项,使用
Figure BDA00037341758600000611
保证其类别一致。
Figure BDA00037341758600000612
因此完整的节点潜在表示如下所示:
Figure BDA00037341758600000613
其中节点u为通过SMOTE合成的新的异常类节点,其数量一般少于正负样本差异个数,它们之间的数量关系如下:
Figure BDA0003734175860000071
|·|表示数量,ALLC(0)与ALLC(1)分别表示所有正负样本(正常样本与异常样本),系数μ则控制最后合成的少数类样本的数量,其值介于0到1之间。
步骤4:使用多层感知机(MLP)得到节点的异常得分,同时设定异常得分的阈值,当节点的异常得分大于阈值时则判定当前节点即为异常节点。
通过步骤3得到数据增强的节点表示后,通过使用多层感知机获取到每个节点的异常分数,其分数的计算公式如下:
score(v)=Sigmoid(Wm*Z(v))
其中Wm是多层感知机的参数,Z(v)为节点v的完整潜在表示,Sigmoid为激活函数。获取到节点的异常分数后,通过与阈值的对比判断节点是否为异常节点,最后以ROC-AUC,GMean等作为评价指标判断最后的效果。
应当理解的是,本说明书未详细阐述的部分均属于现有技术;上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种考虑类别不平衡的属性图异常检测方法,其特征在于,包括以下步骤:
步骤1,针对社交网络系统,提取系统中用户节点、用户的关联关系信息从而得到这些用户节点连接信息即节点的拓扑结构、每个节点自身的一些内在特征即属性信息,从而将真实世界的结构信息抽象成为属性图数据集;
步骤2:对于步骤1抽象出来的属性图数据集,使用考虑类别不平衡的图神经网络GNN得到所节点的潜在表示,其中图神经网络GNN包括节点采样器,类别平衡的邻居节点采样器与邻居节点信息聚合器;
步骤3,通过步骤2得到属性图的全部节点潜在表示,利用SOMTE思想,在潜在表示空间对异常类节点进行合成过采样从而新生成一部分异常类节点的潜在表示,得到数据增强的节点表示;
步骤4,使用多层感知机MLP获取数据增强后的节点的异常得分,同时设定异常得分的阈值,当节点的异常得分大于阈值时则判定当前节点即为异常节点。
2.如权利要求1所述的一种考虑类别不平衡的属性图异常检测方法,其特征在于:步骤2中节点采样器通过节点的类别信息与全局类别信息得到节点的采样概率,其计算公式如下:
Figure FDA0003734175850000011
其中,p(v)表示节点v的采样概率,
Figure FDA0003734175850000012
表示当前节点v所属类别在训练集中出现的频率,
Figure FDA0003734175850000013
表示节点v的类别信息,其中
Figure FDA0003734175850000014
标识节点v为异常节点,
Figure FDA0003734175850000015
标识节点v为正常节点,∝表示正比于,
Figure FDA0003734175850000016
表示当前节点的邻居节点的数量,
Figure FDA0003734175850000017
Figure FDA0003734175850000018
是对原始邻接矩阵A的归一化操作,I为单位矩阵,D是以每个节点的度作为元素的对角矩阵。最后的采样概率与节点邻居节点的数量呈现正相关,p(v)值较高表示每次在训练过程中当前节点被选择进行训练的可能性更大。
3.如权利要求1所述的一种考虑类别不平衡的属性图异常检测方法,其特征在于:步骤2中类别平衡的邻居节点采样器,考虑到了正常节点间存在冗余的连接,同时异常节点与同类节点的连接较少,使得聚合邻居节点属性信息更加具有区分性;
对于正常节点,即负样本,其原始邻居节点集记为
Figure FDA0003734175850000019
其第l层欠采样邻居节点集记为
Figure FDA00037341758500000110
其计算公式如下:
Figure FDA00037341758500000111
其中
Figure FDA00037341758500000112
决定了节点u必然是当前节点v的邻居节点,同时通过距离计算公式
Figure FDA0003734175850000021
来去除某些相似度过低的节点,ρ是一个超参数,用于控制保留的邻居节点与目标正常节点之间相似度;
Figure FDA0003734175850000022
使用参数化的方式计算节点间的相似度,通过一层全连接层,使用节点的潜在表示与真实的标签信息得到节点间的相似度,其计算公式如下:
Figure FDA0003734175850000023
其中σ为激活函数,采用sigmoid作为激活函数,Hl(u)为节点u的第l层的节点表示,初始为
Figure FDA0003734175850000024
即为节点u初始属性信息,Wl为全连接层的参数;
对于异常节点,即正样本,其欠采样过程与正常节点的采样过程相似
Figure FDA0003734175850000025
其中ρ-为正样本欠采样超参数,用于控制保留的邻居节点与目标异常节点间的相似度;同时由于异常节点仅存在较少的与其他异常节点的连接,因此还需对异常节点的同类节点进行过采样,其同类过采样邻居节点集记为
Figure FDA0003734175850000026
计算方式为:
Figure FDA0003734175850000027
其中ρ+为正样本过采样超参数,用于其他异常节点与目标异常节点间的相似度,
Figure FDA0003734175850000028
则保证过采样邻居节点均是同类节点,
Figure FDA0003734175850000029
表示节点v的类别信息,其中
Figure FDA00037341758500000210
标识节点v为异常节点,
Figure FDA00037341758500000211
标识节点v为正常节点。
4.如权利要求3所述的一种考虑类别不平衡的属性图异常检测方法,其特征在于:用聚合器聚合邻居节点的信息从而得到当前节点的潜在表示,对于正常节点,其l层潜在表示可通过以下公式计算:
Figure FDA00037341758500000212
而对于异常节点,其l层潜在表示需要补充过采样节点的信息,因此公式变为:
Figure FDA00037341758500000213
其中
Figure FDA00037341758500000214
表示级联操作,AGG(*)采用均值聚合方法,Ul为权重矩阵。
5.如权利要求1所述的一种考虑类别不平衡的属性图异常检测方法,其特征在于:步骤3中新生成异常类的节点表示H′(v)可以通过如下公式计算:
H'(v)=(1-δ)*Hl(v)+δ*Hl(minof(v))
其中Hl(v)为节点v的l层潜在表示,δ是一个随机值,其值介于[0,1]之间,用于平衡原始节点表示与距离最小同类节点表示,而minof(v)寻找与节点v距离最小的同类节点u来作为新生成的异常节点的参考项,使用
Figure FDA00037341758500000215
保证其类别一致,
Figure FDA00037341758500000216
表示节点v的类别信息,其中
Figure FDA0003734175850000031
标识节点v为异常节点,
Figure FDA0003734175850000032
标识节点v为正常节点;
Figure FDA0003734175850000033
因此完整的节点潜在表示如下所示:
Figure FDA0003734175850000034
其中节点u为通过SMOTE合成的新的异常类节点,其数量少于正负样本差异个数,它们之间的数量关系如下:
|SMOTE(v)|=μ*(|ALLC(0)|-|ALLC(1)|),μ∈(0,1)
|·|表示数量,ALLC(0)与ALLC(1)分别表示所有正负样本,系数μ则控制最后合成的少数类样本的数量,其值介于0到1之间。
6.如权利要求1所述的一种考虑类别不平衡的属性图异常检测方法,其特征在于:步骤4的具体实现方式如下;
通过步骤3得到数据增强的节点表示后,通过使用多层感知机获取到每个节点的异常分数,其分数的计算公式如下:
score(v)=Sigmoid(Wm*Z(v))
其中Wm是多层感知机的参数,Z(v)为节点v的完整潜在表示,Sigmoid为激活函数,获取到节点的异常分数后,通过与阈值的对比判断节点是否为异常节点。
7.如权利要求1所述的一种考虑类别不平衡的属性图异常检测方法,其特征在于:还包括步骤5,以ROC-AUC,GMean作为评价指标判断最后的异常检测的效果。
CN202210801859.7A 2022-07-07 2022-07-07 一种考虑类别不平衡的属性图异常检测方法 Pending CN115329838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210801859.7A CN115329838A (zh) 2022-07-07 2022-07-07 一种考虑类别不平衡的属性图异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210801859.7A CN115329838A (zh) 2022-07-07 2022-07-07 一种考虑类别不平衡的属性图异常检测方法

Publications (1)

Publication Number Publication Date
CN115329838A true CN115329838A (zh) 2022-11-11

Family

ID=83916642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210801859.7A Pending CN115329838A (zh) 2022-07-07 2022-07-07 一种考虑类别不平衡的属性图异常检测方法

Country Status (1)

Country Link
CN (1) CN115329838A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454299A (zh) * 2023-12-21 2024-01-26 深圳市研盛芯控电子技术有限公司 异常节点的监测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454299A (zh) * 2023-12-21 2024-01-26 深圳市研盛芯控电子技术有限公司 异常节点的监测方法及系统
CN117454299B (zh) * 2023-12-21 2024-03-26 深圳市研盛芯控电子技术有限公司 异常节点的监测方法及系统

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及系统
Wang et al. A learning framework for online class imbalance learning
CN110287439A (zh) 一种基于lstm的网络行为异常检测方法
WO2017143932A1 (zh) 基于样本聚类的欺诈交易检测方法
CN111314331A (zh) 一种基于条件变分自编码器的未知网络攻击检测方法
CN110084151A (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN110460605A (zh) 一种基于自动编码的异常网络流量检测方法
CN111695597B (zh) 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统
CN112348080A (zh) 基于工控异常检测的rbf改进方法、装置和设备
CN109145114B (zh) 基于Kleinberg在线状态机的社交网络事件检测方法
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN114298176A (zh) 一种欺诈用户检测方法、装置、介质及电子设备
CN113949549B (zh) 一种面向入侵和攻击防御的实时流量异常检测方法
CN113688387A (zh) 基于服务器和客户端双重检测的联邦学习中毒攻击的防御方法
CN115791174B (zh) 一种滚动轴承异常诊断方法、系统、电子设备及存储介质
CN115329838A (zh) 一种考虑类别不平衡的属性图异常检测方法
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN116582300A (zh) 基于机器学习的网络流量分类方法及装置
CN116647844A (zh) 一种基于堆叠集成算法的车载网络入侵检测方法
CN115204322A (zh) 行为链路异常识别方法和装置
Hu et al. Cost-Sensitive GNN-Based Imbalanced Learning for Mobile Social Network Fraud Detection
Surana Intrusion detection using fuzzy clustering and artificial neural network
Shevtsov et al. BotArtist: Twitter bot detection Machine Learning model based on Twitter suspension
Bordbar et al. Detecting fake accounts through Generative Adversarial Network in online social media
İş et al. A Profile Analysis of User Interaction in Social Media Using Deep Learning.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination