CN117520995B - 一种网络信息平台中异常用户检测方法及系统 - Google Patents
一种网络信息平台中异常用户检测方法及系统 Download PDFInfo
- Publication number
- CN117520995B CN117520995B CN202410004159.4A CN202410004159A CN117520995B CN 117520995 B CN117520995 B CN 117520995B CN 202410004159 A CN202410004159 A CN 202410004159A CN 117520995 B CN117520995 B CN 117520995B
- Authority
- CN
- China
- Prior art keywords
- node
- edge
- user
- abnormal
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 93
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000002776 aggregation Effects 0.000 claims abstract description 18
- 238000004220 aggregation Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种网络信息平台中异常用户检测方法及系统,属于人工智能技术领域。本发明在进行社交网络中的异常用户检测时同时考虑了节点异质性以及正常用户和异常用户的结构分布差异两方面,具体表现为:利用连边上两个节点的特征向量计算连边类型及注意力分数,从而设计了一种直接针对于异常节点检测的聚合策略;然后利用正常用户和异常用户的结构分布差异构造了针对异常用户检测的实例对进行对比学习,使得具有同质连接的节点更加相似,具有异质连接的节点更加不相似。本发明能够实现有效的异常用户检测,用以防范欺诈行为,进而避免经济财产损失。
Description
技术领域
本发明是一种网络信息平台中异常用户检测方法及系统,属于人工智能技术领域。
背景技术
在互联网、物联网及通讯技术飞速发展的大背景下,数据与数据之间的交互、协同、联系越来越频繁,生活中的网络更是随处可见, 如电话连通网络、交通运输网络、社交网络等。尤其随着社交网络的产生, 人们有了更方便快捷的交流与协作平台, 如微博、微信、QQ等等。当人们享受着社交网络带来的便捷的同时, 社交网络中异常用户的行为也影响着社交网络的良性发展。这些异常用户的行为不仅影响人们的正常生活,可能还会造成经济财产损失,因此及时准确地检测到这些异常用户, 避免造成更多的危害变得尤为重要。异常用户检测的目的就是在同一个社交网络中去寻找明显不同于大多数其他用户的异常用户,从而及时防范风险,降低经济财产损失。
一个社交网络可以看作是一个图结构,那么社交网络异常用户检测可以看作是基于图结构的异常节点检测。基于图结构的异常节点检测方法主要分为两大类:浅层的异常节点检测方法和基于深度学习的异常节点检测方法。浅层的异常检测方法可以分为三大类:第一类方法旨在通过社区或ego图分析进行异常节点检测;第二类方法旨在发现节点属性特征子空间中的异常节点,第三类方法利用残差分析来检测异常节点。基于深度学习的方法可以分为五大类:第一类是基于表征学习的方法;第二类方法是基于自编码器的方法;第三类方法是基于对比学习的方法;第四类方法是基于对抗学习的方法,生成式对抗网络可以对现实世界复杂的数据进行建模,一些模型将其应用于异常检测方法中;第五类是基于元学习的方法。这些方法在基于图结构的异常节点检测中取得了显著的成果,但是仍然有提升的空间。
通过对现有的图结构异常节点检测方法进行分析总结,已有的方法在以下几个方面存在不足:1)不能直接针对异常检测任务,没有考虑节点异质性。由于异常节点的存在,一个节点周围可能存在具有异质连接的邻居,在聚合表征时应充分考虑异质邻居的表征进行聚合。2)没有充分利用正常节点和异常节点的结构差异。正常节点和异常节点的结构分布具有一定差异,可利用这种结构差异提高检测性能。
发明内容
为解决社交网络中异常用户检测的问题,本发明的目的是提出一种网络信息平台中异常用户检测方法及系统。
为实现上述发明目的,本发明的技术方案如下:
一种网络信息平台中异常用户检测方法,包括如下步骤:
S1:收集网络信息平台数据,构建用户属性网络;将网络信息平台中的用户信息建模为属性网络,其中/>表示节点的集合,/>表示节点的数量;表示边的集合,其中/>表示同质边,/>表示异质边;/>表示邻接矩阵,当时表示/>节点和/>节点间存在一条边;/>表示特征矩阵,每个节点/>的特征向量是/>,其维度是/>;S2:计算边的连接类型,判断属于同质边或异质边;
S3:基于连边类型计算源节点和目的节点的注意力分数,再利用图卷积神经网络GCN对邻接矩阵进行卷积运算,聚合邻居节点的特征向量;
S4:引入对比学习设计损失函数,利用数据集进行模型训练;
S5:检测异常用户;将待测数据集输入到训练好的模型中,输出异常用户数据。
进一步的,所述S1中:将网络信息平台中的每个用户看作属性网络中的一个节点,用属性网络中节点的特征向量表示每个用户各自带有的属性,例如用户的性别、年龄段、家庭住址、职业等,用户与用户之间的交互看作是属性网络中的连边;所述同质边即连接该边的两个节点同为正常节点或异常节点,异质边即连接该边的两个节点一个是正常节点,另一个是异常节点;将异常节点作为正样本,正常节点作为负样本,即异常节点的标签为1,正常节点的标签为0。
进一步的,所述S2具体为:
S2-1:一个数据集中并不是所有的节点都带有标签,因此对于每条的边,通过连接该条边的两个节点的特征向量计算该条边的类型(即同质边或异质边);表示第/>层节点嵌入向量的集合,/>表示第i个节点的嵌入向量,/>表示第l层嵌入向量的维度,/>;对于第l个卷积层,首先通过公式(1)(2)对上一层节点的嵌入向量进行线性变换:
(1)
(2)
其中,和/>分别是节点u和v在(l-1)层的嵌入向量,/>是可学习的参数矩阵;
S2-2:为了更加全面地获得该条边上的信息,利用变换后的嵌入向量的连接值和插值作为该边上的信息,具体实现过程如公式(3)所示:
(3)
其中,表示可学习的参数矩阵,/>表示连接操作;
S2-3:通过公式(4)取出的符号作为该条边的类型:
(4)
如果,则/>,即/>是一条同质边;如果/>,则/>,即/>是一条异质边。
利用图卷积神经网络GCN对邻接矩阵进行卷积运算,以获得目标节点与源节点之间的联系。图卷积神经网络通常被认为是具有低通滤波特性的,因为它是将邻居节点的表征求和进行邻居信息的聚合操作,而这种操作是基于邻居节点具有相似信息的假设,但是对于带有异常用户的社交网络,异常用户通常与带有不相似信息的正常用户发生交互,这与图卷积神经网络的假设相违背。因此需要一种能够直接用于异常用户检测任务的聚合策略。
进一步的,所述S3具体包括:
S3-1:通过S2得到每条边的连接类型后,按照公式(5)利用每条边的连接类型和S2中线性变换后的嵌入向量与/>计算源节点u对目的节点v的注意力分数:
(5)
其中,是一个可学习的权重矩阵,/>是一个激活函数。
S3-2:利用公式(6)对具有不同注意力分数和连接类型的源节点进行聚合,以得到目标节点的嵌入向量:
(6)
其中,表示目标节点/>的邻居节点的集合。
进一步的,所述S4中,所述模型基本结构包括所述S2计算边类型的数据处理层、图卷积神经网络的卷积层和输出层。
进一步的,所述S4具体包括:
S4-1:将数据集按 40%、30% 和 40% 的比例划分为训练集、验证集和测试集。为了获得最佳的检测性能,为模型设计一个联合学习的目标函数进行训练。
S4-2:引入对比学习
正常用户和异常用户的结构具有一定的差异,而目标节点通常与其邻域结构有很大的关系,因此引入对比学习来捕获目标节点与其邻域结构之间的关系。首先,对每个节点构造一个实例对,其中/>是目标节点,/>是正样本,/>是负样本的集合,可以设置m=6;对于一个节点,其正样本为邻居节点中具有同质连接的节点,负样本为邻居节点中具有异质连接的节点;当然,一个节点也存在没有同质连接或者异质连接的节点,如果这个节点是正常用户,通常情况下它缺乏的是具有异质连接的用户,即缺乏负样本,采用训练集中的异常节点作为其负样本;如果这个用户是异常用户,通常情况下它缺乏的是具有同质连接的异常用户,即缺乏正样本,也可以用训练集中的异常节点作为其正样本。为每个节点构造实例对后,使用InfoNCE函数(公式(7))计算损失函数,使当损失函数最低时,目标节点与正样本节点更相似,而与负样本节点差异更大;
(7)
S4-3:对于二分类结果,采用有监督学习的方法优化模型。对于一个数据集来说,相较于正常节点,异常节点的数量是较少的,为了解决样本不平衡问题,使用公式(8)的Focal loss损失函数来优化模型:
(8)
其中,是调制系数,为常数。/>是正负样本的权重,为常数。/>表示预测结果。
S4-4:对于边类型的计算结果,使用有监督学习的方法进行优化;利用公式(9)的损失函数计算边类型损失:
(9)
其中,表示边集,/>表示对应边的类型,如果/>和/>的标签相同(即同为正常节点或同为异常节点),则/>=1(/>是同质边);否则/>(/>是异质边)。
S4-5:模型的整体损失函数如下:
(10)
其中,和/>是平衡参数,/>表示模型的层数。
使用准确率(precision)、召回率(recall)和F1分数(F1-socre)来衡量检测的效果,并通过调整参数,使得F1分数达到最高。
进一步的,所述S5中,对待测数据集中的每一个用户都会获得一对预测概率结果,如果/>,则该用户的预测结果为1,该用户则为异常用户;相反,如果/>,则该用户的预测结果为0,该用户则为正常用户。
一种网络信息平台中异常用户检测系统,包括用户信息属性网络建模模块、连边类型计算模块、注意力分数计算模块、表征向量聚合模块、模型训练模块以及异常用户判别模块组成;
所述用户信息属性网络建模模块:将信息网络平台用户数据建模为属性网络,以便于进行异常用户检测任务;
连边类型计算模块:该模块用以计算边的连接类型,判断属于同质边或异质边;和/>分别代表源节点和目标节点在(l-1)层的嵌入向量,经过线性变换后变为/>和/>,利用变换后嵌入向量计算出该条连边的类型/>(即同质边或异质边)。
所述注意力分数计算模块:该模块利用变换后的嵌入向量和/>以及上一模块计算得到的连边类型/>计算出相应的注意力分数/>。
所述表征向量聚合模块:该模块中利用GCN进行特征聚合,对于一个目标节点,其在层的嵌入向量为/>,将与其相连的所有源节点的特征向量(如图4中的/>、/>、/>、/>、/>)进行聚合操作。聚合过程中充分利用每个源节点与目标节点对应的连边类型(如图4中的、/>、/>、/>、/>)和注意力分数(如图4中的/>、/>、/>、/>、/>)。
所述模型训练模块:该模块中按照比例进行划分数据集,依照整体损失函数对模型中的可训练参数进行多轮训练,最终获得最优的网络模型。
所述异常用户判别模块:将数据集输入到最优的模型后,数据集中的每一个节点都会得到一对预测概率,分别表示该节点被预测为正样本的概率和该节点被预测为负样本的概率,选择概率较大的预测结果判别该节点是否为异常节点。
本发明具有以下优点和技术效果:
相比于大多数的深度学习的方法,本发明利用了节点异质性,从而可直接针对于社交网络中异常用户检测任务。本发明利用网络中正常用户和异常用户的结构分布差异进行对比学习,进一步提高了检测的准确性。与传统的基于对比学习的异常检测方法相比,充分利用了数据集中的异常标签,以提高模型准确性。
综上所述,本发明综合利用了节点异质性以及对比学习对带有异常用户的社交网络进行更完善的建模,从而提高检测的准确性。
附图说明
图1是本发明的整体流程图。
图2是本发明的框架图。
图3是本发明中计算连边类型和注意力分数的流程图。
图4是本发明中表征向量聚合的流程图。
具体实施方式
下面将结合附图1-附图4及与实施例对本发明做进一步说明。
实施例1:
一种网络信息平台中异常用户检测方法,如引文网络信息平台,如图1所示,包括如下步骤:
S1:收集网络信息平台数据,构建用户属性网络;将网络信息平台中的每个用户看作属性网络中的一个节点,用属性网络中节点的特征向量表示每个用户各自带有的属性,例如用户的性别、年龄段、家庭住址、职业等,用户与用户之间的交互看作是属性网络中的连边;所述同质边即连接该边的两个节点同为正常节点或异常节点,异质边即连接该边的两个节点一个是正常节点,另一个是异常节点;将网络信息平台中的用户信息建模为属性网络,其中/>表示节点的集合,/>表示节点的数量;/>表示边的集合,其中/>表示同质边,/>表示异质边;/>表示邻接矩阵,当/>时表示/>节点和/>节点间存在一条边;/>表示特征矩阵,每个节点/>的特征向量是,其维度是d;将异常节点作为正样本,正常节点作为负样本,即异常节点的标签为1,正常节点的标签为0;
S2:如图3所示,计算边的连接类型,判断属于同质边或异质边:
S2-1:一个数据集中并不是所有的节点都带有标签,因此对于每条的边,通过连接该条边的两个节点的特征向量计算该条边的类型(即同质边或异质边);表示第/>层节点嵌入向量的集合,/>表示第i个节点的嵌入向量,/>表示第l层嵌入向量的维度,/>;对于第l个卷积层,首先通过公式(1)(2)对上一层节点的嵌入向量进行线性变换:
(1)
(2)
其中,和/>分别是节点u和v在(l-1)层的嵌入向量,/>是可学习的参数矩阵;
S2-2:为了更加全面地获得该条边上的信息,利用变换后的嵌入向量的连接值和插值作为该边上的信息,具体实现过程如公式(3)所示:
(3)
其中,表示可学习的参数矩阵,/>表示连接操作;
S2-3:通过公式(4)取出的符号作为该条边的类型:
(4)
如果,则/>,即/>是一条同质边;如果/>,则/>,即/>是一条异质边;
S3:如图4所示,利用图卷积神经网络GCN对邻接矩阵进行两次卷积运算,聚合邻居节点的特征向量:
S3-1:通过S2得到每条边的连接类型后,按照公式(5)利用每条边的连接类型和S2中线性变换后的嵌入向量与/>计算源节点u对目的节点v的注意力分数:
(5)
其中,是一个可学习的权重矩阵,/>是一个激活函数。
S3-2:利用公式(6)对具有不同注意力分数和连接类型的源节点进行聚合,以得到目标节点的嵌入向量:
(6)
其中,表示目标节点/>的邻居节点的集合。
进一步的,所述S4中,所述模型基本结构包括所述S2计算边类型的数据处理层、两层图卷积神经网络的卷积层和输出层;
S4:引入对比学习设计损失函数,利用数据集进行模型训练:
S4-1:将数据集按 40%、30% 和 40% 的比例划分为训练集、验证集和测试集。为了获得最佳的检测性能,为模型设计一个联合学习的目标函数进行训练。
S4-2:引入对比学习
正常用户和异常用户的结构具有一定的差异,而目标节点通常与其邻域结构有很大的关系,因此引入对比学习来捕获目标节点与其邻域结构之间的关系。首先,对每个节点构造一个实例对,其中/>是目标节点,/>是正样本,/>是负样本的集合,可以设置m=6;对于一个节点,其正样本为邻居节点中具有同质连接的节点,负样本为邻居节点中具有异质连接的节点;当然,一个节点也存在没有同质连接或者异质连接的节点,如果这个节点是正常用户,通常情况下它缺乏的是具有异质连接的用户,即缺乏负样本,采用训练集中的异常节点作为其负样本;如果这个用户是异常用户,通常情况下它缺乏的是具有同质连接的异常用户,即缺乏正样本,也可以用训练集中的异常节点作为其正样本。为每个节点构造实例对后,使用InfoNCE函数(公式(7))计算损失函数,使当损失函数最低时,目标节点与正样本节点更相似,而与负样本节点差异更大;
(7)
S4-3:对于二分类结果,采用有监督学习的方法优化模型。对于一个数据集来说,相较于正常节点,异常节点的数量是较少的,为了解决样本不平衡问题,使用公式(8)的Focal loss损失函数来优化模型:
(8)
其中,是调制系数,为常数。/>是正负样本的权重,为常数。/>表示预测结果。
S4-4:对于边类型的计算结果,使用有监督学习的方法进行优化;利用公式(9)的损失函数计算边类型损失:
(9)
其中,表示边集,/>表示对应边的类型,如果/>和/>的标签相同(即同为正常节点或同为异常节点),则/>=1(/>是同质边);否则/>(/>是异质边)。
S4-5:模型的整体损失函数如下:
(10)
其中,和/>是平衡参数,/>表示模型的层数。
使用准确率(precision)、召回率(recall)和F1分数(F1-socre)来衡量检测的效果,并通过调整参数,使得F1分数达到最高。
S5:检测异常用户;将待测数据集输入到训练好的模型中,输出异常用户数据;对待测数据集中的每一个用户都会获得一对预测概率结果,如果/>,则该用户的预测结果为1,该用户则为异常用户;相反,如果/>,则该用户的预测结果为0,该用户则为正常用户。
实施例2:
一种网络信息平台中异常用户检测方法,如图2所示,包括用户信息属性网络建模模块、连边类型计算模块、注意力分数计算模块、表征向量聚合模块、模型训练模块以及异常用户判别模块组成,以下对各部分进行详细说明:
用户信息属性网络建模模块:根据社交网络的特点异常用户检测任务的需要,将社交网络建模为属性网络,以便于进行异常用户检测任务。
连边类型计算模块:该模块的计算过程如图3的左半边所示,和/>分别代表源节点和目标节点在(l-1)层的嵌入向量,经过线性变换后变为/>和/>,利用变换后嵌入向量计算出该条连边的类型/>(即同质边或异质边)。
注意力分数计算模块:该模块的计算过程如图3的由右半边所示,利用变换后的嵌入向量和/>以及上一模块计算得到的连边类型/>计算出相应的注意力分数/>。
表征向量聚合模块:该模块的实现过程如图4所示,对于一个目标节点,其在层的嵌入向量为/>,将与其相连的所有源节点的特征向量(如图4中的/>、/>、/>、/>、/>)进行聚合操作。聚合过程中充分利用每个源节点与目标节点对应的连边类型(如图4中的/>、/>、、/>、/>)和注意力分数(如图4中的/>、/>、/>、/>、/>)。
模型训练模块:对整个数据集按照比例进行划分,依照整体损失函数对模型中的可训练参数进行多轮训练,最终获得最优的网络模型。
异常用户判别模块:将数据集输入到最优的模型后,数据集中的每一个节点都会得到一对预测概率,分别表示该节点被预测为正样本的概率和该节点被预测为负样本的概率,选择概率较大的预测结果判别该节点是否为异常节点。
实施例3:
该实施例以引文网络数据集为具体验证数据集,以实施例1提供的方法为基础进行实验。
Cora、Citeseer、PubMed是三个由科学出版物组成的数据集,在这些数据集中,节点表示已发表的文章,边表示文章间的引用关系。每个节点的属性向量是由0/1值构成的词向量,用来表示相应词的缺失/存在。每个数据集的具体信息如下表所示:
表1 数据集的具体信息
由于异常标签是难以获得的,通过人工注入异常节点的方式重构数据集。在数据集中注入了两种异常节点,属性异常节点和结构异常节点。
注入属性异常节点的方法如下:首先我们在整个数据集中随机选取m个节点预设为属性异常节点。然后对于m个节点中的每一个目标节点,都进行如下步骤:(1)随机选取k个节点作为候选节点;(2)计算目标节点/>的特征向量与每一个候选节点的特征向量间的欧式距离;(3)选取距离最大的候选节点的特征向量替换目标节点的特征向量。对m个节点重复进行同样的步骤后即注入了m个属性异常节点。
注入结构异常节点的方法如下:为了平衡结构异常节点和属性异常节点的数量,我们首先也在整个数据集中随机选取m个节点预设为结构异常节点,然后对于m个节点中的每一个目标节点,我们都进行如下步骤:(1)从整个数据集中随机选取h个节点作为候选节点;(2)将目标节点与h个节点建立连边。对m个节点重复进行同样的步骤后即注入了m个结构异常节点。其中h的大小由数据集的大小决定。
表2 该发明与其他方法对比的实验结果
结果如表2所示,本发明所提方法在三个数据集上的的F1分数明显优于H2-FDetector方法,性能提升较为显著,主要是因为该模型中设计的初衷就是直接针对于异常检测任务,考虑了带有异常节点的属性网络中的异质性节点,并且在聚合邻居节点的过程中充分考虑这种异质性,同时考虑了节点的邻域信息进行对比学习。H2-FDetector也注意到了GCN具有同质性假设问题,因此提出了一个同时考虑节点同质性和异质性的框架进行异常节点检测。但是该方法并没有利用节点的邻居信息进行对比学习。
以上计划方案,仅为本发明中的实施方法,但本发明的保护范围不限于此,所有熟悉该技术的人员在本发明所披露的技术范围以内,可理解想到的替换或者变换,都应该包含在本发明的保护范围之内,所以,本发明的保护范围应以权利要求书的保护范围为准。
Claims (4)
1.一种网络信息平台中异常用户检测方法,其特征在于,包括如下步骤:
S1:收集网络信息平台数据,构建用户属性网络;将网络信息平台中的用户信息建模为属性网络G={V,ε,A,X},其中V={v1,v2,…,vn}表示节点的集合,n表示节点的数量;ε∈{ε+,ε-}表示边的集合,其中ε+表示同质边,ε-表示异质边;表示邻接矩阵,当Aij=1时表示vi节点和vj节点间存在一条边;/>表示特征矩阵,每个节点vi的特征向量是xi,其维度是d;将网络信息平台中的每个用户看作属性网络中的一个节点,用属性网络中节点的特征向量表示每个用户各自带有的属性,用户与用户之间的交互看作是属性网络中的连边;所述同质边即连接该边的两个节点同为正常节点或异常节点,异质边即连接该边的两个节点一个是正常节点,另一个是异常节点;将异常节点作为正样本,正常节点作为负样本,即异常节点的标签为1,正常节点的标签为0,用户的属性包括用户的性别、年龄段、家庭住址、职业;
S2:计算边的连接类型,判断属于同质边或异质边,具体为:
S2-1:对于每条euv∈ε的边,通过连接该条边的两个节点的特征向量计算该条边的类型;表示第l层节点嵌入向量的集合,/>表示第i个节点的嵌入向量,dl表示第l层嵌入向量的维度,H0=X;对于第l个卷积层,首先通过公式(1)(2)对上一层节点的嵌入向量进行线性变换:
其中,和/>分别是节点u和v在(l-1)层的嵌入向量,/>是可学习的参数矩阵;
S2-2:利用变换后的嵌入向量的连接值和插值作为该边上的信息,具体实现过程如公式(3)所示:
其中,表示可学习的参数矩阵,[.||.]表示连接操作;
S2-3:通过公式(4)取出的符号作为该条边的类型:
如果则euv∈ε+,即euv是一条同质边;如果/>则euv∈ε-,即euv是一条异质边;
S3:基于连边类型计算源节点和目的节点的注意力分数,再利用图卷积神经网络GCN对邻接矩阵A进行卷积运算,聚合邻居节点的特征向量;所述S3具体包括:
S3-1:通过S2得到每条边的连接类型后,按照公式(5)利用每条边的连接类型和S2中线性变换后的嵌入向量与/>计算源节点u对目的节点v的注意力分数:
其中,是一个可学习的权重矩阵,LeakyReLU(·)是一个激活函数;
S3-2:利用公式(6)对具有不同注意力分数和连接类型的源节点进行聚合,以得到目标节点的嵌入向量:
其中,N(v)表示目标节点v的邻居节点的集合;
S4:引入对比学习设计损失函数,利用数据集进行模型训练;所述S4具体包括:
S4-1:将数据集按40%、30%和40%的比例划分为训练集、验证集和测试集;
S4-2:引入对比学习:对每个节点构造一个实例对Di=(vi,pi,Qi),其中vi是目标节点,pi是正样本,是负样本的集合;对于一个节点,其正样本为邻居节点中具有同质连接的节点,负样本为邻居节点中具有异质连接的节点;为每个节点构造实例对后,使用InfoNCE函数公式(7)计算损失函数,使当损失函数最低时,目标节点与正样本节点更相似,而与负样本节点差异更大;
S4-3:为解决样本不平衡问题,使用公式(8)的Focal loss损失函数来优化模型:
其中,γ是调制系数,为常数,α是正负样本的权重,为常数,pt表示预测结果;
S4-4:对于边类型的计算结果,使用有监督学习的方法进行优化;利用公式(9)的损失函数计算边类型损失:
其中,εt表示边集,yuv表示对应边的类型,如果u和v的标签相同,则yuv=1,euv是同质边;否则yuv=-1,euv是异质边;
S4-5:模型的整体损失函数如下:
其中,γ1和γ2是平衡参数,L表示模型的层数;
S5:检测异常用户;将待测数据集输入到训练好的模型中,输出异常用户数据。
2.如权利要求1所述的网络信息平台中异常用户检测方法,其特征在于,所述S4中,所述模型基本结构包括所述S2计算边类型的数据处理层、图卷积神经网络的卷积层和输出层。
3.如权利要求1所述的网络信息平台中异常用户检测方法,其特征在于,所述S5中,对待测数据集中的每一个用户都会获得一对预测概率结果(s-,s+),如果s-<s+,则该用户的预测结果为1,该用户则为异常用户;相反,如果s->s+,则该用户的预测结果为0,该用户则为正常用户。
4.基于权利要求1-3任一权利要求所述的网络信息平台中异常用户检测方法的一种网络信息平台中异常用户检测系统,其特征在于,包括用户信息属性网络建模模块、连边类型计算模块、注意力分数计算模块、表征向量聚合模块、模型训练模块以及异常用户判别模块组成;
所述用户信息属性网络建模模块:将信息网络平台用户数据建模为属性网络,以便于进行异常用户检测任务;
连边类型计算模块:该模块用以计算边的连接类型,判断属于同质边或异质边;
所述注意力分数计算模块:该模块利用变换后的嵌入向量以及上一模块计算得到的连边类型计算出相应的注意力分数;
所述表征向量聚合模块:该模块中利用GCN进行特征聚合,对于一个目标节点的嵌入向量,将与其相连的所有源节点的特征向量进行聚合操作;聚合过程中充分利用每个源节点与目标节点对应的连边类型和注意力分数;
所述模型训练模块:该模块中按照比例进行划分数据集,依照整体损失函数对模型中的可训练参数进行多轮训练,最终获得最优的网络模型;
所述异常用户判别模块:将数据集输入到最优的模型后,数据集中的每一个节点都会得到一对预测概率,分别表示该节点被预测为正样本的概率和该节点被预测为负样本的概率,选择概率较大的预测结果判别该节点是否为异常节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004159.4A CN117520995B (zh) | 2024-01-03 | 2024-01-03 | 一种网络信息平台中异常用户检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004159.4A CN117520995B (zh) | 2024-01-03 | 2024-01-03 | 一种网络信息平台中异常用户检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520995A CN117520995A (zh) | 2024-02-06 |
CN117520995B true CN117520995B (zh) | 2024-04-02 |
Family
ID=89762999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410004159.4A Active CN117520995B (zh) | 2024-01-03 | 2024-01-03 | 一种网络信息平台中异常用户检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520995B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828514B (zh) * | 2024-03-04 | 2024-05-03 | 清华大学深圳国际研究生院 | 一种基于图结构学习的用户网络行为数据异常检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114626890A (zh) * | 2022-03-21 | 2022-06-14 | 烟台大学 | 一种基于图结构学习的异常用户检测方法 |
WO2022241913A1 (zh) * | 2021-05-17 | 2022-11-24 | 同济大学 | 基于异质图的文本摘要方法及装置、存储介质和终端 |
CN116257662A (zh) * | 2023-01-03 | 2023-06-13 | 重庆理工大学 | 基于k近邻图神经网络的异质图社区发现方法 |
CN116595467A (zh) * | 2023-05-11 | 2023-08-15 | 国网四川省电力公司广安供电公司 | 一种基于动态加权图卷积的异常用户检测方法及存储介质 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254803B (zh) * | 2021-06-24 | 2021-10-22 | 暨南大学 | 一种基于多特征异质图神经网络的社交推荐方法 |
-
2024
- 2024-01-03 CN CN202410004159.4A patent/CN117520995B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022241913A1 (zh) * | 2021-05-17 | 2022-11-24 | 同济大学 | 基于异质图的文本摘要方法及装置、存储介质和终端 |
CN114626890A (zh) * | 2022-03-21 | 2022-06-14 | 烟台大学 | 一种基于图结构学习的异常用户检测方法 |
CN116257662A (zh) * | 2023-01-03 | 2023-06-13 | 重庆理工大学 | 基于k近邻图神经网络的异质图社区发现方法 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
CN116595467A (zh) * | 2023-05-11 | 2023-08-15 | 国网四川省电力公司广安供电公司 | 一种基于动态加权图卷积的异常用户检测方法及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于改进边权重的成对马尔可夫随机场模型的社交异常账号检测方法;宋畅;禹可;吴晓非;;计算机科学;20200215(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117520995A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117520995B (zh) | 一种网络信息平台中异常用户检测方法及系统 | |
CN109523021B (zh) | 一种基于长短时记忆网络的动态网络结构预测方法 | |
CN111783841B (zh) | 基于迁移学习和模型融合的垃圾分类方法、系统及介质 | |
CN105893637A (zh) | 大规模微博异构信息网络中的链接预测方法 | |
CN113065974A (zh) | 一种基于动态网络表示学习的链路预测方法 | |
CN114491263B (zh) | 推荐模型训练方法及装置、推荐方法及装置 | |
CN115659966A (zh) | 基于动态异构图和多级注意力的谣言检测方法及系统 | |
CN112381179A (zh) | 一种基于双层注意力机制的异质图分类方法 | |
CN107402859A (zh) | 软件功能验证系统及其验证方法 | |
CN117034100A (zh) | 基于分层池化架构自适应图分类方法、系统、设备和介质 | |
CN115238773A (zh) | 异质图元路径自动评估的恶意账号检测方法及装置 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN115168653A (zh) | 基于领域间和领域内关系的跨领域推荐方法及系统 | |
CN118709064A (zh) | 基于谱域图神经网络的用户异常评论检测方法 | |
CN113268770B (zh) | 基于用户活跃度的轨迹k匿名隐私保护方法 | |
Ye et al. | A novel multi‐objective immune optimization algorithm for under sampling software defect prediction problem | |
Wu et al. | Prediction of energy consumption in digital twins of intelligent factory by artificial intelligence | |
CN115577757A (zh) | 基于图卷积网络节点标签异构图的社区发现方法 | |
CN114706977A (zh) | 基于动态多跳图注意力网络的谣言检测方法及系统 | |
CN113962748A (zh) | 基于元路径的全貌信息表示异质电商平台用户对齐方法 | |
CN117034222A (zh) | 用户账号处理方法、装置、电子设备、介质和程序产品 | |
CN114722920A (zh) | 一种基于图分类的深度图卷积模型钓鱼账户识别方法 | |
CN113158088A (zh) | 一种基于图神经网络的位置推荐方法 | |
CN113297500A (zh) | 一种社交网络孤立节点链接预测方法 | |
Zhao | Predicting the Line Loss for a 10 kV Distribution Network Using AGA‐BPNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |