CN117520995B

CN117520995B - 一种网络信息平台中异常用户检测方法及系统

Info

Publication number: CN117520995B
Application number: CN202410004159.4A
Authority: CN
Inventors: 于彦伟; 陈怡辛; 齐建鹏; 董军宇
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2024-01-03
Filing date: 2024-01-03
Publication date: 2024-04-02
Anticipated expiration: 2044-01-03
Also published as: CN117520995A

Abstract

本发明公开了一种网络信息平台中异常用户检测方法及系统，属于人工智能技术领域。本发明在进行社交网络中的异常用户检测时同时考虑了节点异质性以及正常用户和异常用户的结构分布差异两方面，具体表现为：利用连边上两个节点的特征向量计算连边类型及注意力分数，从而设计了一种直接针对于异常节点检测的聚合策略；然后利用正常用户和异常用户的结构分布差异构造了针对异常用户检测的实例对进行对比学习，使得具有同质连接的节点更加相似，具有异质连接的节点更加不相似。本发明能够实现有效的异常用户检测，用以防范欺诈行为，进而避免经济财产损失。

Description

一种网络信息平台中异常用户检测方法及系统

技术领域

本发明是一种网络信息平台中异常用户检测方法及系统，属于人工智能技术领域。

背景技术

在互联网、物联网及通讯技术飞速发展的大背景下，数据与数据之间的交互、协同、联系越来越频繁，生活中的网络更是随处可见, 如电话连通网络、交通运输网络、社交网络等。尤其随着社交网络的产生, 人们有了更方便快捷的交流与协作平台, 如微博、微信、QQ等等。当人们享受着社交网络带来的便捷的同时, 社交网络中异常用户的行为也影响着社交网络的良性发展。这些异常用户的行为不仅影响人们的正常生活，可能还会造成经济财产损失，因此及时准确地检测到这些异常用户, 避免造成更多的危害变得尤为重要。异常用户检测的目的就是在同一个社交网络中去寻找明显不同于大多数其他用户的异常用户，从而及时防范风险，降低经济财产损失。

一个社交网络可以看作是一个图结构，那么社交网络异常用户检测可以看作是基于图结构的异常节点检测。基于图结构的异常节点检测方法主要分为两大类：浅层的异常节点检测方法和基于深度学习的异常节点检测方法。浅层的异常检测方法可以分为三大类：第一类方法旨在通过社区或ego图分析进行异常节点检测；第二类方法旨在发现节点属性特征子空间中的异常节点，第三类方法利用残差分析来检测异常节点。基于深度学习的方法可以分为五大类：第一类是基于表征学习的方法；第二类方法是基于自编码器的方法；第三类方法是基于对比学习的方法；第四类方法是基于对抗学习的方法，生成式对抗网络可以对现实世界复杂的数据进行建模，一些模型将其应用于异常检测方法中；第五类是基于元学习的方法。这些方法在基于图结构的异常节点检测中取得了显著的成果，但是仍然有提升的空间。

通过对现有的图结构异常节点检测方法进行分析总结，已有的方法在以下几个方面存在不足：1）不能直接针对异常检测任务，没有考虑节点异质性。由于异常节点的存在，一个节点周围可能存在具有异质连接的邻居，在聚合表征时应充分考虑异质邻居的表征进行聚合。2）没有充分利用正常节点和异常节点的结构差异。正常节点和异常节点的结构分布具有一定差异，可利用这种结构差异提高检测性能。

发明内容

为解决社交网络中异常用户检测的问题，本发明的目的是提出一种网络信息平台中异常用户检测方法及系统。

为实现上述发明目的，本发明的技术方案如下：

一种网络信息平台中异常用户检测方法，包括如下步骤：

S1：收集网络信息平台数据，构建用户属性网络；将网络信息平台中的用户信息建模为属性网络，其中/>表示节点的集合，/>表示节点的数量；表示边的集合，其中/>表示同质边，/>表示异质边；/>表示邻接矩阵，当时表示/>节点和/>节点间存在一条边；/>表示特征矩阵，每个节点/>的特征向量是/>，其维度是/>；S2：计算边的连接类型，判断属于同质边或异质边；

S3：基于连边类型计算源节点和目的节点的注意力分数，再利用图卷积神经网络GCN对邻接矩阵进行卷积运算，聚合邻居节点的特征向量；

S4：引入对比学习设计损失函数，利用数据集进行模型训练；

S5：检测异常用户；将待测数据集输入到训练好的模型中，输出异常用户数据。

进一步的，所述S1中：将网络信息平台中的每个用户看作属性网络中的一个节点，用属性网络中节点的特征向量表示每个用户各自带有的属性，例如用户的性别、年龄段、家庭住址、职业等，用户与用户之间的交互看作是属性网络中的连边；所述同质边即连接该边的两个节点同为正常节点或异常节点，异质边即连接该边的两个节点一个是正常节点，另一个是异常节点；将异常节点作为正样本，正常节点作为负样本，即异常节点的标签为1，正常节点的标签为0。

进一步的，所述S2具体为：

S2-1：一个数据集中并不是所有的节点都带有标签，因此对于每条的边，通过连接该条边的两个节点的特征向量计算该条边的类型（即同质边或异质边）；表示第/>层节点嵌入向量的集合，/>表示第i个节点的嵌入向量，/>表示第l层嵌入向量的维度，/>；对于第l个卷积层，首先通过公式（1）(2)对上一层节点的嵌入向量进行线性变换：

（1）

（2）

其中，和/>分别是节点u和v在(l-1)层的嵌入向量，/>是可学习的参数矩阵；

S2-2：为了更加全面地获得该条边上的信息，利用变换后的嵌入向量的连接值和插值作为该边上的信息，具体实现过程如公式（3）所示：

（3）

其中，表示可学习的参数矩阵，/>表示连接操作；

S2-3：通过公式（4）取出的符号作为该条边的类型：

（4）

如果，则/>，即/>是一条同质边；如果/>，则/>，即/>是一条异质边。

利用图卷积神经网络GCN对邻接矩阵进行卷积运算，以获得目标节点与源节点之间的联系。图卷积神经网络通常被认为是具有低通滤波特性的，因为它是将邻居节点的表征求和进行邻居信息的聚合操作，而这种操作是基于邻居节点具有相似信息的假设，但是对于带有异常用户的社交网络，异常用户通常与带有不相似信息的正常用户发生交互，这与图卷积神经网络的假设相违背。因此需要一种能够直接用于异常用户检测任务的聚合策略。

进一步的，所述S3具体包括：

S3-1：通过S2得到每条边的连接类型后，按照公式（5）利用每条边的连接类型和S2中线性变换后的嵌入向量与/>计算源节点u对目的节点v的注意力分数：

（5）

其中，是一个可学习的权重矩阵，/>是一个激活函数。

S3-2：利用公式（6）对具有不同注意力分数和连接类型的源节点进行聚合，以得到目标节点的嵌入向量：

（6）

其中，表示目标节点/>的邻居节点的集合。

进一步的，所述S4中，所述模型基本结构包括所述S2计算边类型的数据处理层、图卷积神经网络的卷积层和输出层。

进一步的，所述S4具体包括：

S4-1：将数据集按 40%、30% 和 40% 的比例划分为训练集、验证集和测试集。为了获得最佳的检测性能，为模型设计一个联合学习的目标函数进行训练。

S4-2：引入对比学习

正常用户和异常用户的结构具有一定的差异，而目标节点通常与其邻域结构有很大的关系，因此引入对比学习来捕获目标节点与其邻域结构之间的关系。首先，对每个节点构造一个实例对，其中/>是目标节点，/>是正样本，/>是负样本的集合，可以设置m=6；对于一个节点，其正样本为邻居节点中具有同质连接的节点，负样本为邻居节点中具有异质连接的节点；当然，一个节点也存在没有同质连接或者异质连接的节点，如果这个节点是正常用户，通常情况下它缺乏的是具有异质连接的用户，即缺乏负样本，采用训练集中的异常节点作为其负样本；如果这个用户是异常用户，通常情况下它缺乏的是具有同质连接的异常用户，即缺乏正样本，也可以用训练集中的异常节点作为其正样本。为每个节点构造实例对后，使用InfoNCE函数（公式（7））计算损失函数，使当损失函数最低时，目标节点与正样本节点更相似，而与负样本节点差异更大；

（7）

S4-3：对于二分类结果，采用有监督学习的方法优化模型。对于一个数据集来说，相较于正常节点，异常节点的数量是较少的，为了解决样本不平衡问题，使用公式（8）的Focal loss损失函数来优化模型：

（8）

其中，是调制系数，为常数。/>是正负样本的权重，为常数。/>表示预测结果。

S4-4：对于边类型的计算结果，使用有监督学习的方法进行优化；利用公式（9）的损失函数计算边类型损失：

（9）

其中，表示边集，/>表示对应边的类型，如果/>和/>的标签相同（即同为正常节点或同为异常节点），则/>=1（/>是同质边）；否则/>（/>是异质边）。

S4-5：模型的整体损失函数如下：

（10）

其中，和/>是平衡参数，/>表示模型的层数。

使用准确率（precision）、召回率（recall）和F1分数（F1-socre）来衡量检测的效果，并通过调整参数，使得F1分数达到最高。

进一步的，所述S5中，对待测数据集中的每一个用户都会获得一对预测概率结果，如果/>，则该用户的预测结果为1，该用户则为异常用户；相反，如果/>，则该用户的预测结果为0，该用户则为正常用户。

一种网络信息平台中异常用户检测系统，包括用户信息属性网络建模模块、连边类型计算模块、注意力分数计算模块、表征向量聚合模块、模型训练模块以及异常用户判别模块组成；

所述用户信息属性网络建模模块：将信息网络平台用户数据建模为属性网络，以便于进行异常用户检测任务；

连边类型计算模块：该模块用以计算边的连接类型，判断属于同质边或异质边；和/>分别代表源节点和目标节点在(l-1)层的嵌入向量，经过线性变换后变为/>和/>，利用变换后嵌入向量计算出该条连边的类型/>（即同质边或异质边）。

所述注意力分数计算模块：该模块利用变换后的嵌入向量和/>以及上一模块计算得到的连边类型/>计算出相应的注意力分数/>。

所述表征向量聚合模块：该模块中利用GCN进行特征聚合，对于一个目标节点，其在层的嵌入向量为/>，将与其相连的所有源节点的特征向量（如图4中的/>、/>、/>、/>、/>）进行聚合操作。聚合过程中充分利用每个源节点与目标节点对应的连边类型（如图4中的、/>、/>、/>、/>）和注意力分数（如图4中的/>、/>、/>、/>、/>）。

所述模型训练模块：该模块中按照比例进行划分数据集，依照整体损失函数对模型中的可训练参数进行多轮训练，最终获得最优的网络模型。

所述异常用户判别模块：将数据集输入到最优的模型后，数据集中的每一个节点都会得到一对预测概率，分别表示该节点被预测为正样本的概率和该节点被预测为负样本的概率，选择概率较大的预测结果判别该节点是否为异常节点。

本发明具有以下优点和技术效果：

相比于大多数的深度学习的方法，本发明利用了节点异质性，从而可直接针对于社交网络中异常用户检测任务。本发明利用网络中正常用户和异常用户的结构分布差异进行对比学习，进一步提高了检测的准确性。与传统的基于对比学习的异常检测方法相比，充分利用了数据集中的异常标签，以提高模型准确性。

综上所述，本发明综合利用了节点异质性以及对比学习对带有异常用户的社交网络进行更完善的建模，从而提高检测的准确性。

附图说明

图1是本发明的整体流程图。

图2是本发明的框架图。

图3是本发明中计算连边类型和注意力分数的流程图。

图4是本发明中表征向量聚合的流程图。

具体实施方式

下面将结合附图1-附图4及与实施例对本发明做进一步说明。

实施例1：

一种网络信息平台中异常用户检测方法，如引文网络信息平台，如图1所示，包括如下步骤：

S1：收集网络信息平台数据，构建用户属性网络；将网络信息平台中的每个用户看作属性网络中的一个节点，用属性网络中节点的特征向量表示每个用户各自带有的属性，例如用户的性别、年龄段、家庭住址、职业等，用户与用户之间的交互看作是属性网络中的连边；所述同质边即连接该边的两个节点同为正常节点或异常节点，异质边即连接该边的两个节点一个是正常节点，另一个是异常节点；将网络信息平台中的用户信息建模为属性网络，其中/>表示节点的集合，/>表示节点的数量；/>表示边的集合，其中/>表示同质边，/>表示异质边；/>表示邻接矩阵，当/>时表示/>节点和/>节点间存在一条边；/>表示特征矩阵，每个节点/>的特征向量是，其维度是d；将异常节点作为正样本，正常节点作为负样本，即异常节点的标签为1，正常节点的标签为0；

S2：如图3所示，计算边的连接类型，判断属于同质边或异质边：

（1）

(2)

(3)

其中，表示可学习的参数矩阵，/>表示连接操作；

S2-3：通过公式（4）取出的符号作为该条边的类型：

（4）

如果，则/>，即/>是一条同质边；如果/>，则/>，即/>是一条异质边；

S3：如图4所示，利用图卷积神经网络GCN对邻接矩阵进行两次卷积运算，聚合邻居节点的特征向量：

（5）

其中，是一个可学习的权重矩阵，/>是一个激活函数。

（6）

其中，表示目标节点/>的邻居节点的集合。

进一步的，所述S4中，所述模型基本结构包括所述S2计算边类型的数据处理层、两层图卷积神经网络的卷积层和输出层；

S4：引入对比学习设计损失函数，利用数据集进行模型训练：

S4-2：引入对比学习

（7）

（8）

（9)

S4-5：模型的整体损失函数如下：

(10)

其中，和/>是平衡参数，/>表示模型的层数。

S5：检测异常用户；将待测数据集输入到训练好的模型中，输出异常用户数据；对待测数据集中的每一个用户都会获得一对预测概率结果，如果/>，则该用户的预测结果为1，该用户则为异常用户；相反，如果/>，则该用户的预测结果为0，该用户则为正常用户。

实施例2：

一种网络信息平台中异常用户检测方法，如图2所示，包括用户信息属性网络建模模块、连边类型计算模块、注意力分数计算模块、表征向量聚合模块、模型训练模块以及异常用户判别模块组成，以下对各部分进行详细说明：

用户信息属性网络建模模块：根据社交网络的特点异常用户检测任务的需要，将社交网络建模为属性网络，以便于进行异常用户检测任务。

连边类型计算模块：该模块的计算过程如图3的左半边所示，和/>分别代表源节点和目标节点在(l-1)层的嵌入向量，经过线性变换后变为/>和/>，利用变换后嵌入向量计算出该条连边的类型/>（即同质边或异质边）。

注意力分数计算模块：该模块的计算过程如图3的由右半边所示，利用变换后的嵌入向量和/>以及上一模块计算得到的连边类型/>计算出相应的注意力分数/>。

表征向量聚合模块：该模块的实现过程如图4所示，对于一个目标节点，其在层的嵌入向量为/>，将与其相连的所有源节点的特征向量（如图4中的/>、/>、/>、/>、/>）进行聚合操作。聚合过程中充分利用每个源节点与目标节点对应的连边类型（如图4中的/>、/>、、/>、/>）和注意力分数（如图4中的/>、/>、/>、/>、/>）。

模型训练模块：对整个数据集按照比例进行划分，依照整体损失函数对模型中的可训练参数进行多轮训练，最终获得最优的网络模型。

异常用户判别模块：将数据集输入到最优的模型后，数据集中的每一个节点都会得到一对预测概率，分别表示该节点被预测为正样本的概率和该节点被预测为负样本的概率，选择概率较大的预测结果判别该节点是否为异常节点。

实施例3：

该实施例以引文网络数据集为具体验证数据集，以实施例1提供的方法为基础进行实验。

Cora、Citeseer、PubMed是三个由科学出版物组成的数据集，在这些数据集中，节点表示已发表的文章，边表示文章间的引用关系。每个节点的属性向量是由0/1值构成的词向量，用来表示相应词的缺失/存在。每个数据集的具体信息如下表所示：

表1 数据集的具体信息

由于异常标签是难以获得的，通过人工注入异常节点的方式重构数据集。在数据集中注入了两种异常节点，属性异常节点和结构异常节点。

注入属性异常节点的方法如下：首先我们在整个数据集中随机选取m个节点预设为属性异常节点。然后对于m个节点中的每一个目标节点，都进行如下步骤：（1)随机选取k个节点作为候选节点;(2)计算目标节点/>的特征向量与每一个候选节点的特征向量间的欧式距离;(3)选取距离最大的候选节点的特征向量替换目标节点的特征向量。对m个节点重复进行同样的步骤后即注入了m个属性异常节点。

注入结构异常节点的方法如下：为了平衡结构异常节点和属性异常节点的数量，我们首先也在整个数据集中随机选取m个节点预设为结构异常节点，然后对于m个节点中的每一个目标节点，我们都进行如下步骤：（1）从整个数据集中随机选取h个节点作为候选节点；（2）将目标节点与h个节点建立连边。对m个节点重复进行同样的步骤后即注入了m个结构异常节点。其中h的大小由数据集的大小决定。

表2 该发明与其他方法对比的实验结果

结果如表2所示，本发明所提方法在三个数据集上的的F1分数明显优于H2-FDetector方法，性能提升较为显著，主要是因为该模型中设计的初衷就是直接针对于异常检测任务，考虑了带有异常节点的属性网络中的异质性节点，并且在聚合邻居节点的过程中充分考虑这种异质性，同时考虑了节点的邻域信息进行对比学习。H2-FDetector也注意到了GCN具有同质性假设问题，因此提出了一个同时考虑节点同质性和异质性的框架进行异常节点检测。但是该方法并没有利用节点的邻居信息进行对比学习。

以上计划方案，仅为本发明中的实施方法，但本发明的保护范围不限于此，所有熟悉该技术的人员在本发明所披露的技术范围以内，可理解想到的替换或者变换，都应该包含在本发明的保护范围之内，所以，本发明的保护范围应以权利要求书的保护范围为准。

Claims

1.一种网络信息平台中异常用户检测方法，其特征在于，包括如下步骤：

S1：收集网络信息平台数据，构建用户属性网络；将网络信息平台中的用户信息建模为属性网络G＝{V,ε,A,X}，其中V＝{v₁,v₂,…,v_n}表示节点的集合，n表示节点的数量；ε∈{ε⁺,ε^-}表示边的集合，其中ε⁺表示同质边，ε^-表示异质边；表示邻接矩阵，当A_ij＝1时表示v_i节点和v_j节点间存在一条边；/>表示特征矩阵，每个节点v_i的特征向量是x_i，其维度是d；将网络信息平台中的每个用户看作属性网络中的一个节点，用属性网络中节点的特征向量表示每个用户各自带有的属性，用户与用户之间的交互看作是属性网络中的连边；所述同质边即连接该边的两个节点同为正常节点或异常节点，异质边即连接该边的两个节点一个是正常节点，另一个是异常节点；将异常节点作为正样本，正常节点作为负样本，即异常节点的标签为1，正常节点的标签为0，用户的属性包括用户的性别、年龄段、家庭住址、职业；

S2：计算边的连接类型，判断属于同质边或异质边，具体为：

S2-1：对于每条e_uv∈ε的边，通过连接该条边的两个节点的特征向量计算该条边的类型；表示第l层节点嵌入向量的集合，/>表示第i个节点的嵌入向量，d_l表示第l层嵌入向量的维度，H⁰＝X；对于第l个卷积层，首先通过公式(1)(2)对上一层节点的嵌入向量进行线性变换：

S2-2：利用变换后的嵌入向量的连接值和插值作为该边上的信息，具体实现过程如公式(3)所示：

其中，表示可学习的参数矩阵，[.||.]表示连接操作；

S2-3：通过公式(4)取出的符号作为该条边的类型：

如果则e_uv∈ε⁺，即e_uv是一条同质边；如果/>则e_uv∈ε^-，即e_uv是一条异质边；

S3：基于连边类型计算源节点和目的节点的注意力分数，再利用图卷积神经网络GCN对邻接矩阵A进行卷积运算，聚合邻居节点的特征向量；所述S3具体包括：

S3-1：通过S2得到每条边的连接类型后，按照公式(5)利用每条边的连接类型和S2中线性变换后的嵌入向量与/>计算源节点u对目的节点v的注意力分数：

其中，是一个可学习的权重矩阵，LeakyReLU(·)是一个激活函数；

S3-2：利用公式(6)对具有不同注意力分数和连接类型的源节点进行聚合，以得到目标节点的嵌入向量：

其中，N(v)表示目标节点v的邻居节点的集合；

S4：引入对比学习设计损失函数，利用数据集进行模型训练；所述S4具体包括：

S4-1：将数据集按40％、30％和40％的比例划分为训练集、验证集和测试集；

S4-2：引入对比学习：对每个节点构造一个实例对D_i＝(v_i,p_i,Q_i)，其中v_i是目标节点，p_i是正样本，是负样本的集合；对于一个节点，其正样本为邻居节点中具有同质连接的节点，负样本为邻居节点中具有异质连接的节点；为每个节点构造实例对后，使用InfoNCE函数公式(7)计算损失函数，使当损失函数最低时，目标节点与正样本节点更相似，而与负样本节点差异更大；

S4-3：为解决样本不平衡问题，使用公式(8)的Focal loss损失函数来优化模型：

其中，γ是调制系数，为常数，α是正负样本的权重，为常数，p_t表示预测结果；

S4-4：对于边类型的计算结果，使用有监督学习的方法进行优化；利用公式(9)的损失函数计算边类型损失：

其中，ε_t表示边集，y_uv表示对应边的类型，如果u和v的标签相同，则y_uv＝1，e_uv是同质边；否则y_uv＝-1，e_uv是异质边；

S4-5：模型的整体损失函数如下：

其中，γ₁和γ₂是平衡参数，L表示模型的层数；

2.如权利要求1所述的网络信息平台中异常用户检测方法，其特征在于，所述S4中，所述模型基本结构包括所述S2计算边类型的数据处理层、图卷积神经网络的卷积层和输出层。

3.如权利要求1所述的网络信息平台中异常用户检测方法，其特征在于，所述S5中，对待测数据集中的每一个用户都会获得一对预测概率结果(s^-,s⁺)，如果s^-<s⁺，则该用户的预测结果为1，该用户则为异常用户；相反，如果s^->s⁺，则该用户的预测结果为0，该用户则为正常用户。

4.基于权利要求1-3任一权利要求所述的网络信息平台中异常用户检测方法的一种网络信息平台中异常用户检测系统，其特征在于，包括用户信息属性网络建模模块、连边类型计算模块、注意力分数计算模块、表征向量聚合模块、模型训练模块以及异常用户判别模块组成；

连边类型计算模块：该模块用以计算边的连接类型，判断属于同质边或异质边；

所述注意力分数计算模块：该模块利用变换后的嵌入向量以及上一模块计算得到的连边类型计算出相应的注意力分数；

所述表征向量聚合模块：该模块中利用GCN进行特征聚合，对于一个目标节点的嵌入向量，将与其相连的所有源节点的特征向量进行聚合操作；聚合过程中充分利用每个源节点与目标节点对应的连边类型和注意力分数；

所述模型训练模块：该模块中按照比例进行划分数据集，依照整体损失函数对模型中的可训练参数进行多轮训练，最终获得最优的网络模型；