CN109949176B

CN109949176B - 一种基于图嵌入的社交网络中异常用户检测方法

Info

Publication number: CN109949176B
Application number: CN201910245861.9A
Authority: CN
Inventors: 陈志�; 金广华; 岳文静; 周传; 陈璐; 刘玲
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2022-07-15
Anticipated expiration: 2039-03-28
Also published as: CN109949176A

Abstract

本发明公开了一种基于图嵌入的社交网络中异常用户检测方法，根据社交网络图中的用户节点和社区的归属关系值构建初始的用户节点嵌入模型，然后根据某个用户节点和其他用户节点建立目标函数，进而得到最终的用户节点嵌入模型，选取某个用户节点最终嵌入模型和其他用户节点之间的连接关系得到嵌入加权向量公式，根据嵌入加权向量公式采用数据归一化方法得到用户节点的异常水平公式，当用户节点异常水平大于最大阈值或者小于最小阈值定义为异常用户节点。本发明方法能够有效提升社交网络中异常用户节点检测的有效性和准确性。

Description

一种基于图嵌入的社交网络中异常用户检测方法

技术领域

本发明涉及数据挖掘领域，特别是一种基于图嵌入的社交网络中异常用户检测方法。

背景技术

近几年的研究者们提供了多种图嵌入算法，如多维缩放，但它们旨在保持(全局)成对相似性，并且不针对社交网络用户交互检测问题进行优化。因此，它们不能直接用于社交网络中异常检测问题。基于社交网络模型的图嵌入算法，其中嵌入的每个维度对应于社交网络中的具体用户聚集区域。换句话说，沿特定维度的不同用户节点的相似性表明它们与特定聚类区域的相似性。因此，这种嵌入体现了原始社交网络图的拓扑结构。因为嵌入中的噪声严重损害了异常检测的准确性。异常表现在社交网络图中的主要问题是它们将不应该由短路径连接在一起的不同用户节点聚集起来。因此，这里的问题是决定如何识别并集合连接到不同社区的用户节点。社交网络图数据常见的一个问题是用户节点不与任何固有的位置信息相关联，因此评估底层表示的多样性或相似性要困难得多，并且很难找出社交网络中比较特殊的拓扑结构特征。一种合适的图嵌入算法是使用嵌入来将每个用户节点与多维位置相关联，尽管现有的社交网络图嵌入算法通常用于表示低维社交网络图，但该算法并非设计用于识别具体的用户节点。这是因为该算法与距离矩阵一起工作，不能够计算用户节点和社区的关系，可以认为这种算法的计算模式比较单一。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于图嵌入的社交网络中异常用户检测方法，以有效的检测社交网络中异常用户节点，提高异常检测的准确性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于图嵌入的社交网络中异常用户检测方法，包括以下步骤：

步骤1)，收集社交网络中的用户节点和社区信息，根据用户节点和社区信息建立社交网络图G，输入社交网络图G，所述G由用户节点集合V和边集合E组成，V中用户节点的数量为n，G中社区数量为m。

步骤2)计算每一个用户节点与每个社区之间的归属关系值，其中当用户节点i属于社区k时，用户节点i与社区k之间的归属关系值

为p。当用户节点i不属于社区时，用户节点i与社区k之间的归属关系值

为0，用户节点i嵌入模型向量

所述i∈{1,…,n}，k∈{1,...,m}。

步骤3)定义G中用户节点之间的约束条件，其中当用户节点i和用户节点j直接相连时，它们之间的约束条件为

其中

j∈{1,...,n}且j≠i。当用户节点i和用户节点j没有直接相连，定义它们之间的约束条件为

步骤4)根据步骤3)中用户节点i和用户节点j之间的约束条件，定义目标函数f为：

其中α＝m/(n(n-1)/2-m)，(i,j)是用户节点i和用户节点j相连构成的边。

步骤5)G中所有用户节点对集合和E的差集为E_n，从集合E_n进行采样得到集合E_s，集合E_s中元素的数量在集合E_n中元素的数量大小占比为α，将E_s代入目标函数f：

目标函数f的求导公式为：

步骤6)通过迭代的方式得到G中用户节点的最终嵌入模型，定义用户节点i第t次迭代的嵌入模型向量为

根据步骤5)中目标函数的求导公式定义迭代公式

其中γ_t是第t次迭代中的步长，V^t表示G中所有用户节点第t次迭代的嵌入模型矩阵，其中

多次迭代后矩阵收敛，得到G中用户节点i最终的嵌入模型向量

步骤7)计算每一个用户节点和每个社区的归属关系值加权和，定义用户节点i和社区k归属关系值的加权和为

定义用户节点i直接相连的用户节点集合为AJ(i)，其中AJ(i)＝{j|(i,j)∈E}，AJ(i)的向量公式为：

定义用户节点i的异常水平为ALevel：

其中

步骤8)将

进行从小到大排序得到

当G中社区的数量小于3时，定义最大阈值θ_max为Y中的数据项平均值，最小阈值θ_min为Y中的数据项平均值取负，当G中社区的数量大于等于3时，定义Y的下四分位数为Y_lq和上四分位数为Y_uq：

其中

表示向下取整和

表示向上取整，最大阈值θ_max和最小阈值θ_min为：

当ALevel(i)＞θ_max或ALevel(i)＜θ_min时，用户节点i为异常用户节点。

步骤9)将G中所有用户节点最终嵌入模型重复步骤7)和步骤8)得到G中所有异常用户节点，删除G中所有的异常用户节点输出新的社交网络图。

优选的：所述的步骤1)中的p值为

优选的：所述步骤6)中的迭代步长γ_t和迭代次数t最大值均为50。

有益效果：本发明利用图嵌入与梯度下降法以及统计数学知识形成高效的社交网络中异常用户检测方法。具体体现如下有益效果：

1)本发明中所述建模过程中，提供一个或一套较为抽象的图模型，能够将实际问题中的相关求解方法转化为数学化的模型形式。

2)本发明中所述模型从所有用户节点初始嵌入模型迭代得到最终用户节点模型，使得图嵌入模型构建问题最终能够得到所有的精确解。

3)本发明采用数据归一化和统计学知识设定阈值，科学严谨，保证了异常检测的有效性和准确性。

附图说明

图1是基于图嵌入的社交网络中异常用户节点检测方法流程。

图2是本发明实施例的社交网络图

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于图嵌入的社交网络中异常用户检测方法，首先输入社交网络图，根据社交网络图中的用户节点和社区的归属关系值构建初始的用户节点嵌入模型，然后根据某个用户节点和其他用户节点是否有直接的连接关系定义两个约束条件并将两个约束条件定义成目标函数。接着将目标函数的求导公式和所有用户节点构建的嵌入模型矩阵结合得到迭代公式，利用迭代公式得到最终的用户节点嵌入模型，选取某个用户节点最终嵌入模型和其他用户节点之间的连接关系得到嵌入加权向量公式，根据嵌入加权向量公式采用数据归一化方法得到用户节点的异常水平公式，将用户节点嵌入加权向量中的数据项按大小排序，再根据排序后数据项设定最大阈值和最小阈值，当用户节点异常水平大于最大阈值或者小于最小阈值定义为异常用户节点，如图1所示，具体包括以下步骤：

步骤1)输入如图2所示的社交网络图G，G中包含用户节点V_A、用户节点V_B和用户节点V_C以及边(V_A,V_B)和边(V_B,V_C)，G中社区数量为1。

步骤2)G中用户节点都是属于一个社区，用户节点与社区k之间的归属关系值都为p。用户节点V_A、V_B和V_C嵌入模型向量都为

步骤3)用户节点V_A和V_B以及V_B和V_C约束条件都为0，V_A和V_C之间约束条件为1。

步骤4)根据步骤1)得到用户节点数量为3，社区数量为1，则α＝0.5，考虑到G中三个用户节点嵌入模型向量都为一维，G中用户节点之间的约束条件代入目标函数：

则目标函数的值都为常数。

步骤5)考虑到G中所有用户节点数量比较少，所以不需要需进行采样，

目标函数f的求导公式为：

根据步骤4)所述目标函数的值都为常数，则求导后的值都为0。

定义迭代公式为

根据步骤5)中所述的目标函数求导后为0，则迭代公式第一步就收敛，G中用户节点的初始嵌入模型向量为最终的嵌入模型向量。

则用户节点V_A、V_B和V_C和社区归属关系值的加权和都为2p

它们的异常水平公式ALevel的值为0。

步骤8)将

进行从小到大排序得到

考虑到G中的社区数量为1小于3，则θ_max＝2p，θ_min＝-2p，所以G中没有异常用户节点。本方法能够有效提升社交网络中异常用户节点检测的有效性和准确性。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。