CN109949176A - 一种基于图嵌入的社交网络中异常用户检测方法 - Google Patents
一种基于图嵌入的社交网络中异常用户检测方法 Download PDFInfo
- Publication number
- CN109949176A CN109949176A CN201910245861.9A CN201910245861A CN109949176A CN 109949176 A CN109949176 A CN 109949176A CN 201910245861 A CN201910245861 A CN 201910245861A CN 109949176 A CN109949176 A CN 109949176A
- Authority
- CN
- China
- Prior art keywords
- user node
- social network
- user
- community
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 title abstract description 8
- 238000003780 insertion Methods 0.000 title abstract 4
- 230000037431 insertion Effects 0.000 title abstract 4
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000010586 diagram Methods 0.000 claims abstract description 4
- 238000009795 derivation Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 abstract description 3
- 238000010348 incorporation Methods 0.000 abstract 3
- 238000005303 weighing Methods 0.000 abstract 2
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006855 networking Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图嵌入的社交网络中异常用户检测方法,根据社交网络图中的用户节点和社区的归属关系值构建初始的用户节点嵌入模型,然后根据某个用户节点和其他用户节点建立目标函数,进而得到最终的用户节点嵌入模型,选取某个用户节点最终嵌入模型和其他用户节点之间的连接关系得到嵌入加权向量公式,根据嵌入加权向量公式采用数据归一化方法得到用户节点的异常水平公式,当用户节点异常水平大于最大阈值或者小于最小阈值定义为异常用户节点。本发明方法能够有效提升社交网络中异常用户节点检测的有效性和准确性。
Description
技术领域
本发明涉及数据挖掘领域,特别是一种基于图嵌入的社交网络中异常用户检测方法。
背景技术
近几年的研究者们提供了多种图嵌入算法,如多维缩放,但它们旨在保持(全局)成对相似性,并且不针对社交网络用户交互检测问题进行优化。因此,它们不能直接用于社交网络中异常检测问题。基于社交网络模型的图嵌入算法,其中嵌入的每个维度对应于社交网络中的具体用户聚集区域。换句话说,沿特定维度的不同用户节点的相似性表明它们与特定聚类区域的相似性。因此,这种嵌入体现了原始社交网络图的拓扑结构。因为嵌入中的噪声严重损害了异常检测的准确性。异常表现在社交网络图中的主要问题是它们将不应该由短路径连接在一起的不同用户节点聚集起来。因此,这里的问题是决定如何识别并集合连接到不同社区的用户节点。社交网络图数据常见的一个问题是用户节点不与任何固有的位置信息相关联,因此评估底层表示的多样性或相似性要困难得多,并且很难找出社交网络中比较特殊的拓扑结构特征。一种合适的图嵌入算法是使用嵌入来将每个用户节点与多维位置相关联,尽管现有的社交网络图嵌入算法通常用于表示低维社交网络图,但该算法并非设计用于识别具体的用户节点。这是因为该算法与距离矩阵一起工作,不能够计算用户节点和社区的关系,可以认为这种算法的计算模式比较单一。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于图嵌入的社交网络中异常用户检测方法,以有效的检测社交网络中异常用户节点,提高异常检测的准确性。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于图嵌入的社交网络中异常用户检测方法,包括以下步骤:
步骤1),收集社交网络中的用户节点和社区信息,根据用户节点和社区信息建立社交网络图G,输入社交网络图G,所述G由用户节点集合V和边集合E组成,V中用户节点的数量为n,G中社区数量为m。
步骤2)计算每一个用户节点与每个社区之间的归属关系值,其中当用户节点i属于社区k时,用户节点i与社区k之间的归属关系值为p。当用户节点i不属于社区时,用户节点i与社区k之间的归属关系值为0,用户节点i嵌入模型向量所述i∈{1,…,n},k∈{1,...,m}。
步骤3)定义G中用户节点之间的约束条件,其中当用户节点i和用户节点j直接相连时,它们之间的约束条件为其中j∈{1,...,n}且j≠i。当用户节点i和用户节点j没有直接相连,定义它们之间的约束条件为
步骤4)根据步骤3)中用户节点i和用户节点j之间的约束条件,定义目标函数f为:
其中α=m/(n(n-1)/2-m),(i,j)是用户节点i和用户节点j相连构成的边。
步骤5)G中所有用户节点对集合和E的差集为En,从集合En进行采样得到集合Es,集合Es中元素的数量在集合En中元素的数量大小占比为α,将Es代入目标函数f:
目标函数f的求导公式为:
步骤6)通过迭代的方式得到G中用户节点的最终嵌入模型,定义用户节点i第t次迭代的嵌入模型向量为根据步骤5)中目标函数的求导公式定义迭代公式其中γt是第t次迭代中的步长,Vt表示G中所有用户节点第t次迭代的嵌入模型矩阵,其中多次迭代后矩阵收敛,得到G中用户节点i最终的嵌入模型向量
步骤7)计算每一个用户节点和每个社区的归属关系值加权和,定义用户节点i和社区k归属关系值的加权和为定义用户节点i直接相连的用户节点集合为AJ(i),其中AJ(i)={j|(i,j)∈E},AJ(i)的向量公式为:
定义用户节点i的异常水平为ALevel:
其中
步骤8)将进行从小到大排序得到当G中社区的数量小于3时,定义最大阈值θmax为Y中的数据项平均值,最小阈值θmin为Y中的数据项平均值取负,当G中社区的数量大于等于3时,定义Y的下四分位数为Ylq和上四分位数为Yuq:
其中表示向下取整和表示向上取整,最大阈值θmax和最小阈值θmin为:
当ALevel(i)>θmax或ALevel(i)<θmin时,用户节点i为异常用户节点。
步骤9)将G中所有用户节点最终嵌入模型重复步骤7)和步骤8)得到G中所有异常用户节点,删除G中所有的异常用户节点输出新的社交网络图。
优选的:所述的步骤1)中的p值为
优选的:所述步骤6)中的迭代步长γt和迭代次数t最大值均为50。
有益效果:本发明利用图嵌入与梯度下降法以及统计数学知识形成高效的社交网络中异常用户检测方法。具体体现如下有益效果:
1)本发明中所述建模过程中,提供一个或一套较为抽象的图模型,能够将实际问题中的相关求解方法转化为数学化的模型形式。
2)本发明中所述模型从所有用户节点初始嵌入模型迭代得到最终用户节点模型,使得图嵌入模型构建问题最终能够得到所有的精确解。
3)本发明采用数据归一化和统计学知识设定阈值,科学严谨,保证了异常检测的有效性和准确性。
附图说明
图1是基于图嵌入的社交网络中异常用户节点检测方法流程。
图2是本发明实施例的社交网络图
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于图嵌入的社交网络中异常用户检测方法,首先输入社交网络图,根据社交网络图中的用户节点和社区的归属关系值构建初始的用户节点嵌入模型,然后根据某个用户节点和其他用户节点是否有直接的连接关系定义两个约束条件并将两个约束条件定义成目标函数。接着将目标函数的求导公式和所有用户节点构建的嵌入模型矩阵结合得到迭代公式,利用迭代公式得到最终的用户节点嵌入模型,选取某个用户节点最终嵌入模型和其他用户节点之间的连接关系得到嵌入加权向量公式,根据嵌入加权向量公式采用数据归一化方法得到用户节点的异常水平公式,将用户节点嵌入加权向量中的数据项按大小排序,再根据排序后数据项设定最大阈值和最小阈值,当用户节点异常水平大于最大阈值或者小于最小阈值定义为异常用户节点,如图1所示,具体包括以下步骤:
步骤1)输入如图2所示的社交网络图G,G中包含用户节点VA、用户节点VB和用户节点VC以及边(VA,VB)和边(VB,VC),G中社区数量为1。
步骤2)G中用户节点都是属于一个社区,用户节点与社区k之间的归属关系值都为p。用户节点VA、VB和VC嵌入模型向量都为
步骤3)用户节点VA和VB以及VB和VC约束条件都为0,VA和VC之间约束条件为1。
步骤4)根据步骤1)得到用户节点数量为3,社区数量为1,则α=0.5,考虑到G中三个用户节点嵌入模型向量都为一维,G中用户节点之间的约束条件代入目标函数:
则目标函数的值都为常数。
步骤5)考虑到G中所有用户节点数量比较少,所以不需要需进行采样,
目标函数f的求导公式为:
根据步骤4)所述目标函数的值都为常数,则求导后的值都为0。
步骤6)通过迭代的方式得到G中用户节点的最终嵌入模型,定义用户节点i第t次迭代的嵌入模型向量为定义迭代公式为其中γt是第t次迭代中的步长,Vt表示G中所有用户节点第t次迭代的嵌入模型矩阵,其中根据步骤5)中所述的目标函数求导后为0,则迭代公式第一步就收敛,G中用户节点的初始嵌入模型向量为最终的嵌入模型向量。
步骤7)计算每一个用户节点和每个社区的归属关系值加权和,定义用户节点i和社区k归属关系值的加权和为定义用户节点i直接相连的用户节点集合为AJ(i),其中AJ(i)={j|(i,j)∈E},AJ(i)的向量公式为:
则用户节点VA、VB和VC和社区归属关系值的加权和都为2p
它们的异常水平公式ALevel的值为0。
步骤8)将进行从小到大排序得到考虑到G中的社区数量为1小于3,则θmax=2p,θmin=-2p,所以G中没有异常用户节点。本方法能够有效提升社交网络中异常用户节点检测的有效性和准确性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于图嵌入的社交网络中异常用户检测方法,其特征在于,包括以下步骤:
步骤1),收集社交网络中的用户节点和社区信息,根据用户节点和社区信息建立社交网络图G,所述社交网络图G由用户节点集合V和边集合E组成,用户节点集合V中用户节点的数量n,社交网络图G中社区数量m;
步骤2),根据用户节点和社区关系计算每一个用户节点与每个社区之间的归属关系值,其中,当用户节点i属于社区k时,用户节点i与社区k之间的归属关系值为p;当用户节点i不属于社区时,用户节点i与社区k之间的归属关系值为0,用户节点i嵌入模型向量
步骤3),根据用户节点之间的关系确定社交网络图G中用户节点之间的约束条件,其中,当用户节点i和用户节点j直接相连时,它们之间的约束条件为其中且j≠i;当用户节点i和用户节点j没有直接相连,它们之间的约束条件为
步骤4),根据步骤3)中用户节点i和用户节点j之间的约束条件,确定目标函数f为:
其中,α=m/(n(n-1)/2-m),(i,j)是用户节点i和用户节点j相连构成的边;
步骤5),社交网络图G中所有用户节点对边集合E的差集为En,从集合En进行采样得到集合Es,集合Es中元素的数量在集合En中元素的数量大小占比为α,将Es代入目标函数f:
目标函数f的求导公式为:
步骤6),通过迭代的方式得到社交网络图G中用户节点的最终嵌入模型,用户节点i第t次迭代的嵌入模型向量为根据步骤5)中目标函数的求导公式得到迭代公式其中,γt是第t次迭代中的步长,Vt表示社交网络图G中所有用户节点第t次迭代的嵌入模型矩阵,其中多次迭代后矩阵收敛,得到社交网络图G中用户节点i最终的嵌入模型向量
步骤7),根据步骤6中得到的用户节点i最终的嵌入模型向量计算每一个用户节点和每个社区的归属关系值加权和,用户节点i和社区k归属关系值的加权和为用户节点i直接相连的用户节点集合为AJ(i),其中AJ(i)={j|(i,j)∈E},AJ(i)的向量公式为:
用户节点i的异常水平为ALevel:
其中,
步骤8),将进行从小到大排序得到当社交网络图G中社区的数量小于3时,最大阈值θmax为Y中的数据项平均值,最小阈值θmin为Y中的数据项平均值取负,当社交网络图G中社区的数量大于等于3时,Y的下四分位数为Ylq和上四分位数为Yuq:
其中,表示向下取整和表示向上取整,最大阈值θmax和最小阈值θmin为:
当ALevel(i)>θmax或ALevel(i)<θmin时,用户节点i为异常用户节点。
2.根据权利要求1所述基于图嵌入的社交网络中异常用户检测方法,其特征在于:将社交网络图G中所有用户节点的最终嵌入模型重复步骤7)和步骤8)得到G中所有异常用户节点,删除社交网络图G中所有的异常用户节点输出新的社交网络图。
3.根据权利要求1所述基于图嵌入的社交网络中异常用户检测方法,其特征在于:所述的步骤1)中的p值为
4.根据权利要求1所述基于图嵌入的社交网络中异常用户检测方法,其特征在于:所述步骤6)中的迭代步长γt最大值为50。
5.根据权利要求1所述基于图嵌入的社交网络中异常用户检测方法,其特征在于:所述步骤6)中的迭代次数t最大值为50。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910245861.9A CN109949176B (zh) | 2019-03-28 | 2019-03-28 | 一种基于图嵌入的社交网络中异常用户检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910245861.9A CN109949176B (zh) | 2019-03-28 | 2019-03-28 | 一种基于图嵌入的社交网络中异常用户检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109949176A true CN109949176A (zh) | 2019-06-28 |
CN109949176B CN109949176B (zh) | 2022-07-15 |
Family
ID=67012645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910245861.9A Active CN109949176B (zh) | 2019-03-28 | 2019-03-28 | 一种基于图嵌入的社交网络中异常用户检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109949176B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111049680A (zh) * | 2019-12-05 | 2020-04-21 | 中国科学院信息工程研究所 | 一种基于图表示学习的内网横向移动检测系统及方法 |
CN111405563A (zh) * | 2020-03-24 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 保护用户隐私的风险检测方法和装置 |
CN112008543A (zh) * | 2020-07-20 | 2020-12-01 | 大制(苏州)科技有限公司 | 一种焊枪电极帽修磨异常诊断方法 |
CN112365356A (zh) * | 2020-10-27 | 2021-02-12 | 河北大学 | 社交网络中基于多视图融合的用户审计方法 |
CN113065045A (zh) * | 2021-04-20 | 2021-07-02 | 支付宝(杭州)信息技术有限公司 | 对用户进行人群划分、训练多任务模型的方法和装置 |
CN113496440A (zh) * | 2021-06-28 | 2021-10-12 | 国网上海市电力公司 | 一种用户异常用电检测方法及系统 |
CN114912109A (zh) * | 2022-07-19 | 2022-08-16 | 中孚安全技术有限公司 | 一种基于图嵌入的异常行为序列识别方法及系统 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
CN116993433A (zh) * | 2023-07-14 | 2023-11-03 | 重庆邮电大学 | 一种基于大数据的互联网电商异常用户检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678669A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种社交网络中的社区影响力评估系统及方法 |
CN108334580A (zh) * | 2018-01-25 | 2018-07-27 | 重庆邮电大学 | 一种结合链接和属性信息的社区发现方法 |
CN108920678A (zh) * | 2018-07-10 | 2018-11-30 | 福州大学 | 一种基于谱聚类与模糊集的重叠社区发现方法 |
-
2019
- 2019-03-28 CN CN201910245861.9A patent/CN109949176B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678669A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种社交网络中的社区影响力评估系统及方法 |
CN108334580A (zh) * | 2018-01-25 | 2018-07-27 | 重庆邮电大学 | 一种结合链接和属性信息的社区发现方法 |
CN108920678A (zh) * | 2018-07-10 | 2018-11-30 | 福州大学 | 一种基于谱聚类与模糊集的重叠社区发现方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111049680B (zh) * | 2019-12-05 | 2021-05-25 | 中国科学院信息工程研究所 | 一种基于图表示学习的内网横向移动检测系统及方法 |
CN111049680A (zh) * | 2019-12-05 | 2020-04-21 | 中国科学院信息工程研究所 | 一种基于图表示学习的内网横向移动检测系统及方法 |
CN111405563A (zh) * | 2020-03-24 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 保护用户隐私的风险检测方法和装置 |
CN112008543A (zh) * | 2020-07-20 | 2020-12-01 | 大制(苏州)科技有限公司 | 一种焊枪电极帽修磨异常诊断方法 |
CN112365356B (zh) * | 2020-10-27 | 2022-04-12 | 河北大学 | 社交网络中基于多视图融合的用户审计方法 |
CN112365356A (zh) * | 2020-10-27 | 2021-02-12 | 河北大学 | 社交网络中基于多视图融合的用户审计方法 |
CN113065045B (zh) * | 2021-04-20 | 2022-07-22 | 支付宝(杭州)信息技术有限公司 | 对用户进行人群划分、训练多任务模型的方法和装置 |
CN113065045A (zh) * | 2021-04-20 | 2021-07-02 | 支付宝(杭州)信息技术有限公司 | 对用户进行人群划分、训练多任务模型的方法和装置 |
CN113496440A (zh) * | 2021-06-28 | 2021-10-12 | 国网上海市电力公司 | 一种用户异常用电检测方法及系统 |
CN113496440B (zh) * | 2021-06-28 | 2023-12-12 | 国网上海市电力公司 | 一种用户异常用电检测方法及系统 |
CN114912109A (zh) * | 2022-07-19 | 2022-08-16 | 中孚安全技术有限公司 | 一种基于图嵌入的异常行为序列识别方法及系统 |
CN114912109B (zh) * | 2022-07-19 | 2022-12-06 | 中孚安全技术有限公司 | 一种基于图嵌入的异常行为序列识别方法及系统 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
CN116680633B (zh) * | 2023-05-06 | 2024-01-26 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
CN116993433A (zh) * | 2023-07-14 | 2023-11-03 | 重庆邮电大学 | 一种基于大数据的互联网电商异常用户检测方法 |
CN116993433B (zh) * | 2023-07-14 | 2024-07-26 | 南京中科奇算科创发展有限公司 | 一种基于大数据的互联网电商异常用户检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109949176B (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949176B (zh) | 一种基于图嵌入的社交网络中异常用户检测方法 | |
CN110471957B (zh) | 基于频繁模式树的本地化差分隐私保护频繁项集挖掘方法 | |
CN109034562B (zh) | 一种社交网络节点重要性评估方法及系统 | |
WO2022247955A1 (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
WO2018006631A1 (zh) | 一种用户等级自动划分方法及系统 | |
CN102571431A (zh) | 针对复杂网络的基于群思想改进的Fast-Newman聚类方法 | |
CN116596095A (zh) | 基于机器学习的碳排放量预测模型的训练方法及装置 | |
CN112182306A (zh) | 一种基于不确定图的社区发现方法 | |
Fu et al. | De-anonymizing social networks with overlapping community structure | |
CN109783805A (zh) | 一种网络社区用户识别方法及装置 | |
Liu et al. | Finding densest lasting subgraphs in dynamic graphs: A stochastic approach | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
Yalavarthi et al. | Select your questions wisely: For entity resolution with crowd errors | |
CN108229692B (zh) | 一种基于双重对比学习的机器学习识别方法 | |
CN108268877A (zh) | 一种识别目标终端的方法和装置 | |
Shi et al. | Characterization of network complexity by communicability sequence entropy and associated Jensen-Shannon divergence | |
CN106778252B (zh) | 基于粗糙集理论与waode算法的入侵检测方法 | |
CN112597699B (zh) | 一种融入客观赋权法的社交网络谣言源识别方法 | |
CN115292303A (zh) | 数据处理方法及装置 | |
Tang et al. | Hypergraph structure inference from data under smoothness prior | |
CN108615056A (zh) | 一种基于可分解评分函数的树增强朴素贝叶斯分类方法 | |
Munikoti et al. | Bayesian graph neural network for fast identification of critical nodes in uncertain complex networks | |
CN114329867A (zh) | 一种基于模体的无标度网络鲁棒性度量方法 | |
Zhang et al. | Imbalanced networked multi-label classification with active learning | |
CN118397004B (zh) | 一种矢量地理数据关键性指数计算方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |