CN109753797A - 针对流式图的密集子图检测方法及系统 - Google Patents

针对流式图的密集子图检测方法及系统 Download PDF

Info

Publication number
CN109753797A
CN109753797A CN201811503421.0A CN201811503421A CN109753797A CN 109753797 A CN109753797 A CN 109753797A CN 201811503421 A CN201811503421 A CN 201811503421A CN 109753797 A CN109753797 A CN 109753797A
Authority
CN
China
Prior art keywords
matrix
intensive
window
row
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811503421.0A
Other languages
English (en)
Other versions
CN109753797B (zh
Inventor
程学旗
刘盛华
喻文健
张嘉宝
冯文杰
沈华伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811503421.0A priority Critical patent/CN109753797B/zh
Publication of CN109753797A publication Critical patent/CN109753797A/zh
Application granted granted Critical
Publication of CN109753797B publication Critical patent/CN109753797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种针对流式图的密集子图检测方法和系统,包括:持续从社交网络获取三元组,该三元组由用户、对象和时间戳组成,以该三元组作为流式图建模为行增广矩阵;用滑动窗口访问行增广矩阵,并对每个窗口内的行增广矩阵进行奇异值分解,得到奇异矩阵,获取奇异矩阵的奇异向量对,根据向量阈值对该奇异向量对进行筛选,得到候选密集块及其密度;通过对候选密集块利用已有方法进一步进行密集子块筛选;最终密集块的用户为检测的异常用户、其中的目标物为检测的异常目标。本发明根据增广矩阵和滑动窗口对流式图建模,每次只存储一个步长的数据,每次检测一个窗口的数据,性能优于每插入一条新数据都要更新密集块的流式算法。

Description

针对流式图的密集子图检测方法及系统
技术领域
本发明属于计算机技术领域,特别涉及一种针对流式图数据的密集子图检测方法和系统。
背景技术
随着社交网络的兴起,网络诈骗已经成为一个越来越严重的问题,大量社交平台都存在各种各样的欺诈行为,如微博水军、淘宝刷单等,以及网络攻击行为,如DDoS攻击。如何检测这类异常行为已经越来越引起人们的重视,用图表示社交网络的数据,问题可以转换为基于大规模流式图挖掘检测异常行为。
传统的异常检测算法都是检测静态数据,比如说,基于谱分解的EigenSpokes,还有很多算法基于图密度,比如说Fraudar,甚至有算法还考虑了攻击的爆发增长和回落,例如HoloScope。这些算法能精准的检测到异常行为,但是它们是基于静态图的,这会造成两个问题:第一,不能实时得到异常检测的反馈结果;第二,每次要计算所有的数据,计算量太大,耗时长。因此,人们偏向于检测流式图数据,以便能够及时得到反馈。
传统的基于流式图的欺诈检测算法,只是通过相似函数来比较相邻图的变化,而不考虑整体的趋势,导致结果不准确。现有的很多流式算法都是检测密集子图,将动态图建模为流式张量,目的是近似地识别出topK个最密集的子块。然而,这些算法需要维持密集块,每读入一条新数据,都要更新密集块,性能不高,特别是当密集块很大的情况下,更新速度很慢。Spotlight基于随机草图映射的方法,能够实时检测出密集块的突然出现或消失,但是它只能检测出大的密集块,因为草图只包含原流式图的主要特征。还有一些方法是基于图分解和划分的,比如存储了基于张量分解的图结构摘要,并将变化点识别为异常。另外,随机算法定义了一个健壮的随机切割数据结构,可以用作输入流的草图或概要。但是这些方法都只能识别出大的密集块。
通过分析,检测流式数据更符合实际应用情况,如何高效准确地识别出流式数据中的欺诈密集块是一个有待解决的问题。
发明内容
本发明的目的是解决现有基于流式数据异常检测技术的缺陷,提出了一种基于流式图奇异值分解的密集子图检测方法。
具体来说,本发明涉及一种针对流式图的密集子图检测方法,其中包括:
步骤1、持续从社交网络获取以流式图表示的三元组,该三元组由用户、对象和时间戳组成,通过将该时间戳拼接到对象上作为行,用户作为列,将该流式图建模为行增广矩阵;
步骤2、用滑动窗口访问行增广矩阵,并对每个窗口内的行增广矩阵进行奇异值分解,得到奇异矩阵U、S、V,获取U、V奇异矩阵的奇异向量对(u,v),设置向量阈值筛选u,v向量上的值,得到候选密集块及该候选密集块的密度;
步骤3、集合每个窗口输出的该密度,得到密度历史集合,设置密度阈值为μ+3σ,其中μ是该密度历史集合的平均值,σ是该密度历史集合的标准差,若t时刻窗口的密度Dt大于该密度阈值,则判定t时刻窗口的候选密集块中用户为异常用户,否则为正常用户,将该异常用户的对象作为异常目标,将异常用户和异常目标作为检测结果输出。
该针对流式图的密集子图检测方法,其中该步骤1包括:
持续从社交网络获取三元组,并将所有的用户记作集合B1,所有的对象记作集合B2,构造二部图其中E是图的边集合,V是图的节点集合,V=B1∪B2,将作为该流式图,建模为该行增广矩阵。
该针对流式图的密集子图检测方法,其中该奇异值分解包括:
步骤21、定义随机矩阵Ω大小为n×l,其中l<<min(m,n);窗口内的行增广矩阵的大小为m×n;
步骤22、定义两个列表glist,hlist,结合滑动窗口,通过下式每次计算一个步长s的窗口内的行增广矩阵a,生成对应的矩阵g,h,分别存入glist,hlist;
g=aΩ;h=aTg
遍历完该行增广矩阵后,将glist中所有的矩阵g按行拼接生成矩阵G,将hlist中所有的矩阵h相加生成矩阵H;
步骤23、利用已有的Single-pass PCA算法,根据矩阵G,H得到矩阵Q,B,再根据矩阵Q,B生成奇异矩阵U、S、V。
该针对流式图的密集子图检测方法,其中该步骤2中筛选过程包括:
步骤24、设置u向量的向量阈值为mt代表t时刻窗口对应的行增广矩阵的行数,v向量的向量阈值为nt代表t时刻窗口对应的行增广矩阵的列数;
步骤25、获取第t时刻窗口的奇异向量对(ut,vt),遍历ut向量的值,提取出所有不小于阈值τu的行,构成集合rowset;遍历vt向量的值,提取出所有不小于阈值τv的列,构成集合colset,rowset中的行和colset中的列构成了窗口[t,t+w]的候选密集块Bt,w为窗口的大小;
步骤26、通过Bt的边数和除以Bt的行列数之和,得到候选密集块的密度。
该针对流式图的密集子图检测方法,其中该步骤25包括:根据密集块检测算法HoloScope或Fraudar,对候选密集块Bt进一步进行密集子块筛选,形成最终的候选密集块。
本发明还提供了一种针对流式图的密集子图检测系统,其中包括:
增广矩阵生成模块,用于持续从社交网络获取以流式图表示的三元组,该三元组由用户、对象和时间戳组成,通过将该时间戳拼接到对象上作为行,用户作为列,将该流式图建模为行增广矩阵;
奇异值分解模块,用滑动窗口访问行增广矩阵,并对每个窗口内的行增广矩阵进行奇异值分解,得到奇异矩阵U、S、V,获取U、V奇异矩阵的奇异向量对(u,v),设置向量阈值筛选u,v向量上的值,得到候选密集块及该候选密集块的密度;
检测模块,集合每个窗口输出的该密度,得到密度历史集合,设置密度阈值为μ+3σ,其中μ是该密度历史集合的平均值,σ是该密度历史集合的标准差,若t时刻窗口的密度大于该密度阈值,则判定t时刻窗口的候选密集块中的用户和对象分别为异常用户和异常目标,将该异常用户和该异常目标作为检测结果输出。
该针对流式图的密集子图检测系统,其中该增广矩阵生成模块,包括:
持续从社交网络获取三元组,并将所有的用户记作集合B1,所有的对象记作集合B2,构造二部图其中E是图的边集合,V是图的节点集合,V=B1∪B2,将作为该流式图,建模为该行增广矩阵。
该针对流式图的密集子图检测系统,其中该奇异值分解包括:
定义随机矩阵Ω大小为n×l,其中l<<min(m,n);窗口内的行增广矩阵的大小为m×n;
定义两个列表glist,hlist,结合滑动窗口,通过下式每次计算一个步长s的窗口内的行增广矩阵a,生成对应的矩阵g,h,分别存入glist,hlist;
g=aΩ;h=aTg
遍历完该行增广矩阵后,将glist中所有的矩阵g按行拼接生成矩阵G,将hlist中所有的矩阵h相加生成矩阵H;
利用已有的Single-pass PCA算法,根据矩阵G,H得到矩阵Q,B,再根据矩阵Q,B生成奇异矩阵U、S、V。
该针对流式图的密集子图检测系统,其中该奇异值分解模块中筛选过程包括:
设置u向量的向量阈值为mt代表t时刻窗口对应的行增广矩阵的行数,v向量的向量阈值为nt代表t时刻窗口对应的行增广矩阵的列数;
获取第t时刻窗口的奇异向量对(ut,vt),遍历ut向量的值,提取出所有不小于阈值τu的行,构成集合rowset;遍历vt向量的值,提取出所有不小于阈值τv的列,构成集合colset,rowset中的行和colset中的列构成了窗口[t,t+w]的候选密集块Bt,w为窗口的大小;
通过Bt的边数和除以Bt的行列数之和,得到候选密集块的密度。
该针对流式图的密集子图检测系统,其中该筛选过程还包括:根据密集块检测算法HoloScope或Fraudar,对候选密集块Bt进一步进行密集子块筛选,形成最终的候选密集块。
本发明技术进步包括:
用行增广矩阵和滑动窗口对流式图建模,提出了流式图的奇异分解算法AugSVD。每个窗口的行增广矩阵调用AugSVD算法,每次只需存储一个步长的数据在内存中,而传统的SVD分解需要存储一个窗口的数据,AugSVD节省了大量内存,扩展性良好。EigenPulse每次检测一个窗口的数据,相比起每插入一条新数据都要更新密集块的流式算法,性能大幅提升。DenseAlert是目前性能最好的流式图密集子图检测算法,比最快的批处理算法快了几百倍,如图2所示,EigenPulse在表1的前5个数据集上的运行速度比DenseAlert至少提高了2.53倍,在Amazon CellPhone数据集上甚至提高了12.2倍。
附图说明
图1为滑动窗口示意图;
图2为EigenPulse与DenseAlert运行时间对比图;
图3为流式图异常检测模型的处理流程图;
图4为EigenPulse在微博数据集上的密集块检测结果。
具体实施细节
本发明的发明步骤包括:
1、社交网络不断生成形如三元组(用户,商品,时间戳)的数据,表示用户在该时间戳评价了商品。将所有的用户记作集合B1,所有的商品记作集合B2,构造二部图表示数据,其中E是图的边集合,V是图的节点集合,V=B1∪B2,边代表用户和商品之间的连接。用户是节点,构成了节点集合B1,商品是另一类的节点,构成节点集合B2。如果用户买了商品,就会在这个用户和这个商品之间形成一条边,这条边上记录了购买信息,比如说购买时间(即时间戳)。将流式图建模为行增广矩阵A,如果每条新数据对应的矩阵行号是递增的或者等于最后一行的行号,就是行增广矩阵。拼接商品和时间戳作为行,用户作为列,随着时间不断增长,
矩阵行号一定是递增的。
2、设计滑动窗口访问如图1所示。图1展示的是AT,行代表用户,列递增。定义时间单位的窗口大小为w,时间单位的步幅大小为s,每次窗
口向前推进s形成下一个窗口。假设窗口起始时间为t,则结束时间为t+w,对应的行增广矩阵为At,下一个窗口的开始时间为t+s。若w无穷大,在每次步骤中考虑所有的历史数据;若w=s,可以得到非重叠子图。
3、结合滑动窗口和行增广矩阵,设计算法AugSVD做行增广矩阵的奇异值分解。AugSVD算法基于Single-pass PCA算法,改进了矩阵G,H的生成过程,矩阵G,H是用来生成矩阵Q,B的中间矩阵。定义t时刻的行增广矩阵At的大小为m×n,算法输入At,输出t时刻窗口的奇异矩阵Ut,St,Vt
AugSVD算法步骤如下:
1)定义随机矩阵Ω大小为n×l,其中l<<min(m,n)。
2)定义两个列表glist,hlist。结合滑动窗口,每次计算一个步长s的矩阵a,生成对应的矩阵g,h,分别存入glist,hlist。
g=aΩ;h=aTg
遍历完At后,将glist中所有的矩阵g按行拼接生成矩阵G,将hlist中所有的矩阵h相加生成H。
3)和Single-pass PCA算法相同,根据矩阵G,H生成矩阵Q,B,效果类似于QB分解。再根据Q,B矩阵生成At的奇异矩阵Ut,St,Vt
4、设计EigenPulse算法提取窗口的可疑密集块(候选密集块)并计算可疑密集块的密度。在t时刻,行增广矩阵At对应的时间窗口为[t,t+w],行数为mt,列数为n,输入奇异向量对(ut,vt),其中输出可疑密集块的密度Dt
EigenPulse算法步骤如下:
1)设置u向量的阈值为mt代表t时刻窗口对应的行增广矩阵的行数,v向量的阈值为nt代表t时刻窗口对应的行增广矩阵的列数。
2)遍历ut向量的值,提取出所有不小于阈值τu的行,构成集合rowset;遍历vt向量的值,提取出所有不小于阈值τv的列,构成集合colset。rowset中的行和colset中的列构成了窗口[t,t+w]的候选密集块Bt
3)[可选步骤]调用已有的密集块检测算法HoloScope或Fraudar在密集子块Bt上进一步寻找更密集的子块,构成可疑密集块B't。计算B't的密度Dt,分子为B't的边数和,分母为B't的行列数之和。
5、将每个窗口输出的密度记作集合D,根据正态分布性质,设置密度阈值为μ+3σ,μ是D的历史平均值,σ是D的历史标准差。若t时刻的密度Dt大于阈值,则B't中的用户非常具有嫌疑。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
结合图3中的整个模型处理流程,具体的实施步骤如下所示:
步骤1、选取新浪微博的数据,时间跨度1个月,如表1所示。数据格式为(用户,微博,时间戳),代表用户在该时间转发了这条微博。将时间戳拼接到微博上作为行,用户作为列,生成增广矩阵A,A的元素值为用户在该时间转发这条微博的次数。
步骤2、设置滑动窗口参数,w=2h,s=1h。
步骤3、拿第一个窗口举例,行增广矩阵A0存储了初始两小时的数据,调用AugSVD算法输出奇异矩阵U,S,V。
步骤4、调用EigenPulse算法,输入为U,V矩阵的第一个奇异向量对(u0,v0)。首先提取出不小于阈值τu的行和不小于阈值τv的列,构成密集块。再调用检测算法Fraudar检测密集块,输出有异常嫌疑的行和列,构成可疑密集块并计算可疑密集块的密度。
步骤5、根据所有历史窗口的密度,计算密度阈值μ+3σ,取出密度大于阈值的窗口,这些窗口的可疑密集块非常具有嫌疑。
所有历史窗口的密度曲线如图4所示,可以看出,有几个窗口输出的密度非常大,爬取这些窗口的可疑密集块对应的微博,经过观察和分析,确定了这些可疑密集块对应的内容主题,用多边形图标表示。这些可疑密集块的具体信息如表2所示,特别值得注意的是,有一个可疑密度块有953条边,但是只有7用户×8消息,这意味着每个用户在两小时内平均转发一个消息20次,非常具有嫌疑。所以,EigenPulse可以检测到真实数据集中的存在异常的密集块。
对比EigenPulse和DenseAlert在表1前5个数据集上的运行时间。设置两个算法的滑动窗口为w=30day,s=10day,运行时间如图2所示。可以看出,EigenPulse对比DenseAlert速度提高了至少2.53倍,在Amazon CellPhone数据集上甚至提高了12.2倍。
表1数据集信息表:
名字 节点数 边数 时间跨度
Amazon Electronic 4.20M×476K 7.82M 1998.12–2014.7
Amazon Glocery 763K×165K 1.29M 2007.1–2014.7
Amazon Cellphone 2.26M×329K 3.45M 2007.1–2014.7
BeerAdvocate 26.5K×50.8K 1.08M 2008.1–2011.11
Yelp 686K×85.3K 2.68M 2004.10–2016.7
SinaWeibo 2.74M×8.08M 50.06M 2013.11–2013.12
表2可疑窗口的可疑子图信息表:
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提供了一种针对流式图的密集子图检测系统,其中包括:
增广矩阵生成模块,用于持续从社交网络获取以流式图表示的三元组,该三元组由用户、对象和时间戳组成,通过将该时间戳拼接到对象上作为行,用户作为列,将该流式图建模为行增广矩阵;具体实施中对象视社交网络的不同而不同,例如若社交网络是购物网站,则对象是商品,若社交网络是微博平台,则对象是微博。
奇异值分解模块,用滑动窗口访问行增广矩阵,并对每个窗口内的行增广矩阵进行奇异值分解,得到奇异矩阵U、S、V,获取U、V奇异矩阵的奇异向量对(u,v),设置向量阈值筛选u,v向量上的值,得到候选密集块及该候选密集块的密度;
检测模块,集合每个窗口输出的该密度,得到密度历史集合,设置密度阈值为μ+3σ,其中μ是该密度历史集合的平均值,σ是该密度历史集合的标准差,若t时刻窗口的密度大于该密度阈值,则判定t时刻窗口的候选密集块中的用户和对象分别为异常用户和异常目标,将该异常用户和该异常目标作为检测结果输出。
该针对流式图的密集子图检测系统,其中该增广矩阵生成模块,包括:
持续从社交网络获取三元组,并将所有的用户记作集合B1,所有的对象记作集合B2,构造二部图其中E是图的边集合,V是图的节点集合,V=B1∪B2,将作为该流式图,建模为该行增广矩阵。
该针对流式图的密集子图检测系统,其中该奇异值分解包括:
定义随机矩阵Ω大小为n×l,其中l<<min(m,n);窗口内的行增广矩阵的大小为m×n;
定义两个列表glist,hlist,结合滑动窗口,通过下式每次计算一个步长s的窗口内的行增广矩阵a,生成对应的矩阵g,h,分别存入glist,hlist;
g=aΩ;h=aTg
遍历完该行增广矩阵后,将glist中所有的矩阵g按行拼接生成矩阵G,将hlist中所有的矩阵h相加生成矩阵H;
利用已有的Single-pass PCA算法,根据矩阵G,H得到矩阵Q,B,再根据矩阵Q,B生成奇异矩阵U、S、V。
该针对流式图的密集子图检测系统,其中该奇异值分解模块中筛选过程包括:
设置u向量的向量阈值为mt代表t时刻窗口对应的行增广矩阵的行数,v向量的向量阈值为nt代表t时刻窗口对应的行增广矩阵的列数;
获取第t时刻窗口的奇异向量对(ut,vt),遍历ut向量的值,提取出所有不小于阈值τu的行,构成集合rowset;遍历vt向量的值,提取出所有不小于阈值τv的列,构成集合colset,rowset中的行和colset中的列构成了窗口[t,t+w]的候选密集块Bt,w为窗口的大小;
通过Bt的边数和除以Bt的行列数之和,得到候选密集块的密度。
该针对流式图的密集子图检测系统,其中该筛选过程还包括:根据密集块检测算法HoloScope或Fraudar,在候选密集块Bt上进一步寻找更密集的子块,形成最终的候选密集块。

Claims (10)

1.一种针对流式图的密集子图检测方法,其特征在于,包括:
步骤1、持续从社交网络获取以流式图表示的三元组,该三元组由用户、对象和时间戳组成,通过将该时间戳拼接到对象上作为行,用户作为列,将该流式图建模为行增广矩阵;
步骤2、用滑动窗口访问行增广矩阵,并对每个窗口内的行增广矩阵进行奇异值分解,得到奇异矩阵U、S、V,获取U、V奇异矩阵的奇异向量对(u,v),设置向量阈值筛选u,v向量上的值,得到候选密集块及该候选密集块的密度;
步骤3、集合每个窗口输出的密度,得到密度历史集合,设置密度阈值为μ+3σ,其中μ是该密度历史集合的平均值,σ是该密度历史集合的标准差,若t时刻窗口的密度Dt大于该密度阈值,则判定t时刻窗口的候选密集块中的用户和对象分别为异常用户和异常目标,将该异常用户和该异常目标作为检测结果输出。
2.如权利要求1所述的针对流式图的密集子图检测方法,其特征在于,该步骤1包括:
持续从社交网络获取三元组,并将所有的用户记作集合B1,所有的对象记作集合B2,构造二部图其中E是图的边集合,V是图的节点集合,V=B1∪B2,将作为该流式图,建模为该行增广矩阵。
3.如权利要求1所述的针对流式图的密集子图检测方法,其特征在于,该奇异值分解包括:
步骤21、定义随机矩阵Ω大小为n×l,其中l《min(m,n);窗口内的行增广矩阵的大小为m×n;
步骤22、定义两个列表glist,hlist,结合滑动窗口,通过下式每次计算一个步长s的窗口内的行增广矩阵a,生成对应的矩阵g,h,分别存入glist,hlist;
g=aΩ;h=aTg
遍历完该行增广矩阵后,将glist中所有的矩阵g按行拼接生成矩阵G,将hlist中所有的矩阵h相加生成矩阵H;
步骤23、利用已有的Single-pass PCA算法,根据矩阵G,H得到矩阵Q,B,再根据矩阵Q,B生成奇异矩阵U、S、V。
4.如权利要求1或2或3所述的针对流式图的密集子图检测方法,其特征在于,该步骤2中筛选过程包括:
步骤24、设置u向量的向量阈值为mt代表t时刻窗口对应的行增广矩阵的行数,v向量的向量阈值为nt代表t时刻窗口对应的行增广矩阵的列数;
步骤25、获取第t时刻窗口的奇异向量对(ut,vt),遍历ut向量的值,提取出所有不小于阈值τu的行,构成集合rowset;遍历vt向量的值,提取出所有不小于阈值τv的列,构成集合colset,rowset中的行和colset中的列构成了窗口[t,t+w]的候选密集块Bt,w为窗口的大小;
步骤26、通过Bt的边数和除以Bt的行列数之和,得到候选密集块的密度。
5.如权利要求4所述的针对流式图的密集子图检测方法,其特征在于,该步骤25包括:根据已有的密集块检测算法HoloScope或Fraudar,对候选密集块Bt进一步进行密集子块筛选,形成最终的候选密集块。
6.一种针对流式图的密集子图检测系统,其特征在于,包括:
增广矩阵生成模块,用于持续从社交网络获取以流式图表示的三元组,该三元组由用户、对象和时间戳组成,通过将该时间戳拼接到对象上作为行,用户作为列,将该流式图建模为行增广矩阵;
奇异值分解模块,用滑动窗口访问行增广矩阵,并对每个窗口内的行增广矩阵进行奇异值分解,得到奇异矩阵U、S、V,获取U、V奇异矩阵的奇异向量对(u,v),设置向量阈值筛选u,v向量上的值,得到候选密集块及该候选密集块的密度;
检测模块,集合每个窗口输出的密度,得到密度历史集合,设置密度阈值为μ+3σ,其中μ是该密度历史集合的平均值,σ是该密度历史集合的标准差,若t时刻窗口的密度大于该密度阈值,则判定t时刻窗口的候选密集块中的用户和对象分别为异常用户和异常目标,将该异常用户和该异常目标作为检测结果输出。
7.如权利要求6所述的针对流式图的密集子图检测系统,其特征在于,该增广矩阵生成模块,包括:
持续从社交网络获取三元组,并将所有的用户记作集合B1,所有的对象记作集合B2,构造二部图其中E是图的边集合,V是图的节点集合,V=B1∪B2,将作为该流式图,建模为该行增广矩阵。
8.如权利要求6所述的针对流式图的密集子图检测系统,其特征在于,该奇异值分解包括:
定义随机矩阵Ω大小为n×l,其中l《min(m,n);窗口内的行增广矩阵的大小为m×n;
定义两个列表glist,hlist,结合滑动窗口,通过下式每次计算一个步长s的窗口内的行增广矩阵a,生成对应的矩阵g,h,分别存入glist,hlist;
g=aΩ;h=aTg
遍历完该行增广矩阵后,将glist中所有的矩阵g按行拼接生成矩阵G,将hlist中所有的矩阵h相加生成矩阵H;
利用已有的Single-pass PCA算法,根据矩阵G,H得到矩阵Q,B,再根据矩阵Q,B生成奇异矩阵U、S、V。
9.如权利要求6或7或8所述的针对流式图的密集子图检测系统,其特征在于,该奇异值分解模块中筛选过程包括:
设置u向量的向量阈值为mt代表t时刻窗口对应的行增广矩阵的行数,v向量的向量阈值为nt代表t时刻窗口对应的行增广矩阵的列数;
获取第t时刻窗口的奇异向量对(ut,vt),遍历ut向量的值,提取出所有不小于阈值τu的行,构成集合rowset;遍历vt向量的值,提取出所有不小于阈值τv的列,构成集合colset,rowset中的行和colset中的列构成了窗口[t,t+w]的候选密集块Bt,w为窗口的大小;
通过Bt的边数和除以Bt的行列数之和,得到候选密集块的密度。
10.如权利要求9所述的针对流式图的密集子图检测系统,其特征在于,该筛选过程还包括:根据密集块检测算法HoloScope或Fraudar,对候选密集块Bt进一步进行密集子块筛选,形成最终的候选密集块。
CN201811503421.0A 2018-12-10 2018-12-10 针对流式图的密集子图检测方法及系统 Active CN109753797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811503421.0A CN109753797B (zh) 2018-12-10 2018-12-10 针对流式图的密集子图检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811503421.0A CN109753797B (zh) 2018-12-10 2018-12-10 针对流式图的密集子图检测方法及系统

Publications (2)

Publication Number Publication Date
CN109753797A true CN109753797A (zh) 2019-05-14
CN109753797B CN109753797B (zh) 2020-11-03

Family

ID=66403521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811503421.0A Active CN109753797B (zh) 2018-12-10 2018-12-10 针对流式图的密集子图检测方法及系统

Country Status (1)

Country Link
CN (1) CN109753797B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291229A (zh) * 2020-01-21 2020-06-16 中国科学院计算技术研究所 一种稠密多部子图的检测方法及系统
CN112016934A (zh) * 2019-05-31 2020-12-01 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN114285601A (zh) * 2021-11-24 2022-04-05 南京信息职业技术学院 一种大数据的多密集块检测与提取方法
WO2022142021A1 (zh) * 2020-12-30 2022-07-07 平安科技(深圳)有限公司 基于可疑社团的刷单行为检测方法、装置、设备及介质
CN117851959A (zh) * 2024-03-07 2024-04-09 中国人民解放军国防科技大学 基于fhgs的动态网络子图异常检测方法、装置和设备
CN117851959B (zh) * 2024-03-07 2024-05-28 中国人民解放军国防科技大学 基于fhgs的动态网络子图异常检测方法、装置和设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055646A1 (en) * 2005-09-08 2007-03-08 Microsoft Corporation Augmenting user, query, and document triplets using singular value decomposition
CN103268481A (zh) * 2013-05-29 2013-08-28 焦点科技股份有限公司 一种复杂背景图像中的文本提取方法
CN103338379A (zh) * 2013-06-05 2013-10-02 宁波大学 一种基于机器学习的立体视频客观质量评价方法
CN103400152A (zh) * 2013-08-20 2013-11-20 哈尔滨工业大学 基于分层聚类的滑动窗口多数据流异常检测方法
CN104303153A (zh) * 2012-03-22 2015-01-21 洛斯阿拉莫斯国家安全股份有限公司 用于异常子图检测、异常/更改检测和网络态势感知的路径扫描
CN104598629A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 基于流式图模型的社交网络突发事件检测方法
CN104820705A (zh) * 2015-05-13 2015-08-05 华中科技大学 一种可扩展的面向关联的流式图数据划分方法
CN104954477A (zh) * 2015-06-23 2015-09-30 华中科技大学 一种基于并发改进的大规模图数据流式划分方法及系统
CN106100921A (zh) * 2016-06-08 2016-11-09 华中科技大学 基于点信息同步的动态流式图并行抽样方法
CN107928631A (zh) * 2017-12-21 2018-04-20 哈尔滨工业大学 基于差分路径因子估计的近红外脑功能信号处理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055646A1 (en) * 2005-09-08 2007-03-08 Microsoft Corporation Augmenting user, query, and document triplets using singular value decomposition
CN104303153A (zh) * 2012-03-22 2015-01-21 洛斯阿拉莫斯国家安全股份有限公司 用于异常子图检测、异常/更改检测和网络态势感知的路径扫描
CN103268481A (zh) * 2013-05-29 2013-08-28 焦点科技股份有限公司 一种复杂背景图像中的文本提取方法
CN103338379A (zh) * 2013-06-05 2013-10-02 宁波大学 一种基于机器学习的立体视频客观质量评价方法
CN103400152A (zh) * 2013-08-20 2013-11-20 哈尔滨工业大学 基于分层聚类的滑动窗口多数据流异常检测方法
CN104598629A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 基于流式图模型的社交网络突发事件检测方法
CN104820705A (zh) * 2015-05-13 2015-08-05 华中科技大学 一种可扩展的面向关联的流式图数据划分方法
CN104954477A (zh) * 2015-06-23 2015-09-30 华中科技大学 一种基于并发改进的大规模图数据流式划分方法及系统
CN106100921A (zh) * 2016-06-08 2016-11-09 华中科技大学 基于点信息同步的动态流式图并行抽样方法
CN107928631A (zh) * 2017-12-21 2018-04-20 哈尔滨工业大学 基于差分路径因子估计的近红外脑功能信号处理方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016934A (zh) * 2019-05-31 2020-12-01 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN112016934B (zh) * 2019-05-31 2023-12-29 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN111291229A (zh) * 2020-01-21 2020-06-16 中国科学院计算技术研究所 一种稠密多部子图的检测方法及系统
CN111291229B (zh) * 2020-01-21 2023-10-31 中国科学院计算技术研究所 一种稠密多部子图的检测方法及系统
WO2022142021A1 (zh) * 2020-12-30 2022-07-07 平安科技(深圳)有限公司 基于可疑社团的刷单行为检测方法、装置、设备及介质
CN114285601A (zh) * 2021-11-24 2022-04-05 南京信息职业技术学院 一种大数据的多密集块检测与提取方法
CN114285601B (zh) * 2021-11-24 2023-02-14 南京信息职业技术学院 一种大数据的多密集块检测与提取方法
CN117851959A (zh) * 2024-03-07 2024-04-09 中国人民解放军国防科技大学 基于fhgs的动态网络子图异常检测方法、装置和设备
CN117851959B (zh) * 2024-03-07 2024-05-28 中国人民解放军国防科技大学 基于fhgs的动态网络子图异常检测方法、装置和设备

Also Published As

Publication number Publication date
CN109753797B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN109753797A (zh) 针对流式图的密集子图检测方法及系统
CN111565205B (zh) 网络攻击识别方法、装置、计算机设备和存储介质
CN109951444B (zh) 一种加密匿名网络流量识别方法
Bianconi et al. Triadic closure as a basic generating mechanism of communities in complex networks
Dorogovtsev et al. Size-dependent degree distribution of a scale-free growing network
CN108768986A (zh) 一种加密流量分类方法及服务器、计算机可读存储介质
Lakshminarasimman et al. Detecting DDoS attacks using decision tree algorithm
CN111475838B (zh) 基于深度神经网络的图数据匿名方法、装置、存储介质
Ahmed et al. Space-efficient sampling from social activity streams
Thonnard et al. On a multicriteria clustering approach for attack attribution
Palsetia et al. User-interest based community extraction in social networks
CN110719106A (zh) 一种基于节点分类排序的社交网络图压缩方法及系统
D’hooge et al. Hierarchical feature block ranking for data-efficient intrusion detection modeling
Pi et al. Clique densification in networks
CN112016934B (zh) 用于检测异常数据的方法、设备和计算机可读存储介质
CN106844553A (zh) 基于样本数据的数据探测和扩充方法及装置
CN103761298A (zh) 一种基于分布式架构的实体匹配方法
CN114745283B (zh) 网络信息保护方法、装置和电子设备
Palsetia et al. Excavating social circles via user interests
CN113382092B (zh) 基于图社区发现的活跃地址探测方法及装置
CN111901137A (zh) 一种利用蜜罐告警日志挖掘多步攻击场景的方法
US20150356143A1 (en) Generating a hint for a query
Dey et al. Information spreading in Online Social Networks: A case study on Twitter network
CN114726570A (zh) 一种基于图模型的主机流量异常检测方法及装置
CN103051476A (zh) 基于拓扑分析的网络社区发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant