CN102799616B - 大规模社会网络中的离群点检测方法 - Google Patents

大规模社会网络中的离群点检测方法 Download PDF

Info

Publication number
CN102799616B
CN102799616B CN201210200045.4A CN201210200045A CN102799616B CN 102799616 B CN102799616 B CN 102799616B CN 201210200045 A CN201210200045 A CN 201210200045A CN 102799616 B CN102799616 B CN 102799616B
Authority
CN
China
Prior art keywords
community
node
network
data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210200045.4A
Other languages
English (en)
Other versions
CN102799616A (zh
Inventor
纪腾飞
杨冬青
高军
王腾蛟
唐世渭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201210200045.4A priority Critical patent/CN102799616B/zh
Publication of CN102799616A publication Critical patent/CN102799616A/zh
Application granted granted Critical
Publication of CN102799616B publication Critical patent/CN102799616B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大规模社会网络中的离群点检测方法,其步骤包括:提取待测社会网络数据;根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区;计算各节点的社区离群度因子;提取社区离群度因子最大的n个节点,作为该社会网络的离群点。本发明不需要事先知道数据属于何种分布,能够处理任意分布的社会网络。采用了动态相似性阈值技术,明显降低了输入参数的个数,提升了社区离群点检测的准确性,能够很方便地处理大规模数据集,有良好的应用价值。

Description

大规模社会网络中的离群点检测方法
所属技术领域
本发明属于社会网络中信息科学技术领域,涉及社会网络所涵盖数据中的异常信息挖掘,尤其涉及一种大规模社会网络中的离群点检测方法。
背景技术
社会网络是由一些个人或组织以及它们之间的联系所构成的集合,这种联系可能是同事、朋友、亲属等各种关系。近年来,这种新兴的、实用的交互模式在网络活动中随处可见,如国外的MySpace、Facebook,以及国内的人人网等。事实上,除了这些狭义的社交网络,社会网络还包括合著关系网、电力网格和经济关系等网络实例。
信息科学中,社会网络可以由图结构来定义,其中图的节点代表社会网络中的实体,比如SNS中的用户、合著关系网中的文献等,它包含着大量内容信息;而图的边代表节点之间的联系,如交互关系、好友关系等,它承载了大量的结构信息。因此,不同于常规数据集,社会网络同时包含着内容和结构两方面信息。由于社会网络同时包含结构与内容两方面信息这一特性,社会网络中通常存在着内容信息和结构信息不一致的节点,这些存在于社会网络中的异常点即为本发明所需检测的离群点。这些离群点表现为社会网络划分社区后的社区离群点,这些离群点可能隐含了人们事先未知且具有潜在价值的信息或者知识。在某些情况下,这些小概率的离群点事件很可能比经常发生的事件更有研究价值。比如金融社会网络中的社区离群点可能意味着金融诈骗事件,气象社会网络中的社区离群点可能意味着气象灾难,经济关系社会网络中的社区离群点可能代表着黑马企业家的出现,合著关系网中的社区离群点可能代表着新兴交叉学科的出现。
因此本发明所述的社会网络中的离群点与单纯只包含内容信息的网络中的离群点不同,因此,检测方法也不同。如专利CN 100535955C所示的已有方法,只适用于只包含内容信息的常规数据集,无法适用于社会网络。
目前,对社会网络中社区离群点的检测,主要基于统计学的方法,该方法的不足之处是需要事先知道数据的分布,这在实际应用中是非常困难的,而且大部分现实数据也往往不符合任何一种理想状态的数学分布。此外,这种基于统计的社区离群点检测方法,同时考虑社会网络结构和内容两方面信息(请参见文献JingGao,Feng Liang,Wei Fan,Chi Wang,Yizhou Sun,and Jiawei Han:On CommunityOutliers and their Efficient Detection in Information Networks.Proceedings of theACM SIGKDD international conference on Knowledge discovery and data mining.2010),很难在保证较高准确率的同时具有快速地处理能力,而社会网络所需处理的信息量又极其庞大,它可能包括上亿个节点和边(以Facebook为例,其包含着多于108个节点以及1011条边),这就限制了它的应用。
发明内容
本发明的目的在于提供一种大规模社会网络中的离群点检测方法,在检测准确性及检测效率上优于现有的基于统计的社会网络离群点检测方法。
本发明的大规模社会网络中的离群点检测方法,其步骤包括:
1、提取待测社会网络数据;
2、根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区CS;
3、计算各节点的社区离群度因子COF;
4、提取社区离群度因子COF最大的n个节点,作为该社会网络的离群点,其中n≥1。
本发明根据每个节点数据t与社区C的相似性Similarity(C,t)进行聚类,将相似性大于设定阈值的节点聚为同一社区节点,所述每个节点数据t与社区C的相似性
Similarity ( C , t ) = Σ i = 1 p | t . A i - c i | max ( A i ) - min ( A i ) + Σ i = p + 1 m ( sup ( a i ) | C | )
其中sup()是度量分类属性值ai频率的函数,ci是数值属性的均值,m为该社会网络维度,Ai为第i维属性,该社会网络前p维属性属于数值型属性,后(m-p)维属性属于分类型属性。
所述社会网络社区CS的数据结构为:
CS={Community,Summary,|C|,SS,SS2}
其中,Community为社区标识号,Summary为该社区中数值型属性均值与分类型属性频率的集合,|C|为社区中的节点个数,SS为每个节点数据与社区的相似性Similarity之和,SS2为每个节点数据与社区的相似性Similarity的平方和。
所述阈值δ为期望μ,其中
所述阈值δ最好设为双标准阈值,其上界为期望μ,下界由切比雪夫不等式当k取时得到,即δ.lower为所述切比雪夫不等式是指在任何数据集中,与期望μ超过K倍标准差σ的数据占的比例至多是,即:
Pr ( | δ . lower - μ | ≥ kσ ) ≤ 1 k 2 .
所述社区离群度因子COF为节点t相对于除社区Ci以外的社区的连接密度与节点t相对于社区Ci的连接密度之比,即:
COF ( t ) = Σ q ≠ i , q = 1 k LD C q ( t ) + ϵ LD C i ( t ) + ϵ
其中,ε≥0,可以为极小正数,如不大于10-6,LD为节点相对社区的连接密度;
节点t相对于社区C的连接密度为节点t与社区C相连的边的权重之和与社区C中节点个数之比,即:
LD C ( t ) = W t C | C |
其中表示连接节点t和社区C边的权重之和,|C|是社区C中的节点数目。
本发明的方法采用两阶段方法,全面地考虑了社会网络的内容信息和结构信息。
第一阶段,根据社会网络各节点的内容信息,将社会网络聚类为各个社区,这些社区是识别社区离群点的上下文环境。第二阶段,计算每个节点的社区离群度因子(COF),拥有前n个最大社区离群度因子的节点将作为检测出的社区离群点输出。
所述的第一阶段在社会网络下基于内容信息聚类的方法为,为每个社区存储一个名为“社区结构(CS)”的数据结构,依据该数据结构,可以计算两个关键值,即每个数据与社区的相似性(Similarity)、动态相似性阈值(δ),如果相似性大于阈值,则将该数据聚类于社区,否则该数据不能为社区接受。
社区结构(CS)的数据结构为:
CS={Community,Summary,|C|,SS,SS2}
其中,Community为社区标识号,Summary为该社区中数值型属性均值与分类型属性频率的集合,|C|为社区中的节点个数,SS和SS2分别为每个数据与社区的相似性(Similarity)之和以及每个数据与社区的相似性(Similarity)的平方和。
假定社会网络包括m维属性,Ai是第i维属性,且前p维属性属于数值型属性,后(m-p)维属性属于分类型属性。分类属性Ai存在ri个不同取值。每个数据t与社区C的相似性计算方法为,对前p维数值型属性,计算其与社区均值的标准距离,对后(m-p)维分类型属性,计算其取得属性值的标准频率,将上述标准聚类及标准频率相加,即:
Similarity ( C , t ) = Σ i = 1 p | t . A i - c i | max ( A i ) - min ( A i ) + Σ i = p + 1 m ( sup ( a i ) | C | )
其中,sup()是度量分类属性值ai频率的函数,ci是数值属性的均值。动态相似性阈值(δ)为双标准阈值,其上界为期望μ,下界由切比雪夫不等式当k取时得到,即δ.lower为切比雪夫不等式是指在任何数据集中,与期望μ超过K倍标准差σ的数据占的比例至多是,即:
Pr ( | δ . lower - μ | ≥ kσ ) ≤ 1 k 2
显然,μ、σ很容易由社区结构CS中的SS和SS2得到。
设置双标准相似性阈值来判断是否接受节点t作为社区新成员的原因有三:
1)本发明的目的是在避免人为干预的情况下尽可能生成大小适当的社区划分;2)δ.lower可以避免在划分过程中,如果只用δ.upper作为唯一标准,社区逐渐趋小的情况;3)这种方法能够部分降低聚类结果对数据输入顺序的敏感性。
所述的第二阶段是在上划分出的社区中,通过计算每个节点的社区离群因子(COF)检测社区离群点。假设第一阶段将社会网络聚类为k个社区,节点t属于社区Ci,计算节点t的社区离群度因子(COF)方法为,节点t相对于除社区Ci以外的社区的连接密度与节点t相对于社区Ci的连接密度之比,即:
COF ( t ) = Σ q ≠ i , q = 1 k LD C q ( t ) + ϵ LD C i ( t ) + ϵ
其中,ε可以设为极小正数(如不大于10-6),其分别加在分子和分母,是为避免出现点vij在自身所在社区Ci没有邻接点时COF为无限大的情况。LD为节点相对社区的连接密度。
节点t相对于社区C的连接密度计算方法为,节点t与社区C相连的边的权重之和与社区C中节点个数之比,即:
LD C ( t ) = W t C | C |
其中表示连接节点t和社区C边的权重之和。|C|是社区C中的节点数目。
在本发明方法中,不需要事先知道数据属于何种分布,这使得本发明能够处理任意分布的社会网络。
另外,本发明由于采用了动态相似性阈值技术,明显降低了输入参数的个数,实际上用户只需输入一个参数,即用户需要的社区离群点个数n,这大大降低了不必要的人为干预,有其独到之处,提升了社区离群点检测的准确性。
此外,本发明时间复杂度线性依赖于社会网络中节点个数,且只需对网络做两遍扫描,这意味着本发明能够很方便地处理大规模数据集,有良好的应用价值。
附图说明
图1是本发明的整体流程示意图;
图2是本发明第一阶段基于内容聚类的流程图;
图3是本发明一种具体实施方式的流程图;
图4是本发明与现有方法的检测效率对比图。
具体实施方式
下面将结合附图具体说明发明的实施方式,本发明的总体流程图如图1所示,包括两个阶段。
如图2和图3所示,本发明的具体步骤如下:
1、采集待检测的社会网络数据,设所采集的数据集为D;
2、依次顺序读入数据集D中的节点,如果当前节点是第一个读入的节点,那么为它创建一个社区结构(CS),其包括社区标识号、Summary集合、社区中节点个数、每个数据与社区的相似性之和,以及每个数据与社区的相似性的平方和;
Summary集合定义为该社区中数值型属性均值与分类型属性频率的集合,即:
Summary={ci|1≤i≤p}∪{Aij,sup(Aij))|p+1≤i≤m,1≤i≤r}
CS={Community,Summary,|C|,SS,SS2}
3、如果当前读入的节点不是第一个节点,则计算其与已有的每个社区之间的相似性Similarity(C,t);
Similarity ( C , t ) = Σ i = 1 p | t . A i - c i | max ( A i ) - min ( A i ) + Σ i = p + 1 m ( sup ( a i ) | C | )
4、对上一步计算得到的Similarity(C,t)进行降序排列,并取得每个社区对应的动态相似性阈值δ.upper和δ.lower;
5、对上一步降序排列的Similarity(C,t)按顺序进行检验,如果节点t与社区Ci的相似性Similarity(Ci,t)大于或等于社区Ci的δ.upper,则将节点t纳入社区Ci,并更新该社区的社区结构CS、动态相似性阈值δ.upper和δ.lower;
6、否则,重新对降序排列的Similarity(C,t)按顺序进行检验,若节点t与社区Ci的相似性Similarity(Ci,t)大于或等于社区Ci的δ.lower,则将元组t纳入社区Ci,并更新该社区的社区结构CS、动态相似性阈值δ.upper和δ.lower;
7、如果步骤5和步骤6都不成立,则为节点t创建一个新的社区结构CS;
8、重复步骤2-7直到数据库中所有节点都被处理过。这时得到数据集D的一个社区划分。
9、对每个节点计算其与各个社区的连接密度LD;
节点t相对于任一社区C的连接密度定义为节点t与社区C相连的边的权重之和与社区C中节点个数之比,即:
LD C ( t ) = W t C | C |
其中表示连接点t和社区C边的权重之和。|C|是社区C中的节点数目。
10、然后计算每个节点的社区离群度因子COF;
COF ( t ) = Σ q ≠ i , q = 1 k LD C q ( t ) + ϵ LD C i ( t ) + ϵ
11、选择前n个COF值最大的节点即为社区离群点。
n可以为一个预先设定的固定值,如n=20;n也可以根据预先设定的百分比得出,比如社会网络节点总数为10万个,取万分之一的节点作为离群点输出,那么可以根据该百分比将n设定为10。
实例1通过检测离群点在合著关系网中挖掘新型交叉学科,体现了本发明方法的效率
DBLP是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。DBLP数据库中的作者以及他们之间合作发表文章的关系构成了一个典型的合著关系网。在这个合著关系网中,具有相同研究方向的作者属于同一社区,则社区离群点是这样一些作者,他们频繁地与不同研究方向的作者合作发表论文,却很少与跟自身同一研究方向的作者发表论文。这种社区离群的情况很可能意味着新型交叉学科的出现。因此,准确地检测到这类离群点,将有助于广大科研人员尽早了解交叉学科的前沿研究方向。
现在DBLP数据库网站上(DBLP,dblp.uni-trier.de/)下载网络数据集,该数据集包含404,892个节点,以及1,422,263条边。运用大规模社会网络中的离群点检测技术寻找社区离群点,并设置n=20。首先,遍历数据集中的节点,计算每个节点与各社区的相似性,并为每个节点选择与其相似度最大的社区。待所有节点都遍历后,合著关系网形成一个稳定的社区划分。而后,计算所有节点的社区离群度因子COF,取社区离群度因子最大的20个数据节点为社区离群点。
从图4可以看出,对DBLP数据集执行社区离群点检测,本发明方法处理时间为92秒,比现有方法(请参见文献Jing Gao,Feng Liang,Wei Fan,Chi Wang,Yizhou Sun,and Jiawei Han:On Community Outliers and their EfficientDetection in Information Networks.Proceedings of the ACM SIGKDDinternational conference on Knowledge discovery and data mining.2010)150秒的时间效率提高了1.63倍。
实例2通过检测离群点在亲友关系网络中挖掘潜在高收入人群
越来越多的商家致力于找出并接近具有消费潜力的人群,这些目标客户有着比较明显的特点,他们自身收入可能较低但却与很多高收入的人存在亲友关系。这类潜在高收入人群正符合社区离群点的定义。因此,准确地检测到这类离群点,将有助于目标客户甄别与培养。
UCI数据库中的Adult数据集(http://archive.ics.uci.edu/ml/datasets/Adult)来自于美国1994年的人口收入调查数据,该数据集已按照收入5万为限分类为两组。按照齐普夫定律给出该数据集的亲友关系后,很容易看出,这个拥有4,000个节点和50,000条边的数据集非常适宜作为检验社区离群点检测准确性的标准数据集。
运用大规模社会网络中的离群点检测技术寻找社区离群点,并设置n=20。首先,遍历数据集中的节点,计算每个节点与各社区的相似性,并为每个节点选择与其相似度最大的社区。待所有节点都遍历后,亲友关系网形成一个稳定的社区划分。而后,计算所有节点的社区离群度因子COF,取社区离群度因子最大的20个数据节点为社区离群点。运用著名的F1-Measure评价指标对本发明与现有方法1(请参见Edwin Knorr and Raymond Ng:Algorithms for mining distance-basedoutliers in large datasets.Proceedings of the 24th Conference On VLDB.1998)和现有方法2(请参见文献Jing Gao,Feng Liang,Wei Fan,Chi Wang,Yizhou Sun,and JiaweiHan:On Community Outliers and their Efficient Detection in Information Networks.Proceedings of the ACM SIGKDD international conference on Knowledge discoveryand data mining.2010)在数据集上的执行结果准确性进行测评。现有方法1和现有方法2的F1值分别仅为0.05和0.9,本发明对该数据集的社区离群点全部准确识别,F1值为1。

Claims (10)

1.一种大规模社会网络中的离群点检测方法,其步骤包括:
1)提取待测社会网络数据;
2)根据社会网络各节点的内容信息,对该社会网络的节点进行聚类,形成各社会网络社区CS;
3)通过计算各节点相对于其所属社会网络社区以外的社会网络社区的连接密度与各节点相对于其所属社会网络社区的连接密度之比得到社区离群度因子COF;4)提取社区离群度因子COF最大的n个节点,作为该社会网络的离群点,其中n≥1。
2.如权利要求1所述的大规模社会网络中的离群点检测方法,其特征在于,根据每个节点数据t与社区C的相似性Similarity(C,t)进行聚类,将相似性大于设定阈值的节点聚为同一社区节点,所述每个节点数据t与社区C的相似性
Similarity ( C , t ) = Σ i = 1 P | t . A i - c i | max ( A i ) - min ( A i ) + Σ i = p + 1 m ( sup ( a i ) | C | )
其中sup()是度量分类属性值ai频率的函数,ci是数值属性的均值,m为该社会网络维度,|C|为社区中的数据点个数,Ai为第i维属性,该社会网络前p维属性属于数值型属性,后(m‐p)维属性属于分类型属性。
3.如权利要求1所述的大规模社会网络中的离群点检测方法,其特征在于,所述社会网络社区CS的数据结构为:
CS={Community,Summary,|C|,SS,SS2}
其中,Community为社区标识号,Summary为该社区中数值型属性均值与分类型属性频率的集合,|C|为社区中的数据点个数,SS为每个节点数据与社区的相似性Similarity之和,SS2为每个节点数据与社区的相似性Similarity的平方和。
4.如权利要求2所述的大规模社会网络中的离群点检测方法,其特征在于,所述阈值δ为期望μ,其中
5.如权利要求2所述的大规模社会网络中的离群点检测方法,其特征在于,所述阈值δ为双标准阈值,其上界为期望μ,其中下界由切比雪夫不等式当k取时得到,即δ.lower为所述切比雪夫不等式是指在任何数据集中,与期望μ超过K倍标准差σ的数据占的比例至多是即:
Pr ( | δ . lower - μ | ≥ kσ ) ≤ 1 k 2 .
6.如权利要求1‐5任一所述的大规模社会网络中的离群点检测方法,其特征在于,所述社区离群度因子COF为节点t相对于除社区Ci以外的社区的连接密度与节点t相对于社区Ci的连接密度之比,即:
COF ( t ) = Σ q ≠ i , p = 1 k L D C q ( t ) + ϵ L D C i ( t ) + ϵ
其中,ε≥0,LD为数据点相对社区的连接密度;
节点t相对于社区C的连接密度为数据点t与社区C相连的边的权重之和与社区C中数据点个数之比,即:
L D C ( t ) = W t C | C |
其中表示连接节点t和社区C边的权重之和,|C|是社区C中的节点数目。
7.如权利要求6所述的大规模社会网络中的离群点检测方法,其特征在于,所述ε为正数。
8.如权利要求6所述的大规模社会网络中的离群点检测方法,其特征在于,所述ε≤10‐6
9.如权利要求1所述的大规模社会网络中的离群点检测方法,其特征在于,所述n根据设定的社会网络节点数的百分比得出。
10.如权利要求1所述的大规模社会网络中的离群点检测方法,其特征在于,所述n为设定的整数。
CN201210200045.4A 2012-06-14 2012-06-14 大规模社会网络中的离群点检测方法 Expired - Fee Related CN102799616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210200045.4A CN102799616B (zh) 2012-06-14 2012-06-14 大规模社会网络中的离群点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210200045.4A CN102799616B (zh) 2012-06-14 2012-06-14 大规模社会网络中的离群点检测方法

Publications (2)

Publication Number Publication Date
CN102799616A CN102799616A (zh) 2012-11-28
CN102799616B true CN102799616B (zh) 2014-11-05

Family

ID=47198726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210200045.4A Expired - Fee Related CN102799616B (zh) 2012-06-14 2012-06-14 大规模社会网络中的离群点检测方法

Country Status (1)

Country Link
CN (1) CN102799616B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9639598B2 (en) 2014-07-31 2017-05-02 International Business Machines Corporation Large-scale data clustering with dynamic social context
CN104346445B (zh) * 2014-10-28 2016-09-07 浪潮电子信息产业股份有限公司 一种快速从大规模数据中筛选离群数据的方法
CN107844731A (zh) * 2016-09-17 2018-03-27 复旦大学 基于概率后缀树的长时间序列δ‑异常点检测方法
CN106651423A (zh) * 2016-09-28 2017-05-10 华南理工大学 一种移动应用广告投放的质量评分方法
CN106503086A (zh) * 2016-10-11 2017-03-15 成都云麒麟软件有限公司 分布式局部离群点的检测方法
CN108734479A (zh) * 2018-04-12 2018-11-02 阿里巴巴集团控股有限公司 保险欺诈识别的数据处理方法、装置、设备及服务器
CN117648554B (zh) * 2024-01-29 2024-04-26 山东德源电力科技股份有限公司 一种用于光伏多功能断路器的智能数据采集方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360378A (zh) * 2011-10-10 2012-02-22 南京大学 一种时序数据离群点检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360378A (zh) * 2011-10-10 2012-02-22 南京大学 一种时序数据离群点检测方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
从链接密度遍历序列中挖掘网络社团的层次结构;黄健斌等;《软件学报》;20110531;第22卷(第5期);第951-961页 *
倪巍伟等.基于k均值分区的数据流离群点检测算法.《计算机研究与发展》.2006,第43卷(第9期),第1639-1643页. *
刘婷等.基于聚类分析的复杂网络中的社团探测.《复杂系统与复杂性科学》.2007,第4卷(第1期),第28-35页. *
基于K-means聚类算法的复杂网络社团发现新方法;赵凤霞等;《计算机应用研究》;20090630;第26卷(第6期);第2041-2043、2049页 *
基于k均值分区的数据流离群点检测算法;倪巍伟等;《计算机研究与发展》;20060930;第43卷(第9期);第1639-1643页 *
基于聚类分析的复杂网络中的社团探测;刘婷等;《复杂系统与复杂性科学》;20070331;第4卷(第1期);第28-35页 *
基于邻接图的离群数据聚类算法;金义富等;《计算机工程》;20080630;第34卷(第11期);第72-73、76页 *
赵凤霞等.基于K-means聚类算法的复杂网络社团发现新方法.《计算机应用研究》.2009,第26卷(第6期),第2041-2043、2049页. *
金义富等.基于邻接图的离群数据聚类算法.《计算机工程》.2008,第34卷(第11期),第72-73、76页. *
黄健斌等.从链接密度遍历序列中挖掘网络社团的层次结构.《软件学报》.2011,第22卷(第5期),第951-961页. *

Also Published As

Publication number Publication date
CN102799616A (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
CN102799616B (zh) 大规模社会网络中的离群点检测方法
CN102364498B (zh) 一种基于多标签的图像识别方法
CN109086375B (zh) 一种基于词向量增强的短文本主题抽取方法
CN110297853B (zh) 频繁集挖掘方法和装置
CN106503086A (zh) 分布式局部离群点的检测方法
CN103812872A (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
CN103678671A (zh) 一种社交网络中的动态社区检测方法
CN103838804A (zh) 一种基于社团划分的社交网络用户兴趣关联规则挖掘方法
CN110688549B (zh) 一种基于知识体系图谱构建的人工智能分类方法与系统
CN104216874A (zh) 基于相关系数的中文词间加权正负模式挖掘方法及系统
Takano et al. Unconnected component inclusion technique for patent network analysis: Case study of Internet of Things-related technologies
CN104077723A (zh) 一种社交网络推荐系统及方法
Aliakbary et al. Feature extraction from degree distribution for comparison and analysis of complex networks
CN104317794A (zh) 基于动态项权值的中文特征词关联模式挖掘方法及其系统
WO2016106944A1 (zh) MapReduce平台上的虚拟人建立方法
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
Farid et al. An ensemble approach to classifier construction based on bootstrap aggregation
CN107944502A (zh) 一种基于随机哈希的异常检测算法
Arora et al. Frequent itemsets from multiple datasets with fuzzy data
Nie Applying correlation dimension to the analysis of the evolution of network structure
CN103902547A (zh) 一种基于mdl的增量式动态社区快速发现方法及系统
Xiong et al. Time irreversibility and intrinsics revealing of series with complex network approach
Rahim Educational Data Mining (EDM) on the use of the internet in the world of Indonesian education
Fan et al. DEXIN: A fast content-based multi-attribute event matching algorithm using dynamic exclusive and inclusive methods
Han et al. Attributed multiplex graph clustering: A heuristic clustering-aware network embedding approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141105

Termination date: 20170614

CF01 Termination of patent right due to non-payment of annual fee