CN102799616B

CN102799616B - 大规模社会网络中的离群点检测方法

Info

Publication number: CN102799616B
Application number: CN201210200045.4A
Authority: CN
Inventors: 纪腾飞; 杨冬青; 高军; 王腾蛟; 唐世渭
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-06-14
Filing date: 2012-06-14
Publication date: 2014-11-05
Anticipated expiration: 2032-06-14
Also published as: CN102799616A

Abstract

本发明涉及一种大规模社会网络中的离群点检测方法，其步骤包括：提取待测社会网络数据；根据社会网络各节点的内容信息，对该社会网络的节点进行聚类，形成各社会网络社区；计算各节点的社区离群度因子；提取社区离群度因子最大的n个节点，作为该社会网络的离群点。本发明不需要事先知道数据属于何种分布，能够处理任意分布的社会网络。采用了动态相似性阈值技术，明显降低了输入参数的个数，提升了社区离群点检测的准确性，能够很方便地处理大规模数据集，有良好的应用价值。

Description

大规模社会网络中的离群点检测方法

所属技术领域

本发明属于社会网络中信息科学技术领域，涉及社会网络所涵盖数据中的异常信息挖掘，尤其涉及一种大规模社会网络中的离群点检测方法。

背景技术

社会网络是由一些个人或组织以及它们之间的联系所构成的集合，这种联系可能是同事、朋友、亲属等各种关系。近年来，这种新兴的、实用的交互模式在网络活动中随处可见，如国外的MySpace、Facebook，以及国内的人人网等。事实上，除了这些狭义的社交网络，社会网络还包括合著关系网、电力网格和经济关系等网络实例。

信息科学中，社会网络可以由图结构来定义，其中图的节点代表社会网络中的实体，比如SNS中的用户、合著关系网中的文献等，它包含着大量内容信息；而图的边代表节点之间的联系，如交互关系、好友关系等，它承载了大量的结构信息。因此，不同于常规数据集，社会网络同时包含着内容和结构两方面信息。由于社会网络同时包含结构与内容两方面信息这一特性，社会网络中通常存在着内容信息和结构信息不一致的节点，这些存在于社会网络中的异常点即为本发明所需检测的离群点。这些离群点表现为社会网络划分社区后的社区离群点，这些离群点可能隐含了人们事先未知且具有潜在价值的信息或者知识。在某些情况下，这些小概率的离群点事件很可能比经常发生的事件更有研究价值。比如金融社会网络中的社区离群点可能意味着金融诈骗事件，气象社会网络中的社区离群点可能意味着气象灾难，经济关系社会网络中的社区离群点可能代表着黑马企业家的出现，合著关系网中的社区离群点可能代表着新兴交叉学科的出现。

因此本发明所述的社会网络中的离群点与单纯只包含内容信息的网络中的离群点不同，因此，检测方法也不同。如专利CN 100535955C所示的已有方法，只适用于只包含内容信息的常规数据集，无法适用于社会网络。

目前，对社会网络中社区离群点的检测，主要基于统计学的方法，该方法的不足之处是需要事先知道数据的分布，这在实际应用中是非常困难的，而且大部分现实数据也往往不符合任何一种理想状态的数学分布。此外，这种基于统计的社区离群点检测方法，同时考虑社会网络结构和内容两方面信息(请参见文献JingGao，Feng Liang，Wei Fan，Chi Wang，Yizhou Sun，and Jiawei Han：On CommunityOutliers and their Efficient Detection in Information Networks.Proceedings of theACM SIGKDD international conference on Knowledge discovery and data mining.2010)，很难在保证较高准确率的同时具有快速地处理能力，而社会网络所需处理的信息量又极其庞大，它可能包括上亿个节点和边（以Facebook为例，其包含着多于10⁸个节点以及10¹¹条边），这就限制了它的应用。

发明内容

本发明的目的在于提供一种大规模社会网络中的离群点检测方法，在检测准确性及检测效率上优于现有的基于统计的社会网络离群点检测方法。

本发明的大规模社会网络中的离群点检测方法，其步骤包括：

1、提取待测社会网络数据；

2、根据社会网络各节点的内容信息，对该社会网络的节点进行聚类，形成各社会网络社区CS；

3、计算各节点的社区离群度因子COF；

4、提取社区离群度因子COF最大的n个节点，作为该社会网络的离群点，其中n≥1。

本发明根据每个节点数据t与社区C的相似性Similarity（C，t）进行聚类，将相似性大于设定阈值的节点聚为同一社区节点，所述每个节点数据t与社区C的相似性

Similarity (C, t) = Σ_{i = 1}^{p} \frac{| t . A_{i} - c_{i} |}{\max (A_{i}) - \min (A_{i})} + Σ_{i = p + 1}^{m} (\frac{\sup (a_{i})}{| C |})

其中sup()是度量分类属性值a_i频率的函数，c_i是数值属性的均值，m为该社会网络维度，A_i为第i维属性，该社会网络前p维属性属于数值型属性，后(m-p)维属性属于分类型属性。

所述社会网络社区CS的数据结构为：

CS＝{Community，Summary，|C|，SS，SS²}

其中，Community为社区标识号，Summary为该社区中数值型属性均值与分类型属性频率的集合，|C|为社区中的节点个数，SS为每个节点数据与社区的相似性Similarity之和，SS²为每个节点数据与社区的相似性Similarity的平方和。

所述阈值δ为期望μ，其中

所述阈值δ最好设为双标准阈值，其上界为期望μ，下界由切比雪夫不等式当k取时得到，即δ.lower为所述切比雪夫不等式是指在任何数据集中，与期望μ超过K倍标准差σ的数据占的比例至多是，即：

\Pr (| δ . lower - μ | &GreaterEqual; kσ) \leq \frac{1}{k^{2}} .

所述社区离群度因子COF为节点t相对于除社区C_i以外的社区的连接密度与节点t相对于社区C_i的连接密度之比，即：

COF (t) = \frac{Σ_{q &NotEqual; i, q = 1}^{k} {LD}^{C_{q}} (t) + ϵ}{{LD}^{C_{i}} (t) + ϵ}

其中，ε≥0，可以为极小正数，如不大于10^-6，LD为节点相对社区的连接密度；

节点t相对于社区C的连接密度为节点t与社区C相连的边的权重之和与社区C中节点个数之比，即：

{LD}^{C} (t) = \frac{W_{t}^{C}}{| C |}

其中表示连接节点t和社区C边的权重之和，|C|是社区C中的节点数目。

本发明的方法采用两阶段方法，全面地考虑了社会网络的内容信息和结构信息。

第一阶段，根据社会网络各节点的内容信息，将社会网络聚类为各个社区，这些社区是识别社区离群点的上下文环境。第二阶段，计算每个节点的社区离群度因子(COF)，拥有前n个最大社区离群度因子的节点将作为检测出的社区离群点输出。

所述的第一阶段在社会网络下基于内容信息聚类的方法为，为每个社区存储一个名为“社区结构(CS)”的数据结构，依据该数据结构，可以计算两个关键值，即每个数据与社区的相似性(Similarity)、动态相似性阈值(δ),如果相似性大于阈值，则将该数据聚类于社区，否则该数据不能为社区接受。

社区结构(CS)的数据结构为：

CS＝{Community，Summary，|C|，SS，SS²}

其中，Community为社区标识号，Summary为该社区中数值型属性均值与分类型属性频率的集合，|C|为社区中的节点个数，SS和SS²分别为每个数据与社区的相似性(Similarity)之和以及每个数据与社区的相似性(Similarity)的平方和。

假定社会网络包括m维属性，A_i是第i维属性，且前p维属性属于数值型属性，后(m-p)维属性属于分类型属性。分类属性A_i存在r_i个不同取值。每个数据t与社区C的相似性计算方法为，对前p维数值型属性，计算其与社区均值的标准距离，对后(m-p)维分类型属性，计算其取得属性值的标准频率，将上述标准聚类及标准频率相加，即：

Similarity (C, t) = Σ_{i = 1}^{p} \frac{| t . A_{i} - c_{i} |}{\max (A_{i}) - \min (A_{i})} + Σ_{i = p + 1}^{m} (\frac{\sup (a_{i})}{| C |})

其中，sup()是度量分类属性值a_i频率的函数，c_i是数值属性的均值。动态相似性阈值(δ)为双标准阈值，其上界为期望μ，下界由切比雪夫不等式当k取时得到，即δ.lower为切比雪夫不等式是指在任何数据集中，与期望μ超过K倍标准差σ的数据占的比例至多是，即：

\Pr (| δ . lower - μ | &GreaterEqual; kσ) \leq \frac{1}{k^{2}}

显然，μ、σ很容易由社区结构CS中的SS和SS²得到。

设置双标准相似性阈值来判断是否接受节点t作为社区新成员的原因有三：

1）本发明的目的是在避免人为干预的情况下尽可能生成大小适当的社区划分；2）δ.lower可以避免在划分过程中，如果只用δ.upper作为唯一标准，社区逐渐趋小的情况；3）这种方法能够部分降低聚类结果对数据输入顺序的敏感性。

所述的第二阶段是在上划分出的社区中，通过计算每个节点的社区离群因子(COF)检测社区离群点。假设第一阶段将社会网络聚类为k个社区，节点t属于社区C_i，计算节点t的社区离群度因子(COF)方法为，节点t相对于除社区C_i以外的社区的连接密度与节点t相对于社区C_i的连接密度之比，即：

COF (t) = \frac{Σ_{q &NotEqual; i, q = 1}^{k} {LD}^{C_{q}} (t) + ϵ}{{LD}^{C_{i}} (t) + ϵ}

其中，ε可以设为极小正数(如不大于10^-6)，其分别加在分子和分母，是为避免出现点v_ij在自身所在社区C_i没有邻接点时COF为无限大的情况。LD为节点相对社区的连接密度。

节点t相对于社区C的连接密度计算方法为，节点t与社区C相连的边的权重之和与社区C中节点个数之比，即：

{LD}^{C} (t) = \frac{W_{t}^{C}}{| C |}

其中表示连接节点t和社区C边的权重之和。|C|是社区C中的节点数目。

在本发明方法中，不需要事先知道数据属于何种分布，这使得本发明能够处理任意分布的社会网络。

另外，本发明由于采用了动态相似性阈值技术，明显降低了输入参数的个数，实际上用户只需输入一个参数，即用户需要的社区离群点个数n，这大大降低了不必要的人为干预，有其独到之处，提升了社区离群点检测的准确性。

此外，本发明时间复杂度线性依赖于社会网络中节点个数，且只需对网络做两遍扫描，这意味着本发明能够很方便地处理大规模数据集，有良好的应用价值。

附图说明

图1是本发明的整体流程示意图；

图2是本发明第一阶段基于内容聚类的流程图；

图3是本发明一种具体实施方式的流程图；

图4是本发明与现有方法的检测效率对比图。

具体实施方式

下面将结合附图具体说明发明的实施方式，本发明的总体流程图如图1所示，包括两个阶段。

如图2和图3所示，本发明的具体步骤如下：

1、采集待检测的社会网络数据，设所采集的数据集为D；

2、依次顺序读入数据集D中的节点，如果当前节点是第一个读入的节点，那么为它创建一个社区结构(CS)，其包括社区标识号、Summary集合、社区中节点个数、每个数据与社区的相似性之和，以及每个数据与社区的相似性的平方和；

Summary集合定义为该社区中数值型属性均值与分类型属性频率的集合，即：

Summary＝{c_i|1≤i≤p}∪{A_ij，sup(A_ij))|p+1≤i≤m，1≤i≤r}

CS＝{Community，Summary，|C|，SS，SS²}

3、如果当前读入的节点不是第一个节点，则计算其与已有的每个社区之间的相似性Similarity(C，t)；

Similarity (C, t) = Σ_{i = 1}^{p} \frac{| t . A_{i} - c_{i} |}{\max (A_{i}) - \min (A_{i})} + Σ_{i = p + 1}^{m} (\frac{\sup (a_{i})}{| C |})

4、对上一步计算得到的Similarity(C，t)进行降序排列，并取得每个社区对应的动态相似性阈值δ.upper和δ.lower；

5、对上一步降序排列的Similarity(C，t)按顺序进行检验，如果节点t与社区C_i的相似性Similarity(C_i，t)大于或等于社区C_i的δ.upper，则将节点t纳入社区C_i，并更新该社区的社区结构CS、动态相似性阈值δ.upper和δ.lower；

6、否则，重新对降序排列的Similarity(C，t)按顺序进行检验，若节点t与社区C_i的相似性Similarity(C_i，t)大于或等于社区C_i的δ.lower，则将元组t纳入社区C_i，并更新该社区的社区结构CS、动态相似性阈值δ.upper和δ.lower；

7、如果步骤5和步骤6都不成立，则为节点t创建一个新的社区结构CS；

8、重复步骤2-7直到数据库中所有节点都被处理过。这时得到数据集D的一个社区划分。

9、对每个节点计算其与各个社区的连接密度LD；

节点t相对于任一社区C的连接密度定义为节点t与社区C相连的边的权重之和与社区C中节点个数之比，即：

{LD}^{C} (t) = \frac{W_{t}^{C}}{| C |}

其中表示连接点t和社区C边的权重之和。|C|是社区C中的节点数目。

10、然后计算每个节点的社区离群度因子COF；

COF (t) = \frac{Σ_{q &NotEqual; i, q = 1}^{k} {LD}^{C_{q}} (t) + ϵ}{{LD}^{C_{i}} (t) + ϵ}

11、选择前n个COF值最大的节点即为社区离群点。

n可以为一个预先设定的固定值，如n=20；n也可以根据预先设定的百分比得出，比如社会网络节点总数为10万个，取万分之一的节点作为离群点输出，那么可以根据该百分比将n设定为10。

实例1通过检测离群点在合著关系网中挖掘新型交叉学科，体现了本发明方法的效率

DBLP是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。DBLP数据库中的作者以及他们之间合作发表文章的关系构成了一个典型的合著关系网。在这个合著关系网中，具有相同研究方向的作者属于同一社区，则社区离群点是这样一些作者，他们频繁地与不同研究方向的作者合作发表论文，却很少与跟自身同一研究方向的作者发表论文。这种社区离群的情况很可能意味着新型交叉学科的出现。因此，准确地检测到这类离群点，将有助于广大科研人员尽早了解交叉学科的前沿研究方向。

现在DBLP数据库网站上(DBLP，dblp.uni-trier.de/)下载网络数据集，该数据集包含404,892个节点，以及1,422,263条边。运用大规模社会网络中的离群点检测技术寻找社区离群点，并设置n=20。首先，遍历数据集中的节点，计算每个节点与各社区的相似性，并为每个节点选择与其相似度最大的社区。待所有节点都遍历后，合著关系网形成一个稳定的社区划分。而后，计算所有节点的社区离群度因子COF，取社区离群度因子最大的20个数据节点为社区离群点。

从图4可以看出，对DBLP数据集执行社区离群点检测，本发明方法处理时间为92秒，比现有方法（请参见文献Jing Gao,Feng Liang,Wei Fan,Chi Wang,Yizhou Sun,and Jiawei Han:On Community Outliers and their EfficientDetection in Information Networks.Proceedings of the ACM SIGKDDinternational conference on Knowledge discovery and data mining.2010）150秒的时间效率提高了1.63倍。

实例2通过检测离群点在亲友关系网络中挖掘潜在高收入人群

越来越多的商家致力于找出并接近具有消费潜力的人群，这些目标客户有着比较明显的特点，他们自身收入可能较低但却与很多高收入的人存在亲友关系。这类潜在高收入人群正符合社区离群点的定义。因此，准确地检测到这类离群点，将有助于目标客户甄别与培养。

UCI数据库中的Adult数据集(http://archive.ics.uci.edu/ml/datasets/Adult)来自于美国1994年的人口收入调查数据，该数据集已按照收入5万为限分类为两组。按照齐普夫定律给出该数据集的亲友关系后，很容易看出，这个拥有4,000个节点和50,000条边的数据集非常适宜作为检验社区离群点检测准确性的标准数据集。

运用大规模社会网络中的离群点检测技术寻找社区离群点，并设置n=20。首先，遍历数据集中的节点，计算每个节点与各社区的相似性，并为每个节点选择与其相似度最大的社区。待所有节点都遍历后，亲友关系网形成一个稳定的社区划分。而后，计算所有节点的社区离群度因子COF，取社区离群度因子最大的20个数据节点为社区离群点。运用著名的F1-Measure评价指标对本发明与现有方法1（请参见Edwin Knorr and Raymond Ng：Algorithms for mining distance-basedoutliers in large datasets.Proceedings of the 24^th Conference On VLDB.1998）和现有方法2（请参见文献Jing Gao，Feng Liang，Wei Fan，Chi Wang，Yizhou Sun，and JiaweiHan：On Community Outliers and their Efficient Detection in Information Networks.Proceedings of the ACM SIGKDD international conference on Knowledge discoveryand data mining.2010）在数据集上的执行结果准确性进行测评。现有方法1和现有方法2的F1值分别仅为0.05和0.9，本发明对该数据集的社区离群点全部准确识别，F1值为1。

Claims

1.一种大规模社会网络中的离群点检测方法，其步骤包括：

1）提取待测社会网络数据；

2）根据社会网络各节点的内容信息，对该社会网络的节点进行聚类，形成各社会网络社区CS；

3）通过计算各节点相对于其所属社会网络社区以外的社会网络社区的连接密度与各节点相对于其所属社会网络社区的连接密度之比得到社区离群度因子COF；4）提取社区离群度因子COF最大的n个节点，作为该社会网络的离群点，其中n≥1。

2.如权利要求1所述的大规模社会网络中的离群点检测方法，其特征在于，根据每个节点数据t与社区C的相似性Similarity（C，t）进行聚类，将相似性大于设定阈值的节点聚为同一社区节点，所述每个节点数据t与社区C的相似性

Similarity (C, t) = Σ_{i = 1}^{P} \frac{| t . A_{i} - c_{i} |}{\max (A_{i}) - \min (A_{i})} + Σ_{i = p + 1}^{m} (\frac{\sup (a_{i})}{| C |})

其中sup()是度量分类属性值a_i频率的函数，c_i是数值属性的均值，m为该社会网络维度，|C|为社区中的数据点个数，A_i为第i维属性，该社会网络前p维属性属于数值型属性，后(m‐p)维属性属于分类型属性。

3.如权利要求1所述的大规模社会网络中的离群点检测方法，其特征在于，所述社会网络社区CS的数据结构为：

CS={Community，Summary，|C|，SS，SS²}

其中，Community为社区标识号，Summary为该社区中数值型属性均值与分类型属性频率的集合，|C|为社区中的数据点个数，SS为每个节点数据与社区的相似性Similarity之和，SS²为每个节点数据与社区的相似性Similarity的平方和。

4.如权利要求2所述的大规模社会网络中的离群点检测方法，其特征在于，所述阈值δ为期望μ，其中

5.如权利要求2所述的大规模社会网络中的离群点检测方法，其特征在于，所述阈值δ为双标准阈值，其上界为期望μ，其中下界由切比雪夫不等式当k取时得到，即δ.lower为所述切比雪夫不等式是指在任何数据集中，与期望μ超过K倍标准差σ的数据占的比例至多是即：

\Pr (| δ . lower - μ | &GreaterEqual; kσ) \leq \frac{1}{k^{2}} .

6.如权利要求1‐5任一所述的大规模社会网络中的离群点检测方法，其特征在于，所述社区离群度因子COF为节点t相对于除社区C_i以外的社区的连接密度与节点t相对于社区C_i的连接密度之比，即：

COF (t) = \frac{Σ_{q &NotEqual; i, p = 1}^{k} L D^{C_{q}} (t) + ϵ}{L D^{C_{i}} (t) + ϵ}

其中，ε≥0，LD为数据点相对社区的连接密度；

节点t相对于社区C的连接密度为数据点t与社区C相连的边的权重之和与社区C中数据点个数之比，即：

L D^{C} (t) = \frac{W_{t}^{C}}{| C |}

7.如权利要求6所述的大规模社会网络中的离群点检测方法，其特征在于，所述ε为正数。

8.如权利要求6所述的大规模社会网络中的离群点检测方法，其特征在于，所述ε≤10^‐6。

9.如权利要求1所述的大规模社会网络中的离群点检测方法，其特征在于，所述n根据设定的社会网络节点数的百分比得出。

10.如权利要求1所述的大规模社会网络中的离群点检测方法，其特征在于，所述n为设定的整数。