CN103198432A

CN103198432A - 在线社会网络中网络群体的检测方法及系统

Info

Publication number: CN103198432A
Application number: CN2013101274593A
Authority: CN
Inventors: 程学旗; 王元卓; 于建业; 李静远
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-04-12
Filing date: 2013-04-12
Publication date: 2013-07-10
Anticipated expiration: 2033-04-12
Also published as: CN103198432B

Abstract

本发明提供一种在线社会网络中网络群体的检测方法，所采集的节点集中随机选择一个节点，从所选节点的邻居节点中选择未与所选节点建立群关系的且收益最大的邻居节点并在该邻居节点与所选节点之间建立群关系；对所选节点进行策略更新，并重新计算由于所选节点的策略更新所影响到的所有节点的收益；不断上述步骤，直到所述节点集中没有收益可改进的节点时，输出节点集中互相之间存在群关系的所有节点作为所检测的网络群体。该方法结合在线社会网络中节点的信息交互行为和节点间的社会关系，可以在在线社会关系网络中发现具有动态特性和行为因素影响的网络群体。

Description

在线社会网络中网络群体的检测方法及系统

技术领域

本发明涉及数据挖掘领域，尤其涉及在线社会网络中网络群体检测方法。

背景技术

随着互联网技术和应用的快速发展，在线社会网络(Social Network，简称SN)交互平台将传统人类社会网络中人或人的群体之间的关系通过网络有机地关联起来，这类在线社会网络除了具有信息以及信息属性之间的关系之外，一个突出的特点是按一定方式定义的人与人之间的社会关系以及人的参与互动。直观地，在线社会网络可以使用图或网络表示，图中的节点或网络中的顶点表示社会网络中的一个个体，而节点或顶点间的边表示个体间的关系。复杂网络的相关技术引入到在线社会网络的研究和分析中，使得社区发现等问题成为研究和应用的热点。复杂网络中，同一节点组内的两个节点之间比不同节点组的两个节点之间更倾向于有边连接，网络的这种拓扑特性被称为社区结构，而每个这样的节点组被称为一个社区。

与静态的社区不同，群体是指两个或两个以上，为了达到共同的目标，以一定方式联系在一起进行活动的个体群。群体有一定拓扑结构，成员间有共同的目标。在线社会网络中相互联系的个体，通过彼此间的信息交互行为，有机的关联在一起，当他们为同一或相近目标进行活动时，构成了群体在在线社会网络中的映射——网络群体。

现有技术中已有的社会网络的社区发现方法多是从诸如谱优化、计算节点或社区的相似度、紧密度等方面来对网络进行社区划分，刻画的社区是静态的节点关系，同时，这些方法也忽视了在线社会网络的节点的实质是人以及节点关系中的人的行为因素，而人受情境、接收的信息和认知能力等因素的影响，未必能够做出效用最大化的决策，即作为社会节点的人是有限理性的；在此基础上所提的社区发现方法无法很好的检测具有动态特性和行为因素影响的网络群体。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种基于信息交互行为的在线社会网络中网络群体检测的方法，能够检测在线社会网络中的网络群体。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种在线社会网络中网络群体的检测方法，包括：

步骤1)根据所采集的节点集建立节点关注关系网络，并初始化每个节点所采用的策略；所述策略为进行信息交互行为或不进行信息交互行为；

步骤2)从节点集中随机选择一个节点，从所选节点的邻居节点中选择未与所选节点建立群关系的且收益最大的邻居节点并在该邻居节点与所选节点之间建立群关系；

步骤3)对所选节点进行策略更新，并重新计算由于所选节点的策略更新所影响到的所有节点的收益；

步骤4)不断重复步骤2)和步骤3)，直到所述节点集中没有收益可改进的节点时，输出节点集中互相之间存在群关系的所有节点作为所检测的网络群体。

上述方法中，所述节点集中任一节点的收益等于该节点面对所有邻居节点所得的收益之和，其中，节点的收益以下列步骤计算：

假设以节点A表示节点集中任一个节点，其邻居节点是N_i(i＝1，...，k)，

(1)计算节点A面对其邻居节点N_i的收益p(S_A，S_Ni)：

其中，S_A表示节点A当前所采用的策略，S_Ni表示节点A的邻居节点N_i当前所采用的策略。S_A＝C表示节点A当前所采用的策略是进行信息交互行为；S_A＝D节点A当前所采用的策略是不进行信息交互行为；S_Ni＝C表示邻居节点N_i当前所采用的策略是进行信息交互行为；S_Ni＝D表示邻居节点N_i当前所采用的策略是不进行信息交互行为；

(2)计算节点A的收益P_A：

P_{A} = Σ_{i = 1}^{k} p (S_{A}, S_{Ni}) .

上述方法中，在步骤1)还可包括计算节点集中每个节点的初始的收益的步骤。

上述方法中，所述步骤2)中，所述在该邻居节点与所选节点之间建立群关系可包括在该邻居节点与所选节点之间建立一条无向边。

上述方法中，所述步骤3)可包括：

步骤3-1)计算所选节点模仿所选节点的邻居节点中收益最大的邻居节点所使用的策略的概率；

步骤3-2)、依据所述概率，更新所选节点当前采用的策略；

步骤3-3)、重新计算由于所选节点策略更新所影响到的所有节点的收益。

上述方法中，所述步骤3-1)中，所述概率可以如下公式来计算：

其中，A表示所选节点，B表示所选节点的邻居节点中收益最大的邻居节点，P_A表示节点A的收益，P_B表示节点B的收益，β是节点A的选择强度分值与活跃度分值的乘积，

表示所选节点A模仿所选节点的邻居节点中收益最大的邻居节点B所使用的策略的概率，所述节点A的选择强度分值等于在数据采集时间段内节点集中活跃的节点数除以节点集的总节点数或者等于所述在线社会网络中日活跃用户数除以总用户数；所述节点A的活跃度分值为该节点的发帖数量除以节点集中发帖数量最大的节点的发帖数量。

上述方法中，所述步骤3-2)可包括：

当所述概率大于设定的阈值时，将所选节点的当前策略更新为与所选节点的邻居节点中收益最大的邻居节点所使用的策略相同的策略，否则将所选节点的当前策略更新为所选节点的最优反应策略；所选节点的最优反应策略是使该节点的收益最大化的那个策略。

上述方法中，所选节点的最优反应策略通过下列步骤来确定：

步骤(a)计算所选节点在采用进行信息交互的策略时的收益P_C，以及计算所选节点在采用不进行信息交互的策略时的收益P_D；

步骤(b)如果P_C与P_D相等，则比较所选节点的邻居节点中使用进行信息交互策略的节点数目和所选节点的邻居节点中使用不进行信息交互策略的节点数目；

当所选节点的邻居节点中使用进行信息交互策略的节点数目大于等于所选节点的邻居节点中使用不进行信息交互策略的节点数目时，选定进行信息交互策略作为所选节点的最优反应策略；

当所选节点的邻居节点中使用进行信息交互策略的节点数目小于所选节点的邻居节点中使用不进行信息交互策略的节点数目时，选定不进行信息交互策略作为所选节点的最优反应策略；

步骤(c)如果P_C＞P_D不相等，将进行信息交互策略选定为所选节点的作为最优反应策略，否则，将不进行信息交互策略选定为所选节点的作为最优反应策略。

又一方面，本发明提供了一种在线社会网络中网络群体的检测系统，包括：

用于根据所采集的节点集建立节点关注关系网络，并初始化每个节点所采用的策略的装置；所述策略为进行信息交互行为或不进行信息交互行为；

用于从节点集中随机选择一个节点，从所选节点的邻居节点中选择未与所选节点建立群关系的且收益最大的邻居节点并在该邻居节点与所选节点之间建立群关系的装置；

用于对所选节点进行策略更新，并重新计算由于所选节点的策略更新所影响到的所有节点的收益的装置；

用于在所述节点集中没有收益可改进的节点时，输出节点集中互相之间存在群关系的所有节点作为所检测的网络群体的装置。

与现有技术相比，本发明的优点在于：

1、结合了在线社会网络中节点的信息交互行为和节点间的社会关系，能够发现在线社会网络中具有动态特性的群体；

2、将在线社会网络中的节点视作有限理性，节点在进行信息交互行为时更加符合实际情况。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为本发明实施例的节点集中节点格式图；

图2为本发明实施例的关注矩阵F；

图3为本发明实施例的群体检测方法流程图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，在线社会网络可以使用图或网络表示，图中的节点或网络中的顶点表示社会网络中的一个个体(即用户)，而节点或顶点间的边表示个体间的关系。在线社会网络中相互联系的个体，通过彼此间的信息交互行为，有机的关联在一起，当他们为同一或相近目标进行活动时，构成了群体在在线社会网络中的映射——网络群体。为了检测一个在线社会网络中的网络群体，首先需要获取关于该在线社会网络中个体以及个体之间的关系的信息，在下面的实施例中，在线社会网络以微博为例，说明如何检测微博中的网络群体，同时为描述方便，也可将个体称为节点。但应理解，以微博为例仅是出于示例说明的目的而非以任何方式进行限制。

图1显示了对微博进行一段时间的数据采集后，对所采集到的微博数据进行处理后所得到的用于本发明所述的基于信息交互行为的在线社会网络中群体检测方法所使用的节点集的数据格式。对于节点集中的每个节点，所记录的数据包括：

节点ID，用于唯一地标识该节点；例如，可以在采集数据时，为每一个节点分配唯一的标识符。

影响力分值，反映的是该节点对他的粉丝节点的影响力。计算影响力分值方法可以有很多种。例如可以直接将该节点的发帖数量作为该用户的影响力分值。

活跃度分值，反映的是节点发帖的活跃程度。例如，在采集的数据的时间段内，发帖数量最大的节点的活跃度分值为1，其他节点的活跃度分值等于该节点的发帖数量除以发帖数量最大的节点的发帖数量，活跃度分值的取值范围是大于等于0，小于等于1。

选择强度分值，表示博弈收益到选择模仿策略的转换系数，一般情况下取值为大于零且小于等于1的常数。该分值与社交网络用户的整体活跃度有关。一种可用的计算方法是选择强度等于在数据采集时间段内节点集中活跃的节点数除以节点集的总节点数，另一种计算方法是社交网络的日活跃用户数除以总用户数。

发帖数，表示该节点的发帖数量。

邻居节点ID及该邻居节点与该节点的交互次数，邻居节点ID指的是该节点的邻居节点的标识符。该节点的邻居节点是指与该节点有关注关系的节点，以微博为例，关注该节点的每个节点都可以称为该节点的邻居节点。在记录邻居节点的同时还统计该节点与该邻居节点的交互次数。以微博为例，节点与邻居节点的交互可以是指节点与该邻居节点互相转发和/评论和/或回复信息等。

在又一个实施例中，可以采用如下方法来计算影响力分值。如图2所示，矩阵F中F_ij＝1表示用户j是用户i的粉丝，F_ij＝0表示用户j不是i的粉丝。将用户的发帖数量作为初始的影响力分值，所有用户形成一个初始影响力分值向量λ。λ是一个n维(n为用户数)列向量，即λ＝(λ₁，λ₂，...，λ_n)^T，其中λ_i为用户i当前的影响力分值。每一次计算开始，计算F*λ的结果γ，并用γ代替λ重复该过程直到λ和γ的区别(|λ-γ|)足够小。将最后所得到的λ中各元素分别作为各用户影响力分值的最终值，并更新用户信息。

图3显示了根据本发明实施例的基于信息交互行为的网络群体检测方法的流程框图。该方法包括：S301：根据所采集的节点集建立节点关注关系网络，并初始化每个节点所采用的策略；S302：从节点集中随机选择一个节点进行群关系调整；S303：对所选节点进行策略更新，并重新计算由于所选节点的策略更新所影响到的所有节点的收益；步骤304：不断重复步骤S302和S303，直到所述节点集中没有收益可改进的节点时，输出节点集中互相存在群关系的所有节点，作为所检测的网络群体。

现参考图3，更具体地，在步骤S301，根据所采集的节点集建立节点关注关系网络，并初始化每个节点所采用的策略。其中，所采集的节点集中每个节点的数据格式可参考图1。根据该节点集中的节点和该节点的邻居节点，构建节点集中节点的关注关系网络。依据社交网络的不同，节点关注关系网络可以是无向网络，也可是有向网络，如人人网、Facebook这样社交网络中的节点之间是好友的，即双向关注的网络可以视为无向网络，而像微博、Twitter这样的社交网络中的节点是关注和被关注的关系，则是有向网络。在本发明实施例是以微博为例，边是有向的，边的方向节点指向关注他的节点。构建节点关注关系网络的目的是在其上发现或预测出构成群体的节点，节点关注关系网络是静态的结构，节点之间的关注关系变化较小，而节点的群关系是动态变化的，在一定的时间段内有可能会保持平稳，在本发明的实施例中就是希望能在获取的发帖数量所限定的这段时间内发现或预测出节点所构成的群体。构成网络群体的节点之间的交互关系是通过他们的关注关系网体现的，例如，节点之间是通过关注关系网络进行信息交互的。也就是说，群关系是建立在关注关系网络之上的，节点与另一节点建立群关系是指两个节点之间建立一条边，这种边是无向的，不同于关注关系网络的边。有群关系的两个节点之间的行为被认为是类似的或联系密切，即使这两个节点之间可能没有关注关系。初始时，认为一个节点就是一个群。在整个发现或预测群体的过程，可以看作是这些群进行合并和分裂的过程。

而节点集中的每个节点的初始策略是从他的策略集中等概率随机选取的。节点的策略集S可包括下列类型的策略：进行信息交互行为(记为策略C)，不进行信息交互行为(记为策略D)。在不同的社交网络应用中具体的信息交互行为是不同的，以微博客为例，微博中节点的策略集可以是{评论接收到的信息，只转发接收到的信息，转发并评论接收的信息，不对接收到的信息进行任何操作}。

在步骤S302，随机选择节点关注关系网络中的一个节点进行群关系调整。主要可包括以下步骤：

步骤2-1)、从所选节点的邻居节点中选择未与所选节点建立群关系的且收益最大的邻居节点。在节点关注关系网络中任何一个节点的收益等于该节点面对所有邻居节点所得的收益之和。例如，对于节点关注关系网络中任一个节点，假设记为节点A，其邻居节点是N_i(i＝1，...，k)，则，节点 A的收益P_A等于该节点面对所有邻居节点所得的收益之和，即其中p(S_A，S_Ni)表示节点A面对其邻居节点N_i的所得的收益。

在计算节点A面对它的每一个邻居节点的收益时，该收益与节点A及其邻居节点所采用的策略有关，节点A与邻居节点的不同的策略对会给节点A带来不同的收益。节点的收益可以理解为在节点及邻居节点采用的当前策略下节点的收获与节点的付出的差值。在一个实施例中，可使用节点间的交互次数、节点的发帖数等参数来计算节点在与邻居节点交互时产生的收益。例如，对于节点A，其邻居节点是N_i(i＝1，...，k)，可依据如下公式(1)计算节点A面对其邻居节点N_i的收益p(S_A，S_Ni)：

其中，S_A表示节点A当前所采用的策略，S_Ni表示节点A的邻居节点N_i当前所采用的策略。S_A＝C表示节点A当前所采用的策略是进行信息交互行为的策略；S_A＝D节点A当前所采用的策略是不进行交互行为的策略；S_Ni＝C表示邻居节点N_i当前所采用的策略是进行信息交互行为；S_Ni＝D表示邻居节点N_i当前所采用的策略是不进行信息交互行为。

在又一个实施例中，也可以使用其它可体现出节点在进行交互行为时得到的收获以及所需要的付出的参数例如节点交互的信息内容与情感度、

节点的相似度、节点间的亲密度等来计算节点的收益。例如，对于节点A，其邻居节点是N_i(i＝1，...，k)，可依据如下公式(2)计算节点A面对其邻居节点N_i的收益p(S_A，S_Ni)：

上述公式(2)中考虑了节点交互信息内容的情感倾向。例如，可以节点间交互的信息的内容的情感倾向分为正向情感和负向情感，从而可以统计出节点间交互具有正向/负向情感的内容的信息的次数(即正向/负向情感交互次数)。

通过上述方法可以计算出节点关注关系网络中任何一个节点的收益。这样，可以从所选节点的邻居节点中选出未与所选节点建立群关系的且收益最大的邻居节点。

步骤2-2)在该邻居节点与所选节点之间建立群关系；也就是在所选节点与该邻居节点之间建立一条边，这种边是无向的，不同于关注关系网络的边。

假设从节点关注关系网络中随机选择的是节点A，从节点A的邻居节点中选择未与节点A建立群关系的且收益最大的邻居节点为节点B，那么，可以通过在这个节点B与节点A之间建立一条边，来在节点A与节点B之间建立群关系，这种边是无向的，不同于关注关系网络的边。

在步骤S303，对所选节点进行策略更新，并重新计算由于所选节点策略更新所影响到的所有节点的收益。

其中，对所选节点进行策略更新主要可包括以下步骤：

步骤3-1)计算所选节点模仿所选节点的邻居节点中收益最大的邻居节点所使用的策略的概率

仍以节点A为例，在获取节点A的各个邻居节点的收益之后，确定节点A的邻居节点中收益最大的邻居节点，例如该邻居节点为节点B。可以用如下公式计算节点A模仿其邻居节点中收益最大的节点B所使用的策略的概率

其中，P_S是节点A的收益，P_B是节点B的收益，β是节点A的选择强度分值与活跃度分值的乘积，这样可以同时考虑了社交网络固有的活跃度和节点自身的活跃度。概率

实际上表示的是节点A使用节点B所使用的策略的可能性的大小。该概率值越大，说明节点A模仿节点B的策略的可能性越大，反之越小。模仿就是节点A采用与节点B所使用的策略相同的策略。

步骤3-2)、依据所述概率，对所选节点进行策略更新，也就是更新所选节点所采用的策略。例如，当所述概率大于设定的阈值时，将节点A的当前策略更新为与节点B的当前策略相同的策略，否则节点A使用最优反应策略来更新节点A的当前策略。节点A的最优反应策略是使该节点的收益最大化的那个策略，即该节点面对它的所有邻居节点时所采取的使收益最大化的那个策略。

仍以节点A为例，确定节点A的最优反应策略的步骤主要可包括：

步骤(a)计算节点A使用策略C(即进行信息交互的策略)的收益P_C，P_C表示节点A使用策略C面对节点A的所有邻居节点的收益的总和，即

实际上就是节点A当前采用的策略为策略C时该节点A的收益，S_Ni是节点A的邻居节点N_i所使用的策略；以及计算节点A使用策略D(即不进行信息交互的策略)的收益

S_Ni是其邻居节点N_i所使用的策略。

步骤(b)如果收益P_C与收益P_D相等，即P_C＝P_D，则比较节点A的邻居节点中使用进行信息交互策略的节点数目和节点A的邻居节点中使用不进行信息交互策略的节点数目。

当节点A的邻居节点中使用策略C的节点数目大于等于节点A的邻居节点中使用策略D的节点数目时，节点A选定策略C作为最优反应策略，即节点A选定进行信息交互策略；当节点A的邻居节点中使用策略C的节点数目小于节点A的邻居节点中使用策略D的节点数目时，节点A选定策略D作为最优反应策略，即节点A选定不进行信息交互策略。

步骤(c)如果收益P_C与收益P_D不相等，即P_C≠P_D，则比较P_C和P_D的大小。当P_C＞P_D时，节点A选定策略C作为最优反应策略，即节点A选定进行信息交互策略。当P_C＜P_D时，节点A选定策略D作为最优反应策略，即节点A选定不进行信息交互策略。

步骤3-3)、重新计算由于所选节点策略更新所影响到的所有节点的收益。例如由于在步骤3-2)中，对所选节点的策略进行了更新，这会使关注关系网络中部分节点的收益发生变化。因此，重新计算由于所选节点策略更新所影响到的所有节点收益，使用计算得到收益更新这些受节点策略更新所影响的节点的收益。

在步骤S304，不断重复步骤S302和S303，直到所述节点集中没有节点能够改善收益时，输出节点集中互相之间建立群关系的所有节点，这些节点即为所检测到的网络群体。输出形式可以根据需要有多种样式，例如输出网络群体的节点集及节点间之间的关系，或者根据设定群体的大小限制，输出所有满足条件的群体的节点集和节点关系等。

在本发明的又一个实施例中，还提供了一种基于信息交互行为的在线社会中网络群体的检测设备，该设备包括：(1)用于根据所采集的节点集建立节点关注关系网络，并初始化每个节点所采用的策略的装置；所述策略为进行信息交互行为或不进行信息交互行为；(2)用于从节点集中随机选择一个节点，从所选节点的邻居节点中选择未与所选节点建立群关系的且收益最大的邻居节点并在该邻居节点与所选节点之间建立群关系的装置；(3)用于对所选节点进行策略更新，并重新计算由于所选节点的策略更新所影响到的所有节点的收益的装置；以及(4)用于在所述节点集中没有收益可改进的节点时，输出节点集中互相之间存在群关系的所有节点作为所检测的网络群体的装置。该系统还可以包括数据采集与存储装置，其用于从所述在线社会网络采集与节点集中各节点相关的数据，以及用于存储所采集的数据、各种中间计算结果、节点之间的关注关系和群关系。

现有技术中已有的社会网络的社区发现方法多是从诸如谱优化、计算节点或社区的相似度、紧密度等方面来对网络进行社区划分，刻画的社区是节点之间的静态关系，同时，这些方法也忽视了在线社会网络的节点的实质是人以及节点关系中的人的行为因素；在此基础上所提的社区发现方法无法很好的检测具有动态特性和行为因素影响的网络群体。本发明提供的技术通过结合在线社会网络中节点的信息交互行为和节点间的社会关系，同时考虑了作为节点的人的有限理性因素，可以在在线社会关系网络中发现具有动态特性和行为因素影响的网络群体。

由于在线社会网络中网络群体的成员有着同一或相似目标，因此成员间的聚集度和相似度要高于社区，这导致了网络群体存在群体行为的聚集性和群体中信息扩散的涌现性。网络群体中的这些特点，使得信息在群体中极易扩散，对网络口碑营销、舆论引导等有着重要意义。同时，网络群体成员间的高相似度使得好友、商品等的推荐也更加准确。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种在线社会网络中网络群体的检测方法，所述方法包括：

2.根据权利要求1所述的方法，其中所述节点集中任一节点的收益等于该节点面对所有邻居节点所得的收益之和，其中，节点的收益以下列步骤计算：

假设以节点A表示节点集中任一个节点，其邻居节点是N_i(i＝1，...，k)，(1)计算节点A面对其邻居节点N_i的收益p(S_A，S_Ni)：

(2)计算节点A的收益P_A：

P_{A} = Σ_{i = 1}^{k} p (S_{A}, S_{Ni}) .

3.根据权利要求2所述的方法，还包括在步骤1)还包括计算节点集中每个节点的初始的收益的步骤。

4.根据权利要求1或2所述的方法，所述步骤2)中，所述在该邻居节点与所选节点之间建立群关系包括在该邻居节点与所选节点之间建立一条无向边。

5.根据权利要求1或2所述的方法，所述步骤3)包括：

步骤3-2)、依据所述概率，更新所选节点当前采用的策略；

6.根据权利要求5所述的方法，所述步骤3-1)中，所述概率以如下公式来计算：

7.根据权利要求5所述的方法，所述步骤3-2)包括：

8.根据权利要求7所述的方法，所选节点的最优反应策略通过下列步骤来确定：

9.一种在线社会网络中网络群体的检测系统，所述系统包括：