CN108717465A

CN108717465A - 基于用户行为分析的子群发现方法

Info

Publication number: CN108717465A
Application number: CN201810560998.9A
Authority: CN
Inventors: 杨悦; 王巧红; 刘卓; 杨静; 张健沛; 初妍; 马潇阳
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-10-30

Abstract

本发明提供的是一种基于用户行为分析的子群发现方法。输入；设定阈值，构建聚类中心的数据池D1；从D1中选取任意样本作为初始C1；计算每个样本与当前已有聚类中心之间的最大交互强度即联系最为密切的一个聚类中心之间的联系强度；计算每个样本被选做下一个聚类中心的可能性,按照可能性大小优先计算与D1内各节点间的权重，值大者作为一个聚类中心；选择出k个聚类中心；针对样本集中每个样本x,计算它到k个聚类中心的交互强度，并将它分到交互强度最大的聚类中心所对应的类中；重新计算他们的聚类中心，与D中数据的交互强度直到聚类中心不再变化；输出簇划分。本发明可明显减少中心点选取时的迭代次数，使得子群的划分更加稳定准确。

Description

基于用户行为分析的子群发现方法

技术领域

本发明涉及的是一种社会网络子群挖掘方法，具体地说是一种基于行为交互的子群发现(Subgroup Discovery based on Behavior Interaction)方法。

背景技术

子群发现的问题属于社会网络中社团发现问题的一个子方向，社会化媒体网络中的社团发现是社会网络分析的核心，因为它提供了一种基于个体间相互作用的社会图分解为较小的社会图的方法。经过数十年的发展，目前已经提出了一些具有代表性的算法，比如图聚类、Web检索和用户影响。关于图聚类，可以在结构上或频谱上进行，在前一种情况下的划分是基于图的邻接矩阵的性质，而在后者的连接模式则是如边缘密度和模块度函数优化等。近年来，产生了很多有特色的的图聚类的方法，主要分为计算机图形学和社会学两大类。在计算机图形学方面,基于分割技术的图聚类方法,传统的谱平分聚类方法,基于矩阵的传统谱平分法，基于最小跨度树的聚类方法等。在社会学领域,主要是层次聚类方法,包括基于图论的,递归地裁减边的方法，基于中心性的边约减的方法，基于统计特性的聚类方法算法等等。

发明内容

本发明的目的在于提供一种可以明显减少中心点选取时的迭代次数，子群的划分更加稳定准确的基于用户行为分析的子群发现方法。

本发明的目的是这样实现的：

1.输入：样本集D(x)、聚类簇数k、阈值ε(l,m)；

2.1设定阈值ε，从样本集中选取阈值大于ε的数据节点作为聚类中心的数据池D1；

2.2从数据池D1中选取任意样本作为初始C1；

2.3首先计算每个样本与当前已有聚类中心之间的最大交互强度即联系最为密切的一个聚类中心之间的联系强度，用W(x)来表示；

2.4计算每个样本被选做下一个聚类中心的可能性按照可能性大小优先计算与D1内各节点间的权重，值大者获胜，作为一个聚类中心；

2.5重复步骤2.3、2.4，直到选择出k个聚类中心；

2.6针对样本集中每个样本x,计算它到k个聚类中心的交互强度，并将它分到交互强度最大的聚类中心所对应的类中；

2.7针对每个类别，重新计算他们的聚类中心，与D中数据的交互强度直到聚类中心不再变化；

3.输出：簇划分。

本发明涉及的是一种基于用户行为分析的社会网络子群挖掘算法的改进方法，基于行为交互的子群发现(Subgroup Discovery based on Behavior Interaction)方法，以下简称SDBI。

社会网络反映了现实世界中人类的活动以及关系结构，类似于现实世界中人类的活动以及关系网，社会网络中的行为分析极大地反映了客户之间的关系，随着针对这些网络行为的分析研究，学者们将它们运用在各式各样的研究中，其中有一条很重要的应用就是通过对网络中所有用户的网络行为的分析，并按照不同的关系和属性特征将用户划分为不同规模、不同类型的社团或群体。这些群体也就是文章中所指的子群，而这个发现和找到子群的过程就被称之为子群发现，本发明的目标就是运用一种网络行为分析的方式发现这样的子群。

目前，对于子群发现算法，无论国内还是国外，都在积极的研究，学者们提出了多种模型方法和相应的算法，它们针对不同的数据结构、分析模式和具体的实际问题。本发明在前人研究的基础上，针对现有的n-派系和k-核算法具有的子群直径过大以及所选节点影响过于微弱等缺点，取两者精华的结合了它们的的优点，提出了基于用户行为分析的子群发现算法，其主要观点和内容如下：

(1)突出数据初分类方法。

社交网络用户行为是用户使用社交网络来获得服务的过程中产生的，在对用户本身需求和社交网络功能发展的基础上做出的，是社交网络研究的重要内容。针对网络行为的分析也就是针对网络用户行为产生的数据的分析，所以针对数据的清洗筛选，本发明提出一种“突出数据初分类”的数据选择方式，它重点考虑特征突出的结点数据，方便中心点的选取，使得聚集效果明显，提高算法稳定性，又将相对来说不重要的的结点考虑在内，更好地分析出用户交互行为的特征。本章提出的名为突出数据初分类的数据分类环节，在数据搜集完成之后，将用户按照行为的不同，分成行为施予方和行为承受方，一个用户可以兼顾很多种角色。根据数据集用户行为特征之间的关系，粗泛的分为易影响别人的用户和易被影响的用户，其中易影响别人的用户值比较大，易被影响的用户值比较大，再将易影响别人的用户分为显示传播力好的用户和隐式传播力好的用户，将易被影响的用户分分为显示易被影响用户和隐式易被影响用户，第一轮选择完毕后修改阈值，进行第二轮选择，以此类推。

(2)有向加权完全图

将提取出来的数据结点抽象成为一个加权完全图，利用本发明提出的交互强度描述方式量化节点交互关系，可以很好的反映用户之间的直接关联和间接关联(完全图针对间接关联，而有向的特点可以很好的反映出行为的施予方和承受方之间的关系)，这是之前的工作中很少考虑的。微博用户间的间接关联并不能忽视，因为它也起到了很好的联系用户结点的作用，所以将这种关系考虑进来，可以更好的刻画结点间的交互关系。

那么本发明就假设，可以得到一个加权完全图，其中通过以上方式筛选出来的用户作为图中的结点，也就是影响端和被影响端，它们凭借用户间交互关系联系起来，也就是图的边，依据本发明提出的有向图加权方式来给结点映射出的加权完全图的边赋权值，量化用户交互关系，用Wij表示。该方法主要受BoWei等人的加权度计算方式启发。

w_ij＝α(a*y_ij转发+(1-a)*y_ji转发)+β(a*y_ij评论+(1-a)*y_ji评论)+(1-α-β)(a*y_ij点赞+(1-a)*y_ji点赞)

其中yij是由i到其他结点的边数，也就是i结点的出度，yij是其他结点到i点的边数，也就是i结点的入度；eij＝1为i到j的边存在；e’ij＝1为j到i的边存在。

(3)子群发现

本发明提出“点周强权边度数”的概念，即结点周围边的值大于一个定值l才能算作一个强权边，拥有一个强权边可以给它的度数加一。这个概念描述的是一个点影响图中其他点行为的能力或被影响的可能性。由于微博中用户关系为单向关注关系，所以我们提出的点周强权边度数可分为点周强权入边度和点周强权出边度。我们将点的强权边度数计算出来，然后将点按照强权边度数分类，留下连接这些强权边度数大于m的点，然后就组成了初始的聚类中心数据池D1。

本发明的技术效果：

通过对上述资料和信息的研究分析，本发明认为针对网络行为的分析可以很好的了解用户的行为习惯，消费偏好，关注的兴趣点等，在掌握这些数据之后，按照数据的不同特征将它们分为不同的组别，然后将它们分成不同的子群体，顺带发现子群体中相对活跃的结点。

为了对本发明算法进行评价，引入了一种复杂网络社区划分评价标准——模块度(Modularity)，来评判算法对网络划分结果的好坏优劣。

定义：模块度(Modularity)

定义e_ij，e_ij表示连接社区i和j的边的总数,a_i表示连接社区i的边的总数，那么模块度可以表示为：

在引入了评价标准之后，将本发明算法应用于经典数据集Zachary's KarateClub Network数据集上，说明本发明子群发现算法的有效性。该数据集中包含34个节点、78条边，其中节点表示俱乐部成员，边表示成员之间的联系。

将本发明算法应用到Zachary's Karate Club Network，其中节点表示俱乐部成员，有向边表示成员之间的联系。因为本发明假设边的有向性，又因为该数据集中关系的无向性因素，我们假设网络关系中的无向边为双向边。将实验结果与Kmeans和Kmeans++方法的效果比较，得到图3的表1。

表1是在进行过多次实验后得出的结果，由于Kmeans方法的中心点选取是随机选取K个节点，中心点的确定带有太大的随机性，所以结果显示Kmeans方法的迭代次数以及平均消耗时间极不稳定，Q值也会相应的不稳定。而Kmeans++方法在一定程度上改善了Kmeans方法的中心数据节点选取方式，随机的从数据集中选取一个节点作为初始点，计算节点距离，直至选取出K个中心聚类点停止迭代，所以理论上，Kmeans++算法会比Kmeans方法的迭代次数减少，事实上也的确如此。然而从数据集中随机选取一个节点的方式也具有很大的不确定性，针对这个问题，在本发明的方法中，重新定义初始点的选取范围，增加所选初始点即为最终聚类中心之一的概率，针对这个数据集，设阈值为9，即边的权重要大于9的数据节点中任意选取一个初始聚类中心，这样将平均迭代次数降低为两次，并且划分结果也相对会稳定，Q值平均在0.3296左右。比Kmeans++方法的Q值增加了一些，但不明显，其原因可能输数据量小的缘故，所以在算法初步得到证实之后，将该算法应用到新浪微博数据集上，本发明采用数据堂提供的微博公开数据集，一个具有10312个节点，333983条边的新浪公开数据集之上，得到图1，以及图4的表2的结果。由以上结果，可以得出我们预想的结论，即SDBI算法可以明显减少中心点选取时的迭代次数，使得子群的划分更加稳定准确，其平均Q值也是在理想社区划分范围之内并且高于其他两个算法的。

附图说明

图1为本发明涉及的新浪微博数据集的，由kmeans、kmeans++以及本算法在不同个数聚类中心情况下得到的Q值构成的趋势折线图。

图2为本发明的算法描述和具体过程。

图3的表1为kmeans、kmeans++以及本算法在karate数据集上的平均实验数据对比图。

图4的表2为kmeans、kmeans++以及本算法在新浪数据集上的平均实验数据对比图。

具体实施方式

下面举例对本发明做更详细的描述。

输入：样本集D(x)；

聚类簇数k；

阈值ε(l,m)；

过程：

1.设定阈值ε，从数据集中选取阈值大于ε的数据节点作为聚类中心的数据池D1；

2.从数据池D1中选取任意样本作为初始C1；

3.首先计算每个样本与当前已有聚类中心之间的最大交互强度(联系最为密切的一个聚类中心之间的联系强度)，用w(x)来表示；

4.计算每个样本被选做下一个聚类中心的可能性按照可能性大小优先计算与D1内各节点间的权重，值较大者获胜，作为一个聚类中心；

5.重复步骤3、4，直到选择出k个聚类中心；

6.针对数据集中每个样本x,计算它到k个聚类中心的交互强度，并将它分到交互强度最大的聚类中心所对应的类中；

7.针对每个类别，重新计算他们的聚类中心，与D中数据的交互强度直到聚类中心不再变化；

输出：簇划分。

Claims

1.一种基于用户行为分析的子群发现方法，其特征是：

(1)输入：样本集D(x)、聚类簇数k、阈值ε(l,m)；

(2.1)设定阈值ε，从样本集中选取阈值大于ε的数据节点作为聚类中心的数据池D1；

(2.2)从数据池D1中选取任意样本作为初始C1；

(2.3)首先计算每个样本与当前已有聚类中心之间的最大交互强度即联系最为密切的一个聚类中心之间的联系强度，用W(x)来表示；

(2.4)计算每个样本被选做下一个聚类中心的可能性按照可能性大小优先计算与D1内各节点间的权重，值大者获胜，作为一个聚类中心；

(2.5)重复步骤(2.3)、(2.4)，直到选择出k个聚类中心；

(2.6)针对样本集中每个样本x,计算它到k个聚类中心的交互强度，并将它分到交互强度最大的聚类中心所对应的类中；

(2.7)针对每个类别，重新计算他们的聚类中心，与D中数据的交互强度直到聚类中心不再变化；

(3)输出：簇划分。