CN108717465A - 基于用户行为分析的子群发现方法 - Google Patents
基于用户行为分析的子群发现方法 Download PDFInfo
- Publication number
- CN108717465A CN108717465A CN201810560998.9A CN201810560998A CN108717465A CN 108717465 A CN108717465 A CN 108717465A CN 201810560998 A CN201810560998 A CN 201810560998A CN 108717465 A CN108717465 A CN 108717465A
- Authority
- CN
- China
- Prior art keywords
- cluster centre
- sample
- intensity
- cluster
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004458 analytical method Methods 0.000 title claims abstract description 14
- 230000003993 interaction Effects 0.000 claims abstract description 15
- 230000002452 interceptive effect Effects 0.000 abstract description 6
- 230000006399 behavior Effects 0.000 description 21
- 230000000694 effects Effects 0.000 description 5
- 244000097202 Rathbunia alamosensis Species 0.000 description 4
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 235000005156 Brassica carinata Nutrition 0.000 description 3
- 244000257790 Brassica carinata Species 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000001524 infective effect Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的是一种基于用户行为分析的子群发现方法。输入;设定阈值,构建聚类中心的数据池D1;从D1中选取任意样本作为初始C1;计算每个样本与当前已有聚类中心之间的最大交互强度即联系最为密切的一个聚类中心之间的联系强度;计算每个样本被选做下一个聚类中心的可能性,按照可能性大小优先计算与D1内各节点间的权重,值大者作为一个聚类中心;选择出k个聚类中心;针对样本集中每个样本x,计算它到k个聚类中心的交互强度,并将它分到交互强度最大的聚类中心所对应的类中;重新计算他们的聚类中心,与D中数据的交互强度直到聚类中心不再变化;输出簇划分。本发明可明显减少中心点选取时的迭代次数,使得子群的划分更加稳定准确。
Description
技术领域
本发明涉及的是一种社会网络子群挖掘方法,具体地说是一种基于行为交互的子群发现(Subgroup Discovery based on Behavior Interaction)方法。
背景技术
子群发现的问题属于社会网络中社团发现问题的一个子方向,社会化媒体网络中的社团发现是社会网络分析的核心,因为它提供了一种基于个体间相互作用的社会图分解为较小的社会图的方法。经过数十年的发展,目前已经提出了一些具有代表性的算法,比如图聚类、Web检索和用户影响。关于图聚类,可以在结构上或频谱上进行,在前一种情况下的划分是基于图的邻接矩阵的性质,而在后者的连接模式则是如边缘密度和模块度函数优化等。近年来,产生了很多有特色的的图聚类的方法,主要分为计算机图形学和社会学两大类。在计算机图形学方面,基于分割技术的图聚类方法,传统的谱平分聚类方法,基于矩阵的传统谱平分法,基于最小跨度树的聚类方法等。在社会学领域,主要是层次聚类方法,包括基于图论的,递归地裁减边的方法,基于中心性的边约减的方法,基于统计特性的聚类方法算法等等。
发明内容
本发明的目的在于提供一种可以明显减少中心点选取时的迭代次数,子群的划分更加稳定准确的基于用户行为分析的子群发现方法。
本发明的目的是这样实现的:
1.输入:样本集D(x)、聚类簇数k、阈值ε(l,m);
2.1设定阈值ε,从样本集中选取阈值大于ε的数据节点作为聚类中心的数据池D1;
2.2从数据池D1中选取任意样本作为初始C1;
2.3首先计算每个样本与当前已有聚类中心之间的最大交互强度即联系最为密切的一个聚类中心之间的联系强度,用W(x)来表示;
2.4计算每个样本被选做下一个聚类中心的可能性按照可能性大小优先计算与D1内各节点间的权重,值大者获胜,作为一个聚类中心;
2.5重复步骤2.3、2.4,直到选择出k个聚类中心;
2.6针对样本集中每个样本x,计算它到k个聚类中心的交互强度,并将它分到交互强度最大的聚类中心所对应的类中;
2.7针对每个类别,重新计算他们的聚类中心,与D中数据的交互强度直到聚类中心不再变化;
3.输出:簇划分。
本发明涉及的是一种基于用户行为分析的社会网络子群挖掘算法的改进方法,基于行为交互的子群发现(Subgroup Discovery based on Behavior Interaction)方法,以下简称SDBI。
社会网络反映了现实世界中人类的活动以及关系结构,类似于现实世界中人类的活动以及关系网,社会网络中的行为分析极大地反映了客户之间的关系,随着针对这些网络行为的分析研究,学者们将它们运用在各式各样的研究中,其中有一条很重要的应用就是通过对网络中所有用户的网络行为的分析,并按照不同的关系和属性特征将用户划分为不同规模、不同类型的社团或群体。这些群体也就是文章中所指的子群,而这个发现和找到子群的过程就被称之为子群发现,本发明的目标就是运用一种网络行为分析的方式发现这样的子群。
目前,对于子群发现算法,无论国内还是国外,都在积极的研究,学者们提出了多种模型方法和相应的算法,它们针对不同的数据结构、分析模式和具体的实际问题。本发明在前人研究的基础上,针对现有的n-派系和k-核算法具有的子群直径过大以及所选节点影响过于微弱等缺点,取两者精华的结合了它们的的优点,提出了基于用户行为分析的子群发现算法,其主要观点和内容如下:
(1)突出数据初分类方法。
社交网络用户行为是用户使用社交网络来获得服务的过程中产生的,在对用户本身需求和社交网络功能发展的基础上做出的,是社交网络研究的重要内容。针对网络行为的分析也就是针对网络用户行为产生的数据的分析,所以针对数据的清洗筛选,本发明提出一种“突出数据初分类”的数据选择方式,它重点考虑特征突出的结点数据,方便中心点的选取,使得聚集效果明显,提高算法稳定性,又将相对来说不重要的的结点考虑在内,更好地分析出用户交互行为的特征。本章提出的名为突出数据初分类的数据分类环节,在数据搜集完成之后,将用户按照行为的不同,分成行为施予方和行为承受方,一个用户可以兼顾很多种角色。根据数据集用户行为特征之间的关系,粗泛的分为易影响别人的用户和易被影响的用户,其中易影响别人的用户值比较大,易被影响的用户值比较大,再将易影响别人的用户分为显示传播力好的用户和隐式传播力好的用户,将易被影响的用户分分为显示易被影响用户和隐式易被影响用户,第一轮选择完毕后修改阈值,进行第二轮选择,以此类推。
(2)有向加权完全图
将提取出来的数据结点抽象成为一个加权完全图,利用本发明提出的交互强度描述方式量化节点交互关系,可以很好的反映用户之间的直接关联和间接关联(完全图针对间接关联,而有向的特点可以很好的反映出行为的施予方和承受方之间的关系),这是之前的工作中很少考虑的。微博用户间的间接关联并不能忽视,因为它也起到了很好的联系用户结点的作用,所以将这种关系考虑进来,可以更好的刻画结点间的交互关系。
那么本发明就假设,可以得到一个加权完全图,其中通过以上方式筛选出来的用户作为图中的结点,也就是影响端和被影响端,它们凭借用户间交互关系联系起来,也就是图的边,依据本发明提出的有向图加权方式来给结点映射出的加权完全图的边赋权值,量化用户交互关系,用Wij表示。该方法主要受BoWei等人的加权度计算方式启发。
wij=α(a*yij转发+(1-a)*yji转发)+β(a*yij评论+(1-a)*yji评论)+(1-α-β)(a*yij点赞+(1-a)*yji点赞)
其中yij是由i到其他结点的边数,也就是i结点的出度,yij是其他结点到i点的边数,也就是i结点的入度;eij=1为i到j的边存在;e’ij=1为j到i的边存在。
(3)子群发现
本发明提出“点周强权边度数”的概念,即结点周围边的值大于一个定值l才能算作一个强权边,拥有一个强权边可以给它的度数加一。这个概念描述的是一个点影响图中其他点行为的能力或被影响的可能性。由于微博中用户关系为单向关注关系,所以我们提出的点周强权边度数可分为点周强权入边度和点周强权出边度。我们将点的强权边度数计算出来,然后将点按照强权边度数分类,留下连接这些强权边度数大于m的点,然后就组成了初始的聚类中心数据池D1。
本发明的技术效果:
通过对上述资料和信息的研究分析,本发明认为针对网络行为的分析可以很好的了解用户的行为习惯,消费偏好,关注的兴趣点等,在掌握这些数据之后,按照数据的不同特征将它们分为不同的组别,然后将它们分成不同的子群体,顺带发现子群体中相对活跃的结点。
为了对本发明算法进行评价,引入了一种复杂网络社区划分评价标准——模块度(Modularity),来评判算法对网络划分结果的好坏优劣。
定义:模块度(Modularity)
定义eij,eij表示连接社区i和j的边的总数,ai表示连接社区i的边的总数,那么模块度可以表示为:
在引入了评价标准之后,将本发明算法应用于经典数据集Zachary's KarateClub Network数据集上,说明本发明子群发现算法的有效性。该数据集中包含34个节点、78条边,其中节点表示俱乐部成员,边表示成员之间的联系。
将本发明算法应用到Zachary's Karate Club Network,其中节点表示俱乐部成员,有向边表示成员之间的联系。因为本发明假设边的有向性,又因为该数据集中关系的无向性因素,我们假设网络关系中的无向边为双向边。将实验结果与Kmeans和Kmeans++方法的效果比较,得到图3的表1。
表1是在进行过多次实验后得出的结果,由于Kmeans方法的中心点选取是随机选取K个节点,中心点的确定带有太大的随机性,所以结果显示Kmeans方法的迭代次数以及平均消耗时间极不稳定,Q值也会相应的不稳定。而Kmeans++方法在一定程度上改善了Kmeans方法的中心数据节点选取方式,随机的从数据集中选取一个节点作为初始点,计算节点距离,直至选取出K个中心聚类点停止迭代,所以理论上,Kmeans++算法会比Kmeans方法的迭代次数减少,事实上也的确如此。然而从数据集中随机选取一个节点的方式也具有很大的不确定性,针对这个问题,在本发明的方法中,重新定义初始点的选取范围,增加所选初始点即为最终聚类中心之一的概率,针对这个数据集,设阈值为9,即边的权重要大于9的数据节点中任意选取一个初始聚类中心,这样将平均迭代次数降低为两次,并且划分结果也相对会稳定,Q值平均在0.3296左右。比Kmeans++方法的Q值增加了一些,但不明显,其原因可能输数据量小的缘故,所以在算法初步得到证实之后,将该算法应用到新浪微博数据集上,本发明采用数据堂提供的微博公开数据集,一个具有10312个节点,333983条边的新浪公开数据集之上,得到图1,以及图4的表2的结果。由以上结果,可以得出我们预想的结论,即SDBI算法可以明显减少中心点选取时的迭代次数,使得子群的划分更加稳定准确,其平均Q值也是在理想社区划分范围之内并且高于其他两个算法的。
附图说明
图1为本发明涉及的新浪微博数据集的,由kmeans、kmeans++以及本算法在不同个数聚类中心情况下得到的Q值构成的趋势折线图。
图2为本发明的算法描述和具体过程。
图3的表1为kmeans、kmeans++以及本算法在karate数据集上的平均实验数据对比图。
图4的表2为kmeans、kmeans++以及本算法在新浪数据集上的平均实验数据对比图。
具体实施方式
下面举例对本发明做更详细的描述。
输入:样本集D(x);
聚类簇数k;
阈值ε(l,m);
过程:
1.设定阈值ε,从数据集中选取阈值大于ε的数据节点作为聚类中心的数据池D1;
2.从数据池D1中选取任意样本作为初始C1;
3.首先计算每个样本与当前已有聚类中心之间的最大交互强度(联系最为密切的一个聚类中心之间的联系强度),用w(x)来表示;
4.计算每个样本被选做下一个聚类中心的可能性按照可能性大小优先计算与D1内各节点间的权重,值较大者获胜,作为一个聚类中心;
5.重复步骤3、4,直到选择出k个聚类中心;
6.针对数据集中每个样本x,计算它到k个聚类中心的交互强度,并将它分到交互强度最大的聚类中心所对应的类中;
7.针对每个类别,重新计算他们的聚类中心,与D中数据的交互强度直到聚类中心不再变化;
输出:簇划分。
Claims (1)
1.一种基于用户行为分析的子群发现方法,其特征是:
(1)输入:样本集D(x)、聚类簇数k、阈值ε(l,m);
(2.1)设定阈值ε,从样本集中选取阈值大于ε的数据节点作为聚类中心的数据池D1;
(2.2)从数据池D1中选取任意样本作为初始C1;
(2.3)首先计算每个样本与当前已有聚类中心之间的最大交互强度即联系最为密切的一个聚类中心之间的联系强度,用W(x)来表示;
(2.4)计算每个样本被选做下一个聚类中心的可能性按照可能性大小优先计算与D1内各节点间的权重,值大者获胜,作为一个聚类中心;
(2.5)重复步骤(2.3)、(2.4),直到选择出k个聚类中心;
(2.6)针对样本集中每个样本x,计算它到k个聚类中心的交互强度,并将它分到交互强度最大的聚类中心所对应的类中;
(2.7)针对每个类别,重新计算他们的聚类中心,与D中数据的交互强度直到聚类中心不再变化;
(3)输出:簇划分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810560998.9A CN108717465A (zh) | 2018-06-04 | 2018-06-04 | 基于用户行为分析的子群发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810560998.9A CN108717465A (zh) | 2018-06-04 | 2018-06-04 | 基于用户行为分析的子群发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108717465A true CN108717465A (zh) | 2018-10-30 |
Family
ID=63911762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810560998.9A Pending CN108717465A (zh) | 2018-06-04 | 2018-06-04 | 基于用户行为分析的子群发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108717465A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710754A (zh) * | 2018-11-12 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于深度结构学习的群体异常行为检测方法 |
CN111352840A (zh) * | 2020-02-28 | 2020-06-30 | 北京字节跳动网络技术有限公司 | 上线行为风险评估方法、装置、设备和可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704872A (zh) * | 2017-09-19 | 2018-02-16 | 安徽理工大学 | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 |
CN107749033A (zh) * | 2017-11-09 | 2018-03-02 | 厦门市美亚柏科信息股份有限公司 | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 |
-
2018
- 2018-06-04 CN CN201810560998.9A patent/CN108717465A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704872A (zh) * | 2017-09-19 | 2018-02-16 | 安徽理工大学 | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 |
CN107749033A (zh) * | 2017-11-09 | 2018-03-02 | 厦门市美亚柏科信息股份有限公司 | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
ARTHUR D等: "《"k-means++: The advantages of careful seeding》", 《ACM》 * |
YAWEN JIANG等: "《An efficient community detection method based on rank centrality》", 《PHYSICA A: STATISTICAL MECHANICS AND ITS APPLICATIONS》 * |
张建民: "《一种改进的K-means聚类算法》", 《微计算机信息》 * |
边婧等: "《入侵检测不平衡样本子群发现数据简化策略》", 《计算机应用研究》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710754A (zh) * | 2018-11-12 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于深度结构学习的群体异常行为检测方法 |
CN111352840A (zh) * | 2020-02-28 | 2020-06-30 | 北京字节跳动网络技术有限公司 | 上线行为风险评估方法、装置、设备和可读存储介质 |
CN111352840B (zh) * | 2020-02-28 | 2023-08-15 | 抖音视界有限公司 | 上线行为风险评估方法、装置、设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106279B (zh) | 一种同时基于节点属性以及结构关系相似度的聚类方法 | |
Zhang et al. | Uncovering fuzzy community structure in complex networks | |
CN110825948B (zh) | 基于促谣-辟谣消息和表示学习的谣言传播控制方法 | |
Chandra et al. | Web service selection using modified artificial bee colony algorithm | |
CN106528804A (zh) | 一种基于模糊聚类的用户分群方法 | |
CN108717465A (zh) | 基于用户行为分析的子群发现方法 | |
Wu et al. | PMLF: prediction-sampling-based multilayer-structured latent factor analysis | |
Wickman et al. | A Generic Graph Sparsification Framework using Deep Reinforcement Learning | |
Liu et al. | Influence nodes identifying method via community-based backward generating network framework | |
Zhu et al. | Host profit maximization for competitive viral marketing in billion-scale networks | |
Guo | S-curve networks and an approximate method for estimating degree distributions of complex networks | |
CN112035545B (zh) | 一种考虑非活跃节点和社区边界的竞争影响力最大化方法 | |
Zhou et al. | Information diffusion on communication networks based on Big Data analysis | |
Chen et al. | Research on a novel influence maximization algorithm based on community structure | |
Shakya et al. | Opposition-based genetic algorithm for community detection in social networks | |
Cao et al. | Research on modified artificial bee colony clustering algorithm | |
Zhang et al. | Link prediction of community in microblog based on exponential random graph model | |
Wu et al. | Network reconstruction and controlling based on structural regularity analysis | |
Mahapatra et al. | An analysis on data reduction methods for MANETS to reduce incoming data as a preprocessing technique | |
Yang et al. | A novel friend recommendation service based on interaction information mining | |
CN109886313A (zh) | 一种基于密度峰的动态图聚类方法 | |
Chen et al. | Influence Maximization with Consideration of PageRank Centrality and Propagation Probability. | |
Wang et al. | A method of social network node preference evaluation based on the topology potential | |
CN113408089B (zh) | 一种基于引力场思想的集群间影响力建模方法及存储介质 | |
Yang et al. | An improved genetic algorithm based on local modularity for community detection in complex network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181030 |