CN107749033A - 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 - Google Patents
一种网络社区活跃用户簇的发现方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN107749033A CN107749033A CN201711096102.8A CN201711096102A CN107749033A CN 107749033 A CN107749033 A CN 107749033A CN 201711096102 A CN201711096102 A CN 201711096102A CN 107749033 A CN107749033 A CN 107749033A
- Authority
- CN
- China
- Prior art keywords
- user
- cluster
- msub
- web community
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000013499 data model Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims abstract description 14
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 21
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000205 computational method Methods 0.000 claims description 6
- 230000032683 aging Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 description 5
- 230000036461 convulsion Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种网络社区活跃用户簇的发现方法、终端设备及存储介质。在该方法中,包括以下步骤:S10:通过网络社区软件收集该网络社区内的用户群体;S20:获取代表用户活跃度的用户特征数据,包括交互数据和关系数据;S30:去除低活跃度用户;S40:根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重;S50:根据各特征数据及其所占权重的值,得到每个用户的特征数据模型;S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇;S70:通过计算各用户簇的聚类中心与完全不活跃用户的距离确定活跃用户簇。本发明通过对用户在网络社区内部的信息交流数据和社交关系数据进行综合考虑,建立用户特征数据模型,通过聚类算法找出活跃用户簇。
Description
技术领域
本发明涉及数据挖掘技术领域,具体是一种网络社区活跃用户簇的发现方法、终端设备及存储介质。
背景技术
随着互联网的迅速发展,社会空间已由现实的空间扩大到虚拟的网络空间,网络中的用户群体对社会的发展将产生巨大的影响,因此很有必要对网络社区中的用户按照活跃度划分,以便及时获取用户在网络社会的动态和虚拟社会的信息,保证挖掘用户数据的时效性和完整性。
目前社区活跃用户的发现方法主要有社会关系的研究方法和统计用户发帖量变化的显示的特征方法。
社会关系的研究方法,该方法将整个网络定义为一张图,每个用户作为图中的顶点,用户之间的关系作为图的边,把用户之间的关系作为用户活跃度的判定,将与其他顶点有相连边的点认为是活跃用户。该方法在用户活跃度判定方面有一定的参考依据,但是它完全忽略了网络社会中建立关系的低成本和容易性,此方法将造成很多关注了其他用户的账号被认为是活跃用户,然而与事实不符,因为存在不少出于商业目的注册的账号关注了大量用户而不再使用的可能。
统计用户发帖量变化的显示方法,该方法统计每个用户在一定时间段的发帖量,将发帖量与时间段绘制成变化曲线,由曲线的变化率来判断用户的活跃度。此方法仅仅只是把用户的发帖量作为衡量用户活跃度的唯一标准,完全忽略了其他影响因素的存在。
因此需要一种能够综合考虑发帖量及发帖时间、社会关系等多种因素的活跃用户簇的发现方法或装置。
发明内容
为了解决上述问题,本发明旨在提供一种网络社区活跃用户簇的发现方法、终端设备及存储介质,通过对用户在网络社区内部的信息交流数据和社交关系数据进行综合考虑,建立用户特征数据模型,通过聚类算法找出活跃用户簇。
具体方案如下:
一种网络社区活跃用户簇的发现方法,包括以下步骤:
S10:通过网络社区软件收集该网络社区内的用户群体;
S20:获取代表用户活跃度的用户特征数据,包括交互数据和关系数据;所述交互数据为用户通过网络社区软件进行信息交流的数据,关系数据为用户在网络社区内部与其他用户建立联系的数据;
S30:去除低活跃度用户,即交互数据和关系数据均低的用户;
S40:根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重系数,影响大的特征数据所占的权重系数大,影响小的特征数据所占的权重系数小,用户的所有特征数据所对应的权重系数总和为1;
S50:根据各特征数据及其所占权重的值,得到每个用户的特征数据模型;
S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇;
S70:通过计算各用户簇的聚类中心用户与完全不活跃用户的距离确定活跃用户簇。
进一步的,所述步骤S10内的用户群体收集方式包括:
S101:通过设定关键字,使用网络社区官方软件的编程接口进行搜索得到初始用户群;
S102:通过收集初始用户群在上述网络社区官方软件内的社交关系用户得到最终用户群。
进一步的,所述步骤S20内的交互数据包括发帖总量、最近一月发帖量、原创帖量,关系数据包括关注数和粉丝数,即用户的特征数据包括发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数,其中发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数分别用mbi、mri、moi、foi和fai来表示,其中i为用户编号,值为1、2、3……、n中的某一个,当i为不同值时分别对应不同的用户。
进一步的,所述步骤S40内权重系数的设定中,发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数所占的权重系数分别为:n_mb=0.1、n_mr=0.3、n_mo=0.3、n_fo=0.1、n_fa=0.2,其中n_mb表示发帖总量的权重系数、n_mr表示最近一月发帖量的权重系数、n_mo表示原创帖量的权重系数、n_fo表示关注数的权重系数、n_fa表示粉丝数的权重系数。
进一步的,所述步骤S50内的用户特征数据模型为:
Fi=(nmbi,nmri,nmoi,nfoi,nfai),
其中nmbi=n_mb×mbi、nmri=n_mr×mri、nmoi=n_mo×moi、nfoi=n_fo×foi、nfai=n_fa×fai,
其中i为用户编号,值为1、2、3、……、n中的某一个,当i为不同值时分别对应不同的用户。
进一步的,所述步骤S60内的聚类算法为k-means算法,具体步骤包括:
S601:从用户群体中任意选取k个用户作为初始聚类中心;
S602:将用户按照距离最小原则分配到临近聚类;
S603:重新计算每个新聚类所有用户的均值,即为该聚类的新聚类中心;
S604:不断重复步骤S602、S603,直到聚类中心不再变化。
进一步的,所述步骤602内距离的计算方法采用余弦相似度计算方法,具体公式如下:
Sim(Fi,Fj)=(Fi*Fj)/(||Fi||*||Fj||)
其中i、j分别为对应的用户编号,Fi、Fj分别为用户编号i、j对应用户的特征数据模型。
进一步的,所述步骤S70所述距离的具体计算方式为:
完全不活跃用户的特征数据模型为:
F0=(0,0,0,0,0),
聚类中心用户i(其中i表示用户编号)的特征数据模型为:
Fi=(nmbi,nmri,nmoi,nfoi,nfai),
聚类中心用户i与完全不活跃用户之间的距离计算公式为:
进一步的,由于用户的特征数据不是一成不变的,本方法会定时更新用户的特征数据,对用户簇进行重新划分,保证了数据的时效性和准确性。
一种网络社区活跃用户簇的发现终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现网络社区活跃用户簇的发现方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现网络社区活跃用户簇的发现方法的步骤。
本发明采用如上技术方案,通过对网络社区用户建立特征数据模型,将用户的在该网络社区内部的信息交流数据和社交关系数据统一的结合在一起,并且根据其对活跃度的影响进行所占权重系数的划分,所以所建立的特征数据模型能较准确的代表用户在该网络社区内部的活跃度,通过聚类算法,将不同活跃度的用户归为不同的用户簇,然后通过计算这些用户簇中心与完全不活跃用户簇的距离,对不同用户簇的活跃度进行排序,距离越大的用户簇越活跃,可以根据需要选出相应活跃度的用户簇。
附图说明
图1所示为本发明实施例一的步骤示意图。
图2所示为本发明实时例一的聚类方法示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
本发明实施例一提供了一种网络社区活跃用户簇收集方法,如图1所示,其为本发明实施例一所述的网络社区活跃用户簇收集方法的流程示意图,所述方法可包括以下步骤:
S10:通过网络社区软件收集该网络社区内的用户群体,用户的收集方式可以根据各网络社区软件的不同采取不同的收集方式,主要有以下两种方式:
S101:通过设定关键字,使用网络社区官方软件的编程接口进行搜索得到初始用户群;所述用户界面即人与软件的交互界面,可以根据不同的软件在选择在不同的用户界面进行搜索,如评论数据界面、热门话题界面等。
S102:通过收集初始用户群在上述网络社区软件内的社交关系用户得到最终用户群。所述社交关系在不同的软件内部可以有不同的表现形式,例如好友、关注对象和粉丝等,该实施例中选用的社交关系用户为关注对象和粉丝。
该实施例中选取的网络社区为微博社区,采用以下方式来进行用户收集:
方式1:预设一批关键词,通过官方软件的编程接口进行搜索得到一批用户群体;
方式2:通过上述用户群体的关注粉丝关系等,收集更多用户;
方式3:通过热门微博中的发帖和评论数据提取出更多用户。
将上述三种方式收集到的用户进行汇总,排除重复数据,获得最终用户群体。
S20:获取代表用户活跃度的用户特征数据,其包括交互数据和关系数据。
所述交互数据为用户通过网络社区软件进行信息交流的数据,该实施例中选用的交互数据包括发帖总量、最近一月发帖量、原创帖量。
所述关系数据为用户在网络社区内部与其他用户建立联系的数据,该实施例中采用的关系数据包括关注数和粉丝数。
所述用户特征数据均可以通过官方软件编程接口得到或根据得到的数据进行一定的计算分析得到,该实施例中,通过官方软件编程接口可以取得用户的发帖总量、发帖时间增量、关注数和粉丝数等。根据取得的发帖时间增量,通过计算得到用户的最近一月发帖量和原创帖量,进而得到用户所有的特征数据。
综上所述,该实施例中用户特征数据组成分别为发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数,发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数分别用mbi、mri、moi、foi和fai来表示,其中i为用户编号,可以为1、2、3……、n,当i为不同值时分别对应不同的用户。
S30:去除低活跃度用户:由于在用户特征数据模型建立的过程中,需要投入大量的计算成本,用户数量越多,所占用的内存空间和花费的时间就越多,而统计的所有用户中不可避免的存在一些低活跃度用户,这些低活跃度用户可能是出于某些商业目的或其他目的建立的用户,不在我们想要统计的用户序列之内,如果也为这些低活跃度用户建立特征数据模型,不仅浪费我们的资源,也会对统计结果造成一定的影响,所以需要将这些低活跃度用户去除。
所述低活跃度用户,即交互数据和关系数据均低的用户。交互数据低的用户为不经常发表或评论信息,关系数据低的用户为关注数和粉丝数值较低的用户,该实施例中低活跃度用户优选设置为最近一年内发帖量为0且粉丝数和关注数均为0的用户。
S40:根据特征数据对用户活跃度的影响不同确定用户特征数据的权重系数,影响大的特征数据所占的权重系数大,影响小的特征数据所占的权重系数小,用户的所有特征数据所对应的权重系数总和为1。
该实施例中用户特征数据发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数所对应的权重系数分别为n_mb、n_mr、n_mo、n_fo、n_fa,所有用户的特征数据所对应的权重系数均相同。
由于在网络社区中关系数据的增加相比交互数据的增加更容易,所以交互数据的权重系数之和大于关系数据所对应的权重系数之和,该实施例中表现为:
n_mb+n_mr+n_mo>n_fo+n_fa;
由于原创帖更能反映用户的个人思想,且由于网络社区活动的流动性,存在用户在某段时间内活跃的可能,因此最近一月发帖量比总发帖量更能体现用户的活跃性,所以
n_mo≥n_mr≥n_mb;
又由于在用户好友关系建立过程中,粉丝的获取比关注好友更困难,因此
n_fa≥n_fo;
根据所有特征数据所对应的权重系数总和为1,即
n_mb+n_mr+n_mo+n_fo+n_fa=1。
通过计算分析和综合考虑,确定各特征数据所占的权重系数分别为:
n_mb=0.1,n_mr=0.3,n_mo=0.3,n_fo=0.1,n_fa=0.2。
S50:根据各特征数据及其所占权重系数的值,得到每个用户的特征数据模型,该模型通过向量的方式表示。当用户的特征数据为a1、a2、a3......an,特征数据所占的权重系数分别为b1、b2、b3......bn,则该用户的特征数据模型为:
F=(a1×b1、a2×b2、a3×b3......an×bn)。
该实施例中每个用户的特征数据模型为:
Fi=(nmbi,nmri,nmoi,nfoi,nfai),
其中nmbi=n_mb×mbi、nmri=n_mr×mri、nmoi=n_mo×moi、nfoi=n_fo×foi、nfai=n_fa×fai。
其中i为用户编号,值为1、2、3、……、n,当i为不同值时分别对应不同的用户。
S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇。
所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段,所述聚类算法可以是常用的各种聚类算法,例如k-means算法、k-medoids算法、SOM算法等,该实施例中采用的聚类算法为k-means算法,是一种得到最广泛应用的聚类算法,它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,通过迭代过程将数据集划分到不同类别,使得评价聚类性能的准则函数得到最优。
参照图2所示,该实施例中,具体包括以下实施步骤:
S601:从用户群体中任意选取k个用户作为初始聚类中心。
S602:将用户按照距离最小原则分配到临近聚类。
设定选定的k个聚类中心用户的用户编号为i,其中i=1、2、3、……、k,设定k个用户之外的其他用户的用户编号为j,其中j=1、2、3、……、n,通过计算用户j与用户i之间的距离来判断两者之间的相似度距离越小,用户之间越相似,差异度越小,距离越大,用户之间越不相似,差异度越大,用户j中的任何一个都要与用户i中的每一个用户进行距离的计算,将该用户j分配到距离最小的用户i所在的用户簇中。
所述距离的计算方法采用余弦相似度计算方法,具体公式如下:
Sim(Fi,Fj)=(Fi*Fj)/(||Fi||*||Fj||)
其中i、j分别为对应的用户编号,Fi、Fj分别为用户编号i、j对应用户的特征数据模型。
分别计算k个初始聚类中心以外的其他用户到这k个初始聚类中心的距离,根据它们与这些初始聚类中心的距离将这些用户分别归类到k个初始聚类中心所代表聚类中,满足同一聚类中的用户相似度较高,不同聚类中的用户相似度较小。
S603:重新计算每个新聚类所有用户的均值,即为该聚类的新聚类中心;
S604:不断重复步骤S602、S603,直到聚类中心不再变化;此时将用户群体分成了k个用户簇。用户簇的个数k可以根据实际的用户群体内的用户数量来确定。
步骤S70:通过计算各用户簇的聚类中心与完全不活跃用户的距离确定活跃用户簇,距离越大,说明该给用户簇聚类中心所在用户簇内的用户活跃度越高。该实施例中设定交互数据和关系数据均为0的用户为完全不活跃用户,其特征数据模型为:
F0=(0,0,0,0,0)。
第K组用户簇的聚类中心i表示的特征数据模型为:
Fi=(nmbi,nmri,nmoi,nfoi,nfai)(其中i表示对应的用户编号),
聚类中心用户i与完全不活跃用户之间的距离为:
分别计算K组用户簇的聚类中心与完全不活跃用户之间的距离,距离最大的为最活跃用户簇,根据实际需求提取需要活跃度的用户簇。
由于用户的特征数据不是一成不变的,该实施例会定时更新用户的特征数据,对用户簇进行重新划分,保证了数据的时效性和准确性。
本发明实施例一提供了一种网络社区活跃用户簇的发现方法,在该方法中对网络社区用户建立特征数据模型,将用户的在该网络社区内部的信息交流数据和社交关系数据统一的结合在一起,并且根据其对活跃度的影响进行所占权重系数的划分,所以所建立的特征数据模型能较准确的代表用户在该网络社区内部的活跃度,通过聚类算法,将不同活跃度的用户归为不同的用户簇,然后通过计算这些用户簇中心与完全不活跃用户簇的距离,对不同用户簇的活跃度进行排序,距离越大的用户簇越活跃,可以根据需要选出相应活跃度的用户簇。
实施例二:
本发明还提供一种网络社区活跃用户簇的发现终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述方法实施例中的步骤,例如图1所示的步骤S10-S70的方法步骤。
进一步地,作为一个可执行方案,所述汽车配件销量预测终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述网络社区活跃用户簇的发现终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述网络社区活跃用户簇的发现终端设备的组成结构仅仅是网络社区活跃用户簇的发现终端设备的示例,并不构成对网络社区活跃用户簇的发现终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述网络社区活跃用户簇的发现终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述网络社区活跃用户簇的发现终端设备的控制中心,利用各种接口和线路连接整个网络社区活跃用户簇的发现终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述网络社区活跃用户簇的发现终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述网络社区活跃用户簇的发现终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (11)
1.一种网络社区活跃用户簇的发现方法,其特征在于:包括以下步骤:
S10:通过网络社区软件收集该网络社区内的用户群体;
S20:获取代表用户活跃度的用户特征数据,包括交互数据和关系数据;所述交互数据为用户通过网络社区软件进行信息交流的数据,关系数据为用户在网络社区内部与其他用户建立联系的数据;
S30:去除低活跃度用户,即交互数据和关系数据均低的用户;
S40:根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重系数,影响大的特征数据所占的权重系数大,影响小的特征数据所占的权重系数小,用户的所有特征数据所对应的权重系数总和为1;
S50:根据各特征数据及其所占权重的值,得到每个用户的特征数据模型;
S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇;
S70:通过计算各用户簇的聚类中心用户与完全不活跃用户的距离确定活跃用户簇。
2.根据权利要求1所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S10内的用户群体收集方式包括:
S101:通过设定关键字,使用网络社区官方软件的编程接口进行搜索得到初始用户群;
S102:通过收集初始用户群在上述网络社区官方软件内的社交关系用户得到最终用户群。
3.根据权利要求1所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S20内的交互数据包括发帖总量、最近一月发帖量、原创帖量,关系数据包括关注数和粉丝数,即用户的特征数据包括发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数,其中发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数分别用mbi、mri、moi、foi和fai来表示,其中i为用户编号,值为1、2、3……、n中的某一个,当i为不同值时分别对应不同的用户。
4.根据权利要求3所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S40内权重系数的设定中,发帖总量、最近一月发帖量、原创帖量、关注数和粉丝数所占的权重系数分别为:n_mb=0.1、n_mr=0.3、n_mo=0.3、n_fo=0.1、n_fa=0.2,其中n_mb表示发帖总量的权重系数、n_mr表示最近一月发帖量的权重系数、n_mo表示原创帖量的权重系数、n_fo表示关注数的权重系数、n_fa表示粉丝数的权重系数。
5.根据权利要求4所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S50内的用户特征数据模型为:
Fi=(nmbi,nmri,nmoi,nfoi,nfai),
其中nmbi=n_mb×mbi、nmri=n_mr×mri、nmoi=n_mo×moi、nfoi=n_fo×foi、nfai=n_fa×fai,
其中i为用户编号,值为1、2、3、……、n中的某一个,当i为不同值时分别对应不同的用户。
6.根据权利要求1所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S60内的聚类算法为k-means算法,具体步骤包括:
S601:从用户群体中任意选取k个用户作为初始聚类中心;
S602:将用户按照距离最小原则分配到临近聚类;
S603:重新计算每个新聚类所有用户的均值,即为该聚类的新聚类中心;
S604:不断重复步骤S602、S603,直到聚类中心不再变化。
7.根据权利要求5或6所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤602内距离的计算方法采用余弦相似度计算方法,具体公式如下:
Sim(Fi,Fj)=(Fi*Fj)/(||Fi||*||Fj||)
其中i、j分别为对应的用户编号,Fi、Fj分别为用户编号i、j对应用户的特征数据模型。
8.根据权利要求5所述的网络社区活跃用户簇的发现方法,其特征在于:所述步骤S70所述距离的具体计算方式为:
完全不活跃用户的特征数据模型为:
F0=(0,0,0,0,0),
聚类中心用户i(其中i表示用户编号)的特征数据模型为:
Fi=(nmbi,nmri,nmoi,nfoi,nfai),
聚类中心用户i与完全不活跃用户之间的距离计算公式为:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>F</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>F</mi>
<mn>0</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msqrt>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>nmb</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>nmr</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>nmo</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>nfo</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>nfa</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<msqrt>
<mrow>
<msup>
<msub>
<mi>nmb</mi>
<mi>i</mi>
</msub>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<msub>
<mi>nmr</mi>
<mi>i</mi>
</msub>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<msub>
<mi>nmo</mi>
<mi>i</mi>
</msub>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<msub>
<mi>nfo</mi>
<mi>i</mi>
</msub>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<msub>
<mi>nfa</mi>
<mi>i</mi>
</msub>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<mo>.</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
9.根据权利要求1所述的网络社区活跃用户簇的发现方法,其特征在于:由于用户的特征数据不是一成不变的,本方法会定时更新用户的特征数据,对用户簇进行重新划分,保证了数据的时效性和准确性。
10.一种发现网络社区活跃用户簇的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~9所述方法的步骤。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~9所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711096102.8A CN107749033A (zh) | 2017-11-09 | 2017-11-09 | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711096102.8A CN107749033A (zh) | 2017-11-09 | 2017-11-09 | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107749033A true CN107749033A (zh) | 2018-03-02 |
Family
ID=61250984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711096102.8A Pending CN107749033A (zh) | 2017-11-09 | 2017-11-09 | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107749033A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717465A (zh) * | 2018-06-04 | 2018-10-30 | 哈尔滨工程大学 | 基于用户行为分析的子群发现方法 |
CN108810089A (zh) * | 2018-05-04 | 2018-11-13 | 微梦创科网络科技(中国)有限公司 | 一种信息推送方法、装置及存储介质 |
CN109754290A (zh) * | 2019-01-15 | 2019-05-14 | 网易(杭州)网络有限公司 | 一种游戏数据的处理方法和装置 |
CN110807546A (zh) * | 2019-10-22 | 2020-02-18 | 恒大智慧科技有限公司 | 社区网格人口变化预警方法及系统 |
CN110807052A (zh) * | 2019-11-05 | 2020-02-18 | 佳都新太科技股份有限公司 | 用户群分类方法、装置、设备及存储介质 |
CN110807547A (zh) * | 2019-10-22 | 2020-02-18 | 恒大智慧科技有限公司 | 家庭人口结构的预测方法及系统 |
CN111259931A (zh) * | 2020-01-09 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 一种用户分组以及活跃度确定方法及系统 |
CN111784528A (zh) * | 2020-05-27 | 2020-10-16 | 平安科技(深圳)有限公司 | 异常社群检测方法、装置、计算机设备及存储介质 |
CN113269263A (zh) * | 2021-06-03 | 2021-08-17 | 深圳索信达数据技术有限公司 | 客户分类方法、装置、计算机设备及计算机可读存储介质 |
CN113407659A (zh) * | 2021-07-09 | 2021-09-17 | 上海明略人工智能(集团)有限公司 | 员工社区发现方法、系统、计算机和可读存储介质 |
CN113704585A (zh) * | 2021-08-25 | 2021-11-26 | 广东工业大学 | 一种焦点小组成员筛选方法、装置、终端及存储介质 |
CN117808473A (zh) * | 2024-03-01 | 2024-04-02 | 深圳迅策科技股份有限公司 | 一种交易数据的隐私计算方法及系统 |
CN117808473B (zh) * | 2024-03-01 | 2024-05-31 | 深圳迅策科技股份有限公司 | 一种交易数据的隐私计算方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
-
2017
- 2017-11-09 CN CN201711096102.8A patent/CN107749033A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
Non-Patent Citations (1)
Title |
---|
曾燕清 等: "基于用户聚类的社交网络影响", 《软件》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108810089B (zh) * | 2018-05-04 | 2021-07-30 | 微梦创科网络科技(中国)有限公司 | 一种信息推送方法、装置及存储介质 |
CN108810089A (zh) * | 2018-05-04 | 2018-11-13 | 微梦创科网络科技(中国)有限公司 | 一种信息推送方法、装置及存储介质 |
CN108717465A (zh) * | 2018-06-04 | 2018-10-30 | 哈尔滨工程大学 | 基于用户行为分析的子群发现方法 |
CN109754290A (zh) * | 2019-01-15 | 2019-05-14 | 网易(杭州)网络有限公司 | 一种游戏数据的处理方法和装置 |
CN109754290B (zh) * | 2019-01-15 | 2024-06-04 | 网易(杭州)网络有限公司 | 一种游戏数据的处理方法和装置 |
CN110807546A (zh) * | 2019-10-22 | 2020-02-18 | 恒大智慧科技有限公司 | 社区网格人口变化预警方法及系统 |
CN110807547A (zh) * | 2019-10-22 | 2020-02-18 | 恒大智慧科技有限公司 | 家庭人口结构的预测方法及系统 |
CN110807052A (zh) * | 2019-11-05 | 2020-02-18 | 佳都新太科技股份有限公司 | 用户群分类方法、装置、设备及存储介质 |
CN110807052B (zh) * | 2019-11-05 | 2022-08-02 | 佳都科技集团股份有限公司 | 用户群分类方法、装置、设备及存储介质 |
CN111259931B (zh) * | 2020-01-09 | 2022-06-28 | 支付宝(杭州)信息技术有限公司 | 一种用户分组以及活跃度确定方法及系统 |
CN111259931A (zh) * | 2020-01-09 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 一种用户分组以及活跃度确定方法及系统 |
CN111784528A (zh) * | 2020-05-27 | 2020-10-16 | 平安科技(深圳)有限公司 | 异常社群检测方法、装置、计算机设备及存储介质 |
CN113269263A (zh) * | 2021-06-03 | 2021-08-17 | 深圳索信达数据技术有限公司 | 客户分类方法、装置、计算机设备及计算机可读存储介质 |
CN113269263B (zh) * | 2021-06-03 | 2024-04-09 | 深圳索信达数据技术有限公司 | 客户分类方法、装置、计算机设备及计算机可读存储介质 |
CN113407659A (zh) * | 2021-07-09 | 2021-09-17 | 上海明略人工智能(集团)有限公司 | 员工社区发现方法、系统、计算机和可读存储介质 |
CN113704585A (zh) * | 2021-08-25 | 2021-11-26 | 广东工业大学 | 一种焦点小组成员筛选方法、装置、终端及存储介质 |
CN113704585B (zh) * | 2021-08-25 | 2022-06-10 | 广东工业大学 | 一种焦点小组成员筛选方法、装置、终端及存储介质 |
CN117808473A (zh) * | 2024-03-01 | 2024-04-02 | 深圳迅策科技股份有限公司 | 一种交易数据的隐私计算方法及系统 |
CN117808473B (zh) * | 2024-03-01 | 2024-05-31 | 深圳迅策科技股份有限公司 | 一种交易数据的隐私计算方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107749033A (zh) | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 | |
Feng et al. | An expert recommendation algorithm based on Pearson correlation coefficient and FP-growth | |
Massucci et al. | Measuring the academic reputation through citation networks via PageRank | |
Junqué de Fortuny et al. | Predictive modeling with big data: is bigger really better? | |
Choo et al. | Customizing computational methods for visual analytics with big data | |
Ahmed et al. | Problems and prospects of mobile banking in Bangladesh | |
CN107729519B (zh) | 基于多源多维数据的评估方法及装置、终端 | |
CN108595461A (zh) | 兴趣探索方法、存储介质、电子设备及系统 | |
TW201939400A (zh) | 目標用戶群體的確定方法和裝置 | |
WO2017107416A1 (zh) | 一种基于大数据的领域交叉推荐方法及装置 | |
CN103365842B (zh) | 一种页面浏览推荐方法及装置 | |
CN110909222A (zh) | 基于聚类的用户画像建立方法、装置、介质及电子设备 | |
CN107273519A (zh) | 数据分析方法、装置、终端及存储介质 | |
CN108764332A (zh) | 一种渠道质量分析方法、计算设备及存储介质 | |
CN104077723A (zh) | 一种社交网络推荐系统及方法 | |
CN103853809A (zh) | 用于业务对象的有效空间分配 | |
Ning et al. | Choosing an appropriate training set size when using existing data to train neural networks for land cover segmentation | |
Tao et al. | A modified gravity p-Median model for optimizing facility locations | |
CN111428092B (zh) | 基于图模型的银行精准营销方法 | |
Wang et al. | Clustering by differencing potential of data field | |
Ballout et al. | Sparse estimation for case–control studies with multiple disease subtypes | |
US20220277008A1 (en) | Supporting database queries using unsupervised vector embedding approaches over unseen data | |
Qayyum et al. | Graded soft expert set as a generalization of hesitant fuzzy set | |
CN106055665A (zh) | 基于异常值剔除的情境感知Web服务推荐方法和系统 | |
Wright et al. | A novel case‐control subsampling approach for rapid model exploration of large clustered binary data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180302 |
|
RJ01 | Rejection of invention patent application after publication |