CN109828998A - 基于核心群体挖掘和意见领袖识别结果的分群方法及系统 - Google Patents
基于核心群体挖掘和意见领袖识别结果的分群方法及系统 Download PDFInfo
- Publication number
- CN109828998A CN109828998A CN201910031966.4A CN201910031966A CN109828998A CN 109828998 A CN109828998 A CN 109828998A CN 201910031966 A CN201910031966 A CN 201910031966A CN 109828998 A CN109828998 A CN 109828998A
- Authority
- CN
- China
- Prior art keywords
- users
- user
- propagation
- comprehensive index
- index value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000009412 basement excavation Methods 0.000 title abstract 2
- 230000006399 behavior Effects 0.000 claims description 41
- 239000002131 composite material Substances 0.000 claims description 33
- 238000005065 mining Methods 0.000 claims description 28
- 238000009825 accumulation Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000032798 delamination Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000000644 propagated effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000566145 Otus Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于核心群体挖掘和意见领袖识别结果的分群方法及系统,包括:传播网络用户分为意见领袖、去交集核心群体和其他用户;构建分层传播网络模型,节点为上述三类中的用户,用户之间传播行为作为对应节点之间的路径;通过传播行为发生的次数获得中间层和底层的用户的不同传播方向的不同综合指标值,构建去交集核心群体‑综合指标数值表及其他用户‑综合指标数值表;将意见领袖分为可信意见领袖和不可信意见领袖;将去交集核心群体、其他用户内用户分别按照去交集核心群体‑综合指标数值表和其他用户‑综合指标数值表进行分群。上述方法及系统充分运用核心群体挖掘的结果和意见领袖识别的结果实现基于事件参与程度的用户分级。
Description
技术领域
本发明涉及数据挖掘技术领域和社交网络分析领域,更为具体地,涉及一种基于核心群体挖掘和意见领袖识别结果的分群方法及系统。
背景技术
如今,新浪微博拥有大量活跃的用户、丰富的言论,使得基于新浪微博数据展开的社交网络分析愈发重要。也正是由于用户参与量的激增,如何衡量众多用户的参与程度并进行等级的划分,对平台监管与事件重点监测都具有实际应用的意义。在现有的研究中,不论是在社区分群结果中挖掘核心群体,还是在传播网络中识别意见领袖,都已经存在了许多相关的研究以及改进方法。然而,针对热点事件所形成的传播网络进行参与人群分类的研究却十分少见。目前,参与人群分类更多情况下作为意见领袖的附属研究出现,如在识别出意见领袖后,将参与人群分为意见领袖、促进者、参与者、追随者、沉默者五个类别。因此研究如何对传播网络中的参与人群进行细致地划分,是十分有必要的。
发明内容
鉴于上述问题,本发明的目的是提供一种充分运用核心群体挖掘的结果和意见领袖识别的结果,对社交网络热点事件的参与用户进行分类,实现基于事件参与程度的用户分级的基于核心群体挖掘和意见领袖识别结果的分群方法及系统。
根据本发明的一个方面,提供一种基于核心群体挖掘和意见领袖识别结果的分群方法,包括:
将传播网络中的所有用户分为三个类别,第一类别为意见领袖识别结果中的意见领袖,第二类别为核心群体挖掘结果的核心群体中去除与意见领袖有交集的用户后的去交集核心群体,第三类别为所有用户中去除第一类别和第二类别后的其他用户;
根据上述三个类别构建分层传播网络模型,其中,顶层的节点为第一类别的意见领袖中的用户,中间层的节点为第二类别的去交集核心群体中的用户,底层的节点为其他用户的用户,用户之间传播行为发生的次数作为对应节点之间的路径;
通过传播行为发生的次数根据下式(1)至(3)获得中间层和底层的用户的不同传播方向的不同综合指标值,构建去交集核心群体-综合指标数值表及其综合指标值构建其他用户-综合指标数值表,
其中,a、b为传播网络层数的索引,u为a层的一个用户,na为a层的用户总数,u′为b层的一个用户,a-b为传播方向,为用户u与用户u′之间在传播方向a-b上的传播行为,为a层用户u的综合指标数值,其中,顶层的意识领袖的综合指标数值为已知;
将意见领袖分为可信意见领袖和不可信意见领袖;
将去交集核心群体、其他用户内用户分别按照去交集核心群体-综合指标数值表和其他用户-综合指标数值表进行分群。
优选地,所述传播网络的传播方向包括:从顶层用户向中间层用户的传播,中间层用户之间的传播,从中间层用户向底层用户的传播,从顶层用户向底层用户传播以及底层用户之间的传播。
进一步,优选地,按照传播方向分层次对不同层的用户的综合指标数值进行更新,包括:
通过意识领袖的综合指标数值根据下式(5)获得去交集核心群体的每个用户在从顶层用户向中间层用户的传播方向上的综合指标数值,通过意识领袖的综合指标数值根据下式(7)获得其他用户的每个用户在从顶层用户向底层用户的传播方向上的综合指标数值,
其中,CIu表示意识领袖u的综合指标数值,O表示顶层,CG表示中间层,OTU表示底层,nop为意识领袖总数,为去交集核心群体中用户u′在传播方向O-CG上的综合指标数值,为其他用户中用户u′在传播方向O-OTU上的综合指标数值;
筛除综合指标数值为0的其他用户中的用户;
根据下式(9)获得去交集核心群体的每个用户在从中间层用户向底层用户的传播方向上的综合指标数值,
其中,notu其他用户的用户数量,为在传播方向O-OTU上综合指标数值不为0的其他用户的用户数量,ncg为去交集核心群体的用户总数,为去交集核心群体的用户u′向其他用户的用户u″的传播行为,为去交集核心群体的用户u′向其他用户的总传播行为;
根据下式(11)获得去交集核心群体的每个用户在中间层用户之间的传播方向上的综合指标数值
其中,为中间层的用户u″′在中间层用户之间的传播方向上的综合指标数值,为去交集核心群体的一个用户u″向另一个用户u″′的传播行为;
根据下式(13)获得其他用户的每个用户在底层用户之间的传播方向上的综合指标数值
其中,为底层的用户u″′在底层用户之间的传播方向上的综合指标数值,为其他用户中的一个用户u″向另一个用户u″′的传播行为。
进一步,优选地,所述获得去交集核心群体的每个用户在中间层用户之间的传播方向上的综合指标数值和获得其他用户的每个用户在底层用户之间的传播方向上的综合指标数值的方法中,另一个用户u″′的综合指标数值根据各层的一个用户u″向层内的其余用户的总传播行为或设定所述一个用户的分配比例,所述总传播行为越大,所述分配比例越高。
此外,优选地,所述将去交集核心群体、其他用户内用户分别按照去交集核心群体-综合指标数值表和其他用户-综合指标数值表进行分群的方法包括:
将去交集核心群体、其他用户内各个用户的综合指标数值降序排序;
获得去交集核心群体-综合指标数值表的综合指标数值总和以及其他用户-综合指标数值表中的综合指标数值总和;
设定不大于1的一个或多个分类比例;
按照分类比例从小到大的顺序将去交集核心群体和其他用户分成多个群体,包括:去交集核心群体的第一类群体为排序后去交集核心群体-综合指标数值表中累加综合指标数值达到综合指标数值总和第一分类比例的综合指标数值最大值对应用户与第一交界用户之间的用户,其中,不包含第一交界用户;第二类群体为从第一交界用户开始继续累加综合指标数值达到综合指标数值总和第二分类比例的第一交界用户和第二交界用户之间的用户,其中,不包含第二交界用户;重复上述步骤,直到得到最后两个交界用户之间的用户,将最后交界用户与其余为参与数值累加的用户作为最后一类用户;以此类推得到其他用户的分群。
根据本发明的另一个方面,提供一种基于核心群体挖掘和意见领袖识别结果的分群系统,包括:
类别划分模块,将传播网络中的所有用户分为三个类别,第一类别为意见领袖识别结果中的意见领袖,第二类别为核心群体挖掘结果的核心群体中去除与意见领袖有交集的用户后的去交集核心群体,第三类别为所有用户中去除第一类别和第二类别后的其他用户;
分层传播网络模型构建模块,根据类别划分模块划分的三个类别构建分层传播网络模型,其中,顶层的节点为第一类别的意见领袖中的用户,中间层的节点为第二类别的去交集核心群体中的用户,底层的节点为其他用户,用户之间传播行为发生的次数作为对应节点之间的路径;
综合指标数值表构建模块,通过传播行为发生的次数根据下式(1)至(3)获得中间层和底层用户的不同传播方向的不同综合指标值,根据在中间层内部传播的用户及其综合指标值构建去交集核心群体-综合指标数值表,根据在底层内部传播的用户及其综合指标值构建其他用户-综合指标数值表,
其中,a、b为传播网络层数的索引,u为a层的一个用户,na为a层的用户总数,u′为b层的一个用户,a-b为传播方向,为用户u与用户u′之间在传播方向a-b上的传播行为,为a层用户u的综合指标数值,其中,顶层的意识领袖的综合指标数值为已知;
分群模块,将意见领袖分为可信意见领袖和不可信意见领袖;将去交集核心群体、其他用户内用户分别按照去交集核心群体-综合指标数值表和其他用户-综合指标数值表进行分群。
本发明所述基于核心群体挖掘和意见领袖识别结果的分群方法及系统针对目前热点事件参与人群分类的研究十分欠缺,而且已有的基于意见领袖识别结果的分类方式细致程度很低的问题,通过将平面的传播网络化为分层的传播网络,并构建数据模型,在分层传播网络中以传播情况为依据分配意见领袖的综合指标,得到每一个用户所分配到的数值,并且以该数值为依据进行了参与人群分类,不仅开拓了参与人群分类方法,也扩充了已有研究中的分类等级数,使得参与人群的划分得以更加细致。
附图说明
通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1是本发明基于核心群体挖掘和意见领袖识别结果的分群方法的流程示意图;
图2是本发明平面传播网络待细分区域及重点传播方向示意图;
图3是本发明平面传播网络转化为分层传播网络的示意图;
图4是本发明分层传播网络中综合指标传播模式示意图;
图5是本发明按照传播方向分层次对不同层的用户的综合指标数值进行更新的方法的流程示意图;
图6是本发明参与人群分类示意图;
图7是本发明所述基于核心群体挖掘和意见领袖识别结果的分群系统的构成框图;
图8是本发明一个具体实施例中CG-CI数值表数值分布情况统计图;
图9是本发明一个具体实施例中OTU-CI数值表数值分布情况统计图;
图10是本发明一个具体实施例中去交集核心群体用户分布情况统计图;
图11是本发明一个具体实施例中其他用户分布情况统计图。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。
以下将结合附图对本发明的具体实施例进行详细描述。
图1是本发明基于核心群体挖掘和意见领袖识别结果的分群方法的流程示意图,如图1所示,所述基于核心群体挖掘和意见领袖识别结果的分群方法基于热点事件在社交平台上的舆情传播所形成的传播网络展开的,在针对传播网络进行的核心群体挖掘和意见领袖识别结果中,得到了两个特殊的群体,即核心群体和意见领袖,包括:
步骤S1,核心群体和意见领袖这两个特殊群体的共同点在于,它们都是从传播网络中挖掘重要程度较高的节点,只是理论上核心群体覆盖的节点数会多于意见领袖所覆盖的节点数,因此,应该考虑这两个特殊群体存在交集的情况,为了在传播网络分层时将核心群体与意见领袖区分为两个独立的群体,如图2所示,定义“去交集核心群体”,表示去除与意见领袖用户的交集后,核心群体中其余的用户所构成的群体;定义除去上述两个特殊群体后,传播网络中其余的用户所构成的群体为“其他用户”,则平面的传播网络(如图3所示)可以划分为三个互不相交的部分:意见领袖、去交集核心群体、其他用户,也就是说,将传播网络中的所有用户分为三个类别,第一类别为意见领袖识别结果中的意见领袖,第二类别为核心群体挖掘结果的核心群体中去除与意见领袖有交集的用户后的去交集核心群体,第三类别为所有用户中去除第一类别和第二类别后的其他用户;
步骤S2,根据上述三个类别构建分层传播网络模型,如图3所示,将平面的传播网络化为“意见领袖-去交集核心群体-其他用户”的三层传播网络,也就是将平面化的传播视为分层传播,其中,顶层的节点为第一类别的意见领袖中的用户,中间层的节点为第二类别的去交集核心群体中的用户,底层的节点为其他用户,用户之间的传播以传播网络中的转发、评论关系为基础,用户之间每发生转发、评论一次,表示传播行为发生了一次,也就是说,用户之间传播行为发生的次数作为对应节点之间的路径,用户之间每发生转发或评论一次表示传播行为发生了一次;
步骤S3,通过传播行为根据下式(1)至(3)获得中间层和底层用户的不同传播方向的不同综合指标值,根据在中间层内部传播的用户及其综合指标值构建去交集核心群体-综合指标数值表,根据在底层内部传播的用户及其综合指标值构建其他用户-综合指标数值表,
其中,a、b为传播网络层数的索引,u为a层的一个用户,na为a层的用户总数,u′为b层的一个用户,a-b为传播方向,为用户u与用户u′之间在传播方向a-b上的传播行为,为a层用户u的综合指标数值,其中,顶层的意识领袖的综合指标数值为已知,是以各项微博数据构建专业度、新颖度、影响力、活跃度后,进行最优化合成得到的衡量节点综合传播力的数值;
步骤S4,将意见领袖分为可信意见领袖和不可信意见领袖;
步骤S5,将去交集核心群体、其他用户内用户分别按照去交集核心群体-综合指标数值表和其他用户-综合指标数值表进行分群。
在本发明的一个实施例中,如图2所示,在步骤S1中,参与人群分类待细分的区域有①意见领袖;②去交集核心群体;③其他用户三个部分;
在步骤S2中,重点考虑的信息传播方向有以下五个:从顶层用户向中间层用户的传播,中间层用户之间的传播,从中间层用户向底层用户的传播,从顶层用户向底层用户传播以及底层用户之间的传播,以存在10个节点的传播网络为例,图3为平面传播网络转化为分层传播网络的示意图,图中的传播网络包含1个意见领袖节点(①表示),3个去交集核心用户群体中的用户(②表示),6个其他用户(③表示)
从图3可以看出,在分层的传播网络中,可以将信息传播视为将意见领袖作为传播源的金字塔式传播。为了衡量传播网络中的信息传播情况,将去交集核心群体内的用户和其他用户被传播到的信息数值化,规定意见领袖(顶层,第一层)向中间层(第二层)、底层(第三层)传播的是其综合指标数值。根据作为已知条件的意见领袖识别研究结果的定义,CIu表示用户u的综合指标数值,并且意见领袖识别的结果为CIu降序排序后选取的前nop个用户。因此,各个意见领袖的CIu数值可以表示为:
为了直观地进行传播过程描述,将意见领袖表示为O,去交集核心群体表示为CG,其他用户表示为OTU;这样,意见领袖向去交集核心群体的传播可以表示为O-CG,意见领袖向其他用户的传播可以表示为O-OTU,去交集核心群体向其他用户的传播可以表示为CG-OTU,去交集核心群体内部的传播可以表示为CG-CG,其他用户内部的传播可以表示为OTU-OTU。
为了数值化衡量各个用户在传播网络中的参与程度,以分层传播网络作为基础进行意见领袖综合指标的分配。将意见领袖u的综合指标数值CIu在网络中的传播情况作为示例,重点考虑的五个信息传播方向可以转换为以下三个步骤的传播:
步骤一:意见领袖的向下传播
意见领袖既可以向第二层的去交集核心用户群体传播,也可以向第三层的其他用户传播。因此CIu在意见领袖的向下传播这一步骤中,会形成两部分数值,分别是和
步骤二:去交集核心群体的向下传播
由于是向下传播,故只考虑去交集核心群体向第三层其他用户的传播。因此步骤一中形成的在去交集核心群体的向下传播这一过程中,会形成数值
步骤三:去交集核心群体与其他用户的内部传播
这里考虑去交集核心群体,也就是第二层中各个用户之间的传播,以及其他用户,也就是第三层中各个用户之间的传播。这一过程中,会形成数值和
综合步骤一、步骤二、步骤三,可形成分层传播网络中综合指标CIu的传播模式图,如图4所示。
在图4的分配中,在上述分配中,初始的CIu值总额应该是不变的。为了便于数值计算和更新,建立“去交集核心群体-综合指标数值表”(后面简称为CG-CI数值表)以及“其他用户-综合指标数值表”(后面简称为OTU-CI数值表)。CG-CI数值表中,每一个去交集核心群体中的用户对应其分配到的CIu数值;OTU-CI数值表中,每一个其他用户对应其分配到的CIu数值。
在一个可选实施例中,设置三个步骤的传播对应的CG-CI数值表和OTU-CI数值表更新计算方法如图5所示,在步骤S3中,按照传播方向分层次对不同层的用户的综合指标数值进行更新,包括:
步骤S31,令意见领袖用户u与去交集核心群体内的用户u′之间的传播行为为根据下式(4)获得用户u分配给用户u′的综合指标数值
由于意见领袖共有nop个,则u取1,2,...,nop。若u′为去交集核心群内用户,根据下式(5)对数值表进行第一次更新,得到意识领袖向去交集核心群体的每个用户的分配数值总额,
步骤S32,令意见领袖u与其他用户u′之间的传播行为为根据下式(6)获得u分配给其他用户u′的综合指标数值
根据下式(7)对数值表进行第一次更新,得到意识领袖向其他用户的每个用户的的分配数值总额
步骤S33,筛除综合指标数值为0的其他用户中的用户,例如,经过数值表第一步分配后,分配综合指标数值不为零的其他用户数量为
步骤S34,数值表第二次更新首先需要确定分配比例,即当去交集核心群体内的某用户与某个其他用户形成传播对时,会将多大比例的综合指标数值用来完成他们之间的数值分配,分配综合指标数值不为零的其他用户数量为与其他用户的数量notu相除,可以得出一个非零值个数占总个数的比例,也就是这里将这个比例作为CG-OTU这一步传播的分配比例。
经过数值表第一次更新,去交集核心群内的用户u′分配到的综合指标数值为用户u′向OTU群体传播的总次数为用户u′向OTU群体中的用户u″传播的次数为根据下式(8)获得用户u′分配给用户u″的综合指标数值
由于去交集核心群体内的用户共有ncg个,u′可取1,2,...,ncg,根据下式(9)获得用户u″经过数值表第二次更新后的分配数值总额
步骤S35,经过数值表的前两次更新,CG群体中的用户u″的CI数值可以表示为CG群体中的用户u″在CG群体内部传播的总次数为u″′为CG群体群体中的某用户,用户u″与用户u″′之间的传播行为为根据下式(10)获得中间层的用户u″分配给用户u″′的综合指标数值
由于去交集核心群体内的用户共有ncg个,u″、u″′为CG群体内用户,根据下式(11)获得用户u″′经过数值表第三次更新后的分配数值总额
步骤S36,经过数值表的前两次更新,OTU群体中的用户u″的CI数值可以表示为OTU群体中的用户u″在OTU群体内部传播的总次数为u″′为OTU群体中的某用户,若用户u″与用户u″′之间的传播行为为根据下式(12)获得用户u″分配给用户u″′的综合指标数值
由于其他用户共有notu个,则若u″、u″′为OTU群体内用户,根据下式(13)获得用户u″′经过数值表第三次更新后的分配数值总额。
优选地,在步骤S35或/和步骤S36中,根据各层的一个用户向层内的其余用户的总传播行为设定分配比例,其中,所述总传播行为越大,所述分配比例越高,也就是说,公式(10)-(13)添加分配比例后变形为
进一步,优选地,所述去交集核心群体的每个用户在中间层用户之间的传播方向上的分配比例为:
其中,为去交集核心群体的用户u″在中间层用户之间的传播方向上的分配比例;
所述其他用户的每个用户在底层用户之间的传播方向上的分配比例为:
其中,为其他用户的用户u″在底层用户之间的传播方向上的分配比例。
在步骤S31中,CG-CI数值表以及OTU-CI数值表经过第一次更新后,根据下式(14)获得全部意见领袖分配给传播网络其他两层的综合指标数值总额
在本发明的一个实施例中,在作为已知条件的意见领袖研究中,已经将意见领袖分为了可信意见领袖与不可信意见领袖,可直接作为图2中待细分区域①的分类依据。去交集核心群体、其他用户的分类依据是CG-CI数值表和OTU-CI数值表,为了对用户进行更加细致的分类,所述步骤S5包括:
将去交集核心群体、其他用户内各个用户的综合指标数值降序排序;
获得去交集核心群体-综合指标数值表的综合指标数值总和以及其他用户-综合指标数值表中的综合指标数值总和;
设定不大于1的一个或多个分类比例;
按照分类比例从小到大的顺序将去交集核心群体和其他用户分成多个群体,包括:去交集核心群体的第一类群体为排序后去交集核心群体-综合指标数值表中累加综合指标数值达到综合指标数值总和第一分类比例的综合指标数值最大值对应用户与第一交界用户之间的用户,其中,不包含第一交界用户;第二类群体为从第一交界用户开始继续累加综合指标数值达到综合指标数值总和第二分类比例的第一交界用户和第二交界用户之间的用户,其中,不包含第二交界用户;重复上述步骤,直到得到最后两个交界用户之间的用户,将最后交界用户与其余为参与数值累加的用户作为最后一类用户;以此类推得到其他用户的分群。
优选地,设定不大于1的两个分类比例,分别将去交集核心群体和其他用户分成三类。
在一个可选实施例中,所述两个分类比例分别30%和70%,具体地,将CG群体内的用户和OTU群体内的用户按照数值分别分为三类。分类的步骤如下:
(1)将去交集核心群体、其他用户内各个用户的综合指标数值降序排序;
(2)令CG-CI数值表和OTU-CI数值表中的分配数值总额分别为和从各个用户之中的最大值开始从大到小地累加数值,当CG-CI数值表和OTU-CI数值表的累加数值分别达到和时,最大值对应用户与交界用户之间的用户(不包含交界用户)被分为第一类;
(3)从步骤(2)中的交界用户开始继续累加数值,当CG-CI数值表和OTU-CI数值表的累加数值分别达到和时,从步骤(2)中的交界用户到当前步骤中的交界用户之间的用户(包含步骤(2)中的交界用户,不包含当前步骤中的交界用户)被分为第二类;
(4)CG-CI数值表和OTU-CI数值表中,步骤(3)中的交界用户与其余未参与数值累加的用户,被分类第三类。
因此,根据CG-CI数值表和OTU-CI数值表,待细分区域②和待细分区域③被分别分成了三类。根据待细分区域①、②、③的分类情况,将待细分区域①,即意见领袖分为A1、A2两类;将待细分区域②,即去交集核心群体分为B1、B2、B3共三类;将待细分区域③,即其他用户分为C1、C2、C3共三类。具体的分类情况示意图如图6所示,根据参与人群分类的结果,本发明可实现将参与人群分类结果分为A1、A2、B1、B2、B3、C1、C2、C3共8个级别。
本发明针对目前热点事件参与人群分类的研究十分欠缺,而且已有的基于意见领袖识别结果的分类方式细致程度很低的问题,提出了基于核心群体挖掘和意见领袖识别结果的参与人群分类方法。通过将平面的传播网络化为分层的传播网络,并构建数据模型,在分层传播网络中以传播情况为依据分配意见领袖的综合指标,得到每一个用户所分配到的数值,并且以该数值为依据进行了参与人群分类。该方法将热点事件传播网络的参与人群分成了8个类别,不仅开拓了参与人群分类方法,也扩充了已有研究中的分类等级数,使得参与人群的划分得以更加细致。
图7是本发明所述基于核心群体挖掘和意见领袖识别结果的分群系统的构成框图,如图7所示,所述分群系统包括:
类别划分模块10,将传播网络中的所有用户分为三个类别,第一类别为意见领袖识别结果中的意见领袖,第二类别为核心群体挖掘结果的核心群体中去除与意见领袖有交集的用户后的去交集核心群体,第三类别为所有用户中去除第一类别和第二类别后的其他用户;
分层传播网络模型构建模块20,根据类别划分模块10划分的三个类别构建分层传播网络模型,其中,顶层的节点为第一类别的意见领袖中的用户,中间层的节点为第二类别的去交集核心群体中的用户,底层的节点为其他用户,用户之间传播行为作为对应节点之间的路径,用户之间每发生转发或评论一次表示传播了一次;
综合指标数值表构建模块30,根据传播行为根据公式(1)至(3)获得中间层和底层用户的不同传播方向的不同综合指标值,根据在中间层内部传播的用户及其综合指标值构建去交集核心群体-综合指标数值表,根据在底层内部传播的用户及其综合指标值构建其他用户-综合指标数值表;
分群模块40,将意见领袖分为可信意见领袖和不可信意见领袖;将去交集核心群体、其他用户内用户分别按照去交集核心群体-综合指标数值表和其他用户-综合指标数值表进行分群。
在一个可选实施例中,所述综合指标数值表构建模块30包括:
第一更新单元31,通过意识领袖的综合指标数值根据公式(5)获得去交集核心群体的每个用户在从顶层用户向中间层用户的传播方向上的综合指标数值,通过意识领袖的综合指标数值根据公式(7)获得其他用户的每个用户在从顶层用户向底层用户的传播方向上的综合指标数值;
筛选单元32,筛除综合指标数值为0的其他用户中的用户;
第二更新单元33,根据公式(9)获得去交集核心群体的每个用户在从中间层用户向底层用户的传播方向上的综合指标数值;
第三更新单元34,根据公式(11)获得去交集核心群体的每个用户在中间层用户之间的传播方向上的综合指标数值,根据公式(13)获得其他用户的每个用户在底层用户之间的传播方向上的综合指标数值。
在一个可选实施例中,所述分群模块40包括:
排序单元41,将去交集核心群体、其他用户内各个用户的综合指标数值降序排序;
求和单元42,获得去交集核心群体-综合指标数值表的综合指标数值总和以及其他用户-综合指标数值表中的综合指标数值总和;
分类比例设定单元43,设定不大于1的一个或多个分类比例;
分群单元44,按照分类比例从小到大的顺序将去交集核心群体和其他用户分成多个群体。
在本发明的一个具体实施例中:
实验硬件条件设置如下:
算法程序在台式机运行,配置为Intel(R)Core(TM)i5-2400CPU@3.10GHz,4.00GBRAM,64位windows操作系统。
本实例的实验数据为某一事件在新浪微博中于2017年9月12日至9月27日的全部微博、评论、转发数据,16天的数据共计包含节点数量99424个,将转发传播关系和评论传播关系进行合并,共计有119834组。核心群体挖掘结果在99328个节点中得出了包含17528个节点的核心群体,意见领袖识别结果在99328个节点中得出了100个意见领袖,其中可信意见领袖有77个,不可信意见领袖有23个。核心群体与意见领袖的交集用户有20个,因此去交集核心群体中的节点个数为17508个。其他用户的节点个数为81816个。
经过数值表第一次更新,的非零值数量占去交集核心群体内用户数量的比例约为93.60%,的非零值数量占其他用户数量的比例约为12.51%。并且经过计算得出,综合指标数值总额CITVD的数值约为16375.51。
根据数值表第一次更新的结果可知,的数值为12.51%。经过数值表第二次更新,CG-CI数值表中数值发生变化的用户数为31个,对应的变化总数值约为3.36;OTU-CI数值表中数值发生变化的用户数为347个,对应的变化总数值约为3.35。
经过数值表第三次更新,CG-CI数值表中数值发生变化的用户数为512个,对应的变化总数值约为1.56;OTU-CI数值表中数值发生变化的用户数为2516个,对应的变化总数值约为9.94。最终,CG-CI数值表中数值为0的用户共有876个,非零最小值为0.000335,最大值为9.838918;OTU-CI数值表中数值为0的用户共有69019个,非零最小值为4.90E-06,最大值为5.058155。数值表第三次更新后,CG-CI数值表与OTU-CI数值表的数值分布情况分别如图8和图9所示,从图8可以看出,46.88%的去交集核心群体用户的综合指标数值在[0,0.5)范围内,43.38%的去交集核心群体用户的综合指标数值在[0.5,1)范围内,9.74%的去交集核心群体用户的综合指标数值在[1,10)范围内,从图9可以看出,87.49%的其他用户的综合指标数值在[0,0.1)范围内,8.37%的其他用户的综合指标数值在[0.1,0.5)范围内,3.06%的其他用户的综合指标数值在[0.5,1)范围内,1.08%的其他用户的综合指标数值在[1,5.1)范围内。
本实例根据CG-CI数值表与OTU-CI数值表中的数值,对在新浪微博中于2017年9月12日至9月27日参与某一事件的共计99424个节点进行参与人群分类。
经过分类,类别B1与类别B2的交界用户分配到的综合指标数值为0.932432488,类别B2与类别B3的交界用户分配到的综合指标数值为0.510243895;类别C1与类别C2的交界用户分配到的综合指标数值为0.864413265,类别C2与类别C3的交界用户分配到的综合指标数值为0.380321693。分类结果中,传播网络中类别为A1的用户有77个,类别为A2的用户有23个,类别为B1的用户有2207个,类别为B2的用户有6668个,类别为B3的用户有8633个,类别为C1的用户有1291个,类别为C2的用户有4274个,类别为C3的用户有76251个。
分类后B1、B2、B3类中的用户占去交集核心群体内用户的分布情况如图10所示,分类后C1、C2、C3类中的用户占其他用户的分布情况如图11所示。
本发明提出的基于核心群体挖掘和意见领袖识别结果的分群方法及系统基于核心群体挖掘和意见领袖识别的结果而实现的。它们均为已有的研究成果,这里作为已知条件,辅助实现参与人群分类。其中,以传播网络中的所有用户为研究对象,核心群体挖掘的结果为社区分群后经数据挖掘得出的核心群体用户;意见领袖识别的结果为构建指标并最优化合成为综合指标后,对综合指标进行排序而选取的一定数量的数值较大的用户。并且,对意见领袖识别结果进行评估后。基于上述已知条件,本发明将意见领袖划分为了可信意见领袖与不可信意见领袖,将平面的传播网络化为了三层传播网络,并运用各层之间的传播关系进行三次综合指标的数值分配,最后以数值分配的结果为依据进行参与人群分类。
综上所述,参照附图以示例的方式描述了根据本发明提出的基于核心群体挖掘和意见领袖识别结果的分群方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的系统及方法,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。
Claims (10)
1.一种基于核心群体挖掘和意见领袖识别结果的分群方法,其特征在于,包括:
将传播网络中的所有用户分为三个类别,第一类别为意见领袖识别结果中的意见领袖,第二类别为核心群体挖掘结果的核心群体中去除与意见领袖有交集的用户后的去交集核心群体,第三类别为所有用户中去除第一类别和第二类别后的其他用户;
根据上述三个类别构建分层传播网络模型,其中,顶层的节点为第一类别的意见领袖中的用户,中间层的节点为第二类别的去交集核心群体中的用户,底层的节点为其他用户的用户,用户之间传播行为发生的次数作为对应节点之间的路径;
通过传播行为发生的次数根据下式(1)至(3)获得中间层和底层的用户的不同传播方向的不同综合指标值,构建去交集核心群体-综合指标数值表及其综合指标值构建其他用户-综合指标数值表,
其中,a、b为传播网络层数的索引,u为a层的一个用户,na为a层的用户总数,u′为b层的一个用户,a-b为传播方向,为用户u与用户u′之间在传播方向a-b上的传播行为,为a层用户u的综合指标数值,其中,顶层的意识领袖的综合指标数值为已知;
将意见领袖分为可信意见领袖和不可信意见领袖;
将去交集核心群体、其他用户内用户分别按照去交集核心群体-综合指标数值表和其他用户-综合指标数值表进行分群。
2.根据权利要求1所述的分群方法,其特征在于,所述传播网络的传播方向包括:从顶层用户向中间层用户的传播,中间层用户之间的传播,从中间层用户向底层用户的传播,从顶层用户向底层用户传播以及底层用户之间的传播。
3.根据权利要求2所述的分群方法,其特征在于,按照传播方向分层次对不同层的用户的综合指标数值进行更新,包括:
通过意识领袖的综合指标数值根据下式(5)获得去交集核心群体的每个用户在从顶层用户向中间层用户的传播方向上的综合指标数值,通过意识领袖的综合指标数值根据下式(7)获得其他用户的每个用户在从顶层用户向底层用户的传播方向上的综合指标数值,
其中,CIu表示意识领袖u的综合指标数值,O表示顶层,CG表示中间层,OTU表示底层,nop为意识领袖总数,为去交集核心群体中用户u′在传播方向O-CG上的综合指标数值,为其他用户中用户u′在传播方向O-OTU上的综合指标数值;
筛除综合指标数值为0的其他用户中的用户;
根据下式(9)获得去交集核心群体的每个用户在从中间层用户向底层用户的传播方向上的综合指标数值,
其中,notu其他用户的用户数量,为在传播方向O-OTU上综合指标数值不为0的其他用户的用户数量,ncg为去交集核心群体的用户总数,为去交集核心群体的用户u′向其他用户的用户u″的传播行为,为去交集核心群体的用户u′向其他用户的总传播行为;
根据下式(11)获得去交集核心群体的每个用户在中间层用户之间的传播方向上的综合指标数值
其中,为中间层的用户u″′在中间层用户之间的传播方向上的综合指标数值,为去交集核心群体的一个用户u″向另一个用户u″′的传播行为;
根据下式(13)获得其他用户的每个用户在底层用户之间的传播方向上的综合指标数值
其中,为底层的用户u″′在底层用户之间的传播方向上的综合指标数值,为其他用户中的一个用户u″向另一个用户u″′的传播行为。
4.根据权利要求3所述的分群方法,其特征在于,所述获得去交集核心群体的每个用户在中间层用户之间的传播方向上的综合指标数值和获得其他用户的每个用户在底层用户之间的传播方向上的综合指标数值的方法中,另一个用户u″′的综合指标数值根据各层的一个用户u″向层内的其余用户的总传播行为或设定所述一个用户的分配比例,所述总传播行为越大,所述分配比例越高。
5.根据权利要求4所述的分群方法,其特征在于,所述去交集核心群体的每个用户在中间层用户之间的传播方向上的分配比例为:
其中,为去交集核心群体的用户u″在中间层用户之间的传播方向上的分配比例;
所述其他用户的每个用户在底层用户之间的传播方向上的分配比例为:
其中,为其他用户的用户u″在底层用户之间的传播方向上的分配比例。
6.根据权利要求1所述的分群方法,其特征在于,所述将去交集核心群体、其他用户内用户分别按照去交集核心群体-综合指标数值表和其他用户-综合指标数值表进行分群的方法包括:
将去交集核心群体、其他用户内各个用户的综合指标数值降序排序;
获得去交集核心群体-综合指标数值表的综合指标数值总和以及其他用户-综合指标数值表中的综合指标数值总和;
设定不大于1的一个或多个分类比例;
按照分类比例从小到大的顺序将去交集核心群体和其他用户分成多个群体,包括:去交集核心群体的第一类群体为排序后去交集核心群体-综合指标数值表中累加综合指标数值达到综合指标数值总和第一分类比例的综合指标数值最大值对应用户与第一交界用户之间的用户,其中,不包含第一交界用户;第二类群体为从第一交界用户开始继续累加综合指标数值达到综合指标数值总和第二分类比例的第一交界用户和第二交界用户之间的用户,其中,不包含第二交界用户;重复上述步骤,直到得到最后两个交界用户之间的用户,将最后交界用户与其余为参与数值累加的用户作为最后一类用户;以此类推得到其他用户的分群。
7.根据权利要求1所述的分群方法,其特征在于,设定不大于1的两个分类比例,分别将去交集核心群体和其他用户分成三类。
8.一种基于核心群体挖掘和意见领袖识别结果的分群系统,其特征在于,包括:
类别划分模块,将传播网络中的所有用户分为三个类别,第一类别为意见领袖识别结果中的意见领袖,第二类别为核心群体挖掘结果的核心群体中去除与意见领袖有交集的用户后的去交集核心群体,第三类别为所有用户中去除第一类别和第二类别后的其他用户;
分层传播网络模型构建模块,根据类别划分模块划分的三个类别构建分层传播网络模型,其中,顶层的节点为第一类别的意见领袖中的用户,中间层的节点为第二类别的去交集核心群体中的用户,底层的节点为其他用户,用户之间传播行为发生的次数作为对应节点之间的路径;
综合指标数值表构建模块,通过传播行为发生的次数根据下式(1)至(3)获得中间层和底层用户的不同传播方向的不同综合指标值,构建去交集核心群体-综合指标数值表及其综合指标值构建其他用户-综合指标数值表,
其中,a、b为传播网络层数的索引,o为a层的一个用户,na为a层的用户总数,u′为b层的一个用户,a-b为传播方向,为用户u与用户u′之间在传播方向a-b上的传播行为,为a层用户u的综合指标数值,其中,顶层的意识领袖的综合指标数值为已知;
分群模块,将意见领袖分为可信意见领袖和不可信意见领袖;将去交集核心群体、其他用户内用户分别按照去交集核心群体-综合指标数值表和其他用户-综合指标数值表进行分群。
9.根据权利要求8所述的基于核心群体挖掘和意见领袖识别结果的分群系统,其特征在于,所述综合指标数值表构建模块包括:
第一更新单元,通过意识领袖的综合指标数值根据下式(5)获得去交集核心群体的每个用户在从顶层用户向中间层用户的传播方向上的综合指标数值,通过意识领袖的综合指标数值根据下式(7)获得其他用户的每个用户在从顶层用户向底层用户的传播方向上的综合指标数值,
其中,CIu表示意识领袖u的综合指标数值,O表示顶层,CG表示中间层,OTU表示底层,nop为意识领袖总数,为去交集核心群体中用户u′在传播方向O-CG上的综合指标数值,为其他用户中用户u′在传播方向O-OTU上的综合指标数值;
筛选单元,筛除综合指标数值为0的其他用户中的用户;
第二更新单元,根据下式(9)获得去交集核心群体的每个用户在从中间层用户向底层用户的传播方向上的综合指标数值,
其中,notu其他用户的用户数量,为在传播方向O-OTU上综合指标数值不为0的其他用户的用户数量,ncg为去交集核心群体的用户总数,为去交集核心群体的用户u′向其他用户的用户u″的传播行为,为去交集核心群体的用户u′向其他用户的总传播行为;
第三更新单元,根据下式(11)获得去交集核心群体的每个用户在中间层用户之间的传播方向上的综合指标数值,根据下式(13)获得其他用户的每个用户在底层用户之间的传播方向上的综合指标数值
其中,为中间层的用户u″′在中间层用户之间的传播方向上的综合指标数值,为去交集核心群体的一个用户u″向另一个用户u″′的传播行为;为底层的用户u″′在底层用户之间的传播方向上的综合指标数值,为其他用户中的一个用户u″向另一个用户u″′的传播行为。
10.根据权利要求8所述的基于核心群体挖掘和意见领袖识别结果的分群系统,其特征在于,所述分群模块包括:
排序单元,将去交集核心群体、其他用户内各个用户的综合指标数值降序排序;
求和单元,获得去交集核心群体-综合指标数值表的综合指标数值总和以及其他用户-综合指标数值表中的综合指标数值总和;
分类比例设定单元,设定不大于1的一个或多个分类比例;
分群单元,按照分类比例从小到大的顺序将去交集核心群体和其他用户分成多个群体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031966.4A CN109828998B (zh) | 2019-01-14 | 2019-01-14 | 基于核心群体挖掘和意见领袖识别结果的分群方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031966.4A CN109828998B (zh) | 2019-01-14 | 2019-01-14 | 基于核心群体挖掘和意见领袖识别结果的分群方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109828998A true CN109828998A (zh) | 2019-05-31 |
CN109828998B CN109828998B (zh) | 2021-05-25 |
Family
ID=66860883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910031966.4A Active CN109828998B (zh) | 2019-01-14 | 2019-01-14 | 基于核心群体挖掘和意见领袖识别结果的分群方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109828998B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704585A (zh) * | 2021-08-25 | 2021-11-26 | 广东工业大学 | 一种焦点小组成员筛选方法、装置、终端及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653568B2 (en) * | 2004-01-13 | 2010-01-26 | GfK U.S. Holdings, Inc. | System and method of identifying individuals of influence |
CN103729467A (zh) * | 2014-01-16 | 2014-04-16 | 重庆邮电大学 | 一种社交网络中的社区结构发现方法 |
CN104657418A (zh) * | 2014-12-18 | 2015-05-27 | 北京航空航天大学 | 一种基于隶属度传播的复杂网络模糊社团挖掘方法 |
CN105095419A (zh) * | 2015-07-15 | 2015-11-25 | 哈尔滨工程大学 | 一种面向微博特定类型用户的信息影响力最大化方法 |
CN105117422A (zh) * | 2015-07-30 | 2015-12-02 | 中国传媒大学 | 智能社交网络推荐系统 |
-
2019
- 2019-01-14 CN CN201910031966.4A patent/CN109828998B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653568B2 (en) * | 2004-01-13 | 2010-01-26 | GfK U.S. Holdings, Inc. | System and method of identifying individuals of influence |
CN103729467A (zh) * | 2014-01-16 | 2014-04-16 | 重庆邮电大学 | 一种社交网络中的社区结构发现方法 |
CN104657418A (zh) * | 2014-12-18 | 2015-05-27 | 北京航空航天大学 | 一种基于隶属度传播的复杂网络模糊社团挖掘方法 |
CN105095419A (zh) * | 2015-07-15 | 2015-11-25 | 哈尔滨工程大学 | 一种面向微博特定类型用户的信息影响力最大化方法 |
CN105117422A (zh) * | 2015-07-30 | 2015-12-02 | 中国传媒大学 | 智能社交网络推荐系统 |
Non-Patent Citations (4)
Title |
---|
彭丽徽等: "基于灰色关联分析的网络舆情意见领袖识别及影响力排序研究-以新浪微博"8·12 滨海爆炸事件"为例", 《情报理论与实践》 * |
聂龑等: "基于用户相对传播能力的分层网络传播模型", 《科技管理研究》 * |
覃志华: "新媒体传播社交网络分层建模", 《信息与电脑》 * |
陈蕾夷: "智能化用户分群模型的研究与实现", 《电脑知识与技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704585A (zh) * | 2021-08-25 | 2021-11-26 | 广东工业大学 | 一种焦点小组成员筛选方法、装置、终端及存储介质 |
CN113704585B (zh) * | 2021-08-25 | 2022-06-10 | 广东工业大学 | 一种焦点小组成员筛选方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109828998B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105373480B (zh) | 优化ABTest系统分流的方法及系统 | |
CN110322356B (zh) | 基于hin挖掘动态多模式的医保异常检测方法及系统 | |
Trojan et al. | Prioritising alternatives for maintenance of water distribution networks: A group decision approach | |
Ding et al. | A new hierarchical ranking aggregation method | |
Lizardo et al. | The end of symbolic exclusion? The rise of “categorical tolerance” in the musical tastes of Americans: 1993–2012 | |
Brown et al. | On the Implementation of Place Utility and Related Concepts: The Intra-Urban Migration Case 1 | |
CN110162692A (zh) | 用户标签确定方法、装置、计算机设备和存储介质 | |
CN110390491A (zh) | 一种公路工程多目标施工计划确定方法 | |
Zhang et al. | Identification and quantification of node criticality through EWM–TOPSIS: a study of Hong Kong’s MTR system | |
CN109828998B (zh) | 基于核心群体挖掘和意见领袖识别结果的分群方法及系统 | |
Boschi et al. | Thresholding functional connectivity matrices to recover the topological properties of large-scale neuronal networks | |
Sugianto et al. | K-Means Algorithm For Clustering Poverty Data in Bangka Belitung Island Province | |
CN106354886A (zh) | 在推荐系统中利用潜在邻居关系图筛选最近邻居的方法 | |
CN113780656B (zh) | 基于聚类解耦的复杂产品多源变更传播影响力预测方法 | |
CN106611339A (zh) | 种子用户筛选方法、产品的用户影响力评价方法及装置 | |
Tóth et al. | Inventor collaboration and its persistence across European regions | |
Ben-Yashar et al. | Symmetric and asymmetric committees | |
CN106095761A (zh) | 一种多准则目标决策方法及装置 | |
CN108898506A (zh) | 一种基于多标签传播的重叠社团挖掘方法 | |
Kung | Sorting out single-crossing preferences on networks | |
Jaramillo et al. | The structure of segregation in co-authorship networks and its impact on scientific production | |
Zhang et al. | Unfairness in distributed graph frameworks | |
Sakr et al. | Research Article Distributed Anomaly Detection Over Big Data | |
CN111767448B (zh) | 一种基于扩散树的信息传播频繁模式挖掘方法及系统 | |
KR100913256B1 (ko) | 다중 링크를 형성하는 정보 네트워크에서 링크 관계에 따른대상 평가 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |