CN106570188A - 一种多主题消息传播中结构洞节点的挖掘方法 - Google Patents
一种多主题消息传播中结构洞节点的挖掘方法 Download PDFInfo
- Publication number
- CN106570188A CN106570188A CN201611001739.XA CN201611001739A CN106570188A CN 106570188 A CN106570188 A CN 106570188A CN 201611001739 A CN201611001739 A CN 201611001739A CN 106570188 A CN106570188 A CN 106570188A
- Authority
- CN
- China
- Prior art keywords
- node
- theme
- structural hole
- community
- under
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013077 scoring method Methods 0.000 claims abstract description 8
- 239000000203 mixture Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 230000000644 propagated effect Effects 0.000 claims description 6
- 239000012467 final product Substances 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 7
- 238000009412 basement excavation Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000003012 network analysis Methods 0.000 description 4
- 238000007630 basic procedure Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公布了一种多主题消息传播中结构洞节点的挖掘方法,以网络中传递的消息作为输入数据,包括:先令各节点的结构洞分数为零;生成综合网络拓扑结构和各主题下的子图;对各主题下的子图分别进行社区划分;通过多主题打分方法对各个节点进行多主题结构洞打分,得到各个节点的结构洞分数;输出结构洞分数最高的k个节点,作为结构洞节点。本发明提供方法能够准确高效的挖掘出有价值的结构洞节点,解决多主题下的结构洞挖掘问题;在保持较高的时间效率基础上,显著提升了结构洞节点挖掘结果的准确率;且综合考虑多主题下节点对消息传播的影响。
Description
技术领域
本发明涉及社交网络分析领域,尤其涉及一种在多主题消息传播中起到重要作用的结构洞节点的挖掘方法。
背景技术
网络平台的流行,催生出人们对社交网络分析的极大兴趣,研究如何挖掘结构洞节点是其中的关键领域。结构洞节点即连接不同社区的节点;它掌握多个社区的信息动向、控制信息在不同社区之间的传播,因而发挥重要作用。例如,若某位研究人员是结构洞节点,他可以将一个与之相连社区的技术应用到另一个社区的研究问题中,或综合几个社区的研究思路来谋求创新。良好的分析和利用已有的主题信息和网络拓扑结构信息,是挖掘结构洞节点的有效途径,这对于后续的社交网络分析领域(如,社区发现及网络中边类型的预测)有着重要的帮助。
现有结构洞挖掘领域的研究基于网络拓扑结构分析,均没有考虑到传播内容的主题分布,对传播内容不敏感。现有研究中,或对于经过节点的最短路径计数,在降序排序中选择前k个节点作为结构洞节点;或对于节点不直接相连的邻居节点对数进行计数,选择计数值最高的前k个节点作为结构洞节点;或使用Google的PageRank算法对每个节点的重要性进行评估,选择PageRank得分最高的前k个节点作为结构洞节点;亦有研究将参与社区数量、最小切等因素和方法考虑在内。然而,现有的传统结构洞挖掘模型只考虑了拓扑结构以及与拓扑结构相关的社交理论,往往忽视了社交主题的影响,没有综合考虑多主题的结构洞节点挖掘,无法在社交网络中挖掘到更有价值的信息,难以做到更加贴近真实环境。
发明内容
为了克服上述现有技术的不足,本发明提供一种多主题下的结构洞节点的挖掘方法,通过多主题打分方法对节点进行结构洞打分评估,由此得到的分数最高的k个节点,即为所求的挖掘结果。本发明提供方法能够准确高效的挖掘出有价值的结构洞节点,解决多主题下的结构洞挖掘问题,满足实际应用需求。
本发明的原理是:综合考虑多主题的结构洞节点挖掘更加贴近真实环境,能够在社交网络中挖掘到更有价值的信息。因此,本发明考虑到社交网络中信息多主题的因素,提出一套多主题下结构洞节点挖掘方法。依据结构洞的特点,它能够在多个社区之间的信息传播中发挥重要作用;在多主题的条件下,哪些节点更能为与之关联社区提供新颖独特、有价值的信息,则更加具有结构洞所体现的意义;而消息的新颖和价值,往往由于人们之前对它了解和接触的并不多,例如学科交叉所带来的优势。本发明进一步分析多主题条件下影响结构洞打分的三项因素,帮助挖掘出一批与传统方法不同的、更加具有现实意义和价值的结构洞节点。本发明首先将各节点结构洞分数初始化为零;先依据原始输入数据生成综合网络拓扑结构及各主题下的子图;对各主题下的子图分别进行社区划分;再通过多主题打分方法对节点进行结构洞打分评估,由此得到的分数最高的k个节点,即为所求的挖掘结果。该方法能够准确高效的挖掘出有价值的结构洞节点,解决多主题下的结构洞挖掘问题,满足实际应用需求。
本发明提供的技术方案是:
一种多主题消息传播中的结构洞节点的挖掘方法,所述方法以网络中传递的消息作为输入数据(即消息发布节点、被转发节点、以及消息内容),根据节点对多主题在社区间传播的促进作用和贡献程度进行打分,从而得到各节点的结构洞分数;具体包括如下步骤:
1)首先令各节点的结构洞分数H(v)为零;
2)生成综合网络拓扑结构G=(V,E)和各主题t下的子图Gt=(V,Et);
3)对各主题t下的子图分别进行社区划分,得到一组社区的集合
4)通过多主题打分方法对各个节点进行多主题结构洞打分,得到其结构洞分数H(v);
5)输出结构洞分数最高的k个节点,作为结构洞节点。
针对上述多主题下的结构洞节点挖掘方法,进一步地,
步骤2)所述生成综合网络拓扑结构及各主题下子图的方法,具体包括如下步骤:
21)利用隐含狄利克雷分布模型(Latent Dirichlet Allocation,简称LDA),将每条消息内容分解为主题向量其中表示该条消息内容在ti主题上的分量;
22)对于每条消息k,取其在网络上被转发的次数rk作为该消息的影响力衡量指标;
23)计算每对节点a与b之间的边上信息:其中,分量包含边(a,b)在ti主题上的边权和影响力信息,具体为:计算边上经过的所有消息在ti主题下的主题分量之均值,即体现边(a,b)在ti主题下的边权,称为 度量边(a,b)上经过的所有消息k在ti主题下的影响力,即
24)每对节点经过上述步骤22)-23)的处理,得到综合网络拓扑结构G=(V,E),其中V为节点集,E为e组成的边集;
25)生成主题ti下的子图其中由各条边在ti上的分量组成,即
步骤3)所述对各主题下的网络子图进行社区划分的方法,具体包括如下步骤:
31)计算V所有可能的子集,作为潜在社区S;
为减少时间消耗,可设置至少包含节点个数的阈值;称这样的子集为潜在社区S;
针对每个主题ti,执行操作32)~36),得到子图上的一组社区:
32)对每个潜在社区S,计算子图中,S包含边的个数(仅考虑边权分量大于阈值q的边,q一般取0.005~0.01之间),记为ms;
33)对每个潜在社区S,计算子图中,S向外伸出的边的个数(仅考虑边权分量大于阈值q的边,q一般取0.005~0.01之间),即边的一个顶点在S中,一个顶点不在S中,记为cs;
34)计算跨界边比例f(S),即跨S的边在S所涉及的所有边中所占的比例;该值越大,S成为社区的可能性越低;
35)以1/f(S)作为潜在社区S成为社区的评分依据,对所有潜在社区进行降序排名;
36)选择排名前l个潜在社区,即得子图上的一组社区
式2中,为主题ti下一组社区的集合;为其中的一个社区;l一般取潜在社区总数的5%~10%;
由此得到各主题下的网络子图相对应的社区集合;
步骤4)所述对节点进行多主题结构洞打分的方法,具体包括如下步骤:
401)首先,计算社区在主题ti上的活跃度(或称贡献度)该指标反映若作为消息供源,提供信息的可靠性和质量:
式3中,在步骤23)中计算,表示边上经过的所有消息在ti主题下的影响力;
402)将各主题ti下满足式4的社区记为典型社区:
403)将各主题ti下满足式5的边记为弱边:
式5中,在步骤23)中计算,表示ti主题下的边权;
404)遍历每个节点的连接情况:若节点a既通过边e连接t1主题下典型社区也通过边e′连接t2主题下典型社区且连接a与的边e在分量上是弱边,则认为e上传播的关于t2的消息,是经由a对的影响;将上述情况记为a的一个加分项,即对应的t1、t2、的信息保存为一项;作为消息供源,其活跃度影响a作为结构洞节点的价值;
405)e上传播的t2消息的影响力为亦体现a的结构洞价值,在步骤23)中计算;
406)针对每一节点a,404)中所述每个加分项将对a在t2主题下的结构洞分数H(a,t2)贡献的加分值;
407)a在t2主题下的结构洞分数H(a,t2)先赋为406)中a的所有加分值之和;
同于步骤404)-407),逐个处理V中各个节点;
408)考虑到社区与有重叠节点,此类节点所发挥的结构洞成分与a构成竞争;对于a的每个加分值进行更新处理,即:
式6中,h表示社区与重叠部分的节点,H(h,t2)表示节点h在t2主题下的结构洞分数;
409)使用新的加分值tmp′更新a在t2主题下的结构洞分数H(a,t2),更新后的H(a,t2)即为所有tmp′之和;
410)同于步骤408)-409),逐个处理V中各个节点,得到节点在各主题下的结构洞得分;节点在所有主题上的结构洞总分为:
其中T为所有主题的集合;上式反映在某一主题上能力突出的节点、比各主题能力平平的节点更能获得较高的结构洞分数;
411)筛选得分最高的k个节点,即为挖掘出的结构洞节点;k一般取总节点数的1%~3%。当k的取值偏大时,召回率较高、准确率偏低;当k的取值偏小时,准确率较高、召回率偏低。
与现有技术相比,本发明的有益效果是:
本发明提供一种多主题下的结构洞节点的挖掘方法,通过多主题打分方法对节点进行结构洞打分评估,由此得到的分数最高的k个节点,即为所求的挖掘结果。本发明提供方法能够准确高效的挖掘出有价值的结构洞节点,解决多主题下的结构洞挖掘问题;在保持较高的时间效率基础上,显著提升了结构洞节点挖掘结果的准确率,可以成为真实世界中挖掘结构洞节点的有效手段;且综合考虑多主题下,节点对消息传播的影响,相比于传统模型仅仅基于网络拓扑结构进行挖掘,本方法得到的结构洞节点更加具有现实意义和价值。
附图说明
图1是本发明提供的结构洞节点挖掘方法的整体流程框图。
图2是本发明生成综合网络拓扑结构及各主题下子图的流程框图。
图3是本发明的对各主题下的网络子图进行社区划分的流程框图。
图4是本发明的多主题下结构洞打分的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种多主题下的结构洞节点挖掘方法,图1是本发明提供方法的整体流程图,首先将各节点结构洞分数初始化为零;接着依据原始输入数据,生成综合网络拓扑结构及各主题下的子图;再对各主题下的子图分别进行社区划分;进一步地,基于多主题打分方法对节点进行结构洞打分评估;由此得到分数最高的k个节点,即结构洞节点。具体包括如下步骤:
1)将各节点结构洞分数初始化为零
因为本方法主要针对大规模社交网络的结构洞节点挖掘问题,故首先将所有节点的结构洞分数初始化为0;经过后续计算,最终选择分数最高的k个节点作为输出结果。
2)生成综合网络拓扑结构,及各主题下子图
本步骤为后序社区划分及计算结构洞分数提供基础数据。简单来说,首先利用主题模型对每条消息内容进行分解;计算每对节点边上的信息;合成整个网络的综合拓扑结构;并进一步拆分为各个主题下的子图。
图2是本发明的生成综合网络拓扑结构及各主题下子图的流程图。基本流程包括如下过程:
21)利用主题模型,将每条消息内容分解为主题向量
22)计算每条消息的影响力;
23)计算每对节点之间的边上信息:具体分为计算边权分量和边影响力分量;
24)合并每对节点的边上信息,得到综合网络拓扑结构G=(V,E);
25)基于综合网络拓扑结构拆分出各主题下的子图;
3)对各主题下的网络子图进行社区划分
由于后续结构洞打分过程中,需要提取到与节点相连的社区以及计算社区在某一主题上的活跃度,以便评估节点对于社区之间消息传递所能发挥的作用,因此需要首先进行社区的划分。简单来说,首先计算所有潜在社区内部包含的边数、以及向外伸出的边数,计算跨界边比例;并以跨界边比例的倒数作为潜在社区被选为社区的排名依据,选定前l个潜在社区并记录每个潜在社区所包含的节点,至此社区划分完成。
图3是本发明的根据拓扑结构划分各子图中社区的流程图。基本流程包括如下过程:
31)计算V所有可能的潜在社区S;
32)针对每个子图下的每个潜在社区S,计算S包含边的个数ms;
33)针对每个子图下的每个潜在社区S,计算S向外伸出的边的个数cs;
34)计算跨界边比例f(S);
35)根据1/f(S)对所有潜在社区进行降序排名;
36)选择前l个潜在社区,即得子图上的一组社区
通过上述方法,可以根据拓扑结构对各个子图进行社区划分,为后续步骤提供支撑。
4)对节点进行多主题结构洞打分
对节点进行多主题结构洞打分时,即需考虑节点对于多主题消息在社区间传播所起到的促进作用,也需考虑同类结构洞节点之间的竞争关系,综合进行打分。这一步是本专利的核心,体现本方法与传统的基于拓扑结构进行结构洞挖掘的不同。本方法实则通过分析和利用原始数据中消息的内容,追溯节点对于多主题消息在社区间传播所发挥的作用,从而更加准确的挖掘结构洞节点。
图4是本发明的对节点进行多主题结构洞打分的流程图。对节点进行结构洞打分的基本流程包括如下过程:
41)计算社区在主题ti上的活跃度
42)标记各主题ti下的典型社区
43)标记各主题ti下的弱边;
44)遍历每个节点的连接情况,即:节点同时连接两个不同主题下的典型社区、且与其中之一的连边上存在另一主题的弱边分量;
45)针对每一节点a,计算44)中所述每个加分项对H(a,t2)贡献的加分值;
46)a在t2主题下的结构洞分数H(a,t2)先赋为a的所有加分值之和;同于步骤44)-46),逐个处理V中各个节点;
47)根据竞争规则,更新a的每个加分项的加分值,即为tmp′;
48)使用新的加分值tmp′更新a在t2主题下的结构洞分数H(a,t2);
49)同于步骤47)-48),逐个处理V中各个节点,计算各节点在各主题下的结构洞得分和节点在所有主题下的结构洞总分;
通过上述方法,可以筛选出V中得分最高的k个节点,即得到挖掘出的结构洞节点。
本发明以下实施例针对新浪微博平台,使用平台的用户作为网络节点,输入数据为每条社交平台上发布的消息内容、发布节点和被转发节点。经过LDA主题模型的分析,得到主题向量。通过本发明提供的多主题下的结构洞节点挖掘方法,提取网络拓扑结构信息、划分社区、并挖掘出结构洞节点。该平台经过多年经营,使用用户广泛,拥有海量数据资料。快速挖掘多主题下的结构洞节点,能够帮助工作人员更好的进行社交网络分析,对于研究影响力最大化、舆论控制、市场营销和广告投放等领域也有着重要作用。传统仅仅基于网络拓扑结构进行结构洞节点发掘的方法,已渐渐不适合于日趋复杂的现实世界社交平台。现采用多主题下的结构洞节点挖掘方法,以提供更准确的结构洞节点挖掘策略。
首先,利用平台接口等工具,采集并存储相关数据,例如发布用户id、被转发用户id、消息内容等信息。按照如下步骤,对各节点进行打分:
步骤一:初始化结构洞分数为零;
步骤二:利用主题模型,将每条消息内容分解为主题向量w;
主题向量其中表示该条消息内容在ti主题上的分量;例如,微软官方微博发布了一则关于新产品Surface Studio的微博,利用LDA主题模型,分解为主体向量{0.3111,0.2825,0.4064},第一个分量表示微博在生活方式主题下的比重、第二个分量表示微博在工作方式主题下的比重、第三个分量表示微博在计算机主题下的比重;
步骤三:计算每条消息的影响力;
对于每条消息k,本实施例取其在网络上被转发的次数rk作为该消息的影响力衡量指标;例如Surface Studio的微博被转发了2351次;
步骤四:计算每对节点之间的边上信息;
计算每对节点a与b之间的边上信息:其中,分量包含边(a,b)在ti主题上的情况,具体为:计算边上经过的所有消息在ti主题下的主题分量之均值,即体现边(a,b)在ti主题下的边权,称为 度量边(a,b)上经过的所有消息k在ti主题下的影响力,即例如,其中为边在生活方式主题下的信息;为边在工作方式主题下的信息;为边在计算机主题下的信息;以为例,
步骤五:合并每对节点的边上信息,得到综合网络拓扑结构;
每对节点都经过步骤四进行处理,合并得到综合网络拓扑结构G=(V,E),其中V为节点集,E为e组成的边集;例如,提取到的微博网络包括1024个节点和5301条边;
步骤六:基于综合网络拓扑结构拆分出各主题下的子图;
生成主题ti下的子图,记为其中由各条边在ti上的分量组成,即
步骤七:计算所有潜在社区S;
计算V所有可能的子集,作为潜在社区S;本实施例中,为减少时间消耗,可设置节点个数阈值(一般取3个节点以上),节点个数大于阈值的子集为潜在社区S;
步骤八:通过式1计算得到跨界边比例f(S);
跨界边比例f(S)为跨S的边在S所涉及的所有边中所占的比例;该值越大,S成为社区的可能性越低;
其中,对每个潜在社区S,计算子图中,S包含边的个数(仅考虑边权分量大于阈值q的边,q一般取0.005~0.01之间),记为ms;计算子图中,S向外伸出的边的个数(仅考虑边权分量大于阈值q的边,q一般取0.005~0.01之间),即边的一个顶点在S中,一个顶点不在S中,记为cs;
步骤九:以1/f(S)作为潜在社区S成为社区的评分依据,对所有潜在社区进行降序排名,选择前l个潜在社区,即得例如,在计算机主题下,划分得到5个社区
对各社区,采用多主题打分方法进行打分,包括以下步骤:
步骤十:计算各社区在对应主题下的活跃度;
计算社区在主题ti上的活跃度(或称贡献度)该指标反映若作为消息供源,提供信息的可靠性和质量:
式3中,在步骤四中计算,表示边上经过的所有消息在ti主题下的影响力;
步骤十一:标记各主题ti下的典型社区和弱边;
即当各主题ti下的社区满足式4(阈值一般取0.4以上):
为各主题ti下的典型社区;
即当各主题ti下的边满足式5(阈值一般取0.2以下):
为各主题ti下的弱边;
步骤十二:遍历每个节点的连接情况,标记所有可加分案例;
遍历每个节点的连接情况:若节点a既通过边e连接t1主题下典型社区也通过边e′连接t2主题下典型社区且连接a与的边e在分量上是弱边,则认为e上传播的关于t2的消息,是经由a对的影响;将上述情况记为a的一个加分项,即对应的t1、t2、的信息保存为一项;作为消息供源,其活跃度影响a作为结构洞节点的价值;例如,节点a既连接关于生活方式的典型社区、又连接关于计算机的典型社区,且连接a与生活方式下的典型社区的边在计算机主题中是弱边,可认为这条弱边上传播的关于计算机的消息是受到计算机典型社区的影响;
另外,e上传播的t2消息的影响力为亦体现a的结构洞价值,在步骤四中计算;
步骤十三:对每一节点,计算每个加分项贡献的加分值;
针对每一节点a,每个加分项对a在t2主题下的结构洞分数H(a,t2)贡献 的加分值;计算得到每个加分项贡献的加分值;
步骤十四:结构洞分数先赋为节点的所有加分值之和;
将节点的所有加分值之和作为结构洞分数;同于步骤十二、十三、十四,逐个处理V中各个节点;
步骤十五:根据两典型社区的重叠节点,按竞争规则更新节点的每个加分项的加分值;
考虑到社区与有重叠节点,此类节点所发挥的结构洞成分与a构成竞争;对于a的每个加分项进行更新处理,即:
式6中,h表示社区与重叠部分的节点,H(h,t2)表示节点h在t2主题下的结构洞分数;
步骤十六:使用新的加分值tmp′更新节点的结构洞分数H(a,t2),更新后的H(a,t2)即为所有tmp′之和;
依据步骤十五、十六,逐个计算每个节点在各主题下的结构洞得分;节点在所有主题上的结构洞总分为:
其中,T为所有主题的集合;上式反映在某一主题上能力突出的节点、比各主题能力平平的节点更能获得较高的结构洞分数;筛选得分最高的k个节点,即为挖掘出的结构洞节点。
按照上述步骤对下一节点进行计算,直到所有节点都计算完毕,算法结束,筛选得分最高的k个节点,即为挖掘出的结构洞节点。
上述具体过程运用到社交平台用户节点、交互消息的内容等数据,综合考虑多主题条件下结构洞对消息传播的影响机制,对结构洞节点进行挖掘。通过本发明提供的技术方案,社交平台管理和分析人员可以极大的提高效率和决策的科学性,快速准确的获知在消息传播过程中起到关键作用的结构洞节点,并以此作为管理决策的合理依据。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (7)
1.一种多主题消息传播中结构洞节点的挖掘方法,所述方法以网络中传递的消息作为输入数据,所述网络中传递的消息数据包括消息发布节点、被转发节点和消息内容,通过多主题打分方法进行打分,从而得到各节点的结构洞分数;由此得到的分数最高的k个节点,即为所求的挖掘结果;包括如下步骤:
1)首先令各节点的结构洞分数H(v)为零;
2)生成综合网络拓扑结构G=(V,E)和各主题t下的子图Gt=(V,Et);其中,V为节点集,E为e组成的边集;由各条边在主题ti上的分量组成;为每条边在主题ti上的边权和影响力, 为边权分量;为影响力分量;
3)对各主题t下的子图Gt分别进行社区划分,得到一组社区的集合
4)通过多主题打分方法,根据节点对多主题在社区间传播的促进作用和贡献程度对各个节点进行多主题结构洞打分,得到各个节点的结构洞分数H(v);
5)输出结构洞分数最高的k个节点,作为结构洞节点。
2.如权利要求1所述结构洞节点的挖掘方法,其特征是,步骤2)所述生成综合网络拓扑结构和各主题下子图的方法,具体包括如下步骤:
21)利用隐含狄利克雷分布模型LDA,将每条消息k的内容分解为主题向量 其中表示该条消息k内容在ti主题上的分量;
22)对于每条消息k,取其在网络上被转发的次数rk作为该消息的影响力衡量指标;
23)计算每对节点a与b之间的边上信息,记为:其中,分量包含边(a,b)在ti主题上的情况,具体为:体现边(a,b)在ti主题下的边权,通过计算边上经过的所有消息在ti主题下的主题分量的均值获得;用于度量边(a,b)上经过的所有消息k在ti主题下的影响力,
24)每对节点经过上述步骤22)~23)进行处理,得到综合网络拓扑结构G=(V,E),其中,V为节点集,E为e组成的边集;
25)生成主题ti下的子图其中,由各条边在ti上的分量组成,即
3.如权利要求1所述结构洞节点的挖掘方法,其特征是,步骤3)所述对各主题下的网络子图进行社区划分的方法具体包括如下步骤:
31)计算V所有可能的子集,作为潜在社区S;
针对每个主题ti,执行操作32)~36),得到子图上的一组社区:
32)对每个潜在社区S,计算子图中,将S包含边的个数记为ms;
33)对每个潜在社区S,计算得到子图中,将S向外伸出的边的个数记为cs;所述S向外伸出的边即该边的一个顶点在S中,另一个顶点不在S中;
34)通过式1计算得到跨界边比例f(S),即跨S的边在S所涉及的所有边中所占的比例;
35)以1/f(S)作为潜在社区S成为社区的评分依据,对所有潜在社区进行降序排名;
36)选择排名最前的l个潜在社区,即得子图上的一组社区的集合
式2中,为主题ti下一组社区的集合;为其中的一个社区;
由此得到各主题下的网络子图相对应的社区集合。
4.如权利要求3所述结构洞节点的挖掘方法,其特征是,步骤31)具体设置至少包含节点个数的阈值,将包含节点大于等于所设阈值的子集作为潜在社区S,以减少时间消耗;步骤32)设置边权分量阈值q,当的边权分量大于边权分量阈值q时,计入S包含边;步骤33)中,当的边权分量大于边权分量阈值q时,计入S向外伸出的边。
5.如权利要求4所述结构洞节点的挖掘方法,其特征是,所述边权分量阈值q取为0.005~0.01。
6.如权利要求1所述结构洞节点的挖掘方法,其特征是,步骤4)所述对节点进行多主题结构洞打分的方法,具体包括如下步骤:
401)通过式3计算得到社区在主题ti上的活跃度,表示当作为消息供源时提供信息的可靠性和质量:
式3中,为影响力分量,表示边上经过的所有消息在ti主题下的影响力, 表示消息k内容在ti主题上的分量,rk为每条消息k在网络上被转发的次数;
402)将各主题ti下满足式4的社区记为典型社区:
403)将各主题ti下满足式5的边记为弱边:
式5中,为边权分量,表示ti主题下的边权,通过计算边上经过的所有消息在ti主题下的主题分量的均值获得;
404)遍历每个节点的连接情况,当节点a满足既通过边e连接t1主题下典型社区也通过边e′连接t2主题下典型社区且连接a与的边e在分量上是弱边时,将e上传播的关于t2的消息,视为经由a对的影响,此时记为a的一个加分项,将对应的t1、t2、的信息保存为一项;
405)通过计算得到e上传播的t2消息的影响力视为a的结构洞价值;
406)针对每一节点a,每个加分项对a在t2主题下的结构洞分数H(a,t2)贡献的加分值tmp为将a在t2主题下的结构洞分数H(a,t2)先赋值为tmp;
407)针对V中各个节点,执行步骤404)~406)的操作,得到每个节点在t2主题下的结构洞分数;
408)社区与有重叠节点时,通过式6对于a的每个加分值进行更新处理,即:
式6中,h表示社区与重叠部分的节点,H(h,t2)表示节点h在t2主题下的结构洞分数;
409)使用新的加分值tmp′更新a在t2主题下的结构洞分数H(a,t2),更新后的H(a,t2)为所有tmp′之和;
410)针对V中各个节点,执行步骤408)~409)的操作,得到节点在各主题下的结构洞得分;再通过式7得到节点在所有主题上的结构洞总分:
其中,T为所有主题的集合;式7反映在某一主题上能力突出的节点、比各主题能力平平的节点更能获得较高的结构洞分数;
411)筛选得分最高的k个节点,即为挖掘出的结构洞节点。
7.如权利要求1所述结构洞节点的挖掘方法,其特征是,步骤5)所述k取值为总节点数的1%~3%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611001739.XA CN106570188B (zh) | 2016-11-14 | 2016-11-14 | 一种多主题消息传播中结构洞节点的挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611001739.XA CN106570188B (zh) | 2016-11-14 | 2016-11-14 | 一种多主题消息传播中结构洞节点的挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106570188A true CN106570188A (zh) | 2017-04-19 |
CN106570188B CN106570188B (zh) | 2019-11-01 |
Family
ID=58542743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611001739.XA Active CN106570188B (zh) | 2016-11-14 | 2016-11-14 | 一种多主题消息传播中结构洞节点的挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106570188B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10652096B2 (en) | 2017-02-22 | 2020-05-12 | University Of Notre Dame Du Lac | Methods and systems for inferring network structure from cascades |
CN112269922A (zh) * | 2020-10-14 | 2021-01-26 | 西华大学 | 一种基于网络表示学习的社区舆论关键人物发现方法 |
CN112269923A (zh) * | 2020-10-14 | 2021-01-26 | 西华大学 | 一种基于结构洞的网络舆情控制方法 |
CN113297839A (zh) * | 2021-03-03 | 2021-08-24 | 浪潮云信息技术股份公司 | 一种专利技术领域的创新主题挖掘方法 |
CN116882522A (zh) * | 2023-09-07 | 2023-10-13 | 湖南视觉伟业智能科技有限公司 | 一种分布式时空挖掘方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050064925A1 (en) * | 2003-09-23 | 2005-03-24 | Robb Arthur S. | Lottery and gaming systems with multi-theme instant win games |
CN105550191A (zh) * | 2015-07-10 | 2016-05-04 | 成都信息工程大学 | 一种多层网络节点重要性排序的方法 |
-
2016
- 2016-11-14 CN CN201611001739.XA patent/CN106570188B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050064925A1 (en) * | 2003-09-23 | 2005-03-24 | Robb Arthur S. | Lottery and gaming systems with multi-theme instant win games |
CN105550191A (zh) * | 2015-07-10 | 2016-05-04 | 成都信息工程大学 | 一种多层网络节点重要性排序的方法 |
Non-Patent Citations (2)
Title |
---|
ENDE ZHANG 等: "Generalized Structural Holes Finding Algorithm by Bisection in Social Communities", 《2012 SIXTH INTERNATIONAL CONFERENCE ON GENETIC AND EVOLUTIONARY COMPUTING》 * |
白如江 等: "k-clique 社区知识创新演化方法研究", 《图书情报工作》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10652096B2 (en) | 2017-02-22 | 2020-05-12 | University Of Notre Dame Du Lac | Methods and systems for inferring network structure from cascades |
CN112269922A (zh) * | 2020-10-14 | 2021-01-26 | 西华大学 | 一种基于网络表示学习的社区舆论关键人物发现方法 |
CN112269923A (zh) * | 2020-10-14 | 2021-01-26 | 西华大学 | 一种基于结构洞的网络舆情控制方法 |
CN113297839A (zh) * | 2021-03-03 | 2021-08-24 | 浪潮云信息技术股份公司 | 一种专利技术领域的创新主题挖掘方法 |
CN113297839B (zh) * | 2021-03-03 | 2023-04-21 | 浪潮云信息技术股份公司 | 一种专利技术领域的创新主题挖掘方法 |
CN116882522A (zh) * | 2023-09-07 | 2023-10-13 | 湖南视觉伟业智能科技有限公司 | 一种分布式时空挖掘方法及系统 |
CN116882522B (zh) * | 2023-09-07 | 2023-11-28 | 湖南视觉伟业智能科技有限公司 | 一种分布式时空挖掘方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106570188B (zh) | 2019-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570188A (zh) | 一种多主题消息传播中结构洞节点的挖掘方法 | |
CN101093559B (zh) | 一种基于知识发现的专家系统构造方法 | |
Hu et al. | Ranking influential nodes in complex networks with structural holes | |
Stauffer et al. | Discretized opinion dynamics of the Deffuant model on scale-free networks | |
CN103678436B (zh) | 信息处理系统和信息处理方法 | |
CN107193545A (zh) | 一种面向构件的多语言协同开发装置、方法与系统 | |
CN105701097B (zh) | 一种基于社交网络平台的舆情分析方法及系统 | |
CN106294559A (zh) | 一种应用流量分析方法及装置 | |
Zhang et al. | Analytical solution of average path length for Apollonian networks | |
CN107491508A (zh) | 一种基于循环神经网络的数据库查询时间预测方法 | |
Goldstein et al. | Group-based Yule model for bipartite author-paper networks | |
CN108038734A (zh) | 基于点评数据的城市商业设施空间分布探测方法及系统 | |
CN109859739A (zh) | 基于语音合成的旋律生成方法、装置及终端设备 | |
CN108897680B (zh) | 一种基于soa的软件系统操作剖面构造方法 | |
CN107316246A (zh) | 一种社交网络关键用户的挖掘方法 | |
Shi et al. | Sustainability at the community level: A bibliometric journey around a set of sustainability‐related terms | |
CN104794010B (zh) | 一种系统内信息交互优化方法 | |
CN104820682B (zh) | 一种高速列车需求数据实例构建方法和装置 | |
Singh et al. | Analyzing worldwide research in hardware architecture, 1997--2011 | |
Son et al. | A decision support tool for cross-functional team selection: case study in ACM-ICPC team selection | |
CN103914381B (zh) | 生成时序安全属性类缺陷模式相关的函数摘要信息的方法 | |
CN108595415A (zh) | 一种法律差异化判定方法、装置及计算机设备、存储介质 | |
CN108763361A (zh) | 一种基于主题模型的多标签分类框架方法 | |
Artamonov et al. | What has remained unchanged in your business process model? | |
Caronongan et al. | Predicting chart difficulty in rhythm games through classification using chart pattern derived attributes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |