CN112269922A - 一种基于网络表示学习的社区舆论关键人物发现方法 - Google Patents
一种基于网络表示学习的社区舆论关键人物发现方法 Download PDFInfo
- Publication number
- CN112269922A CN112269922A CN202011098675.6A CN202011098675A CN112269922A CN 112269922 A CN112269922 A CN 112269922A CN 202011098675 A CN202011098675 A CN 202011098675A CN 112269922 A CN112269922 A CN 112269922A
- Authority
- CN
- China
- Prior art keywords
- network
- social
- community
- nodes
- public opinion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013604 expression vector Substances 0.000 claims abstract description 33
- 238000005192 partition Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000005065 mining Methods 0.000 claims abstract description 10
- 230000000007 visual effect Effects 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 25
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000007477 logistic regression Methods 0.000 claims description 12
- 238000012800 visualization Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 13
- 230000005540 biological transmission Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000000354 decomposition reaction Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及舆情控制技术领域,公开了一种基于网络表示学习的社区舆论关键人物发现方法,包括:基于社交媒体数据构建社交网络关系图;将社交网络关系图输入社区结构与结构洞节点发现模型得到社区划分集和结构洞节点;将社交网络关系图、社区划分集输入蕴含社会影响力和社区结构的网络嵌入模型得到社区网络图中节点的社会影响力和节点的网络嵌入表示向量;基于结构洞节点、社会影响力和网络嵌入表示向量进行可视化分析,获取舆论关键人物。本发明利用基于网络表示学习技术将网络社区结构信息融入到舆论关键人物发掘中,提高舆论关键人物发掘的精度和时间效率。
Description
技术领域
本发明涉及舆情控制技术领域,具体是指一种基于网络表示学习的社区舆论关键人物发现方法。
背景技术
随着移动互联网的飞速发展,人们把越来越多的碎片时间花费在基于手机端的微博应用上。微博已成为人们成为随时随地获取信息、发表见解的重要工具。网络社交平台的技术赋权使得大众传播进入了“人人拥有麦克风”的新阶段。如今信息传播渠道的多元化,使得以微信、微博、新闻客户端等为代表的微媒体在突发性事件和大众关注议题的舆情发展演变过程中承担着越来越重要的作用。所谓微媒体是指一种媒体形式,它以手机移动端为平台并带有社交功能。大量独立自由具有表达权利与表达欲望的个人利用个人的社交关系网络进行信息发布、分享与传播。微媒体目前的主要形式有微信、微博、客户端等。用户作为内容生产者和发布者,是传播活动的主体,在整个传播过程中处于核心地位,用户的认知态度及观点对于舆论走向起着决定性作用。媒介技术的迅猛发展降低了媒介使用门槛,导致传播主体多元化,为各种非理性信息甚至有害信息提供了发布渠道。微媒体所具有的大量内容信息,在即时传播的特点之下,对舆论场造成极大冲击,负面舆情时有发生。
在社交媒体平台中,某些用户很大的能力去影响其他人的意见,或者引导他们走向一个特定的话题。其中,能够影响和塑造他人意见的人被称为意见领袖或舆论领袖。在社会媒体平台中,由朋友关系会形成一个社会网络图结构。意见领袖的一个最主要的特征是在社会网络结构中占据着信息传播能力最强的位置。识别这些非正常和有影响力的个人的任务被定义为意见领袖检测(Opinion leaders detection)。在社会网络分析中,往往通过衡量节点在社会网络中信息传播能力,也被称为社会影响力,来识别意见领袖。近年来,网络表示学习的技术和概念被学术圈所接受,在网络相关的任务中展现了良好的效果,但是网络表示学习技术在意见领袖检测任务中应用较少。
发明专利“一种面向网络论坛的意见领袖挖掘方法”(专利申请号:201210250116.1)公开了一种面向网络论坛的意见领袖挖掘方法,包括意见领袖挖掘系统,意见领袖挖掘系统包括计算中心和数据库服务器,数据库服务器与计算中心通信,该方法的具体步骤为:利用爬虫抓取论坛数据,并利用消息中间件提高数据处理的实时性;提取网页信息,利用中文分词系统进行分词,并利用谱聚类方法对垃圾评论进行过滤;利用情感语料库进行文本倾向性分析;设定意见领袖的选取标准值,确定意见领袖:将结果可视化。
专利“一种面向网络论坛的意见领袖挖掘方法”(专利申请号:201210250116.1)主要考虑社会网络中的文本信息,没有很好的建模网络拓扑结构信息。意见领袖的评判标准之一是分析其可能的传播路径、传播影响力,该方法由于忽略了网络拓扑结构信息,只能暂时发现当前的最有影响发文者。需要依赖的前置技术较为复杂,爬虫技术、中文分词技术的误差会影响到后面的情感分析的结果,从而造成误差累积的现象,使得算法效果偏差。
专利“一种基于节点熵和结构洞的关键节点感知方法”(专利申请号:201811518571.9)涉及一种基于节点熵和结构洞的关键节点感知方法。在给定网络邻接矩阵的情况下,本发明基于节点熵和结构洞提出一种新的关键节点识别方法。这种方法考虑了网络的局部属性,原Burt的约束系数相同的两个节点也可以区别开重要程度,并且可以适用于大型网络。
专利“一种基于节点熵和结构洞的关键节点感知方法”(专利申请号:201811518571.9)没有考虑到社区结构与发现结构洞是一个相互促进的任务。他们的方法忽略了社区结构对于发现结构洞的启发性作用。随着联合学习的概念的提出,两个具有联系的任务进行同时建模的话,可以同时提升两个任务的发现效果。
专利“一种复杂网络中结构洞Spanner的挖掘方法”(专利申请号:201810705185.4),公开了一种复杂网络中结构洞Spanner的挖掘方法,包括以下步骤:第一步,计算网络中所有边的骨干度,然后按照降序排序;第二步,选择骨干度最大的边作为一个社区的初始骨干,然后选择与当前社区联系最紧密的节点加入社区,计算这个社区的膨胀度,如果膨胀度变小,则将这个节点计入社区,如果膨胀度变大,则将这个节点作为这个社区结构洞Spanner放入结构洞Spanner集合,继续如下操作,直到社区的邻居节点全部分拣完毕;第三步,在骨干度列表中选择一个未被使用的骨干度最大的边,并且这条边中不能包含已划入社区的节点,重复第二步,直到网络中所有的节点全部被分拣完毕;第四步,将属于多个社区的重叠节点也放入结构洞Spanner集合;第五步,根据影响力度量对结构洞Spanner集合中的节点进行排序。本发明还公开了一种结构洞Spanner的影响力度量。
专利“一种复杂网络中结构洞Spanner的挖掘方法”(专利申请号:201810705185.4)的方法需要提前得到节点的社区划分集,需要依赖于其它社区发现算法。若所依赖的社区发现算法效果不好,则这个算法受影响程度会特别大。方法依然忽略了发现社区和发现结构洞可以作为一个联合任务来解决。
发明内容
基于以上技术问题,本发明提供了一种基于网络表示学习的社区舆论关键人物发现方法,利用基于网络表示学习技术将网络社区结构信息融入到舆论关键人物发掘中,提高舆论关键人物发掘的精度和时间效率。
为解决以上技术问题,本发明采用的技术方案如下:
一种基于网络表示学习的社区舆论关键人物发现方法,包括:基于社交媒体数据构建社交网络关系图;将社交网络关系图输入社区结构与结构洞节点发现模型得到社区划分集和结构洞节点;将社交网络关系图、社区划分集输入蕴含社会影响力和社区结构的网络嵌入模型得到社区网络图中的节点的社会影响力和节点网络嵌入表示向量;基于结构洞节点、社会影响力和网络嵌入表示向量进行可视化分析,获取舆论关键人物。
作为一种优选的方式,社区结构与结构洞节点发现模型包括:基于所述社交网络关系图获取目标函数;获取社交网络关系图中节点的直接模块度增益;获取社交网络关系图中节点的间接模块度增益;基于直接模块度增益和间接模块度增益对目标函数进行优化获取目标矩阵,对目标矩阵进行特征值分解得到特征向量矩阵;通过聚类算法对特征向量矩阵进行处理得到社区划分集;通过对特征向量矩阵进行排序得到结构洞节点。
作为一种优选的方式,聚类算法为K-means算法。
作为一种优选的方式,蕴含社会影响力和社区结构的网络嵌入模型包括:随机初始化社交网络关系图中节点的初始社会影响力和初始网络嵌入表示向量;对节点在社交网络图中的连边进行标记以获取节点的连边数据集;结合连边数据集、初始社会影响力和初始网络向量进行机器学习算法训练获得节点的社会影响力和网络嵌入表示向量。
作为一种优选的方式,机器学习算法包括:设置机器学习的超参数;基于超参数、连边数据集、初始社会影响力和初始网络向量获取逻辑回归函数;基于逻辑回归函数计算节点在社交网络图中的连边产生的条件概率;基于超参数、连边数据集、初始社会影响力、初始网络向量和条件概率更新网络嵌入表示向量梯度和社会影响力梯度;重复执行设置超参数、获取逻辑回归函数、更新网络嵌入表示向量梯度和社会影响力梯度的步骤直到收敛。
作为一种优选的方式,基于社交媒体数据构建社交网络关系图包括:通过网络爬虫发掘获得社交媒体数据;基于社交媒体数据中各个用户的互动关系构建社交网络关系图。
作为一种优选的方式,可视化分析采用Gephi软件完成。
与现有技术相比,本发明的有益效果是:
1、意见领袖与结构洞为舆论关键人物,对于舆论关键人物发掘的方法,从研究角度来看,以往解决任务的手段和方法普遍忽略了舆论关键人物与网络社区结构之间的关联,如今一些学者基于联合学习的思想将两个有关联的任务用深度学习的方法同时解决,取得了良好的效果;从技术角度来看,以往解决舆论关键人物发掘任务的方法主要为矩阵运算的方法,如今新兴的网络表示学习技术通过将网络表示为向量,从而使得许多网络隐藏信息能够从网络节点的向量表示中推理出来。综上两点,本发明利用基于网络表示学习技术将网络社区结构信息融入到舆论关键人物发掘中。
本发明通过利用网络表示学习技术分析不同用户在网络中所处的社区位置结构,并利用联合学习的优势,来发现在社交平台上具有高影响力的舆情发起者、具有跨社区信息传播能力的结构洞用户。相比其他方法,本发明将发现意见领袖与发现结构洞两个独立的任务进行联合解决,并具有更高的准确率。
2、本发明的社区结构与结构洞节点发现模型,通过利用网络表示学习技术分析不同用户在网络中所处的社区位置结构,并利用联合学习的优势,来发现在社交平台上具有高影响力的舆情发起者、具有跨社区信息传播能力的结构洞用户。这一部分通过选定合适的目标矩阵,将该矩阵进行特征分解,把结构洞发现和社区发现通过调和函数联系起来,通过重构调和模块度来同时发现社区和结构洞节点,优化了时间效率。
3、本发明的蕴含社区结构和社会影响力的网络嵌入模型,本发明假设社会影响力为节点在社会拓扑网络中信息传播能力的一个总结性指标,把少数具有较高社会影响力的节点视为意见领袖,蕴含社会影响力的网络嵌入模型为意见领袖发现这一任务提供了网络表示学习方面的研究启发。本发明基于假设社会网络平台中的用户在进行跨社区信息传播中会优先联系意见领袖,提出了蕴含社区结构与社会影响力的网络嵌入模型方法,从而使模型能学习训练得到节点的潜在社会影响力和节点的网络嵌入表示向量。
4、本发明经过可视化分析,可以得到社区划分集、结构洞节点排序、节点的网络嵌入表示向量、节点的社会影响力,并可对得到的这四个结果进行可视化分析和展示。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述,其中:
图1为社区舆论关键人物发现方法流程图。
图2为社区结构与结构洞节点发现模型流程图。
图3为目标矩阵分解效果图。
图4为蕴含社会影响力和社区结构的网络嵌入模型流程图。
图5网络嵌入表示向量降维可视化图。
图6社区划分可视化图。
图7结构洞发现可视化图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围
参阅图1,在本实施方式中,基于网络表示学习的社区舆论关键人物发现方法,包括:基于社交媒体数据构建社交网络关系图;将社交网络关系图输入社区结构与结构洞节点发现模型得到社区划分集和结构洞节点;将社交网络关系图、社区划分集输入蕴含社会影响力和社区结构的网络嵌入模型得到社区网络图中的节点的社会影响力和节点网络嵌入表示向量;基于结构洞节点、社会影响力和网络嵌入表示向量进行可视化分析,获取舆论关键人物。
在一些实施例中,基于社交媒体数据构建社交网络关系图包括:通过网络爬虫发掘获得社交媒体数据;基于社交媒体数据中各个用户的互动关系构建社交网络关系图。
在本实施例中,现有社交网络关系图一般是将社交网络抽象成网络拓扑结构G(V,E),其中V={v1,v2,…,vn}表示网络中的n个用户,E表示网络中所有用户节点的社会关系。由社交网络有向图G(V,E)可知,E和V都是有限且非空的集合。
对于社交网络关系图中的节点之间的连边则是通过用户之间的互动关系获得的,利用网络爬虫发掘社交网络平台中每个用户节点的关注内容以及经常互动的朋友、粉丝等。引入阈值,若社交网络平台中的两个用户的交互强度大于阈值则认为这两个用户间存在连边关系。基于用户和用户之间的互动关系,便可构建社交网络关系图。
在一些实施例中,社区结构与结构洞节点发现模型包括:基于所述社交网络关系图获取目标函数;获取社交网络关系图中节点的直接模块度增益;获取社交网络关系图中节点的间接模块度增益;基于直接模块度增益和间接模块度增益对目标函数进行优化获取目标矩阵,对目标矩阵进行特征值分解得到特征向量矩阵;通过聚类算法对特征向量矩阵进行处理得到社区划分集;通过对特征向量矩阵每一行模的大小进行排序得到结构洞节点。
在本实施例中,根据图2所示社区结构与结构洞节点发现模型流程图,社区结构与结构洞节点发现模型其实现步骤如下:
首先,需基于所述社交网络关系图获取目标函数,此处的目标函数是指机器学习中的概念,表示社区结构与结构洞节点发现模型应达到的状态,这一部分选择的目标函数如下:
其中,H表示特征向量矩阵,每一行表示对应节点的社区分布向量;D表示度矩阵;A表示邻接矩阵,对应社会交网络关系图的链接关系;P表示权重矩阵;I为单位矩阵。由现有技术可知,除H矩阵以外,其余矩阵均可从社交关系网络中计算得到。
获取社交网络关系图中节点的直接模块度增益(Direct Modularity Increment,DMI),其公式如下:
其中,di表示节点vi的度(节点vi的邻居个数),me为网络中边的数量,Neighbor(vi)表示节点vi的邻居节点。公式表示,假设节点vi与所有邻居属于同一个社区,能获得多少模块度增益。
考虑到,节点vi的邻居会继而影响到它的邻居的社区归属问题,我们定义了间接模块度增量(Indirect Modularity Increment,IMI),获取社交网络关系图中节点的间接模块度增益的公式如下:
其中,rk表示以节点vi为起点进行两次随机游走后停留在二阶邻居vk的概率。公式表示,假设节点vi与所有邻居节点构成节点集合Nbi,Nbi属于同一个社区;节点vi以概率rk影响它的二阶邻居节点vk使得节点vk与节点集合Nbi属于同一个社区,节点vk的模块度增益为它对整个集合Nbi产生的模块度增益。
基于直接模块度增益和间接模块度增益优化目标函数获取目标矩阵,对目标矩阵进行特征值分解得到特征向量矩阵。
首先,上述目标函数中需要确定P矩阵的形式,本实施例中定义P为一个对角矩阵,对角线上为每个节点的权重。其对角向量pi=DMI(vi)+IMI(vi)。
则本文要优化的目标函数为:
求解上述目标矩阵Lp进行特征值分解后找到对应最小的m个特征值对应的特征向量组成矩阵H。具体的,基于线性重构的社区发现算法主要利用非负矩阵分解、奇异值分解或者谱分析等技术手段来优化重构目标矩阵。
目标矩阵分解后得到的效果如图3所示。
对特征向量矩阵H进行聚类得到社区划分集,具体的,聚类算法为K-means算法。
根据||hi||对特征向量矩阵H的行向量从小到大排序得到结构洞节点。具体的,由于结构洞节点是经排序获得,其排列结构为Top-k结构。
将社区发现与结构洞发现视为一个联合任务。分析了协调模块度与基于随机游走的谱聚类算法之间的联系,认为协调模块度等价于按节点加权的随机游走型谱聚类。提出了基于模块度增益的改进协调模块度算法,设计了一个目标矩阵,把通过对这个目标矩阵进行特征值分解得到特征值向量组作为网络嵌入向量组,对向量组进行K-means聚类得到社区划分结果,对节点的向量按向量的模的大小进行排序得到结构洞程度排序。对于谱聚类的优化已经有一系列深度学习研究用自编码器结构解决这个问题。本文基于自编码器对矩阵的重构研究,提出了基于集成自编码器的社区发现与结构发现模型,用自编码器技术去非线性重构基于模块度增益设计的目标矩阵,从而避免特征值分解计算,优化了时间效率。
在一些实施例中,蕴含社会影响力和社区结构的网络嵌入模型包括:随机初始化社交网络关系图中节点的初始社会影响力和初始网络嵌入表示向量;对节点在社交网络图中的连边进行标记以获取节点的连边数据集;结合连边数据集、初始社会影响力和初始网络向量进行机器学习算法训练获得节点的社会影响力和网络嵌入表示向量。
在本实施例中,基于假设社会网络平台中的用户在进行跨社区信息传播中会优先联系意见领袖,提出了蕴含社区结构与社会影响力的网络嵌入模型,根据图4所示蕴含社会影响力和社区结构的网络嵌入模型流程图,蕴含社会影响力和社区结构的网络嵌入模型具体步骤包括:
对所述社交网络关系图的节点随机初始化获取所述节点的初始社会影响力和初始网络嵌入表示向量;
具体的,定义初始社会影响力为r,定义初始网络嵌入表示向量为z。
其中,对于初始社会影响力,具体对社交网络关系图的每个节点按以下公式为概率分布进行采样,具体公式为:
其中,kR为幂律梯度,rmin为r最小值。
对于初始网络嵌入表示向量,具体对社交网络关系图的每个节点以多元高斯分布为概率分布进行采样。
对所述社交网络关系图的节点的连边进行标记,并获取所述节点的连边数据集;
具体的,从社区结构与结构洞节点发现模型中得到节点的社区划分集,将社交网络关系图中接点的边分为社区内部边以及交叉边;对于社交网络关系图中的连边eij,若两个节点同属于同一社区,则设置社区内部边的参数ξij=1;若两个节点属于不同社区,则设置交叉边的参数ξij=0;采样社交网络关系图中存在的边数相同的负采样边(即不存在的边),记存在边yij=1,负采样边yij=0。
基于以上内部边参数、交叉边参数、存在边参数、负采样边参数构建连边数据集。
结合连边数据集、节点的初始社会影响力和初始网络向量进行机器学习算法训练获得节点的社会影响力和网络嵌入表示向量,机器学习算法步骤为:
设置机器学习的超参数;基于超参数、连边数据集、初始社会影响力和初始网络向量获取逻辑回归函数;基于逻辑回归函数计算节点在社交网络图中的连边产生的条件概率;基于超参数、连边数据集、初始社会影响力、初始网络向量和条件概率更新网络嵌入表示向量梯度和社会影响力梯度;重复执行设置超参数、获取逻辑回归函数、更新网络嵌入表示向量梯度和社会影响力梯度的步骤直到收敛。具体为:
其中,dr=rj-ri,表示社会影响力之间的差;dz=||zi-zj||2,表示网络嵌入表示向量在欧几里得空间的距离;与λZ的差异可以调节dr与dz的重要程度,需要人为设定,λ0通常设定为-1,为偏移量。
对于超参数,在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。
步骤二,计算节点在社交网络图中的连边产生的条件概率:
步骤三,更新网络嵌入表示向量梯度:
zi+=[(yij-pij)·2·dr·(1-h(dz))-2·λz]·(zi-zj)
zj-=[(yij-pij)·2·dr·(1-h(dz))-2·λz]·(zi-zj)
步骤四,更新社会影响力梯度:
重复步骤一、步骤二、步骤三和步骤四,直到收敛获得节点的社会影响力和网络嵌入表示向量。
本实施例中提出了蕴含社区结构和社会影响力的网络嵌入模型,它可以结合节点的社区标签和邻接结构学习节点的潜在社会影响力与网络嵌入表示向量,能从网络拓扑结构中同时学习到节点的社会影响力与节点的网络嵌入表示向量。
结合所述连边数据集、所述节点的初始社会影响力和初始网络向量进行机器学习算法训练获得所述节点的社会影响力和网络嵌入表示向量。
在上述蕴含社区结构与社会影响力的网络嵌入模型中,假设社会影响力为节点在社会拓扑网络中信息传播能力的一个总结性指标,把少数具有较高社会影响力的节点视为意见领袖。蕴含社会影响力的网络嵌入模型为意见领袖发现这一任务提供了网络表示学习方面的研究启发。基于假设:社会网络平台中的用户在进行跨社区信息传播中会优先联系意见领袖,提出了蕴含社区结构与社会影响力的网络嵌入方法。从而使模型既能学习到节点潜在社会影响力和节点的网络嵌入表示。本实施例中设计了基于社区划分、社会影响力差距、结构相似度三个因素的判别函数,进一步的讨论了如何通过逻辑回归优化来学习潜在社会影响力和节点的网络嵌入表示向量。
基于所述结构洞节点、所述社会影响力和所述网络嵌入表示向量进行可视化分析,获取舆论关键人物。
在一些实施例中,使用Gephi软件作为算法的结果的可视化展示工具。
以一个小型社交网络为例,对网络嵌入表示向量进行PCA降维得到图5可视化结果。将社交网络关系图和通过算法得到的社区划分集、结构洞节点、社会影响力、网络嵌入表示向量输入到Gephi软件则可得到图6、图7可视化结果。
图6展示了经过社区结构与结构洞节点发现模型处理后的网络社区划分结果,不同社区的节点颜色不同(在实际Gephi软件页面展示效果中可对不同节点进行不同颜色的标识)。
图7所示,深色节点为算法发现的结构洞节点,浅色的节点为非结构洞节点。节点的形状大小对应着节点的影响力的大小,结构洞往往和意见领袖会有重合,即结构洞节点中有很大一部分也是意见领袖。从图7中的可视化展示可以发现,算法发现的很多结构洞节被蕴含社区结构和社会影响力的网络嵌入模型学习出来这些节点拥有大的影响力。
从可视化结果图中,便可直观获得具有较大影响力的舆论关键人物。
如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明的验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (7)
1.一种基于网络表示学习的社区舆论关键人物发现方法,其特征在于,包括:
基于社交媒体数据构建社交网络关系图;
将所述社交网络关系图输入社区结构与结构洞节点发现模型得到社区划分集和结构洞节点;
将所述社交网络关系图、所述社区划分集输入蕴含社会影响力和社区结构的网络嵌入模型得到所述社区网络图中节点的社会影响力和节点的网络嵌入表示向量;
基于所述结构洞节点、所述社会影响力和所述网络嵌入表示向量进行可视化分析,获取舆论关键人物。
2.根据权利要求1所述的一种基于网络表示学习的社区舆论关键人物发现方法,其特征在于,所述社区结构与结构洞节点发现模型包括:
基于所述社交网络关系图获取目标函数;
获取所述社交网络关系图中节点的直接模块度增益;
获取所述社交网络关系图中节点的间接模块度增益;
基于所述直接模块度增益和所述间接模块度增益对所述目标函数进行优化获取目标矩阵,对所述目标矩阵进行特征值分解得到特征向量矩阵;
通过聚类算法对所述特征向量矩阵进行处理得到社区划分集;
通过对所述特征向量矩阵进行排序得到结构洞节点。
3.根据权利要求2所述的一种基于网络表示学习的社区舆论关键人物发现方法,其特征在于:
所述聚类算法为K-means算法。
4.根据权利要求1所述的一种基于网络表示学习的社区舆论关键人物发现方法,其特征在于,所述蕴含社会影响力和社区结构的网络嵌入模型包括:
随机初始化所述社交网络关系图中节点的初始社会影响力和初始网络嵌入表示向量;
对所述节点在社交网络图中的连边进行标记以获取所述节点的连边数据集;
结合所述连边数据集、所述初始社会影响力和所述初始网络向量进行机器学习算法训练获得所述节点的社会影响力和网络嵌入表示向量。
5.根据权利要求4所述的一种基于网络表示学习的社区舆论关键人物发现方法,其特征在于,所述机器学习算法包括:
设置机器学习的超参数;
基于所述超参数、所述连边数据集、所述初始社会影响力和所述初始网络向量获取逻辑回归函数;
基于所述逻辑回归函数计算所述节点在社交网络图中的连边产生的条件概率;
基于所述超参数、所述连边数据集、所述初始社会影响力、所述初始网络向量和所述条件概率更新网络嵌入表示向量梯度和社会影响力梯度;
重复执行设置超参数、获取逻辑回归函数、更新网络嵌入表示向量梯度和社会影响力梯度的步骤直到收敛。
6.根据权利要求1所述的一种基于网络表示学习的社区舆论关键人物发现方法,其特征在于,所述基于社交媒体数据构建社交网络关系图包括:
通过网络爬虫发掘获得所述社交媒体数据;
基于所述社交媒体数据中各个用户的互动关系构建社交网络关系图。
7.根据权利要求1所述的一种基于网络表示学习的社区舆论关键人物发现方法,其特征在于:
所述可视化分析采用Gephi软件完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098675.6A CN112269922B (zh) | 2020-10-14 | 2020-10-14 | 一种基于网络表示学习的社区舆论关键人物发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098675.6A CN112269922B (zh) | 2020-10-14 | 2020-10-14 | 一种基于网络表示学习的社区舆论关键人物发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112269922A true CN112269922A (zh) | 2021-01-26 |
CN112269922B CN112269922B (zh) | 2022-05-31 |
Family
ID=74338082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011098675.6A Active CN112269922B (zh) | 2020-10-14 | 2020-10-14 | 一种基于网络表示学习的社区舆论关键人物发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112269922B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159976A (zh) * | 2021-05-13 | 2021-07-23 | 电子科技大学 | 一种微博网络重要用户的识别方法 |
CN114297498A (zh) * | 2021-12-29 | 2022-04-08 | 国家计算机网络与信息安全管理中心 | 一种基于关键传播结构感知的意见领袖识别方法和装置 |
CN114492455A (zh) * | 2022-01-21 | 2022-05-13 | 哈尔滨理工大学 | 基于图结构整体和部分的社交网络意见领袖挖掘方法 |
CN114565475A (zh) * | 2022-02-21 | 2022-05-31 | 上海师范大学 | 一种判断社交网络中的群体舆论情感稳定性的方法和装置 |
CN114707044A (zh) * | 2021-12-29 | 2022-07-05 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
WO2023207013A1 (zh) * | 2022-04-26 | 2023-11-02 | 广州广电运通金融电子股份有限公司 | 一种基于图嵌入的关系图谱关键人员分析方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929942A (zh) * | 2012-09-27 | 2013-02-13 | 福建师范大学 | 一种基于集成学习的社会网络重叠社区发现方法 |
CN103678669A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种社交网络中的社区影响力评估系统及方法 |
CN103729467A (zh) * | 2014-01-16 | 2014-04-16 | 重庆邮电大学 | 一种社交网络中的社区结构发现方法 |
CN106570188A (zh) * | 2016-11-14 | 2017-04-19 | 北京大学 | 一种多主题消息传播中结构洞节点的挖掘方法 |
US20180315083A1 (en) * | 2015-01-09 | 2018-11-01 | Research Foundation Of The City University Of New York | Method to maximize message spreading in social networks and find the most influential people in social media |
CN108920890A (zh) * | 2018-07-02 | 2018-11-30 | 河北科技大学 | 一种复杂网络中结构洞Spanner的挖掘方法 |
CN109857871A (zh) * | 2019-01-28 | 2019-06-07 | 重庆邮电大学 | 一种基于社交网络海量情景数据的用户关系发现方法 |
CN110838072A (zh) * | 2019-10-24 | 2020-02-25 | 华中科技大学 | 一种基于社区发现的社交网络影响力最大化方法及系统 |
CN111178586A (zh) * | 2019-12-06 | 2020-05-19 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
CN111178678A (zh) * | 2019-12-06 | 2020-05-19 | 中国人民解放军战略支援部队信息工程大学 | 基于社团影响力的网络节点重要性评估方法 |
-
2020
- 2020-10-14 CN CN202011098675.6A patent/CN112269922B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929942A (zh) * | 2012-09-27 | 2013-02-13 | 福建师范大学 | 一种基于集成学习的社会网络重叠社区发现方法 |
CN103678669A (zh) * | 2013-12-25 | 2014-03-26 | 福州大学 | 一种社交网络中的社区影响力评估系统及方法 |
CN103729467A (zh) * | 2014-01-16 | 2014-04-16 | 重庆邮电大学 | 一种社交网络中的社区结构发现方法 |
US20180315083A1 (en) * | 2015-01-09 | 2018-11-01 | Research Foundation Of The City University Of New York | Method to maximize message spreading in social networks and find the most influential people in social media |
CN106570188A (zh) * | 2016-11-14 | 2017-04-19 | 北京大学 | 一种多主题消息传播中结构洞节点的挖掘方法 |
CN108920890A (zh) * | 2018-07-02 | 2018-11-30 | 河北科技大学 | 一种复杂网络中结构洞Spanner的挖掘方法 |
CN109857871A (zh) * | 2019-01-28 | 2019-06-07 | 重庆邮电大学 | 一种基于社交网络海量情景数据的用户关系发现方法 |
CN110838072A (zh) * | 2019-10-24 | 2020-02-25 | 华中科技大学 | 一种基于社区发现的社交网络影响力最大化方法及系统 |
CN111178586A (zh) * | 2019-12-06 | 2020-05-19 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
CN111178678A (zh) * | 2019-12-06 | 2020-05-19 | 中国人民解放军战略支援部队信息工程大学 | 基于社团影响力的网络节点重要性评估方法 |
Non-Patent Citations (5)
Title |
---|
PRASAD BALKUNDI ET AL.: "The ties that lead: A social network approach to leadership", 《THE LEADERSHIP QUARTERLY》 * |
XIAOYANG LIU ET AL.: "Information Diffusion and Opinion Leader Mathematical Modeling Based on Microblog", 《IEEE ACCESS》 * |
杜亚军 等: "基于结构平衡的社交网络舆情正向引导学习方法探讨", 《西华大学学报(自然科学版)》 * |
王敏: "复杂网络中关键节点挖掘与社区发现算法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
谭琪 等: "社交网络用户影响力的建模方法", 《计算机科学》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159976A (zh) * | 2021-05-13 | 2021-07-23 | 电子科技大学 | 一种微博网络重要用户的识别方法 |
CN114297498A (zh) * | 2021-12-29 | 2022-04-08 | 国家计算机网络与信息安全管理中心 | 一种基于关键传播结构感知的意见领袖识别方法和装置 |
CN114707044A (zh) * | 2021-12-29 | 2022-07-05 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
CN114707044B (zh) * | 2021-12-29 | 2023-06-23 | 哈尔滨理工大学 | 基于社区发现的集体社交行为的提取方法及系统 |
CN114297498B (zh) * | 2021-12-29 | 2024-10-15 | 国家计算机网络与信息安全管理中心 | 一种基于关键传播结构感知的意见领袖识别方法和装置 |
CN114492455A (zh) * | 2022-01-21 | 2022-05-13 | 哈尔滨理工大学 | 基于图结构整体和部分的社交网络意见领袖挖掘方法 |
CN114492455B (zh) * | 2022-01-21 | 2024-10-15 | 哈尔滨理工大学 | 基于图结构整体和部分的社交网络意见领袖挖掘方法 |
CN114565475A (zh) * | 2022-02-21 | 2022-05-31 | 上海师范大学 | 一种判断社交网络中的群体舆论情感稳定性的方法和装置 |
WO2023207013A1 (zh) * | 2022-04-26 | 2023-11-02 | 广州广电运通金融电子股份有限公司 | 一种基于图嵌入的关系图谱关键人员分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112269922B (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112269922B (zh) | 一种基于网络表示学习的社区舆论关键人物发现方法 | |
Kim et al. | Multiplicative attribute graph model of real-world networks | |
CN107784124B (zh) | 一种基于时空关系的lbsn超网络链接预测方法 | |
WO2017211051A1 (zh) | 目标对象的社交账号挖掘方法、服务器和存储介质 | |
Topirceanu et al. | Weighted betweenness preferential attachment: A new mechanism explaining social network formation and evolution | |
Deng et al. | Knowledge-aware group representation learning for group recommendation | |
Li et al. | Evolutionary community discovery in dynamic social networks via resistance distance | |
Amelio et al. | Evolutionary clustering for mining and tracking dynamic multilayer networks | |
Han et al. | Linking social network accounts by modeling user spatiotemporal habits | |
Sachan et al. | Probabilistic model for discovering topic based communities in social networks | |
Alamsyah et al. | Learning organization using conversational social network for social customer relationship management effort | |
CN118071400A (zh) | 基于图计算技术在信息消费领域的应用方法及系统 | |
CN115600642B (zh) | 一种面向流媒体基于邻居信任聚合的去中心化联邦学习方法 | |
Sharma et al. | Comparative analysis of different algorithms in link prediction on social networks | |
Yoshikawa et al. | A fake news dissemination model based on updating reliability and doubt among individuals | |
Li et al. | A two-stage community search method based on seed replacement and joint random walk | |
CN115130007A (zh) | 一种基于用户场景定位的品牌推广方法及系统 | |
CN109213938A (zh) | 一种基于异构网络的poi推荐方法 | |
CN115063251A (zh) | 基于关系强度与反馈机制的社交传播动态网络表示方法 | |
Chen et al. | ACTSSD: social spammer detection based on active learning and co-training | |
Papadakisa et al. | SCoR: a synthetic coordinate based recommender system | |
Li et al. | DeepPick: a deep learning approach to unveil outstanding users with public attainable features | |
Shokeen | On measuring the role of social networks in project recommendation | |
Crnovrsanin et al. | Social network discovery based on sensitivity analysis | |
CN111143701A (zh) | 一种基于多维度的社交网络用户推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |