CN110851684A - 一种基于三元关联图的社交话题影响力识别方法及装置 - Google Patents
一种基于三元关联图的社交话题影响力识别方法及装置 Download PDFInfo
- Publication number
- CN110851684A CN110851684A CN201911098384.4A CN201911098384A CN110851684A CN 110851684 A CN110851684 A CN 110851684A CN 201911098384 A CN201911098384 A CN 201911098384A CN 110851684 A CN110851684 A CN 110851684A
- Authority
- CN
- China
- Prior art keywords
- topic
- propagation
- user
- field
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000008569 process Effects 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000010586 diagram Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000006399 behavior Effects 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000000644 propagated effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 239000003999 initiator Substances 0.000 claims 1
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000007480 spreading Effects 0.000 description 3
- 235000013162 Cocos nucifera Nutrition 0.000 description 2
- 244000060011 Cocos nucifera Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及社交网络热点话题控制技术领域,具体涉及一种基于三元关联图的社交话题影响力识别方法及装置,包括以下步骤:获取数据;根据获取的数据构建路径‑用户二元关联图模型;构建用户‑领域划分模型;构建路径‑用户‑领域三元关联图模型;根据交叉评分策略,在路径‑用户‑领域三元关联图模型上进行正反迭代投票来挖掘出热点话题传播的关键元素节点;根据关键元素节点信息,利用时间切片方法对完整生命周期内热点话题传播过程的动态演绎。本发明的方法能够提高热点话题影响力识别的便捷性;可根据各元素的最终得分向量识别出关键路径、参与用户与传播领域;能实现网络舆情话题的动态挖掘。
Description
技术领域
本发明涉及社交网络热点话题控制技术领域,具体涉及一种基于三元关联图的社交话题影响力识别方法及装置。
背景技术
随着社交网络的盛行,在线社交网络中存在着的大量虚假、诽谤、违法信息,由于网络传播的快速性、网络用户的庞大性及网络领域的广阔性,这些非法信息的扩散与蔓延难以得到有效控制,对网络公共话语空间造成了不利影响。因此,如何防止不法分子利用网络资源造谣生事,确保在线网络信息传播的真实性,热点话题影响力识别的工作就显得尤为重要与迫切。
现有技术中,话题影响力识别研究工作主要分为三种,分别是:基于节点属性的分析法、基于传播模型的推理法、基于结合用户属性和网络结构的分析方法。这三种话题影响力识别方法虽然均在话题话题影响力识别方面取得一些成果,但均只是简单的对话题源头或关键用户的查找,不能满足当前数据量日益激增的复杂网络。现有的话题影响力识别方法仍然存在以下3个问题:
1.忽略了在不同的阶段参与用户的重叠性、领域的交叉性。在一个话题网络的传播过程中,通常存在着同一用户可能会涉及到多个领域的情况,这就造成不同的阶段、不同的领域会引发不同的粉丝进行转发,从而达到话题传播的最大化。而当前的研究则忽略了这类重叠用户和交叉领域对话题传播最大化的影响力度,弱化了这类用户对话题传播的推动力,降低了确定关键节点的准确率。
2.忽略了话题网络传播中各元素之间的相互影响关系。话题传播过程中会涉及到路径、用户、领域等关键元素,如何刻画出关键元素之间的相互影响关系,对网络舆情的快速话题影响力识别十分有效,而传统研究则对这些元素的挖掘相对独立,并没有将这些元素紧密的联系起来,缺乏统一性。
3.忽略了对话题在不同阶段传播态势的分析。目前,基于节点属性的分析法、基于传播模型推理法以及基于结合用户属性和网络结构的分析方法都只是简单地挖掘出话题源点或关键节点,并未描述出在不同的阶段,话题如何从一个用户链接到另一用户,如何从一个领域链接到另一个领域,缺乏动态性。
发明内容
为了解决上述问题,本发明在用户关系数据、用户行为属性数据以及话题信息数据的基础上,构建热点话题影响力识别模型,提供一种基于三元关联图的社交话题影响力识别方法及装置。
本发明的一种基于三元关联图的社交话题影响力识别方法,包括以下步骤:
S1、利用网络爬虫和/或各种社交软件提供的API接口获取数据源,获取的数据包括:热点话题数据和参与用户行为属性数据;
S2、根据获取的数据源提取热点话题的传播路径以及参与用户的所属领域信息,构建路径-用户-领域三元关联图模型;
S3、利用元素节点序列的初始得分向量和相互之间的权值矩阵,在路径-用户-领域三元关联图模型上进行正反迭代投票来挖掘出热点话题传播的关键元素节点信息;
S4、根据关键元素节点信息,利用时间切片的方法,对完整生命周期内热点话题的传播过程进行动态演绎;
S5、将完整生命周期内热点话题传播的关键用户和关键领域的动态演绎过程存储到话题管理服务器,通过话题管理服务器将热点话题的动态演绎完整过程传送给网络话题监管中心或网络话题监管部门,并进行可视化展示,辅助监管部门精准与实时地对热点话题传播趋势进行监督、控制、引导与清理需求。
本发明的一种基于三元关联图的社交话题影响力识别装置,包括:
数据采集模块,用于从网页中采集数据源;
数据预处理模块,用于对采集的数据进行简单清洗,并将预处理后的数据输入到动态演绎模块中;
动态演绎模块,用于对输入的数据进行路径-用户-领域三元关联图建模处理和正反迭代机制处理,对热点话题传播过程进行动态演绎,识别该热点话题的关键用户、关键路径、关键领域;
输出模块,所述输出模块与话题管理器连接,输出模块用于将完整生命周期内热点话题传播的动态演绎过程、关键用户、关键路径和关键领域存储到话题管理服务器,通过话题管理服务器将热点话题的动态演绎完整过程传送给网络话题监管中心或网络话题监管部门,采用可视化设备进行可视化展示。
本发明的有益效果:
1.本发明提出一种基于路径-用户-领域的信息溯源三元关联图模型,有效刻画出话题传播网络中三类关键元素之间的潜在关联关系,提高话题影响力识别的便捷性。
2.本发明基于交叉评分策略,利用各元素的初始得分向量和相互之间的权重矩阵,在三元关联图模型上进行正反迭代投票,可根据各元素的最终得分向量识别出关键路径、参与用户与传播领域。
3.本发明以时间离散化方式,对识别出的关键元素进行态势分析,并完整描述出话题传播动态演化规律,实现了网络舆情话题的动态挖掘。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的总体框图;
图2为本发明实施例的传播路径的提取;
图3为本发明实施例的路径-用户二元关联图模型;
图4为本发明实施例的用户-领域划分模型;
图5为本发明实施例的“路径-用户-领域”三元关联图模型;
图6为本发明实施例的完整生命周期内关键元素动态演绎图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的一种基于三元关联图的社交话题影响力识别方法,包括以下步骤:
S1、利用网络爬虫和/或各种社交软件提供的API接口获取数据源,获取的数据包括:热点话题数据和参与用户行为属性数据;
S2、根据获取的数据源提取热点话题的传播路径以及参与用户的所属领域信息,构建路径-用户-领域三元关联图模型;
S3、利用元素节点序列的初始得分向量和相互之间的权值矩阵,在路径-用户-领域三元关联图模型上进行正反迭代投票来挖掘出热点话题传播的关键元素节点信息;
S4、根据关键元素节点信息,利用时间切片的方法,对完整生命周期内热点话题的传播过程进行动态演绎;
S5、将完整生命周期内热点话题传播的关键用户和关键领域的动态演绎过程存储到话题管理服务器,通过话题管理服务器将热点话题的动态演绎完整过程传送给网络话题监管中心或网络话题监管部门,并进行可视化展示,辅助监管部门精准与实时地对热点话题传播趋势进行监督、控制、引导与清理需求。
本发明的一种基于三元关联图的社交话题影响力识别装置,包括:
数据采集模块,用于从网页中采集数据源;
数据预处理模块,用于对采集的数据进行简单清洗,并将预处理后的数据输入到动态演绎模块中;
动态演绎模块,用于对输入的数据进行路径-用户-领域三元关联图建模处理和正反迭代机制处理,对热点话题传播过程进行动态演绎,识别该热点话题的关键用户、关键路径、关键领域;
输出模块,所述输出模块与话题管理器连接,输出模块用于将完整生命周期内热点话题传播的动态演绎过程、关键用户、关键路径和关键领域存储到话题管理服务器,通过话题管理服务器将热点话题的动态演绎完整过程传送给网络话题监管中心或网络话题监管部门,采用可视化设备进行可视化展示。
第一步获取数据源。获取的数据为新浪微博数据,主要通过网络爬虫获取,获取的数据内容主要包括热点话题数据和参与用户行为属性数据两部分,所述热点话题数据包括该热点话题下的参与用户ID、参与用户转发及数目、参与用户评论内容及数目;参与用户行为属性数据包括参与用户兴趣爱好、参与用户擅长领域、参与用户标签信息、参与用户好友关系及数目、参与用户转发数、参与用户评论等。
进一步的,数据的获取具体包括以下步骤:
S11、获取原始数据。利用各种网络爬虫软件或者通过各社交网站开放API平台获取数据;
S12、简单的数据清洗。通过简单的数据清洗可以使大部分数据利于分析,例如,删除重复数据、删除关键信息缺失的数据,清理无效节点等。
可选的,数据源也可采用现有技术的常规方法获取,例如:利用各种社交软件提供的API接口获取数据源。
第二步根据获取的数据源提取热点话题的传播路径以及参与用户的所属领域信息,构建路径-用户-领域三元关联图模型。此步骤主要包括构建路径-用户二元关联图模型、用户-领域划分模型和路径-用户-领域三元关联图模型三个步骤。
S21、据获取的数据源提取热点话题的传播路径和参与用户的所属领域信息,根据热点话题每条传播路径的节点信息构建路径-用户二元关联图模型。由于同一个用户可同时参与到多条路径对热点话题进行传播,且爬取到的话题信息数据中很难直观发现出路径与用户之间的关联性关系,为此,需先对话题传播路径进行提取,并对路径与用户之间的关联关系进行分析后才能构建路径-用户二元关联图模型。
S22、根据重叠社区划分算法将热点话题参与用户划分成不同的社团,构建用户-领域划分模型。针对热点话题传播过程中参与用户的重叠性、领域的交叉性特点,本发明借鉴重叠社区识别算法Copra算法的思想,将所有参与热点话题传播的重叠用户、非重叠用户分别划分到对应的社团中,从而得到每个社团的用户集合;然后再根据参与用户的标签、兴趣爱好和擅长领域统计出该社团集合内各领域类别出现的次数,按照“少数服从多数”的投票原则将得分最高的领域类别称为该社团的领域类别Dk,该社团里面的用户集合称为该领域的用户集合Um。
从以上步骤可知,所有话题参与的重叠用户、非重叠用户均可通过上述重叠社区识别算法划分到不同的领域类别,且其中的部分领域类别之间存在着交叉关系,为形象地刻画出这种用户与领域之间的划分关系,本发明提出如图4所示的用户-领域划分模型,其中每条有向箭头均表示参与用户Ui在Copra算法的作用下被划分到领域Dk中。
S23、在路径-用户二元关联图模型、用户-领域划分模型基础之上,构建路径-用户-领域三元关联图模型。为了方便对传播路径、参与用户与传播领域这三个关键元素之间的关联关系进行识别与分析,本发明在路径-用户二元关联图模型、用户-领域划分模型的基础上,借鉴图论中的三元关联图模型,将话题传播网络中所有关键元素节点划分为三个互不相交的子集P、U与D,相关联的两个元素节点属于不同子集,两组元素节点之间的连边关系看作是一组权重矩阵,如图5所示即为热点话题传播网络三元关联图模型,该三元关联图模型可用GT={P∪U∪D,A∪B}表示。其中,P为话题传播网络中传播路径的集合,U为话题传播网络中参与用户的集合,D为话题传播网络中传播领域的集合,A为传播路径与参与用户之间的权重矩阵,B为参与用户与传播领域之间的权重矩阵。如果传播路径i与参与用户j之间有关联关系,则权重矩阵A中的转移概率aij>0或aji>0,否则,aij=0或aji=0。如果参与用户j与传播领域k之间有关联关系,则权重矩阵B中的转移概率bjk>0或bkj>0,否则,bjk=0或bkj=0。权重矩阵A和B表示如下:
Ai,j=[aij]i×j 式(1)
Aj,i=[aji]j×i 式(2)
Bj,k=[bjk]j×k 式(3)
Bk,j=[bkj]k×j 式(4)
进一步的,路径-用户二元关联图模型包括的构建具体包括以下步骤:
S211、话题传播路径的提取。根据热点话题传播的时效性特点,本发明在热点话题的传播过程中,以参与用户转发行为的时间先后顺序为切入点,对话题完整生命周期内的传播路径进行提取与分析。当参与用户对话题进行传播时,可把话题的发起者当作是根节点,每一个转发用户均看作一个孩子节点,每一次的转发行为看作参与用户之间的一条边,则所有参与用户的转发行为可以构成一个话题传播树模型,然后,以根节点为起点,叶子结点为终点,可确定话题传播完整生命周期内的每条具体传播路径,如图2所示。
S212根据热点话题每条传播路径中的节点行为信息构建用户-路径二元关联图模型。从传播路径提取结果可知,在话题传播完整生命周期内,热点话题是一个节点沿着一条有向边传播到另一个节点的,因此,根据每条传播路径中的节点行为信息可构建如图3所示的用户-路径二元关联图模型。通过该模型可直观、方便地知道参与用户与传播路径之间关联关系,如路径P1的参与用户有U1、U2、U3等,重叠用户U3参与了传播路径P1、P2、P3、P4等的传播过程。
进一步的,构建用户-领域划分模型具体包括以下步骤:
S221、在重叠社区识别算法的基础上,根据参与用户之间的好友关系,将所有参与热点话题传播的用户划分到不同的社团中,得到每个社团的参与用户集合;
S222、根据社团内参与用户的标签信息、参与用户兴趣爱好和擅长领域,以投票方式统计该社团内各个领域类别出现的次数,按照“少数服从多数”的投票原则,将得分最高的领域类别作为该社团的领域类别Dk,将该社团的参与用户集合作为该领域类别的用户集合Um;
S223、对每个社团进行步骤S222的处理,从而构建一种用户-领域划分模型。
第三步根据交叉评分策略,提出一种基于路径-用户-领域三元关联图和正反迭代投票机制的话题关键元素识别算法,利用元素节点序列的初始得分向量和相互之间的权值矩阵,在路径-用户-领域三元关联图模型上进行正反迭代投票来挖掘出热点话题传播的关键元素节点信息。
热点话题在参与用户之间不断传播的规律构成话题传播路径,又可以说,在传播路径中某些用户的推动作用下传播到了某个传播领域,这无疑就说明了热点话题三元关联图中各元素节点之间有着很强的相互关联关系,任何节点状态的更新都会影响到与之相关联的元素节点。因此,本发明根据交叉评分策略,在构建的路径-用户-领域三元关联图模型上进行正反迭代投票机制来挖掘出热点话题传播的关键元素节点,主要包括以下步骤:
S31、三元关联图模型中各节点初值的计算,包括在T阶段内对传播路径的重要程度、传播领域的流行度和参与用户的重要程度进行计算,具体包括:
S311、计算T阶段内传播路径的重要程度。在社交网络中传播路径的重要程度主要由参与用户数决定,一般地,参与用户数目越多,那么该传播路径就越重要。因此,本发明用来衡量热点话题传播T阶段内传播路径的重要程度,其计算公式如下所示:
S312、计算T阶段内传播领域的流行度。考虑到早期流行度和晚期流行度在经过对数处理能呈现出很强的线性关联性,而且随机波动可以表现为噪声的形式,本文采用时间分片的方法对传播领域的流行度进行阶段性的计算。
其中,表示k领域在T阶段内话题传播网络中的权重,Nusers表示在T阶段该领域中参与话题传播的普通用户数目,NAuts表示在T阶段该领域中参与话题传播的认证用户数目,T为热点话题传播的当前阶段,T0为热点话题传播的起始阶段,C1和C2为权重系数,δ为调节因子。
然后,计算话题传播T阶段内k领域的流行度公式如下所示:
其中,为话题传播T阶段内k领域的流行度,N_traWj为k领域内第j个用户参与该热点话题的转发数目,N_comWj为k领域内第j个用户参与该热点话题的评论数目,J表示T阶段内k领域中所有参与用户的集合,为k领域在T阶段内话题传播网络中的权重。
S313、计算T阶段内参与用户的影响力度。由于参与用户的传播力度受用户传播意愿和热点话题在该领域的流行度共同影响,因此可用上述两个关键指标来计算参与用户的影响力度,如下:
其中,表示T阶段内参与用户j的影响力度,Nfans表示T阶段内用户j的粉丝数目,Nrets表示T阶段内用户j的转发微博数目,表示T阶段内用户j所涉及到所有传播领域的流行度总和,C3和C4为权重系数,K表示参与用户j所涉及的所有领域集合。
因此,根据上述对传播路径、参与用户与传播领域这三个关键元素的重要程度的计算可知,在热点话题传播的T阶段内,传播路径、参与用户与传播领域所对应的初始得分向量X0、Y0和Z0的计算公式分别如下:
S32、在三元关联图上进行正反迭代投票,识别出关键元素的最终得分向量:根据权重矩阵A、权重矩阵B、传播路径、参与用户与传播领域所对应的初始得分向量X0、Y0和Z0,采用正反迭代投票机制进行迭代,当本次迭代后X'的模与上一次迭代后X的模之差小于阈值ε时,迭代过程终止,并返回传播路径、参与用户与传播领域所对应的最终得分向量X'、Y'和Z',得到关键元素节点信息。
为了通过正反迭代投票机制来识别出热点话题传播过程中关键元素的最终得分向量,本发明用X、Y、Z分别表示迭代过程中传播路径、参与用户和传播领域的得分向量,再在路径-用户-领域三元关联图基础上,根据权重矩阵A和B,传播路径、参与用户与传播领域所对应的初始得分向量X0、Y0和Z0,进行正反迭代投票机制,得到传播路径、参与用户与传播领域所对应的最终得分向量X'、Y'和Z'。
进一步的,所述正反迭代投票机制主要分为正向迭代投票和反向迭代投票两个步骤。在正向投票过程中,在上一次迭代后参与用户得分向量Y的基础上,从传播路径得分向量X开始,以权重矩阵Ai,j进行转化得到参与用户的新得分向量Y'。然后,在上一次迭代后传播领域得分向量Z的基础上,从参与用户得分向量Y'开始,以权重矩阵Bj,k进行转化得到传播领域的新得分向量Z',计算公式如下:
Y'=λY+(1-λ)Ai,j TX 式(12)
Z'=Z+(1-λ)Bj,k TY' 式(13)
在反向投票过程中,其步骤与正向投票过程相同,此处不多做赘述,其计算公式如下:
Y'=λY+(1-λ)Bk,j TZ' 式(14)
X'=λX+(1-λ)Aj,i TY' 式(15)
其中,λ为阻尼系数,X、Y、Z均表示上一次迭代后的得分向量(在第一次正向投票时令X=X0、Y=Y0、Z=Z0),Ai,j T表示T阶段内路径i转移到用户j的权重矩阵,Bj,k T表示T阶段内用户j转移到领域k的权重矩阵,Bk,j T表示T阶段内领域k转移到用户j的权重矩阵,Aj,i T表示T阶段内用户j转移到路径i的权重矩阵。
进一步的,所述正反迭代投票机制采用正向迭代投票和反向迭代投票交替进行,当本次迭代后X'的模与上一次迭代后X的模之差小于阈值ε时,迭代过程立即终止,并返回传播路径、参与用户与传播领域所对应的最终得分向量X'、Y'、Z'。为了确保该机制的最终收敛效果,在每完成一轮反向投票过程,对该机制中的传播路径、参与用户和传播领域的得分向量分别进行一次归一化处理。
第四步根据关键元素节点信息,利用时间切片的方法,对完整生命周期内热点话题的传播过程进行动态演绎。在三元关联图模型上进行正反迭代投票识别出关键元素节点信息后,利用时间切片的方法,动态演化出完整生命周期内热点话题如何从一个关键用户传播另一个关键用户,如何从一个关键领域传播到另一个关键领域,如图6所示,圆圈表示关键领域,节点表示关键用户,交叉圆圈中的深色节点表示关键重叠用户,进而实现了本发明中完整生命周期内热点话题传播过程的动态挖掘。
第五步将完整生命周期内热点话题传播过程中关键用户和关键领域的动态演绎规律存储到话题管理服务器,通过话题管理服务器将热点话题的动态演绎完整过程传送给网络话题监管中心或网络话题监管部门,采用Tableau、BDP等可视化设备进行可视化展示,辅助监管部门精准与实时地对热点话题传播趋势进行监督、控制、引导与清理等需求。
本发明以热点话题传播网络中用户属性数据、用户行为关系数据以及热点话题信息数据为基础,综合考虑热点话题传播过程中参与用户的重叠性、领域的交叉性、关键元素的演化动态性特点,提出一种基于三元关联图和迭代投票机制的多领域多阶段热点话题影响力识别研究方法——PUDMining算法模型来实现多领域多阶段的热点话题影响力识别方案,可广泛应用于政府部门的网络舆情监督、市场部门的热点信息投放等领域。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种基于三元关联图的社交话题影响力识别方法,其特征在于,包括以下步骤:
S1、利用网络爬虫和/或各种社交软件提供的API接口获取数据源,获取的数据包括:热点话题数据和参与用户行为属性数据;
S2、根据获取的数据源提取热点话题的传播路径以及参与用户的所属领域信息,构建路径-用户-领域三元关联图模型;
S3、利用元素节点序列的初始得分向量和相互之间的权值矩阵,在路径-用户-领域三元关联图模型上进行正反迭代投票来挖掘出热点话题传播的关键元素节点信息;
S4、根据关键元素节点信息,利用时间切片的方法,对完整生命周期内热点话题的传播过程进行动态演绎;
S5、将完整生命周期内热点话题传播的关键用户和关键领域的动态演绎过程存储到话题管理服务器,通过话题管理服务器将热点话题的动态演绎完整过程传送给网络话题监管中心或网络话题监管部门,并进行可视化展示,辅助监管部门精准与实时地对热点话题传播趋势进行监督、控制、引导与清理需求。
2.如权利要求1所述的一种基于三元关联图的社交话题影响力识别方法,其特征在于,所述热点话题数据包括:热点话题下的参与用户ID、参与用户转发内容及数目、参与用户评论内容及数目;所述参与用户行为属性数据包括:参与用户兴趣爱好、参与用户擅长领域、参与用户标签信息、参与用户好友关系及数目、参与用户转发数、参与用户评论数目。
3.如权利要求1所述的一种基于三元关联图的社交话题影响力识别方法,其特征在于,构建路径-用户-领域三元关联图模型具体包括以下步骤:
S21、根据获取的数据源提取热点话题的传播路径和参与用户的所属领域信息,根据热点话题每条传播路径的节点信息构建路径-用户二元关联图模型;
S22、根据重叠社区划分算法将热点话题参与用户划分成不同的社团,构建用户-领域划分模型;
S23、在路径-用户二元关联图模型、用户-领域划分模型基础之上,构建路径-用户-领域三元关联图模型。
4.如权利要求3所述的一种基于三元关联图的社交话题影响力识别方法,其特征在于,路径-用户二元关联图模型的构建包括以下步骤:
S211、将话题的发起者作为根节点,每一个转发用户作为一个子节点,每一次的转发行为看作参与用户之间的一条边,构建话题传播树模型,以根节点为起点,叶子节点为终点,确定热点话题的每条传播路径;
S212、根据热点话题每条传播路径中的节点行为信息构建用户-路径二元关联图模型。
5.如权利要求3所述的一种基于三元关联图的社交话题影响力识别方法,其特征在于,用户-领域划分模型的构建包括:
S221、在重叠社区识别算法的基础上,根据参与用户之间的好友关系,将所有参与热点话题传播的用户划分到不同的社团中,得到每个社团的参与用户集合;
S222、根据社团内参与用户的标签信息、参与用户兴趣爱好和擅长领域,以投票方式统计该社团内各个领域类别出现的次数,按照“少数服从多数”的投票原则,将得分最高的领域类别作为该社团的领域类别Dk,将该社团的参与用户集合作为该领域类别的用户集合Um;
S223、对每个社团进行步骤S222的处理,从而构建一种用户-领域划分模型。
6.如权利要求3所述的一种基于三元关联图的社交话题影响力识别方法,其特征在于,构建路径-用户-领域三元关联图模型包括:根据路径-用户二元关联图模型和用户-领域划分模型,以传播路径、参与用户和传播领域为三个关键元素,将热点话题传播网络划分成三个互不相交的子集P、U与D,其中,两组元素节点之间的连边关系作为权重矩阵A和权重矩阵B,完成热点话题传播网络的路径-用户-领域三元关联图模型的构建,该三元关联图模型用GT={P∪U∪D,A∪B}表示,其中,P为话题传播网络中传播路径的集合,U为话题传播网络中参与用户的集合,D为话题传播网络中传播领域的集合,A为传播路径与参与用户之间的权重矩阵,B为参与用户与传播领域之间的权重矩阵。
7.如权利要求1所述的一种基于三元关联图的社交话题影响力识别方法,其特征在于,在路径-用户-领域三元关联图模型上进行正反迭代投票,挖掘出热点话题传播的关键元素节点,具体包括:
S31、计算三元关联图模型中各节点初值:在T阶段内,对传播路径的重要程度、传播领域的流行度以及参与用户的影响力度进行计算,得到传播路径、参与用户与传播领域所对应的初始得分向量X0、Y0和Z0;
S32、在三元关联图上进行正反迭代投票,识别出关键元素的最终得分向量:根据权重矩阵A、权重矩阵B、传播路径、参与用户与传播领域所对应的初始得分向量X0、Y0和Z0,采用正反迭代投票机制进行迭代,当本次迭代后X'的模与上一次迭代后X的模之差小于阈值ε时,迭代过程终止,并返回传播路径、参与用户与传播领域所对应的最终得分向量X'、Y'和Z',得到关键元素节点信息。
8.如权利要求6所述的一种基于三元关联图的社交话题影响力识别方法,其特征在于,所述正反迭代投票机制包括正向迭代投票和反向迭代投票两个步骤,正向迭代投票和反向迭代投票交替进行,当本次迭代后X'的模与上一次迭代后X的模之差小于阈值ε时,迭代过程终止,并返回X'、Y'、Z';每完成一轮反向投票过程,对该机制中的传播路径、参与用户和传播领域的得分向量分别进行一次归一化处理。
9.一种基于三元关联图的社交话题影响力识别装置,其特征在于,包括:
数据采集模块,用于从网页中采集数据源;
数据预处理模块,用于对采集的数据进行简单清洗,并将预处理后的数据输入到动态演绎模块中;
动态演绎模块,用于对输入的数据进行路径-用户-领域三元关联图建模处理和正反迭代机制处理,对热点话题传播过程进行动态演绎,识别出该热点话题的关键用户、关键路径、关键领域;
输出模块,所述输出模块与话题管理器连接,输出模块用于将完整生命周期内热点话题传播的动态演绎过程、关键用户、关键路径和关键领域存储到话题管理服务器,通过话题管理服务器将热点话题的动态演绎完整过程传送给网络话题监管中心或网络话题监管部门,采用可视化设备进行可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911098384.4A CN110851684B (zh) | 2019-11-12 | 2019-11-12 | 一种基于三元关联图的社交话题影响力识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911098384.4A CN110851684B (zh) | 2019-11-12 | 2019-11-12 | 一种基于三元关联图的社交话题影响力识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851684A true CN110851684A (zh) | 2020-02-28 |
CN110851684B CN110851684B (zh) | 2022-10-04 |
Family
ID=69601560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911098384.4A Active CN110851684B (zh) | 2019-11-12 | 2019-11-12 | 一种基于三元关联图的社交话题影响力识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851684B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256756A (zh) * | 2020-10-22 | 2021-01-22 | 重庆邮电大学 | 一种基于三元关联图和知识表示的影响力发现方法 |
CN112508726A (zh) * | 2020-12-25 | 2021-03-16 | 东北电力大学 | 一种基于信息传播特点的虚假舆论识别系统及其处理方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140588A (zh) * | 2007-10-10 | 2008-03-12 | 华为技术有限公司 | 一种关联关系搜索结果的排序方法及装置 |
US20140156673A1 (en) * | 2012-11-30 | 2014-06-05 | International Business Machines Corporation | Measuring and altering topic influence on edited and unedited media |
CN105260474A (zh) * | 2015-10-29 | 2016-01-20 | 俞定国 | 一种基于信息交互网络的微博用户影响力计算方法 |
CN105809554A (zh) * | 2016-02-07 | 2016-07-27 | 重庆邮电大学 | 一种社交网络中用户参与热点话题的预测方法 |
CN106104512A (zh) * | 2013-09-19 | 2016-11-09 | 西斯摩斯公司 | 用于主动获取社交数据的系统和方法 |
US9715495B1 (en) * | 2016-12-15 | 2017-07-25 | Quid, Inc. | Topic-influenced document relationship graphs |
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
CN108170842A (zh) * | 2018-01-16 | 2018-06-15 | 重庆邮电大学 | 基于三部图模型的微博热点话题溯源方法 |
CN108304867A (zh) * | 2018-01-24 | 2018-07-20 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
CN109844653A (zh) * | 2016-05-13 | 2019-06-04 | 维利通阿尔法公司 | 使用预测来控制目标系统 |
-
2019
- 2019-11-12 CN CN201911098384.4A patent/CN110851684B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140588A (zh) * | 2007-10-10 | 2008-03-12 | 华为技术有限公司 | 一种关联关系搜索结果的排序方法及装置 |
US20140156673A1 (en) * | 2012-11-30 | 2014-06-05 | International Business Machines Corporation | Measuring and altering topic influence on edited and unedited media |
CN106104512A (zh) * | 2013-09-19 | 2016-11-09 | 西斯摩斯公司 | 用于主动获取社交数据的系统和方法 |
CN105260474A (zh) * | 2015-10-29 | 2016-01-20 | 俞定国 | 一种基于信息交互网络的微博用户影响力计算方法 |
CN105809554A (zh) * | 2016-02-07 | 2016-07-27 | 重庆邮电大学 | 一种社交网络中用户参与热点话题的预测方法 |
CN109844653A (zh) * | 2016-05-13 | 2019-06-04 | 维利通阿尔法公司 | 使用预测来控制目标系统 |
CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
US9715495B1 (en) * | 2016-12-15 | 2017-07-25 | Quid, Inc. | Topic-influenced document relationship graphs |
CN108170842A (zh) * | 2018-01-16 | 2018-06-15 | 重庆邮电大学 | 基于三部图模型的微博热点话题溯源方法 |
CN108304867A (zh) * | 2018-01-24 | 2018-07-20 | 重庆邮电大学 | 面向社交网络的信息流行度预测方法及系统 |
Non-Patent Citations (3)
Title |
---|
AMIT GOYAL等: "A Data-Based Approach to Social Influence Maximization", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 * |
朱湘: "面向社交网络的信息传播关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 * |
石旭: "社交网络中热点话题影响力分析与预测模型研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256756A (zh) * | 2020-10-22 | 2021-01-22 | 重庆邮电大学 | 一种基于三元关联图和知识表示的影响力发现方法 |
CN112256756B (zh) * | 2020-10-22 | 2022-09-23 | 重庆邮电大学 | 一种基于三元关联图和知识表示的影响力发现方法 |
CN112508726A (zh) * | 2020-12-25 | 2021-03-16 | 东北电力大学 | 一种基于信息传播特点的虚假舆论识别系统及其处理方法 |
CN112508726B (zh) * | 2020-12-25 | 2022-04-19 | 东北电力大学 | 一种基于信息传播特点的虚假舆论识别系统及其处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110851684B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alrubaian et al. | Reputation‐based credibility analysis of Twitter social network users | |
Ratkiewicz et al. | Detecting and tracking political abuse in social media | |
Narayanam et al. | A shapley value-based approach to discover influential nodes in social networks | |
CN103927398B (zh) | 基于最大频繁项集挖掘的微博炒作群体发现方法 | |
Ienco et al. | The meme ranking problem: Maximizing microblogging virality | |
CN103136267B (zh) | 一种基于社区的专家挖掘方法与装置 | |
CN107273396A (zh) | 一种社交网络信息传播检测节点的选择方法 | |
CN105956184A (zh) | 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法 | |
CN108170842A (zh) | 基于三部图模型的微博热点话题溯源方法 | |
CN110851684B (zh) | 一种基于三元关联图的社交话题影响力识别方法及装置 | |
Xu et al. | Revealing, characterizing, and detecting crowdsourcing spammers: A case study in community Q&A | |
Kaligotla et al. | Diffusion of competing rumours on social media | |
CN113422761A (zh) | 基于对抗学习的恶意社交用户检测方法 | |
Mao et al. | TPS: A topological potential scheme to predict influential network nodes for intelligent communication in social networks | |
Akram et al. | Finding rotten eggs: A review spam detection model using diverse feature sets | |
CN114218457A (zh) | 一种基于转发社交媒体用户表征的假新闻检测方法 | |
CN105589916A (zh) | 显式和隐式兴趣知识的提取方法 | |
CN115329078B (zh) | 文本数据处理方法、装置、设备以及存储介质 | |
CN110825972B (zh) | 一种基于领域差异化的热点话题关键用户发现方法 | |
Zhang et al. | Structured multiagent decision-making in information diffusion: The model and dynamics | |
CN112256756B (zh) | 一种基于三元关联图和知识表示的影响力发现方法 | |
Cheng et al. | Collection, exploration and analysis of crowdfunding social networks | |
CN109146700B (zh) | 一种针对社交网络领袖的影响力特征提取方法 | |
Ejima et al. | Concept of keystone species in web systems: Identifying small yet influential online bulletin board threads | |
CN114049138A (zh) | 带属性的社交网络中竞争影响传播的初始用户选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |