CN115470991A - 基于用户短时情感和演化博弈的网络谣言传播预测方法 - Google Patents
基于用户短时情感和演化博弈的网络谣言传播预测方法 Download PDFInfo
- Publication number
- CN115470991A CN115470991A CN202211119771.3A CN202211119771A CN115470991A CN 115470991 A CN115470991 A CN 115470991A CN 202211119771 A CN202211119771 A CN 202211119771A CN 115470991 A CN115470991 A CN 115470991A
- Authority
- CN
- China
- Prior art keywords
- user
- rumor
- influence
- network
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 230000006399 behavior Effects 0.000 claims description 49
- 230000003993 interaction Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 238000005295 random walk Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims 2
- 238000013508 migration Methods 0.000 claims 2
- 230000002452 interceptive effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 230000002996 emotional effect Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了基于用户短时情感和演化博弈的网络谣言传播预测方法,属于数据处理领域。所述方法包括获取社交网络平台的用户基本信息、用户行为数据和用户文本数据,并进行预处理;计算得到用户自身属性、用户影响力、用户话题参与度、消息流行度、好友驱动力和消息情感分数;并计算出谣言影响力和辟谣影响力,通过演化博弈的方式得到相互影响力;采用节点嵌入算法将用户节点映射到向量空间,采用基于相互影响力的CSR2Vec算法生成特征拓扑矩阵;将特征拓扑矩阵和用户邻接矩阵进行拼接,得到特征向量矩阵;将特征向量矩阵输入到带有注意力机制的图注意力网络模型中,输出用户的传播预测结果;本发明可应用谣言控制,绿色网络安全等多个领域。
Description
技术领域
本发明属于社交网络平台的数据处理领域,主要涉及到用户影响力发现,用户行为分析,特别是基于用户短时情感和演化博弈的网络谣言传播预测方法。
背景技术
谣言是一种复杂的社会现象,其具有两个非常明显的特征:重要性和模糊性。谣言通常是一些没有经过证实的而被大多数人四处传播的信息。在现实生活中,人们无法靠自己去证实信息地真假,而往往会随着周围人改变自己内心地看法,产生从众心理。很多谣言经过大规模地传播,被人们认为是真实的。当谣言在我们的社会中广泛传播,往往会导致人们心中恐慌,造成社会不稳定的局面,这一系列的影响对建设我国稳定的社会环境是具有危害性的。
随着科学技术的不断更新和迭代,人们的交流方式已经发生了翻天覆地的变化。从最开始的线下交流聊天,到如今广泛使用的在线交流平台,科学技术的发展正在逐步地改变人们的生活习惯。现如今,数以亿计的网名都会使用手机,平板,电脑等设备在网上发表言论。设备的便捷性、适用性,大幅度地增加了网民上网浏览信息的时间。网民足不出户,就可以知晓最新的热点事件,在线聊天平台的互动性,让用户得到最真实的感受。而随着移动通信技术的快速发展,网络平台的建设也踏上了更高水准的阶段,可以承载更高的负载,也可以提供用户更快的更新速度,给用户带来更佳的体验感。
然而,事物总是具有两面性。例如微博这种的大型在线网络交流平台,给用户带来消息分享的便捷性,但也给社会带来一些潜在的危险。由于微博庞大的用户量,对于网络平台的监控,则变得更加困难。在一个热点事件爆发的时候,往往会有大量的用户加入话题的讨论。由于用户传播消息的随意性,我们往往会接收到一些与事实不相符的消息,这就是我们常说的谣言。在话题传播中,往往夹杂着大量的谣言消息,而谣言消息相比于正常消息传播更为迅速,范围也更广。
近些年来,国内外的研究者们都对谣言传播领域进行了深入的研究。在研究模型方面,最早的是以社会网络分析和数学模型为基础,基于用户节点,来进行谣言传播模型的研究,其中传染病(SIR)模型即为最基本的模型。另一方面就是以机器学习和深度学习相结合的针对于谣言传播特征方面的角度来开展研究。在研究角度方面,一部分研究学者主要从用户自身特征方面开展谣言的研究,从用户自身出发,考虑用户的历史传播行为和用户的自身特点,来预测谣言对用户的吸引程度。另外一部分研究学者基于谣言的传播空间方面开展谣言对用户的转发行为进行预测。这些研究者们都取得了不错的成果。
虽然研究者们对谣言话题的传播预测已经取得一定的成果,但仍然还存在一些挑战:
1.用户与谣言消息的情感关联性。消息传播空间下,某一特定时间段内,谣言消息的情感会较大程度上影响用户的行为,如何量化用户与消息的情感影响力是需要解决的问题。
2.谣言消息特征空间的复杂性和多样性。谣言传播空间下,用户,消息,网络,行为的复杂性和多样性,为有效地表达谣言特征带来了困难,从而影响了模型的预测准确率。
3.谣言消息的合作性与对立性。在谣言传播空间下,谣言消息和辟谣消息同时存在。用户的行为极大程度上受两种消息的影响,如何衡量谣言消息和辟谣消息对用户行为的影响,是研究者们需要考虑的问题。
发明内容
针对以上挑战,本发明提出一种基于用户短时情感和演化博弈的网络谣言传播预测方法。本发明引入演化博弈论,在个体层面和群体层面来探究影响谣言消息传播的因素,最后建立用户对谣言消息的行为预测模型,并分析在不同的时间段内,参与话题传播的群体行为,研究谣言在其生命周期内的演化规律。
一种基于用户短时情感和演化博弈的网络谣言传播检测方法,所述方法包括:
获取社交网络平台的用户基本信息、用户行为数据和用户文本数据,并对获取的数据进行预处理;
根据预处理后的用户基本信息和用户行为数据,分别计算出用户自身属性、用户影响力、用户话题参与度、消息流行度和好友驱动力;
根据预处理后的用户文本数据,采用TF-IDF算法生成词频特征,利用情感分类器对词频特征进行处理,生成消息情感分数;
根据用户自身属性、用户影响力、用户话题参与度、消息流行度、消息情感分数和好友驱动力,采用多元回归线性算法计算出谣言影响力和辟谣影响力;
根据谣言影响力和辟谣影响力分别计算出用户转发谣言信息和转发辟谣信息的策略收益,并采用演化博弈模型度量谣言信息和辟谣信息的相互影响力;
采用节点嵌入算法将用户节点映射到向量空间,采用基于相互影响力的随机游走算法生成话题网络的特征拓扑矩阵;
将话题网络的特征拓扑矩阵和用户邻接矩阵进行拼接,融合形成特征向量矩阵;
将融合后的特征向量矩阵输入到带有注意力机制的图注意力网络模型中,输出用户不参与谣言话题、或者转发谣言信息或者转发辟谣信息的预测结果。话题网络的特征拓扑矩阵话题网络的特征拓扑矩阵
本发明的有益效果:
本发明采集用户的个人信息、用户历史行为记录、用户文本内容等记录,并且创建用户交互矩阵,也即邻接矩阵,能够有效地表达用户之间的交互关系。通过设计了一种学习话题的新方法CSR2Vec算法(基于相互影响力的随机游走算法),将特征空间低秩稠密矢量化,有效地解决用户数据稀疏性问题。同时,本发明将用户情感因素和演化博弈论结合,充分考虑用户面对谣言时的情绪因素,提高预测用户是否转发谣言的准确性。最后、使用带有注意力机制的图神经网络,更好地处理动态图结构,通过对用户行为的结果,能够有效预测群体行为,进一步判断谣言的发展趋势。
附图说明
图1是本发明实施例的基于用户短时情感和演化博弈的网络谣言传播模型结构图;
图2是本发明实施例的基于用户短时情感和演化博弈的网络谣言传播方法流程图;
图3是本发明实施例的文本表示示意图;
图4是本发明实施例的特征拓扑矩阵结构表示示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更好地阐述本发明的技术方案并使优点更加简明清晰,下面先对本发明要解决的问题进行具体解释,再参照说明书附图,对本发明的具体实施方式做进一步详细说明。
图1是本发明实施例的基于用户短时情感和演化博弈的网络谣言传播模型结构图;如图1所示,表明本发明的输入是社交网络平台的用户基本信息、用户行为数据和用户文本数据,经过演化博弈处理后得到谣言信息和辟谣信息的相互影响力,采用基于相互影响力的随机游走(Content Struct rumor Vec, CSR2Vec)算法生成话题网络的特征拓扑矩阵,将特征拓扑矩阵和用户邻接矩阵融合后输入到GAT图注意力网络中,最终输出一个多分类结果,即输出用户不参与谣言话题、或者转发谣言信息或者转发辟谣信息的预测结果。
图2是本发明实施例的基于用户短时情感和演化博弈的网络谣言传播方法流程图;如图2所示,所述方法包括:
101、获取社交网络平台的用户基本信息、用户行为数据和用户文本数据,并对获取的数据进行预处理;
在本发明实施例中,获取社交网络平台的数据的方式可以是从官网网站上下载,或者是利用成熟的社交网络公共API进行获取。
本发明实施例获取的数据可以是来自推特数据集和新浪微博数据集的谣言- 辟谣话题在其生命周期中参与用户的基本信息,以及他们的历史行为记录和话题参与记录。所述用户基本信息是记录着用户的年龄,性别,地区等结构化的数据,所述话题参与记录需要的是话题被转发和评论的时间,所述历史行为记录则是用户在某一段时间内点赞、评论、转发其他用户消息的时间和内容。将这些信息重新整理,分为用户基本信息、用户行为数据和用户文本数据。
可以理解的是,所述用户文本数据是根据话题参与记录和用户行为,再进一步提取出来得到的。而原始数据就是用户给其他用户点赞的记录,以及对应所点赞的内容等。
在本发明实施例中,从社交网络平台获取的原始数据都是一些非结构化的数据,并且有些记录的数据缺失,不能直接用来作数据分析。因此,本发明实施例可以通过简单的数据预处理(清除一些无效数据,删除一些重复数据)将非结构化数据结构化。
在本发明实施例中,还根据采集用户基本信息、用户行为数据和用户文本数据等记录信息,创建用户交互矩阵,也即用户邻接矩阵,所述用户邻接矩阵可以使用图节点网络进行构建,即将用户作为节点,用户之间的关系作为边,利用图网络确定出用户的邻接用户,按照这种方式能够有效地表达用户之间的交互关系。
102、根据预处理后的用户基本信息和用户行为数据,分别计算出用户自身属性、用户影响力、用户话题参与度、消息流行度和好友驱动力;
在本发明实施例中,在刻画谣言-辟谣消息的传播过程中,实际上是需要从消息、用户两个角度去提取相关特征并且利用这些特征构建模型;因此将这些属性信息分为用户属性信息和消息属性信息,在用户方面:比如用户的影响力,活跃度,自身的兴趣;在消息方面:消息的热度,消息情感倾向等。从两个层面去考量不同的影响因素。
在用户层面,本实施例主要考虑用户自身属性、用户影响力、用户话题参与度,以下将分别对这三个属性进行分析:
本实施例分为用户集合和用户参与者网络集合其中Ut表示在时间段t内,参与热点话题传播的用户集合,Rt表示在时间段t内谣言参与者集合,At则表示辟谣参与者集合,所以谣言参与者集合和辟谣参与者集合共同构成了用户集合。则表示时间段t内,参与谣言话题传播用户Ut的边的集合,这里的谣言话题传播即谣言-辟谣话题,具体包括传播谣言消息或/和传播辟谣消息。
所述用户自身属性表示为:User(ui)=[age(ui),gender(ui),fans(ui),fris(ui)](1)
其中,age(ui)表示用户的年龄,gender(ui)表示用户的年龄,fans(ui)表示用户的粉丝数,,fris(ui)表示用户的好友数。
所述用户影响力表示为:
所述用户话题参与度表示为:
其中,participate(ui)表示用户ui话题参与度,allNum(ui)表示用户ui所有的评论数、转发数、点赞数,transNum(ui)表示用户ui关于话题I的所有评论数、转发数、点赞数。
在消息层面,本实施例主要考虑消息流行度、好友驱动力和消息情感分数,以下将分别对这三个属性进行分析:
所述消息流行度表示为:
其中Popularity(t)表示消息在t时刻的流行度,这里的消息可以包括谣言消息或/和辟谣消息,t0表示谣言产生的时刻,Num(t)和Num(t-1)分别表示截止到当前时刻和前一时刻为止谣言信息的转发数和点赞数。
可以理解的是,这里的消息流行度是指一个消息这个整体,谣言消息和辟谣消息都有一个流行度,类似于一个总称。在计算互影响力的时候,本发明将消息分成了谣言消息和辟谣消息,分别对两种信息的相关内容进行处理。
所述好友驱动力表示为:
用户在网络上转发一个热点话题的时候,往往会附带大量的带有自己观点的文字,这些文字可以反应用户对于当前话题的一个态度。同时,社交网络上的推文大多数都带有强烈的情感信息;因此,本发明还考虑了消息情感分数这一属性,消息情感分数是对于给定的消息文本中包含6种情绪中每一种情绪的情感倾向,包括喜悦,悲伤,惊讶,愤怒,厌恶,恐惧。它更能清新地表示整个文本在每一种情绪类别中的积极和消极的含义。
所述消息情感分数表示为:
SenCat(T)=f(T) (7)
其中,对于给定的文本Ti和情感分类器f(·)。f(T)则为对于给定文本T,该文本所属的类别。
但是如何选择给定的文本是现有技术需要解决的问题,本发明将在步骤104 对消息情感分数的具体计算过程进行说明。
103、根据预处理后的用户文本数据,采用TF-IDF算法生成词频特征,利用情感分类器对词频特征进行处理,生成消息情感分数;
在本发明实施例中,发现虚假谣言在他们的回复中引发恐惧、厌恶和惊讶等负面情绪,而真实言论则更倾向于喜悦、悲伤、信任和期待等正面情绪。若用户在某一时间段内的情感状态与其所面对的热点话题所蕴含的情感倾向接近,那么用户就有很大概率选择转发与这个话题相关的言论。而用户的情感是动态的,通过检测用户更细时间粒度的情感来判断用户的转发行为,是非常关键的。在社交网络平台上,比起自己专门发一条微博,用户更倾向于转发其他人的微博或者评论。并且,微博和评论都是篇幅较短的短文本,其中的某个热点词会较大的影响整个短文本的情感。相对于基于词向量的短文本研究方法,TF-IDF可以更好的降低热点词在整个句子和文档中所占的比重。本发明将短文本的 TF-IDF值定义为:
其中,TF表示单词评率,即单词在文档中出现的次数,这可能与文件的长度成正相关。因此,需要对词频规范化,通常是将其出现的次数除以文档中的总字数:
公式(9)中,分子ni,j表示在文档j中单词fi的频率,分母∑knk,j表示文档j 中所有的单词频率的总和。
由于传统TF值计算在单词的某个词频超过某个阈值之后,TF的区分度不够明显,所以本发明根据文档的最大TF值进行标准化,如公式(10):
其中,K是一个介于0.5~1的可调值。传统TF值计算存在一个问题,在文档A中出现了300次和在文档B出现了150次,不能说明在A中的相关性是B 中的相关性的两倍,即在单词的某个词频超过某个阈值之后,TF的区分度没这么明显,且不是呈线性相关,存在长短文档的问题。所以本发明通过对数函数避免相关性线性化、同时对其标准化;从另一方面保证了TF的区分度不会过于明显。由于每次对最大TF值进行标准化可能造成不必要的运算,即过于明显后反而造成了计算出的TF值与实际TF值偏离,基于此,本发明设定当词频超过阈值时,采用公式(10)计算TF值,当词频未超过阈值时,则采用公式(9) 进行计算。
在本发明的优选实施例中,该阈值的计算过程可以包括选择出评价文档/句子为距离当前文档/句子最近的若干文档/句子,即同一用户在最近时间段所发出的文档/句子,或者用户的邻居用户在最近时间段发出的文档/句子;将当前若干文档/句子中每一个文档/句子的TF均值分别作为对应文档/句子的初始值,最小化代价函数,从而确定出该文档/句子所对应的关联系数;在该关联系数下,通过改变初始值,从而确定出最小化代价函数下的计算值;将每一文档/句子的关联系数与相应文档/句子的最小化代价函数下的计算值之间的乘积的总和作为当前文档/句子的阈值。
其中,所述代价函数可以采用现有的任意代价函数,目的是为了使得初始值与实际的文档/句子的TF值之间的差距最小。
IDF表示逆文档频率,可以衡量该词汇是否可以充分表达文本,IDF值越小,说明包含该词汇的文本就越少,则该词汇就可以代表此文本。例如,句子中的‘的’,这个字在文档中出现的频率是非常高的,但是该字并没有表达语句情感的作用。
活跃用户经常会在社交网络平台转发、点赞、评论其他用户的微博,本发明将与用户产生关联的文本汇总,对文本集合进行时间切片,从而提供用户某一个时间片段内的情感。
如图3所示,将文本进行TF和IDF处理后,最终可以得到向量表示,即根据公式(8)计算语料库中每个文本的TF-IDF值 TFpq=fwp1,fwp2,fwp3,...,fwpq),其中p表示文本编号,q表示文本中的第 q个单词,fwpq表示其单词的TF-IDF值,最后文本将会被表示为词频的频率值。
在社交网络上,用户面对一个热点话题时,他们有时候会自发地根据自己地喜好去转发相应的消息,有时候,也会在网络其他用户的影响下,转发谣言消息或者辟谣消息。根据上述内容,本发明将影响用户转发行为的因素归纳成六个:用户自身属性、用户影响力、用户话题参与度、消息流行度、消息情感分数和好友驱动力。基于步骤102和步骤103量化这些因素的不同影响强度,就可能识别出影响用户转发行为的关键性因素。
104、根据用户自身属性、用户影响力、用户话题参与度、消息流行度、消息情感分数和好友驱动力,采用多元回归线性算法计算出谣言影响力和辟谣影响力;
在本发明实施例中,考虑到谣言影响力和辟谣影响力主要由用户因素userfactor(ui)和消息因素mesfactors(I)构成,通过步骤102和步骤103计算出的各个因素,就可以得到相应的谣言影响力和辟谣影响力。其中:
用户因素的构成有:用户自身属性、用户影响力、话题参与度,即:
userfactor(ui)=User(ui)*userInfluence(ui)*participate(ui) (13)
其中,表示用户ui的用户因素。
消息因素的构成有:消息流行度、消息情感分数、好友驱动力,即:
其中,mesfactors(ui,uj用户ui和用户uj之间的消息因素, mesfactorsrumor(ui,uj)表示用户ui和用户uj之间传播谣言消息的消息因素,mesfactorsanti-rumor(ui,uj)表示用户ui和用户uj之间传播辟谣消息的消息因素。
结合上述两种因素,使用多元线性回归算法构造谣言和辟谣影响力函数为:
105、根据谣言影响力和辟谣影响力分别计算出用户转发谣言信息和转发辟谣信息的策略收益,并采用演化博弈模型度量谣言信息和辟谣信息的相互影响力;
在本发明实施例中,由于社交网络的复杂性,在谣言传播的同时,往往也附带着一些辟谣消息,例如官方的辟谣公告信息。它们具有相互促进和对抗的关系,这种关系也是一个影响用户转发行为的重要因素。因此,本发明使用演化博弈论来量化谣言-辟谣相互影响力。首先根据演化博弈论的知识,本发明定义两种博弈策略:“转发谣言消息”和“转发辟谣消息”。两种策略的收益函数分别为:
Benrumor(ui,uj)=P1×influencerumor(ui,uj) (17)
Benanti-rumor(ui,uj)=P2×influenceanti-rumor(ui,uj) (18)
其中,P1和P2为用户ui的好友和粉丝中传播谣言消息和辟谣消息的比例。其中不参与转发消息的用户节点不对其他的用户节点产生影响,因此忽略不计,所以P1+P2=1。然后,用演化博弈论度量谣言相互影响力:
其中MutualInfrumor(ui,uj)、MutualInfanti-rumor(ui,uj)分别表示经过相互博弈后,用户uj传播谣言消息和辟谣消息对用户ui传播行为的影响力。
最后,根据演化博弈理论,谣言消息、辟谣消息之间会存在竞争性,最后得到谣言-辟谣影响力特征矩阵:
其中,m(ui,uj)=MutualInfrimor(ui,uj)-MutualInfrumor(ui,uj),若i=j,则m(ui,uj)=0。
106、采用节点嵌入算法将用户节点映射到向量空间,采用基于相互影响力的随机游走算法生成话题网络的特征拓扑矩阵;
在本发明实例中,在话题传播空间下,用户的自身属性和用户之间的关系网络都会影响用户的转发行为。本发明基于Node2Vec在表达网络拓扑结构上的优势,对谣言网络和其属性进行表示,如图4所示,采集用户基本信息、用户行为数据和用户文本数据后,能够获得用户关系和用户属性,将具有相同属性的用户划分为一个用户群体,利用用户自身属性和用户关系确定出用户的转发关系。
Max∑wlogPr(N(w)|f(w)) (22)
其中,N(w)表示用户节点w的邻域节点,Pr(N(w)|f(w))表示用户节点向量f(w)出现邻域节点的概率,由公式(23)可得:
考虑到节点属性影响因素,算法重新定义了节点游走策略。具体的,节点的转移概率公式定义如公式(24)所示,起始节点定义为c0,所及游走中的第i个节点定义为ci:
其中,,P(ci=x|ci-1=w)表示在用户节点w的基础上,游走到用户节点x的概率,ci-1表示当前用户节点,ci表示下一用户节点,αp,q(w,x)表示用户节点w与用户节点x之间的权重调整参数,其计算公式如公式(25),β(w,x)为用户节点w 与用户节点x之间的相似度。提取用户的相关属性,计算两用户之间的欧式距离来衡量两个用户之间的相似程度,当然可以通过其他度量方式来衡量,对此本发明不作限定。γ(w,x)表示用户节点w与用户节点x传播的谣言话题网络的边权值;E表示话题网络的边集合,z表示话题网络中的节点个数。由于潜在用户与热点用户之间的社会关系会影响其对热点话题的参与行为,以及热点用户对潜在用户的谣言-辟谣互影响力会影响其参与话题传播的行为。先用用户之间的相似度对网络Gt分配边权值,边权值(w,x)的定义如公式(25)(26)所示。
其中,Iw,x表示用户x是否关注用户w,textkb是用户x基于行为b对用户wi生成的文本,b=1表示转发行为,b=2表示评论行为,b=3表示点赞行为,t表示当前话题的时间,tk表示用户w生成第k条文本的时间,K表示用户w生成的文本总数。W(w,x)表示用户节点w与用户节点x之间的相互影响力,interact(w,x) 表示用户节点w与用户节点x之间的交互度。由于用户交互强度具有时效性,所以引入时间衰退函数进行动态优化。
最后,利用CSR2Vec算法将热点话题拓扑表示为低秩稠密的特征向量矩阵,如公式(28)所示:
其中,ES表示话题网络的特征拓扑矩阵,ds表示特征向量的维度,N表示话题空间中用户节点的数量。
107、将话题网络的特征拓扑矩阵和用户邻接矩阵进行拼接,融合形成特征向量矩阵;
在本发明实施例中,需要将特征拓扑矩阵和用户邻接矩阵这两个关键性特征进行特征融合。将话题网络的特征拓扑矩阵ES和用户邻接矩阵A进行拼接,融合成特征向量矩阵E,具体如公式(29)所示:
用E={E1,E2,E3,…,En}表示输入数据,其中Ei是大小为ds+da的向量,邻接矩阵A=N×N,用来表示谣言话题传播混合网络中节点的连接信息。
108、将融合后的特征向量矩阵输入到带有注意力机制的图注意力网络模型中,输出用户不参与谣言话题、或者转发谣言信息或者转发辟谣信息的预测结果。
考虑到用户面对谣言-辟谣消息的短时情感倾向,提取用户文本所含情感作为主要影响特征之一,并且引入演化博弈论来刻画谣言消息和辟谣消息之间的博弈过程。由于社交网络是典型的非欧几里得数据,传统的卷积网络无法对其进行处理,因此研究者会用GCN网络来处理图结构数据,但是由于GCN卷积融合图结构特征时不够灵活,所以本发明选用带有attention的图注意力网络GAT。最终提出了基于用户短时情感和演化博弈的网络谣言传播模型(Cooperation and Opposition influence GAT,简称CO-GAT)。本发明的模型的目标是为了预测潜在用户节点对谣言话题的参与情况,若是参与则判断用户是转发谣言消息或辟谣消息。因此,预测任务也可以转化为一个三分类任务。
将融合向量E={E1,E2,E3,…,En}输入到模型中,输出E′={E′1,E′2,E′3,…,E′n};其中,E′i是大小为ds+da向量,具体如公式(30):
其中,sigmod表示一个非线性函数,Ni表示与节点i相邻的所有节点组成的域,hJ表示节点j的特征向量,W为一个大小为(ds+da)×((ds+da))的权重矩阵。其中αij表示第i个节点与第j个节点之间的attention系数,计算公式如下:
其中eij的计算公式为:
最后,经过全连接层对池化层得输出,令模型输出Z=P(r,a,d|ui),具体定义如下所示:
经过模型的输出后,可以得到t+1时刻用户的转发行为,Y=1表示用户将在下一阶段转发谣言,Y=0表示用户在下一阶段将不再参与该谣言话题,Y=-1表示用户在下一阶段转发辟谣消息。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种基于用户短时情感和演化博弈的网络谣言传播预测方法,其特征在于,所述方法包括:
获取社交网络平台的用户基本信息、用户行为数据和用户文本数据,并对获取的数据进行预处理;
根据预处理后的用户基本信息和用户行为数据,分别计算出用户自身属性、用户影响力、用户话题参与度、消息流行度和好友驱动力;
根据预处理后的用户文本数据,采用TF-IDF算法生成词频特征,利用情感分类器对词频特征进行处理,生成消息情感分数;
根据用户自身属性、用户影响力、用户话题参与度、消息流行度、消息情感分数和好友驱动力,采用多元回归线性算法计算出谣言影响力和辟谣影响力;
根据谣言影响力和辟谣影响力分别计算出用户转发谣言信息和转发辟谣信息的策略收益,并采用演化博弈模型度量谣言信息和辟谣信息的相互影响力;
采用节点嵌入算法将用户节点映射到向量空间,采用基于相互影响力的随机游走算法生成话题网络的特征拓扑矩阵;
将话题网络的特征拓扑矩阵和用户邻接矩阵进行拼接,融合形成特征向量矩阵;
将融合后的特征向量矩阵输入到带有注意力机制的图注意力网络模型中,输出用户不参与谣言话题、或者转发谣言信息或者转发辟谣信息的预测结果。
2.根据权利要求1所述的一种基于用户短时情感和演化博弈的网络谣言传播预测方法,其特征在于,所述根据预处理后的用户文本数据,采用TF-IDF算法生成词频特征,利用情感分类器对词频特征进行处理,生成消息情感分数包括对预处理后的用户文本数据进行时间切片处理,选择用户在某时间段内转发、点赞以及评论的文本集合;采用TF-IDF算法对用户在某时间段内的文本集合进行词频处理,生成用户在某时间段的词频特征,将所述词频特征输入情感分类器中,生成用户在某时间段内的消息情感分数。
3.根据权利要求1或2所述的一种基于用户短时情感和演化博弈的网络谣言传播预测方法,其特征在于,谣言影响力和辟谣影响力分别表示为:
其中,influencerumor(ui,uj)表示用户ui和用户uj之间的谣言影响力,influenceanti-rumor(ui,uj)表示用户ui和用户uj之间的辟谣影响力,分别为使用多元线性回归算法训练得来的偏回归系数,表示在训练过程中整体影响系数,表示用户因素在训练过程中对用户行为的影响系数,表示消息因素在训练过程中对用户行为的影响系数;userfactor(ui)表示用户ui的用户因素,userfactor(ui)=User(ui)*userInfluence(ui)*participate(ui),User(ui)表示用户ui的自身属性,userInfluence(ui)表示用户ui的影响力,participate(ui)表示用户ui话题参与度;mesfactorsrumor(ui,uj)表示用户ui和用户uj之间传播谣言消息的消息因素,mesfactorsanti-rumor(ui,uj)表示用户ui和用户uj之间传播辟谣消息的消息因素,Popularity(t)表示谣言消息或者辟谣消息在t时刻的消息流行度,表示用户ui的消息情感分数,表示用户ui对用户uj的好友驱动力。
5.根据权利要求1所述的一种基于用户短时情感和演化博弈的网络谣言传播预测方法,其特征在于,所述采用基于相互影响力的随机游走算法生成话题网络的特征拓扑矩阵包括根据用户基于转发、点赞以及评论行为的文本集合计算出用户之间的交互度,采用相互影响力和用户之间的交互度计算出谣言话题网络的边权值;根据用户之间的路径长度计算出用户的权重参数;根据用户之间的相似度、谣言话题网络的边权值、用户之间的权重调整参数计算出用户节点的转移概率;按照用户节点的转移概率游走生成话题网络的特征拓扑矩阵。
6.根据权利要求5所述的一种基于用户短时情感和演化博弈的网络谣言传播预测方法,其特征在于,所述按照用户节点的转移概率游走生成话题网络的特征拓扑矩阵包括按照用户节点的转移概率计算出用户节点向量出现邻域节点向量的概率,通过最大化所有用户节点向量出现邻域节点向量的概率,得到各个用户节点表示,并构成话题网络的特征拓扑矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211119771.3A CN115470991A (zh) | 2022-09-15 | 2022-09-15 | 基于用户短时情感和演化博弈的网络谣言传播预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211119771.3A CN115470991A (zh) | 2022-09-15 | 2022-09-15 | 基于用户短时情感和演化博弈的网络谣言传播预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470991A true CN115470991A (zh) | 2022-12-13 |
Family
ID=84333572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211119771.3A Pending CN115470991A (zh) | 2022-09-15 | 2022-09-15 | 基于用户短时情感和演化博弈的网络谣言传播预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470991A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115878907A (zh) * | 2022-12-28 | 2023-03-31 | 人民网股份有限公司 | 基于用户依赖关系的社交网络转发行为预测方法及装置 |
CN117453916A (zh) * | 2023-10-26 | 2024-01-26 | 重庆邮电大学 | 一种基于大数据的微博异常用户检测方法 |
CN117648569A (zh) * | 2024-01-29 | 2024-03-05 | 苏州苏高新数字科技有限公司 | 一种基于大数据的特征提取方法 |
-
2022
- 2022-09-15 CN CN202211119771.3A patent/CN115470991A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115878907A (zh) * | 2022-12-28 | 2023-03-31 | 人民网股份有限公司 | 基于用户依赖关系的社交网络转发行为预测方法及装置 |
CN115878907B (zh) * | 2022-12-28 | 2023-08-11 | 人民网股份有限公司 | 基于用户依赖关系的社交网络转发行为预测方法及装置 |
CN117453916A (zh) * | 2023-10-26 | 2024-01-26 | 重庆邮电大学 | 一种基于大数据的微博异常用户检测方法 |
CN117453916B (zh) * | 2023-10-26 | 2024-10-11 | 重庆邮电大学 | 一种基于大数据的微博异常用户检测方法 |
CN117648569A (zh) * | 2024-01-29 | 2024-03-05 | 苏州苏高新数字科技有限公司 | 一种基于大数据的特征提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795641B (zh) | 基于表示学习的网络谣言传播控制方法 | |
CN115470991A (zh) | 基于用户短时情感和演化博弈的网络谣言传播预测方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
Zhou et al. | Attention-based BiLSTM models for personality recognition from user-generated content | |
CN110336700B (zh) | 一种基于时间及用户的转发序列的微博流行度预测方法 | |
CN113807616B (zh) | 基于时空注意力和异构图卷积网络的信息扩散预测系统 | |
CN106295702B (zh) | 一种基于个体情感行为分析的社交平台用户分类方法 | |
CN106202053A (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
CN112464082B (zh) | 基于稀疏表示和张量补全的谣言-辟谣博弈传播控制方法 | |
CN112699240A (zh) | 中文情感特征词智能动态发掘和归类方法 | |
CN115712772A (zh) | 一种基于话题关联的话题传播预测方法 | |
Wang et al. | Cyberbullying classification based on social network analysis | |
CN114912020A (zh) | 一种基于用户偏好图的多子目标对话推荐方法 | |
CN112269945B (zh) | 基于谣言辟谣促谣和三方认知博弈的信息传播预测方法 | |
CN112052995B (zh) | 基于融合情感倾向主题的社交网络用户影响力预测方法 | |
CN115495671A (zh) | 一种基于图结构迁移的跨领域谣言传播控制方法 | |
CN115510955A (zh) | 一种基于用户信息和话题博弈关系的信息传播预测方法 | |
Wang et al. | The influence of feedback with different opinions on continued user participation in online newsgroups | |
CN112487303B (zh) | 一种基于社交网络用户属性的主题推荐方法 | |
Chen | Consumer preference mining method of online marketing platform based on social network analysis | |
CN110134881A (zh) | 一种基于多信息源图嵌入的好友推荐方法及系统 | |
İş et al. | Twitter users’ emotion, emoticons and scaling metrics based categoric interaction analysis | |
Qin et al. | Recommender resources based on acquiring user's requirement and exploring user's preference with Word2Vec model in web service | |
CN114663246B (zh) | 传播仿真中信息制品的表征建模方法及多智能体仿真方法 | |
CN115497482B (zh) | 一种语音对话方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |