CN110795641B - 基于表示学习的网络谣言传播控制方法 - Google Patents

基于表示学习的网络谣言传播控制方法 Download PDF

Info

Publication number
CN110795641B
CN110795641B CN201911071623.7A CN201911071623A CN110795641B CN 110795641 B CN110795641 B CN 110795641B CN 201911071623 A CN201911071623 A CN 201911071623A CN 110795641 B CN110795641 B CN 110795641B
Authority
CN
China
Prior art keywords
user
rumor
users
influence
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911071623.7A
Other languages
English (en)
Other versions
CN110795641A (zh
Inventor
肖云鹏
杨秋帆
卢星宇
李暾
李茜
桑春艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911071623.7A priority Critical patent/CN110795641B/zh
Publication of CN110795641A publication Critical patent/CN110795641A/zh
Application granted granted Critical
Publication of CN110795641B publication Critical patent/CN110795641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于社交网络谣言信息控制技术领域,特别涉及一种基于表示学习的网络谣言传播控制方法,包括获取原始数据进行预处理,并对预处理后的原始数据进行时间分片;提取用户社交结构、用户历史信息、用户基本属性三个方面的相关属性向量,并将相关属性转换为低位稠密实质向量;构建图卷积神经网络,并将特征向量作为图卷积神经网的输入;利用训练数据对图卷积神经网络进行训练;图卷积神经网络输出下一个时刻用户的粉丝参与话题的概率、该粉丝参与谣言的概率以及该粉丝参与辟谣话题的概率;若该用户参与谣言的概率最大,则将辟谣消息推送给该用户;本发明使用表示学习的方法全貌表示了谣言话题下用户的特征,从而使最后的预测效果更好。

Description

基于表示学习的网络谣言传播控制方法
技术领域
本发明属于社交网络谣言信息控制技术领域,特别涉及一种基于表示学习的网络谣言传播控制方法。
背景技术
网络谣言集中在信息爆炸的时代,其存在严重扰乱了社会秩序。新一代的社交信息传播技术促进了信息快速共享和大规模的信息级联,且由于网络谣言自身的隐蔽性、突发性、传播分散性,往往在短时间内就能快速扩散影响,甚至比真实的信息传播更快、影响更广。因此,对网络谣言的内在传播规律的分析与控制的研究,在引导正确的舆论、遏制谣言传播、维护社会稳定等方面都有重大的意义。只要能得到一个更精准的谣言话题下用户转发预测模型,就可以对网络谣言的传播规律进行更准确地分析与控制。
现阶段,在社交网络中引发的网络舆情越来越多,对网络舆情的分析也逐渐成为研究热点。其主要研究在用户影响力、信息传播、用户转发等方向有不同程度的探索。所使用的方法包括基于文本的分析、基于用户影响力的分析和基于网络结构的分析等。在针对谣言话题的用户转发预测中,多数研究主要以影响力为切入点,结合用户自身属性特点进行用户转发预测及话题演化分析。
当前对谣言话题潜在用户转发预测的研究,主要围绕用户从以下各个层面进行较为细致的分析。针对社交网络中的谣言信息的传播规律,从谣言信息转发预测的角度出发,使用表示学习的方法综合考虑社交网络结构特征、用户节点特征、谣言信息特征,提取影响用户转发的的相关属性,建立转发预测模型,预测用户的转发并发现其中的关键的驱动因素。
发明内容
为了控制社交网络中谣言的传播,本发明提出一种基于表示学习的网络谣言传播控制方法,包括以下步骤:
S1、获取当前时刻的原始数据作为训练数据,对训练数据进行预处理,并对预处理后的原始数据进行时间分片;
S2、基于用户社交结构、用户历史信息、用户多维属性,分别提取用户社交结构、用户历史信息、用户多维属性三个方面的相关属性向量,并将相关属性转换为3个长度相同到的低位稠密实质向量;
S3、构建图卷积神经网络,并将特征向量作为图卷积神经网的输入;
S4、利用训练数据对图卷积神经网络进行训练;
S5、图卷积神经网络输出下一个时刻用户的粉丝参与话题的概率、该粉丝参与谣言的概率以及该粉丝参与辟谣话题的概率;
S6、若该用户参与谣言的概率最大,则将辟谣消息推送给该用户。
进一步的,用户历史信息的相关属性向量的获取过程包括:
获取用户发布在社交网络发布的短文本以及用户在社交网络转发的内容;
将用户发布在社交网络发布的短文本以及用户在社交网络转发的内容拼接成一个文档作为该用户的社交信息语料库;
利用结巴分词对语料库中的句子进行分词并排除常用停用词后,获得关键词候选序列;
利用使用TF-IDF算法计算用户关键词权重,提取权重最大的N个关键词;
使用Doc2vec方法,将该权重最大的N个关键词转化成向量,作为该用户的用户历史信息的相关属性向量。
进一步的,用户社交网络结构的相关属性向量的获取过程包括:
根据用户活跃度、用户历史转发率和用户信息感知率建立用户内部影响因素;
根据好友带动力、信息传播影响力建立用户外部影响因素;
基于多元线性回归算法,根据内部影响因素和外部影响因素分别构建谣言消息影响力和辟谣消息影响力;
利用利用演化博弈理论度量对谣言消息和辟谣消息的影响力进行优化;
根据优化后各个用户之间的形象力建立用户关联矩阵;
利用Node2vec方法将用户关联矩阵训练成向量,该向量即为用户社交网络结构的相关属性向量。
进一步的,所述利用利用演化博弈理论度量对谣言消息和辟谣消息的影响力进行优化包括将谣言消息影响力与用户的邻接用户中转发谣言消息比例之积作为用户转发谣言消息的收益、将辟谣消息影响力与用户的邻接用户中转发辟谣消息的比例之积作为用户转发辟谣消息的收益,基于演化博弈理论,获取优化的谣言消息和辟谣消息的影响力,表示:
Figure BDA0002261134940000031
Figure BDA0002261134940000032
其中,MutR(ui,uj)表示优化后的谣言消息用户ui对用户uj的谣言传播行为影响力,MutA(ui,uj)表示优化后的辟谣消息用户ui对用户uj的谣言传播行为影响力,ProR(ui,uj)表示用户转发谣言消息的收益,ProA(ui,uj)表示用户转发辟谣消息的收益。
进一步的,用户关联矩阵表示为:
Figure BDA0002261134940000033
其中,
Figure BDA0002261134940000034
为用户关联矩阵;
Figure BDA0002261134940000036
为用户ui与用户uj之间的关系,表示为:
Figure BDA0002261134940000035
MutR(ui,uj)表示优化后的谣言消息用户ui对用户uj的谣言传播行为影响力,MutA(ui,uj)表示优化后的辟谣消息用户ui对用户uj的谣言传播行为影响力。
进一步的,用户多维属性的相关属性向量的获取过程包括:设置栈式自编码器数量为h,将用户多维属性输入到栈式自编码器中,栈式自编码器通过逐层贪婪训练法依次训练网络中的每一个自编码器,前一个自编码器在训练得到的编码器向量,作为后一个自编码器的输入,第h个自编码器训练完成得到的编码向量作为整个栈式自编码器的输出,最终输出指定维度的向量,该向量即为用户多维属性的相关属性向量,其中用户的多维属性包括活跃度、用户历史转发率、用户信息感知率、好友带动力、信息传播影响力。
进一步的,步骤S1具体包括:抓取某个谣言话题下的转发或评论用户的信息,包括已参与话题讨论用户的粉丝信息,并使用文本情感分析,对用户发言进行分类,判断其为谣言还是辟谣;对训练数据进行时间分片,在每个时间分片的周期里,从训练数据中找出已参与该谣言话题的用户以及该谣言话题的用户的粉丝。
进一步的,图卷积神经网络包括CNN网络和一个含有一层dropout中间层的双层图卷积神经网络,CNN网络用于对特征网络进行卷积,双层卷积神经网络用于根据CNN网络的输出以及网络中节点的连接关系进行预测,表示为:
Figure BDA0002261134940000041
其中,Z表示图卷积神经网络的输出;H1表示第一层图卷积神经网络的输出;A表示谣言话题下用户之间的邻接矩阵;
Figure BDA0002261134940000042
表示邻接矩阵A的归一化矩阵;
Figure BDA0002261134940000043
表示使用的dropout层;cnn_model(H0)表示特征矩阵H0经过CNN网络卷积后的值;W0表示图卷积神经网络第一层的权重矩阵;W1表示图卷积神经网络第二层的权重矩阵。
本发明相较于现有技术,本专利在谣言转发预测时,额外考虑了辟谣等信息对谣言话题传播的影响,现有的大部分谣言预测技术,采用人为提取的用户特征,本发明使用表示学习的方法全貌表示了谣言话题下用户的特征,从而使最后的预测效果更好。
附图说明
图1是本发明一种基于表示学习的网络谣言传播控制方法的整体框图;
图2是本发明一种基于表示学习的网络谣言传播控制方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于表示学习的网络谣言传播控制方法,如图2,包括以下步骤:
S1、获取当前时刻的原始数据作为训练数据,对训练数据进行预处理,并对预处理后的原始数据进行时间分片;
S2、基于用户社交结构、用户历史信息、用户多维属性,分别提取用户社交结构、用户历史信息、用户多维属性三个方面的相关属性,并将相关属性转换为3个长度相同到的低位稠密实质向量,该向量为特征向量;
S3、构建图卷积神经网络,并将特征向量作为图卷积神经网的输入;
S4、利用训练数据对图卷积神经网络进行训练;
S5、图卷积神经网络输出下一个时刻用户的粉丝参与话题的概率、该粉丝参与谣言的概率以及该粉丝参与辟谣话题的概率;
S6、若该用户参与谣言的概率最大,则将辟谣消息推送给该用户。
如图1,本发明的输入是当前谣言话题下的用户历史社交数据、基本信息、关系数据,经过预测模型后的输出是潜在用户是否会参与该谣言话题属于辟谣还是谣言的预测结果。
在本实施例中,以从微博这个社交网络平台提取的数据为例。
本实施例中需要的训练数据直接从现有的基于Web的研究型推荐系统下载或者利用成熟的社交平台的公共API获取。获取的信息包括抓取某个谣言话题下的转发或评论用户的信息,包括已参与话题讨论用户的粉丝信息,使用文本情感分析对抓取的信息进行分类,判断其为谣言还是辟谣;对训练数据进行时间分片,在每个时间分片的周期里,从训练数据中找出已参与该谣言话题的用户以及该谣言话题的用户的粉丝。
在时间段t内,若谣言参与者的集合为Rt,辟谣参与者的集合为At,这t时间段内谣言话题的参与者的集合Ut表示为:
Figure BDA0002261134940000061
时间段t内谣言话题的参与者构成的网络GU t表示为:
Figure BDA0002261134940000063
其中
Figure BDA0002261134940000062
则表示时间段t内谣言话题参与用户Ut的边集合。
在本实施例中,用户历史信息的相关属性向量的获取过程包括:
获取用户发布在社交网络发布的短文本以及用户在社交网络转发的内容;
将用户发布在社交网络发布的短文本以及用户在社交网络转发的内容拼接成一个文档作为该用户的社交信息语料库;
利用结巴分词对语料库中的句子进行分词并排除常用停用词后,获得关键词候选序列;
利用使用TF-IDF算法计算用户关键词权重,提取权重最大的N个关键词;
使用Doc2vec方法,将该权重最大的N个关键词转化成向量,作为该用户的用户历史信息的相关属性向量。
用户历史社交信息是指的用户发布的微博内容,例如将用户发布的一条微博:“中国外交部:与英方、越方保持密切联系。”这样一条微博就是用户历史社交信息的一部分。对其采用分词、提取关键词、转换词向量得到每个用户的向量。
在本实施例中,用户社交网络结构的相关属性向量的获取过程包括:
根据用户活跃度、用户历史转发率和用户信息感知率建立用户内部影响因素;
根据好友带动力、信息传播影响力建立用户外部影响因素;
基于多元线性回归算法,根据内部影响因素和外部影响因素分别构建谣言消息影响力和辟谣消息影响力;
利用利用演化博弈理论度量对谣言消息和辟谣消息的影响力进行优化;
根据优化后各个用户之间的形象力建立用户关联矩阵;
利用Node2vec方法将用户关联矩阵训练成向量,该向量即为用户社交网络结构的相关属性向量。
在本实施例中,外部影响因素表示为:
fin(ui)=Act(ui)×Ret(ui)×Pre(ui);
用户转发微博数占用户获取的全部微博数的比例,在一定程度上反应了用户在接触新话题时会转发的概率,而用户获取的微博主要来源于好友,因此用户历史转发率为:
Figure BDA0002261134940000071
其中getRetNum(ui)表示用户好友处获取的全部微博数量。
内部影响因素表示为:
Figure BDA0002261134940000072
在谣言话题中,用户通常会受到关注用户的传播行为影响而参与某条谣言,因此,不同的用户的不同好友对其带动力也不同。因此构造一个多维向量来表示不同用户对用户ui的带动力:
Figure BDA0002261134940000073
其中n为谣言话题中参与用户与潜在用户的数量,aFri j表示用户uj对用户ui的好友带动力,将其构造为:
Figure BDA0002261134940000074
其中,
Figure BDA0002261134940000081
表示用户ui转发用户uk原创微博的平均数量,另
Figure BDA0002261134940000082
或用户uj不是用户ui的好友,则aFri j=0。
基于多元线性回归算法,根据内部影响因素和外部影响因素分别构建谣言消息影响力和辟谣消息影响力表示为:
Figure BDA0002261134940000083
Figure BDA0002261134940000084
其中,ρ0、ρ1、ρ2是使用多元线性回归算法训练得到的偏回归系数;
Figure BDA0002261134940000085
表示谣言用户uj对用户ui的外部影响因素;
Figure BDA0002261134940000086
表示辟谣用户uj对用户ui的外部影响因素。
本实施例中,如果用户会参与该谣言话题,会选择转发谣言或辟谣,因此本文中有两种博弈策略:“转发谣言消息”和“转发辟谣消息”。用P1、P2分别表示目标用户ui的邻接用户中转发谣言和辟谣消息的比例。ui的邻接用户中可能两种策略都不参与,但该类用户在当前谣言话题下对目标用户ui产生的影响并不大,因此不予考虑,所以有P1+P2=1;因此,用户转发谣言消息的收益和用户转发辟谣消息的收益表示为:
ProR(ui,uj)=P1×InfR(ui,uj);
ProA(ui,uj)=P2×InfA(ui,uj);
基于演化博弈理论,获取优化的谣言消息和辟谣消息的影响力,表示:
Figure BDA0002261134940000087
Figure BDA0002261134940000088
其中,MutR(ui,uj)表示优化后的谣言消息用户ui对用户uj的谣言传播行为影响力,MutA(ui,uj)表示优化后的辟谣消息用户ui对用户uj的谣言传播行为影响力,ProR(ui,uj)表示用户转发谣言消息的收益,ProA(ui,uj)表示用户转发辟谣消息的收益。
本实施例得到的用户关联矩阵表示为:
Figure BDA0002261134940000091
其中,
Figure BDA0002261134940000092
为用户关联矩阵;
Figure BDA0002261134940000093
为用户ui与用户uj之间的关系,表示为:
Figure BDA0002261134940000094
若i=j,则
Figure BDA0002261134940000095
在本实施例中,用户多维属性的相关属性向量的获取过程包括:设置栈式自编码器数量为h,将用户多维属性输入到栈式自编码器中,栈式自编码器通过逐层贪婪训练法依次训练网络中的每一个自编码器,前一个自编码器在训练得到的编码器向量,作为后一个自编码器的输入,第h个自编码器训练完成得到的编码向量作为整个栈式自编码器的输出,最终输出指定维度的向量,该向量即为用户多维属性的相关属性向量,其中用户个体因素、用户信息感知力和用户活跃度,用户个体因素包括用户的粉丝数、用户性别、账号创建时间。
用户的基本属性可以表示为:
BP={(ui,g)|ui∈(R∪A)};
其中,g表示每个话题传播空间中用户ui的基本信息,其中包括用户个体因素、用户信息感知力和用户活跃度,R表示谣言用户,A表示辟谣用户。用户个体因素包括用户的粉丝数、性别、账号创建时间等基础信息用Iac(ui)表示,用户信息感知力用Pre(ui)表示,用户活跃度用Act(ui)表示,则每个话题传播空间中用户ui的基本信息表示为:
g=Iac(ui)+Pre(ui)+Act(ui);
用户信息感知力表示为:
Figure BDA0002261134940000101
其中,f(ui)表示用户的关注数,fave(net)表示网络中用户的平均关注数,该属性反应了用户在网络中接触到谣言信息的概率;
用户活跃度表示为:
Act(ui)=a×Num[orig(ui)]+Num[retw(ui)];
一般用户发布原创微博的数量少而参与转发的微博数量多,所以原创微博前面定义一个弱化系数a∈[0,1],其物理意义表明用户的原创的转发对用户的活跃度的影响力小于用户转发。Num[orig(ui)],Num[retw(ui)]分别表示用户在谣言爆发前的一段时间发表和转发微博的数量。
传统的离散卷积在非欧氏结构数据上无法保持平移不变性。图卷积神经网络(简称GCN)从图谱理论的框架出发,定义了图上的傅里叶变换,进而实现了图上的卷积操作。在分类问题中GCN将问题定义为基于图的半监督学习,标签传播部分使用基于图的显式正则化项,使标签能在图上平滑过渡。
本发明采用GCN模型对用户社交结构、用户历史信息、用户基本属性的相关属性向量作为输入进行预测,将GCN的传播规则表示为:
Figure BDA0002261134940000102
其中,Hi表示第i层图卷积神经网络的输出,i={1,2};Wi表示图卷积神经网络第i+1层的权重矩阵,i={1,2};邻接矩阵A通常并不是归一化的,因此与A相乘会完全改变特征向量的分布范围,所以我们需要通过如下公式归一化矩阵A使得所有行总和为1:
Figure BDA0002261134940000103
其中,
Figure BDA0002261134940000104
为邻接矩阵A的归一化矩阵,
Figure BDA0002261134940000105
为邻接矩阵A的增广矩阵,
Figure BDA0002261134940000106
表示矩阵A的正交矩阵,I为单位矩阵。
本实施例使用一个含有一层中间层的双层图卷积神经网络,在双层图卷积神经网络中使用softmax函数将图卷积输出转换成不同节点不同分类的概率值,可以将图卷积神经网络表示为:
Figure BDA0002261134940000111
其中,Z表示图卷积神经网络的输出;H1表示第一层图卷积神经网络的输出;A表示谣言话题下用户之间的邻接矩阵;
Figure BDA0002261134940000112
表示邻接矩阵A的归一化矩阵;
Figure BDA0002261134940000113
表示使用的drop层;cnn_model(H0)表示特征矩阵H0经过CNN网络卷积后的值;W0表示图卷积神经网络第一层的权重矩阵;W1表示图卷积神经网络第二层的权重矩阵。
如果进行拼接操作后就直接输入预测模型中,会导致输入序列非常长,此时模型难以学到合理的向量表示。本专利采用CNN模型将这3个表示学习结果向量卷成1个向量来解决这个问题。
模型的输出可以表示为:
Figure BDA0002261134940000114
其中,P(r,a,d|ui)表示图卷积神经网络预测用户ui的三种行为的概率,P(r|ui)表示图卷积神经网络预测的用户ui转发谣言话题的概率,P(a|ui)表示表示图卷积神经网络预测的用户ui转发辟谣话题的概率;P(d|ui)表示图卷积神经网络预测的用户ui不参与话题的概率,当输出Y=1时,表示用户ui可能在下一时刻参与谣言话题,将辟谣消息推荐给该类用户;当输出Y=-1时,表示用户ui可能在下一时刻参与辟谣话题,可以将该用户的动态推荐给其他用户;当输出Y=0时,表示该类用户不会参与话题。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.基于表示学习的网络谣言传播控制方法,其特征在于,包括以下步骤:
S1、获取当前时刻的原始数据作为训练数据,对训练数据进行预处理,并对预处理后的原始数据进行时间分片;
S2、基于用户社交结构、用户历史信息、用户基本属性,分别提取用户社交结构、用户历史信息、用户基本属性三个方面的相关属性向量,并将相关属性转换为3个长度相同的低位稠密实质向量;
其中用户历史信息的相关属性向量的获取过程包括:
获取用户发布在社交网络发布的短文本以及用户在社交网络转发的内容;
将用户发布在社交网络发布的短文本以及用户在社交网络转发的内容拼接成一个文档作为该用户的社交信息语料库;
利用结巴分词对语料库中的句子进行分词并排除常用停用词后,获得关键词候选序列;
利用使用TF-IDF算法计算用户关键词权重,提取权重最大的N个关键词;
使用Doc2vec方法,将该权重最大的N个关键词转化成向量,作为该用户的用户历史信息的相关属性向量;
用户社交网络结构的相关属性向量的获取过程包括:
根据用户活跃度、用户历史转发率和用户信息感知率建立用户内部影响因素;
根据好友带动力、信息传播影响力建立用户外部影响因素;
基于多元线性回归算法,根据内部影响因素和外部影响因素分别构建谣言消息影响力和辟谣消息影响力;
利用演化博弈理论度量对谣言消息和辟谣消息的影响力进行优化;
根据优化后各个用户之间的影响力建立用户关联矩阵;
利用Node2vec方法将用户关联矩阵训练成向量,该向量即为用户社交网络结构的相关属性向量;
用户基本属性的相关属性向量的获取过程包括:设置栈式自编码器数量为h,将用户多维属性输入到栈式自编码器中,栈式自编码器通过逐层贪婪训练法依次训练网络中的每一个自编码器,前一个自编码器在训练得到的编码器向量,作为后一个自编码器的输入,第h个自编码器训练完成得到的编码向量作为整个栈式自编码器的输出,最终输出指定维度的向量,该向量即为用户基本属性的相关属性向量,其中用户的基本属性包括用户活跃度、用户历史转发率、用户信息感知率、好友带动力、信息传播影响力;
S3、构建图卷积神经网络,并将特征向量作为图卷积神经网的输入;
S4、利用训练数据对图卷积神经网络进行训练;
S5、图卷积神经网络输出下一个时刻用户的粉丝参与话题的概率、该粉丝参与谣言的概率以及该粉丝参与辟谣话题的概率;
S6、若该用户的粉丝参与谣言的概率最大,则将辟谣消息推送给该用户;
将当前谣言话题下的用户历史社交数据、基本信息、关系数据作为图卷积神经网络的输入,图卷积神经网络输出潜在用户是否会参与该谣言话题,且参与行为属于辟谣还是谣言的预测结果,并根据预测结果进行消息的推送,表示为:
Figure FDA0003795269580000021
其中,P(r,a,d|ui)表示图卷积神经网络预测潜在用户ui的三种行为的概率,P(r|ui)表示图卷积神经网络预测的潜在用户ui转发谣言话题的概率,P(a|ui)表示图卷积神经网络预测的潜在用户ui转发辟谣话题的概率;P(d|ui)表示图卷积神经网络预测的潜在用户ui不参与话题的概率,当输出Y=1时,表示潜在用户ui在下一时刻参与谣言话题,将辟谣消息推荐给该类用户;当输出Y=-1时,表示潜在用户ui在下一时刻参与辟谣话题,将该用户的动态推荐给其他用户;当输出Y=0时,表示该类用户不会参与话题。
2.根据权利要求1所述的基于表示学习的网络谣言传播控制方法,其特征在于,所述利用演化博弈理论度量对谣言消息和辟谣消息的影响力进行优化包括将谣言消息影响力与用户的邻接用户中转发谣言消息比例之积作为用户转发谣言消息的收益、将辟谣消息影响力与用户的邻接用户中转发辟谣消息的比例之积作为用户转发辟谣消息的收益,基于演化博弈理论,获取优化的谣言消息和辟谣消息的影响力,表示:
Figure FDA0003795269580000031
Figure FDA0003795269580000032
其中,MutR(ui,uj)表示优化后的谣言消息用户ui对用户uj的谣言传播行为影响力,MutA(ui,uj)表示优化后的辟谣消息用户ui对用户uj的谣言传播行为影响力,ProR(ui,uj)表示用户转发谣言消息的收益,ProA(ui,uj)表示用户转发辟谣消息的收益。
3.根据权利要求1所述的基于表示学习的网络谣言传播控制方法,其特征在于,用户关联矩阵表示为:
Figure FDA0003795269580000033
其中,
Figure FDA0003795269580000034
为用户关联矩阵;
Figure FDA0003795269580000035
为用户ui与用户uj之间的关系,表示为:
Figure FDA0003795269580000036
MutR(ui,uj)表示优化后的谣言消息用户ui对用户uj的谣言传播行为影响力,MutA(ui,uj)表示优化后的辟谣消息用户ui对用户uj的谣言传播行为影响力。
4.根据权利要求1所述的基于表示学习的网络谣言传播控制方法,其特征在于,步骤S1具体包括:抓取某个谣言话题下的转发或评论用户的信息,包括已参与话题讨论用户的粉丝信息,并使用文本情感分析对抓取的信息进行分类,判断其为谣言还是辟谣;对训练数据进行时间分片,在每个时间分片的周期里,从训练数据中找出已参与该谣言话题的用户以及该谣言话题的用户的粉丝。
CN201911071623.7A 2019-11-05 2019-11-05 基于表示学习的网络谣言传播控制方法 Active CN110795641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911071623.7A CN110795641B (zh) 2019-11-05 2019-11-05 基于表示学习的网络谣言传播控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911071623.7A CN110795641B (zh) 2019-11-05 2019-11-05 基于表示学习的网络谣言传播控制方法

Publications (2)

Publication Number Publication Date
CN110795641A CN110795641A (zh) 2020-02-14
CN110795641B true CN110795641B (zh) 2022-09-27

Family

ID=69442743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911071623.7A Active CN110795641B (zh) 2019-11-05 2019-11-05 基于表示学习的网络谣言传播控制方法

Country Status (1)

Country Link
CN (1) CN110795641B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858928B (zh) * 2020-06-17 2022-11-18 北京邮电大学 一种基于图结构对抗学习的社交媒体谣言检测方法及装置
CN112069402B (zh) * 2020-08-28 2021-04-20 山东省人工智能研究院 一种基于情感和图卷积神经网络的个性化评论推荐方法
CN112199468B (zh) * 2020-09-23 2022-09-30 夏一雪 一种大数据环境下网络舆情人工智能决策系统
CN112183067B (zh) * 2020-09-23 2022-05-27 夏一雪 一种大数据环境下网络舆情人工智能分析系统
CN112231562B (zh) * 2020-10-15 2023-07-14 北京工商大学 一种网络谣言识别方法及系统
CN112269945B (zh) * 2020-11-03 2022-10-18 重庆邮电大学 基于谣言辟谣促谣和三方认知博弈的信息传播预测方法
CN113055372B (zh) * 2021-03-09 2022-07-01 重庆邮电大学 一种恶意软件的传播预测方法
CN117743581A (zh) * 2023-12-26 2024-03-22 中国农业科学院农业信息研究所 一种农产品质量安全网络谣言的干预方法
CN117633635B (zh) * 2024-01-23 2024-04-16 南京信息工程大学 一种基于时空传播图的动态谣言检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679739A (zh) * 2013-11-27 2015-06-03 江苏华御信息技术有限公司 一种非真实信息传播控制方法
CN106599286A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 一种信息监控辟谣实现方法和装置、移动终端
CN107330079A (zh) * 2017-06-29 2017-11-07 百度在线网络技术(北京)有限公司 基于人工智能呈现辟谣信息的方法和装置
CN107809363A (zh) * 2016-08-30 2018-03-16 腾讯科技(深圳)有限公司 一种网络信息传播控制方法和装置
CN108304521A (zh) * 2018-01-25 2018-07-20 重庆邮电大学 基于演化博弈的微博谣言传播的分析方法与系统
EP3355248A2 (en) * 2017-01-06 2018-08-01 Accenture Global Solutions Limited Security classification by machine learning
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679739A (zh) * 2013-11-27 2015-06-03 江苏华御信息技术有限公司 一种非真实信息传播控制方法
CN107809363A (zh) * 2016-08-30 2018-03-16 腾讯科技(深圳)有限公司 一种网络信息传播控制方法和装置
CN106599286A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 一种信息监控辟谣实现方法和装置、移动终端
EP3355248A2 (en) * 2017-01-06 2018-08-01 Accenture Global Solutions Limited Security classification by machine learning
CN107330079A (zh) * 2017-06-29 2017-11-07 百度在线网络技术(北京)有限公司 基于人工智能呈现辟谣信息的方法和装置
CN108304521A (zh) * 2018-01-25 2018-07-20 重庆邮电大学 基于演化博弈的微博谣言传播的分析方法与系统
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Anh Dang 等.What is in a Rumour: Combined Visual Analysis of Rumour Flow and User Activity.《CGI "16: Proceedings of the 33rd Computer Graphics International》.2016,17–20. *
杨秋帆.基于表示学习的网络谣言传播分析与预测.《中国优秀硕士学位论文全文数据库 信息科技辑》.2021,(第02期),I138-2671. *
龚韶 等.网络舆情安全监测语义识别研究综述.《网络安全技术与应用》.2019,(第7期), *

Also Published As

Publication number Publication date
CN110795641A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110795641B (zh) 基于表示学习的网络谣言传播控制方法
WO2019205795A1 (zh) 兴趣推荐方法、计算机设备及存储介质
Zhou et al. Attention-based BiLSTM models for personality recognition from user-generated content
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
Raisi et al. Weakly supervised cyberbullying detection using co-trained ensembles of embedding models
US11755602B2 (en) Correlating parallelized data from disparate data sources to aggregate graph data portions to predictively identify entity data
Yang et al. Microblog sentiment analysis via embedding social contexts into an attentive LSTM
Fiallos et al. Using reddit data for multi-label text classification of twitter users interests
US20220058464A1 (en) Information processing apparatus and non-transitory computer readable medium
Wang et al. A multitask deep learning approach for user depression detection on sina weibo
Dritsas et al. An apache spark implementation for graph-based hashtag sentiment classification on twitter
Xiao et al. User behavior prediction of social hotspots based on multimessage interaction and neural network
Kumari et al. Sentiment analysis of tweets
Zou et al. Collaborative community-specific microblog sentiment analysis via multi-task learning
CN115712772A (zh) 一种基于话题关联的话题传播预测方法
Badami et al. Detecting polarization in ratings: An automated pipeline and a preliminary quantification on several benchmark data sets
Wang et al. Cyberbullying classification based on social network analysis
Tshimula et al. Har-search: A method to discover hidden affinity relationships in online communities
CN112231579A (zh) 基于隐式社群发现的社会化视频推荐系统与方法
Long et al. Domain-specific user preference prediction based on multiple user activities
Yu et al. Estimation of a low-rank topic-based model for information cascades
CN107590742B (zh) 一种基于行为的社交网络用户属性值反演方法
Wang et al. Towards fake news refuter identification: Mixture of Chi-Merge grounded CNN approach
Devi et al. Twitter Sentiment Analysis using Collaborative Multi Layer Perceptron (MLP) Classifier
CN115329073A (zh) 一种基于注意力机制的方面级文本情感分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant