CN112270174A - 一种谣言检测方法及计算机可读存储介质 - Google Patents

一种谣言检测方法及计算机可读存储介质 Download PDF

Info

Publication number
CN112270174A
CN112270174A CN202011245739.0A CN202011245739A CN112270174A CN 112270174 A CN112270174 A CN 112270174A CN 202011245739 A CN202011245739 A CN 202011245739A CN 112270174 A CN112270174 A CN 112270174A
Authority
CN
China
Prior art keywords
node
key
nodes
tree
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011245739.0A
Other languages
English (en)
Other versions
CN112270174B (zh
Inventor
肖喜
魏子瑜
夏树涛
郑海涛
江勇
陆孺牛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202011245739.0A priority Critical patent/CN112270174B/zh
Publication of CN112270174A publication Critical patent/CN112270174A/zh
Application granted granted Critical
Publication of CN112270174B publication Critical patent/CN112270174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种谣言检测方法及计算机可读存储介质,方法包括:对于社交平台上的每一条动态,收集动态所有的回复和/或转发,将动态视作一个节点,则动态回复和/或转发为所述动态的子节点,节点和所述子节点构成一颗传播树;确定传播树中各个节点包含的子节点的数目并从多到少排序,依序选取至少一个节点与其所包含的子节点构成传播树的关键子树;关键子树中的根节点为源节点;基于每个关键子树中每个节点和每个子节点的原始数据计算所述传播树特征,特征包括文本内容相关特征、用户相关特征、传播结构相关特征;构建SLS神经网络模型用于学习特征;训练SLS神经网络模型并对社交平台上的动态进行谣言检测。提高谣言检测任务的分类准确度。

Description

一种谣言检测方法及计算机可读存储介质
技术领域
本发明涉及谣言检测技术领域,尤其涉及一种谣言检测方法及计算机可读存 储介质。
背景技术
随着互联网的发展,信息的传播变得越来越迅速,越来越便捷,网民们只需 动动手指便可参与到信息的传播过程当中。但与此同时,谣言的传播也变得及其 容易,在微博类似的网络社交平台,有很多谣言盛行,给社会造成了极大危害。 这种情况下,社交平台的用户既是谣言的传播者,也是谣言的受害者。
由于近些年来,网络发展日新月异,信息传播的方式以及特点也在不断发生 变化,社交网络的环境更是变得动态且复杂,语义理解、异构传播结构等问题使 得准确地完成谣言检测任务成为一个巨大挑战。
传统的谣言检测方法主要用到支持向量机、决策树等机器学习算法,从文本 和用户信息中提取特征,例如文本中是否包含链接、用户的粉丝数、点赞数、转 发数等等。传统的机器学习算法速度快,可解释性较好,但是准确度并不能满足 需求。之后出现了神经网络相关的方法,例如卷积神经网络、循环神经网络、长 短期记忆网络、图神经网络等,这些深度学习的方法可以学习到谣言的更高层表 示,提高了准确度,且一些神经网络方法也考虑到了传播模式相关的特征。但是 这些方法用到的神经网络模型较为简单、单一,并不涉及复杂的网络结构,对于 谣言检测任务也没有针对性,且很多神经网络相关方法忽视了传统方法中用到的 很多有效的特征。
现有技术中缺乏一种准确度高的谣言检测方法。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不 必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请 的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创 造性。
发明内容
本发明为了解决现有的问题,提供一种谣言检测方法及计算机可读存储介 质。
为一种谣言检测方法,包括如下步骤:S1:对于社交平台上的每一条动态, 收集所述动态所有的回复和/或转发,将所述动态视作一个节点,则所述动态回 复和/或转发为所述动态的子节点,所述节点和所述子节点构成一颗传播树;S2: 确定所述传播树中各个所述节点包含的所述子节点的数目并从多到少排序,依序 选取至少一个所述节点与其所包含的所述子节点构成所述传播树的关键子树;所 述关键子树中的根节点为源节点;S3:基于每个所述关键子树中每个所述节点和 每个所述子节点的原始数据计算所述传播树特征,所述特征包括文本内容相关特 征、用户相关特征、传播结构相关特征;S4:构建SLS神经网络模型用于学习 所述特征;S5:训练所述SLS神经网络模型并用训练好的所述SLS神经网络模 型对所述社交平台上的动态进行谣言检测。
优选地,所述原始数据包括用户识别码、动态的识别码、所述动态的节点 的父节点的识别码、用户身份是否经过官方验证、是否包含图片或视频、原始 文本、转发数、评论数、点赞数、收藏数、创建时间、用户名称、用户建立时 间。
优选地,所述文本内容相关特征包括:所述节点的文本的情感分数、关键子 树的平均文本长度、关键子树的平均情感分数、关键子树中表示质疑的节点所占 百分比、关键子树中文本包含问号的节点所占百分比、关键子树中文本包含感叹 号的节点所占百分比、关键子树中包含图片和视频的节点所占百分比、关键子树 中文本包含URL链接的节点所占百分比、关键子树中文本包含@符号的节点所占 百分比。
优选地,所述用户相关特征包括源节点账号的存在时间、关键子树中包含个 人照片的节点所占百分比、关键子树中已被认证的节点所占百分比、关键子树所 有节点的平均存在时间、关键子树所有节点的平均粉丝数、关键子树所有节点的 平均转发数、关键子树所有节点的平均收藏数、关键子树所有节点的平均发微博 次数、源节点的粉丝数、源节点的转发数、源节点的发推文次数。
优选地,所述传播结构相关特征包括:传播树的总节点数、关键子树节点数 与传播树总节点数的比值、传播树叶节点数与播树总节点数的比值、传播树的最 大深度、传播树的最大深度与关键子树节点数的比值、传播树叶节点数与非叶节 点数目的比值;所述叶节点是没有子节点的节点;所述非叶节点是有子节点的节 点;所述最大深度是树结构的最大层数。
优选地,所述SLS神经网络模型由分离卷积网络、长短期记忆网络、压缩 和激励网络顺序组成。
优选地,每个传播树的特征向量构成的矩阵X,矩阵X的形状表示为(N,L); 其中,N表示数据集中所述传播树的数目,L则表示所述关键子树的特征的个数; 将矩阵X变形为(N,1,L)并输入到所述分离卷积网络,所述分离卷积网络包括撒 个大小不同的卷积核用于分组卷积,经过三层分离卷积层之后,输出矩阵X表示 为(N,1,L)。
优选地,将经过所述分离卷积网络的输出矩阵变形为(L,N,1)并输入到所述 长短期记忆网络,所述长短期记忆网络用于捕捉全局信息,输出矩阵表示为 (L,N,H),H为所述长短期记忆网络引入的参数。
优选地,将所述长短期记忆网络输出的矩阵变形为(N,H,L,W)输入到所述 压缩和激励网络,W为参数;所述压缩和激励网络引入注意力机制,用
Figure BDA0002769955010000031
表示每个关键子树的特征图,对每个通道应用全局平均池化,得到向量
Figure BDA0002769955010000032
其中,第c个元素计算方法如下:
Figure BDA0002769955010000033
重新调整向量z的计算方法如下:
s=σ(w2δ(w1z))
其中,δ为ReLU激活函数,σ为sigmoid激活函数,
Figure BDA0002769955010000034
r是所述压缩和激励网络参数,控制这两层全连接层的瓶颈形状大小;
由上述公式计算出的s对U进行重新调整:
outputc=scUc
将所述压缩和激励网络的输出重新调整表示为
Figure BDA0002769955010000035
则SLS神经网 络模型的最终输出为:
Figure BDA0002769955010000041
其中,FC表示一个全连接层,Softmax表示一个softmax层,
Figure BDA0002769955010000042
为一个包 含所述传播树属于谣言和非谣言的概率的矩阵。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计 算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种谣言检测方法及计算机可读存储介质,通过 确定网络谣言传播过程中起到关键作用的节点,提出关键子树的全新概念,弥补 了无人关注谣言传播过程中影响力较大的节点的空白,基于该概念所提取出的特 征非常有效,能够反映出谣言与非谣言在传播过程中关键节点的文本内容、用户 信息以及传播结构间的差异,从而提高谣言检测任务的分类准确度。
附图说明
图1是本发明实施例中一种谣言检测方法的示意图。
图2是本发明实施例中一种谣言检测方法的流程示意图。
图3是本发明实施例中一个事件的示意图。
图4是本发明实施例中结构树和关键子树的示意图。
图5是本发明实施例中一种SLS神经网络模型流程示意图。
图6是本发明实施例中分离卷积流程图。
图7是本发明实施例中压缩和激励网络流程图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明 白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所 描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直 接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于” 另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另 外,连接既可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、 “左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指 示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发 明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方 位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗 示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、 “第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例 的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
如图1所示,本发明提供一种谣言检测方法,包括如下步骤:
S1:对于社交平台上的每一条动态,收集所述动态所有的回复和/或转发, 将所述动态视作一个节点,则所述动态回复和/或转发为所述动态的子节点,所 述节点和所述子节点构成一颗传播树;
S2:确定所述传播树中各个所述节点包含的所述子节点的数目并从多到少排 序,依序选取至少一个所述节点与其所包含的所述子节点构成所述传播树的关键 子树;所述关键子树中的根节点为源节点;
S3:基于每个所述关键子树中每个所述节点和每个所述子节点的原始数据计 算所述传播树特征,所述特征包括文本内容相关特征、用户相关特征、传播结构 相关特征;
S4:构建SLS神经网络模型用于学习所述特征;
S5:训练所述SLS神经网络模型并用训练好的所述SLS神经网络模型对所 述社交平台上的动态进行谣言检测。
本发明通过将谣言传播过程表示成树结构,捕捉谣言传播过程中的关键节 点,并且从多方面提取关键节点相关特征,然后通过构建SLS神经网络模型用 于学习这些特征,充分利用文本内容、用户、传播结构三方面特征,结合传统谣 言检测方法中的丰富特征和神经网络的学习高层表示的能力,提高谣言检测的准 确度。
本发明确定网络谣言传播过程中起到关键作用的节点,提出关键子树的全新 概念,弥补了无人关注谣言传播过程中影响力较大的节点的空白,基于该概念所 提取出的特征非常有效,能够反映出谣言与非谣言在传播过程中关键节点的文本 内容、用户信息以及传播结构间的差异,从而提高谣言检测任务的分类准确度。
在本发明的一种实施例中,关键子树可以确定一颗也可以确定多颗。
如图2所示,是本发明提供一种谣言检测方法的流程示意图。
在本发明的一种实施例中,传播平台可以是微博、推特、Facebook等。如 下以微博为例进行说明。谣言是一种在人与人之间传播的虚假信息,在社交平台 上很难仅根据某一条动态的信息就判定出其是否是谣言。因此,应该收集同一个 话题下的多条动态,作为一个样本,称之为一个事件。谣言检测的任务在此被定 义为将事件分类为谣言或者非谣言。
如图3所示,以图的形式表示出一个事件,其中每个节点代表一条微博,每 条边则代表回复关系,例如转发或者评论等等。当然,也可将其视作一种传播树 结构,子节点与父结点的边就代表子节点转发或者回复了父节点,那么根节点就 是该事件的最早发出的微博,称之为源微博。
在信息的传播过程中,影响力较大的节点往往起着至关重要的作用。试想一 条普通的新闻,在社交平台上经过几个百万粉丝的用户转发后便很容易在短时间 内火起来,传播更加迅速和广泛。关键子树的目的就是找出这样的节点,并从中 提取出有用的特征。
对于每个事件组成的传播树来说,首先需要找出关键子树才能提取相关特 征。将事件表示成为传播树结构之后,则关键子树即可定义为孩子节点最多的节 点与其所有子节点的集合。
如图4所示,所有的黑色节点构成了该事件的关键子树。
确定关键子树之后,基于每个关键子树中每个节点和每个子节点的原始数 据计算所述传播树特征,在本发明的一种实施例中,原始数据包括用户识别码、 动态的识别码、所述动态的节点的父节点的识别码、用户身份是否经过官方验 证、是否包含图片或视频、原始文本、转发数、评论数、点赞数、收藏数、创 建时间、用户名称、用户建立时间。
在本发明的又一种实施例中,特征包括文本内容相关特征、用户相关特征、 传播结构相关特征;具体说明如下:
文本内容相关特征包括:
(1)源节点文本的情感分数(用TextBlob对源节点文本进行情感分析)
(2)关键子树的平均文本长度(将关键子树中所有节点的文本长度求和后再取 平均值)
(3)关键子树的平均情感分数(用TextBlob对关键子树中所有节点文本进行 情感分析求和后再取平均值)
(4)关键子树中表示质疑的节点所占百分比(关键子树中文本包含质疑相关词 汇的节点数目/关键子树节点总数目)
(5)关键子树中文本包含问号的节点所占百分比(关键子树中文本包含问号的 节点数目/关键子树节点总数目)
(6)关键子树中文本包含感叹号的节点所占百分比(关键子树中文本包含感叹 号的节点数目/关键子树节点总数目)
(7)关键子树中包含图片和视频的节点所占百分比(关键子树中包含图片和视 频的节点数目/关键子树节点总数目)
(8)关键子树中文本包含URL链接的节点所占百分比(关键子树中包含URL 链接的节点数目/关键子树节点总数目)
(9)关键子树中文本包含@符号的节点所占百分比(关键子树中包含@符号的节 点数目/关键子树节点总数目)
用户相关特征包括:
(1)源节点账号的存在时间(源节点发送该条微博的时间与用户创建时间之 差)
(2)关键子树中包含个人照片的节点所占百分比(关键子树中用户带有个人照 片信息的节点数目/关键子树节点总数目)
(3)关键子树中已被认证的节点所占百分比(关键子树中已经为官方认证的节 点数目/关键子树节点总数目)
(4)关键子树所有节点的平均存在时间(关键子树所有节点发送微博时间与用 户创建时间的差值之和再取平均值)
(5)关键子树所有节点的平均粉丝数(关键子树中所有节点的粉丝数之和再取 平均值)
(6)关键子树所有节点的平均转发数(关键子树中所有节点的转发数之和再取 平均值)
(7)关键子树所有节点的平均收藏数(关键子树中所有节点的收藏数之和再取 平均值)
(8)关键子树所有节点的平均发微博次数(关键子树中所有节点的发微博次数 之和再取平均值)
(9)源节点的粉丝数
(10)源节点的转发数
(11)源节点的发推文次数
传播结构相关特征包括:
(1)传播树的总节点数
(2)关键子树节点数与传播树总节点数的比值
(3)传播树叶节点数与事件总结点数的比值
(4)传播树的最大深度
(5)传播树的最大深度与关键子树节点数的比值
(6)传播树叶节点数与非叶节点数目的比值
其中,叶节点是没有子节点的节点;非叶节点是有子节点的节点;最大深度 是树结构的最大层数。
提取上述特征以后,搭建SLS神经网络模型。
在本发明的一种实施例中,SLS神经网络模型由分离卷积网络、长短期记忆 网络、压缩和激励网络顺序组成。
如图5所示,是本发明实施例中一种SLS神经网络模型流程示意图。
为了充分挖掘出上述基于关键子树所提取出的特征,本发明还提出了分离卷 积、LSTM和SENet相结合的神经网络模型,利用分离卷积发掘局部特征之间的 联系,并减少参数量,加速训练过程,设计不同大小的卷积核使得模型更具有鲁 棒性;长短期记忆网络学习全局的重要信息以及压缩和激励网络引入注意力机制 关注与谣言检测最为相关的表示,对谣言检测任务有很强的针对性,模型可以学 习特征间的局部联系以及全局信息,并且模型引入的注意力机制能够有选择性地 充分利用所提取出的特征信息,解决了已有谣言检测模型单一且准确度不能满足 需求的缺点。
对每个事件来说,都可以提取出文本内容、用户、传播结构三方面特征,用 矩阵X表示每个事件的特征向量构成的矩阵,即X的形状可表示为(N,L),其中, N表示数据集中所述传播树的数目,L则表示所述关键子树的特征的个数。
在本发明的一种实施例中,L=26,共26个特征。为了便于输入到分离卷积 模块,将X变形为(N,1,L)。
分离卷积将传统卷积方法解耦为两步,先是分组卷积,再对深度进行单点卷 积。对于一个分离卷积模块来说,输入表示为(N,Cin,L),输出表示为(N,Cout,L), Cin为输入的通道数,Cout为输出的通道数。
特征之间并不是相互独立的,首先分组卷积,卷积核可以学习到局部的特 征与特征之间的联系。在一种具体的实施例中,如第一个特征是传播树深度第 二个特征是关键子树节点数目那么这两个特征不是相互独立的而是存在一定联 系的卷积可以学习到它们之间的联系将之映射为有利于谣言检测的表示。
首先分组卷积,捕捉局部的特征与特征间的联系:
Figure BDA0002769955010000091
然后对深度进行单点卷积:
Figure BDA0002769955010000092
以上两式中,*表示卷积操作,均为一维卷积,(2)式中的卷积核大小为1。
如图6所示,为了提取不同的高层表示,本发明使用三个大小不同的卷积核 进行分组卷积。且分离卷积模块也被使用三次,(Cin,Cout)分别被设定为(1,128), (128,128),(128,1)。
经过三层分离卷积层之后,X可表示为(N,1,L)。同样,为了便于下一层LSTM 的读入,将X变形为(L,N,1)。
经过分离卷积之后,利用LSTM捕捉全局信息,LSTM模块的输入表示为 (L,N,1),输出表示为(L,N,H)。LSTM的具体计算过程如下:
it=σ(Wiixt+bii+Whiht-1+bhi) (3)
ft=σ(Wifxt+bif+Whfht-1+bhf) (4)
gt=tanh(Wigxt+big+Whght-1+bhg) (5)
ot=σ(Wioxt+bio+Whoht-1+bho) (6)
ct=ft⊙ct-1+it⊙gt (7)
ht=ot⊙tanh(ct) (8)
上述(3)式~(8)式中,σ是sigmoid激活函数,⊙为哈德曼乘积,it,ft,gt, ot分别为输入门、遗忘门、细胞状态与输出门。ht与ht-1分别为t时刻和t-1时 刻的隐藏状态,ct为t时刻更新后的细胞状态。
经过LSTM之后,X可表示为(L,N,H),H为LSTM层引入的参数,在这里设为 32。为了便于SENet的读入,将X变形为(N,H,L,1)。
如图7所示,LSTM模块之后为SENet模块,引入了注意力机制。
SENet模块的输入表示为(N,H,L,W),在一种具体的实施例中W为1,对每 个事件来说,用
Figure BDA0002769955010000101
表示特征图(feature map)。对于每个通道都应用 全局平均池化,也就是图7中的squeeze operation,则可得到向量
Figure BDA0002769955010000102
其中,第c个元素zc计算方法如下:
SENet需要学习到不同通道的重要程度,因此需要对上一步的z进行重新调 整,也即图7中的excitation operation,计算方法如下:
s=σ(w2δ(w1z)) (10)
上式中,δ为ReLU激活函数,σ为sigmoid激活函数,
Figure BDA0002769955010000103
r是参数,控制这两层全连接层的瓶颈形状大小。
SENet的输出就由上述公式计算出的s对U进行重新调整:
outputc=scUc (11)
将SENet的输出重新调整表示为
Figure BDA0002769955010000104
则SLS模型的最终输出为:
Figure BDA0002769955010000111
上式中,FC表示一个全连接层,Softmax表示一个softmax层,
Figure BDA0002769955010000112
为一个包 含事件属于谣言和非谣言的概率的矩阵。根据该矩阵即可判断每个事件对应的标 签是谣言还是非谣言。
以上是每个事件的特征向量构成的矩阵X依次经过分离卷积、LSTM、SENet, 最后得到每个事件对应的类别的过程。
SLS神经网络模型构建完成后,将数据集分为训练集、验证集和测试集,采 用五折交叉验证的方法,early stopping用于防止过拟合,采用精确率、召回 率和准确度、F1-score等指标对方法进行评价。
在本发明的一种实施例中,分离卷积、LSTM以及SENet复合模型不局限于 谣言检测任务,也可用于其他分类任务。比如对对节点进行分类,来寻找恶意用 户等。
在本发明的另一种实施例中,本方案中的复合神经网络模型可以与其他神经 网络优化方法相整合以提高分类准确度,例如dropout,batch normalization 等等。
本发明的方法可部署于例如微博、微信等传统社交平台,可以用于检测被用 户举报的一些不当信息或者爆发性的恶意谣言等,可大大节省相关人力成本。
在本发明一种具体的实施例中,在社交平台上,对每一条推文来说,收集该 条推文的回复以及转发、评论等,与该条推文一起构成一个事件,再通过社交平 台官方的辟谣服务或者社区管理平台等方式获取谣言与非谣言的数据,构成一个 基本的数据集。
将数据集中的每个事件构建成传播树的结构,按照上文中的方法找出关键子 树结构,也即每个事件中起到关键的信息传输作用的节点集合,针对关键子树中 的节点提取出传播结构、文本内容和用户信息三方面的有效特征,构成每个事件 的特征向量。
利用分离卷积、LSTM和SENet搭建神经网络模型,充分利用上一步所提取的 特征信息,将数据集分为训练集、验证集以及测试集,训练模型直至收敛。模型 训练完毕之后,既可用于针对以事件为单位的谣言检测任务。
将SLS与谣言检测领域常见的方法,如支持向量机、决策树、卷积神经网络、 循环神经网络等,在微博数据集上进行了对比,以准确度(Acc)、精确率(Prec)、 召回率(Rec)以及F1-score为评价指标,实验结果表1所示,结果表明SLS 大幅提高了谣言检测任务的准确度。
表1实验结果
Figure BDA0002769955010000121
本申请实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存 储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被 执行时至少执行如上所述的方法。
本申请实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如 上所述的方法。
所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组 合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、 可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只 读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程 只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、 磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、快闪存储 器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存 储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓 存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存 储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM, DynamicRandom AccessMemory)、同步动态随机存取存储器(SDRAM, Synchronous Dynamic RandomAccessMemory)、双倍数据速率同步动态随机存取 存储器(DDRSDRAM,Double DataRateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM, SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器 (DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储介 质旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以 通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单 元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如: 多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或 不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通 信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、 机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单 元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分 布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本 实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中, 也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个 单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功 能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以 通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介 质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包 括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的 产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理 解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软 件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指 令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行 本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设 备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任 意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任 意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下 可以任意组合,得到新的方法实施例或设备实施例。
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能 认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员 来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而 且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种谣言检测方法,其特征在于,包括如下步骤:
S1:对于社交平台上的每一条动态,收集所述动态所有的回复和/或转发,将所述动态视作一个节点,则所述动态回复和/或转发为所述动态的子节点,所述节点和所述子节点构成一颗传播树;
S2:确定所述传播树中各个所述节点包含的所述子节点的数目并从多到少排序,依序选取至少一个所述节点与其所包含的所述子节点构成所述传播树的关键子树;所述关键子树中的根节点为源节点;
S3:基于每个所述关键子树中每个所述节点和每个所述子节点的原始数据计算所述传播树特征,所述特征包括文本内容相关特征、用户相关特征、传播结构相关特征;
S4:构建SLS神经网络模型用于学习所述特征;
S5:训练所述SLS神经网络模型并用训练好的所述SLS神经网络模型对所述社交平台上的动态进行谣言检测。
2.如权利要求1所述的谣言检测方法,其特征在于,所述原始数据包括用户识别码、动态的识别码、所述动态的节点的父节点的识别码、用户身份是否经过官方验证、是否包含图片或视频、原始文本、转发数、评论数、点赞数、收藏数、创建时间、用户名称、用户建立时间。
3.如权利要求2所述的谣言检测方法,其特征在于,所述文本内容相关特征包括:所述节点的文本的情感分数、关键子树的平均文本长度、关键子树的平均情感分数、关键子树中表示质疑的节点所占百分比、关键子树中文本包含问号的节点所占百分比、关键子树中文本包含感叹号的节点所占百分比、关键子树中包含图片和视频的节点所占百分比、关键子树中文本包含URL链接的节点所占百分比、关键子树中文本包含@符号的节点所占百分比。
4.如权利要求3所述的谣言检测方法,其特征在于,所述用户相关特征包括源节点账号的存在时间、关键子树中包含个人照片的节点所占百分比、关键子树中已被认证的节点所占百分比、关键子树所有节点的平均存在时间、关键子树所有节点的平均粉丝数、关键子树所有节点的平均转发数、关键子树所有节点的平均收藏数、关键子树所有节点的平均发微博次数、源节点的粉丝数、源节点的转发数、源节点的发推文次数。
5.如权利要求4所述的谣言检测方法,其特征在于,所述传播结构相关特征包括:传播树的总节点数、关键子树节点数与传播树总节点数的比值、传播树叶节点数与播树总节点数的比值、传播树的最大深度、传播树的最大深度与关键子树节点数的比值、传播树叶节点数与非叶节点数目的比值;
所述叶节点是没有子节点的节点;所述非叶节点是有子节点的节点;所述最大深度是树结构的最大层数。
6.如权利要求5所述的谣言检测方法,其特征在于,所述SLS神经网络模型由分离卷积网络、长短期记忆网络、压缩和激励网络顺序组成。
7.如权利要求6所述的谣言检测方法,其特征在于,每个传播树的特征向量构成的矩阵X,矩阵X的形状表示为(N,L);
其中,N表示数据集中所述传播树的数目,L则表示所述关键子树的特征的个数;
将矩阵X变形为(N,1,L)并输入到所述分离卷积网络,所述分离卷积网络包括撒个大小不同的卷积核用于分组卷积,经过三层分离卷积层之后,输出矩阵X表示为(N,1,L)。
8.如权利要求7所述的谣言检测方法,其特征在于,将经过所述分离卷积网络的输出矩阵变形为(L,N,1)并输入到所述长短期记忆网络,所述长短期记忆网络用于捕捉全局信息,输出矩阵表示为(L,N,H),H为所述长短期记忆网络引入的参数。
9.如权利要求8所述的谣言检测方法,其特征在于,将所述长短期记忆网络输出的矩阵变形为(N,H,L,W)输入到所述压缩和激励网络,W为参数;所述压缩和激励网络引入注意力机制,用
Figure FDA0002769953000000021
表示每个关键子树的特征图,对每个通道应用全局平均池化,得到向量
Figure FDA0002769953000000022
其中,第c个元素计算方法如下:
Figure FDA0002769953000000023
重新调整向量z的计算方法如下:
s=σ(w2δ(w1z))
其中,δ为ReLU激活函数,σ为sigmoid激活函数,
Figure FDA0002769953000000031
r是所述压缩和激励网络参数,控制这两层全连接层的瓶颈形状大小;
由上述公式计算出的s对U进行重新调整:
outputc=scUc
将所述压缩和激励网络的输出重新调整表示为
Figure FDA0002769953000000032
则SLS神经网络模型的最终输出为:
Figure FDA0002769953000000033
其中,FC表示一个全连接层,Softmax表示一个softmax层,
Figure FDA0002769953000000034
为一个包含所述传播树属于谣言和非谣言的概率的矩阵。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。
CN202011245739.0A 2020-11-10 2020-11-10 一种谣言检测方法及计算机可读存储介质 Active CN112270174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011245739.0A CN112270174B (zh) 2020-11-10 2020-11-10 一种谣言检测方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011245739.0A CN112270174B (zh) 2020-11-10 2020-11-10 一种谣言检测方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112270174A true CN112270174A (zh) 2021-01-26
CN112270174B CN112270174B (zh) 2022-04-29

Family

ID=74339753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011245739.0A Active CN112270174B (zh) 2020-11-10 2020-11-10 一种谣言检测方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112270174B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627477A (zh) * 2021-07-07 2021-11-09 武汉魅瞳科技有限公司 车辆多属性识别方法及系统
CN114330337A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种用于社交媒体上的谣言检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866586A (zh) * 2015-05-28 2015-08-26 中国科学院计算技术研究所 用于计算社会媒体中信息传播节点重要性的方法及系统
US20160212163A1 (en) * 2015-01-16 2016-07-21 The Trustees Of The Stevens Institute Of Technology Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks
CN106354845A (zh) * 2016-08-31 2017-01-25 上海交通大学 基于传播结构的微博谣言识别方法和系统
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
CN108733763A (zh) * 2018-04-16 2018-11-02 国家计算机网络与信息安全管理中心 基于微博热门事件计算关键节点的方法及装置
CN108833382A (zh) * 2018-05-31 2018-11-16 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统
US20190379628A1 (en) * 2018-06-07 2019-12-12 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for detecting fake news in a social media network
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160212163A1 (en) * 2015-01-16 2016-07-21 The Trustees Of The Stevens Institute Of Technology Method and Apparatus to Identify the Source of Information or Misinformation in Large-Scale Social Media Networks
CN104866586A (zh) * 2015-05-28 2015-08-26 中国科学院计算技术研究所 用于计算社会媒体中信息传播节点重要性的方法及系统
CN106354845A (zh) * 2016-08-31 2017-01-25 上海交通大学 基于传播结构的微博谣言识别方法和系统
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
CN108733763A (zh) * 2018-04-16 2018-11-02 国家计算机网络与信息安全管理中心 基于微博热门事件计算关键节点的方法及装置
CN108833382A (zh) * 2018-05-31 2018-11-16 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN111431742A (zh) * 2018-05-31 2020-07-17 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
US20190379628A1 (en) * 2018-06-07 2019-12-12 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for detecting fake news in a social media network
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JING MA ET AL.: "Detecting Rumors from Microblogs with Recurrent Neural Networks", 《PROCEEDINGS OF THE TWENTY-FIFTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-16)》 *
JING MA ET AL.: "Rumor detection on twitter with treestructured recursive neural networks", 《PROCEEDINGS OF THE 56TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (LONG PAPERS)》 *
蔡国永 等: "基于标记信息级联传播树特征的谣言检测新方法", 《计算机工程与科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627477A (zh) * 2021-07-07 2021-11-09 武汉魅瞳科技有限公司 车辆多属性识别方法及系统
CN114330337A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种用于社交媒体上的谣言检测方法
CN114330337B (zh) * 2021-12-29 2023-04-07 电子科技大学 一种用于社交媒体上的谣言检测方法

Also Published As

Publication number Publication date
CN112270174B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
EP3769278A1 (en) Method of news evaluation in social media networks
CN112270174B (zh) 一种谣言检测方法及计算机可读存储介质
CN113515634B (zh) 基于分层异质图神经网络的社交媒体谣言检测方法及系统
CN112016601B (zh) 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN110795641A (zh) 基于表示学习的网络谣言传播控制方法
CN108959323B (zh) 视频分类方法和装置
WO2019051962A1 (zh) 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN112989169B (zh) 目标对象识别方法、信息推荐方法、装置、设备及介质
CN111400452A (zh) 文本信息分类处理方法、电子设备及计算机可读存储介质
CN111435369B (zh) 音乐推荐方法、装置、终端及存储介质
Anoop et al. Leveraging heterogeneous data for fake news detection
CN111898038B (zh) 一种基于人机协作的社交媒体假新闻检测方法
CN115577316A (zh) 一种基于多模态数据融合的用户人格预测方法与应用
CN111428151B (zh) 一种基于网络增速的虚假消息识别方法及其装置
Bhattacharya et al. Application of machine learning techniques in detecting fake profiles on social media
US11010687B2 (en) Detecting abusive language using character N-gram features
US20150235138A1 (en) System, method, and storage medium for generating hypotheses in data sets
Yang et al. Emotionally representative image discovery for social events
Machová et al. Algorithms of Machine Learning in Recognition of Trolls in Online Space
Jang et al. Fake News Detection on Social Media: A Temporal-Based Approach.
CN116723005A (zh) 多态隐藏下的恶意代码隐式情报追踪方法及系统
Akbulut et al. Agent based pornography filtering system
CN115905572A (zh) 一种对于推特用户的社交机器人检测方法及存储介质
Sharma et al. Comparative Analysis of Different Algorithms in Link Prediction on Social Networks
Wang et al. Who spread to whom? Inferring online social networks with user features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant