CN113094596A - 一种基于双向传播图的多任务谣言检测方法 - Google Patents

一种基于双向传播图的多任务谣言检测方法 Download PDF

Info

Publication number
CN113094596A
CN113094596A CN202110454550.0A CN202110454550A CN113094596A CN 113094596 A CN113094596 A CN 113094596A CN 202110454550 A CN202110454550 A CN 202110454550A CN 113094596 A CN113094596 A CN 113094596A
Authority
CN
China
Prior art keywords
rumor
feature
matrix
gcn
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110454550.0A
Other languages
English (en)
Inventor
杨鹏
匡晨
田杨静
于晓潭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110454550.0A priority Critical patent/CN113094596A/zh
Publication of CN113094596A publication Critical patent/CN113094596A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测。本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播特征和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。

Description

一种基于双向传播图的多任务谣言检测方法
技术领域
本发明涉及一种基于双向传播图的多任务谣言检测方法,该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测,属于互联网与自然语言处理技术领域。
背景技术
近年来,社交网络取得了快速发展,并迅速成为人们获取新闻资讯的重要途径之一。由于社交网络的信息量庞大且传播速度远超于传统媒介,大量未经证实的谣言得以在网络空间内肆意传播,并成为了一种日益严重的问题。互联网已经成为了继陆地、海洋、天空、太空后的“第五空间”,而利用社交网络平台散布谣言,借机实施网络犯罪、散布暴恐信息、煽动颜色革命等违法犯罪行为已对网络空间安全构成了严峻的威胁。
现有社交网络谣言检测方法主要包括人工谣言检测方法、基于机器学习的谣言检测方法和基于深度学习的谣言检测方法。大多数主流社交网络平台仍将人工谣言检测方法作为甄别疑似谣言信息的主流机制,虽然有着较高的判别准确性,但存在滞后性,且受人为因素的影响较大,因而无法满足社交网络谣言检测的需求。基于机器学习的方法将谣言检测工作归结为二分类问题,使用监督学习方法自动检测谣言信息,对特征工程有着较高的要求,且无法获取谣言在传播和散布过程中的深层特征,故无法获得较高的识别率。而许多基于深度学习的谣言检测方法从谣言的时序传播结构入手,通过抽取谣言在传播过程中深层特征检测疑似谣言信息,往往仅注重谣言的顺序传播特征而忽视了广度散布特征,因此在谣言检测任务中仍存在一定的精度损失。
针对目前社交网络谣言对网络空间安全所构成的严峻威胁和现有谣言检测方法无法有效抽取谣言传播特征的问题,本发明提出一种基于双向传播图的多任务谣言检测方法,使用一种改进的双向图卷积神经网络(Bi-GCN)抽取谣言的顺序传播特征和广度散布特征,并引入对评论文本的立场检测作为辅助任务,提升谣言检测任务的表现与泛化性,从而提高谣言检测的准确率。
发明内容
针对现有技术存在的问题与不足,本发明提供一种基于双向传播图的多任务谣言检测方法,该方法能够实时检测疑似谣言信息以及评论文本的立场,相比现有方法,能够更有效地获取谣言的顺序传播特征和广度散布特征,从而改善现有谣言检测方法准确率不足的问题。
为了实现上述目的,本发明的技术方案如下:一种基于双向传播图的多任务谣言检测方法,该方法涵盖社交网络谣言检测的全过程,主要包括特征提取、特征融合、评论立场类型分类和谣言类型分类等过程,能够有效地抽取谣言的传播特征,从而提高谣言检测任务的准确率。该方法主要包括三个步骤,具体如下:
步骤1,构筑谣言和立场样本数据集。首先使用Twitter15和Twitter16数据集中的用户uid,通过推特开放API获取用户信息,用于谣言检测的任务训练,同时,将PHEME数据集用于用户评论立场检测任务的训练,二者共同构成多任务模型的训练数据集。
步骤2,多任务分类模型训练。对于数据集中的每一个谣言帖子,首先使用TF-IDF算法抽取其文本特征,并生成用户特征和文本统计特征,之后构建谣言的双向传播图,接着将文本特征、用户特征和文本统计特征作为输入,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器。
步骤3,对待检测帖子进行分类预测。对于待检测帖子,首先提取其文本特征、用户特征和文本统计特征,接着构建该帖子的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取传播特征,利用训练好的softmax分类器获得谣言检测和立场检测的结果。
相对于现有技术,本发明的有益效果如下:
1.该方法采用改进的Bi-GCN网络获取谣言的传播特征,能够有效地获取谣言的顺序传播特征和广度散布特征,从而提高谣言检测任务的准确率,相比改进前的Bi-GCN模型84%-86%的检测准确率,该改进模型在其基础上提升了1-1.5个百分点。
2.该方法引入用户评论的立场检测作为辅助任务,能够有效提模型的泛化性,同时进一步提高谣言检测任务的准确率,达到了86%-88.5%的水平。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例的方法总体框架图;
图3为本发明实施例涉及的双向图卷积计算流程图;
图4为本发明实施例涉及的改进双向图卷积网络框架图;
图5为本发明实施例涉及的TD-GCN中的注意力机制示意图;
图6为本发明实施例涉及的BU-GCN中的注意力机制示意图。
具体实施方式
为了加深对本发明的认识和理解,下面结合具体实施例进一步阐明本发明。
实施例:本发明的具体流程和整体框架分别如图1和图2所示,一种基于双向传播图的多任务谣言检测方法,本发明的具体实施步骤如下:
步骤1,构筑谣言和立场样本数据集。本发明首先从Twitter15和Twitter16数据集中获取用户uid,并通过推特开放API获取430000位用户的特征信息用于谣言检测任务的训练,同时,将PHEME数据集用于用户评论立场检测任务的训练,二者共同构成多任务模型的训练数据集。
步骤2,多任务分类模型训练。对于数据集中的每一个谣言帖子,首先使用TF-IDF算法抽取其文本特征Xs,并生成用户特征Xm=1和文本统计特征Xm=2,之后构建谣言的双向传播图,接着将文本特征Xs、用户特征Xm=1和文本统计特征Xm=2作为输入,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征S,最后对传播特征S进行平均池化和特征整合后,训练softmax分类器。该步骤实施过程分为7个子步骤:
子步骤2-1,使用TF-IDF算法生成文本特征矩阵Xs。针对每一个谣言帖子,对其包含的每一条推文使用TF-IDF算法生成文本特征向量
Figure BDA0003040015210000031
并逐条拼接生成文本特征矩阵Xs。TF-IDF的计算公式如下:
Figure BDA0003040015210000032
Figure BDA0003040015210000041
TF-IDF(i,wj)=TF(i,wj)·IDF(wj) (3)
其中,TF(i,wj)表示推文i中单词wj的词频,推文i中单词wj出现的次数由Count(i,wj)表示,Count(i)表示推文i的单词总数;IDF(wj)表示单词wj的逆向频率,|T|表示推文总数,CountTweets(wj)表示包含单词wj的推文总数。
子步骤2-2,生成用户特征矩阵Xm=1。对于每一个谣言帖子,从其包含的每一条推文中抽取其对应用户的特征信息(否有简介、性别、所在地区等),生成用户特征的向量表示,并逐条拼接生成用户特征矩阵Xm=1。用户特征信息的具体内容如如表1所示:
表1用户特征
Figure BDA0003040015210000042
子步骤2-3,生成文本统计特征矩阵Xm=2。对于每一个谣言帖子,从其包含的每一条推文中抽取其对应推文的统计特征信息(否定词数量、咒骂词数量、句号数量等),生成文本统计特征的向量表示,并逐条拼接生成文本统计特征矩阵Xm=2。文本统计特征信息的具体内容如表2所示。其中本发明设置的否定词汇包括not、no、nobody、nothing、none、never、neither、nor、nowhere、hardly、scarcely、barely、don’t、isn’t、wasn’t、shouldn’t、wouldn’t、couldn’t、doesn’t;咒骂词汇参照开源nlp工具textfilter中的英文脏话词典。
表2文本统计特征
Figure BDA0003040015210000051
子步骤2-4,构建双向传播图。对于谣言帖子,根据其包含的所有推文间的转发/回复关系,构建邻接矩阵A。若Ats=1,则说明存在节点t指向节点s的有向边。之后使用DropEdge策略从A中随机提出一些边:
A′=A-Adrop (4)
其中Adrop为以概率p随机从A中挑选的边集合对应的邻接矩阵。于是,对于自顶向下传播图,其邻接矩阵为ATD=A′,而对于自底向上传播图,其邻接矩阵为ABU=A′T
子步骤2-5,抽取谣言传播特征。如图3所示,将子步骤2-1、2-2和2-3生成的文本特征矩阵Xs、用户特征矩阵Xm=1和文本统计特征矩阵Xm=2输入如图4所示的改进Bi-GCN网络中,通过计算双向图卷积,抽取谣言的传播特征。以自顶向下图卷积神经网络(TD-GCN)为例,参数共享层的第一层TD-GCN对应的隐藏矩阵
Figure BDA0003040015210000052
定义为:
Figure BDA0003040015210000053
其中
Figure BDA0003040015210000061
为可训练的参数矩阵。
而特定任务层的第一层TD-GCN对应的隐藏特征矩阵
Figure BDA0003040015210000062
定义为:
Figure BDA0003040015210000063
其中,
Figure BDA0003040015210000064
为归一化邻接矩阵,定义为:
Figure BDA0003040015210000065
Figure BDA0003040015210000066
由邻接矩阵和对角矩阵IN计算得出,定义为:
Figure BDA0003040015210000067
Figure BDA0003040015210000068
为邻接矩阵对应的度矩阵,定义为:
Figure BDA0003040015210000069
σ(·)为非线性的ReLU激活函数。
之后再用同样的方法计算特定任务层的第二层TD-GCN的隐藏特征矩阵
Figure BDA00030400152100000610
Figure BDA00030400152100000611
类似地,可以使用相同的方法计算出自底向上图卷积神经网络(BU-GCN)的隐藏特征矩阵
Figure BDA00030400152100000612
Figure BDA00030400152100000613
Figure BDA00030400152100000614
子步骤2-6,根节点特征增强。对于TD-GCN,计算隐藏特征矩阵
Figure BDA00030400152100000615
对节点i的特征向量
Figure BDA00030400152100000616
进行线性变换
Figure BDA00030400152100000617
将其转换为高维表示,其中U为一个可训练的参数矩阵。
接着,使用如图5所示的注意力机制计算根节点root对于节点i的AttentionScore:
Figure BDA00030400152100000618
其中,
Figure BDA00030400152100000619
为节点root对应的特征向量,
Figure BDA00030400152100000620
为可训练的参数向量。
之后计算节点i对应的根节点特征增强向量,定义为:
Figure BDA0003040015210000071
其中σ(·)为非线性的sigmoid激活函数。
因此,TD-GCN在根节点增强后生成的特征矩阵为:
Figure BDA0003040015210000072
结合公式(5)和公式(6)后得到隐藏矩阵
Figure BDA0003040015210000073
Figure BDA0003040015210000074
通过将公式(10)中的特征矩阵
Figure BDA0003040015210000075
Figure BDA0003040015210000076
替换为
Figure BDA0003040015210000077
Figure BDA0003040015210000078
得到隐藏特征矩阵
Figure BDA0003040015210000079
的计算公式更新为:
Figure BDA00030400152100000710
结合公式(13)后得到隐藏矩阵
Figure BDA00030400152100000711
Figure BDA00030400152100000712
对于自底向上的图卷积网络BU-GCN,计算隐藏特征矩阵
Figure BDA00030400152100000713
参照TD-GCN根节点增强特征计算过程中的公式(11)计算BU-GCN中节点i对根节点root的Attention Score:
Figure BDA00030400152100000714
根节点root的特征增强向量
Figure BDA00030400152100000715
定义:
Figure BDA00030400152100000716
于是,BU-GCN在根节点增强后生成的特征矩阵为:
Figure BDA00030400152100000717
其中,
Figure BDA00030400152100000718
Figure BDA00030400152100000719
的拷贝,参照公式(14)、公式(15)和公式(16),BU-GCN的隐藏矩阵分别为
Figure BDA00030400152100000720
Figure BDA00030400152100000721
Figure BDA0003040015210000081
Figure BDA0003040015210000082
Figure BDA0003040015210000083
子步骤2-7,特征融合及分类结果输出。对于谣言检测任务,用平均池化操作整合TD-GCN的顺序传播特征STD和BU-GCN提取出的广度散布特征SBU
Figure BDA0003040015210000084
Figure BDA0003040015210000085
使用拼接操作后获得整合特征S,定义为:
S=concat(STD,SBU) (25)
将整合特征S依次经过一个全连接层和一个softmax分类器后,获得谣言检测结果
Figure BDA0003040015210000086
定义为:
Figure BDA0003040015210000087
Figure BDA0003040015210000088
其中,
Figure BDA0003040015210000089
为归一化概率,
Figure BDA00030400152100000810
为谣言事件属于标签i的概率。谣言检测任务的最终结果为概率最大的标签
Figure BDA00030400152100000811
定义为:
Figure BDA00030400152100000812
对于立场检测任务,将TD-GCN和BU-GCN提取出的隐藏层特征进行拼接,获得一个整合特征矩阵Z:
Figure BDA00030400152100000813
定义向量
Figure BDA00030400152100000814
为事件中第i条推文在特征矩阵Z对应的特征向量,将其依次送入一个全连接层和一个softmax分类器后,即可获得第i条推文的立场检测结果
Figure BDA00030400152100000815
定义为:
Figure BDA00030400152100000816
Figure BDA0003040015210000091
其中,
Figure BDA0003040015210000092
为归一化概率,
Figure BDA0003040015210000093
为推文立场属于标签j的概率。立场检测任务的最终结果为概率最大的标签
Figure BDA0003040015210000094
定义为:
Figure BDA0003040015210000095
步骤3,对待检测帖子进行分类预测。对于待检测帖子,首先使用TF-IDF算法抽取其文本特征Xs,并生成用户特征Xm=1和文本统计特征Xm=2,之后构建谣言的双向传播图,接着将文本特征Xs、用户特征Xm=1和文本统计特征Xm=2作为输入,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,输入步骤2中训练好的softmax分类器获取谣言检测和立场检测结果。
综上,本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵,之后构建谣言的双向传播图,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,训练softmax分类器,获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播和广度散布特征,并且引入用户评论的立场检测作为辅助任务,从而提高模型的泛化性,进一步提高谣言检测任务的准确率。
基于相同的发明构思,本发明实施例公开的一种基于双向传播图的多任务谣言检测方法与装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于双向传播图的多任务谣言检测方法与装置。
需要说明的是,上述实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims (5)

1.一种基于双向传播图的多任务谣言检测方法,其特征在于,所述方法包括以下步骤:
步骤1,构筑谣言和立场样本数据集,
步骤2,多任务分类模型训练,
步骤3,对待检测帖子进行分类预测。
2.根据权利要求1所述的基于双向传播图的多任务谣言检测方法,其特征在于,步骤1,构筑谣言和立场样本数据集,具体如下,首先使用Twitter15和Twitter16数据集中的用户uid,通过推特开放API获取用户信息,用于谣言检测的任务训练,同时,将PHEME数据集用于用户评论立场检测任务的训练,二者共同构成多任务模型的训练数据集。
3.根据权利要求1所述的基于双向传播图的多任务谣言检测方法,其特征在于,步骤2,多任务分类模型训练,具体如下,对于数据集中的每一个谣言帖子,首先使用TF-IDF算法抽取其文本特征Xs,并生成用户特征Xm=1和文本统计特征Xm=2,之后构建谣言的双向传播图,接着将文本特征Xs、用户特征Xm=1和文本统计特征Xm=2作为输入,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征S,最后对传播特征S进行平均池化和特征整合后,训练softmax分类器。
4.根据权利要求1所述的基于双向传播图的多任务谣言检测方法,其特征在于,步骤2,多任务分类模型训练,该步骤实施过程分为7个子步骤:
子步骤2-1,使用TF-IDF算法生成文本特征矩阵Xs,针对每一个谣言帖子,对其包含的每一条推文使用TF-IDF算法生成文本特征向量
Figure FDA0003040015200000011
并逐条拼接生成文本特征矩阵Xs,TF-IDF的计算公式如下:
Figure FDA0003040015200000012
Figure FDA0003040015200000013
TF-IDF(i,wj)=TF(i,wj)·IDF(wj) (3)
其中,TF(i,wj)表示推文i中单词wj的词频,推文i中单词wj出现的次数由Count(i,wj)表示,Count(i)表示推文i的单词总数;IDF(wj)表示单词wj的逆向频率,|T|表示推文总数,CountTweets(wj)表示包含单词wj的推文总数;
子步骤2-2,生成用户特征矩阵Xm=1,对于每一个谣言帖子,从其包含的每一条推文中抽取其对应用户的特征信息,生成用户特征的向量表示,并逐条拼接生成用户特征矩阵Xm=1,用户特征信息的具体内容如如表1所示:
表1 用户特征
Figure FDA0003040015200000021
子步骤2-3,生成文本统计特征矩阵Xm=2,对于每一个谣言帖子,从其包含的每一条推文中抽取其对应推文的统计特征信息,生成文本统计特征的向量表示,并逐条拼接生成文本统计特征矩阵Xm=2,文本统计特征信息的具体内容如表2所示,
表2 文本统计特征
Figure FDA0003040015200000022
Figure FDA0003040015200000031
子步骤2-4,构建双向传播图,对于谣言帖子,根据其包含的所有推文间的转发/回复关系,构建邻接矩阵A,若Ats=1,则说明存在节点t指向节点s的有向边,之后使用DropEdge策略从A中随机提出一些边:
A′=A-Adrop (4)
其中Adrop为以概率p随机从A中挑选的边集合对应的邻接矩阵,于是,对于自顶向下传播图,其邻接矩阵为ATD=A′,而对于自底向上传播图,其邻接矩阵为ABU=A′T,
子步骤2-5,抽取谣言传播特征,将子步骤2-1、2-2和2-3生成的文本特征矩阵Xs、用户特征矩阵Xm=1和文本统计特征矩阵Xm=2输入改进Bi-GCN网络中,通过计算双向图卷积,抽取谣言的传播特征,以自顶向下图卷积神经网络(TD-GCN)为例,参数共享层的第一层TD-GCN对应的隐藏矩阵
Figure FDA0003040015200000032
定义为:
Figure FDA0003040015200000033
其中
Figure FDA0003040015200000034
为可训练的参数矩阵;
而特定任务层的第一层TD-GCN对应的隐藏特征矩阵
Figure FDA0003040015200000035
定义为:
Figure FDA0003040015200000036
其中,
Figure FDA0003040015200000037
为归一化邻接矩阵,定义为:
Figure FDA0003040015200000038
Figure FDA0003040015200000039
由邻接矩阵和对角矩阵IN计算得出,定义为:
Figure FDA0003040015200000041
Figure FDA0003040015200000042
为邻接矩阵对应的度矩阵,定义为:
Figure FDA0003040015200000043
σ(·)为非线性的ReLU激活函数;
之后再用同样的方法计算特定任务层的第二层TD-GCN的隐藏特征矩阵
Figure FDA0003040015200000044
Figure FDA0003040015200000045
使用相同的方法计算出自底向上图卷积神经网络(BU-GCN)的隐藏特征矩阵
Figure FDA0003040015200000046
Figure FDA0003040015200000047
子步骤2-6,根节点特征增强,对于TD-GCN,计算隐藏特征矩阵
Figure FDA0003040015200000048
对节点i的特征向量
Figure FDA0003040015200000049
进行线性变换
Figure FDA00030400152000000410
将其转换为高维表示,其中U为一个可训练的参数矩阵;
接着,使用注意力机制计算根节点root对于节点i的Attention Score:
Figure FDA00030400152000000411
其中,
Figure FDA00030400152000000412
为节点root对应的特征向量,
Figure FDA00030400152000000413
为可训练的参数向量,
之后计算节点i对应的根节点特征增强向量,定义为:
Figure FDA00030400152000000414
其中σ(·)为非线性的sigmoid激活函数,
因此,TD-GCN在根节点增强后生成的特征矩阵为:
Figure FDA00030400152000000415
结合公式(5)和公式(6)后得到隐藏矩阵
Figure FDA00030400152000000416
Figure FDA00030400152000000417
通过将公式(10)中的特征矩阵
Figure FDA0003040015200000051
Figure FDA0003040015200000052
替换为
Figure FDA0003040015200000053
Figure FDA0003040015200000054
得到隐藏特征矩阵
Figure FDA0003040015200000055
的计算公式更新为:
Figure FDA0003040015200000056
结合公式(13)后得到隐藏矩阵
Figure FDA0003040015200000057
Figure FDA0003040015200000058
对于自底向上的图卷积网络BU-GCN,计算隐藏特征矩阵
Figure FDA0003040015200000059
参照TD-GCN根节点增强特征计算过程中的公式(11)计算BU-GCN中节点i对根节点root的Attention Score:
Figure FDA00030400152000000510
根节点root的特征增强向量
Figure FDA00030400152000000511
定义:
Figure FDA00030400152000000512
于是,BU-GCN在根节点增强后生成的特征矩阵为:
Figure FDA00030400152000000513
其中,
Figure FDA00030400152000000514
Figure FDA00030400152000000515
的拷贝,参照公式(14)、公式(15)和公式(16),BU-GCN的隐藏矩阵分别为
Figure FDA00030400152000000516
Figure FDA00030400152000000517
Figure FDA00030400152000000518
Figure FDA00030400152000000519
Figure FDA00030400152000000520
子步骤2-7,特征融合及分类结果输出。对于谣言检测任务,用平均池化操作整合TD-GCN的顺序传播特征STD和BU-GCN提取出的广度散布特征SBU
Figure FDA00030400152000000521
Figure FDA0003040015200000061
使用拼接操作后获得整合特征S,定义为:
S=concat(STD,SBU) (25)
将整合特征S依次经过一个全连接层和一个softmax分类器后,获得谣言检测结果
Figure FDA0003040015200000062
定义为:
Figure FDA0003040015200000063
Figure FDA0003040015200000064
其中,
Figure FDA0003040015200000065
为归一化概率,
Figure FDA0003040015200000066
为谣言事件属于标签i的概率,谣言检测任务的最终结果为概率最大的标签
Figure FDA0003040015200000067
定义为:
Figure FDA0003040015200000068
对于立场检测任务,将TD-GCN和BU-GCN提取出的隐藏层特征进行拼接,获得一个整合特征矩阵Z:
Figure FDA0003040015200000069
定义向量
Figure FDA00030400152000000610
为事件中第i条推文在特征矩阵Z对应的特征向量,将其依次送入一个全连接层和一个softmax分类器后,即可获得第i条推文的立场检测结果
Figure FDA00030400152000000611
定义为:
Figure FDA00030400152000000612
Figure FDA00030400152000000613
其中,
Figure FDA00030400152000000614
为归一化概率,
Figure FDA00030400152000000615
为推文立场属于标签j的概率,立场检测任务的最终结果为概率最大的标签
Figure FDA00030400152000000616
定义为:
Figure FDA00030400152000000617
5.根据权利要求1所述的基于双向传播图的多任务谣言检测方法,其特征在于,步骤3,对待检测帖子进行分类预测,对于待检测帖子,首先使用TF-IDF算法抽取其文本特征Xs,并生成用户特征Xm=1和文本统计特征Xm=2,之后构建谣言的双向传播图,接着将文本特征Xs、用户特征Xm=1和文本统计特征Xm=2作为输入,通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征,最后对传播特征进行平均池化和特征整合后,输入步骤2中训练好的softmax分类器获取谣言检测和立场检测结果。
CN202110454550.0A 2021-04-26 2021-04-26 一种基于双向传播图的多任务谣言检测方法 Pending CN113094596A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110454550.0A CN113094596A (zh) 2021-04-26 2021-04-26 一种基于双向传播图的多任务谣言检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110454550.0A CN113094596A (zh) 2021-04-26 2021-04-26 一种基于双向传播图的多任务谣言检测方法

Publications (1)

Publication Number Publication Date
CN113094596A true CN113094596A (zh) 2021-07-09

Family

ID=76679970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110454550.0A Pending CN113094596A (zh) 2021-04-26 2021-04-26 一种基于双向传播图的多任务谣言检测方法

Country Status (1)

Country Link
CN (1) CN113094596A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343126A (zh) * 2021-08-06 2021-09-03 四川大学 基于事件与传播结构的谣言检测方法
CN114444516A (zh) * 2022-04-08 2022-05-06 四川大学 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN114638195A (zh) * 2022-01-21 2022-06-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于多任务学习的立场检测方法
CN115048514A (zh) * 2022-06-09 2022-09-13 安徽大学 基于人格的社交网络谣言检测与立场分类方法及系统
CN116542257A (zh) * 2023-07-07 2023-08-04 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN117556830A (zh) * 2024-01-11 2024-02-13 四川大学 基于潜在热点话题与传播过程的谣言检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256981A (zh) * 2020-11-13 2021-01-22 北京理工大学 一种基于线性和非线性传播的谣言检测方法
CN112685541A (zh) * 2021-03-11 2021-04-20 中南大学 一种基于多任务学习的社交媒体谣言检测方法
US20210117619A1 (en) * 2019-10-18 2021-04-22 Nanjing University Of Aeronautics And Astronautics Cyberbullying detection method and system
CN113111267A (zh) * 2021-04-30 2021-07-13 东南大学 一种基于双向传播图的多任务谣言检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210117619A1 (en) * 2019-10-18 2021-04-22 Nanjing University Of Aeronautics And Astronautics Cyberbullying detection method and system
CN112256981A (zh) * 2020-11-13 2021-01-22 北京理工大学 一种基于线性和非线性传播的谣言检测方法
CN112685541A (zh) * 2021-03-11 2021-04-20 中南大学 一种基于多任务学习的社交媒体谣言检测方法
CN113111267A (zh) * 2021-04-30 2021-07-13 东南大学 一种基于双向传播图的多任务谣言检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李奥;但志平;董方敏;刘龙文;冯阳;: "基于改进生成对抗网络的谣言检测方法", 中文信息学报, no. 09, 15 September 2020 (2020-09-15) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343126A (zh) * 2021-08-06 2021-09-03 四川大学 基于事件与传播结构的谣言检测方法
CN113343126B (zh) * 2021-08-06 2021-12-21 四川大学 基于事件与传播结构的谣言检测方法
CN114638195A (zh) * 2022-01-21 2022-06-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于多任务学习的立场检测方法
CN114638195B (zh) * 2022-01-21 2022-11-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于多任务学习的立场检测方法
CN114444516A (zh) * 2022-04-08 2022-05-06 四川大学 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN115048514A (zh) * 2022-06-09 2022-09-13 安徽大学 基于人格的社交网络谣言检测与立场分类方法及系统
CN116542257A (zh) * 2023-07-07 2023-08-04 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN116542257B (zh) * 2023-07-07 2023-09-22 长沙市智为信息技术有限公司 一种基于会话语境感知的谣言检测方法
CN117556830A (zh) * 2024-01-11 2024-02-13 四川大学 基于潜在热点话题与传播过程的谣言检测方法
CN117556830B (zh) * 2024-01-11 2024-04-19 四川大学 基于潜在热点话题与传播过程的谣言检测方法

Similar Documents

Publication Publication Date Title
CN113094596A (zh) 一种基于双向传播图的多任务谣言检测方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN111814454B (zh) 一种社交网络上的多模态网络欺凌检测模型
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
Sunarya et al. Comparison of accuracy between convolutional neural networks and Naïve Bayes Classifiers in sentiment analysis on Twitter
Pariyani et al. Hate speech detection in twitter using natural language processing
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN112182585A (zh) 源代码漏洞检测方法、系统及存储介质
Al-Tai et al. Deep learning for fake news detection: Literature review
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.
Mahdin et al. Sentiment analysis on covid-19 vaccine tweets using machine learning and deep learning algorithms
Han et al. Text adversarial attacks and defenses: Issues, taxonomy, and perspectives
Hassan et al. A survey on automatic fake news identification techniques for online and socially produced data
CN113111267A (zh) 一种基于双向传播图的多任务谣言检测方法
Nisha et al. Detection and classification of cyberbullying in social media using text mining
Ermatita et al. Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks.
CN113190681B (zh) 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法
CN113259369B (zh) 一种基于机器学习成员推断攻击的数据集认证方法及系统
Phan et al. Little flower at memotion 2.0 2022: Ensemble of multi-modal model using attention mechanism in memotion analysis
Ahmed et al. Hateful Meme Prediction Model Using Multimodal Deep Learning
Jiang et al. Sentiment classification based on clause polarity and fusion via convolutional neural network
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
Abd Elminaam et al. AraFake: A deep learning approach for Arabic fake news detection
Zeng et al. ALBERT for Hate Speech and Offensive Content Identification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination