CN113111267A

CN113111267A - 一种基于双向传播图的多任务谣言检测方法

Info

Publication number: CN113111267A
Application number: CN202110485893.3A
Authority: CN
Inventors: 杨鹏; 匡晨; 田杨静; 于晓潭
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-13

Abstract

本发明公开了一种基于双向传播图的多任务谣言检测方法，该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测。本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵，之后构建谣言的双向传播图，通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征，最后对传播特征进行平均池化和特征整合后，训练softmax分类器，获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播特征和广度散布特征，并且引入用户评论的立场检测作为辅助任务，从而提高模型的泛化性，进一步提高谣言检测任务的准确率。

Description

一种基于双向传播图的多任务谣言检测方法

技术领域

本发明涉及一种基于双向传播图的多任务谣言检测方法，该方法可用于社交网络帖子的谣言检测以及评论信息的立场检测，属于互联网与自然语言处理技术领域。

背景技术

近年来，社交网络取得了快速发展，并迅速成为人们获取新闻资讯的重要途径之一。由于社交网络的信息量庞大且传播速度远超于传统媒介，大量未经证实的谣言得以在网络空间内肆意传播，并成为了一种日益严重的问题。互联网已经成为了继陆地、海洋、天空、太空后的“第五空间”，而利用社交网络平台散布谣言，借机实施网络犯罪、散布暴恐信息、煽动颜色革命等违法犯罪行为已对网络空间安全构成了严峻的威胁。

现有社交网络谣言检测方法主要包括人工谣言检测方法、基于机器学习的谣言检测方法和基于深度学习的谣言检测方法。大多数主流社交网络平台仍将人工谣言检测方法作为甄别疑似谣言信息的主流机制，虽然有着较高的判别准确性，但存在滞后性，且受人为因素的影响较大，因而无法满足社交网络谣言检测的需求。基于机器学习的方法将谣言检测工作归结为二分类问题，使用监督学习方法自动检测谣言信息，对特征工程有着较高的要求，且无法获取谣言在传播和散布过程中的深层特征，故无法获得较高的识别率。而许多基于深度学习的谣言检测方法从谣言的时序传播结构入手，通过抽取谣言在传播过程中深层特征检测疑似谣言信息，往往仅注重谣言的顺序传播特征而忽视了广度散布特征，因此在谣言检测任务中仍存在一定的精度损失。

针对目前社交网络谣言对网络空间安全所构成的严峻威胁和现有谣言检测方法无法有效抽取谣言传播特征的问题，本发明提出一种基于双向传播图的多任务谣言检测方法，使用一种改进的双向图卷积神经网络(Bi-GCN)抽取谣言的顺序传播特征和广度散布特征，并引入对评论文本的立场检测作为辅助任务，提升谣言检测任务的表现与泛化性，从而提高谣言检测的准确率。

发明内容

针对现有技术存在的问题与不足，本发明提供一种基于双向传播图的多任务谣言检测方法，该方法能够实时检测疑似谣言信息以及评论文本的立场，相比现有方法，能够更有效地获取谣言的顺序传播特征和广度散布特征，从而改善现有谣言检测方法准确率不足的问题。

为了实现上述目的，本发明的技术方案如下：一种基于双向传播图的多任务谣言检测方法，该方法涵盖社交网络谣言检测的全过程，主要包括特征提取、特征融合、评论立场类型分类和谣言类型分类等过程，能够有效地抽取谣言的传播特征，从而提高谣言检测任务的准确率。该方法主要包括三个步骤，具体如下：

步骤1，构筑谣言和立场样本数据集。首先使用Twitter15和Twitter16数据集中的用户uid，通过推特开放API获取用户信息，用于谣言检测的任务训练，同时，将PHEME数据集用于用户评论立场检测任务的训练，二者共同构成多任务模型的训练数据集。

步骤2，多任务分类模型训练。对于数据集中的每一个谣言帖子，首先使用TF-IDF算法抽取其文本特征，并生成用户特征和文本统计特征，之后构建谣言的双向传播图，接着将文本特征、用户特征和文本统计特征作为输入，通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征，最后对传播特征进行平均池化和特征整合后，训练softmax分类器。

步骤3，对待检测帖子进行分类预测。对于待检测帖子，首先提取其文本特征、用户特征和文本统计特征，接着构建该帖子的双向传播图，通过计算双向图卷积并进行根节点特征增强抽取传播特征，利用训练好的softmax分类器获得谣言检测和立场检测的结果。

相对于现有技术，本发明的有益效果如下：

1.该方法采用改进的Bi-GCN网络获取谣言的传播特征，能够有效地获取谣言的顺序传播特征和广度散布特征，从而提高谣言检测任务的准确率，相比改进前的Bi-GCN模型84％-86％的检测准确率，该改进模型在其基础上提升了1-1.5个百分点。

2.该方法引入用户评论的立场检测作为辅助任务，能够有效提模型的泛化性，同时进一步提高谣言检测任务的准确率，达到了86％-88.5％的水平。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的方法总体框架图；

图3为本发明实施例涉及的双向图卷积计算流程图；

图4为本发明实施例涉及的改进双向图卷积网络框架图；

图5为本发明实施例涉及的TD-GCN中的注意力机制示意图；

图6为本发明实施例涉及的BU-GCN中的注意力机制示意图。

具体实施方式

为了加深对本发明的认识和理解，下面结合具体实施例进一步阐明本发明。

实施例：本发明的具体流程和整体框架分别如图1和图2所示，一种基于双向传播图的多任务谣言检测方法，本发明的具体实施步骤如下：

步骤1，构筑谣言和立场样本数据集。本发明首先从Twitter15和Twitter16数据集中获取用户uid，并通过推特开放API获取430000位用户的特征信息用于谣言检测任务的训练，同时，将PHEME数据集用于用户评论立场检测任务的训练，二者共同构成多任务模型的训练数据集。

步骤2，多任务分类模型训练。对于数据集中的每一个谣言帖子，首先使用TF-IDF算法抽取其文本特征X^s，并生成用户特征X^m＝1和文本统计特征X^m＝2，之后构建谣言的双向传播图，接着将文本特征X^s、用户特征X^m＝1和文本统计特征X^m＝2作为输入，通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征S，最后对传播特征S进行平均池化和特征整合后，训练softmax分类器。该步骤实施过程分为7个子步骤：

子步骤2-1，使用TF-IDF算法生成文本特征矩阵X^s。针对每一个谣言帖子，对其包含的每一条推文使用TF-IDF算法生成文本特征向量

并逐条拼接生成文本特征矩阵X^s。TF-IDF的计算公式如下：

TF-IDF(i,w_j)＝TF(i,w_j)·IDF(w_j) (3)

其中，TF(i,w_j)表示推文i中单词w_j的词频，推文i中单词w_j出现的次数由Count(i,w_j)表示，Count(i)表示推文i的单词总数；IDF(w_j)表示单词w_j的逆向频率，|T|表示推文总数，CountTweets(w_j)表示包含单词w_j的推文总数。

子步骤2-2，生成用户特征矩阵X^m＝1。对于每一个谣言帖子，从其包含的每一条推文中抽取其对应用户的特征信息(否有简介、性别、所在地区等)，生成用户特征的向量表示，并逐条拼接生成用户特征矩阵X^m＝1。用户特征信息的具体内容如如表1所示：

表1用户特征

子步骤2-3，生成文本统计特征矩阵X^m＝2。对于每一个谣言帖子，从其包含的每一条推文中抽取其对应推文的统计特征信息(否定词数量、咒骂词数量、句号数量等)，生成文本统计特征的向量表示，并逐条拼接生成文本统计特征矩阵X^m＝2。文本统计特征信息的具体内容如表2所示。其中本发明设置的否定词汇包括not、no、nobody、nothing、none、never、neither、nor、nowhere、hardly、scarcely、barely、don’t、isn’t、wasn’t、shouldn’t、wouldn’t、couldn’t、doesn’t；咒骂词汇参照开源nlp工具textfilter中的英文脏话词典。

表2文本统计特征

子步骤2-4，构建双向传播图。对于谣言帖子，根据其包含的所有推文间的转发/回复关系，构建邻接矩阵A。若A_ts＝1，则说明存在节点t指向节点s的有向边。之后使用DropEdge策略从A中随机提出一些边：

A′＝A-A_drop (4)

其中A_drop为以概率p随机从A中挑选的边集合对应的邻接矩阵。于是，对于自顶向下传播图，其邻接矩阵为A^TD＝A′，而对于自底向上传播图，其邻接矩阵为A^BU＝A′^T。

子步骤2-5，抽取谣言传播特征。如图3所示，将子步骤2-1、2-2和2-3生成的文本特征矩阵X^s、用户特征矩阵X^m＝1和文本统计特征矩阵X^m＝2输入如图4所示的改进Bi-GCN网络中，通过计算双向图卷积，抽取谣言的传播特征。以自顶向下图卷积神经网络(TD-GCN)为例，参数共享层的第一层TD-GCN对应的隐藏矩阵

定义为：

其中

为可训练的参数矩阵。

而特定任务层的第一层TD-GCN对应的隐藏特征矩阵

定义为：

其中，

为归一化邻接矩阵，定义为：

由邻接矩阵和对角矩阵I_N计算得出，定义为：

为邻接矩阵对应的度矩阵，定义为：

σ(·)为非线性的ReLU激活函数。

之后再用同样的方法计算特定任务层的第二层TD-GCN的隐藏特征矩阵

类似地，可以使用相同的方法计算出自底向上图卷积神经网络(BU-GCN)的隐藏特征矩阵

和

子步骤2-6，根节点特征增强。对于TD-GCN，计算隐藏特征矩阵

对节点i的特征向量

进行线性变换

将其转换为高维表示，其中U为一个可训练的参数矩阵。

接着，使用如图5所示的注意力机制计算根节点root对于节点i的AttentionScore：

其中，

为节点root对应的特征向量，

为可训练的参数向量。

之后计算节点i对应的根节点特征增强向量，定义为：

其中σ(·)为非线性的sigmoid激活函数。

因此，TD-GCN在根节点增强后生成的特征矩阵为：

结合公式(5)和公式(6)后得到隐藏矩阵

通过将公式(10)中的特征矩阵

和

替换为

和

得到隐藏特征矩阵

的计算公式更新为：

结合公式(13)后得到隐藏矩阵

对于自底向上的图卷积网络BU-GCN，计算隐藏特征矩阵

参照TD-GCN根节点增强特征计算过程中的公式(11)计算BU-GCN中节点i对根节点root的Attention Score：

根节点root的特征增强向量

定义：

于是，BU-GCN在根节点增强后生成的特征矩阵为：

其中，

为

的拷贝，参照公式(14)、公式(15)和公式(16)，BU-GCN的隐藏矩阵分别为

和

子步骤2-7，特征融合及分类结果输出。对于谣言检测任务，用平均池化操作整合TD-GCN的顺序传播特征S^TD和BU-GCN提取出的广度散布特征S^BU：

使用拼接操作后获得整合特征S，定义为：

S＝concat(S^TD,S^BU) (25)

将整合特征S依次经过一个全连接层和一个softmax分类器后，获得谣言检测结果

定义为：

其中，

为归一化概率，

为谣言事件属于标签i的概率。谣言检测任务的最终结果为概率最大的标签

定义为：

对于立场检测任务，将TD-GCN和BU-GCN提取出的隐藏层特征进行拼接，获得一个整合特征矩阵Z：

定义向量

为事件中第i条推文在特征矩阵Z对应的特征向量，将其依次送入一个全连接层和一个softmax分类器后，即可获得第i条推文的立场检测结果

定义为：

其中，

为归一化概率，

为推文立场属于标签j的概率。立场检测任务的最终结果为概率最大的标签

定义为：

步骤3，对待检测帖子进行分类预测。对于待检测帖子，首先使用TF-IDF算法抽取其文本特征X^s，并生成用户特征X^m＝1和文本统计特征X^m＝2，之后构建谣言的双向传播图，接着将文本特征X^s、用户特征X^m＝1和文本统计特征X^m＝2作为输入，通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征，最后对传播特征进行平均池化和特征整合后，输入步骤2中训练好的softmax分类器获取谣言检测和立场检测结果。

综上，本发明首先根据谣言帖子的内容生成文本特征矩阵、用户特征矩阵和文本统计特征矩阵，之后构建谣言的双向传播图，通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征，最后对传播特征进行平均池化和特征整合后，训练softmax分类器，获取谣言检测和立场检测结果。本发明能够有效地获取谣言的顺序传播和广度散布特征，并且引入用户评论的立场检测作为辅助任务，从而提高模型的泛化性，进一步提高谣言检测任务的准确率。

基于相同的发明构思，本发明实施例公开的一种基于双向传播图的多任务谣言检测方法与装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述基于双向传播图的多任务谣言检测方法与装置。

需要说明的是，上述实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims

1.一种基于双向传播图的多任务谣言检测方法，其特征在于，所述方法包括以下步骤：

步骤1，构筑谣言和立场样本数据集，

步骤2，多任务分类模型训练，

步骤3，对待检测帖子进行分类预测。

2.根据权利要求1所述的基于双向传播图的多任务谣言检测方法，其特征在于，步骤1，构筑谣言和立场样本数据集，具体如下，首先使用Twitter15和Twitter16数据集中的用户uid，通过推特开放API获取用户信息，用于谣言检测的任务训练，同时，将PHEME数据集用于用户评论立场检测任务的训练，二者共同构成多任务模型的训练数据集。

3.根据权利要求1所述的基于双向传播图的多任务谣言检测方法，其特征在于，步骤2，多任务分类模型训练，具体如下，对于数据集中的每一个谣言帖子，首先使用TF-IDF算法抽取其文本特征X^s，并生成用户特征X^m＝1和文本统计特征X^m＝2，之后构建谣言的双向传播图，接着将文本特征X^s、用户特征X^m＝1和文本统计特征X^m＝2作为输入，通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征S，最后对传播特征S进行平均池化和特征整合后，训练softmax分类器。

4.根据权利要求1所述的基于双向传播图的多任务谣言检测方法，其特征在于，步骤2，多任务分类模型训练，该步骤实施过程分为7个子步骤：

子步骤2-1，使用TF-IDF算法生成文本特征矩阵X^s,针对每一个谣言帖子，对其包含的每一条推文使用TF-IDF算法生成文本特征向量

并逐条拼接生成文本特征矩阵X^s，TF-IDF的计算公式如下：

TF-IDF(i,w_j)＝TF(i,w_j)·IDF(w_j) (3)

其中，TF(i,w_j)表示推文i中单词w_j的词频，推文i中单词w_j出现的次数由Count(i,w_j)表示，Count(i)表示推文i的单词总数；IDF(w_j)表示单词w_j的逆向频率，|T|表示推文总数，CountTweets(w_j)表示包含单词w_j的推文总数；

子步骤2-2，生成用户特征矩阵X^m＝1,对于每一个谣言帖子，从其包含的每一条推文中抽取其对应用户的特征信息，生成用户特征的向量表示，并逐条拼接生成用户特征矩阵X^m＝1,用户特征信息的具体内容如如表1所示：

表1用户特征

子步骤2-3，生成文本统计特征矩阵X^m＝2,对于每一个谣言帖子，从其包含的每一条推文中抽取其对应推文的统计特征信息，生成文本统计特征的向量表示，并逐条拼接生成文本统计特征矩阵X^m＝2,文本统计特征信息的具体内容如表2所示,

表2文本统计特征

子步骤2-4，构建双向传播图,对于谣言帖子，根据其包含的所有推文间的转发/回复关系，构建邻接矩阵A,若A_ts＝1，则说明存在节点t指向节点s的有向边,之后使用DropEdge策略从A中随机提出一些边：

A′＝A-A_drop (4)

其中A_drop为以概率p随机从A中挑选的边集合对应的邻接矩阵,于是，对于自顶向下传播图，其邻接矩阵为A^TD＝A′，而对于自底向上传播图，其邻接矩阵为A^BU＝A′^T,

子步骤2-5，抽取谣言传播特征，将子步骤2-1、2-2和2-3生成的文本特征矩阵X^s、用户特征矩阵X^m＝1和文本统计特征矩阵X^m＝2输入改进Bi-GCN网络中，通过计算双向图卷积，抽取谣言的传播特征,以自顶向下图卷积神经网络(TD-GCN)为例，参数共享层的第一层TD-GCN对应的隐藏矩阵

定义为：

其中

为可训练的参数矩阵；

而特定任务层的第一层TD-GCN对应的隐藏特征矩阵

定义为：

其中，

为归一化邻接矩阵，定义为：

由邻接矩阵和对角矩阵I_N计算得出，定义为：

为邻接矩阵对应的度矩阵，定义为：

σ(·)为非线性的ReLU激活函数；

使用相同的方法计算出自底向上图卷积神经网络(BU-GCN)的隐藏特征矩阵

和

子步骤2-6，根节点特征增强,对于TD-GCN，计算隐藏特征矩阵

对节点i的特征向量

进行线性变换

将其转换为高维表示，其中U为一个可训练的参数矩阵；

接着，使用注意力机制计算根节点root对于节点i的Attention Score：

其中，

为节点root对应的特征向量，

为可训练的参数向量，

之后计算节点i对应的根节点特征增强向量，定义为：

其中σ(·)为非线性的sigmoid激活函数，

因此，TD-GCN在根节点增强后生成的特征矩阵为：

结合公式(5)和公式(6)后得到隐藏矩阵

通过将公式(10)中的特征矩阵

和

替换为

和

得到隐藏特征矩阵

的计算公式更新为：

结合公式(13)后得到隐藏矩阵

对于自底向上的图卷积网络BU-GCN，计算隐藏特征矩阵

根节点root的特征增强向量

定义：

于是，BU-GCN在根节点增强后生成的特征矩阵为：

其中，

为

和

使用拼接操作后获得整合特征S，定义为：

S＝concat(S^TD,S^BU) (25)

定义为：

其中，

为归一化概率，

为谣言事件属于标签i的概率，谣言检测任务的最终结果为概率最大的标签

定义为：

定义向量

定义为：

其中，

为归一化概率，

为推文立场属于标签j的概率，立场检测任务的最终结果为概率最大的标签

定义为：

5.根据权利要求1所述的基于双向传播图的多任务谣言检测方法，其特征在于，步骤3，对待检测帖子进行分类预测,对于待检测帖子，首先使用TF-IDF算法抽取其文本特征X^s，并生成用户特征X^m＝1和文本统计特征X^m＝2，之后构建谣言的双向传播图，接着将文本特征X^s、用户特征X^m＝1和文本统计特征X^m＝2作为输入，通过计算双向图卷积并进行根节点特征增强抽取谣言的传播特征，最后对传播特征进行平均池化和特征整合后，输入步骤2中训练好的softmax分类器获取谣言检测和立场检测结果。