CN113343126A

CN113343126A - 基于事件与传播结构的谣言检测方法

Info

Publication number: CN113343126A
Application number: CN202110903231.3A
Authority: CN
Inventors: 梁刚; 杨进; 高玉君; 许春; 蒋方婷; 奚金霞; 李劭
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-09-03
Anticipated expiration: 2041-08-06
Also published as: CN113343126B

Abstract

本发明公开了基于事件与传播结构的谣言检测方法，提取每个事件中的源帖信息，并通过基于情感极性的双向编码器表示技术对源帖信息进行文本数据增强；然后构建传播关系，同时，将增强后的文本向量特征加入到传播关系的根节点中，与传播关系结合，形成树型传播结构，再从根节点开始，通过转发及响应关系而形成的自前向后的正向树型传播结构和将由社区内各个分散节点聚集到上层根节点表示形成自后向前的反向树型传播结构分别输入到FRBi‑GCN中；最后，对传播树中包含根节点以及转发节点在内的所有节点进行节点增强操作，并通过softmax分类器鉴别出该事件是否是谣言。

Description

基于事件与传播结构的谣言检测方法

技术领域

本发明涉及谣言识别技术领域，具体的说，是基于事件与传播结构的谣言检测方法。

背景技术

社会网络爆炸式的发展使得以微博、Twitter、微信等为代表的社会网络已逐渐取代传统媒体成为人们发布和获取信息的一个重要平台。社会网络中的信息具有传播速度快，范围广，即时性强等优点。然而，由于发布信息时缺乏有效的监管手段，导致社会网络平台同时也成为谣言传播的温床。根据新浪微博2021年发布的《微博辟谣2020年度报告》显示，三分之一的谣言始发于社会网络。这些信息在未经处理的情况下可能被迅速地歪曲和放大，从而误导公众。谣言无节制地在网络上传播不仅影响社会和谐与稳定。因此，快速有效地检测出社会网络谣言，对净化网络环境，维护公共安全至关重要。

现有的谣言检测方法可以归纳为三类：

1）人工检测方法

人工谣言检测方法就是平台将社会网络中的可疑信息交给经验丰富的编辑或是行业专家，利用编辑和专家的领域知识和经验对信息的真实性进行甄别。当前的主流社会网络平台，如Twitter、Facebook与新浪微博，在其平台上都是采用人工的谣言检测方法。该方法的优点是简单、准确率高。缺点是需要检测者对用户或平台举报的信息进行逐条判断，单靠人力对每天产生的数以亿计的数据进行检测，具有明显的滞后性，且检测的质量依赖于检测者的知识背景与经验，对个人的知识与经验要求极高，也有可能因为个人因素而造成误判。

2）基于机器学习的检测方法

基于机器学习的检测方法。早期对谣言的自动检测主要集中在利用机器学习技术来检测谣言，该类方法主要包含三个流程：首先，从训练数据集中选择并提取能够有效表征数据的特征；其次，利用选择与提取的特征在训练数据集上训练分类模型；最后，使用训练好的模型对训练数据集外的数据进行预测，经过不断的评估与优化，判断数据是否是谣言。对于基于机器学习的谣言检测方法而言，如何选择与提取出显著的特征来表征数据对谣言检测效果至关重要，其优点是相对简单且具有一定的可解释性。缺点是依赖人工进行特征的选择，耗费人力物力的同时，得到特征向量的鲁棒性较差。且试图用一套通用的特征集合表征社会网络不同平台不同语言中的全部信息，训练出来的谣言分类器容易陷入过拟合状态，导致检测准确度不高。

3）基于深度学习的检测方法

深度学习具有很强的特征学习能力，其模型学习的特征比传统机器学习算法中通过特征工程得到的特征数据对原数据具有更好的，更本质的代表性，从而能实现更好的分类效果。一般来说，这类方法的在性能上优于上述两类方法。但该方法对数据的需求量大，当样本数据较少时，训练出来的分类器仍存在分类偏倚问题，且模型训练周期更长，训练出的模型可解释性差，同时，对GPU的要求较高。

上述几类方法在一定程度上成功抑制了谣言泛滥的问题，但是现有方法仍然存在以下几点不足：

1、传统的文本表示是高维度高稀疏的，且未考虑上下文关联等特征，特征表达能力十分有限。而人工进行特征选择的方式耗费大量人力物力与时间，且十分依赖研究者个人对谣言检测领域的经验。无法灵活准确地表征社会网络中各种不同类型的谣言以及非谣言数据。因此，训练出来的谣言分类器往往泛化能力不强，即使训练出来的分类器在训练数据集合中具有较好的表现，在实际应用中的实用性也较低，且存在检测率低，误报率较高的问题。现有的谣言检测方法在识别谣言的过程中往往只关注文本内容，模因信息以及传播结构等特征，缺乏对文本情感极性等重要特征的研究，而情感极性的改变可能完全改变文本的语义甚至影响到最终训练出来的谣言分类器对信息的鉴别结果。

2、社会网络中的信息错综复杂，且相互关联，其中，文本信息包含的线索有限，有些谣言单纯靠文本信息无法进行甄别。因此，从社会网络信息传播的各种关系中抽取出有用的信息是社会网络谣言检测中亟待解决的问题之一。传统的RNN、LSTM、GRU等只关注谣言信息的时间序列和句子等变长序列信息建模等方面，只能解决在长序列训练过程中，随着神经网络层数的加深而造成的梯度消失以及梯度爆炸的问题，无法抑制谣言传播与扩散结构对谣言检测的影响。现有的CNN无法处理谣言传播过程中的全局结构关系，而使用单向的GCN容易忽略谣言的传播方向这一重要线索。从而导致谣言检测的准确率难以大幅度提升。

3、谣言之间关联性普遍，但在现有的谣言检测方法中，基于事件形成的传播树结构中的节点通常都是孤立存在的。单纯地通过源贴与转发帖形成的网络结构容易忽略谣言传播之间的关联，导致谣言检测过程中，无法通过谣言之间的关系而判断该谣言的共同主体或相同主题所关联的谣言，从而造成谣言检测的准确率受到影响。因此，如何提高谣言传播过程中的关联性，同时，考虑社会网络之中的各个相邻节点之间的合作与共享是谣言检测领域需要解决的问题。

发明内容

本发明的目的在于提供基于事件与传播结构的谣言检测方法，针对现有方法因为特征表示方法单一，对节点间关系缺乏关联与分析，采用的神经网络结构不适用社交网络的问题导致的检测准率不高的问题，提出了一种事件与传播结构相结合的社交网络谣言检测方法，通过事件检测克服现有方法的特性稀疏与检测冷启动问题，在检测过程中引入BERT模型引增强检测数据的文本特征，在检测方法中引入适合社交网络的图神经网络，能够针对灵活适应社交网络的节点数目的变换关系的变化进行数据分析。

本发明通过下述技术方案实现：基于事件与传播结构的谣言检测方法，包括下述步骤：

步骤1、从获取的公开数据集E所包含的事件

中提取源帖信息、转发关系以及其他特征，其中，其他特征包括用户信息、粉丝数、点赞数等，k表示的是事件的序数，e _k表示第k个事件，n _k为第k个事件e _k中的单个帖子，r _k为源帖，每个

代表第j个相关的转发帖或响应帖，且j=1…k；

本发明采用基于事件级数据对谣言进行检测，其中，公开数据集E的表示如下所示：

其中，k表示的是事件的序数，e _k表示第k个事件，且

，n _k为第k个事件e _k中的单个帖子，r _k为源帖，每个

代表第j个相关的转发帖或响应帖，且j =1…k。

步骤2、使用基于情感极性的BERT（Emotional Polarity Bidirectional EncoderRepresentations from Transformers, EPBERT）对源帖信息进行文本数据增强，进而获得源帖的增强文本特征向量D；

步骤3、将源贴的增强文本特征向量D加入到传播关系的根节点中，与传播关系T结合，形成树型传播结构G _k；

步骤4、将树型传播结构G _k解析成正向树型传播结构

和反向树型传播结构

，并将正向和反向两种树型传播结构分别输入到FGCN（正向的图卷积神经网络）模型以及RGCN（反向的图卷积神经网络）模型中，获得传播特性H ^F和扩散特性H ^R，FGCN模型和RGCN模型共同构成基于事件与传播结构的双向图卷积神经网络（FRBi-GCN）模型；

步骤5、对正向树型传播结构

以及反向树型传播结构

中包含根节点以及转发节点在内的所有节点进行节点增强操作；

步骤6、使用全连接将基于事件与传播结构的双向图卷积神经网络层与softmax分类函数进行连接，根据softmax分类函数的输出结果用于判断待检测的事件是否为谣言，所述softmax分类函数为：

，其中 V _i表示分类的类别，i表示类别索引，C表示分类的种类，S _i表示输出最大对应的类别，e为自然对数，e优选取值为2.718，softmax分类函数最终选择S _i值最大的V _i作为分类的类别。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤2包括以下具体步骤：

步骤2.1、将源帖信息中的文本数据进行情感极性标注，获得标记数据集S，且

，其中，N为被标记的数据个数，

为第N个被标记的数据，

为第N个被标记数据的情感极性标签；

步骤2.2、在标记数据集S上对预训练的BERT进行微调，直至收敛；即将BERT中能对文本的语义相似性进行分类的段表征（Segment Embeddings, SE）

改为与标注好的情感极性有关联的情感极性表征（Emotional Polarity Embedding, EPE）E _emotion，从而根据标记数据集上的情感极性标签进行学习；其中，E _A表示改词属于句向量A，E _B表示词属于句向量B；A，B分别为句向量，且当输入文本为非单一的情感极性时，需调整向量的大小以兼容标签大小；

步骤2.3、对于每次迭代

，从标记数据集S中抽取句子p _i，随机屏蔽k个词，通过EPBERT模型根据语境和情感极性预测被屏蔽词的原始词汇索引I，且

，从而获得与句子情感极性标签相匹配的各种词

，并获得文本特征向量

；其中，word _i为文本中第i个特征词，

和y分别表示除去被屏蔽词之外的上下文及其标签，trem _k表示是第k 个情感极性词；

所述EPBERT模型的模型层数为12，隐藏层神经元数为768，头自注意力数为12，总参数为110M（1M=1000000）；

EPBERT模型的训练轮次范围在1-50之间，屏蔽词的范围在1-2之间。

步骤2.4、形成源帖的增强文本特征向量D，且D=｛word ₁，word ₂，…，word _n，tag ₁，tag ₂，…，tag _n，emotion ₁，emotion ₂，…，emotion _n｝，其中，tag _i，为文本中第i个特殊符号标记，如@、#等，emotion _i为标注的情感极性。

进一步的为更好地实现本发明，特别采用下述设置方式：所述BERT采用双向语言模型从正反两个方向对生成新语句的概率进行建模，再由独立训练的正向语言模型的浅层和反向语言模型的浅层连接而成，形成BERT模型；其中，正向语言模型预测序列的概率表示为：

，p _i表示选择的句子，反向语言模型预测序列的概率表示为：

，p _i表示选择的句子。

进一步的，所述步骤3具体为：将源贴的增强后文本数据的文本特征向量D，且D=｛word ₁，word ₂，…，word _n，tag ₁，tag ₂，…，tag _n，emotion ₁，emotion ₂，…，emotion _n｝加入到传播关系的根节点中，与传播关系T结合，即

，形成树型传播结构G _k，且

；其中，tag _i，为文本中第i个特殊符号标记，如@、#等，emotion _i为标注的情感极性，

，

，V _k和B _k分别表示回复帖到转发帖和回复帖到响应帖所形成的边集合；若

对

为一个反馈，即

为

的转发帖或响应帖，则

为一条边，即

；若

对

为一个反馈，则

为一条边，即

，以此类推。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤4包括下述具体步骤：

步骤4.1、将谣言从根结点开始，自源贴开始通过转发及响应关系形成自前向后的正向树型传播结构

，且

和将由社区内各个分散节点聚集到上层根节点表示形成自后向前的反向树型传播结构

，且

；

步骤4.2、在每个训练轮次epoch采用随机删边技术避免过拟合问题，获得邻接矩阵

，且

，其中，A _drop是使用

从原始边集合中随机采样的矩阵结构，N _e为边的总数，p为删除率；在正向树型传播结构

中，邻接矩阵表示为

，在反向树型传播结构

中，邻接矩阵表示为

；

步骤4.3、将构造好的正向树型传播结构

和反向树型传播结构

分别输入到FGCN模型和RGCN模型中，获得传播特性H ^F和扩散特性H ^R，且

，

；其中，

为隐藏层特性，W ^F为FGCN的滤波参数矩阵，

为隐藏层特性，W ^R为RGCN的滤波参数矩阵，

为ReLU激活函数。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤5包括下述具体步骤：

步骤5.1、将原始特征矩阵

输入到FRBi-GCN模型中，通过k层GCL后形成的隐藏特征向量H _k；

步骤5.2、再将第k层节点的隐藏特征向量H _k与k-1层节点的隐藏特征向量H _k-1进行拼接，得到新的隐藏特征向量

，且

；

步骤5.3、将传播表示

和扩散表示

的节点表示信息分别使用均值池化进行聚合操作，得到

和

，将二者进行拼接得到

。

进一步的为更好地实现本发明，特别采用下述设置方式：所述传播关系由源帖和转发贴之间的转发关系及包括用户信息，粉丝数，点赞数等在内的其他特征构成。

进一步的为更好地实现本发明，特别采用下述设置方式：将数据集E随机地划分为5个部分，并进行5倍交叉验证；采用随机梯度下降法更新基于事件与传播结构的双向图卷积神经网络（Forward Reverse Bi-Directional Graph Convolutional Networks, FRBi-GCN）的参数，其中，单个节点的隐藏特征向量维度为64，随机删边技术的中断率为0.2，删边率为0.5，迭代次数为100，而整体基于事件生成的树型传播结构将以80%，10%，10%的比例划分为训练集、测试集和验证集。

本发明与现有技术相比，具有以下优点及有益效果：

（1）针对谣言检测过程中提取的表层特征难以灵活准确地表征社会网络中全部信息，从而造成训练出来的分类器泛化能力不强，以及忽略情感极性特征造成语义变化等问题，本发明提出了基于情感极性BERT的文本数据增强方法来提高模型提取特征的能力，从而增强训练出来分类器的泛化能力。该方法考虑情感极性特征对谣言检测的影响，将BERT的词表征、情感极性表征与位置表征三部分相结合；使用该方法不仅能挖掘表示文本的深层特征，从而避免特征构建的问题，且能生成人工难以发现的隐藏特征，同时考虑上下文语义与标签对屏蔽位置单词的影响，以此根据语境在屏蔽词位置生成相同情感极性的不同表达形式。

（2）针对当前谣言检测忽略传播结构的多样性导致检测准确率无法大幅度提升的问题，本发明提出了基于事件与传播结构的双向图卷积神经网络，结合事件与信息传播深度和散布广度三方面，形成自前向后的基于关系链的深度传播结构以及自后向前的基于社会群体之间的广度扩散结构；在检测时，通过正向的图卷积神经网络来支持自源帖开始通过转发关系链而形成的自前向后深度传播结构，通过反向的图卷积神经网络来支持由社区内各个分散节点聚集到上层节点表示的广度扩散结构，充分利用事件中蕴含的谣言之间潜在的关联以及社会网络中信息来进行谣言检测，从而提高谣言检测的准确率。

（3）针对当前谣言检测方法忽略谣言传播结构节点之间关联性与共享性，导致无法获得相邻节点中的关联信息，从而影响谣言检测效果的问题，本发明提出了基于事件型传播结构的传播树节点增强方法，将每个通过GCL后形成隐藏层特征向量的节点与其上一层节点的隐藏层特征向量进行拼接，得到新的特征矩阵，在更好地利用源帖以及各个转发节点中蕴含的丰富信息的同时从各节点之间的关系中获得更准确的节点表示，从而提高谣言检测的准确率。

附图说明

图1为谣言检测流程图。

图2为基于情感极性BERT的文本数据增强模型图。

图3为基于事件与传播结构的双向图卷积神经网络模型图。

图4为传播树节点增强图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

名词解释：

BERT：Bidirectional Encoder Representation from Transformers的简称，即双向编码器表示技术；

FRBi-GCN：Forward Reverse Bi-Directional Graph Convolutional Networks的简称，即基于事件与传播结构的双向图卷积神经网络；

epoch：轮次，一次epoch是指将所有数据训练一遍的次数，epoch所代表的数字则是指所有数据被训练的总轮数；epoch为深度学习专业术语，一个epoch指代所有的数据送入神经网络中完成一次前向计算及反向传播的过程；

FGCN：Forward Graph Convolutional Networks的简称，即正向的图卷积神经网络；

RGCN：Reverse Graph Convolutional Networks的简称，即反向的图神经网络；

GCN：Graph Convolutional Networks的简称，即图卷积神经网络；

GCL：Graph Convolutional Layer的简称，即图卷积层；

EPBERT：Emotional Polarity Bidirectional Encoder Representation fromTransformers的简称，即基于情感极性的双向编码器表示技术（基于情感极性的BERT）；

EPE：Emotional Polarity Embedding的简称，即情感极性表征。

实施例1：

本发明设计出基于事件与传播结构的谣言检测方法，包括下述步骤：

1）从获取的公开数据集E所包含的事件

代表第j个相关的转发帖或响应帖，且j=1…k；

；

其中，k表示的是事件的序数，e _k表示第k个事件，且

，n _k为第k个事件e _k中的单个帖子，r _k为源帖，每个

代表第j个相关的转发帖或响应帖，且j= 1…k。

其中，第k个事件提取的特征表示如下所示：

；

其中，

表示r _k的特征向量，每行特征

表示

的特征向量，里面每个变量都是表示特征的向量。

对每个事件e _k都进行人工标记为谣言或非谣言y _k：每个事件e _k都与其标签相关联，将第k个事件进行人工标记，得到谣言或非谣言的标签y _k：

；

其中，F表示错误的谣言，T表示正确的谣言。

谣言检测的最终目标都是对谣言进行分类，其公式如下所示：

；

其中，E，Y分别为事件集和标签集。

2）使用基于情感极性的BERT（Emotional Polarity Bidirectional EncoderRepresentations from Transformers, EPBERT）对源帖信息进行文本数据增强，进而获得源帖的增强文本特征向量D，且D=｛word ₁，word ₂，…，word _n，tag ₁，tag ₂，…，tag _n，emotion ₁，emotion ₂，…，emotion _n｝；其中，word _i为文本中得到的第i个特征词以及BERT模型提取的隐藏特征词，tag _i ，为文本中第i个特殊符号标记，如@、#等，emotion _i，为标注的情感极性；

3）将源贴的增强文本特征向量D加入到传播关系的根节点中，与传播关系T结合，即concat(D,T)，形成树型传播结构G _k，且

；其中，tag _i，为文本中第i个特殊符号标记，emotion _i为标注的情感极性，

，

对

为一个反馈，即

为

的转发帖或响应帖，则

为一条边，即

；若

对

为一个反馈，则

为一条边，即

，以此类推；

4）将树型传播结构G _k解析成正向树型传播结构

和反向树型传播结构

5）对正向树型传播结构

以及反向树型传播结构

6）使用全连接将基于事件与传播结构的双向图卷积神经网络层与softmax分类函数进行连接，根据softmax分类函数的输出结果用于判断待检测的事件是否为谣言，所述softmax分类函数为：

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，所述步骤2）包括以下具体步骤：

2.1）将源帖信息中的文本数据进行情感极性标注，获得标记数据集S；被标记了情感极性的数据所组成的标记数据集S表示为如下：

；

其中，N为被标记的数据个数，

为第N个被标记的数据，

为第N个被标记数据的情感极性标签；

2.2）在标记数据集S上对预训练的BERT进行微调，直至收敛；即将BERT中能对文本的语义相似性进行分类的段表征（Segment Embeddings, SE）

改为与标注好的情感极性有关联的情感极性表征（Emotional Polarity Embedding, EPE）E _emotion，从而根据标记数据集上的情感极性标签进行学习；其中，E _A表示改词属于句向量A，E _B表示词属于句向量B；A，B分别为句向量，且当输入文本为非单一的情感极性时，需调整向量的大小以兼容标签大小；基于情感的掩码语言模型（EPBERT模型）允许表示层融合上下文以及情感标签等信息，即允许进一步训练基于情感极性标签条件的深度双向表示；

2.3）对于每次迭代

，从而获得与句子情感极性标签相匹配的各种词

，并获得文本特征向量

；其中，word _i为文本中第i个特征词，

即使用加入情感极性的掩码语言模型（即EPBERT模型）随机屏蔽被标记句子中的一些词，目的是根据语境和情感预测被屏蔽词的原始词汇索引I，其公式如下所示：

；

其中，p _i为给定的被屏蔽的数据，

和y分别表示除去被屏蔽词之外的上下文及其标签；

2.4）形成源帖的增强文本特征向量D，且D=｛word ₁，word ₂，…，word _n，tag ₁，tag ₂，…，tag _n，emotion ₁，emotion ₂，…，emotion _n｝,其中，tag _i，为文本中第i个特殊符号标记，如@、#等，emotion _i为标注的情感极性。

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，所述BERT采用双向语言模型从正反两个方向对生成新语句的概率进行建模，再由独立训练的正向语言模型的浅层和反向语言模型的浅层连接而成，形成BERT模型；其中，正向语言模型预测序列的概率表示为：

，p _i表示选择的句子。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，所述步骤3）具体为：将源贴的增强后文本数据的文本特征向量D，且D=｛word ₁，word ₂，…，word _n，tag ₁，tag ₂，…，tag _n，emotion ₁，emotion ₂，…，emotion _n｝加入到传播关系的根节点中，与传播关系T结合，即

，形成树型传播结构G _k，且

，

对

为一个反馈，即

为

的转发帖或响应帖，则

为一条边，即

；若

对

为一个反馈，则

为一条边，即

，以此类推。

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，所述步骤4）包括下述具体步骤：

4.1）将谣言从根结点开始，自源贴开始通过转发及响应关系形成自前向后的正向树型传播结构

，且

，且

；通过本发明提出的基于事件与传播结构的双向图卷积神经网络（FRBi-GCN），结合事件与信息传播深度和散布广度三方面进行谣言检测，以提高谣言检测准确率。

本发明提出的基于事件级传播结构的传播树节点增强技术，能更好地利用源帖以及各个转发节点中蕴含的丰富信息的同时从各节点之间的关系中获得更准确的节点表示。

4.2）在每个训练轮次epoch，采用随机删边技术避免过拟合问题，获得邻接矩阵

，且

，其中，

是使用

中，邻接矩阵表示为

，在反向树型传播结构

中，邻接矩阵表示为

；

模型的本质还是根据事件的文本内容，用户信息和转发的文章所构造的传播结构来预测事件的标签类别，本发明基于事件与传播结构的双向图卷积神经网络模型，在每个训练epoch，为避免过拟合问题，采用随机删边技术（DropEdge），在每个训练阶段，随机地从输入的传播树中删除边，以产生一定速率的不同变形副本。该方法能增加输入的随机性以及多样性。

假设树型传播结构图G _k中边的总数为N _e，删除率为p，则使用DropEdge后的邻接矩阵

的计算公式如下所示：

其中，

是使用

从原始边集合中随机采样的矩阵结构。在FGCN中，邻接矩阵表示为

，在RGCN中，邻接矩阵表示为

。

4.3）将构造好的正向树型传播结构

和反向树型传播结构

，

；其中，

为隐藏层特性，W ^F为FGCN的滤波参数矩阵，

为隐藏层特性，W ^R为RGCN的滤波参数矩阵，

为ReLU激活函数。

FGCN模型和RGCN模型分别获得传播特性H ^F和扩散特性H ^R，FGCN和RGCN分别通过下式计算获得：

；

；

其中，

和

分别为FGCN隐藏层特性和RGCN隐藏层特性，W ^F和W ^R分别为FGCN和RGCN的滤波参数矩阵，

为ReLU激活函数。

实施例6：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，所述步骤5）包括下述具体步骤：

5.1）将原始特征矩阵

输入到FRBi-GCN模型中，通过k个GCL后形成的隐藏特征向量H _k，其中，

为FRBi-GCN模型输入的原始特征矩阵，H _k为第k个GCL生成的隐藏特征向量；

5.2）除了提取FGCN和RGCN的隐藏特征外，还将每层节点（除根节点外）与上一层节点的特征向量进行拼接，构造一个新的特征矩阵，增强节点之间关联性。即将第k层节点的隐藏特征向量H _k与k-1层层节点的隐藏特征向量H _k-1进行拼接，得到新的隐藏特征向量

，且

；

为第k层节点隐藏层特征向量与k-1层节点隐藏层特征向量拼接后所得隐藏特征向量。

在通过根节点的源帖开始通过转发及响应关系形成自前向后的正向树型传播结构

中，节点与相邻节点进行拼接通过下式计算得到：

；

其中，

表示根节点，即

。

第一层与第二层的转发节点增强公式分别如下所示：

；

；

同理可得，由社区内各个分散节点聚集到上层根节点表示形成自后向前的反向树型传播结构

节点增强所得的

，

和

的计算方式与上式相同。

5.3）将传播表示

和扩散表示

的节点表示信息分别使用均值池化进行聚合操作，得到

和

，进而将二者进行拼接得到

。

将通过正向树型传播结构获得的传播表示

和通过反向树型传播结构获得的扩散表示

的节点表示信息分别使用均值池化（Mean-Pooling）进行聚合操作，其公式分别如下所示：

；

；

将FGCN的特征向量S ^F和RGCN的特征向量S ^R进行拼接：

。

本发明提出了基于事件级传播树节点增强技术，增强了源帖与转发贴之间的关联性，从而达到提高谣言检测准确率的目的。

实施例7：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，所述传播关系由源帖和转发贴之间的转发关系及包括用户信息，粉丝数，点赞数等在内的其他特征构成。

实施例8：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，将数据集E随机地划分为5个部分，并进行5倍交叉验证；采用随机梯度下降法更新基于事件与传播结构的双向图卷积神经网络（Forward Reverse Bi-DirectionalGraph Convolutional Networks, FRBi-GCN）的参数，其中，单个节点的隐藏特征向量维度为64，随机删边技术的中断率为0.2，删边率为0.5，迭代次数为100，而整体基于事件生成的树型传播结构将以80%，10%，10%的比例划分为训练集、测试集和验证集。

实施例9：

基于情感极性BERT的文本数据增强（基于情感极性的双向编码器表示技术（EPBERT）的文本数据增强技术）的大致过程为：首先，将BERT中的段表征改为情感极性（Emotional Polarity Embedding, EPE）表征；然后，在被标记数据集上对预训练的BERT进行微调，直到收敛；最后，对于被标记数据集中的每个句子，随机地屏蔽其中的几个词，再通过EPBERT预测与句子情感极性标签相匹配的各种词。EPBERT模型的整体架构如图2所示。其模型层数为12，隐藏层神经元数为768，头自注意力数为12，总参数为110M。EPBERT的训练轮次范围在1-50之间，屏蔽词的范围在1-2之间。

基于事件与传播结构的双向图卷积神经网络（FRBi-GCN）可分为正向的图卷积神经网络（FGCN）以及反向的图卷积神经网络（RGCN），其中，FGCN包含谣言从根结点开始，沿着关系链传播的因果特征。RGCN则是聚集了谣言在社区内扩散的结构特征。将FGCN的传播表示特征向量和RGCN的扩散表示特征向量通过全连接层进行融合，从而得到最终结果。FRBi-GCN谣言检测模型如图3所示。本发明将数据集随机地划分为5个部分，并进行5倍交叉验证。采用随机梯度下降法更新FRBi-GCN的参数，其中，单个节点的隐藏特征向量维度为64，随机删边技术的中断率为0.2，删边率为0.5，迭代次数为100，而整体基于事件生成的树型传播结构将以80%，10%，10%的比例划分为训练集、测试集和验证集。

基于事件级传播结构的传播树节点增强技术，能更好地利用源帖以及各个转发节点中蕴含的丰富信息的同时从各节点之间的关系中获得更准确的节点表示。本发明除了提取FGCN和RGCN的隐藏特征外，还将每层节点（除根节点外）与上一层节点的特征向量进行拼接，构造一个新的特征矩阵，增强节点之间关联性。传播树节点增强如图4所示。其中，

为FRBi-GCN模型输入的原始特征矩阵，H _k为第k个GCL生成的隐藏特征向量。

基于事件与传播结构的谣言检测方法，该方法综合应用了基于情感极性的双向编码器表示技术（EPBERT）的文本数据增强技术，基于事件与传播结构的双向图卷积神经网络（FRBi-GCN）以及基于事件级数据的传播树节点增强技术。其中，基于情感极性的双向编码器表示技术的文本数据增强技术用于提高谣言检测模型的提取特征的能力；基于事件与传播结构的双向图卷积神经网络（FRBi-GCN）用于结合事件与信息传播深度和散布广度三方面进行谣言检测，以提高模型检测准确率。基于事件级数据的传播树节点增强技术用于增强源帖与转发贴之间的关联性，从而提高谣言检测的准确率。

本发明的基于事件与传播结构的谣言检测模型流程如图1所示。首先，提取原始数据中每个事件（事件1~事件N）中的源帖信息（源贴1~源贴N），并通过基于情感极性的双向编码器表示技术（EPBERT）对源帖信息进行文本数据增强（基于情感极性BERT的文本数据增强）。然后，将源帖和转发贴之间的转发关系（转发关系1~转发关系M）及包括用户信息，粉丝数，点赞数等在内的其他特征（其他特征1~其他特征K）构成传播关系，同时，将增强后的文本向量特征加入到传播关系的根节点中，与传播关系结合，形成树型传播结构，再从根节点开始，通过转发及响应关系而形成的自前向后的正向树型传播结构

，分别输入到FGCN模型和RGCN模型中。最后，对传播树中包含根节点以及转发节点在内的所有节点进行节点增强操作，并通过softmax分类器鉴别出该事件是否是谣言。

该基于事件与传播结构的谣言检测方法包括下述具体步骤：

（1）从获取的公开数据集E所包含的事件

中提取源帖信息、转发关系以及包括用户信息，粉丝数，点赞数等在内的其他特征；

；

其中，k表示的是事件的序数，e _k表示第k个事件，且

，n _k为第k个事件e _k中的单个帖子，r _k为源帖，每个

代表第j个相关的转发帖或响应帖，且j= 1…k。

其中，第k个事件提取的特征表示如下所示：

；

其中，

表示r _k的特征向量，每行特征

表示

的特征向量，里面每个变量都是表示特征的向量。

；

其中，F表示错误的谣言，T表示正确的谣言。

；

其中，E，Y分别为事件集和标签集。

（2）将源帖信息中的文本数据进行情感极性标注，获得标记数据集S；被标记了情感极性的数据所组成的标记数据集S表示为如下：

；

其中，N为被标记的数据个数，

为第N个被标记的数据，

为第N个被标记数据的情感极性标签；

（3）所述BERT采用双向语言模型从正反两个方向对生成新语句的概率进行建模，再由独立训练的正向语言模型的浅层和反向语言模型的浅层连接而成，形成BERT模型；其中，正向语言模型预测序列的概率表示为：

，p _i表示选择的句子

（4）在标记数据集S上对预训练的BERT进行微调，直至收敛；即将BERT中能对文本的语义相似性进行分类的段表征（Segment Embeddings, SE）

（5）对于每次迭代

，从标记数据集S中抽取句子p _i，随机屏蔽k个词，通过EPBERT模型根据语境和情感极性预测被屏蔽词的原始词汇索引I，从而获得与句子情感极性标签相匹配的各种词

，并获得文本特征向量

；其中，word _i为文本中第i个特征词，trem _k表示是第k 个情感极性词；

；

其中，

和y分别表示除去被屏蔽词之外的上下文及其标签。

其中，步骤（2）~步骤（5），为通过基于情感极性BERT对源帖信息进行文本数据增强。

（6）形成源帖的增强文本特征向量D，且D=｛word ₁，word ₂，…，word _n，tag ₁，tag ₂，…，tag _n，emotion ₁，emotion ₂，…，emotion _n｝,将源贴的增强文本向量特征D加入到传播关系的根节点中，与传播关系T结合，即

，形成树型传播结构G _k，且

，其中，word _i为文本中得到的第i个特征词以及BERT模型提取的隐藏特征词，tag _i，为文本中第i个特殊符号标记，如@、#等，emotion _i为标注的情感极性，

，

，V _k和B _k分别表示回复帖到转发帖和回复帖到响应帖所形成的边集合，则

，由于

代表第j个相关的转发帖或响应帖，因此，若

对

为一个反馈，即

为

的转发帖或响应帖，则

为一条边，即

；若

对

为一个反馈，则

为一条边，即

，以此类推。

（7）将谣言从根结点开始，自源贴开始通过转发及响应关系形成自前向后的正向树型传播结构

，且

，且

（8）在每个训练轮次epoch，采用随机删边技术避免过拟合问题，获得邻接矩阵

；

模型的本质还是根据事件的文本内容，用户信息和转发的文章所构造的传播结构来预测事件的标签类别，本发明基于事件与传播结构的双向图卷积神经网络模型，在每个训练轮次epoch，为避免过拟合问题，采用随机删边技术（DropEdge），在每个训练阶段，随机地从输入的传播树中删除边，以产生一定速率的不同变形副本。该方法能增加输入的随机性以及多样性。

的计算公式如下所示：

其中，

是使用

，在RGCN中，邻接矩阵表示为

。

（9）将构造好的正向树型传播结构

和反向树型传播结构

分别输入到FGCN模型和RGCN模型中，获得传播特性H ^F和扩散特性H ^R。

；

；

其中，

和

为ReLU激活函数。

其中步骤（7）~步骤（9）是为了将树型传播结构G _k解析成自源帖开始通过转发及响应关系形成自前向后的正向树型传播结构

，且

，且

。在每个训练epoch，采用随机删边技术避免过拟合问题，获得邻接矩阵

，其中，

是使用

中，邻接矩阵表示为

，在反向树型传播结构

中，邻接矩阵表示为

。将正向和反向两种树型传播结构分别输入到正向的图卷积神经网络（FGCN）以及反向的图卷积神经网络（RGCN）中，获得传播特性

和扩散特性

；其中，

为隐藏层特性，W ^F为FGCN的滤波参数矩阵，

为隐藏层特性，W ^R为RGCN的滤波参数矩阵，

为ReLU激活函数；

（10）将原始特征矩阵

（11）除了提取FGCN和RGCN的隐藏特征外，还将每层节点（除根节点外）与上一层节点的特征向量进行拼接，构造一个新的特征矩阵，增强节点之间关联性。即将第k层节点的隐藏特征向量H _k与k-1层层节点的隐藏特征向量H _k-1进行拼接，得到新的隐藏特征向量

，且

；

在步骤（11）中，在通过根节点的源贴开始通过转发及响应关系形成自前向后的正向树型传播结构

中，节点与相邻节点进行拼接通过下式计算得到：

；

其中，

表示根节点，即

。

第一层与第二层的转发节点增强公式分别如下所示：

；

；

节点增强所得的

，

和

的计算方式与上式相同。

（12）将传播表示

和扩散表示

的节点表示信息分别使用均值池化进行聚合操作，得到S ^F和S ^R，进而将二者进行拼接得到

。

将通过正向树型传播结构获得的传播表示

和通过反向树型传播结构获得的扩散表示

；

；

将FGCN的特征向量S ^F和RGCN的特征向量S ^R进行拼接：

。

其中，步骤（10）步骤（12）为对正向树型传播结构

以及反向树型传播结构

中包含根节点以及转发节点在内的所有节点进行节点增强操作，即基于事件级传播树节点增强技术，增强了源帖与转发贴之间的关联性，从而达到提高谣言检测准确率的目的。

（13）通过全连接层以及softmax层获得用于预测事件的标签y，进而区分是谣言还是非谣言，同时，与人工标记的标签

进行对比，进而评估模型的谣言检测效果。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.基于事件与传播结构的谣言检测方法，其特征在于：包括下述步骤：

步骤1、从获取的公开数据集E所包含的事件

中提取源帖信息、转发关系以及其他特征，其中，其他特征包括用户信息、粉丝数、点赞数，k表示的是事件的序数，e _k表示第k个事件，n _k为第k个事件e _k中的单个帖子，r _k为源帖，每个

代表第j个相关的转发帖或响应帖，且j=1…k；

步骤2、使用基于情感极性的BERT对源帖信息进行文本数据增强，进而获得源帖的增强文本特征向量D；

步骤4、将树型传播结构G _k解析成正向树型传播结构

和反向树型传播结构

，并将正向和反向两种树型传播结构分别输入到FGCN模型以及RGCN模型中，获得传播特性H ^F和扩散特性H ^R，FGCN模型和RGCN模型共同构成基于事件与传播结构的双向图卷积神经网络模型；

步骤5、对正向树型传播结构

以及反向树型传播结构

，其中 V _i表示分类的类别，i表示类别索引，C表示分类的种类，S _i表示输出最大定的类别。

2.根据权利要求1所述的基于事件与传播结构的谣言检测方法，其特征在于：所述步骤2包括以下具体步骤：

，其中，N为被标记的数据个数，

为第N个被标记的数据，

为第N个被标记数据的情感极性标签；

步骤2.2、在标记数据集S上对预训练的BERT进行微调，直至收敛；即将BERT中能对文本的语义相似性进行分类的段表征

改为与标注好的情感极性有关联的情感极性表征E _emotion，从而根据标记数据集上的情感极性标签进行学习；其中，E _A表示改词属于句向量A，E _B表示词属于句向量B；A，B分别为句向量，且当输入文本为非单一的情感极性时，需调整向量的大小以兼容标签大小；

步骤2.3、对于每次迭代

，从而获得与句子情感极性标签相匹配的各种词

，并获得文本特征向量

；其中，word _i为文本中第i个特征词，

步骤2.4、形成源帖的增强文本特征向量D。

3.根据权利要求1所述的基于事件与传播结构的谣言检测方法，其特征在于：所述BERT采用双向语言模型从正反两个方向对生成新语句的概率进行建模，再由独立训练的正向语言模型的浅层和反向语言模型的浅层连接而成，形成BERT模型；其中，正向语言模型预测序列的概率表示为：

，p _i表示选择的句子。

4.根据权利要求2所述的基于事件与传播结构的谣言检测方法，其特征在于：所述步骤3具体为：

将源贴的增强后文本数据的文本特征向量D，且D=｛word ₁，word ₂，…，word _n，tag ₁，tag ₂，…，tag _n，emotion ₁，emotion ₂，…，emotion _n｝加入到传播关系的根节点中，与传播关系T结合，即

，形成树型传播结构G _k，且

，

对

为一个反馈，即

为

的转发帖或响应帖，则

为一条边，即

；若

对

为一个反馈，则

为一条边，即

，以此类推。

5.根据权利要求1所述的基于事件与传播结构的谣言检测方法，其特征在于：所述步骤4包括下述具体步骤：

，且

，且

；

步骤4.2、在每个训练轮次epoch，采用随机删边技术避免过拟合问题，获得邻接矩阵

，且

，其中，A _drop是使用

中，邻接矩阵表示为

，在反向树型传播结构

中，邻接矩阵表示为

；

步骤4.3、将构造好的正向树型传播结构

和反向树型传播结构

，

；其中，

为隐藏层特性，W ^F为FGCN的滤波参数矩阵，

为隐藏层特性，W ^R为RGCN的滤波参数矩阵，

为ReLU激活函数。

6.根据权利要求1所述的基于事件与传播结构的谣言检测方法，其特征在于：所述步骤5包括下述具体步骤：

步骤5.1、将原始特征矩阵

输入到FRBi-GCN模型中，通过k层GCL后形成的隐藏特征向量H _k；

，且

；

步骤5.3、将传播表示

和扩散表示

的节点表示信息分别使用均值池化进行聚合操作，得到

和

，将二者进行拼接得到

。

7.根据权利要求1所述的基于事件与传播结构的谣言检测方法，其特征在于：所述传播关系由源帖和转发贴之间的转发关系及包括用户信息，粉丝数，点赞数在内的其他特征构成。