CN111581980A

CN111581980A - 基于决策树与共同注意力协作的假新闻检测系统及方法

Info

Publication number: CN111581980A
Application number: CN202010373492.4A
Authority: CN
Inventors: 饶元; 吴连伟; 张聪; 李薛
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-25
Anticipated expiration: 2040-05-06
Also published as: CN111581980B

Abstract

本发明公开了一种基于决策树与共同注意力协作的假新闻检测系统及方法，本发明从一个新角度，提供了一种传统透明的机器学习与神经网络模型相结合的方法，提出了一种基于决策树与共同注意力协作的可解释性假新闻检测方法，来透明地捕获有力的细粒度证据并通过这些证据来发掘假新闻的虚假部分。本发明不仅提高了假新闻检测性能，还提供了检测过程的透明性以及检测结果的可解释性。本发明为假新闻检测任务提出了一种透明的、可解释的方案，该方案将决策树模型合并到共同注意网络中，不仅可以提供可解释索赔验证的证据，同时通过判决条件对证据形成过程进行了解释。本发明具有可拆解性，可将本发明的两个模块解耦训练利用，具有模型泛化能力和任务阶段性训练能力。

Description

基于决策树与共同注意力协作的假新闻检测系统及方法

【技术领域】

本发明属于电子信息技术领域，涉及一种基于决策树与共同注意力协作的假新闻检测系统及方法。

【背景技术】

假新闻检测的研究目前已经大致经历了两个研究阶段：第一个阶段是构建合适的深度模型围绕帖子或新闻的文本内容挖掘语义特征、情感特征、写作风格特征、立场特征等，以及围绕新闻的社会上下文来抽取基于来源的，基于帖子的，基于用户的，基于网络的可信度指示性特征来提高假新闻的检测性能。尽管这些方法体现了强大的有效性，但他们很难解释为什么被检测新闻是真实的还是虚假的。为克服这些弊端，最近研究的一个流行趋势(第二个阶段)是探索基于证据的解决方案，其聚焦于借助合理的神经网络模型从可靠的来源中捕获相关的证据片段来进行可解释性的假新闻检测。然而，尽管这种方法体现了一定的可解释性，但仍然存在一些限制：第一，他们很难解释新闻的证据发现过程，因为这种方法是神经网络模型，属于非透明的黑盒模型，缺乏方法本身的可解释性；第二，提供的证据是粗粒度的，通常是面向新闻的整条序列，缺乏对新闻序列中真正虚假部分的聚焦。

【发明内容】

本发明的目的在于解决现有技术中的问题，提供一种基于决策树与共同注意力协作的假新闻检测系统及方法，该方法不仅提高了假新闻检测性能，还提供了检测过程的透明性以及检测结果的可解释性。

为达到上述目的，本发明采用以下技术方案予以实现：

基于决策树与共同注意力协作的假新闻检测系统，包括：

基于决策树的证据模型，用于将多种因素作为决策条件并选择高可信度评论作为证据；

共同注意力模型，用于使被选中的证据与待检测新闻进行深层语义交互；

任务学习模块，用于将深度语义交互信息输入到Softmax中进行概率分布的预测。

本发明还公开了一种基于决策树与共同注意力协作的假新闻检测方法，包括以下步骤：

步骤0：给定数量为N的数据集

其中，x_i指一条待检测可信度的新闻，R_i为包含m条相关评论的集合R_i＝{R₁，R₂，...，R_m}，y_i表示真假二分类标签；

步骤1：构建基于层次性评论构建树形网络；

树形网络的根节点是该验证的新闻，第二层节点为用户对该新闻的直接评论 R₁₁，R₁₂，...，R_kn；其中k和n分别表示树形网络的深度和最后一层的节点宽度，第三层及以下节点是按照现实情况下层次性评论中对评论的回复进行建立的；

步骤2：构建基于可信度视角的决策树来选择树形网络中具有高可信度的评论作为证据；其中，决策树中每个决策节点包括一个决策条件和两个决策边；

步骤3：当树形网络中评论节点被决策树模型进行评估后，利用后剪枝算法选择树形网络子树作为证据集来用于后续的训练；

步骤4：采用共同注意力模型使选择的证据与新闻进行交互；

步骤5：对证据序列与新闻序列进行嵌入表示；

对于任意一条长度为l的序列X＝{x₁，x₂，...，x_l}，

其中，每个词的嵌入x_i是一个由预训练BERT模型获得的d维向量；最终形成新闻嵌入序列X^c和证据嵌入序列X^e；

步骤6：对序列进行编码；

采用BiLSTM模型对新闻嵌入序列Xc和证据嵌入序列X^e进行编码，如下：

其中，

和

分别是前向LSTM和后向LSTM的隐藏层，h是LSTM 的隐藏层单元，

表示拼接操作；最终，获得新闻序列的编码

以及证据序列的编码

步骤7：证据编码与新闻编码通过共同自注意力进行深度语义交互；共同自注意力构建了两个层次自注意力网络；其中，自注意力网络如下：

其中，

和

分别为查询矩阵，键矩阵以及值矩阵；d是K的尺度值；在第一个层次自注意力网络中，

是证据序列编码的最大池化向量，K＝V＝Rc，Rc为新闻序列编码；在第二个层次自注意力网络中，Q＝C，即第一个自注意力网络的输出向量，K＝V＝R^e，R^e为证据序列编码；

步骤8：自注意力网络首先映射查询矩阵、键矩阵、和值矩阵j次，然后这j 次映射并行地执行多尺度点乘注意力，最终将所有的执行结果拼接起来形成一个全新的表示，如下：

Head_i＝Attention(QW_i ^Q，KW_j ^K，VW_i ^V) (5)

O′＝MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_j)W^o (6)

其中，

和

是训练参数且D是2h/j；

步骤9：共同自注意力网络通过一个前馈网络FFN来增强非线性特征以及尺度不变的特征，其形式化为：

O＝FFN(O′)＝max(0，O′W₁+b₁)W₂+b₂ (7)

其中，W₁和

b₁和

分别是可学习的参数；O＝C和O＝E 是两个分别针对新闻与证据的层次自注意力网络的输出交互向量；

步骤10：融合最终的交互输出；

采用绝对差和元素乘积来融合针对新闻的输出交互向量C和针对证据的输出交互向量E；

EC＝[E；|E-C|；E⊙C；C] (8)

其中；表示拼接操作，⊙表示元素点对点的乘积操作；

步骤11：将融合的最终交互输出输入到Softmax函数中进行概率分布的预测，并借助交叉熵误差来训练一个标签为y的样本，如下：

p＝Softmax(W_pEC+b_p) (9)

Loss＝-∑ylogp (10)

其中，W_p和b_p均为可训练参数。

上述方法的进一步改进在于：

所述步骤2中，从新闻内容和元数据两个视角构造了三种决策条件：新闻与评论的语义相似度、评论用户的可信度以及评论的可信度，具体如下：

(1)新闻与评论的语义相似度：采用软余弦来测量新闻与评论之间的平均词嵌入作为他们之间的语义相似度；

(2)评论用户的可信度：利用评论用户的多种元数据特征来评估其可信度，元数据特征包括是否验证，是否存在地理位置信息，是否存在昵称，是否存在头像，以及粉丝量、好友量和关注量；

(3)评论的可信度：利用评论的多种元数据进行大致评估评论语义的可信度，元数据特征包括：是否包括地理位置信息、来源信息、是否喜欢这条评论，以及点赞量和评论的内容长度。

与现有技术相比，本发明具有以下有益效果：

本发明提出了一种基于决策树与共同注意力协作的可解释性假新闻检测方法，该方法充分融合了传统机器学习算法的过程透明性，以及神经网络模型的高性能，最终实现了方法本身的证据选择过程的透明性与检测结果的细粒度可解释性。

进一步的，本发明为假新闻检测任务提出了一种透明的、可解释的方案，该方案将决策树模型合并到共同注意网络中，不仅可以提供可解释索赔验证的证据，同时通过判决条件对证据形成过程进行了解释；

进一步的，设计的共同注意力网络促进了证据与新闻之间的深层语义交互，可以训练决策阈值获得更有力的证据，有效地关注假新闻的虚假部分；

进一步的，本发明具有可拆解性，可将本发明的两个模块解耦训练利用，具有模型泛化能力和任务阶段性训练能力；

进一步的，在两个公开的、广泛使用的假新闻数据集上实验表明，本发明比以前的最先进的方法取得了更好的性能。

【附图说明】

图1为本发明的架构图；

图2为本发明的基于决策树的证据模型；

图3(a)为不同的评论可信度作为决策阈值的性能表现；

图3(b)为不同的用户可信度作为决策阈值的性能表现；

图3(c)为不同的语义相似度作为决策阈值的性能表现；

图4为本发明实际案例分析图。

【具体实施方式】

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的；其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中，当将一层/元件称作位于另一层/元件“上”时，该层/元件可以直接位于该另一层/元件上，或者它们之间可以存在居中层/元件。另外，如果在一种朝向中一层/元件位于另一层/元件“上”，那么当调转朝向时，该层/元件可以位于该另一层/元件“下”。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和 “具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明基于决策树与共同注意力协作的假新闻检测系统，包括基于决策树的证据模型、共同注意力模型以及任务学习模块，具体如下：

基于决策树的证据模型，以结构化和层次性相关评论为基础设计了基于决策树的证据模型，考虑包括文本内容与元数据相关特征在内的多种因素作为决策条件并选择高可信度评论作为证据，如图2所示；

共同注意力模型，发展了共同注意力网络来使得被选中的证据与待检测新闻进行深层语义交互，来实现两个目标：一是训练基于决策树的证据模型得到最优的决策阈值并捕获最有力的证据，二是利用捕获的证据来探索假新闻的虚假部分。

本发明基于决策树与共同注意力协作的假新闻检测方法，包括以下步骤：

阶段0：数据初始化

步骤0：给定数量为N的数据集

阶段1：基于决策树证据模型的构建

步骤1：如图2左边所示，构建基于层次性评论构建树形网络；

步骤1中树形网络的构建过程具体为：

树形网络的根节点是该验证的新闻，第二层节点为用户对该新闻的直接评论(R₁₁，R₁₂，...，R_kn)；其中k和n分别表示树形网络的深度和最后一层的节点宽度，第三层及以下节点是按照现实情况下层次性评论中对评论的回复进行建立的。

步骤2：本发明构建基于可信度视角的决策树来选择步骤1中形成的树形网络中具有高可信度的评论作为证据；其中，决策树中每个决策节点包括一个决策条件和两个决策边(即决策结果)，如图2右边所示。本发明从新闻内容和元数据两个视角构造了三种决策条件，即新闻与评论的语义相似度、评论用户的可信度以及评论的可信度。

(1)新闻与评论的语义相似度的具体细节：采用软余弦来测量新闻与评论之间的平均词嵌入作为他们之间的语义相似度。

(2)评论用户的可信度的具体细节：利用评论用户的多种元数据特征来评估其可信度，元数据特征包括是否验证，是否存在地理位置信息，是否存在昵称，是否存在头像；以及粉丝量、好友量、关注量等。

(3)评论的可信度的具体细节：利用评论的多种元数据进行大致评估评论语义的可信度，元数据特征包括：是否包括地理位置信息、来源信息、是否喜欢这条评论，以及点赞量和评论的内容长度。

步骤3：当树形网络中评论节点被决策树模型一一进行评估后，本发明利用后剪枝算法选择树形网络子树作为证据集来用于阶段2的训练。

阶段2：基于共同注意力网络的构建

步骤4：在阶段1的训练初期，决策树证据模型中的决策阈值是不确定的，即根据不同的决策阈值将有不同数量的评论被选为证据。为训练决策树证据模型获得最优的决策阈值以至于捕获更有力的证据。本发明设计了共同注意力模型来使选择的证据与新闻进行交互。

步骤5：对证据序列与新闻序列进行嵌入表示。对于任意一条长度为l的序列X＝{x₁，x₂，...，x_l}，

其中每个词的嵌入x_i是一个由预训练BERT模型获得的d维向量。最终，形成新闻嵌入序列X^c和证据嵌入序列X^e。

步骤6：对序列进行编码。本发明采用BiLSTM模型对新闻嵌入序列X^c和证据嵌入序列X^e进行编码，其可形式化为：

其中，

和

分别是前向LSTM和后向LSTM的隐藏层。h是LSTM 的隐藏层单元。

表示拼接操作。最终，获得新闻序列的编码

以及证据序列的编码

步骤7：证据编码与新闻编码通过共同自注意力进行深度语义交互。共同自注意力构建了两个层次自注意力网络；其中自注意力网络可形式化为：

其中，

和

分别为查询矩阵，键矩阵以及值矩阵。d是K的尺度值。特别地，在第一个层次自注意力网络中，

是证据序列编码的最大池化向量，K＝V＝Rc(Rc为新闻序列编码)；在第二个层次自注意力网络中，Q＝C，即第一个自注意力网络的输出向量，K＝V＝R^e(R^e为证据序列编码)。

步骤8：为获得注意力的高度并行性，自注意力网络首先映射查询矩阵、键矩阵、和值矩阵j次，然后这j次映射并行地执行多尺度点乘注意力，最终将所有的执行结果拼接起来形成一个全新的表示。形式上，这个过程可表达为：

Head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V) (5)

O′＝MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_j)W^o (6)

其中，

和

是训练参数且D是2h/j。

步骤9：共同自注意力网络通过一个前馈网络(FFN)来增强非线性特征以及尺度不变的特征，其形式化为：

O＝FFN(O′)＝max(0，O′W₁+b₁)W₂+b₂ (7)

其中，W₁和

b₁和

分别是可学习的参数。O＝C和O＝E 是两个分别针对新闻与证据的层次自注意力网络的输出交互向量。

步骤10：融合最终的交互输出。本发明采用绝对差和元素乘积来融合针对新闻的输出交互向量C和针对证据的输出交互向量E。

EC＝[E；|E-C|；E⊙C；C] (8)

其中；表示拼接操作，⊙表示元素点对点的乘积操作。

阶段3：任务学习

步骤11：将融合的最终交互输出输入到Softmax函数中进行概率分布的预测，并借助交叉熵误差来训练一个标签为y的样本。其可形式化表达为：

p＝Softmax(W_pEC+b_p) (9)

Loss＝-∑ylogp (10)

其中，W_p和b_p均为可训练参数。

本发明应用于社交网络环境，且能够捕获相关可信度特征的网络环境中。实验在两个具有竞争力的数据集(RumourEval和PHEME)上证实了性能的优越性，如表1所示；

表1本发明的实验性能结果

在不同决策条件下的性能表现中确定了决策条件的最优决策阈值，即评论可信度为＜0.6(如图3(a)所示)，用户可信度为＜0.7(如图3(b)所示)，语义相似度为＜0.5(如图3(c)所示)；并在不同数量的评论下进行实验得知本发明性能的可靠性，性能从72.28％到79.18％持续增加，如表2所示。

表2本发明不同数量评论下性能结果

实施例：

本发明针对实际案例新闻为“据报道，某国《XX周刊》XX总部发生枪击事件，造成10人死亡。”来检测其真假性，如图4提供了本发明的实际检测结果图，其中，粗箭头是本发明捕获的具有可信度指示性特征的评论。由图可得，本发明通过三种决策条件(语义相似度、用户可信度和评论可信度)下不同的决策阈值有效地捕获到能够揭穿新闻的虚假性的评论，并利用这些评论作为证据来发现新闻的虚假部分。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。