CN112765313A

CN112765313A - 一种基于原文和评论信息分析算法的虚假信息检测方法

Info

Publication number: CN112765313A
Application number: CN202011626342.6A
Authority: CN
Inventors: 王莉; 杨延杰; 王宇航
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07
Anticipated expiration: 2040-12-31
Also published as: CN112765313B

Abstract

本发明一种基于原文和评论信息分析算法的虚假信息检测方法，属于基于原文和评论信息分析算法的虚假信息检测技术领域；所要解决的技术问题为：提供一种基于原文和评论信息分析算法的虚假信息检测方法的改进；解决该技术问题采用的技术方案为：对评论与原文的全局结构信息捕获，该过程分为评论关系结构信息捕获和评论与原文的相互选择，其中结构信息捕获作用于依据评论的回复结构构建的回复图，通过聚合具有回复结构关系的信息得到包含结构信息的评论的特征表示；捕获评论内部的局部时序信息以得到评论的局部特征表。最后将生成的全局表示与局部表示拼接用于虚假信息检测，得到该输入文档是否属于虚假信息的概率值；本发明应用于虚假信息检测。

Description

一种基于原文和评论信息分析算法的虚假信息检测方法

技术领域

本发明一种基于原文和评论信息分析算法的虚假信息检测方法，属于基于原文和评论信息分析算法的虚假信息检测技术领域。

背景技术

现有的虚假信息检测算法按照研究对象的不同大致可以分为基于文本内容的方法、基于用户的方法以及基于传播的方法；基于文本内容的方法主要依赖原文信息进行检测，这类方法的优势在于数据获取便利同时这类方法可以在信息发布的第一时间给出判断而不依赖于外部信息，但是现在文本内容越来越具有强的误导性和迷惑性，这将增加此类方法检测的难度。另外社交媒体上的信息大多都是短文本，还会造成可用数据稀疏的问题；另一类检测方法是基于用户的方法，主要利用的用户属性等信息进行虚假信息检测，但是由于隐私保护问题，往往难以获取用户的真实信息，限制了此类检测方法的发展。

基于传播的检测方法主要利用社交媒体上信息传播时产生的其他信息进行检测，评论就是其中的一种信息，一方面评论一般与原文处于同一个页面，这就为获取数据带来了便利；另一方面，评论内容可以看作是对于原文内容的补充，其中包含很多有价值的信息能够帮助进行虚假信息检测；现有的一些研究已经开始重视使用评论数据来辅助进行虚假新闻的检测，其中一类方法为机器学习方法，此类方法主要通过设计与提取文章与评论中的统计特征用于分类，此类方法最大的问题是特征的设计与提取需要庞大的人力物力，同时特征设计较为单一，无法很好的适应复杂多变的真实环境；另外一类方法侧重于使用深度学习的方法来解决此类问题，Ma等人将评论的时间序列建模为树结构，利用递归神经网络(RvNN)从评论中捕捉有用信息用于分类，ShuKai等人利用评论与原文之间的关系，提出了dEFEND模型来共同捕获有用的评论和原文中重要的句子，并且提供了一定的可解释性，但他们的研究是忽略了真实情景下原文与评论以及评论与评论之间的实际回复结构关系，而仅仅在语义层面考虑；另外Bian等人提出了一种用于谣言检测的双向BiGCN模型，通过双向图卷积网络学习消息评论内部的结构特征，取得了良好的效果，但是他们的工作忽略了评论的时序信息，即忽略了不同时间段内评论的局部特征，导致对虚假信息检测的准确度较差。

发明内容

本发明为了克服现有技术中存在的不足，所要解决的技术问题为：提供一种基于原文和评论信息分析算法的虚假信息检测方法的改进。

为了解决上述技术问题，本发明采用的技术方案为：一种基于原文和评论信息分析算法的虚假信息检测方法，包括如下检测步骤：

步骤一：对评论与原文的全局结构进行信息捕获，基于信息原文与评论以及评论与评论之间的回复关系构建回复结构图，在原文和评论的全局角度，深入挖掘评论的回复结构信息和评论与原文的相互选择；

步骤1.1：捕获回复结构信息；对依据回复关系构建的回复结构图，通过图卷积神经网络来依据结构聚合信息，得到每个节点包含结构信息的全局表示；

定义待检测信息P_i的回复结构图表示为G_i＝{V_i,E_i}，其中V_i为节点集合，E_i为边集合；定义节点集合

表示原文节点和对应的m个评论，原文节点与评论两两之间依据是否具有回复关系相连，然后将该回复结构图的邻接矩阵和特征矩阵用于计算和学习结构表示，其中邻接矩阵描述节点之间的拓扑结构，特征矩阵描述节点的特征表示；

步骤1.2：评论与原文的相互选择，定义原文单词与评论之间的互注意力机制来考虑相互选择；

步骤二：捕获评论内部的局部时序信息；将信息的评论按照时间顺序排列，利用TextCNN得到基于评论内部局部特征的评论表示；

利用固定大小的滑动窗口建模局部时序内的评论以捕获动态变化；

步骤三：检测虚假信息；将上述通过捕获的回复结构信息和相互选择信息后的全局特征表示与局部特征表示拼接后输入全连接层，得到该信息属于虚假信息的概率值。

所述步骤1.1中捕获回复结构信息的具体过程为：

定义邻接矩阵A∈R^(m+1)×(m+1)，其中元素为：

定义特征矩阵X∈R^(m+1)×n，式中n为特征表示的维度，m+1为节点个数；

采用图卷积神经网络(GCN)依据结构信息进行信息聚合，使得每个节点能够依据结构聚合周围节点的信息以得到更好的表示，通过两次的GCN，得到包含结构信息的节点表示为：

H₁＝tanh(AXW₀)；

H₂＝tanh(AH₁W₁)；

式中H₁，H₂∈R^(m+1)×1表示通过两次GCN聚合之后的特征表示；W₀∈R^n×1，W₁∈R^l×l为GCN中可学习的参数；

得到聚合结构信息的特征表示之后，显式的加入自注意力机制来考虑任意评论之间的影响而不仅仅局限于具有回复结构的信息之间，自注意力机制通过以下公式得到结果：

式中输入的Q＝K＝V＝H₂[1：]，即将除原文节点之外的评论节点的表征矩阵输入以考虑所有评论之间的影响。

所述步骤1.2中评论与原文的相互选择的具体过程为：

定义原文单词与所有评论的亲和力矩阵F，矩阵F为原文单词与评论的公共子空间，矩阵F的计算公式为：

F＝tanh(C^TW_csS)；

式中C为通过步骤1.1得到的评论特征矩阵，S为原文每个单词表征构成的特征矩阵， W_cs为可学习的参数；

基于亲和力矩阵F，可以得到原文每个单词以及每个评论各自的注意力值，计算公式为：

H^c＝tanh(W_sS+(W_cCF))；

H^s＝tanh(W_cC+(W_sSF^T))；

其中H^c，H^s为中间结果矩阵，a^s，a^c为各自的权重矩阵，W_c，W_s，W_hs，W_hc为可学习的参数，然后采用加权的方式得到原文的全局特征表示：

式中k为原文中的单词个数，m为对应的评论个数，

和

为经过相互选择之后聚合得到的向量，由此可以得到原文和评论的全局特征表示为

所述步骤二中捕获评论内部局部时序信息的具体过程为：

对所有评论依据发布时间表示为〈…<c_t，t>…>，即用户在t时刻发布了评论c_t，依据t进行排序得到按时间排序的评论序列，记为C′＝<c₁，…，c_m>，并通过滑动窗口W在连续评论之间卷积的方式捕捉其局部特征；

捕捉局部特征的过程为：

设TextCNN有滤波器W∈R^T×n，窗口大小为T，表示一次同时有T个评论在同一个窗口中，同时叠加k个滤波器W，并且设置填充操作padding防止卷积过程中丢失数据，默认为padding＝1；然后将滤波器应用到窗口上，依次从第一个评论滑动到最后一个评论，得到最终的特征矩阵X_t∈R^m×k；

为提取高频信息，将最大池化操作作用于X_t，得到最终捕获信息的输出为：

h_local＝max(x_t)。

所述步骤三中检测虚假信息的具体过程为：

使用带有softmax激活函数的全连接层将待测信息表示映射为属于虚假信息的概率值，概率值的计算公式为：

式中

表示新闻为真或假的预测标签概率值，W_h是权重，b_h是偏置项；

定义交叉熵损失函数为：

其中θ是整个算法网络的参数，y＝[y₀，y₁]是真实标签取值。

本发明相对于现有技术具备以下的有益效果：

一、本发明提出的检测方法为深度学习方法，不需要繁琐的设计和提取手工特征，同时还能得到更加高级的特征表示用于分类；

二、本发明的检测结果不仅仅依赖于原文和评论的文本内容，而是深入挖掘了更多有价值的信息，这样的检测结果更加可靠；

三、本发明先进性、稳定性和实用性，识别虚假信息的准确率高，在公开数据集上达到了7.59％的ACC值提升。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明虚假信息检测算法整体流程图；

图2为本发明虚假信息检测算法整体模型图。

具体实施方式

如图1和图2所示，本发明提出一种基于原文和评论信息分析算法的虚假信息检测方法，主要包括以下步骤：

评论与原文的全局结构信息捕获。该过程分为评论关系结构信息捕获和评论与原文的相互选择，其中结构信息捕获作用于依据评论的回复结构构建的回复图，通过聚合具有回复结构关系的信息得到包含结构信息的评论的特征表示；评论与原文的相互选择，设计了原文单词与评论的共同注意力机制，即通过评论选择原文中的重要信息，同时通过原文有侧重的筛选关键评论，以达到信息聚合的时候有侧重的利用重要信息。

捕获评论内部的局部时序信息。首先依据评论的时间先后构建评论链，利用TextCNN 来捕获评论的局部特性，最后使用最大池化操作获取高频信息。

虚假信息检测。将生成的全局表示与局部表示拼接用于虚假信息检测，得到该输入文档是否属于虚假信息的概率值。

本发明所依赖的信息载体是原文文本与评论，通过从全局和局部的角度全方面的挖掘与使用原文与评论中有价值的信息，具有鲁棒性强、信息利用率高的特点，同时具有好的虚假信息检测性能。

具体的，由于本发明的主要目的是实现虚假信息检测，具体任务目标可以概述为虚假信息的二分类问题，本发明实现虚假信息检测的过程步骤为：

建设模块一：评论与原文的全局结构信息捕获；

本发明首先依据信息原文与评论以及评论与评论之间的回复关系构建回复结构图，在原文和评论的全局角度，从以下两部分深入挖掘，(1)评论的回复结构信息；(2)评论与原文的相互选择。

步骤一、捕获回复结构信息。对依据回复关系构建的回复结构图，通过图卷积神经网络来依据结构聚合信息，从而得到每个节点包含结构信息的全局表示。具体方法和过程如下。待检测信息P_i的回复结构图表示为G_i＝{V_i，E_i}，其中V_i为节点集合，E_i为边集合。定义节点集合

表示原文节点和对应的m个评论，它们两两之间依据是否具有回复关系相连，如果

回复了

则他们之间存在一条边。然后定义该回复结构图的邻接矩阵和特征矩阵用于计算和学习结构表示。邻接矩阵描述节点之间的拓扑结构，特征矩阵描述节点的特征表示。定义邻接矩阵A∈R^(m+1)×(m+1)，其中元素为：

定义特征矩阵X∈R^(m+1)×n，n为特征表示的维度，m+1为节点个数。图卷积神经网络(GCN)被证明可以依据结构信息进行信息聚合，使得每个节点能够依据结构聚合周围节点的信息以得到更好的表示，通过两次的GCN，最终可以可到包含结构信息的节点表示： H₁＝tanh(AXW₀)；

H₂＝tanh(AH₁W₁)；

其中H₁，H₂∈R^(m+1)×l表示通过两次GCN聚合之后的特征表示。W₀∈R^n×1，W₁∈R^l×l为GCN中可学习的参数。鉴于社交媒体信息具有开放性，使得社交媒体上的任意两个信息之间都可能存在影响，而单独使用GCN很难将任意节点之间的影响计算在内。所以在得到聚合结构信息的特征表示之后，本发明显式的加入自注意力机制来考虑任意评论之间的影响而不仅仅局限于具有回复结构的信息之间，自注意力机制通过下面的公式得到结果：

其中，输入的Q＝K＝V＝H₂[1：]，即将除原文节点之外的评论节点的表征矩阵输入以考虑所有评论之间的影响。

步骤二、评论与原文的相互选择。评论关注最多的原文内容，往往是原文中最重要的信息，所以依据评论可以找到原文中最重要的信息；同样的，依据原文信息也可以剔除掉一些无关的评论，去除这些噪声对于该场景下的检测有一定帮助。本专利设计了原文单词与评论之间的互注意力机制来考虑这种相互选择，首先构建原文单词与所有评论的亲和力矩阵F，该矩阵可以看作原文单词与评论的公共子空间，由以下公式得到：

F＝tanh(C^TW_csS)；

其中C为通过上述步骤一之后得到的评论特征矩阵，S为原文每个单词表征构成的特征矩阵。利用亲和力矩阵F，可以得到原文每个单词以及每个评论各自的注意力值，计算如下：

H^c＝tanh(W_sS+(W_cCF))；

H^s＝tanh(W_cC+(W_sSF^T))；

然后，本专利利用加权的方式得到原文的全局特征表示：

其中k为原文中的单词个数，m为对应的评论个数，

和

为经过相互选择之后聚合得到的向量。由此可以得到原文和评论的全局特征表示为

建设模块二：捕获评论内部的局部时序信息。将信息的评论按照时间顺序排列，利用 TextCNN得到基于评论内部局部特征的评论表示。

发明人发现，随着时间的推移，评论内部存在主题漂移，即人们讨论的话题会随着时间发生变化，捕获这种局部的变化，有助于我们更好的把握信息动向，从而提高检测性能。本发明利用固定大小的滑动窗口建模局部时序内的评论以捕获这种动态变化。

对所有评论依据发布时间表示为<…<c_t，t>…>，即用户在t时刻发布了评论c_t，依据t进行排序得到按时间排序的评论序列，记为C′＝<c₁，…，c_m>，并通过滑动窗口W在连续评论之间卷积的方式捕捉其局部特征；捕捉局部特征的过程为：设TextCNN有滤波器W∈R^T ^×n，窗口大小为T，表示一次同时有T个评论在同一个窗口中，同时叠加k个滤波器W，并且设置填充操作padding防止卷积过程中丢失数据，默认为padding＝1；然后将滤波器应用到窗口上，依次从第一个评论滑动到最后一个评论，得到最终的特征矩阵X_t∈R^m×k；为提取高频信息，将最大池化操作作用于X_t，得到最终捕获信息的输出为：h_local＝max(X_t)。

建设模块三：虚假信息检测，将上述两个模块生成的全局特征表示与局部特征表示拼接后输入全连接层，得到该信息是否属于虚假信息的概率值。具体的本发明使用带有softmax 激活函数的全连接层将该待测信息表示映射为是否属于虚假信息的概率值。

式中

定义交叉熵损失函数为：

本发明深度挖掘和利用原文和评论中有价值的信息，从全局和局部两个角度进行建模，基于消息的评论回复关系构建回复结构图，建立叠加GCN网络和自注意力机制结合的方法，得到基于结构的节点特征表示；为突出繁杂数据中重要信息的作用，设计了原文单词与评论互注意力机制，以增强信息表示能力从而得到全局特征表示；以评论发布的时间顺序为依据，利用TextCNN得到评论内部的局部特征表示，并综合以上学习策略得到的信息全局表示与局部表示，建立分类模型，进行虚假新闻检测。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。