CN111008337A

CN111008337A - 一种基于三元特征的深度注意力谣言鉴别方法及装置

Info

Publication number: CN111008337A
Application number: CN201911074952.7A
Authority: CN
Inventors: 王丽娜; 王文琦; 柯剑鹏; 叶傲霜; 陈铜; 唐奔宵
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-04-14
Anticipated expiration: 2039-11-06
Also published as: CN111008337B

Abstract

本发明公开了一种基于三元特征的深度注意力谣言鉴别方法及装置，采用公开的社交网络平台谣言鉴定数据集，提取时间周期内信息的文本内容，事件的传播轨迹，用户的反馈信号作为三元特征，并提出了一种改进的基于时空结构相似和节点度量的有偏随机游走算法用于节点的分布式表示学习，使用改进的传播网络节点的向量化方法和网络拓扑结构的显式向量表示方法将网络拓扑结构从高维映射到低维表示，采用了一种基于自注意力的时序鉴别方法，并验证了本方法在真实世界数据集上的可行性。本发明的方法可以对谣言信息进行有效鉴别，并提高鉴别的准确性。

Description

一种基于三元特征的深度注意力谣言鉴别方法及装置

技术领域

本发明涉及文本处理与检测技术领域，具体涉及一种基于三元特征的深度注意力谣言鉴别方法及装置。

背景技术

当前时代社交媒体平台因其便利性大力推动了各类事件信息的爆发式传播，成为当今社会普通民众获取外界信息的重要来源。然而，社交网络的发展和信息量的增长也带来了谣言等各类不良信息的泛滥。同时因社交媒体上的信息数量过于庞大注定人工辟谣费时费力不够理想，所以自动化检测谣言的需求迫在眉睫。

现有方法中按照对特征利用的方式可划分为两类：基于特征工程的传统模型方法和基于传播的端到端模型方法。而基于特征工程的模型所利用到的特征又可归纳为以下三方面：信息内容特征，交互网络特征，用户相关特征。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

基于信息内容特征的方法：通过提取传播消息中的文本内容、语言特征和图片等视觉内容来检测谣言，然而此方法忽略了社交网络的动态传播模式，导致模型的泛化能力不够理想；基于交互网络特征的方法：通过提取社交网络的拓扑结构和信息的时序结构，分析得到谣言信息与非谣言信息的差距，进而构建分类器，此方法受限于人工精心构造的特征及模型学习表征能力，其效果往往不够理想；基于用户相关特征的方法：常见的用户特征又分为个体级特征与群组级特征，此方法对训练数据要求准确率高、数据量大，且基于用户特征的方法忽视了事件话题内容在传播中的作用，导致模型效果可能存在一定偏差。

由此可知，现有技术中对专家知识的要求高，端到端方法对特征的利用过于单一的，从而导致的鉴别不够准确的技术问题。

发明内容

有鉴于此，本发明提供了一种基于三元特征的深度注意力谣言鉴别方法及装置，用以解决或者至少部分解决现有技术中由于对专家知识的要求高，端到端方法对特征的利用过于单一的，从而导致的鉴别不够准确的技术问题。

为了解决上述技术问题，本发明第一方面提供了一种基于三元特征的深度注意力谣言鉴别方法，包括：

步骤S1：从给定的数据集中提取出信息传播过程中的传播轨迹，采用网络拓扑结构表示传播过程中的传播轨迹，对网络拓扑结构用段向量进行表示；

步骤S2：从给定的数据集中提取出预设时间周期内信息的文本主题，并对信息的文本主题用段向量进行表示；

步骤S3：从给定的数据集中提取出用户的反馈信号，并构建反馈信号向量；

步骤S4：将网络拓扑结构的段向量、信息的文本主题的段向量和反馈信号向量作为三元特征向量，引入深度注意力机制表征学习三元特征的时序规律，构建深度注意力模型；

步骤S5：使用开源谣言数据集对深度注意力模型进行训练，得到训练后的深度注意力模型；

步骤S6：利用训练后的深度注意力模型对社交网络中的谣言信息进行鉴别。

在一种实施方式中，步骤S1中对网络拓扑结构用段向量进行表示具体包括：

步骤S1.1：采用基于时空相似度的网络节点表示学习方法，将用户节点转化为向量形式表示，得到网络拓扑结构中节点的向量表示；

步骤S1.2：基于网络拓扑结构中节点的向量表示，采用分布式记忆模型对网络拓扑结构进行向量表示，得到网络拓扑结构的段向量表示。

在一种实施方式中，步骤S1.1具体包括：

步骤S1.1.1：基于节点环路结构，对两个节点进行相似度计算；

步骤S1.1.2：根据两个节点之间的相似度，构建层次跳转率矩阵，其中，单层层次跳转率矩阵的节点为网络拓扑结构中所有节点，网络拓扑结构为网络图，网络图中的边为节点集合的两两无向有权相连，边上的权值表示在以节点最近k跳环路距离为基础的跳转概率；

步骤S1.1.3：采用有偏随机游走在构建的层次化的跳转概率矩阵中进行节点序列采样，得到用户节点序列集合；

步骤S1.1.4：采用预设词向量训练方法对用户节点序列集合中的节点进行无监督嵌入学习表示，得到网络拓扑结构中节点的向量表示。

在一种实施方式中，步骤S1.2具体包括：

步骤S1.2.1：对事件包含的信息按照时间戳进行排序，其中，社交媒体上的多条信息组成一个事件；

步骤S1.2.2：对排序后的事件进行非线性时序分割，得到从事件在各个非线性时段的信息序列；

步骤S1.2.3：以最大环路距离针对整体数据集中所有用户构建层次化跳转概率矩阵，对层次化跳转概率矩阵的概率跳转进行有偏随机游走采样，获取整体网络拓扑图随机游走序列；

步骤S1.2.4：对整体网络拓扑图随机游走序列进行段向量的表示学习训练得到网络拓扑图向量推段模型；

步骤S1.2.5：压缩表示各事件各时段的用户序列，得到各个非线性时段的时序的用户序列；

步骤S1.2.6：采用训练得到的网络拓扑图向量推段模型对各个非线性时段的时序的用户序列进行预测，得到事件传播中的用户网络拓扑结构的段向量表示。

在一种实施方式中，步骤S2中对信息的文本主题用段向量进行表示，具体包括：

步骤S2.1：采用预设方法训练Doc2vec模型；

步骤S2.2：利用训练好的Doc2vec模型预测文本主题段向量表示。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：将数据集的信息文本内容与质疑更正信号正则表达式进行正则匹配，获得初始种子词；

步骤S3.2：计算初始种子词与预训练语料中的候选词汇的余弦相似度，将与初始种子词的余弦相似度大于阈值的词汇作为新的种子词，根据指定的迭代次数循环执行该步骤，直到得到所有的种子词；

步骤S3.3：得到的所有种子词作为用户的事件反馈信号单词集合，将事件的信息序列进行非线性时序分割，得到事件在各个非线性时段的信息文本序列，采用自动机算法与事件反馈信号单词集合进行匹配，得到事件在对应时段的事件反馈信号。

在一种实施方式中，步骤S4中的深度注意力模型包括：嵌入层、编码层、注意力层以及输出层，其中，嵌入层用于对输入的三元特征向量进行聚合得到编码层的输入，编码层采用双向门控循环单元网络，用于捕获谣言的判别类别与传播模式的时间相应关系，注意力层用于对编码层各个时刻的输出进行加权求和来获取时间时段传播模式的隐层表示；输出层用于根据编码层得到的时间时段传播模式的隐层表示获得判别结果向量。

基于同样的发明构思，本发明第二方面提供了一种基于三元特征的深度注意力谣言鉴别装置，包括：

传播轨迹提取模块，用于从给定的数据集中提取出信息传播过程中的传播轨迹，采用网络拓扑结构表示传播过程中的传播轨迹，对网络拓扑结构用段向量进行表示；

文本主题提取模块，用于从给定的数据集中提取出预设时间周期内信息的文本主题，并对信息的文本主题用段向量进行表示；

用户反馈信号提取模块，用于从给定的数据集中提取出用户的反馈信号，并构建反馈信号向量；

注意力模块构建模块，用于将网络拓扑结构的段向量、信息的文本主题的段向量和反馈信号向量作为三元特征向量，引入深度注意力机制表征学习三元特征的时序规律，构建深度注意力模型；

训练模块，用于使用开源谣言数据集对深度注意力模型进行训练，得到训练后的深度注意力模型；

鉴别模块，用于利用训练后的深度注意力模型对社交网络中的谣言信息进行鉴别。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于三元特征的深度注意力谣言鉴别方法，首先从给定的数据集中提取出信息传播过程中的传播轨迹、信息的文本主题，并分别采用段向量进行表示；并提取出用户的反馈信号，构建反馈信号向量；然后将网络拓扑结构的段向量、信息的文本主题的段向量和反馈信号向量作为三元特征向量，引入深度注意力机制表征学习三元特征的时序规律，构建深度注意力模型；再使用开源谣言数据集对深度注意力模型进行训练，得到训练后的深度注意力模型；最后利用训练后的深度注意力模型对社交网络中的谣言信息进行鉴别。

由于本发明提供的方法，通过提取事件的传播轨迹、用户的反馈信号和信息的文本主体来表示事件的整体传播模式，并以注意力模型表征学习三元异质特征的时序规律，可以充分利用信息时序文本特征和用户特征，以及用户网络拓扑结构变化、时段内信息的时序关系等因素在传播中的影响，然后使用开源谣言数据集对深度注意力模型进行训练，再利用训练后的深度注意力模型对社交网络中的谣言信息进行鉴别，采用基于注意力的特征聚合模型可以实现对谣言信息的鉴别，不需要过分依赖专家知识，并且克服了端到端学习的特征比较单一的缺陷，可以大大提高鉴别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于三元特征的深度注意力谣言鉴别方法的流程示意图；

图2为一种具体示例中三元特征的深度注意力谣言鉴别过程示意图；

图3本发明实施例中事件传播模式组成示意图；

图4本发明实施例中社交网络拓扑结构示意图；

图5本发明实施例中网络拓扑结构的段向量表示示意图；

图6为本发明实施例中基于三元特征的深度注意力模型框架结构示意图；

图7为本发明实施例中一种基于三元特征的深度注意力谣言鉴别装置的结构框图；

图8为本发明实施例中一种计算机可读存储介质的结构框图；

图9为本发明实施例中一种计算机设备的结构框图。

具体实施方式

本发明申请人通过大量的研究与实践发现：基于特征工程的传统模型方法和基于传播的端到端模型方法，仅利用了信息时序文本特征和部分用户特征，却忽视了用户网络拓扑结构变化、时段内信息的时序关系等因素在传播中的影响，存在对专家知识的要求高，端到端方法对特征的利用过于单一的缺陷，从而影响了模型的性能，导致鉴别结果不够准确。

本发明的目的在于针对以上问题，提出一种基于三元特征的深度注意力谣言鉴别方法及装置，通过提取事件的传播轨迹、用户的反馈信号和信息的文本内容来表示事件的整体传播模式，并以注意力模型表征学习三元异质特征的时序规律。利用基于注意力的特征聚合模型对真实世界的谣言数据集进行分类验证了其具有良好的表现。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种基于三元特征的深度注意力谣言鉴别方法，请参见图1，该方法包括：

步骤S1：从给定的数据集中提取出信息传播过程中的传播轨迹，采用网络拓扑结构表示传播过程中的传播轨迹，对网络拓扑结构用段向量进行表示。

步骤S3：从给定的数据集中提取出用户的反馈信号，并构建反馈信号向量。

具体来说，由于社交网络本身的时序变化性，在传统针对社交网络的谣言鉴别相关方法中，因仅对整体性的数据特征或特定时刻的原始数据内容来构建模型，而忽视了整体事件传播网络数据的动态传播特性，如在信息传播过程中传播树的拓扑结构变化、传播过程中用户节点对原始事件的反馈信号变化、信息内容在传播过程中的变化。由于缺少了对事件的动态传播特性度量，传统研究在社交网络中动态发展的特点上没有完全利用信息传播的所有的特征域，损失了大量的潜在信息价值。

本发明针对以上问题提出了事件传播过程中，网络拓扑结构、事件文本内容以及用户反馈信号的段向量表示方法。其中，图3展示了本发明研究的事件传播模式组成以及三元特征的段向量表示，文本内容段向量即文本主题内容段向量，网络段向量即网络拓扑结构段向量。

具体来说，本发明使用基于时空相似度的网络结点表示学习方法，以局部空间结构相似性出发，引入信息传播互动的时间间隔关系，考虑时空关系下节点的相似性，将用户节点转化为向量形式表示。并以此为基础，根据社交网络的上下时序关系预测下一个节点，事件的用户节点网络可以看作为一个节点，这个节点代表了当前上下文中所缺失的信息，即该事件的用户传播轨迹在整体社交网络中的主题。

其中，采用网络拓扑结构来表示社交网络，社交网络中的用户代表一个节点，用户之间的联系，例如关注、回复等等在图中以连线的形式表示，如图4所示。

在一种实施方式中，步骤S1.1具体包括：

具体来说，步骤S1.1.1是进行节点环路结构相似度计算，在具体的实施过程中，给定一个带节点属性的有向网络图G＝<V,E>，图中有向边e_ij代表节点i对节点j的信息转发行为；给定节点有若干用户特征。令R_k(u)表示至节点u最短距离为k的节点集合，则R₀(u)表示节点u本身，R₁(u)表示节点u的直接相连近邻集合。令D_i表示节点i的入度，Δt_i表示节点i的平均被响应时间。则给定节点u和节点v的k跳环路结构相似度定义如式1中所示：

式1中，S(V)表示节点集合V的有序加权度序列，其如式2中所示：

式2中，g(S₁,S₂)表示对序列S₁和序列S₂用动态时间规整算法进行序列相似度计算。在进行序列相似度计算中，针对动态时间规整算法中点对之间的距离，本发明中的公式定义如式3中所示：

之所以按照式3中的距离公式度量节点距离，是为了惩罚两个节点的加权度数都为小值时两者的差异。式1中超参数α_c为特征c的权重，F_c(N)表示节点集合N的特征c的有序序列，如式4所示：

F_c(N)＝sort([c₁,…,c_n]) (式4)

步骤S1.1.2是进行层次跳转率矩阵构建，通过式1针对节点的最近k跳环路可以计算出两个节点之间局部环路结构的距离，进而构建层次化的随机游走采样的带权图。

在具体的实施过程中，针对网络图G＝<V,E>，构建层次跳转概率矩阵M，M由k^*+1层矩阵所组成，M中单层矩阵的节点即为网络图G中所有节点，网络图中的边为节点集合V的两两无向有权相连，边上的权值代表含义是在以节点最近k跳环路距离为基础的跳转概率，其中k＝0,…,k^*。

在随机游走采样的层次跳转概率矩阵第k层中两个节点的边权如式5中所示：

以有向边将属于不同层次的节点相连，使每个节点都与和其对应的上层节点和下层节点相连。则与上层节点相连的有向边的边权计算公式如式6中所示，与下层节点相连的有向边的边权计算公式如式7中所示：

w(u_k,u_k+1)＝log(Γ_k(u)+e),k＝0,...,k^*-1 (式6)

w(u_k,u_k-1)＝1 (式7)

式6中，Γ_k(u)是第k层与节点u相连的边的边权大于平均边权的边的数量：

式8中，

为第k层所有边权的平均值；

步骤S1.1.3是基于有偏随机游走的节点采集，使用有偏随机游走在构造出的层次化的跳转概率矩阵中进行节点序列采样。在具体实现过程中，每次采样时，根据预设概率决定是在当前层游走或切换到上下层的层游走。通过在层次跳转概率矩阵中进行随机游走，每次采集的节点更倾向于与当前节点在局部结构、影响力、影响用户群体相似的节点，所以，每次采样生成的序列与实际网络拓扑图的位置上下文无关，即与节点相邻关系无关；

步骤S1.1.4是结点表示向量的训练，通过有偏随机游走采样后，将得到的用户节点序列集合以自然语言处理中词向量训练的做法进行无监督嵌入学习表示,在我们的方法中，根据节点之间在局部结构、影响力、影响用户群体相似性进行训练学习得到网络结点的向量表示。

基于时空结构相似和节点度量的有偏随机游走算法将用于节点的分布式表示，得到的网络结点段向量将为后续的网络状态时序表示和谣言鉴别模型提供理论支持以及模型性能效果的优化。

在一种实施方式中，步骤S1.2具体包括：

具体来说，步骤S1.2.1是事件节点序列的排序，在具体实现过程中，给定事件集合E＝{e₁,e₂,e₃,…,e_m}中，所有用户节点集合为V。令事件e_i代表社交媒体上由多条信息组成的一个事件，其包含有若干条信息m_i及其时间戳t_i、用户u_i和父用户p_i，即事件是由信息的四元序列组成e_i＝{(m_ij,t_ij,u_ij,p_ij)}(j＝1,2,…)。将事件e_i中所有信息按照其时间戳进行排序。

步骤S1.2.2划分事件时段，记事件e_i中所有信息中最早的信息时间戳为te_i，最晚的信息时间戳为tl_i，为了获得事件在不同时段内网络拓扑的主题向量，将事件e_i的信息序列按照式9和式10给定的对事件周期的非线性时序分割方法分割，得到从事件e_i在各个非线性时段的信息序列{e_i1,e_i2,e_i3,…,e_in}，其中n为划分的时段个数，e_ij代表事件e_i中信息时间戳在[t_ij-1,t_ij]中的时序信息序列。

步骤S1.2.3获取全局有偏随机游走采集序列，即整体网络拓扑图随机游走采集的序列，以最大环路距离k^*针对整体数据集E中所有用户V构建层次化跳转概率矩阵M(构建方法与步骤S1.1.2相同，在此不再赘述)。对层次化跳转概率矩阵M的概率跳转进行有偏随机游走采样，获取全局的用户节点随机游走序列语料C_E。

步骤S1.2.4进行整体网络的段向量训练，针对整体网络拓扑图随机游走采集的序列进行段向量的表示学习训练得到网络拓扑图向量推段模型。节点序列的上下文信息是按照固定窗口大小在随机游走采集的序列上根据滑动窗口采样得到，随机游走序列向量与该序列产生的所有上下文窗口的节点所一起训练，即不同随机游走采集的序列向量不同，但是整体社交网络的节点向量是相同的。图5展示了本发明的网络段向量表示方法，图5中的网络结构表示谣言传播过程中的社交网络矩阵与节点序列，将二者通过上下文级联或者均值方式进行向量连接，通过softmax函数进行结果预测得到网络向量。

步骤S1.2.5是压缩表示各事件各时段的用户序列，根据事件e_i在各个非线性时段的信息序列{e_i,e_i,e_i,…,e_in},获得其对应的各个非线性时段的时序的用户序列{N_i1,N_i2,N_i3,…,N_in}，并对整个事件的用户节点序列以时段进行压缩表示。在具体实施过程中，本发明首先计算这类用户的用户节点向量的均值

再将序列中这类用户以均值和频数的二元关系表示来减少时空消耗，而非直接丢弃。如序列N＝{u₁,u₂,u₃,u₄,u₅,u₆}中u₃,u₄,u₅为虚假用户，则序列N可表示为二元组序列{(u₁,1),(u₂,1),

(u₆,1)}。得到清洗压缩后事件e_i各个非线性时段的时序的用户序列{C_i1,C_i2,C_i3,…,C_in}。

步骤S1.2.6进行网络拓扑图向量推断，将事件e_i在各个非线性时段的时序的用户序列{C_i1,C_i2,C_i3,…,C_in}用已训练好的网络拓扑图向量推段模型进行预测，预测事件传播中的用户序列拓扑结构(网络拓扑结构)的段向量。预测时，只对需要预测的用户序列的向量计算，即只训练预测用户节点序列在嵌入层的参数，同时固定用户节点向量和Softmax函数权重等其他参数。通过本步骤中的网络向量表示学习方法进行模型的训练，即可将事件传播过程中的拓扑网络使用段向量进行表示。

步骤S2.1：采用预设方法训练Doc2vec模型；

具体实施过程中，本发明中文本内容的段向量表示方法采用现有的先进方法Doc2vec进行表示。首先，训练Doc2vec模型，使用gensim的python工具包中的Doc2vec模块直接训练，再使用训练好的模型预测文本主题段向量表示。

在一种实施方式中，步骤S3具体包括：

具体来说，本发明利用种子词的方法借助外界知识来深层次挖掘社交网络用户信息中的事件观点信号。

步骤S3.1中质疑更正信号正则表达式可以根据现有方法得到，包括符号和可以表明用户的观点或态度词，通过将数据集的信息文本内容与质疑更正信号正则表达式进行匹配，则可以初步筛选出一些词汇，将这些词作为初始种子词，例如真的，假的，谣言等。

步骤S3.2是通过计算余弦相似度，找出与初始种子词相似的词语，将这些词语作为新的种子词，预训练语料可以通过开源工具获取，例如包括维基百科、百度百科、腾讯新闻等语料，获取预训练语料后则进行词向量的获取，对训练语料进行去除停用词操作，然后使用gensim工具包中的word2vec方法训练词向量模型并得到词向量。接下来计算使用gensim工具包中的similarity工具计算种子词与预训练语料中候选词汇的余弦相似度，候选词汇即词向量。种子词遍历结束后，将寻找到的词汇作为新的种子词按照指定迭代次数重复执行该步骤，找出所有的种子词。

步骤S3.3是进行事件时段反馈信号向量构建。

将步骤S3.2中得到的所有种子词作为用户的事件反馈信号单词集合W。给定事件e_i为社交媒体上的由多条信息组成的一个主题事件，其包含有若干条信息m_ij及其文本内容d_ij。将事件e_i中所有信息按照其时间戳进行排序。记事件e_i中所有信息里最早的信息时间戳为te_i，最晚的信息时间戳为tl_i，为了获得事件在不同时段内网络拓扑的主题向量，将事件e_i的信息序列按照前文中式9和式10给定的对事件周期的非线性时序分割方法分割为n个时段，得到从事件e_i在各个非线性时段的信息文本序列{d_i1,d_i2,d_i3,…,d_in}。针对事件e_i在第j个时段的文本序列d_ij以Aho-Corasick自动机算法来与事件反馈信号单词集合W进行匹配，得到事件e_i在第j个时段的事件反馈信号体量S_ij，即反馈信号向量。

步骤S4：将网络拓扑结构的段向量、信息的文本主题的段向量和反馈信号向量作为三元特征向量，引入深度注意力机制表征学习三元特征的时序规律，构建深度注意力模型。

其中，步骤S4中的深度注意力模型包括：嵌入层、编码层、注意力层以及输出层，其中，嵌入层用于对输入的三元特征向量进行聚合得到编码层的输入，编码层采用双向门控循环单元网络，用于捕获谣言的判别类别与传播模式的时间相应关系，注意力层用于对编码层各个时刻的输出进行加权求和来获取时间时段传播模式的隐层表示；输出层用于根据编码层得到的时间时段传播模式的隐层表示获得判别结果向量。

具体来说，本发明以信息的文本内容主题、事件的用户网络拓扑结构、用户的反馈信号三者表示事件的传播模式，并引入深度注意力机制表征学习三元异质特征的时序规律，使用开源谣言数据集进行训练与测试，图6展示了本发明中深度注意力模型框架。

深度注意力模型构建步骤如下：

(1)实现网络模型中的嵌入层，作为后继双向门控循环单元网络模型事件各个时段提供标准化后的聚合特征数据输入；

(2)采用双向门控循环单元网络(Bi-GRU)模型，捕获谣言的判别类别与传播模式的时间相应关系，来实现网络模型中的编码层；

(3)实现网络模型中的注意力层，在Bi-GRU层后，以注意力层对Bi-GRU层各个时刻的输出进行加权求和来获取时间时段传播模式的隐层表示；

(4)实现网络模型中的输出层，注意力层的输出作为全连接层的输入作为最后的谣言鉴别的判别，同时注意力层的结果向量可用作事件整体传播模式的低维表示，其捕获了事件不同时段内三元特征潜在信息，即可作为最后输出层的输入用来进行谣言判别，也可用作事件的独立分析。

步骤S5：使用开源谣言数据集对深度注意力模型进行训练，得到训练后的深度注意力模型。

其中，训练过程与一般的神经网络类似，在此不再赘述。

具体来说，利用训练后的深度注意力模型对社交网络中的谣言信息进行鉴别的过程如图2所示，sigmod表示输出层函数，获取社交网络中的谣言信息后，根据步骤S1～S3中的方法提取出信息传播过程中的传播轨迹、信息的文本主题以及用户的反馈信号，然后相应的向量进行表示后，输入训练后的深度注意力模型，通过模型各层的作用，得出最终的鉴别结果。

下面通过一个具体示例，对本发明提供的基于三元特征的深度注意力谣言鉴别方法的实现过程进行介绍。

步骤101，通过对数据进行分析与处理，将原数据划分为谣言数据集与非谣言数据集；

步骤102，提取谣言数据集与非谣言数据集中的用户信息，与社交网络的拓扑图结构，转化为用户图模型，(图模型是指以gml文件的形式进行保存，以便为提取文本主题内容进行段向量表示学习、事件用户网络拓扑结构的结点表示与段向量表示学习和用户的事件反馈信号的挖掘)

步骤103，针对社交网络中用户节点之间的属性、空间结构相似性和平均被响应时间，刻画用户群体画像；(其中，节点属性指用户特征，例如粉丝数，信用度等；空间结构相似性是指从节点的度，如果两个节点的度相同，那么这两个顶点的结构是相似的，若各自邻接顶点仍然具有相同度数，那么他们的相似度就更高)

步骤104，使用基于分布式记忆模型的网络向量表示方法，将高维的网络图谱结构转化为低维的段向量表示(即网络拓扑结构中节点的向量表示)；文本主题内容向量通过Doc2vec模型获得；

步骤105，使用基于种子词的事件观点反馈信号挖掘算法，搜集用户对整个事件的态度反馈表示，即用户的反馈信号向量；

步骤106，构建基于三元特征的深度注意力模型，以注意力模型表征学习三元异质特征的时序规律，并训练模型区分谣言与非谣言。

步骤107，使用训练好的深度注意力模型对社交网络中的谣言信息进行区分。

本发明与现有技术相比，具有以下优点：

采用公开的社交网络平台谣言鉴定数据集，提取时间周期内信息的文本内容，事件的传播轨迹，用户的反馈信号作为三元特征，提出了一种改进的基于时空结构相似和节点度量的有偏随机游走算法用于节点的分布式表示学习，使用改进的传播网络节点的向量化方法和网络拓扑结构的显式向量表示方法将网络拓扑结构从高维映射到低维表示，采用了一种基于自注意力的时序鉴别方法，并验证了本方法在真实世界数据集上的可行性，大大提高了鉴别效率以及准确性。

实施例二

基于同样的发明构思，本实施例提供了一种基于三元特征的深度注意力谣言鉴别装置，请参见图7，该装置包括：

由于本发明实施例二所介绍的基于三元特征的深度注意力谣言鉴别装置，为基于本发明实施例一中基于三元特征的深度注意力谣言鉴别方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体组曾及其变形，故而在此不再赘述。凡是基于本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同样的发明构思，本申请还提供了一种计算机可读存储介质300，请参见图8，其上存储有计算机程序311，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于三元特征的深度注意力谣言鉴别方法所采用的可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同样的发明构思，本申请还提供了一种计算机设备，请参见图9，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如如实施例一所述的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于三元特征的深度注意力谣言鉴别方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于三元特征的深度注意力谣言鉴别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤S1中对网络拓扑结构用段向量进行表示具体包括：

3.如权利要求2所述的方法，其特征在于，步骤S1.1具体包括：

4.如权利要求3所述的方法，其特征在于，步骤S1.2具体包括：

5.如权利要求4所述的方法，其特征在于，步骤S2中对信息的文本主题用段向量进行表示，具体包括：

步骤S2.1：采用预设方法训练Doc2vec模型；

6.如权利要求2所述的方法，其特征在于，步骤S3具体包括：

7.如权利要求1所述的方法，其特征在于，步骤S4中的深度注意力模型包括：嵌入层、编码层、注意力层以及输出层，其中，嵌入层用于对输入的三元特征向量进行聚合得到编码层的输入，编码层采用双向门控循环单元网络，用于捕获谣言的判别类别与传播模式的时间相应关系，注意力层用于对编码层各个时刻的输出进行加权求和来获取时间时段传播模式的隐层表示；输出层用于根据编码层得到的时间时段传播模式的隐层表示获得判别结果向量。

8.一种基于三元特征的深度注意力谣言鉴别装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。