CN113496123A

CN113496123A - 谣言检测方法、装置、电子设备及存储介质

Info

Publication number: CN113496123A
Application number: CN202110673966.1A
Authority: CN
Inventors: 徐守志; 向舜陟; 董方敏; 马凯; 马圆圆; 刘小迪
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-10-12
Anticipated expiration: 2041-06-17
Also published as: CN113496123B

Abstract

本发明提供一种谣言检测方法、装置、电子设备及存储介质，谣言检测方法包括：获取新闻数据，并基于所述新闻数据，得到事件时间组合序列的向量化文本；基于所述向量化文本，得到评论特征信息以及双向的上下文关联特征信息；其中，所述评论特征信息包含有评论局部关联特征和评论全局关联特征；将所述评论特征信息以及所述上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果。本发明提供的谣言检测方法，可以解决现有技术中谣言检测准确率低的缺陷，以提高谣言检测的准确率。

Description

谣言检测方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种谣言检测方法、装置、电子设备及存储介质。

背景技术

谣言在传播过程中会充斥着各种不同特征的观点评论，而这些评论在谣言传播的初期与末期所表现的结构、内容、形式上都会有明显的区别，而且谣言与非谣言的评论在整个事件的传播过程中也有所不同。将这些评论与原文相关联后，使用深度学习的方法将谣言与非谣言关联文本从语义内容上进行特征提取与对照，并运用到事件真实性的判断过程中去，是对事件真实性的一种检测方法。而现有的谣言检测方法对谣言进行检测时，准确率较低。

发明内容

本发明提供一种谣言检测方法、装置、电子设备及存储介质，用以解决现有技术中谣言检测准确率低的缺陷，以提高谣言检测的准确率。

本发明提供一种谣言检测方法，包括：

获取新闻数据，并基于所述新闻数据，得到事件时间组合序列的向量化文本；

基于所述向量化文本，得到评论特征信息以及双向的上下文关联特征信息；其中，所述评论特征信息包含有评论局部关联特征和评论全局关联特征；

将所述评论特征信息以及所述上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果。

根据本发明提供的谣言检测方法，所述基于所述向量化文本，得到评论特征信息以及双向的上下文关联特征信息，包括：

将所述向量化文本输入至评论特征提取模型，得到所述评论特征信息；

将所述向量化文本输入至上下文关联特征提取模型，得到所述上下文关联特征信息；

其中，所述评论特征提取模型为，以所述向量化文本为样本，以预设的向量化文本对应的评论特征信息为样本标签，训练得到的深度金字塔卷积神经网络模型；

所述上下文关联特征提取模型为，以所述向量化文本为样本，以预设的向量化文本对应的上下文关联特征信息为样本标签，训练得到的Bi-LSTM网络模型，且所述Bi-LSTM网络模型的输出接入attention层。

根据本发明提供的谣言检测方法，所述深度金字塔卷积神经网络模型，依次包括区域嵌入层、第一等长卷积层、顺序堆叠的多层循环网络层，以及第二池化层，所述循环网络层包括第一池化层和第二等长卷积层；

且所述第一池化层为1/2池化层，第二池化层为输出池化层，所述区域嵌入层的输出与所述第一等长卷积层的输出残差连接，所述第一池化层的输出与所述第二等长卷积层的输出残差连接。

根据本发明提供的谣言检测方法，所述获取新闻数据，并基于所述新闻数据，得到事件时间组合序列的向量化文本，包括：

基于所述新闻数据，在社交媒体平台搜索所述新闻数据的关联内容作为样本数据；

对所述样本数据中的目标特征进行提取和标记，得到带标签文本；其中所述带标签文本含有文本内容和文本时间，以及转发评论的内容和时间；

基于所述文本时间和转发评论的时间，对所述带标签文本进行分组并组合，得到事件时间组合序列文本；

对所述事件时间组合序列文本进行分词和去除停用词操作，得到预训练文本；

将所述预训练文本输入至预训练模型，得到所述向量化文本；

其中，所述预训练模型为，以所述预训练文本为样本，以预设的预训练文本对应的向量化文本为样本标签，基于Transformer-XL机制训练得到的模型。

根据本发明提供的谣言检测方法，所述基于所述新闻数据，在社交媒体平台搜索所述新闻数据的关联内容作为样本数据，包括：

提取所述新闻数据中的多个关键字信息，并基于所述多个关键字信息，得到组合关键词；

基于所述组合关键词，在所述社交媒体平台进行搜索，得到所述样本数据。

根据本发明提供的谣言检测方法，所述对所述样本数据中的目标特征进行提取和标记，得到带标签文本，包括：

将所述样本数据中的目标特征进行提取，并对提取的目标特征进行验证后标记，得到标记的目标特征；

将所述标记的目标特征中的特殊字符进行清除，得到所述带标签文本。

根据本发明提供的谣言检测方法，所述将所述评论特征信息以及所述上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果，包括：

基于concat函数，对所述评论特征信息以及所述上下文关联特征信息进行合并，得到并联形式的双通道网络输出结果；

基于softmax函数对所述双通道网络输出结果进行分类，得到所述谣言检测结果。

本发明还提供一种谣言检测装置，包括：

数据处理模块，用于获取新闻数据，并基于所述新闻数据，得到事件时间组合序列的向量化文本；

特征提取模块，用于基于所述向量化文本，得到评论特征信息以及双向的上下文关联特征信息；其中，所述评论特征信息包含有评论局部关联特征和评论全局关联特征；

谣言检测模块，用于将所述评论特征信息以及所述上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述谣言检测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述谣言检测方法的步骤。

本发明提供的谣言检测方法、装置、电子设备及存储介质，先获取新闻数据，并基于新闻数据，得到事件时间组合序列的向量化文本，再基于向量化文本，得到评论特征信息以及双向的上下文关联特征信息，最后将评论特征信息以及上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果。

使用事件时间组合序列能够清晰的表示社交网络事件信息随时间变化的传播过程，并且能够更准确的表示大众对事件发展的态度变化；将事件时间组合序列文本向量化，在体现双向的上下文语义，解决一词多意现象的同时更好的保留长文本的长期相关性特征。

而且，本发明提供的方法既能够捕捉评论局部特征，也可以保存评论全局相关的深度特征，还可以捕捉谣言文本(随时间发展过程中)正反两个方向与上下文关联的特征，并突出文本中的重要特征信息，防止由于池化、门控而造成的语义丢失，因此，综合评论局部关联特征、评论全局关联特征以及上下文关联特征信息，有助于提高谣言检测结果的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的谣言检测方法的流程示意图之一；

图2是本发明提供的基于Transformer-XL的双通道神经网络检测模型结构图；

图3是本发明提供的DPCNN和Bi-LSTM多通道神经模型结构图；

图4是本发明提供的基于Transformer-XL机制的预训练模型的结构图；

图5是本发明提供的谣言检测方法的流程示意图之二；

图6是本发明提供的谣言检测装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图7描述本发明的谣言检测方法、装置、电子设备及存储介质。

本发明提供一种谣言检测方法，如图1所示，谣言检测方法包括：

步骤110、获取新闻数据，并基于新闻数据，得到事件时间组合序列的向量化文本。

需要说明的是，事件时间组合序列是基于新闻发生时间进行组合的序列。

步骤120、基于向量化文本，得到评论特征信息以及双向的上下文关联特征信息；其中，评论特征信息包含有评论局部关联特征和评论全局关联特征。

需要说明的是，评论局部关联特征，指的是短期内新闻中评论局部相关的特征信息；评论全局关联特征，指的是长期内评论全局关联的深度特征信息，这里的短期是相对于长期而言，具体地期限可以由用户设定。

步骤130、将评论特征信息以及上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果。

进一步地，本发明提供的谣言检测方法，可以基于图2所示的基于Transformer-XL的双通道神经网络检测模型实现。

在一些实施例中，基于向量化文本，得到评论特征信息以及双向的上下文关联特征信息，包括：

将向量化文本输入至评论特征提取模型，得到评论特征信息；

将向量化文本输入至上下文关联特征提取模型，得到上下文关联特征信息；

其中，评论特征提取模型为，以向量化文本为样本，以预设的向量化文本对应的评论特征信息为样本标签，训练得到的深度金字塔卷积神经网络模型；

上下文关联特征提取模型为，以向量化文本为样本，以预设的向量化文本对应的上下文关联特征信息为样本标签，训练得到的Bi-LSTM(即：双向长短时记忆)网络模型，且Bi-LSTM网络模型的输出接入attention层(即：注意力层)。

上述的深度金字塔卷积神经网络模型和Bi-LSTM网络模型的结构图如图3所示。

在一些实施例中，深度金字塔卷积神经网络模型，依次包括区域嵌入层、第一等长卷积层、顺序堆叠的多层循环网络层，以及第二池化层，所述循环网络层包括第一池化层和第二等长卷积层；

且第一池化层为1/2池化层，第二池化层为输出池化层，区域嵌入层的输出与第一等长卷积层的输出残差连接，第一池化层的输出与所述第二等长卷积层的输出残差连接。

其中，1/2池化层，也即是步长为2的池化层。

进一步地，将上述的向量化文本导入到DPCNN(即：深度金字塔卷积神经网络模型)中作为输入。

在DPCNN中，设置一组size＝3*D的二维卷积核对3gram进行卷积(其中D是词嵌入的维度)，将结果作为第一层区域嵌入层的输出。

用适当的两层等长卷积来提高词位嵌入的表示的丰富性，即产生了每个词位的被上下文信息修饰过的更高级别更加准确的语义。

接下来使用1/2池化层进行压缩。在每一个卷积块(两层的等长卷积)后，使用一个size＝3和stride＝2进行最大池化操作，之后序列的长度就被压缩成了原来的一半。

使用残差连接缓解梯度消失。使用加法进行残差连接，即z+f(z)，z表示为区域嵌入层的输出,其中f用的是两层的等长卷积，缓解了梯度消失问题使深度网络的训练和恒等映射能顺利进行。

通过顺序堆叠多层循环网络层，循环网络层包括第一池化层(即：1/2池化层)和第二等长卷积层，直至输入序列长度最短，最终使用第二池化层(即：输出池化层)聚合所得数据，获得一个具有与局部相关性特征信息以及全局相关性特征信息的向量作为DPCNN的输出。

利用Bi-LSTM网络模型对上述的向量化文本进行正反双向的计算，Bi-LSTM网络模型通过门控单元保留文本中具有价值的信息，通过遗忘门消除文本中不重要的信息，对文本正反两个方向的计算获得上下文正反两个方向更高级的特征表示。

使用attention机制对得到的向量表示根据特征重点分配不同权重，突出文本中的重要特征信息以增强模型的分类效果。最终获得一个上下文相关且具有正反两个方向信息的已分配权重的向量作为Bi-LSTM+attention网络的输出，也即是上下文关联特征信息。

更进一步地，将向量化文本导入DPCNN，捕捉短期内评论局部相关的特征信息以及长期内评论全局关联的深度特征信息，主要通过堆叠卷积层和1/2池化层来实现。

DPCNN中首先是区域嵌入层，将由预训练模型得到的向量化文本导入DPCNN网络后的区域嵌入层，为了保留保留词序设置一组size＝3*D的二维卷积核对3gram进行卷积(其中D是词嵌入的维度)，将结果作为区域嵌入层的输出，然后堆叠2层卷积层进行卷积操作，将输入序列的每个词位(第n个词位)及其左右((n-1)/2)个词的上下文信息压缩为该词位的嵌入，公式为：

Wσ(x)+b

其中权重W和偏置b是待训练的参数，x表示为预训练模型的输入，σ为非线性激活函数，另外W的行数固定为250(等于该层的filter数量)。

此时产生了每个词位的被上下文信息修饰过的更高级别、更加准确的语义，而且两层的堆叠使整个网络不至于过深而影响效率。然后使用1/2池化层对卷积后的序列进行压缩操作，每经过一个size＝3,stride＝2(大小为3，步长为2)的池化层，序列的长度就被压缩成了原来的一半，再将结果输入下一个等长卷积层丰富语义，通过1/2池化层与等长卷积层的堆叠，将输入序列压缩至最短，最后经过池化层处理后输出。由于深度卷积神经网络存在梯度消失问题，为了使深度网络的训练成为可能，使用加法进行残差连接，即：

z+f(z)

其中z表示为区域嵌入层的输出，其中f(z)表示的是有预激活的两层等长卷积结果Wσ(x)+b，这样就可以极大程度上缓解梯度消失问题，最后将经过卷积池化过程的输出作为DPCNN网络的结果A_i返回。

同时将上述的向量化文本导入Bi-LSTM网络模型，获得各个部分的双向隐状态序列h，再将双向隐状态序列h导入attention层中，获得文本上下文关联的向量表示B，构成了上下文关联特征信息。

其中Bi-LSTM包含一个输入门，一个遗忘门，一个输出门，输入门中包含了当前输入x_t(此时以预训练模型得到的向量化文本作为输入)、上一个隐状态h_t-1、上一个神经元状态c_t-1，组成权重矩阵，以决定加入多少新信息：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

遗忘门中包含了上一序列的隐藏状态h_t-1和本序列数据x_t作为输入，通过sigmoid函数，得到遗忘门的输出：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

当前的神经元状态c_t包含了上一个神经元状态c_t-1以及基于当前输入x_t和上个隐状态信息h_t-1生成的新信息，其公式为：

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)

当前的隐状态：

h_t＝o_ttanh(c_t)

最后的输出为：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

以及与输入语句等长的隐状态序列{h₀,h₁,...h_n-1}。而Bi-LSTM则是需要通过得到正反两个方向的句向量映射来获得，例如第i个词经过Bi-LSTM后得到的向量为

其中

表示的是对应元素相加，最终获得正反两个方向的隐状态序列{h₀,h₁,...h_n-1}。

将隐状态序列h_i作为attention层的输入，若注意力概率分布值越大则注意力越大，在事件时间组合序列中的重要性越高，最后得到分配后的向量S_i，计算公式如下：

其中α_i表示注意力分配系数，是通过softmax函数获得的归一化权重，公式表示如下：

上式中u_i为h_i的隐含表示，通过一个多层感知机获得，公式为：

u_i＝tanh(W_wh_i+b_w)

u_w是表示上下文信息的随机初始化参数矩阵，W_w为权重转化矩阵，b_w为偏置量，三者都为需要学习的参数，tanh为非线性激活函数，最后得到Bi-LSTM模型+attention层的输出向量B_i(即S_i)。

在一些实施例中，获取新闻数据，并基于新闻数据，得到事件时间组合序列的向量化文本，包括：

基于新闻数据，在社交媒体平台搜索新闻数据的关联内容作为样本数据。

进一步地，基于新闻数据，在社交媒体平台搜索新闻数据的关联内容作为样本数据，包括：

提取新闻数据中的多个关键字信息，并基于多个关键字信息，得到组合关键词；

基于组合关键词，在社交媒体平台进行搜索，得到样本数据。

更进一步地，采集谣言相关的新闻数据，使用TF-IDF(即：信息检索数据挖掘的常用加权技术)关键词提取算法将谣言相关新闻中的关键词进行提取。

将所有关键词进行组合(至少为一个不超过三个)后在社交媒体平台搜索相关内容，并使用爬虫进行可用数据提取，包括文本、用户、地点、时间、关键词、转发及评论等可用信息。

对样本数据中的目标特征进行提取和标记，得到带标签文本；其中带标签文本含有文本内容和文本时间，以及转发评论的内容和时间。

进一步地，对样本数据中的目标特征进行提取和标记，得到带标签文本，包括：

将样本数据中的目标特征进行提取，并对提取的目标特征进行验证后标记，得到标记的目标特征；

将标记的目标特征中的特殊字符进行清除，得到带标签文本。

更进一步地，对得到的样本数据进行原文本、时间、用户、转发及评论提取，剔除总评论转发数较少的事件信息，提取并查证官方新闻相关事件真假性质并制作标签，得到带标签文本。

将带标签文本中只包含置空、符号、emoji的文本剔除并同时清除对应标签数据。

将带标签文本中的表情包，特殊符号进行清除，将文本转换为同种文字(中英文或其他文本转换)，得到处理后的带标签文本。

基于文本时间和转发评论的时间，对带标签文本进行分组并组合，得到事件时间组合序列文本。

进一步地，提取带标签文本中的事件原文本、转发及评论，提取两者发生时间并按天为单位进行分组。需要说明的是，原文本是原新闻文本，例如微博文本。

将事件组合成一个事件时间组合序列文本X＝{X₀,X₁,X₂,...，X_i}，i表示事件序号，其中单一事件X_i＝{x₀,x₁,x₂,...，x_d}由原文本、评论转发组成，其中d表示天数，x0为原文本内容，x_d(d>0)表示一天内的评论和转发文本组合。

更进一步的，提取文本中的事件原文本、转发及评论，提取两者发生时间并按天为单位进行分组。将评论分组的意义在于，从原文本事件的发出到接收各方评论转发，直到原文本事件逐渐平息可分为五个周期，分别为萌芽期、快速发展期、稳定期、衰减期和平息期。

以天为单位能更好的体现此过程中每个阶段的转发评论特点：例如在快速发展期大量转发的同时带有质疑评论，衰减期辟谣评论的大量出现，另外转发评论数量的变化过程也能反映出大众所关注的重点，例如短期内频繁突出的词汇以及数字信息，构成了谣言的短期局部特征以及长期全局特征。

通过这个五个周期更能直观的体现出每个周期内大众对事件是否为谣言的集合判断，事件周期内的评论变化与联系，以及真实事件与谣言事件在整个传播周期中的不同过程变化。

为了能结构化的突出这一变化过程，将事件组合成一个事件时间组合序列文本X＝{X₀,X₁,X₂,...，X_i}，i表示事件序号，其中单一事件X_i＝{x₀,x₁,x₂,...，x_m}由原文本、评论转发组成，其中d表示天数，x0为原文本内容，x_d(d>0)表示一天内的评论和转发文本组合。序列化的文本更方便使用语言模型转化为向量表示，以天数为基本单位的分组可以直观的表示出在传播过程中的快速发展期的谣言特点，更方便语言模型检测模型挖掘其局部特征，例如，分组后的序列也可以直观的表示出每个阶段的不同特点，在使用语言模型和检测模型时可以更直观的体现、发现长文本序列的长期性特征。

对事件时间组合序列文本进行分词和去除停用词操作，得到预训练文本。

进一步地，将上述的事件时间组合序列文本进行分词和去除停用词操作，分别使用正则表达式以及jieba工具来进行处理，得到预训练文本。

将预训练文本输入至预训练模型，得到向量化文本；

其中，预训练模型为，以预训练文本为样本，以预设的预训练文本对应的向量化文本为样本标签，基于Transformer-XL机制训练得到的模型。

基于Transformer-XL机制的预训练模型结构如图4所示。

进一步地，将预训练文本输入已下载好的中文预训练模型中，并引入Transfomer-XL机制，保存事件时间组合序列的长期性特征。在映射索引过程加入Transformer-XL机制中的片段循环与相对位置编码，建立较文本段落之间的相关性以保存文本长期性特征。最终通过keras包进行embedding操作得到一个可以表示事件随时间发展且含有长期性、结构化评论特征的文本向量，也即是上述的向量化文本。更进一步地，上述将事件时序组合文本数据进行分词、去除停用词操作，主要为将文本按词汇进行划分，方便使用预训练模型进行向量化操作，去除部分对谣言检测过程没有实际作用的词汇，如“的”、“与”以及部分数字符号等，在保证不破坏事件时序组合文本的特征的同时，确保输入预训练模型的文本简洁可用。

使用引入了Transformer-XL机制的预训练模型对分处理后的原文本、评论文本进行向量化操作。由于AR模型，也即是自回归模型(以GPT(Generative Pre-Training，生成式的预训练)模型为代表)只能单向运用文本信息，而AE模型，也即是自编码模型(以Bert模型为代表)在Pre-train阶段(即：预训练阶段)使用mask机制，而在Fine-tune(即：微调阶段)未使用此机制，导致两个阶段的训练数据分布不一致，影响Fine-tune效果，在此选择引入了Transformer-XL机制的中文预训练模型，在其中使用排列语言模型来解决这一问题。

首先使用排列语言模型来获取输入文本序列中的单个句子的向量化表示，而排列语言模型是通过采取文本(单个句子)的所有排列中的一种，然后根据此排列来分解联合概率成条件概率的乘积，然后通过相加得到一个最大似然，其公式如下:

其中，Z_T表示长度为T的文本序列对应的，所有排列组成的集合；用z_t表示排列的第t个元素，

为预测目标，

为已知的

之前的文本序列，预测x_z＜t值的似然估计。

在排列模型中，设h_θ(x_z＜t)为x_z＜t的隐状态(内容)表示，e(x)为词的词嵌入，则使用softmax计算next-token的分布时，其计算公式为：

但是由于上式未利用位置信息z_t，导致模型无法学习到有用的表征，所以引入双流注意力机制,使用包含位置信息z_t的查询流gθ(x_z＜t,z_t)以及包含内容信息的内容流h_θ(x_z＜t)，使上式变为：

计算查询流g_θ(x_z＜t,z_t)和内容流h_θ(x_z＜t)的公式如下：

其中m代表编码器层数,

和

w为初始化的位置向量，e(x_t)为初始化的词向量。

为了对超长的事件时间组合序列LD进行处理，需要将其分拆成句子级别的短序列，这样会割裂短序列之间的联系。因此引入Transformer-XL的片段循环机制，将之前存下来的隐状态和当前段的隐状态拼起来，作为attention机制的K和V，K代表的是每个单词，V代表的也是当前单词，从而获得更长的上下文信息，其公式如下：

其中

表示的是缓存值。由于片段循环机制的引入，在Transformer模型中的绝对位置编码不再适用，此时引入Transformer-XL机制中的相对位置编码，用于表示两个词之间间隔的相对信息。经过以上步骤以及预训练过程后，获得事件时间组合序列的向量化文本作为输出。

在预训练模型中通过使用排列语言模型，运用全排列的方式对输入的文本进行排序预测，来解决AR模型无法引入双向文本信息的缺点，以及AE模型使用mask机制引入噪声的缺陷，从而掌握双向的谣言文本信息，解决一词多义的现象，同时消除mask可能带来的噪声。

但是如果只是通过随机排序然后利用Transformer模型进行训练会出现目标模糊的问题，这是由于排序时同时运用了该位置的位置和内容信息，导致在进行预测时已经提前知道了此位置的内容或此内容的位置。

引入Transformer-XL机制的中文预训练模型运用了双流自注意力机制，通过内容和位置两个维度来表示当前所需要预测的词语，消除了上述预测混乱的现象，从内容和位置来预测谣言文本信息也消除了谣言文本中一词多意现象，让谣言文本表示更加明确。

最后在预训练模型中加了Transformer-XL机制中的片段循环与相对位置编码，片段循环引入段与段之间的连接，建立段之间的联系，可以建立较长文本之间的相关性，相对位置编码解决了Transformer模型中位置的不同段落问题，可以更直接的找到相关段落之间的联系，两者的运用提高了预训练模型在较长文本中的处理能力，保留了事件时间组合序列文本中的长期性特征，因此较适用于谣言事件原文本加评论文本组成的较长文本检测的需求。最终通过预训练得到事件时间组合序列的向量化文本。

在一些实施例中，将评论特征信息以及上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果，包括

基于concat函数，对评论特征信息以及上下文关联特征信息进行合并，得到并联形式的双通道网络输出结果；

基于softmax函数对双通道网络输出结果进行分类，得到谣言检测结果。

进一步地，得到的不同的向量表示，也即是评论特征信息以及上下文关联特征信息，使用concat函数进行合并得到一个合并后的向量，合并后的向量，既具有与局部相关性特征信息以及全局相关性特征信息，又具有上下文相关且正反两个方向信息的已分配权重的向量作为输出。

将合并之后的向量在经过全连接层后使用softmax函数进行分类预测，得出最终的谣言检测结果。

将在DPCNN捕捉短期内评论局部相关的特征信息以及长期内评论全局关联的深度特征信息的向量表示A_i，与在BiLSTM+attention获得上下文关联且双向相关的不同权重的向量表示B_i使用concat函数进行合并。

由于DPCNN可以发掘文本信息中局部相关，全局相关信息，而BiLSTM可以保留文本信息中的长期特征并通过正反两个方向进行表示，attention可以动态地为这些特征分配权重，而且为了保存局部特征的完整性，防止在卷积、池化以及门控操作过程中丢失可用信息的同时，保留其上下文关联且双向相关的特征，采用了同时输入得出结果再进行concat合并的方式联合两个不同的网络，形成一个并联形式的双通道网络DPCNN+(BiLSTM+attention)，并将其输出记作C_i。

将合并之后的向量表示经过全连接网络，计算公式如下：

y_i＝W_zC_i+b_z

其中为W_z权重矩阵，b_z为偏置项，C_i为合并后的输出，并将y_i作为softmax函数的输入进行分类，得出最终是否为谣言的结果，计算公式为：

综上所述，本发明提供的谣言检测方法，如图5所示，可以概括为六个步骤：网络数据采集、样本数据整理、事件时序组合、预训练模型处理、神经网络特征提取以及谣言检测判断。

本发明提供的谣言检测方法，先获取新闻数据，并基于新闻数据，得到事件时间组合序列的向量化文本，再基于向量化文本，得到评论特征信息以及双向的上下文关联特征信息，最后将评论特征信息以及上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果。

下面对本发明提供的谣言检测装置进行描述，下文描述的谣言检测装置与上文描述的谣言检测方法可相互对应参照。

如图6所示，谣言检测装置600包括：数据处理模块610、特征提取模块620和谣言检测模块630。

数据处理模块610用于获取新闻数据，并基于新闻数据，得到事件时间组合序列的向量化文本。

特征提取模块620用于基于向量化文本，得到评论特征信息以及双向的上下文关联特征信息；其中，评论特征信息包含有评论局部关联特征和评论全局关联特征。

谣言检测模块630用于将评论特征信息以及上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果。

在一些实施例中，特征提取模块620包括：第一特征提取单元和第二特征提取单元。

第一特征提取单元用于将向量化文本输入至评论特征提取模型，得到评论特征信息。

第二特征提取单元用于将向量化文本输入至上下文关联特征提取模型，得到上下文关联特征信息。

上下文关联特征提取模型为，以向量化文本为样本，以预设的向量化文本对应的上下文关联特征信息为样本标签，训练得到的Bi-LSTM网络模型，且Bi-LSTM网络模型的输出接入attention层。

其中，1/2池化层，也即是步长为2的池化层。

深度金字塔卷积神经网络模型，。

在一些实施例中，数据处理模块610包括：关联内容搜索单元、提取标记单元、分组组合单元、文本处理单元和向量化文本生成单元。

关联内容搜索单元用于基于新闻数据，在社交媒体平台搜索新闻数据的关联内容作为样本数据。

提取标记单元用于对样本数据中的目标特征进行提取和标记，得到带标签文本；其中带标签文本含有文本内容和文本时间，以及转发评论的内容和时间。

分组组合单元用于基于文本时间和转发评论的时间，对带标签文本进行分组并组合，得到事件时间组合序列文本。

文本处理单元用于对事件时间组合序列文本进行分词和去除停用词操作，得到预训练文本。

向量化文本生成单元用于将预训练文本输入至预训练模型，得到向量化文本。

在一些实施例中，关联内容搜索单元包括：关键词获取单元和样本搜索单元。

关键词获取单元用于提取新闻数据中的多个关键字信息，并基于多个关键字信息，得到组合关键词；

样本搜索单元基于组合关键词，在社交媒体平台进行搜索，得到样本数据。

在一些实施例中，提取标记单元包括：目标特征获取单元和目标特征处理单元。

目标特征获取单元用于将样本数据中的目标特征进行提取，并对提取的目标特征进行验证后标记，得到标记的目标特征。

目标特征处理单元用于将标记的目标特征中的特殊字符进行清除，得到带标签文本。

在一些实施例中，谣言检测模块630包括：特征合并单元和特征分类单元。

特征合并单元用于基于concat函数，对评论特征信息以及上下文关联特征信息进行合并，得到并联形式的双通道网络输出结果。

特征分类单元用于基于softmax函数对双通道网络输出结果进行分类，得到谣言检测结果。

下面对本发明提供的电子设备和存储介质进行描述，下文描述的电子设备和存储介质与上文描述的谣言检测方法可相互对应参照。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行谣言检测方法，该方法包括：

步骤110、获取新闻数据，并基于新闻数据，得到事件时间组合序列的向量化文本；

步骤120、基于向量化文本，得到评论特征信息以及双向的上下文关联特征信息；其中，评论特征信息包含有评论局部关联特征和评论全局关联特征；

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的谣言检测方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的谣言检测方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种谣言检测方法，其特征在于，包括：

2.根据权利要求1所述的谣言检测方法，其特征在于，所述基于所述向量化文本，得到评论特征信息以及双向的上下文关联特征信息，包括：

将所述向量化文本输入至上下文关联特征提取模型，得到所述下文关联特征信息上下文关联特征信息；

所述上下文关联特征提取模型为，以所述向量化文本为样本，以预设的向量化文本对应的下文关联特征信息上下文关联特征信息为样本标签，训练得到的Bi-LSTM网络模型，且所述Bi-LSTM网络模型的输出接入attention层。

3.根据权利要求2所述的谣言检测方法，其特征在于，所述深度金字塔卷积神经网络模型，依次包括区域嵌入层、第一等长卷积层、顺序堆叠的多层循环网络层，以及第二池化层，所述循环网络层包括第一池化层和第二等长卷积层；

4.根据权利要求1所述的谣言检测方法，其特征在于，所述获取新闻数据，并基于所述新闻数据，得到事件时间组合序列的向量化文本，包括：

5.根据权利要求4所述的谣言检测方法，其特征在于，所述基于所述新闻数据，在社交媒体平台搜索所述新闻数据的关联内容作为样本数据，包括：

6.根据权利要求4所述的谣言检测方法，其特征在于，所述对所述样本数据中的目标特征进行提取和标记，得到带标签文本，包括：

7.根据权利要求1-6任一项所述的谣言检测方法，其特征在于，所述将所述评论特征信息以及所述上下文关联特征信息进行合并后，输入至全连接层，得到谣言检测结果，包括：

8.一种谣言检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述谣言检测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述谣言检测方法的步骤。