CN111460144A

CN111460144A - 基于时序切分与融合的谣言早期检测算法

Info

Publication number: CN111460144A
Application number: CN202010172672.6A
Authority: CN
Inventors: 夏睿; 宣凯洲
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-28
Anticipated expiration: 2040-03-12
Also published as: CN111460144B

Abstract

本发明公开了一种基于时序切分与融合的谣言早期检测算法，包括以下步骤：对微博谣言传播的时间线按发展规律切分为多个时间窗；预处理每一个时间窗内的微博或评论文本；为每个时间窗内的数据独立训练编码器；沿时间线将每个时间窗所得的编码与上一个时间窗的编码进行拼接，形成增量式的训练网络；在每个时间窗下进行独立地分类，即可方便地在不同时间点对谣言事件进行真实性检测。本发明将谣言检测任务从一体化的文本分类任务转化为基于时序的增量式分类任务，并有效解决了谣言早期检测精度低的问题。

Description

基于时序切分与融合的谣言早期检测算法

技术领域

本发明涉及自然语言处理应用技术领域，具体涉及一种基于时序切分与融合的谣言早期检测算法。

背景技术

如今，社交网络平台上的大量活跃用户为谣言的在线传播提供了有利的条件。谣言被定义为一个故事或一个声明，其真实性是未经证实的，而不是必然错误的。虚假谣言的散播可能误导公众，破坏正常的社会秩序或危及个人生活。面对海量的微博谣言，为了能尽早地发现谣言并遏制其扩散，研究者开始使用自动谣言检测方法替代耗时的人工检测。

谣言检测是在谣言数据上分析每个微博事件的真伪。目前，大多数工作将每个微博事件时间线上全部时刻的数据作为一个训练样本来训练模型。然而，谣言数据的分布是随时间动态变化的。例如，一个事件的传播可以被分为发展期、高潮期和消退期。每个时期人们对待谣言的态度以及数据分布特点各不相同。因此上述粗粒度的微博事件表示方法不能有效捕捉不同时期谣言的动态特征，也不能有效地根据谣言早期特有的数据形态来进行谣言早期检测。

发明内容

本发明的目的在于提供一种基于时序切分与融合的谣言早期检测算法，解决现有模型早期检测效率低的问题。

实现本发明目的的技术解决方案为：一种基于时序切分与融合的谣言早期检测算法，包括以下步骤：

步骤1、将微博谣言传播的时间线切分为多个时间窗；

步骤2、预处理每一个时间窗内的微博或评论文本，将其根据词嵌入转化为向量表示；

步骤3、为每个时间窗内的数据独立训练编码器；

步骤4、沿时间线将每个时间窗所得的编码与上一个时间窗的编码进行融合，形成增量式的训练网络，当训练某个时间窗时，在此之前的编码器需要被冻结；

步骤5、在每个时间窗下进行独立地分类，即可在不同时间点对谣言事件进行真实性检测。

与现有技术相比，本发明的显著优点为：(1)对谣言事件传播时间线的切分更符合传播的规律；(2)为每一个时间窗独立的编码，可以捕获到谣言传播每个阶段独特的特征；(3)借助编码融合，形成了一种增量式的检测网络，符合线上谣言相关信息不断增多的特点；(4)模型可以显著提高谣言传播早期的检测效果，使短时间遏制谣言传播成为可能。

附图说明

图1为本发明的基于时序切分与融合的谣言早期检测算法流程图。

图2为谣言传播过程中相关推文的发布密度变化图。

图3为本发明涉及的深度学习网络模型示意图。

具体实施方式

如图1所示，一种基于时序切分与融合的谣言早期检测算法，包括以下步骤：

步骤一、谣言传播是一个早期快速增加、后期缓慢减少的过程，对微博谣言传播的时间线按先密集后疏松的方式切分为多个时间窗；

步骤二、预处理每一个时间窗内的微博或评论文本，将其根据词嵌入转化为向量表示；

步骤三、为每个时间窗内的数据独立训练编码器，该编码器可以是机器学习模型或深度学习模型；

步骤四、沿时间线将每个时间窗所得的编码与上一个时间窗的编码进行融合，形成增量式的训练网络，当训练某个时间窗时，在此之前的编码器需要被冻结；

步骤五、在每个时间窗下进行独立地分类，即可在不同时间点对谣言事件进行真实性检测。

进一步的，所述步骤一中，微博谣言数据存在传播时间线，时间线的起点是发布谣言消息的原始微博，随后是相关的所有评论和转发，统称为推文。

谣言传播的时间线往往很长，所涉及到的推文数据量很大，可以按照传播的发展规律将其切分为连续的跨度较小的时间窗。

微博上的谣言传播历经发展期、高潮期和消退期，而前两个重要的阶段往往仅持续半个小时，因此在这段时间内需要更多的时间窗口来使得切分符合发展状态变化。

进一步的，所述步骤二中，每一个时间窗内会有一组连续的微博或评论文本，文本数据为中文文本或英文文本；依次按照分词、去除停用词、文本的向量表示三个步骤对文本进行预处理。

所述文本数据为中文时，采用Tencent AI Lab提供的预训练词嵌入来进行向量表示；所述文本数据为英文时，采用在Google News上预训练的词嵌入来进行向量表示。

进一步的，所述步骤三中，每个时间窗下的编码器是相对独立的，每个编码器对一个时间窗下的推文进行编码，而不再使用单个编码器获得整个时间线上的谣言事件编码。

编码器可以是机器学习模型或深度学习模型，其兼容性好。

进一步的，所述步骤四中，对每个时间窗内数据独立的编码应在时序上与上一个窗口的编码融合，而不能脱离整个谣言传播的背景和上下文。

对每个时间窗的训练按时间线顺序串行进行，当训练某一时间窗时，在此之前的时间窗下的编码器已经训练完成并被冻结。

随时间窗串行训练的过程，实际上形成了一种增量式的训练网络。

进一步的，所述步骤五中，每个时间窗下的预测结果通过独立的Softmax分类器得到，训练时分类器跟随对应的时间窗进行更新。

在测试新的谣言数据的时候，模型可以随推文数量的增多，不断将推文送到对应时间的时间窗内，以获得连续的一系列预测结果。所述的一系列的预测结果，即形成了谣言早期检测在不同时间点给出的检测结果。

本发明的谣言早期检测算法可以充分提取谣言传播过程中的特征，并将一体化分类模型转化为增量式的检测模型，大幅度提高了早期谣言检测的效率。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例及附图，对本发明进行进一步地详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本实施例在一个谣言数据集上进行，谣言数据集中包含大量的谣言事件，每个谣言事件有一个原始的微博和真伪的标签，大量和该主题相关的推文或评论构成了一个谣言事件。谣言事件可以被标记为E，其中最早的推文可以被视作在0时刻发布的原始微博c₀，其它推文c_i则存在一个和它相对的发布时间t_i，i＞0。谣言事件的表示可以被进一步地扩展为E＝{(c₀，0)，(c₁，t₁)，…，(c_m，t_m)}，其中m表示推文的数量。谣言事件E还存在一个对应的标签Y，用以标记它是真实的还是虚假的。

如图1所示，基于时序切分与融合的谣言早期检测算法，包括以下步骤：

谣言传播的时间线跨度即为0-t_m。如图2所示，微博谣言事件的传播规律可分为发展期(0-60秒)、高潮期(60秒-10分钟)和消退期(10分钟-6小时)。前两个时期虽然历时时间短，但是是谣言发展和造成大范围影响的最重要的时期。为了捕捉谣言传播不同时期的独有特征，需要对谣言时间线进行细粒度的建模。

在具体实施时，从时间线上抽取一些关键时间点{p₀，p₁，p₂，…，p_q}，例如谣言开始极速扩散的时刻和谣言数量开始逐渐减少的时刻。这些时间点可以将时间线切分为q个时间窗，标记为{E₀，E₁，...，E_q-1}。对于事件E中的每一个推文(c_i，t_i)，如果满足p_k＜t_i≤p_k+1，k＝0，1，…，q-1，c_i就会被分入第k个时间窗E_k的数据中。

由于谣言会在极短的几分钟内迅速传播开来，并且其早期的传播状态相对更加复杂。为了尽可能早地对谣言进行判定，在传播时间线的第一个小时内通常需要设定较多的时间点，时间点间的间隔往往呈不断增大的趋势。特别地，设定p₀＝p₁＝0，这样第一个时间窗E₀只包含0时刻的原始推文c₀。

每一个时间窗E_k内都已经被划分出了一组连续的微博或评论文本。根据谣言数据集的常规来源，例如微博或Twitter平台，涉及到的文本数据是中文文本或英文文本。为了让文本数据有效地转化为向量，需要进行进一步地预处理。

无论所涉及到的文本数据是中文还是英文，都需要对其进行精确分词操作，并去除停用词，再将词转化为向量，从而将一条推文记为一个由词向量构成的矩阵c_i。

所述中文分词、去停用词操作通常由Jieba分词工具实现，采用Tencent AI Lab提供的预训练词嵌入来进行向量表示，将每个词转化为固定的200维向量；英文分词、去停用词操作则由开源工具NLTK实现，采用在Google News上预训练的词嵌入来进行向量表示，将每个词转化为固定的300维向量。

如图3所示，每一个时间窗都有一系列的连续推文，组合每个推文的表示，即得到该时间窗的表示E_k。

步骤三、为每个时间窗内的数据独立训练编码器，该编码器可以是机器学习模型或深度学习模型。

为了细粒度地捕捉谣言传播每个时间段的独有特征，对每个时间窗内的推文数据设置相对独立的编码器，而不再像以前的工作一样使用单个编码器获得整个时间线上的谣言事件表示。

如图3所示，将时间窗E_k对应的编码器标记为e_k，编码器能够解析时间窗内由多条推文组成的多维矩阵E_k，并输出编码向量h_k作为该时间段内推文文本的抽象特征表示。

所述的编码器是一个兼容性非常好的通用框架，适用于大多数的机器学习模型或多个模型的组合。由于时间窗内的推文存在一定的时序关系或上下文关系，采用深度神经网络模型更容易获得更好地编码效果，例如卷积神经网络(Convolutional NeuralNetworks，CNN)、循环神经网络(Recurrent Neural Network，RNN)和Transformer等。

步骤四、沿时间线将每个时间窗所得的编码与上一个时间窗的编码进行融合，形成增量式的训练网络，当训练某个时间窗时，在此之前的编码器需要被冻结。

每个时间窗内的数据并不能完全脱离整个谣言传播的背景和上下文，原始谣言微博、之前时间窗内的评论文本等都可以反应谣言的舆论变化和可信度变化。需要将每个时间窗内数据独立的编码应在时序上与上一个窗口的编码融合，使得已有的编码可以指导后续的编码方式，并将在此之前的推文信息融合到后续的预测中。

在具体实施时，对每个时间窗的训练按时间线顺序串行进行。对于最初的时间窗E₀，其编码h₀直接作为融合后的编码

而对于其后的时间窗E_k，k≥1，则需要和上一个时间窗的编码进行融合以获得融合后的编码，融合方式为

其中，δ指的是Sigmoid激活函数，用以完成非线性的变换；W_k则是线性变换的参数矩阵。

当训练某一时间窗时，在此之前的时间窗下的编码器已经训练完成并被冻结。具体地，需要先使用数据集中所有处于最早的时间段E₀内的样本完成对编码器e₀的训练。随后将编码器e₀冻结，进入时间窗E₁相关样本对编码器e₁的训练，再在训练完成后冻结e₁，如此反复串行完成训练。

冻结前序编码器可以带来许多优势。一方面，这样的训练方式和本发明的初衷相符，每个编码器专注于提取当前时间段微博或评论文本中的特征，而不会受到其它时间段内数据的影响，从而提高特征抽取的能力；另一方面，随着时间的推移，所需要训练的编码器数量始终保持为一个，不会给串行训练带来大量的训练复杂度，减小训练时间的开销。

对于某一个时间窗E_k，在此之前的编码器(e_k-1,e_k-2,…)被冻结，而所有的编码融合模块是不会被冻结的，即(W_k-1,W_k-2,…)随时间窗推移均参与参数更新。

本发明的模型结构形成了一种增量式的训练网络，即随时间推移，向模型中增量式添加新产生的数据，从而给出连续的预测结果。

对每个时间窗内编码器、融合模块的训练，都需要输出一个预测的标签来和真实标签Y进行比较，从而产生损失函数、计算反向传播梯度、更新模型参数。每个时间窗下的预测结果通过独立的Softmax分类器得到，训练时分类器跟随对应的时间窗进行更新。

如图3所示，某一个时间窗E_k所得的表示

被送入一个独立的分类器中，分类器则给出谣言真实性的预测概率

其中，V_k和b_k是分类器的内部参数。无论对于哪一个时间窗，所用于监督学习的真实标签都是真实标签Y。

本发明涉及的模型在训练时通过编码训练数据、得到预测概率并进行反向更新完成增量式的训练过程；在测试时，面对新产生的谣言数据，模型可以随推文数量的增多，不断将推文送到对应时间的时间窗内，以获得连续的一系列预测结果。所述的一系列的预测结果，即不同时间窗下给出的不同的

即形成了谣言早期检测在不同时间点给出的检测结果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于时序切分与融合的谣言早期检测算法，其特征在于，包括以下步骤：

步骤1、将微博谣言传播的时间线切分为多个时间窗；

步骤3、为每个时间窗内的数据独立训练编码器；

2.根据权利要求1所述的基于时序切分与融合的谣言早期检测算法，其特征在于，步骤1中，微博谣言数据存在传播时间线，时间线的起点是发布谣言消息的原始微博，随后是相关的所有评论和转发，统称为推文。

3.根据权利要求1所述的基于时序切分与融合的谣言早期检测算法，其特征在于，步骤2中，每一个时间窗内会有一组连续的微博或评论文本，文本数据为中文文本或英文文本。

4.根据权利要求3所述的基于时序切分与融合的谣言早期检测算法，其特征在于，依次按照分词、去除停用词、文本的向量表示三个步骤对文本进行预处理。

5.根据权利要求4所述的基于时序切分与融合的谣言早期检测算法，其特征在于，文本数据为中文时，采用Tencent AI Lab提供的预训练词嵌入来进行向量表示；文本数据为英文时，采用在Google News上预训练的词嵌入来进行向量表示。

6.根据权利要求1所述的基于时序切分与融合的谣言早期检测算法，其特征在于，步骤3中，每个时间窗下的编码器是相对独立的，每个编码器对一个时间窗下的推文进行编码，编码器为机器学习模型或深度学习模型。

7.根据权利要求1所述的基于时序切分与融合的谣言早期检测算法，其特征在于，步骤4中，对每个时间窗内数据独立的编码应在时序上与上一个窗口的编码融合，对每个时间窗的训练按时间线顺序串行进行，当训练某一时间窗时，在此之前的时间窗下的编码器已经训练完成并被冻结。

8.根据权利要求1所述的基于时序切分与融合的谣言早期检测算法，其特征在于，步骤5中，每个时间窗下的预测结果通过独立的Softmax分类器得到，训练时分类器跟随对应的时间窗进行更新。

9.根据权利要求8所述的基于时序切分与融合的谣言早期检测算法，其特征在于，在测试新的谣言数据时，模型随推文数量的增多，不断将推文送到对应时间的时间窗内，以获得连续的一系列预测结果；所述的一系列预测结果，即形成了谣言早期检测在不同时间点给出的检测结果。