CN116719936B

CN116719936B - 一种基于集成学习的网络不可靠信息早期检测方法

Info

Publication number: CN116719936B
Application number: CN202310708310.8A
Authority: CN
Inventors: 余敦辉; 曾煜; 张万山; 张与牵; 陈叶子; 解迪
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-12-26
Anticipated expiration: 2043-06-15
Also published as: CN116719936A

Abstract

本发明公开了一种基于集成学习的网络不可靠信息早期检测方法，属于网络不可靠信息早期检测技术领域，包括以下步骤：1)将输入的文本序列转换成词向量序列；2)将词向量序列分别输入到三个基模型Transformer、Bi‑SATT‑CAPS、BiTCN中以完成不可靠信息检测的分类；3)对三个基模型进行训练和预测，得到三组新的训练数据和测试数据；4)将三组新的训练数据进行加权后合并作为新的训练集输入元学习器SVM中；5)元学习器SVM对新的训练集进行训练，并得到最终的分类结果。本发明采用上述结构的基于集成学习的网络不可靠信息早期检测方法，能够充分保留文本的语法和结构特征，仅需使用博文文本和早期少量转发评论即可进行较高准确度的不可靠信息检测，通过使用改进的加权融合策略，综合三个基模型的优势以提升早期检测效果。

Description

一种基于集成学习的网络不可靠信息早期检测方法

技术领域

本发明涉及网络不可靠信息早期检测领域，尤其是涉及一种基于集成学习的网络不可靠信息早期检测方法。

背景技术

不可靠信息检测在大多数研究中都被视作一个二分类问题，即将待检测的内容分为不可靠信息和可靠信息两类。其中，无论是基于传统机器学习还是深度学习的检测方法，核心都是从待检测博文本身及其相关的属性中提取有助于检测的特征，用于训练和预测，从而判断待检测博文是不可靠信息还是可靠信息。而这些不可靠信息检测方法中，主要依靠于选取文本内容特征、社交上下文特征以及传播结构特征中的一种或多种。

以上不可靠信息检测方法的缺陷主要体现在如下两个方面：

(1)提取内容特征时语法和结构特征丢失严重

不可靠信息的形式复杂多样，同时不可靠信息制造者也会采取各种手段来模糊其意图，以躲避检测。现有的不可靠信息检测方法在提取内容特征时存在语法和结构特征提取丢失严重，以至于不可靠信息检测效果差的问题。

(2)不可靠信息早期检测能力尚有较大提升空间

现有不可靠信息检测方法大多数基于待检测博文已经拥有大量特征信息，特别大量转发评论等社交上下文特征以及传播结构特征。然而，这些特征需要在不可靠信息发布的较长一段时间后才足够明显，此时不可靠信息可能已经造成了严重的负面影响。这些方法无法在不可靠信息发布早期尚未被广泛转发评论和传播前具有较高的准确率，不可靠信息早期检测能力有待提升。

因此，需要提出一种网络不可靠信息早期检测方法，仅需选择文本内容特征和社交上下文特征中的少量转发评论特征来提升不可靠信息检测效果，以达到网络不可靠信息早期检测的效果。

发明内容

本发明的目的是提供一种基于集成学习的网络不可靠信息早期检测方法，缓解现有不可靠信息检测方法存在语法语义和结构特征提取丢失严重的问题，最大程度保存网络不可靠信息数据文本中捕捉到的特征，以此提升网络不可靠信息检测的效果；同时，解决现有不可靠信息检测方法因依赖传播结构和社交上下文特征而造成的早期无法准确进行检测的问题。

为实现上述目的，本发明提供了如下技术方案：

一种基于集成学习的网络不可靠信息早期检测方法，包括以下步骤：

步骤1：将输入的文本序列转换成词向量序列：首先将原博文s整合对应的转发评论c，得到一个长度为n的文本序列M＝[m₁,m₂,...,m_n]，然后利用经预训练得到的Glove将文本序列M转化成词向量序列x，x＝x₁,x₂,...,x_n(x_i∈R_d)，其中d代表维度；

步骤2：将词向量序列分别输入到三个基模型Transformer、Bi-SATT-CAPS、BiTCN中以完成不可靠信息检测的分类，利用基模型Bi-SATT-CAPS进行不可靠信息检测的分类方法步骤为：

(1)将词向量序列x输入到双向LSTM中进行特征提取，正向LSTM的和反向LSTM的隐藏状态向量拼接在一起得到的向量代表了提取的特征：

其中，表示正向LSTM的隐藏状态向量，/>表示反向LSTM的隐藏状态向量，[,]表示拼接操作；

(2)使用多头自注意力机制，对双向LSTM的输出h_n进行多头自注意力计算，实现对不同位置上的输入信息进行共同关注；

(2.1)W_Q、Wk、Wv是不同的权重矩阵，将这些权重矩阵分别与h_n相乘后计算得到Q、K、V矩阵；

(2.2)多头自主注意力将得到的Q、K、V矩阵根据设计的多头自注意力的头的数量进行拆分，然后分别计算三部分的注意力分数；

其中，为第i个头的输出，W_i ^Q、W_i ^K、W_i ^V分别为第i个头中Q、K、V的参数矩阵；

(2.3)将计算结果进行合并

其中r为多头注意力的头数，W^O为多头注意力机制将计算结果进行合并时的权重矩阵。

(2.4)最终多头自注意力计算结果合并拼接的结果Multihead(Q,K,V)经过线性层得到输出特征v；

(3)将上一步的输出特征v输入到卷积胶囊层中；

(3.1)卷积胶囊层中相邻的两个胶囊之间，i层的子胶囊v_i乘以一个权重矩阵Wij得到子胶囊v_i到第i+1层父胶囊的预测向量

(3.2)计算动态路由算法所决定的耦合系数c_ij，将对数概率b_ij的初始值设为0，并通过c_ij的连续变换，即使用softmax函数进行迭代更新：

(3.3)由所有来自子胶囊的预测向量加权求和可得到每个父胶囊的最终特征表示s_j

(3.4)父胶囊sj通过激活函数Squash进行缩放，从而得到最终的父胶囊V_j：

(3.5)将卷积胶囊层的输出向量Vj输入到分类胶囊中进行分类：

V_f＝f(W·V_j+B)

其中，W表示分类胶囊的权重矩阵，B表示分类胶囊的偏置项；

(3.6)将分类胶囊分类后得到的向量V_f输入到softmax分类器进行归一化，以此完成不可靠信息检测分类；

(3.7)其中选用交叉熵函数作模型的训练损失函数，目标是最小化训练预测值和实际值之间的交叉熵：

其中，y、分别为样本x的实际值和预测值，n为训练样本数，L为损失值；

步骤3：按照5折交叉检验步骤对三个基模型进行训练和预测，得到三组新的训练数据和测试数据，将三组新的测试数据进行拼接作为新的测试集new test date；

步骤4：为三个基模型各赋予一个可信度即权重，将三组新的训练数据进行加权后合并作为新的训练集输入元学习器SVM中，具体步骤为：

1)计算第t个基模型的错误率：

2)根据错误率计算权重α_t：

3)对权重α_t进行归一化得到最终的权重w_t：

4)对三组新的训练数据进行加权后合并作为新的训练集new training date输入元学习器SVM中；

步骤5：元学习器SVM对新的训练集new training date进行训练，并得到最终的分类结果：

f(x)＝sign(w·x+b)

其中，w为元学习器SVM的权重矩阵，b为元学习器SVM的偏置项。

优选的，步骤2中，将词向量序列x输入到基模型Transformer中的方法为：

y＝softmax(W_Trans·Transformer_Encoder(x))

其中，Transformer_Encoder(x)表示对输入文本的词向量序列x应用Transformer编码器后得到的输出；W_Trans表示基模型Transformer中的输出层权重矩阵；softmax()函数将模型输出转换为概率分布，以此选出不可靠信息的类别；

将词向量序列x输入到基模型BiTCN模型中的方法为：

y＝softmax(W_BiTCH·BiTCN(x))

其中，BiTCN(x)表示对输入文本的词向量序列x应用BiTCN后得到的输出；W_BiTCH表示基模型BiTCN中的输出层权重矩阵；softmax()函数将模型输出转换为概率分布，以此选出不可靠信息的类别。

优选的，步骤3的具体方法为：

1)首先将训练集数据分成5份，每次训练使用4份训练集数据作为训练集进行训练，剩下的1份训练集数据作为测试集进行预测；

2)在模型训练完成后，对测试集数据进行预测得到预测结果；

3)重复5次即模型进行5次训练后，将训练集上得到的5次预测结果进行拼接得到一组新的特征和训练数据training date，将测试集上的5次预测结果经过算术平均后得到一组新的测试数据test date；

4)对三个基模型分别经过上述步骤进行训练，得到三组新的训练数据trainingdate和测试数据test date，将三组新的测试数据进行拼接作为新的测试集new testdate。

本发明采用上述结构的基于集成学习的网络不可靠信息早期检测方法，具有如下有益效果：

(1)能够充分保留文本的语法和结构特征，以此提升网络不可靠信息检测的效果：

本发明提出的Bi-ATT-CAPS模型将胶囊网络引入不可靠信息检测任务中，胶囊网络中包含丰富的词语的位置方向等信息，且相邻节点之间具有强相关性，保留了原始数据中的底层细节，这些特征与网络平台上的博文及转发评论数据的上下文关系和顺序性十分契合，能够很好地提取其中的多元语法特征、语义特征和结构特征，最大程度保存网络不可靠信息数据文本中捕捉到的特征，以此提升网络不可靠信息检测的效果。

(2)仅需使用博文文本和早期少量转发评论即可进行较高准确度的不可靠信息检测，以此实现网络不可靠信息早期检测的需求：

本发明结合Bi-ATT-CAPS模型提出的基于集成学习的网络不可靠信息早期检测方法能够深度挖掘博文内容文本和前期少量转发评论中的深度语义特征，不依赖于传播结构特征以及其余社交上下文特征便能够取得较好的效果，能够在不可靠信息发布早期转发评论数较少时便具有较高的准确率，从而满足实际工作中不可靠信息早期检测的需求。

(3)通过使用改进的加权Stacking融合策略，综合三个基模型的优势以提升早期检测效果：

在经典的Stacking融合策略中，没有区分不同基模型在任务中的性能差异性，将三个基模型的预测结果视作同等重要输入到元学习器中，具体到不可靠信息检测任务中来说就是三个基模型对于不同长度的博文检测准确率不同，本发明利用三个基模型对于不同长度博文的检测效果不同的特点，为基模型赋予一个可信度即权重，然后将加权后的新的训练集再输入到元学习器中进行训练，并得到最终的分类结果。

附图说明

图1为本发明基于集成学习的网络不可靠信息早期检测方法的流程图；

图2为本发明基于集成学习的网络不可靠信息早期检测方法中Bi-SATT-CAPS模型的整体结构示意图；

图3为消融实验结果图；

图4为早期检测实验结果图。

具体实施方式

以下结合附图和实施例对本发明的技术方案作进一步说明。

如图所示的一种基于集成学习的网络不可靠信息早期检测方法，包括以下步骤：

步骤1：将输入的文本序列转换成词向量序列：首先将原博文s整合对应的转发评论c，得到一个长度为n的文本序列M＝[m₁,m₂,...,mn]，然后利用经预训练得到的Glove将文本序列M转化成词向量序列x，x＝x₁,x₂,...,x_n(x_i∈R_d)，其中d代表维度；

步骤2：将词向量序列分别输入到三个基模型Transformer、Bi-SATT-CAPS、BiTCN中以完成不可靠信息检测的分类：

利用基模型Bi-SATT-CAPS进行不可靠信息检测的分类方法步骤为：

(2)使用多头自注意力机制，对双向LSTM的输出hn进行多头自注意力计算，实现对不同位置上的输入信息进行共同关注；

(2.1)W_Q、Wk、Wv是不同的权重矩阵，将这些权重矩阵分别与hn相乘后计算得到Q、K、V矩阵；权重矩阵的初值是通过Xavier初始化方式确定的，采样方式为将权重矩阵的初始值从高斯分布(均值为0、方差为2/n)中随机采样以获得初始值，以避免梯度消失和梯度爆炸的情况，通过优化算法(本方案选用的为Adam优化函数)计算损失函数对于权重矩阵的梯度，然后根据梯度信息对权重矩阵进行更新训练,在训练的每个迭代步骤中，通过优化算法对权重矩阵进行调整，以逐渐降低损失函数，提升模型的性能。

其中，为第i个头的输出，W_i ^Q、W_i ^K、W_i ^V分别为第i个头中Q、K、V的参数矩阵；在多头注意力机制中，会为每个注意力头独立初始化查询、键和值的参数矩阵，每个参数矩阵均随机采样，随机采用的目的是在初始阶段引入一定的随机性，使模型能够从不同的初始状态开始学习。

(2.3)将计算结果进行合并

(3)将上一步的输出特征v输入到卷积胶囊层中；

(3.4)父胶囊s_j通过激活函数Squash进行缩放，从而得到最终的父胶囊V_j：

(3.5)将卷积胶囊层的输出向量Vj输入到分类胶囊中进行分类：

V_f＝f(W·V_j+B)

其中，y、分别为样本x的实际值和预测值，n为训练样本数，L为损失值。

将词向量序列x输入到基模型Transformer中的方法为：

y＝softmax(W_Trans·Transformer_Encoder(x))

其中，Transformer_Encoder(x)表示对输入文本的词向量序列x应用Transformer编码器后得到的输出；W_Trans表示基模型Transformer中的输出层权重矩阵；softmax()函数将模型输出转换为概率分布，以此选出不可靠信息的类别。

将词向量序列x输入到基模型BiTCN模型中的方法为：

y＝softmax(W_BiTCH·BiTCN(x))

步骤3：按照5折交叉检验步骤对三个基模型进行训练和预测，得到三组新的训练数据和测试数据，将三组新的测试数据进行拼接作为新的测试集new test date，具体方法为：

1)计算第t个基模型的错误率：

2)根据错误率计算权重α_t：

3)对权重α_t进行归一化得到最终的权重w_t：

f(x)＝sign(w·x+b)

为验证本发明的有效性，进行如下对比实验、消融实验和早期检测能力进一步对比实验：

在数据集的选择上，本发明选择使用一个不可靠信息检测任务经典数据集Ma-Weibo，数据集的基本信息如下表所示。Ma-Weibo数据集包括从新浪微博社区管理中心收集的大量博文，语言为中文。数据集中包含原始博文以及对应的转发评论，适合用于本发明的实验。实验在原始数据集的基础上，对博文对应的转发评论按照发表时间进行排序和划分，有利于选择早期的评论。

数据集的基本信息

(1)对比实验

首先可以确定的前提是，网络平台上的博文的转发评论数和博文的发布时间成正相关，对于同一事件，其发布的时间越久，相关的转发评论数会积累的越多。因此，对于同一事件，可以用转发评论的数量在一定程度上体现已发布时间，以此来评估模型的早期不可靠信息检测性能。因此，对比实验选择转发评论的数量作为时间截止线，将截止线设为150，即只使用对应事件的按时间排序的前150条转发评论用于实验。通过增加转发评论的数量，评估七个对比方法和本发明提出的方法在不同的评论数量下不可靠信息检测的性能的对比，以此检测本方法在早期转发评论数较少时的效果。本实验选取了7个不可靠信息检测模型进行对比实验，分别为：

1)SVM-TS：一种基于支持向量机(SVM)的时序模型，并手动提取了19种和不可靠信息相关的特征，并利用时间序列建模技术来融合这些特征，取得了基于机器学习的不可靠信息检测方法中最好的效果。

2)GRU-2：由Ma等人首次将深度神经网络运用到不可靠信息检测任务时提出，同时也提出了本实施例所用的中文数据集Ma-Weibo，后续被广泛使用和对比。该模型以事件为单位，利用两层GRU学习事件帖子的上下文信息，捕捉相关帖子随时间的变化特征，在任务中取得了显著的效果。

3)PLAN：PLAN模型于2020AAAI会议论文中提出，提出了一种Post-level注意力模型，同时利用Transformer网络中的多头注意力机制对推文之间的长距离依赖进行建模。

4)HSA-BiLSTM：该模型于第27届CIKM会议论文中提出，首先，它建立了一个层次化的双向长短期记忆模型来进行表示学习。然后，利用注意力机制将社交上下文信息整合到网络中，从而将重要的语义信息引入模型中，以提升不可靠信息检测任务的效果。HAS-BiLSTM模型在中英文数据集的实验中都取得了十分出色的效果。

5)ARC：该模型于第28届CIKM会议论文中提出，是一种结合CNN的注意残差网络模型，该模型基于内容特征进行不可靠信息检测。首先，利用微调注意力机制的残差网络来捕获长距离依赖。然后，利用不同窗口大小的卷积神经网络选择重要分量和局部特征，在不可靠信息检测任务中取得了超越其他基线模型的效果。

6)DAPT：该模型于2022年第12届CCWC会议论文中提出，DAPT模型利用文本分析技术、预训练方法来提升早期不可靠信息检测的效果，并利用数据增强技术来缓解不可靠信息数据稀缺带来的影响，以提高模型的性能。

7)BCMM-GRU：提出了一种基于帖子的增强表示方法BCMM，能够在不可靠信息事件传播的早期阶段对其内容进行处理，并将BCMM与三层GRU相结合，以表示帖子内容、帖子的拓扑网络以及从帖子数据集中提取的元数据，从而对帖子进行不可靠信息检测。

对比实验结果如表4.1。

当转发评论数为150以内时，可以将其理解为是事件发布的早期。此时，不可靠信息通常还未造成较大的影响，如果将其及时检测出来，能够在不可靠信息形成有效规模前及时检测出来，从而降低其带来的后续影响。根据上表中的实验结果可以看出，本发明提出的基于集成学习的网络不可靠信息早期检测方法在准确率Acc、精确率Prec、召回率Rec和F1值四项指标上均优于每一个对比模型。

(2)消融实验

为了验证多模型融合方法对实验效果的提升，本实施例还在数据集Ma-weibo进行了相应的消融实验。消融实验结果见图3。

从图3中可以看出，在转发评论数为150的情况下，Bi-SATT-CAPS相较于另外两个基模型，四个指标均取得了最优的效果，相较于BiGCN模型F1值高0.013，相较于Transformer模型F1值高0.02，这也进一步证明了本发明工作的有效性。与三个基模型相比，融合模型方法四个指标均提升较大，准确率相较于基模型中最高的Bi-SATT-CAPS提升了3.9％，精确率提升了3.9％，召回率提升了4.6％，F1值提升了0.049，证明集成学习方法能够整合不同模型间的优势、弥补劣势，得到比单个模型更佳的性能。

(3)早期检测能力进一步对比实验

实验在时间截止线设置为150的前提下，再次进行了细分，验证在使用0-150条转发评论的情况下，各种方法的效果，实验结果见图4。

根据图4可以看出，随着评论数的增多，所有模型的准确率都会随之提高。当转发评论数为150以内时，可以将其理解为是事件发布的早期。此时，不可靠信息通常还未造成较大的影响，如果将其及时检测出来，能够在不可靠信息形成有效规模前及时检测出来，从而降低其带来的后续影响。根据实验结果可以看出，本发明提出的融合模型方法的检测准确率在转发评论数为150以内时明显优于每一个对比模型。具体来说，在评论数为50时，融合模型方法相比于BCMM-GRU模型准确率高2.3％，比DAPT模型高2.1％。在评论数为150时，融合模型方法相比于BCMM-GRU模型准确率高1.5％，比DAPT模型2.4％。而从另一个角度来分析，要使模型的准确率达到90％，融合模型只需要50条不到的转发评论数，而其他模型至少需要在转发评论数为150时才达到。因此，有效验证了本发明提出的早期不可靠信息检测方法在不可靠信息发布早期转发评论数较少时进行检测的有效性。

因此，本发明采用上述基于集成学习的网络不可靠信息早期检测方法，将胶囊网络引入不可靠信息检测任务中，利用胶囊网络编码文本中部分和整体的关系，充分保留文本的语法和结构特征信息，该模型充分考虑了网络不可靠信息数据的特点，有效地提高网络不可靠信息检测的效果；通过利用改进的Stacking融合策略将本发明提出的模型Bi-SATT-CAPS和不同质的Transformer、BiTCN进行融合，整合三个基模型间的优势、弥补劣势，以提升网络不可靠信息早期检测性能，仅需使用博文文本和早期少量转发评论即可进行较高准确度的检测。

以上是本发明的具体实施方式，但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此本发明的保护范围应以权利要求书所限定的保护范围为准。

Claims

1.一种基于集成学习的网络不可靠信息早期检测方法，其特征在于：包括以下步骤：

(2.3)将计算结果进行合并

其中r为多头注意力的头数，W^O为多头注意力机制将计算结果进行合并时的权重矩阵；

(3)将上一步的输出特征v输入到卷积胶囊层中；

(3.1)卷积胶囊层中相邻的两个胶囊之间，i层的子胶囊v_i乘以一个权重矩阵W_ij得到子胶囊v_i到第i+1层父胶囊的预测向量

(3.5)将卷积胶囊层的输出向量V_j输入到分类胶囊中进行分类：

V_f＝f(W·V_j+B)

1)计算第t个基模型的错误率：

2)根据错误率计算权重α_t：

3)对权重α_t进行归一化得到最终的权重w_t：

f(x)＝sign(w·x+b)

2.根据权利要求1所述的一种基于集成学习的网络不可靠信息早期检测方法，其特征在于：步骤2中，将词向量序列x输入到基模型Transformer中的方法为：

y＝softmax(W_Trans·Transformer_Encoder(x))

将词向量序列x输入到基模型BiTCN模型中的方法为：

y＝softmax(W_BiTCH·BiTCN(x))

3.根据权利要求1所述的一种基于集成学习的网络不可靠信息早期检测方法，其特征在于：步骤3的具体方法为：

4)对三个基模型分别经过上述步骤进行训练，得到三组新的训练数据training date和测试数据test date，将三组新的测试数据进行拼接作为新的测试集new test date。