CN117573865A

CN117573865A - 一种基于可解释自适应学习的谣言模糊检测方法

Info

Publication number: CN117573865A
Application number: CN202311358831.1A
Authority: CN
Inventors: 丁峰; 范冰; 郭智威; 余恪平; 朱小刚
Original assignee: Nanchang University New Generation Information Technology Industry Research Institute; Nanchang University
Current assignee: Nanchang University New Generation Information Technology Industry Research Institute; Nanchang University
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-02-20

Abstract

本发明公开一种基于可解释自适应学习的谣言模糊检测方法。所述方法包括：收集社交媒体平台历史数据，对数据进行预处理，得到词向量和语义矩阵；训练预测模型：将语义矩阵中提取语义特征，根据语义特征得到相关性特征，将语义特征与相关性特征融合得到融合特征，将融合特征输入预测模型进行训练；采集待预测数据，将待预测数据输入训练好的预测模型中，输出是否为谣言的预测结果。本发明属于无监督学习，无需事先对训练样本进行标注，而且使用了图结构和生成对抗网络结合的结构，无需人工选取特征。

Description

一种基于可解释自适应学习的谣言模糊检测方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于可解释自适应学习的谣言模糊检测方法。

背景技术

随着互联网的发展，网络空间已被视为日常生活中的另一个重要生活空间。伴随着各种社交网络应用的盛行，各种谣言传播事件极大地影响了网络空间的安全甚至社会稳定。虽然传统的人工智能技术在谣言检测方面有着巨大的进步，但人工特征提取通常使其耗时且效率低下。特别是在长期对抗网络监督的过程中，谣言变得更加模糊和不确定，以不断逃避网络监督。它们逐渐成为一种有组织并伴随着强烈的不确定性和模糊性的活动。由于谣言的传播者已经变得更加狡猾，所以很难识别出他们的真实意图。例如，他们可能在大多数时候以正常用户的身份进行社交活动，但在必要的时候却发表虚假的言论。要发现这种类型的意图非常困难，这就带来了不确定性和模糊性的问题，模糊性使得它很难从原始活动记录中有效地提取隐藏或潜在的模式。为此，有必要整合对特征空间的深入洞察力，建立面向谣言的模糊检测系统。

在谣言的模糊检测方面，目前的技术大多是基于有标签的监督式学习来设计的。但是目前对谣言样本进行注释标签是非常耗费人力物力的。可以预见的是，随着社会应用的不断普及，标签缺失的情况会变得更加普遍。另外现有技术还有基于机器学习的人工选取特征的方法，没有和目前功能强大的生成对抗网络，图神经网络相结合。

发明内容

本发明提供了一种基于可解释自适应学习的谣言模糊检测方法，包括：

收集社交媒体平台历史数据，对数据进行预处理，得到词向量和语义矩阵；

训练预测模型：将语义矩阵中提取语义特征，根据语义特征得到相关性特征，将语义特征与相关性特征融合得到融合特征，将融合特征输入预测模型进行训练；

采集待预测数据，将待预测数据输入训练好的预测模型中，输出是否为谣言的预测结果。

如上所述的一种基于可解释自适应学习的谣言模糊检测方法，其中，收集数据预处理具体包括如下子步骤：

从社交媒体平台上收集文本和图像数据；

对数据进行预处理，包括去除噪声、分词、去除停用词操作；

将数据转换为计算机可读的形式，转为词向量和语义矩阵。

如上所述的一种基于可解释自适应学习的谣言模糊检测方法，其中，预测模型的训练具体包括如下子步骤：

将语义矩阵输入由卷积块和全连接层组成的语义模型，输出语义特征；

从语义矩阵中获取上下文特征和内部特征，输入两种特征到相关性模型中，输出相关性特征；

把语义特征和相关性特征融合，输出融合特征；

将融合特征输入生成对抗学习模块进行学习。

如上所述的一种基于可解释自适应学习的谣言模糊检测方法，其中，通过计算标签和模型输出的预测之间的损失来更新整个模型，包括图层次编码和生成对抗模型；图层次编码包括语义建模和关系建模。

如上所述的一种基于可解释自适应学习的谣言模糊检测方法，其中，语义建模：C_i的词序列表示为一个词向量c_i＝[w₁，w₂，…，w_γ]，其中w_j(j＝1，2，…，γ)表示词序列中所有的γ个词，每个词都通过单次编码再次转化为一个矢量，这样一个向量的维度是单词集的大小τ，向量的每个元素都对应于单词集中的一个单词，c_i的单次编码结果表示为：其中ve_j(j＝1，2，...，γ)表示所有γ词的γ编码向量，每个ve_j是一个τ维向量；第j个词向量/>与它前后相邻的n个向量在语义上相关，合并/>和它相邻的2n个向量，产生单词w_j的特征矩阵：/>

如上所述的一种基于可解释自适应学习的谣言模糊检测方法，其中，将词矩阵Feature_j送入Φ-核心滤波器进行卷积计算，卷积后得到的特征矩阵的维度通过子采样被进一步降低；卷积和池化的每个组合被看作是一个滤波器组，组的索引数被假定为α，范围从1到θ；在第α次滤波中，经过卷积变换后得到一个特征矩阵该过程表示为：其中ρ₁()表示ReLU激活函数，ReLU激活函数表示为：ρ₁(t)＝max(0，t)；/>表示卷积运算，φ为核心滤波器的索引数，/>和/>是参数，是滤波器核心的索引数，/>定义了一个非线性映射，其中C_ve2和a_ve2是参数，M1(Feature_j)将Feature_j转变成一个x×x维的矩阵。

如上所述的一种基于可解释自适应学习的谣言模糊检测方法，其中，在池化操作中，每一个4×4的矩阵都被设定为池化块，只选择最大值来代表该块；字矩阵Feature_j通过所有的θ滤波器组转化为矩阵A_k，将其转移到φ核全连接滤波器，产生另一向量是一个归一化的向量，/>其中/>和/>是参数。

如上所述的一种基于可解释自适应学习的谣言模糊检测方法，其中，引入一个注意力层，首先将初始语义矩阵表示为所有的连接，其中k的范围为1到ω，则把第j个词的注意力权重表示为：α′_j＝ρ₂[C_Ve4·Ve′_i+其中C_Ve4和C_Ve4是参数，/>是第j个词的权重系数，ρ₂(*)表示tanh激活函数，/>

如上所述的一种基于可解释自适应学习的谣言模糊检测方法，其中，生成对抗学习模型是生成器G和判别器D之间的对抗性训练；在每一轮迭代中，G的输入是图层次编码中获得的语义特征和关系特征，输出是代表标签的一个向量；判别器D的对抗损失用于监督生成器G。

本发明实现的有益效果如下：本发明属于无监督学习，无需事先对训练样本进行标注，而且使用了图结构和生成对抗网络结合的结构，无需人工选取特征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于可解释自适应学习的谣言模糊检测方法流程图；

图2为谣言检测示意图；

图3为语义模型示意图；

图4为生成对抗学习模块对抗性训练模块示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本发明实施例一提供一种基于可解释自适应学习的谣言模糊检测方法，包括：

步骤110、收集社交媒体平台历史数据，对数据进行预处理，得到词向量和语义矩阵；

收集数据预处理具体包括如下子步骤：

步骤S111、从社交媒体平台上收集文本和图像数据。

步骤S112、对数据进行预处理，包括去除噪声、分词、去除停用词等操作。

其中，分词是将文本数据划分为有意义的单元(如单词或短语)的过程；停用词是指在文本中频繁出现但对分类无帮助的单词(如“the”、“and”等)。

步骤S113、将数据转换为计算机可读的形式，转为词向量和语义矩阵。

通常将文本转换为数字表示，例如使用TF-IDF方法计算每个单词在文档中的重要性。

步骤120、训练预测模型：将语义矩阵中提取语义特征，根据语义特征得到相关性特征，将语义特征与相关性特征融合得到融合特征，将融合特征输入预测模型进行训练。

本申请实施例中，预测模型的训练具体包括：

步骤S121、将语义矩阵输入由卷积块和全连接层组成的语义模型，输出语义特征。

步骤S122、从语义矩阵中获取上下文特征和内部特征，输入两种特征到相关性模型中，输出相关性特征。

步骤S123、把语义特征和相关性特征融合，输出融合特征。

步骤S124、将融合特征输入生成对抗学习模块进行学习。

具体地，通过计算标签和模型输出的预测之间的损失来更新整个模型，包括图层次编码和生成对抗模型，经过迭代，模型训练完毕。图2为谣言检测示意图，多个事件输入图层次编辑和生成对抗学习模块进行模型训练，输出特征聚合，得到是否为谣言的结果。

其中，图层次编码主要包括两部分：语义建模和关系建模。

①语义建模：C_i的词序列可以表示为一个词向量c_i＝[w₁，w₂，…，w_γ]，其中w_j(j＝1，2，…，γ)表示词序列中所有的γ个词。为了进行量化计算，每个词都通过单次编码再次转化为一个矢量。具体来说，这样一个向量的维度是单词集的大小τ，而向量的每个元素都对应于单词集中的一个单词。c_i的单次编码结果表示为：

其中ve_j(j＝1，2，...，γ)表示所有γ词的γ编码向量，每个ve_j是一个τ维向量。第j个词向量与它前后相邻的n个向量在语义上相关，合并/>和它相邻的2n个向量，产生单词w_j的特征矩阵：/>

语义建模，选择CNN算子有两个原因。首先，帖子一般都是短文，因此可以忽略长期依赖性。其次，CNN能够在提取特征时减少维度，因为得到的向量的维度太高。如图3所示，本发明中的CNN算子被定义为一系列的卷积和池化操作。对于前者，词矩阵Feature_j被送入Φ-核心滤波器进行卷积计算。对于后者，卷积后得到的特征矩阵的维度通过子采样被进一步降低。卷积和池化的每个组合被看作是一个滤波器组。组的索引数被假定为α，范围从1到θ。在第α次滤波中，经过卷积变换后得到一个特征矩阵/>该过程被表示为：

其中ρ₁()表示ReLU激活函数，ReLU激活函数表示为：ρ₁(t)＝max(0，t)；表示卷积运算，φ为核心滤波器的索引数，/>和/>是参数，是滤波器核心的索引数，M₁(*)定义了一个非线性映射，如下所示：/>其中C_ve2和a_ve2是参数，M₁(Feature_j)将Feature_j转变成一个x×x维的矩阵。

在池化操作中，每一个4×4的矩阵都被设定为池化块，只选择最大值来代表该块。字矩阵Feature_j通过所有的θ滤波器组转化为矩阵A_k。它被进一步转移到φ核全连接滤波器，产生另一向量是一个归一化的向量，/>其中/>和/>是参数，φ是核心的索引数。

考虑到不同词的不同作用，进一步引入了一个注意力层。首先将初始语义矩阵表示为所有的连接，其中k的范围为1到ω，则/>把第j个词的注意力权重表示为以下两个公式：

其中C_Ve4和C_Ve4是参数，是第j个词的权重系数，ρ₂(*)表示tanh激活函数，

Pi评论级别的代表向量得到的是：因此，Qn的事件级代表矩阵被表示为：/>

②关系建模：评论之间的关系分为两类：内在关系和上下文关系。

如图4所示，生成对抗学习模块是生成器G和判别器D之间的对抗性训练。在每一轮迭代中，G的输入是图层次编码中获得的语义特征和关系特征，输出是代表标签的一个向量。同时，D的对抗损失用于监督生成器G，根据一些分布估计真实和训练时的预测标签之间的Wasserstein距离。

生成器：根据判别器给出的生成样本被判断为真的概率，有目的性地更新参数使生成的样本尽可能被判断为真。为了更好地适应连续迭代多轮更新，门控递归单元(GRU)模型被嵌入到G中。两个代表向量V(n)和R(n)融合成生成的预测结果经历了一个迭代过程，这个过程被表示为t，范围从1到T。在第t轮，根据前一轮的隐藏状态，通过GRU运算器更新隐藏状态向量。GRU由两个门组成：更新门(UG)和复位门(RG)。UG控制上一轮的状态信息被带入本轮的程度，而RG控制上一轮的状态信息被忽略的程度。

判别器：鉴别器D将原始的输入样本标记为真，并将生成器输出的样本标记为假。随着训练的进行，判别器能够更加准确的区分原始样本和生成器生成样本。

需要说明的是，由于在训练过程中的概率分布是离散的，因此需要一个映射函数将其转化为连续形式。优选使用Wasserstein距离被定义为连续函数的最大值。

步骤130、采集待预测数据，将待预测数据输入训练好的预测模型中，输出是否为谣言的预测结果。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于可解释自适应学习的谣言模糊检测方法，其特征在于，包括：

2.如权利要求1所述的一种基于可解释自适应学习的谣言模糊检测方法，其特征在于，收集数据预处理具体包括如下子步骤：

从社交媒体平台上收集文本和图像数据；

将数据转换为计算机可读的形式，转为词向量和语义矩阵。

3.如权利要求1所述的一种基于可解释自适应学习的谣言模糊检测方法，其特征在于，预测模型的训练具体包括如下子步骤：

把语义特征和相关性特征融合，输出融合特征；

将融合特征输入生成对抗学习模块进行学习。

4.如权利要求3所述的一种基于可解释自适应学习的谣言模糊检测方法，其特征在于，通过计算标签和模型输出的预测之间的损失来更新整个模型，包括图层次编码和生成对抗模型；图层次编码包括语义建模和关系建模。

5.如权利要求4所述的一种基于可解释自适应学习的谣言模糊检测方法，其特征在于，语义建模：C_i的词序列表示为一个词向量c_i＝[w₁,w₂,…,w_γ]，其中w_j(j＝1,2,…,γ)表示词序列中所有的γ个词，每个词都通过单次编码再次转化为一个矢量，这样一个向量的维度是单词集的大小τ，向量的每个元素都对应于单词集中的一个单词，c_i的单次编码结果表示为：其中ve_j(j＝1,2,...,γ)表示所有γ词的γ编码向量，每个ve_j是一个τ维向量；第j个词向量/>与它前后相邻的n个向量在语义上相关，合并/>和它相邻的2n个向量，产生单词w_j的特征矩阵：/>

6.如权利要求5所述的一种基于可解释自适应学习的谣言模糊检测方法，其特征在于，将词矩阵Feature_j送入Φ-核心滤波器进行卷积计算，卷积后得到的特征矩阵的维度通过子采样被进一步降低；卷积和池化的每个组合被看作是一个滤波器组，组的索引数被假定为α，范围从1到θ；在第α次滤波中，经过卷积变换后得到一个特征矩阵该过程表示为：其中ρ₁()表示ReLU激活函数，ReLU激活函数表示为：ρ₁(t)＝max(0,t)；/>表示卷积运算，φ为核心滤波器的索引数，/>和/>是参数，是滤波器核心的索引数，/>定义了一个非线性映射，其中C_ve2和a_ve2是参数，M₁(Feature_j)将Feature_j转变成一个x×x维的矩阵。

7.如权利要求6所述的一种基于可解释自适应学习的谣言模糊检测方法，其特征在于，在池化操作中，每一个4×4的矩阵都被设定为池化块，只选择最大值来代表该块；字矩阵Feature_j通过所有的θ滤波器组转化为矩阵A_k，将其转移到φ核全连接滤波器，产生另一向量是一个归一化的向量，/>其中/>和/>是参数。

8.如权利要求7所述的一种基于可解释自适应学习的谣言模糊检测方法，其特征在于，引入一个注意力层，首先将初始语义矩阵表示为所有的连接，其中k的范围为1到ω，则把第j个词的注意力权重表示为：其中C_Ve4和C_Ve4是参数，/>是第j个词的权重系数，ρ₂(*)表示tanh激活函数，/>

9.如权利要求4所述的一种基于可解释自适应学习的谣言模糊检测方法，其特征在于，生成对抗学习模型是生成器G和判别器D之间的对抗性训练；在每一轮迭代中，G的输入是图层次编码中获得的语义特征和关系特征，输出是代表标签的一个向量；判别器D的对抗损失用于监督生成器G。