CN111160452A

CN111160452A - 一种基于预训练语言模型的多模态网络谣言检测方法

Info

Publication number: CN111160452A
Application number: CN201911376275.4A
Authority: CN
Inventors: 张勇东; 毛震东; 邓旭冉; 王鹏辉
Original assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Current assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Priority date: 2019-12-25
Filing date: 2019-12-27
Publication date: 2020-05-15

Abstract

本发明公开了一种基于预训练语言模型的多模态网络谣言检测方法，包括：获取待检测信息，所述待检测信息包括图像以及相关的文本信息；通过预训练的深度卷积神经网络提取图像的特征向量，通过预训练的语言模型提取文本信息的文本特征向量；将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接，获得多模态特征向量；利用Softmax二分类器，获得待检测信息为谣言和非谣言这两个类别的概率。该方法可以实现网络谣言的自动、迅速和精确地检测。

Description

一种基于预训练语言模型的多模态网络谣言检测方法

技术领域

本发明涉及网络空间安全技术领域，尤其涉及一种基于预训练语言模型的多模态网络谣言检测方法。

背景技术

当今社交网络平台用户活跃度最高，影响范围广泛，以微博平台为例，每天都有上亿用户发布并分享数量庞大，种类繁多的信息。同时，由于以上特点，这些社交网络平台很容易成为网络谣言滋长传播的土壤，因此针对网络谣言的自动检测和提前检测对网络空间安全具有重要意义。

网络谣言检测最初基于人工的鉴别方法，经过人工审核、用户反馈和专业辟谣平台辟谣等方式进行鉴别。这类检测方法具有两个缺点。首先，该过程需要消耗大量人力资源，需要很多相关从业人员和用户的参与；其次，这些方法的效率较低，往往谣言已经经过一段时间的传播后，才能检测出结果，所以不能及时阻止谣言传播。

为了提升检测速度、提高鉴别精度并减轻人力负担，基于特征工程的检测方法被提出。这类方法针对谣言的统计特征进行鉴别和分类，在一定程度上可以提高谣言检测效率。但是这类方法有两个缺陷，首先，选取合适的特征需要精心的设计和评估；其次，谣言的种类繁多，单个或者少数特征不能区分所有的谣言。

深度学习的出现使得模型对特征的提取能力和基于特征的判别能力得到了巨大的提升，基于人工智能的谣言检测方法应运而生。这类方法使用大量数据训练并且提取潜在的特征，通过这些特征判别是否为谣言，具有更高的效率。以往的方法大多针对单模态的信息，例如文本类谣言。社交平台的谣言往往具有多模态的特征，即同时具有文本和图像信息(以及其它模态信息)，单独检测其中一个模态会遗漏其他模态的重要信息。部分方法也应用了多模态信息，不过这类方法大多利用基于RNN的模型提取文本特征，不能充分发掘文本模态信息。

发明内容

本发明的目的是提供一种基于预训练语言模型的多模态网络谣言检测方法，可以实现网络谣言的自动、迅速和精确地检测。

本发明的目的是通过以下技术方案实现的：

一种基于预训练语言模型的多模态网络谣言检测方法，包括：

获取待检测信息，所述待检测信息包括图像以及相关的文本信息；

通过预训练的深度卷积神经网络提取图像的特征向量，通过预训练语言模型提取文本信息的文本特征向量；

将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接，获得多模态特征向量；

利用Softmax二分类器，获得待检测信息为谣言和非谣言这两个类别的概率。

由上述本发明提供的技术方案可以看出，使用多模态特征融合，同时考察文本信息和图像信息，具有更高的准确率；该方法只需使用单条微博消息作为输入便可以获得精确的检测结果，可以在谣言传播初期迅速检测并处理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于预训练语言模型的多模态网络谣言检测方法的模型结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于预训练语言模型的多模态网络谣言检测方法，该方法可以应用于社交网络平台谣言自动检测，将网络谣言消息的文本和图像同时输入到本网络中，可以自动给出该消息为谣言的概率。在实施上，可以以后台程序的方式运行在社交网络平台(例如微博)，实时检测社交平台上发出的各类消息，当某类消息为谣言的概率超过某一阈值时，可以迅速通知工作人员，进行下一步的处理。本发明也可用于各类文本图像类消息的谣言检测，具有较强的实用性。

如图1所示，其主要包括：

1、获取待检测信息，所述待检测信息包括图像以及相关的文本信息。

本发明实施例中，以微博信息作为待检测信息，包含微博图像与相关的微博文本。图1所示的微博图像与微博文本的内容仅为示例。

2、通过预训练的深度卷积神经网络提取图像的特征向量，通过预训练的语言模型提取文本信息的文本特征向量。

本发明实施例中，如图1所示的模型作为一个整体来看待，需要进行训练，本发明所提到的深度卷积神经网络、语言模型都是使用的预训练模型，连同Softmax二分类器组成检测模型，并对其进行训练，使模型学习到最优的参数，从而确保检测效果，整体训练的方式将在后文介绍。

1)基于深度卷积神经网络提取图像特征。

本发明实施例中，深度卷积神经网络(例如，VGG19网络)包括依次连接若干卷积层以及全连接层，每一卷积层后都接入批标准化(BatchNorm)层进行正则化；经过若干卷积层处理得到的特征图通过全连接层进行整合，得到图像的特征向量。

2)基于语言模型的文本特征提取。

本发明实施例中，通过预训练语言模型提取文本信息的文本特征向量之前，先对文本信息进行预处理，过滤掉特征字符与统一资源定位符等不必要字符，得到较为纯净的中文句子，再使用训练好的语言模型对预处理后的文本信息进行处理，获得句子级别的向量表示作为文本特征向量。

本发明实施例中，使用的语言模型为ZEN模型，ZEN是目前先进的中文预训练语言模型。ZEN基于BERT语言模型的结构，根据中文的多个字组合成一个词的特点，结合了多粒度编码和字编码进行预训练。

ZEN模型，首先在语料库中基于频率对字进行多粒度组合，形成词组，构造多粒度的词汇表；然后在接收字序列输入时，会根据建立好的词汇表抽取输入的字序列中出现的词组。同时会对输入的字序列和抽取的词组使用多层transformer分别进行编码，得到每个字与词组的向量表示，从而增强每个字的向量表示。

本领域技术人员可以理解，Transformer是一种经典的基本网络结构，Transformer对经典的注意力机制进行了改良和巧妙结合，可以实现更细粒度的文本特征提取。

3、将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接，获得多模态特征向量。

本发明实施例中，使用全连接层将两种不同的特征向量映射到同一个特征空间并进行拼接，从而得到待检测信息的多模态特征向量。

4、利用Softmax二分类器进行分类，获得待检测信息为谣言和非谣言这两个类别的概率。

得到谣言类别与真实类别的概率后可以通过常规方式来确定最终检测结果，例如，通过设定的阈值来判断，由于只有两类，因此当某类概率大于0.5则可判定属于该类。当然为了获取更大的置信度可以设定一个更高的阈值，对于阈值的具体数值可以由技术人员根据实际情况或者经验自行设定。

本发明实施例中，将图1所示的深度卷积神经网络、语言模型以及Softmax二分类器作为一个整体进行训练，训练过程中的损失函数采用交叉熵损失函数；

训练时采用交替优化的策略，即，先固定预训练的语言模型的输出，优化深度卷积神经网络；然后固定深度卷积神经网络的输出，优化语言模型(也即，对预训练的语言模型进行微调)；交替优化时，Softmax二分类器作为输出层一并进行训练，如此反复交替优化，网络将会迅速趋于收敛。示例性的，优化过程使用SGD作为优化器，学习率设置为1e-3，momentum设置为0.9。

与现有方法相比，本发明实施例上述方案，使用中文预训练语言模型，具有更强的特征提取能力，可以获得最佳的中文文本特征向量；此方法使用多模态特征融合，同时考察文本信息和图像信息，具有更高的准确率；该方案只需使用单条微博消息作为输入便可以获得精确的检测结果，可以在谣言传播初期迅速检测并处理；该方案使用的预训练模型，可以针对不同的谣言数据集快速微调，具有较强的灵活性。

为了说明本发明上述方案的效果，进行了测试实验。

测试实验中，数据集使用WeiboRumorSet，该数据集来自于微博平台，包含4779真实消息和4748条谣言，包含5318张真实图像和7954张谣言图像。测试实验表明本发明在WeiboRumorSet数据集上可以实现当前最佳的分类效果，分类准确率达到90.18％。为了证明本发明模型各个组件的有效性，另外实施了分割实验。实验结果表明，单独使用VGG19网络进行检测，分类准确率为75.6％；单独使用ZEN模型对文本进行检测，分类准确率为88.75％。实验结果如表1所示，该结果表明本发明具有较好的分类效果。

采用模型	VGG19	ZEN	本方法
				分类准确率	75.6％	88.75％	90.18％

表1测试实验结果

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于预训练语言模型的多模态网络谣言检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于预训练语言模型的多模态网络谣言检测方法，其特征在于，所述通过训练好的深度卷积神经网络提取图像的特征向量包括：

深度卷积神经网络包括依次连接若干卷积层以及全连接层，每一卷积层后都接入批标准化层进行正则化；经过若干卷积层处理得到的特征图通过全连接层进行整合，得到图像的特征向量。

3.根据权利要求1所述的一种基于预训练语言模型的多模态网络谣言检测方法，其特征在于，所述通过训练好的语言模型提取文本信息的文本特征向量包括：

对文本信息进行预处理，过滤掉特征字符与统一资源定位符；

使用预训练语言模型对预处理后的文本信息进行处理，获得句子级别的向量表示作为文本特征向量。

4.根据权利要求1所述的一种基于预训练语言模型的多模态网络谣言检测方法，其特征在于，将深度卷积神经网络、语言模型以及二分类线性分类器作为一个整体进行训练；训练过程中的损失函数采用交叉熵损失函数，

训练时采用交替优化的策略，即，先固定语言模型的输出，优化深度卷积神经网络；然后固定深度卷积神经网络的输出，优化语言模型；交替优化时，Softmax二分类器作为输出层一并进行训练，如此反复交替优化，直至收敛。

5.根据权利要求4所述的一种基于预训练语言模型的多模态网络谣言检测方法，其特征在于，所述语言模型包括ZEN模型；

ZEN模型根据中文的多个字组合成一个词的特点，结合了多粒度编码和字编码进行预训练；

ZEN模型，首先在语料库中基于频率对字进行多粒度组合，形成词组，构造多粒度的词汇表；在接收字序列输入时，会根据建立好的词汇表抽取输入的字序列中出现的词组；之后，会对输入的字序列和抽取的词组使用多层transformer分别进行编码，得到每个字与词组的向量表示，从而增强每个字的向量表示。