CN111160452A - 一种基于预训练语言模型的多模态网络谣言检测方法 - Google Patents

一种基于预训练语言模型的多模态网络谣言检测方法 Download PDF

Info

Publication number
CN111160452A
CN111160452A CN201911376275.4A CN201911376275A CN111160452A CN 111160452 A CN111160452 A CN 111160452A CN 201911376275 A CN201911376275 A CN 201911376275A CN 111160452 A CN111160452 A CN 111160452A
Authority
CN
China
Prior art keywords
language model
feature vectors
information
text
rumor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911376275.4A
Other languages
English (en)
Inventor
张勇东
毛震东
邓旭冉
王鹏辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Original Assignee
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Research Institute, University of Science and Technology of China USTC filed Critical Beijing Zhongke Research Institute
Publication of CN111160452A publication Critical patent/CN111160452A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于预训练语言模型的多模态网络谣言检测方法,包括:获取待检测信息,所述待检测信息包括图像以及相关的文本信息;通过预训练的深度卷积神经网络提取图像的特征向量,通过预训练的语言模型提取文本信息的文本特征向量;将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接,获得多模态特征向量;利用Softmax二分类器,获得待检测信息为谣言和非谣言这两个类别的概率。该方法可以实现网络谣言的自动、迅速和精确地检测。

Description

一种基于预训练语言模型的多模态网络谣言检测方法
技术领域
本发明涉及网络空间安全技术领域,尤其涉及一种基于预训练语言模型的多模态网络谣言检测方法。
背景技术
当今社交网络平台用户活跃度最高,影响范围广泛,以微博平台为例,每天都有上亿用户发布并分享数量庞大,种类繁多的信息。同时,由于以上特点,这些社交网络平台很容易成为网络谣言滋长传播的土壤,因此针对网络谣言的自动检测和提前检测对网络空间安全具有重要意义。
网络谣言检测最初基于人工的鉴别方法,经过人工审核、用户反馈和专业辟谣平台辟谣等方式进行鉴别。这类检测方法具有两个缺点。首先,该过程需要消耗大量人力资源,需要很多相关从业人员和用户的参与;其次,这些方法的效率较低,往往谣言已经经过一段时间的传播后,才能检测出结果,所以不能及时阻止谣言传播。
为了提升检测速度、提高鉴别精度并减轻人力负担,基于特征工程的检测方法被提出。这类方法针对谣言的统计特征进行鉴别和分类,在一定程度上可以提高谣言检测效率。但是这类方法有两个缺陷,首先,选取合适的特征需要精心的设计和评估;其次,谣言的种类繁多,单个或者少数特征不能区分所有的谣言。
深度学习的出现使得模型对特征的提取能力和基于特征的判别能力得到了巨大的提升,基于人工智能的谣言检测方法应运而生。这类方法使用大量数据训练并且提取潜在的特征,通过这些特征判别是否为谣言,具有更高的效率。以往的方法大多针对单模态的信息,例如文本类谣言。社交平台的谣言往往具有多模态的特征,即同时具有文本和图像信息(以及其它模态信息),单独检测其中一个模态会遗漏其他模态的重要信息。部分方法也应用了多模态信息,不过这类方法大多利用基于RNN的模型提取文本特征,不能充分发掘文本模态信息。
发明内容
本发明的目的是提供一种基于预训练语言模型的多模态网络谣言检测方法,可以实现网络谣言的自动、迅速和精确地检测。
本发明的目的是通过以下技术方案实现的:
一种基于预训练语言模型的多模态网络谣言检测方法,包括:
获取待检测信息,所述待检测信息包括图像以及相关的文本信息;
通过预训练的深度卷积神经网络提取图像的特征向量,通过预训练语言模型提取文本信息的文本特征向量;
将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接,获得多模态特征向量;
利用Softmax二分类器,获得待检测信息为谣言和非谣言这两个类别的概率。
由上述本发明提供的技术方案可以看出,使用多模态特征融合,同时考察文本信息和图像信息,具有更高的准确率;该方法只需使用单条微博消息作为输入便可以获得精确的检测结果,可以在谣言传播初期迅速检测并处理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于预训练语言模型的多模态网络谣言检测方法的模型结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于预训练语言模型的多模态网络谣言检测方法,该方法可以应用于社交网络平台谣言自动检测,将网络谣言消息的文本和图像同时输入到本网络中,可以自动给出该消息为谣言的概率。在实施上,可以以后台程序的方式运行在社交网络平台(例如微博),实时检测社交平台上发出的各类消息,当某类消息为谣言的概率超过某一阈值时,可以迅速通知工作人员,进行下一步的处理。本发明也可用于各类文本图像类消息的谣言检测,具有较强的实用性。
如图1所示,其主要包括:
1、获取待检测信息,所述待检测信息包括图像以及相关的文本信息。
本发明实施例中,以微博信息作为待检测信息,包含微博图像与相关的微博文本。图1所示的微博图像与微博文本的内容仅为示例。
2、通过预训练的深度卷积神经网络提取图像的特征向量,通过预训练的语言模型提取文本信息的文本特征向量。
本发明实施例中,如图1所示的模型作为一个整体来看待,需要进行训练,本发明所提到的深度卷积神经网络、语言模型都是使用的预训练模型,连同Softmax二分类器组成检测模型,并对其进行训练,使模型学习到最优的参数,从而确保检测效果,整体训练的方式将在后文介绍。
1)基于深度卷积神经网络提取图像特征。
本发明实施例中,深度卷积神经网络(例如,VGG19网络)包括依次连接若干卷积层以及全连接层,每一卷积层后都接入批标准化(BatchNorm)层进行正则化;经过若干卷积层处理得到的特征图通过全连接层进行整合,得到图像的特征向量。
2)基于语言模型的文本特征提取。
本发明实施例中,通过预训练语言模型提取文本信息的文本特征向量之前,先对文本信息进行预处理,过滤掉特征字符与统一资源定位符等不必要字符,得到较为纯净的中文句子,再使用训练好的语言模型对预处理后的文本信息进行处理,获得句子级别的向量表示作为文本特征向量。
本发明实施例中,使用的语言模型为ZEN模型,ZEN是目前先进的中文预训练语言模型。ZEN基于BERT语言模型的结构,根据中文的多个字组合成一个词的特点,结合了多粒度编码和字编码进行预训练。
ZEN模型,首先在语料库中基于频率对字进行多粒度组合,形成词组,构造多粒度的词汇表;然后在接收字序列输入时,会根据建立好的词汇表抽取输入的字序列中出现的词组。同时会对输入的字序列和抽取的词组使用多层transformer分别进行编码,得到每个字与词组的向量表示,从而增强每个字的向量表示。
本领域技术人员可以理解,Transformer是一种经典的基本网络结构,Transformer对经典的注意力机制进行了改良和巧妙结合,可以实现更细粒度的文本特征提取。
3、将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接,获得多模态特征向量。
本发明实施例中,使用全连接层将两种不同的特征向量映射到同一个特征空间并进行拼接,从而得到待检测信息的多模态特征向量。
4、利用Softmax二分类器进行分类,获得待检测信息为谣言和非谣言这两个类别的概率。
得到谣言类别与真实类别的概率后可以通过常规方式来确定最终检测结果,例如,通过设定的阈值来判断,由于只有两类,因此当某类概率大于0.5则可判定属于该类。当然为了获取更大的置信度可以设定一个更高的阈值,对于阈值的具体数值可以由技术人员根据实际情况或者经验自行设定。
本发明实施例中,将图1所示的深度卷积神经网络、语言模型以及Softmax二分类器作为一个整体进行训练,训练过程中的损失函数采用交叉熵损失函数;
训练时采用交替优化的策略,即,先固定预训练的语言模型的输出,优化深度卷积神经网络;然后固定深度卷积神经网络的输出,优化语言模型(也即,对预训练的语言模型进行微调);交替优化时,Softmax二分类器作为输出层一并进行训练,如此反复交替优化,网络将会迅速趋于收敛。示例性的,优化过程使用SGD作为优化器,学习率设置为1e-3,momentum设置为0.9。
与现有方法相比,本发明实施例上述方案,使用中文预训练语言模型,具有更强的特征提取能力,可以获得最佳的中文文本特征向量;此方法使用多模态特征融合,同时考察文本信息和图像信息,具有更高的准确率;该方案只需使用单条微博消息作为输入便可以获得精确的检测结果,可以在谣言传播初期迅速检测并处理;该方案使用的预训练模型,可以针对不同的谣言数据集快速微调,具有较强的灵活性。
为了说明本发明上述方案的效果,进行了测试实验。
测试实验中,数据集使用WeiboRumorSet,该数据集来自于微博平台,包含4779真实消息和4748条谣言,包含5318张真实图像和7954张谣言图像。测试实验表明本发明在WeiboRumorSet数据集上可以实现当前最佳的分类效果,分类准确率达到90.18%。为了证明本发明模型各个组件的有效性,另外实施了分割实验。实验结果表明,单独使用VGG19网络进行检测,分类准确率为75.6%;单独使用ZEN模型对文本进行检测,分类准确率为88.75%。实验结果如表1所示,该结果表明本发明具有较好的分类效果。
采用模型 VGG19 ZEN 本方法
分类准确率 75.6% 88.75% 90.18%
表1测试实验结果
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种基于预训练语言模型的多模态网络谣言检测方法,其特征在于,包括:
获取待检测信息,所述待检测信息包括图像以及相关的文本信息;
通过预训练的深度卷积神经网络提取图像的特征向量,通过预训练语言模型提取文本信息的文本特征向量;
将图像的特征向量与文本特征向量映射到同一个特征空间并进行连接,获得多模态特征向量;
利用Softmax二分类器,获得待检测信息为谣言和非谣言这两个类别的概率。
2.根据权利要求1所述的一种基于预训练语言模型的多模态网络谣言检测方法,其特征在于,所述通过训练好的深度卷积神经网络提取图像的特征向量包括:
深度卷积神经网络包括依次连接若干卷积层以及全连接层,每一卷积层后都接入批标准化层进行正则化;经过若干卷积层处理得到的特征图通过全连接层进行整合,得到图像的特征向量。
3.根据权利要求1所述的一种基于预训练语言模型的多模态网络谣言检测方法,其特征在于,所述通过训练好的语言模型提取文本信息的文本特征向量包括:
对文本信息进行预处理,过滤掉特征字符与统一资源定位符;
使用预训练语言模型对预处理后的文本信息进行处理,获得句子级别的向量表示作为文本特征向量。
4.根据权利要求1所述的一种基于预训练语言模型的多模态网络谣言检测方法,其特征在于,将深度卷积神经网络、语言模型以及二分类线性分类器作为一个整体进行训练;训练过程中的损失函数采用交叉熵损失函数,
训练时采用交替优化的策略,即,先固定语言模型的输出,优化深度卷积神经网络;然后固定深度卷积神经网络的输出,优化语言模型;交替优化时,Softmax二分类器作为输出层一并进行训练,如此反复交替优化,直至收敛。
5.根据权利要求4所述的一种基于预训练语言模型的多模态网络谣言检测方法,其特征在于,所述语言模型包括ZEN模型;
ZEN模型根据中文的多个字组合成一个词的特点,结合了多粒度编码和字编码进行预训练;
ZEN模型,首先在语料库中基于频率对字进行多粒度组合,形成词组,构造多粒度的词汇表;在接收字序列输入时,会根据建立好的词汇表抽取输入的字序列中出现的词组;之后,会对输入的字序列和抽取的词组使用多层transformer分别进行编码,得到每个字与词组的向量表示,从而增强每个字的向量表示。
CN201911376275.4A 2019-12-25 2019-12-27 一种基于预训练语言模型的多模态网络谣言检测方法 Pending CN111160452A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911355762 2019-12-25
CN2019113557622 2019-12-25

Publications (1)

Publication Number Publication Date
CN111160452A true CN111160452A (zh) 2020-05-15

Family

ID=70558438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911376275.4A Pending CN111160452A (zh) 2019-12-25 2019-12-27 一种基于预训练语言模型的多模态网络谣言检测方法

Country Status (1)

Country Link
CN (1) CN111160452A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737458A (zh) * 2020-05-21 2020-10-02 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN112035670A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于图像情感倾向的多模态谣言检测方法
CN112200197A (zh) * 2020-11-10 2021-01-08 天津大学 一种基于深度学习和多模态的谣言检测方法
CN112926569A (zh) * 2021-03-16 2021-06-08 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法
CN113051500A (zh) * 2021-03-25 2021-06-29 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN113255758A (zh) * 2021-05-20 2021-08-13 刘祥安 一种网络信息安全检测方法及装置
CN113469261A (zh) * 2021-07-12 2021-10-01 上海交通大学 基于感染图卷积网络的源识别方法及系统
CN113469214A (zh) * 2021-05-20 2021-10-01 中国科学院自动化研究所 虚假新闻检测方法、装置、电子设备和存储介质
CN113705099A (zh) * 2021-05-09 2021-11-26 电子科技大学 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN113783858A (zh) * 2021-08-31 2021-12-10 上海微问家信息技术有限公司 一种非法网站检测方法、装置、计算机设备及存储介质
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376105A (zh) * 2014-11-26 2015-02-25 北京航空航天大学 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108764268A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于深度学习的图文多模态情感识别方法
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376105A (zh) * 2014-11-26 2015-02-25 北京航空航天大学 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108764268A (zh) * 2018-04-02 2018-11-06 华南理工大学 一种基于深度学习的图文多模态情感识别方法
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIZHE DIAO ETC.: ""ZEN:Pre-training Chinese Text Encoder Enhanced by N-gram Representations"", 《ARXIV:1911.00720V1[CS.CL]》 *
金志威等: ""融合多模态特征的社会多媒体谣言检测技术研究"", 《南京信息工程大学学报(自然科学版)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737458A (zh) * 2020-05-21 2020-10-02 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN111737458B (zh) * 2020-05-21 2024-05-21 深圳赛安特技术服务有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN112035670A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于图像情感倾向的多模态谣言检测方法
CN112035670B (zh) * 2020-09-09 2021-05-14 中国科学技术大学 基于图像情感倾向的多模态谣言检测方法
CN112200197A (zh) * 2020-11-10 2021-01-08 天津大学 一种基于深度学习和多模态的谣言检测方法
CN112926569A (zh) * 2021-03-16 2021-06-08 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法
CN112926569B (zh) * 2021-03-16 2022-10-18 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法
CN113051500A (zh) * 2021-03-25 2021-06-29 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN113051500B (zh) * 2021-03-25 2022-08-16 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN113705099A (zh) * 2021-05-09 2021-11-26 电子科技大学 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN113469214A (zh) * 2021-05-20 2021-10-01 中国科学院自动化研究所 虚假新闻检测方法、装置、电子设备和存储介质
CN113255758A (zh) * 2021-05-20 2021-08-13 刘祥安 一种网络信息安全检测方法及装置
CN113469261A (zh) * 2021-07-12 2021-10-01 上海交通大学 基于感染图卷积网络的源识别方法及系统
CN113783858A (zh) * 2021-08-31 2021-12-10 上海微问家信息技术有限公司 一种非法网站检测方法、装置、计算机设备及存储介质
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置

Similar Documents

Publication Publication Date Title
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN112035669B (zh) 基于传播异质图建模的社交媒体多模态谣言检测方法
CN110263324B (zh) 文本处理方法、模型训练方法和装置
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN106328147B (zh) 语音识别方法和装置
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
TWI536364B (zh) 自動語音識別方法和系統
CN113254599A (zh) 一种基于半监督学习的多标签微博文本分类方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN109815485B (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN105446955A (zh) 一种自适应的分词方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN108920446A (zh) 一种工程文本的处理方法
CN108763211A (zh) 融合蕴含知识的自动文摘方法及系统
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111046177A (zh) 一种仲裁案件自动预判方法及装置
CN114548274A (zh) 一种基于多模态交互的谣言检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication